百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

Java 提取PDF文档中的表格信息

csdh11 2025-01-17 11:27 27 浏览

在前文中我曾介绍过如何利用Java代码在PDF文档中创建表格。那对于一个已经包含有表格的PDF文档,想要提取其中表格信息进行编辑分析是否可行呢?答案是可以。用到的工具同样是Spire.PDF for Java控件,需用到它的最新版4.10.2。

以下是PDF示例文档:

导入Jar包:E-iceblue中文官网下载Spire.PDF for Java产品包,解压后在lib文件夹下找到Spire.Pdf.jar,然后将其手动导入IDEA;如果用Maven仓库安装方式,在pom.xml里键入以下代码即可。

<repositories>
        <repository>
            <id>com.e-iceblue</id>
            <name>e-iceblue</name>
            <url>https://repo.e-iceblue.com/nexus/content/groups/public/</url>
        </repository>
</repositories>
<dependencies>
    <dependency>
        <groupId> e-iceblue </groupId>
        <artifactId>spire.pdf</artifactId>
        <version>4.10.2</version>
    </dependency>
</dependencies>

代码示例

Spire.PDF for Java提供了
PdfTableExtractor.extractTable(int pageIndex)
方法来检测和提取PDF文档中的表格信息。以下是具体实现步骤:

  • 创建PdfDocument实例
  • 使用PdfDocument.loadFromFile()方法加载PDF示例文档
  • 创建StringBuilderPdfTableExtractor实例
  • 遍历文档所有页面,然后使用PdfTableExtractor.extractTable(int pageIndex)方法提取表格到PdfTable 数组
  • 遍历表格的所有行和列,然后使用PdfTable.getText(int rowIndex, int columnIndex)方法提取数据,最终通过StringBuilder.append()方法将数据保存到StringBuilder实例
  • 使用Writer.write()方法将提取的表格数据写入.txt文档
import com.spire.pdf.PdfDocument;
import com.spire.pdf.utilities.PdfTable;
import com.spire.pdf.utilities.PdfTableExtractor;
import java.io.FileWriter;
import java.io.IOException;

public class ExtractTable {
    public static void main(String[] args) throws IOException {
        //创建PdfDocument实例
        PdfDocument pdf = new PdfDocument();
        //加载PDF示例文档
        pdf.loadFromFile("C:\\Users\\Test1\\Desktop\\sample.pdf");

        //创建StringBuilder和PdfTableExtractor实例
        StringBuilder builder = new StringBuilder();
        PdfTableExtractor extractor = new PdfTableExtractor(pdf);

        //遍历PDF文档的所有页
        for (int pageIndex = 0; pageIndex < pdf.getPages().getCount(); pageIndex++) {
            PdfTable[] tableLists = extractor.extractTable(pageIndex);
            if (tableLists != null && tableLists.length > 0) {
                for (PdfTable table : tableLists) {
                    //获取表格的所有行
                    for (int i = 0; i < table.getRowCount(); i++) {
                        //获取表格所有列
                        for (int j = 0; j < table.getColumnCount(); j++) {
                            //提取表格中的所有数据至StringBuilder
                            String text = table.getText(i, j);
                            builder.append(text + " | ");
                        }
                        builder.append("\r\n");
                    }
                }
            }
        }

        //保存数据至.txt文档
        FileWriter fw = new FileWriter("output/ExtractTable.txt");
        fw.write(builder.toString());
        fw.flush();
        fw.close();
    }
}

表格信息提取效果如下:

相关推荐

手机最强Python编程神器,在手机上运行Python

手机编程软件有很多,大部分都很难使用,操作不灵活,甚至不能安装第三方库。...

centos7上安装python3

centos7上默认安装的是python2,要使用python3则需要自行下载源码编译安装。1.安装依赖...

python详细安装教程

本章开始,我们将详细介绍Python编程环境的搭建,工欲善其事必先利其器,所以我们这里先介绍python详细安装教程。由于Python是跨平台的,他可以运行在Windows、Linux、Mac等系统上...

再见!Python 3.6

到上月为止,Python3.6对我来说已经死掉了。...

手把手教你使用Python网络爬虫下载一本小说(附源码)

大家好,我是Python进阶者。前言前几天【磐奚鸟】大佬在群里分享了一个抓取小说的代码,感觉还是蛮不错的,这里分享给大家学习。...

Windows系统下载安装Python3.9(安装Python3.11同理)

本节我们将向大家介绍如何在Windows系统安装Python3.9开发环境,安装Python3.11下载Python3.11安装包即可,安装流程都是一样的下载安装Python3.9环境...

使用python3爬取网页,aria2下载最新电影,Jellyfin播放电影

前言:在我搭建好Jellyfin软件后,因为只能播放本地视频,就想能不能播放网络上的电影,可以每天自动下载并更新,这样就不用我手工下载好,再上传到NAS中播放。或许有更好的方法,那就是直接用电影播放源...

Python第一课:下载与安装

Python自学靠不靠谱?容易上手么?掌握周期长么?如果你真的有兴趣学习Python,那么可以告诉你,只要你兴趣还在,那么你的Python就会了一半,没错,Python就是如此简单,废话不多说,下面跟...

CentOS 7下安装Python 3.10的完整过程

1.安装相应的编译工具yum-ygroupinstall"Developmenttools"yum-yinstallzlib-develbzip2-develope...

Ubuntu 25.04发行版登场:Linux 6.14内核,带来多项技术革新

IT之家4月18日消息,科技媒体linuxiac昨日(4月17日)发布博文,报道称代号为PluckyPuffin的Ubuntu25.04发行版正式上线,搭载最新Linu...

解放双手!Python 自动化下载邮件附件,可自定义时间段

在日常工作中,我们经常需要从邮箱里下载特定日期范围内的邮件附件。想象一下,你需要收集过去几个月内客户发送的报价单、合同等附件,如果手动一个个去查找和下载,那得花费多少时间和精力呀!今天就给大家分享一个...

Python爬取下载m3u8加密视频,原来这么简单

1.前言爬取视频的时候发现,现在的视频都是经过加密(m3u8),不再是mp4或者avi链接直接在网页显示,都是经过加密形成ts文件分段进行播放。...

Python3 网络爬虫:漫画下载,动态加载、反爬虫这都不叫事

一、前言作者:JackCui经过上两篇文章的学习,Python爬虫三步走:发起请求、解析数据、保存数据,已经掌握,算入门爬虫了吗?不,还远远不够!只掌握这些,还只能算门外汉级别。今天,就来带大家继续...

win7装DeepseeK的方法

DeepSeek是一个基于Python的工具或库,因此能否在Windows7上运行取决于以下因素:---###1.**Python版本支持**-DeepSeek需要Python...

Linux环境中利用curl和wget命令下载文件的使用技巧

简介:Linux里常常用来下载文件的命令有curl命令和wget命令。wget命令一般是从特定的URL下载文件。wget有个优点,就是比较稳当,特别适合网络带宽窄或者网络不太稳定的情...