Python培训

400-996-5531

热门课程:

教你用python玩转PDF文档

发布：Python人工智能培训
来源：Pthon3X
时间：2019-08-13 17:02

python作为一种具有相对简单语法的高级解释语言，即使对于那些没有编程经验的人来说，Python也是简单易操作的。强大的Python库让你事半功倍。在处理文本信息时，通常我们需要从word、PDF文档中提取出信息，而PDF是最重要和最广泛使用的用来呈现和交换文件的数字媒体之一

。PDF包含有用的信息，链接和按钮，表单域，音频，视频和业务逻辑。python库很好地集成并提供处理非结构化数据源。运用python可以轻松从PDF中提取有用信息后，您可以轻松地将该数据用于任何机器学习或自然语言处理模型。

常见的Python库

以下是可用于处理PDF文件的一些Python库

PDFMiner ：一个从PDF文档中提取信息的工具。与其他PDF相关工具不同，它完全专注于获取和分析文本数据。

PyPDF2 ：一个纯python PDF库，能够分割，合并，裁剪和转换PDF文件的页面。它还可以向PDF文件添加自定义数据，查看选项和密码。它可以从PDF中检索文本和元数据，以及将整个文件合并在一起。

Tabula-py：一个 tabula-java的简单Python包装器，它可以读取PDF表。您可以从PDF读取表格并转换为pandas的DataFrame。tabula-py还允许您将PDF文件转换为CSV / TSV / JSON文件。

Slate：PDFMiner的包装器实现

PDFQuery：pdfminer，lxml和pyquery的轻量级包装器。它旨在使用尽可能少的代码可靠地从PDF集合中提取数据。

xpdf ：xpdf的 Python包装器(目前只是“pdftotext”实用程序)

从pdf中提取文本

使用PyPDF2从pdf中提取简单文本，示例代码如下：

import PyPDF2

# pdf file object

# you can find find the pdf file with complete code in belowpdf

FileObj = open('example.pdf', 'rb')

# pdf reader objectpdfReader = PyPDF2.Pdf

FileReader(pdfFileObj

)# number of pages in pdfprint(pdfReader.numPages)

# a page objectpageObj = pdfReader.getPage(0)

# extracting text from page.

# this will print the text you can also save that into String

print(pageObj.extractText())

从pdf中读取表格数据

使用Pdf中的Table数据，我们可以使用Tabula-py,示例代码如下：

import tabula

# readinf the PDF file that contain Table Data

# you can find find the pdf file with complete code in below

# read_pdf will save the pdf table into Pandas Dataframe

df = tabula.read_pdf("offense.pdf")

# in order to print first 5 lines of Table

df.head()

如果您的Pdf文件包含多个表，可以进行如下设置：

df = tabula.read_pdf(“crime.pdf”，multiple_tables = True)

还可以从任何特定PDF页面的特定部分提取信息

tabula.read_pdf(“crime.pdf”，area =(126,149,212,462)，pages = 1)

设置读取输出为JSON格式

tabula.read_pdf(“crime.pdf”，output_format =“json”)

将Pdf导出到Excel

使用以下代码将PDF数据转换为Excel或CSV

tabula.convert_into(“crime.pdf”，“crime_testing.xlsx”，output_format =“xlsx”)

免责声明：内容和图片源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

预约申请免费试听课

填写下面表单即可预约申请免费试听！怕学不会？助教全程陪读，随时解惑！担心就业？一地学习，可全国推荐就业！

上一篇：Python中的三元表达式

下一篇：Python不再为字符集编码发愁，使用chardet轻松解决你的困扰

开班时间

Java开发 12月30日立即报名
云计算 12月30日立即报名
网络安全 12月30日立即报名
Python 12月30日立即报名
数据分析 12月30日立即报名
C++ 12月30日立即报名
物联网 12月30日立即报名
Web前端 12月30日立即报名
软件测试 12月30日立即报名
AI大模型 12月30日立即报名
鸿蒙 12月30日立即报名
智能办公 12月30日立即报名
商业视效 12月30日立即报名
AGI商业变现 12月30日立即报名
UI设计 12月30日立即报名
新媒体电商 12月30日立即报名

Python培训

Python培训

教你用python玩转PDF文档

预约申请免费试听课

2021年Python全套免费视频教程在哪里？

学 Python 零基础入门怎么学？

Python编程学习路线

Python最高有几级？

开班时间

相关栏目

热门搜索