当前位置: 首页 > Python编程 > Python编程实战技能 > Python编程学习教程 > python如何提取PDF文本

python如何提取PDF文本

发布时间:2020年11月23日 10:27:10 来源:环球青藤 点击量:1077

【摘要】本文为你展示,如何用Python把许多PDF文件的文本内容批量提取出来 首先,我们读入一些模块,以进行文件操作。(推荐学习:Python视频教程)

本文为你展示,如何用Python把许多PDF文件的文本内容批量提取出来.

首先,我们读入一些模块,以进行文件操作。(推荐学习:Python视频教程)

import glob
import os

演示目录下,有两个文件夹,分别是pdf和newpdf。

我们指定 pdf 文件所在路径为其中的pdf文件夹。

pdf_path = "pdf/"

我们希望获得所有 pdf 文件的路径。用glob,一条命令就能完成这个功能。

pdfs = glob.glob("{}/*.pdf".format(pdf_path))

看看我们获得的 pdf 文件路径是否正确。

pdfs
['pdf/复杂系统仿真的微博客虚假信息扩散模型研究.pdf',
'pdf/面向影子分析的社交媒体竞争情报搜集.pdf',
'pdf/面向人机协同的移动互联网政务门户探析.pdf']

经验证。准确无误。

下面我们利用 pdfminer 来从 pdf 文件中抽取内容。我们需要从辅助 Python 文件 pdf_extractor.py 中读入函数 extract_pdf_content。

from pdf_extractor import extract_pdf_content

用这个函数,我们尝试从 pdf 文件列表中的第一篇里,抽取内容,并且把文本保存在 content 变量里。

content = extract_pdf_content(pdfs[0])

显然,内容抽取并不完美,页眉页脚等信息都混了进来。不过,对于我们的许多文本分析用途来说,这无关紧要。

更多Python相关技术文章,请访问Python教程栏目进行学习!

以上就是小编分享的关于python如何提取PDF文本的详细内容希望对大家有所帮助,更多有关python教程请关注环球青藤其它相关文章!

分享到: 编辑:wangmin

就业培训申请领取
您的姓名
您的电话
意向课程
点击领取

环球青藤

官方QQ

扫描上方二维码或点击一键加群,免费领取大礼包,加群暗号:青藤。 一键加群

绑定手机号

应《中华人民共和国网络安全法》加强实名认证机制要求,同时为更加全面的体验产品服务,烦请您绑定手机号.

预约成功

本直播为付费学员的直播课节

请您购买课程后再预约

环球青藤移动课堂APP 直播、听课。职达未来!

安卓版

下载

iPhone版

下载
环球青藤官方微信服务平台

刷题看课 APP下载

免费直播 一键购课

代报名等人工服务

课程咨询 学员服务 公众号

扫描关注微信公众号

APP

扫描下载APP

返回顶部