利用Python批量转换企业PDF年报为文本
此前,我们介绍过,如何使用Python解析PDF文件:Python解析提取PDF文件的方法简介
现在,我们要对企业年报PDF文件进行批量转换,提出其中的文本。
转换方法:
直接进行转换,保存成对应的txt文本文件:
import pdfplumber
import os
import time
def pdf_to_txt_pdfplumber(pdf_path):
starttime = time.time()
print('开始转换',pdf_path)
output = pdf_path.split('.')[0] +'.txt'
with pdfplumber.open(pdf_path) as pdf:
with open(output, 'w', encoding='utf-8') as txt_file:
for page in pdf.pages:
page_text = page.extract_text()
if page_text:
txt_file.write(page_text + '\n')
print('转换完成,耗时:',time.time()-starttime)
# 获取当前目录下所有的pdf文件
files = [i for i in os.listdir() if '.pdf' in i or '.PDF' in i]
for file in files:
pdf_to_txt_pdfplumber(file)
这里我用两个PDF文件进行测试输出如下:
一般企业的年报在200-300页左右,可以转换一个文件的耗时还是较长的,此时,目录下生成了对应的txt文件:
一些想法:
- 转换单个PDF文件的耗时较长,所以如果能够直接获取文本,就可以省去转换这个步骤。这也是为什么之前我提到如果能够获取文本,尽量直接获取文本,实在没有的,再下载PDF进行转换
- 有一些PDF文件会解析失败,可能是因为这个PDF文件是直接由“图片”转换而成的,并非是直接由“文字”模式情况下输出的。
- 转换不了的怎么办?当成缺失值处理,在经管的研究中,现在的样本量越来越大,存在缺失值也是正常的情况,但是能够处理的尽量进行处理。
- 如何更好的管理数据?在这里,我们是将每个年报转换成了txt文件,实际上还是较为分散的。其实可以将他们全部储存到数据库中,在本地,sqlite是一个不错的选择,使用也较为方便。在存储数据库时可以添加一些我们需要的字段,例如企业名称,ID,年份,这样在后续的分析中会更加简单清晰。
关于如何保存到数据库,这里提供当时我的一些做法。
首先:创建数据库,设计好我们需要的字段,例如ID,年份,企业名称等。
import sqlite3
conn = sqlite3.connect('report.db') # 允许多线程访问
sql = '''
create table report(id integer primary key autoincrement,
company varchar, year varchar ,infos varchar)
'''
cursor = conn.cursor()
cursor.execute(sql)
conn.commit()
以上几行代码就完成了数据库的创建:
在这里,我仅进行示范,就不添加更多字段了。
其次:改写原本的代码,写入数据库即可。
import pdfplumber
import os
import time
import sqlite3
conn = sqlite3.connect('report.db')
def pdf_to_txt_pdfplumber(pdf_path):
company = pdf_path.split('-')[0]
year = ''.join([i for i in pdf_path.split('-')[1] if i.isdigit()])
starttime = time.time()
print('开始转换',pdf_path)
all_page_text = ''
with pdfplumber.open(pdf_path) as pdf:
for page in pdf.pages:
page_text = page.extract_text()
if page_text:
all_page_text = all_page_text + page_text
# 写入SQLITE
sql = ''' insert or replace into report(company,year,infos)
values("%s","%s","%s")
''' % (company, year, all_page_text.strip())
cursor = conn.cursor()
cursor.execute(sql)
conn.commit()
print('写入完成,耗时:',time.time()-starttime)
files = [i for i in os.listdir() if '.pdf' in i or '.PDF' in i]
for file in files:
pdf_to_txt_pdfplumber(file)
conn.close()
执行结果:
可以看到,保存到数据库中更为简洁,更利于数据的管理和后续数据分析。
由于我们是读取文件目录下的所有PDF进行转换,所以可以将转换完成后的pdf文件移动或者删除,这样即使因为特殊原因需要重新转换的时候,也不会重复转换相同的文件。例如:
import shutil
# 移动到当前目录下done文件下
shutil.move(file_dir + '\/' + file, file_dir + '/done')