利用Python批量转换企业PDF年报为文本

利用Python批量转换企业PDF年报为文本

编程文章jaq1232025-04-30 10:55:2729A+A-

此前,我们介绍过,如何使用Python解析PDF文件:Python解析提取PDF文件的方法简介

现在,我们要对企业年报PDF文件进行批量转换,提出其中的文本。

转换方法:

直接进行转换,保存成对应的txt文本文件:

import pdfplumber
import os
import time

def pdf_to_txt_pdfplumber(pdf_path):
    starttime = time.time()
    print('开始转换',pdf_path)
    output = pdf_path.split('.')[0] +'.txt'
    with pdfplumber.open(pdf_path) as pdf:
        with open(output, 'w', encoding='utf-8') as txt_file:

            for page in pdf.pages:

                page_text = page.extract_text()
                if page_text:
                    txt_file.write(page_text + '\n')
    print('转换完成,耗时:',time.time()-starttime)

# 获取当前目录下所有的pdf文件
files = [i for i in os.listdir() if '.pdf' in i or '.PDF' in i]

for file in files:
    pdf_to_txt_pdfplumber(file)

这里我用两个PDF文件进行测试输出如下:

一般企业的年报在200-300页左右,可以转换一个文件的耗时还是较长的,此时,目录下生成了对应的txt文件:

一些想法:

  • 转换单个PDF文件的耗时较长,所以如果能够直接获取文本,就可以省去转换这个步骤。这也是为什么之前我提到如果能够获取文本,尽量直接获取文本,实在没有的,再下载PDF进行转换
  • 有一些PDF文件会解析失败,可能是因为这个PDF文件是直接由“图片”转换而成的,并非是直接由“文字”模式情况下输出的。
  • 转换不了的怎么办?当成缺失值处理,在经管的研究中,现在的样本量越来越大,存在缺失值也是正常的情况,但是能够处理的尽量进行处理。
  • 如何更好的管理数据?在这里,我们是将每个年报转换成了txt文件,实际上还是较为分散的。其实可以将他们全部储存到数据库中,在本地,sqlite是一个不错的选择,使用也较为方便。在存储数据库时可以添加一些我们需要的字段,例如企业名称,ID,年份,这样在后续的分析中会更加简单清晰。

关于如何保存到数据库,这里提供当时我的一些做法。

首先:创建数据库,设计好我们需要的字段,例如ID,年份,企业名称等。

import sqlite3

conn = sqlite3.connect('report.db')  # 允许多线程访问
sql = '''
        create table report(id integer primary key autoincrement, 
        company varchar, year varchar ,infos varchar)
    ''' 

cursor = conn.cursor()
cursor.execute(sql)
conn.commit()

以上几行代码就完成了数据库的创建:

在这里,我仅进行示范,就不添加更多字段了。

其次:改写原本的代码,写入数据库即可。

import pdfplumber
import os
import time
import sqlite3

conn = sqlite3.connect('report.db') 

def pdf_to_txt_pdfplumber(pdf_path):

    company = pdf_path.split('-')[0]
    year = ''.join([i for i in pdf_path.split('-')[1] if i.isdigit()])
    starttime = time.time()
    print('开始转换',pdf_path)
    all_page_text = ''
    with pdfplumber.open(pdf_path) as pdf:
        
        for page in pdf.pages:
            page_text = page.extract_text()
            if page_text:
                all_page_text = all_page_text + page_text
        # 写入SQLITE
        sql = '''   insert or replace into report(company,year,infos)
                    values("%s","%s","%s")
                        ''' % (company, year, all_page_text.strip())
        cursor = conn.cursor()
        cursor.execute(sql)
        conn.commit()

    print('写入完成,耗时:',time.time()-starttime)

files = [i for i in os.listdir() if '.pdf' in i or '.PDF' in i]

for file in files:
    pdf_to_txt_pdfplumber(file)
conn.close()

执行结果:

可以看到,保存到数据库中更为简洁,更利于数据的管理和后续数据分析。

由于我们是读取文件目录下的所有PDF进行转换,所以可以将转换完成后的pdf文件移动或者删除,这样即使因为特殊原因需要重新转换的时候,也不会重复转换相同的文件。例如:

import shutil

# 移动到当前目录下done文件下
shutil.move(file_dir + '\/' + file, file_dir + '/done')
点击这里复制本文地址 以上内容由jaq123整理呈现,请务必在转载分享时注明本文地址!如对内容有疑问,请联系我们,谢谢!

苍茫编程网 © All Rights Reserved.  蜀ICP备2024111239号-21