转换方法：

直接进行转换，保存成对应的txt文本文件：

import pdfplumber
import os
import time

def pdf_to_txt_pdfplumber(pdf_path):
    starttime = time.time()
    print('开始转换',pdf_path)
    output = pdf_path.split('.')[0] +'.txt'
    with pdfplumber.open(pdf_path) as pdf:
        with open(output, 'w', encoding='utf-8') as txt_file:

            for page in pdf.pages:

                page_text = page.extract_text()
                if page_text:
                    txt_file.write(page_text + '\n')
    print('转换完成,耗时:',time.time()-starttime)

# 获取当前目录下所有的pdf文件
files = [i for i in os.listdir() if '.pdf' in i or '.PDF' in i]

for file in files:
    pdf_to_txt_pdfplumber(file)

这里我用两个PDF文件进行测试输出如下：

一般企业的年报在200-300页左右，可以转换一个文件的耗时还是较长的，此时，目录下生成了对应的txt文件：

一些想法：

转换单个PDF文件的耗时较长，所以如果能够直接获取文本，就可以省去转换这个步骤。这也是为什么之前我提到如果能够获取文本，尽量直接获取文本，实在没有的，再下载PDF进行转换
有一些PDF文件会解析失败，可能是因为这个PDF文件是直接由“图片”转换而成的，并非是直接由“文字”模式情况下输出的。
转换不了的怎么办？当成缺失值处理，在经管的研究中，现在的样本量越来越大，存在缺失值也是正常的情况，但是能够处理的尽量进行处理。
如何更好的管理数据？在这里，我们是将每个年报转换成了txt文件，实际上还是较为分散的。其实可以将他们全部储存到数据库中，在本地，sqlite是一个不错的选择，使用也较为方便。在存储数据库时可以添加一些我们需要的字段，例如企业名称，ID，年份，这样在后续的分析中会更加简单清晰。

关于如何保存到数据库，这里提供当时我的一些做法。

首先：创建数据库，设计好我们需要的字段，例如ID，年份，企业名称等。

import sqlite3

conn = sqlite3.connect('report.db')  # 允许多线程访问
sql = '''
        create table report(id integer primary key autoincrement, 
        company varchar, year varchar ,infos varchar)
    ''' 

cursor = conn.cursor()
cursor.execute(sql)
conn.commit()

以上几行代码就完成了数据库的创建：

在这里，我仅进行示范，就不添加更多字段了。

其次：改写原本的代码，写入数据库即可。

import pdfplumber
import os
import time
import sqlite3

conn = sqlite3.connect('report.db') 

def pdf_to_txt_pdfplumber(pdf_path):

    company = pdf_path.split('-')[0]
    year = ''.join([i for i in pdf_path.split('-')[1] if i.isdigit()])
    starttime = time.time()
    print('开始转换',pdf_path)
    all_page_text = ''
    with pdfplumber.open(pdf_path) as pdf:
        
        for page in pdf.pages:
            page_text = page.extract_text()
            if page_text:
                all_page_text = all_page_text + page_text
        # 写入SQLITE
        sql = '''   insert or replace into report(company,year,infos)
                    values("%s","%s","%s")
                        ''' % (company, year, all_page_text.strip())
        cursor = conn.cursor()
        cursor.execute(sql)
        conn.commit()

    print('写入完成,耗时:',time.time()-starttime)

files = [i for i in os.listdir() if '.pdf' in i or '.PDF' in i]

for file in files:
    pdf_to_txt_pdfplumber(file)
conn.close()

执行结果：

可以看到，保存到数据库中更为简洁，更利于数据的管理和后续数据分析。

由于我们是读取文件目录下的所有PDF进行转换，所以可以将转换完成后的pdf文件移动或者删除，这样即使因为特殊原因需要重新转换的时候，也不会重复转换相同的文件。例如：

import shutil

# 移动到当前目录下done文件下
shutil.move(file_dir + '\/' + file, file_dir + '/done')

点击这里复制本文地址以上内容由jaq123整理呈现，请务必在转载分享时注明本文地址！如对内容有疑问，请联系我们，谢谢！

pdfplumber

上一篇：用DeepSeek+Trae 自己写PDF表格转为EXCEL表格

下一篇：PDF多模态解析革命:零误差分割+向量化存储实战指南

利用Python批量转换企业PDF年报为文本

转换方法：

一些想法：

相关文章