python第三方庫PyMuPDF:如何提取pdf中表格數(shù)據(jù)
當(dāng)前位置:點晴教程→知識管理交流
→『 技術(shù)文檔交流 』
背景:從PDF文件中提取表格都是一個老大難的問題。無論你使用的是PyPDF2還是其他什么第三方庫,提取出來的表格都會變成純文本,效果并不好。公司之前有很多的研報pdf解析,都是通過買的第三方服務(wù)來解析的,偶然間發(fā)現(xiàn) python第三方庫
pip install pymupdf==1.23.0 pandas openpyxl首先我們從網(wǎng)址上海清算所_研究與統(tǒng)計 (shclearing.com.cn), https://www.shclearing.com.cn/sjtj/tjyb/ 下載債券期末托管的pdf,pdf中表格如下:
確定好解析文件后,讓我們開始編寫代碼 import fitz root_path = "./表四 債券期末托管情況2023-07-31.pdf" doc = fitz.open(root_path) page = doc[0] # 下標從0開始,第五頁對應(yīng)4 tables = page.find_tables() df = tables[0].to_pandas() print(df) df.to_excel('table.xlsx', index=False)
保存table.xlsx 效果如下
下面我們將解析過程中的df數(shù)據(jù)轉(zhuǎn)換成json列表,截個圖吧,公眾號的代碼粘貼太丑:
閱讀原文:原文鏈接 該文章在 2025/8/28 16:33:05 編輯過 |
關(guān)鍵字查詢
相關(guān)文章
正在查詢... |