python提取pdf表格數(shù)據(jù)并保存到excel中
當(dāng)前位置:點晴教程→知識管理交流
→『 技術(shù)文檔交流 』
pdfplumber操作pdf文件 python開源庫pdfplumber,可以較為方便地獲取pdf的各種信息,包含pdf的基本信息(作者、創(chuàng)建時間、修改時間...)及表格、文本、圖片等信息,基本可以滿足較為簡單的格式轉(zhuǎn)換功能。 一、pdfplumber安裝及導(dǎo)入 跟其他包一樣,支持使用pip安裝,安裝命令:
安裝成功后,可直接用import導(dǎo)入,導(dǎo)入命令:
二、pdfplumber基礎(chǔ)使用 1、基礎(chǔ)知識 (1)pdfplumber有2個基礎(chǔ)類 PDF和Page,PDF用來處理整個文檔,Page用來處理整個頁面。
(2)pdfplumber讀取pdf文件方式 pdfplumber.open(‘文件路徑’),返回pdfplumber.PDF類的實例。 如果pdf有密碼,加入password參數(shù): pdfplumber.open(‘文件路徑’,password=‘密碼’) 2、獲取pdf基礎(chǔ)信息 讀取pdf文件,并輸出pdf文件的基礎(chǔ)信息
3、pdfplumber提取表格數(shù)據(jù) 提取表格數(shù)據(jù)主要用到extract_tables()和extract_table()兩種方法,這兩種提取方式各有不同。 用以下pdf文檔,作為演示文檔。 (1)extract_tables()方法 輸出文檔所有表格,返回一個嵌套列表,其結(jié)構(gòu)層次為table-row-cell。如:
(2)、extact_table()方法 不會返回文檔的所有表格,僅返回行數(shù)最多的表格數(shù)據(jù),如存在多個行數(shù)相等的表格,則默認輸出頂部表格數(shù)據(jù)。返回的數(shù)據(jù)結(jié)構(gòu)層次為row-cell,表格的每一行都為一個單獨的列表,列表中的元素即為原表格的各個單元格的數(shù)據(jù)。如:
三、提取pdf表格數(shù)據(jù)并保存到excel中 結(jié)合以上方法,綜合使用: 提取pdf文件所有表格數(shù)據(jù),并保存excel中,部分代碼和效果如下: (關(guān)注本公眾號,回復(fù)【pdfexcel】即可獲得完整代碼,運行并輸入文件路徑,即可轉(zhuǎn)換成excel)。
以上就是pdfplumber基礎(chǔ)知識和表格數(shù)據(jù)提取方法。 -end- 閱讀原文:原文鏈接 該文章在 2025/8/28 15:44:01 編輯過 |
關(guān)鍵字查詢
相關(guān)文章
正在查詢... |