欧美国产精品综合,免费观看的黄色网址,亚洲中文无码av在线

python提取pdf表格數(shù)據(jù)并保存到excel中

當(dāng)前位置：點晴教程→知識管理交流 →『技術(shù)文檔交流』

admin

2025年8月28日 1:51 本文熱度 1089

pdfplumber操作pdf文件

python開源庫pdfplumber，可以較為方便地獲取pdf的各種信息，包含pdf的基本信息（作者、創(chuàng)建時間、修改時間...）及表格、文本、圖片等信息，基本可以滿足較為簡單的格式轉(zhuǎn)換功能。

一、pdfplumber安裝及導(dǎo)入

跟其他包一樣，支持使用pip安裝，安裝命令：

pip install pdfplumber

安裝成功后，可直接用import導(dǎo)入，導(dǎo)入命令：

import pdfplumber

二、pdfplumber基礎(chǔ)使用

1、基礎(chǔ)知識

（1）pdfplumber有2個基礎(chǔ)類

PDF和Page，PDF用來處理整個文檔，Page用來處理整個頁面。

類	用法簡介
pdfplumber.PDF類	.metadata，獲取pdf基礎(chǔ)信息，返回字典格式，包含作者、創(chuàng)建時間等
pdfplumber.PDF類	.pages，返回pdfplumber.Page實例的列表，每一個實例包含pdf每一頁的信息
pdfplumber.Page	pdfplumber核心功能，對PDF的大部分操作都是基于這個類，包括提取文本、表格等

（2）pdfplumber讀取pdf文件方式

pdfplumber.open(‘文件路徑’)，返回pdfplumber.PDF類的實例。

如果pdf有密碼，加入password參數(shù)：

pdfplumber.open(‘文件路徑’,password=‘密碼’)

2、獲取pdf基礎(chǔ)信息

讀取pdf文件，并輸出pdf文件的基礎(chǔ)信息

import pdfplumber
# 打開pdf文件，有密碼加入password參數(shù)pdf_info =pdfplumber.open(r'test.pdf')meta_data = pdf_info.metadata  # pdf的基礎(chǔ)信息page_con = len(pdf_info.pages)  # 獲取pdf的總頁數(shù)print('pdf文件的基礎(chǔ)信息：\n', meta_data)print('pdf共%s頁' % page_con)

3、pdfplumber提取表格數(shù)據(jù)

提取表格數(shù)據(jù)主要用到extract_tables()和extract_table()兩種方法，這兩種提取方式各有不同。

用以下pdf文檔，作為演示文檔。

（1）extract_tables()方法

輸出文檔所有表格，返回一個嵌套列表，其結(jié)構(gòu)層次為table-row-cell。如：

#extract_tables()用法with pdfplumber.open(r'test.pdf') as pdf_info:  # 打開pdf文件    page_one = pdf_info.pages[0]  # 選擇第一頁    page_one_table =page_one.extract_tables()  # 獲取pdf文檔第一頁的所有表格數(shù)據(jù)    for row in page_one_table:       print('第一頁的表格數(shù)據(jù)：', row)

（2）、extact_table()方法

不會返回文檔的所有表格，僅返回行數(shù)最多的表格數(shù)據(jù)，如存在多個行數(shù)相等的表格，則默認輸出頂部表格數(shù)據(jù)。返回的數(shù)據(jù)結(jié)構(gòu)層次為row-cell，表格的每一行都為一個單獨的列表，列表中的元素即為原表格的各個單元格的數(shù)據(jù)。如：

# extract_table()用法with pdfplumber.open(r'test.pdf') as pdf_info:  # 打開pdf文件    page_one = pdf_info.pages[0]  # 選擇第一頁    page_one_table = page_one.extract_table()    for row in page_one_table:        print(row)

三、提取pdf表格數(shù)據(jù)并保存到excel中

結(jié)合以上方法，綜合使用：

提取pdf文件所有表格數(shù)據(jù)，并保存excel中，部分代碼和效果如下：

（關(guān)注本公眾號，回復(fù)【pdfexcel】即可獲得完整代碼，運行并輸入文件路徑，即可轉(zhuǎn)換成excel）。

# 提取表格數(shù)據(jù),并保存到excel中def get_table(self):    wb = Workbook()  # 實例化一個工作簿對象    ws = wb.active  # 獲取第一個sheet    con = 0    try:        # 獲取每一頁的表格中的文字，返回table、row、cell格式：[[[row1],[row2]]]        for page in self.pdf_info.pages:            for table in page.extract_tables():                for row in table:                    # 對每個單元格的字符進行簡單清洗處理                    row_list = [cell.replace('\n', ' ') if cell else '' for cell in row]                    ws.append(row_list)  # 寫入數(shù)據(jù)            con += 1            print('---------------分割線,第%s頁---------------' % con)    except Exception as e:        print('報錯：', e)    finally:        wb.save('\\'.join(self.pdf_path.split('\\')[:-1]) + '\pdf_excel.xlsx')print('寫入完成！')

以上就是pdfplumber基礎(chǔ)知識和表格數(shù)據(jù)提取方法。

-end-

閱讀原文：原文鏈接

該文章在 2025/8/28 15:44:01 編輯過

關(guān)鍵字查詢

相關(guān)文章

正在查詢...

點晴ERP是一款針對中小制造業(yè)的專業(yè)生產(chǎn)管理軟件系統(tǒng),系統(tǒng)成熟度和易用性得到了國內(nèi)大量中小企業(yè)的青睞。

點晴PMS碼頭管理系統(tǒng)主要針對港口碼頭集裝箱與散貨日常運作、調(diào)度、堆場、車隊、財務(wù)費用、相關(guān)報表等業(yè)務(wù)管理，結(jié)合碼頭的業(yè)務(wù)特點，圍繞調(diào)度、堆場作業(yè)而開發(fā)的。集技術(shù)的先進性、管理的有效性于一體，是物流碼頭及其他港口類企業(yè)的高效ERP管理信息系統(tǒng)。

點晴WMS倉儲管理系統(tǒng)提供了貨物產(chǎn)品管理,銷售管理,采購管理,倉儲管理,倉庫管理,保質(zhì)期管理,貨位管理,庫位管理,生產(chǎn)管理,WMS管理系統(tǒng),標(biāo)簽打印,條形碼,二維碼管理,批號管理軟件。

點晴免費OA是一款軟件和通用服務(wù)都免費，不限功能、不限時間、不限用戶的免費OA協(xié)同辦公管理系統(tǒng)。

成人欧美一区二区三区的电影,日韩一级一欧美一级国产,国产成人国拍亚洲精品,无码人妻精品一区二区三区毛片,伊人久久无码大香线蕉综合

python提取pdf表格數(shù)據(jù)并保存到excel中