国产精品18禁污污网站,日韩在线欧美中文字幕

python自動化系列：自動提取PDF表格數(shù)據(jù)并保存為Excel文件

當(dāng)前位置：點晴教程→知識管理交流 →『技術(shù)文檔交流』

admin

2025年8月28日 1:49 本文熱度 969

作品介紹

作品名稱：自動提取PDF表格數(shù)據(jù)并保存為Excel文件

開發(fā)環(huán)境：PyCharm 2023.3.4 + python3.7

用到的庫：pdfplumber、pandas、logging（用于日志記錄的一個強大工具）

作品簡介：該實例使用pdfplumber庫來提取PDF文件中的表格數(shù)據(jù)，并使用pandas庫將這些數(shù)據(jù)保存為Excel文件。此外，代碼還使用了logging庫來記錄操作過程中的信息和錯誤。

實現(xiàn)過程

一、代碼設(shè)計

以下是代碼的詳細(xì)說明：

導(dǎo)入庫:

import pdfplumber: 導(dǎo)入pdfplumber庫，用于提取PDF中的表格數(shù)據(jù)。
import pandas as pd: 導(dǎo)入pandas庫，并簡稱為pd，用于數(shù)據(jù)處理和保存為Excel文件。
import logging: 導(dǎo)入logging庫，用于記錄日志信息。

設(shè)置日志記錄級別:

logging.basicConfig(level=logging.INFO): 設(shè)置日志記錄的級別為INFO，這意味著INFO級別及以上的日志信息將會被記錄。

定義PDF文件路徑:

pdf_path = 'leisure.pdf': 定義一個變量pdf_path，存儲PDF文件的路徑。

打開和處理PDF文件:

使用try塊來嘗試執(zhí)行接下來的代碼，并捕獲可能發(fā)生的任何異常。

使用pdfplumber打開PDF文件:

with pdfplumber.open(pdf_path) as pdf:: 使用with語句打開PDF文件，確保文件最后會被正確關(guān)閉。

初始化DataFrame列表:

all_dfs = []: 創(chuàng)建一個空列表all_dfs，用于存儲從PDF中提取的每個表格的DataFrame。

遍歷PDF的每一頁:

for page in pdf.pages:: 遍歷PDF文件中的每一頁。

提取頁面中的所有表格:

tables = page.extract_tables(): 調(diào)用extract_tables方法提取當(dāng)前頁面中的所有表格數(shù)據(jù)。

處理每個表格:

for table in tables:: 遍歷當(dāng)前頁面中的每個表格。
df = pd.DataFrame(table[1:], columns=table[0]): 將表格數(shù)據(jù)轉(zhuǎn)換為DataFrame，其中第一行用作列標(biāo)題，其余行作為數(shù)據(jù)。

將DataFrame添加到列表:

all_dfs.append(df): 將每個DataFrame添加到all_dfs列表中。

合并所有表格的DataFrame:

combined_df = pd.concat(all_dfs, ignore_index=True): 使用pd.concat合并所有表格的DataFrame，ignore_index=True重新索引。

保存為Excel文件:

excel_path = "table_from_page.xlsx": 定義Excel文件的保存路徑。
combined_df.to_excel(excel_path, index=False): 將合并后的DataFrame保存為Excel文件，index=False表示不保存行索引。

記錄成功信息:

logging.info(...): 記錄一條INFO級別的日志信息，表明表格數(shù)據(jù)已成功保存為Excel文件。

異常處理:

except Exception as e:: 捕獲代碼執(zhí)行過程中的任何異常。
logging.error(...): 如果發(fā)生異常，記錄一條ERROR級別的日志信息，記錄異常信息。

"""提取pdf的表格數(shù)據(jù)保存為Excel文件"""import pdfplumberimport pandas as pdimport logging
logging.basicConfig(level=logging.INFO)
# PDF文件路徑pdf_path = 'leisure.pdf'
# 使用pdfplumber打開PDF文件try:    with pdfplumber.open(pdf_path) as pdf:        all_dfs = []  # 用于保存所有表格數(shù)據(jù)的DataFrame列表
        # 遍歷PDF中的每一頁        for page in pdf.pages:            # 提取當(dāng)前頁的所有表格數(shù)據(jù)            tables = page.extract_tables()
            for table in tables:                # 將表格數(shù)據(jù)轉(zhuǎn)換為Pandas DataFrame                # 將表格的第一行用作列標(biāo)題，其余行作為數(shù)據(jù)                df = pd.DataFrame(table[1:], columns=table[0])                all_dfs.append(df)
        # 合并所有表格數(shù)據(jù)到一個DataFrame        combined_df = pd.concat(all_dfs, ignore_index=True)
        # 保存為Excel文件        excel_path = "table_from_page.xlsx"        combined_df.to_excel(excel_path, index=False)
        logging.info(f"表格數(shù)據(jù)已保存為Excel文件：{excel_path}")
except Exception as e:    logging.error(f"處理PDF或保存Excel時發(fā)生錯誤：{str(e)}")

閱讀原文：原文鏈接

該文章在 2025/8/28 15:45:50 編輯過

關(guān)鍵字查詢

相關(guān)文章

正在查詢...

點晴ERP是一款針對中小制造業(yè)的專業(yè)生產(chǎn)管理軟件系統(tǒng),系統(tǒng)成熟度和易用性得到了國內(nèi)大量中小企業(yè)的青睞。

點晴PMS碼頭管理系統(tǒng)主要針對港口碼頭集裝箱與散貨日常運作、調(diào)度、堆場、車隊、財務(wù)費用、相關(guān)報表等業(yè)務(wù)管理，結(jié)合碼頭的業(yè)務(wù)特點，圍繞調(diào)度、堆場作業(yè)而開發(fā)的。集技術(shù)的先進(jìn)性、管理的有效性于一體，是物流碼頭及其他港口類企業(yè)的高效ERP管理信息系統(tǒng)。

點晴WMS倉儲管理系統(tǒng)提供了貨物產(chǎn)品管理,銷售管理,采購管理,倉儲管理,倉庫管理,保質(zhì)期管理,貨位管理,庫位管理,生產(chǎn)管理,WMS管理系統(tǒng),標(biāo)簽打印,條形碼,二維碼管理,批號管理軟件。

點晴免費OA是一款軟件和通用服務(wù)都免費，不限功能、不限時間、不限用戶的免費OA協(xié)同辦公管理系統(tǒng)。

成人欧美一区二区三区的电影,日韩一级一欧美一级国产,国产成人国拍亚洲精品,无码人妻精品一区二区三区毛片,伊人久久无码大香线蕉综合

python自動化系列：自動提取PDF表格數(shù)據(jù)并保存為Excel文件