96久久精品人人妻人人搡,水蜜桃福利一区二区在线看

用Python將 PDF 中的表格提取為 Excel/CSV（附源代碼）

當前位置：點晴教程→知識管理交流 →『技術(shù)文檔交流』

admin

2025年8月28日 1:50 本文熱度 902

*用Python將 PDF 中的表格提取為 Excel/CSV，*支持文本型 PDF 和掃描件/圖片型 PDF（需 OCR 識別）。程序包含以下功能：

1.自動檢測 PDF 類型（文本 or 掃描件）
2.提取表格數(shù)據(jù)并保存為 Excel/CSV
3.處理多頁 PDF
4.命令行交互 & 圖形界面（可選）

1. 安裝依賴庫

運行前，先安裝所需庫：

pip install tabula-py pandas pytesseract pdf2image opencv-python pillow

2. 完整代碼

導(dǎo)入相關(guān)模塊

import os
import pandas as pd
import tabula
from pdf2image import convert_from_path
import pytesseract
import cv2
import tempfile
import argparse

定義函數(shù)

def pdf_to_excel(pdf_path, output_path, use_ocr=False):

    """
    將 PDF 中的表格轉(zhuǎn)換為 Excel 文件
    :param pdf_path: PDF 文件路徑
    :param output_path: 輸出 Excel/CSV 路徑
    :param use_ocr: 是否強制使用 OCR（針對掃描件）
    """
    try:
        # 檢查輸出格式
        file_ext = os.path.splitext(output_path)[1].lower()
        if file_ext not in ['.xlsx', '.csv']:
            raise ValueError("輸出文件格式必須是 .xlsx 或 .csv")

        # 嘗試直接提取文本表格（非掃描件）
        if not use_ocr:
            try:
                print("嘗試提取文本表格...")
                dfs = tabula.read_pdf(pdf_path, pages='all', multiple_tables=True)
                if not dfs:
                    raise RuntimeError("未檢測到表格，可能為掃描件圖片。")

                # 合并所有表格頁
                combined_df = pd.concat(dfs, ignore_index=True)

                if file_ext == '.xlsx':
                    combined_df.to_excel(output_path, index=False)
                else:
                    combined_df.to_csv(output_path, index=False)
                print(f"轉(zhuǎn)換成功！結(jié)果已保存至: {output_path}")
                return

            except Exception as e:
                print(f"文本提取失?。赡転閽呙杓瑖L試 OCR: {e}")
                use_ocr = True

        # OCR 處理掃描件/圖片
        if use_ocr:
            print("正在使用 OCR 識別掃描件...")
            with tempfile.TemporaryDirectory() as temp_dir:
                # 將 PDF 轉(zhuǎn)換為圖片
                images = convert_from_path(pdf_path, output_folder=temp_dir)
                all_text = []

                for i, img in enumerate(images):
                    img_path = os.path.join(temp_dir, f"page_{i+1}.jpg")
                    img.save(img_path, 'JPEG')

                    # 使用 OpenCV 增強圖像（可選）
                    img_cv = cv2.imread(img_path)
                    gray = cv2.cvtColor(img_cv, cv2.COLOR_BGR2GRAY)
                    thresh = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)[1]

                    # OCR 識別
                    text = pytesseract.image_to_string(thresh, config='--psm 6')
                    all_text.append(text)

                # 將識別結(jié)果保存為表格
                text_combined = "\n".join(all_text)
                lines = [line.split() for line in text_combined.split('\n') if line.strip()]
                df = pd.DataFrame(lines)

                if file_ext == '.xlsx':
                    df.to_excel(output_path, index=False, header=False)
                else:
                    df.to_csv(output_path, index=False, header=False)
                print(f"OCR 轉(zhuǎn)換完成！結(jié)果已保存至: {output_path}")

    except Exception as e:
        print(f"轉(zhuǎn)換失敗: {e}")

if __name__ == "__main__":
    # 命令行參數(shù)解析
    parser = argparse.ArgumentParser(description="PDF 表格提取工具")
    parser.add_argument("pdf_path", help="輸入的 PDF 文件路徑")
    parser.add_argument("output_path", help="輸出的 Excel/CSV 文件路徑")
    parser.add_argument("--ocr", action="store_true", help="強制使用 OCR（針對掃描件）")
    args = parser.parse_args()

    # 運行轉(zhuǎn)換
    pdf_to_excel(args.pdf_path, args.output_path, args.ocr)

命令行運行

# 默認自動檢測 PDF 類型
python pdf_to_excel.py input.pdf output.xlsx

# 強制使用 OCR（針對掃描件）
python pdf_to_excel.py scanned.pdf output.csv --ocr

直接調(diào)用函數(shù)

pdf_to_excel("input.pdf", "output.xlsx", use_ocr=False)

重點說明：
文本型 PDF：使用 tabula-py 直接提取表格結(jié)構(gòu)。
掃描件/圖片 PDF：
通過 pdf2image 將 PDF 轉(zhuǎn)為圖片。
使用 OpenCV 對圖像預(yù)處理（二值化、去噪）。
調(diào)用 pytesseract（Tesseract OCR）識別文字并生成表格。

掃描件質(zhì)量：OCR 精度受圖片清晰度影響，建議高分辨率 PDF。

復(fù)雜表格：若表格有合并單元格，可能需要手動調(diào)整輸出結(jié)果。

中文支持：確保 Tesseract 安裝了中文語言包（chi_sim）。

如果需要進一步優(yōu)化（如自定義表格解析邏輯），可以在此基礎(chǔ)上擴展！

閱讀原文：原文鏈接

該文章在 2025/8/28 15:44:50 編輯過

關(guān)鍵字查詢

相關(guān)文章

正在查詢...

點晴ERP是一款針對中小制造業(yè)的專業(yè)生產(chǎn)管理軟件系統(tǒng),系統(tǒng)成熟度和易用性得到了國內(nèi)大量中小企業(yè)的青睞。

點晴PMS碼頭管理系統(tǒng)主要針對港口碼頭集裝箱與散貨日常運作、調(diào)度、堆場、車隊、財務(wù)費用、相關(guān)報表等業(yè)務(wù)管理，結(jié)合碼頭的業(yè)務(wù)特點，圍繞調(diào)度、堆場作業(yè)而開發(fā)的。集技術(shù)的先進性、管理的有效性于一體，是物流碼頭及其他港口類企業(yè)的高效ERP管理信息系統(tǒng)。

點晴WMS倉儲管理系統(tǒng)提供了貨物產(chǎn)品管理,銷售管理,采購管理,倉儲管理,倉庫管理,保質(zhì)期管理,貨位管理,庫位管理,生產(chǎn)管理,WMS管理系統(tǒng),標簽打印,條形碼,二維碼管理,批號管理軟件。

點晴免費OA是一款軟件和通用服務(wù)都免費，不限功能、不限時間、不限用戶的免費OA協(xié)同辦公管理系統(tǒng)。

成人欧美一区二区三区的电影,日韩一级一欧美一级国产,国产成人国拍亚洲精品,无码人妻精品一区二区三区毛片,伊人久久无码大香线蕉综合

用Python將 PDF 中的表格提取為 Excel/CSV（附源代碼）

1. 安裝依賴庫

2. 完整代碼