pymupdf

pymupdfでPDFファイルを操作できる。

 

コマンドプロンプトからpymupdfをインストールするpymupdf

pip install pymupdf

 

PDFファイル内の値をテキストファイルに出力するコード例

import fitz  # PyMuPDF

#関数の定義
def extract_text_from_pdf(pdf_path, output_text_file):
    try:
        # PDFファイルを開く
        pdf_document = fitz.open(pdf_path)

        # 出力用のテキストファイルを作成する
        with open(output_text_file, 'w', encoding='utf-8') as text_file:
            for page_number in range(pdf_document.page_count):

                #ページ番号を出力
                text_file.write('**********'+ str(page_number) +'**********\n')
               
                # ページオブジェクトを取得
                page = pdf_document[page_number]

                # ページオブジェクトをテキストに変換する
                text = page.get_text()

                # テキストファイルに書き込みする
                text_file.write(text)

        print(f'出力が完了しました!!')

    except Exception as e:
        print(f'エラー: {e}')


# メイン処理
pdf_path = 'D:\lab\pdf\hoge.pdf'
output_text_file = 'D:\lab\pdf\hoge.txt'

#関数の呼び出し
extract_text_from_pdf(pdf_path, output_text_file)