pymupdfでPDFファイルを操作できる。
コマンドプロンプトからpymupdfをインストールするpymupdf
pip install pymupdf
PDFファイル内の値をテキストファイルに出力するコード例
import fitz # PyMuPDF
#関数の定義
def extract_text_from_pdf(pdf_path, output_text_file):
try:
# PDFファイルを開く
pdf_document = fitz.open(pdf_path)
# 出力用のテキストファイルを作成する
for page_number in range(pdf_document.page_count):
#ページ番号を出力
text_file.write('**********'+ str(page_number) +'**********\n')
# ページオブジェクトを取得
page = pdf_document[page_number]
# ページオブジェクトをテキストに変換する
text = page.get_text()
# テキストファイルに書き込みする
text_file.write(text)
print(f'出力が完了しました!!')
except Exception as e:
print(f'エラー: {e}')
# メイン処理
#関数の呼び出し
extract_text_from_pdf(pdf_path, output_text_file)