Skip to content

PythonでPDFのOCRを実装します.

ライブラリのインストール

python
! pip install fitz
! pip install PyMuPDF==1.16.14

! apt install tesseract-ocr
! apt install libtesseract-dev
! pip install pytesseract
! apt install ghostscript
! pip install ocrmypdf

OCRの実行

下記のコードで日本語データをインストールします.

python
# 日本語のインストール
! apt install tesseract-ocr-jpn*
! tesseract --list-langs

そして,下記のコードでOCRを実行します.

python
!ocrmypdf -l jpn_vert Jisaku_x86.pdf Jisaku_x86_ocr.pdf

まとめ

PythonでPDFのOCRを実装しました.

参考サイト

ubuntuでocrmypdfを使ってPDFをOCRする