Python画像認識OCR
#1 要求する
#2 周囲
#3 インストール
#3.1 macOS
#3.2 Linux(CentOS)
#4 使用する
#4.1 pythonインストールpytesseractライブラリ
#4.2 Pythonコード
#5 オンラインケース
macOS / Linux
Python3.7.6
//tesseractのみをインストールし、トレーニングツールはインストールしないでください
brew install tesseract
//tesseractのインストール中にトレーニングツールをインストールします
brew install --with-training-tools tesseract
//tesseractをインストールするときは、すべての言語を同時にインストールしてください。言語パックは比較的大きいです。インストールに時間がかかる場合は、インストールしないことをお勧めします。必要に応じて選択してください。
brew install --all-languages tesseract
//tesseractをインストールし、トレーニングツールと言語をインストールします
brew install --all-languages --with-training-tools tesseract
アドレス:https://github.com/tesseract-ocr/tessdata
ここに中国語パックをインストールしました
中国語パック:https://github.com/tesseract-ocr/tessdata/blob/master/chi_sim.traineddata
次に、ダウンロードした中国語パックを次のパスにコピーします。
/usr/local/Cellar/tesseract/4.0.0_1/share/tessdata
tesseract --list-langs
yum install autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel
ダウンロード:wget https://github.com/tesseract-ocr/tesseract/archive/4.1.0.tar.gz
解凍してインストールします
tar -xzvf leptonica-1.74.4.tar.gz
cd leptonica-1.74.4.tar.gz
. /configure --profix=/usr/local/leptonica
make
sudo make install
wget https://github.com/tesseract-ocr/tesseract/archive/3.04.zip
unzip 3.04.zip
cd tesseract-3.04/./configure
make && make install
sudo ldconfig
ここに中国語パックをインストールしました
中国語パック:https://github.com/tesseract-ocr/tessdata/blob/master/chi_sim.traineddata
次に、ダウンロードした中国語パックを次のパスにコピーします。
/usr/local/share/tessdata
pip install pytesseract
pip install Pillow
from PIL import Image
import pytesseract
# 画像パスと認識される言語を指定します
data = pytesseract.image_to_string(Image.open('/Users/Documents/1.png'), lang='chi_sim')print(data)
住所:
Recommended Posts