tesseract-ocr
差分
このページの2つのバージョン間の差分を表示します。
両方とも前のリビジョン前のリビジョン次のリビジョン | 前のリビジョン | ||
tesseract-ocr [2020/03/11 12:44] – [使い方] nabezo | tesseract-ocr [2020/12/11 17:10] (現在) – nabezo | ||
---|---|---|---|
行 3: | 行 3: | ||
Tesseract OCRで文字認識をする https:// | Tesseract OCRで文字認識をする https:// | ||
7セグメント読み取り [[ssocr]] | 7セグメント読み取り [[ssocr]] | ||
+ | 7セグメント読み取り https:// | ||
Pythonで書くTesseract 4の基本的な使い方。APIとCLIからOCRを実行する方法 | Pythonで書くTesseract 4の基本的な使い方。APIとCLIからOCRを実行する方法 | ||
+ | ===== 日本語学習データ ===== | ||
+ | ubuntu package(精度が一番良さそう) | ||
+ | github | ||
===== インストール ===== | ===== インストール ===== | ||
行 15: | 行 19: | ||
tesseract infile outfile --psm 6 -l jpn | tesseract infile outfile --psm 6 -l jpn | ||
| | ||
+ | tesseract infile.png stdout | ||
+ | |||
+ | |||
+ | ===== 画像を修正して認識率を上げる ===== | ||
+ | pdfから画像へ | ||
+ | pdfimages orgpin.pdf.pdf orgpic | ||
+ | 2値化 | ||
+ | convert orgpic.png -threshold 9000 convpic.png | ||
+ | 解像度の変更 | ||
+ | convert orgpic.png -resize 200% convpic.png | ||
+ | |||
+ | |||
===== 日本語を認識させる ===== | ===== 日本語を認識させる ===== | ||
- | == ダウンロード == | ||
https:// | https:// | ||
- | == データの場所 | + | |
+ | apt install tesseract-ocr-jp で以下の場所に日本語データがインストールされる | ||
+ | / | ||
/ | / | ||
+ | ===== 再学習 ===== | ||
+ | https:// | ||
+ | 文字認識エンジンTesseract OCRで学習(jTessBoxEditor) | ||
+ | http:// | ||
+ | Tesseract4の再学習・追加学習手順まとめ | ||
+ | http:// | ||
tesseract-ocr.1583898265.txt.gz · 最終更新: 2020/03/11 12:44 by nabezo