- https://github.com/tesseract-ocr
- https://github.com/tesseract-ocr/tesseract
- Install Tesseract via pre-built binary package
- TESSERACT(1) Manual Page
- Tesseract at UB Mannheim Windows
테세렉트는 OCR 라이브러로 숫자 제한 없이 폰트를 인식할 수 있도록 훈련이 가능하며, 유니코드문자도 인식할 수 있다.
Install
# Install sudo apt install tesseract-ocr sudo apt install libtesseract-dev # edit sources.list sudo vi /etc/apt/sources.list Copy the first line "deb http://archive.ubuntu.com/ubuntu bionic main" and paste it as shown below on the next line. If you are using a different release of ubuntu, then replace bionic with the respective release name. deb http://archive.ubuntu.com/ubuntu bionic universe
brew install tesseractTesseract at UB Mannheim Windows
PATH
export TESSDAT_PREFIX=/usr/local/share/
setx TESSDATA_PRIFIX "C:\Program Files\tesseract OCR\"
Running Tesseract
테서랙트은 CLI 프로그램에서 다음과 같이 사용한다.
tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...] # myscan 읽고 결과를 out.txt 저장 tesseract myscan.png out # lang 설정 tesseract myscan.png out -l deu tesseract myscan.png out -l eng+deu #Tesseract also includes a hOCR mode, which produces a special HTML file with the coordinates of each word. This can be used to create a searchable pdf, using a tool such as Hocr2PDF. To use it, use the 'hocr' config option, like this: #Tesseract에는 각 단어의 좌표가 있는 특수 HTML 파일을 생성하는 hOCR 모드도 포함됩니다. 이것은 Hocr2PDF와 같은 도구를 사용하여 검색 가능한 pdf를 만드는 데 사용할 수 있습니다. 그것을 사용하려면 다음과 같은 'hocr'구성 옵션을 사용하십시오. tesseract myscan.png out hocr # 검색가능 PDF 저장 tesseract myscan.png out pdf다른 언어 트레이닝은 Tessdata repository에서 확인.
Numpy
다른문자나 폰트인식을 위한 훈련을 위해서 필요.
pip install numpy
반응형
'lang > py' 카테고리의 다른 글
python proxy scraping (0) | 2019.01.29 |
---|---|
library Tesseract - OCR test (0) | 2019.01.25 |
library Pillow - thumbnail create (0) | 2019.01.23 |
library requests - HTTPBasicAuth (0) | 2019.01.22 |
library requests - cookie, session, login (0) | 2019.01.21 |