- Arawn's Dev Blog
- Outsider's Dev Story
- Toby's Epril
- Benelog
- NHN 개발자 블로그
- SK 플래닛 기술 블로그
- OLC CENTER
- 소프트웨어 경영/공학 블로그
- 모바일 컨버전스
- KOSR - Korea Operating System …
- 넥스트리 블로그
- 리버스코어 ReverseCore
- SLiPP
- 개발자를 위하여... (Nextree 임병인 수석)
- "트위터 부트스트랩: 디자이너도 놀라워할 매끈하고 직관…
- Learning English - The English…
- real-english.com
- 'DataScience/Deep Learning' 카테…
- Deep Learning Summer School, M…
- Deep Learning Courses
민서네집
Windows OCR Utility - Vis2, Capture2Text 사용기 본문
stackoverflow.com/questions/2363490/limit-characters-tesseract-is-looking-for
github.com/tesseract-ocr/tesseract/issues/751
Tesseract version 4.00 에서는 버그가 있어서 white list 와 black list 옵션이 작동하지 않는다고 한다.
Vis2 를 Download 하여 bin\tesseract\tesseract.exe 의 version을 보면 4.0.0 버전이다.
github.com/tesseract-ocr/tessdoc/blob/master/Installation.md#windows
Tesseract at UB Mannheim 으로 이동해서 Windows 5.0.0 알파버전을 다운로드 받아서 설치하고, tesseract.exe 파일이 있는 폴더의 모든 파일을 Copy해서 Vis2 폴더 밑의 bin\tesseract 폴더로 덮어씀.
인식률을 높이기 위해서는 C:\Apps\Vis2-Tesseract\bin\tesseract\tessdata_best 폴더의 파일들을 C:\Apps\Vis2-Tesseract\bin\tesseract\tessdata_fast 폴더로 덮어쓰기.
스크린 Capture할 때는 tessdata_best 폴더의 파일들을 이용하도록 Autohotkey Script가 되어 있음.
( C:\Apps\Vis2-Tesseract\lib\Vis2.ahk )
Vis2.ahk Script를 보면 스크린 Capture 할 때는 option이 전달 안되도록 되어 있음.
그래서 white list, black list Option 을 전달하도록 Script 수정.
그런데 black list 옵션은 이상하게 계속 안 먹어서 white list 옵션을 줘보니까 작동함.
Viz2 를 실행하는 demo.ahk 파일은 아래 2줄을 제외하고 모두 주석처리.
- 스크린 캡처하는 단축키는 Shift + F2 로 변경하고, white list 옵션을 줬음.
- blacklist 옵션만 주면 작동하지 않음.
- whitelist 옵션을 주니까 blacklist 옵션은 의미없음.
#include <Vis2>
+F2:: OCR(, "eng+kor", "tessedit_char_whitelist=0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz.,:;-_+='<>(){}[]~`!@#$%^&*?|/\" . Chr(0x22) . " tessedit_char_blacklist=¥®")
[참고] tessedit_char_whitelist 옵션을 줄 때 쌍따옴표(")를 넣어주기 위해 Chr(0x22) 를 붙여줬음.
Capture2Text 는 Whitelist, Blacklist 옵션이 있지만 둘 다 작동하지 않았다.
Capture2Text 역시 Tesseract 4.0.0 버전을 사용하기 때문이 아닐까... ( tesseract400.dll 파일명을 보고 버전을 추측함 )
그런데 Replace는 잘 작동한다.
Capture2Text 도 C:\Apps\Vis2-Tesseract\bin\tesseract\tessdata_best\eng.traineddata 파일을 C:\Apps\Capture2Text\tessdata 폴더로 복사하면 영문자의 인식률이 좀 더 올라간다.
'유틸리티' 카테고리의 다른 글
파일 unlock 유틸리티 (0) | 2021.03.14 |
---|---|
Microsoft Garage Mouse without Borders (0) | 2021.03.11 |
시너지(Synergy) 프로그램 - 키보드/마우스 1개로 여러 대의 PC제어 (0) | 2021.01.31 |
담비노트 - 트리 형식 노트 프로그램 (0) | 2021.01.24 |
[프리웨어] Top most window Button을 만들어주는 utility (0) | 2019.09.17 |