2019/01 16

python proxy scraping

https://github.com/Anorov/PySocks Proxy 서버 SOCKS 사용 Free Proxy List 나만의 웹 크롤러 만들기(7): 창없는 크롬으로 크롤링하기Selenium Headless Browser Testing: HTMLUnitDriver & PhantomJS 프록시 이용 스크래핑 파이삭스 PySocks pip install pysocks # pip install pysocks import socks import socket from urllib.request import urlopen try: # http://socks-proxy.net/ # set_proxy(proxy_type, addr[, port[, rdns[, username[, password]]]]) socks...

lang/py 2019.01.29

library Tesseract - OCR

https://github.com/tesseract-ocr https://github.com/tesseract-ocr/tesseract Install Tesseract via pre-built binary package TESSERACT(1) Manual Page Tesseract at UB Mannheim Windows 테세렉트는 OCR 라이브러로 숫자 제한 없이 폰트를 인식할 수 있도록 훈련이 가능하며, 유니코드문자도 인식할 수 있다. Install # Install sudo apt install tesseract-ocr sudo apt install libtesseract-dev # edit sources.list sudo vi /etc/apt/sources.list Copy the first li..

lang/py 2019.01.24

펜 트리뱅크 태그

https://sites.google.com/site/partofspeechhelp/http://www.cis.upenn.edu/+treebank/ 펜실베니아 대학의 펜 트리뱅크(Penn Treebank) 프로젝트 NKTK는 텍스트에 태그를 붙일 때 널리 쓰이는, 펜실베니아 대학의 펜 트리뱅크를 기본적으로 사용한다. 태그 원어 한국어 CC coordinating conjunction 등위 접속사(and, or, but 같은 접속사) CD cardinal number 기수(순서의 읨가 없이 수량만 나타내는 수) DT determiner 한정사(명사 앞에 붙는 the, some, my 같은 말들) EX existential "there" 장소가 아니라 존재는 나타내는 there(There is always ..

lang/py 2019.01.19
반응형