Crawler

pytesseract识别验证码

哈呜 / 2017年2月28日

验证码破解是做爬虫经常要面对的问题。对于一般字符串或者算式的验证码，可以使用网页截图，然后OCR识别的方式来识别出验证码字符串来。网页截图可以使用selenium的save_screenshot()方法；用PIL图像处理库来截取验证码图片；用Tess […]

哈呜 / 2017年2月27日

最近做了个爬虫需要用到代理ip，然后想去快代理上爬点代理ip下来用。结果使用urllib2访问http://www.kuaidaili.com/proxylist/1时候发现总是返回521错误。使用HTTPError的read方法可以打印出HTTP的返 […]

哈呜 / 2016年1月8日

好像从python开始流行起，他就与爬虫扯上关系了。一提起python就想到爬虫程序，可能是因为python提供的库（模块）比较方便吧，不管是自带的urllib，还是各种第三方库。总结一下我所了解的关于python爬虫的知识，我觉得可以将这些库分为下面四大 […]

哈呜 / 2015年12月31日

上两周的时候，陈怡同学问我怎么通过程序自动化截屏浏览器页面，她说有篇论文用的是python与selenium。当时我的心理活动是这样的：“卧槽selenium是什么鬼，女博士果然是见多识广。” =。=# 然后查了一下，selenium大概可以理解成一个浏览 […]