网站登录/认证有多种方式,要抽取/提取需要登录的网页内容,需要实现有针对性的网页抓取软件模块:
1,HTTPS
2,HTTP Digest
3,HTTP Basic
4,使用网页Form
其中,前三种是通信协议层面的,如果使用PHP,Python,Javascript, Java等语言编程,一般需要控制HTTP通信做相应的动作;而第四种是应用层面的,只需要模拟用户填写Form然后提交即可,相对容易一些。另外,还要考虑服务器是否推送cookie以及会话控制等等,所以,要自己编程把所有的都实现了是一个很大的挑战,但是,如果利用浏览器平台能力,这个就好解决了,例如,利用Firefox的安全管理器,网站认证都委托给Firefox,只需要编写应用逻辑代码即可。网页抓取/数据抽取/信息提取软件工具包MetaSeeker就是采用了这种方案,用统一的方法实现所有方式的认证,一种最简单的操作方法:先访问一次目标页面,认证通过后安全信息都记录在安全服务器上,后续的抓取工作就像针对不需要认证的页面一样,当然,这个第一次认证操作可以用程序自动完成。
MetaSeeker工具包是免费使用的,下载地址: http://www.gooseeker.com
用火车浏览器就可以了 不需要写代码 功能都模块化
写个登陆,否则没办法。
试试Python的scrapy
如果有验证码,就要搞个图形分析算法。总之比较麻烦。