selenium+PhantomJS使用总结

Posted on Fri 25 December 2015 in 爬虫 • Tagged with selenium, PhantomJS

selenium 是一套web自动化测试工具,其可以模拟真实的浏览器,执行JavaScript等功能。正因为如此,其功能的丰富和强大,让它不单单是个一个web自动化的测试工具。本篇文章主要讲的是其在爬虫抓取上的应用,不会涉及的自动化web测试相关的东西,对于复杂的动态页面,普通的正常抓取只是抓取到其源码页面,真正的内容可能是通过JavaScript,ajax等动态加载,使用selenium来模拟正常的浏览器来帮助进行抓取是一种很有效的方法。selenium支持不同的WebDriver,包括:google chrome ,firefox, IE, PhantomJs等。Python的selenium库提供了一系列简单易用的API, 可以让我们通过代码逻辑模拟点击,拖动,翻页等效果。

对于Python的selenium模块的安装很简单,直接pip install selenium就可以搞定。对于webDriver,可以根据自己的喜好来进行选着,我目前使用的google chrome和PhantomJS。在下载完webDriver后可以直接放入到/usr/bin/或者/bin目录下,那样在启动webDriver的时候就不需要指定路径了,如果放入别的路径的话,那就需要在启动的时候指定路径了。google chrome的webDriver的下载地址, PhantomJS的可以直接在官网上下载已经编译过的,源码下载编译太蛋疼了。

selenium webDriver提供了相当灵活和设置,可以伪造User_Agent和各种头信息,如 …


Continue reading