selenium+PhantomJS使用总结

在 Sun 25 September 2016 发布于 爬虫 分类 • 标签为 selenium, PhantomJS

selenium 是一套web自动化测试工具,其可以模拟真实的浏览器,执行JavaScript等功能。正因为如此,其功能的丰富和强大,让它不单单是个一个web自动化的测试工具。本篇文章主要讲的是其在爬虫抓取上的应用,不会涉及的自动化web测试相关的东西,对于复杂的动态页面,普通的正常抓取只是抓取到其源码页面,真正的内容可能是通过JavaScript,ajax等动态加载,使用selenium来模拟正常的浏览器来帮助进行抓取是一种很有效的方法。selenium支持不同的WebDriver,包括:google chrome ,firefox, IE, PhantomJs等。Python的selenium库提供了一系列简单易用的API, 可以让我们通过代码逻辑模拟点击,拖动,翻页等效果。

对于Pythonselenium模块的安装很简单,直接pip install selenium就可以搞定。对于webDriver,可以根据自己的喜好来进行选着,我目前使用的google chromePhantomJS。在下载完webDriver后可以直接放入到/usr/bin/或者/bin …


阅读全文