使用 Selenium 抓取网页内容和模拟登入

发表于:2019-1-08 10:39  作者:AnewG   来源:思否

字体: | 上一篇 | 下一篇 |我要投稿 | 推荐标签: Selenium 自动化测试工具

  传统的 cURL 无法执行页面中的浏览器脚本,并且在抓取一些对爬虫有限制的网页时,往往要设定详细的 http header 来突破限制,编写起来较为复杂。
  Selenium简介:
  Selenium 是一个用于Web应用程序测试的工具(用处也不仅仅是测试)。
  Selenium 直接使用浏览器运行,像真正的用户在操作。支持较多的浏览器。
  组件
  Selenium IDE:Firefox插件,有录制脚本的功能。支持自动录制动作和自动生成其他语言的自动化脚本。
  Selenium Remote Control (RC) :支持多种平台(WindowsLinux)和多浏览器(IE,Firefox,Opera,Safari,Chrome),可以用多种语言(JavaRubyPython,Perl,PHP,C#)编写用例。
  Selenium Grid :允许Selenium-RC 针对规模庞大的测试案例集或者需要在不同环境中运行的测试案例集进行扩展。
  实例:驱动 chrome 模拟登入淘宝,获取页面信息
  1.前往项目主页:SeleniumHQ 下载
  Selenium Server (formerly the Selenium RC Server)
  Third Party Browser Drivers NOT DEVELOPED by seleniumhq
  (选择chrome的driver)
  Third Party Language Bindings NOT DEVELOPED by seleniumhq
  (选择PHP by Adam Goucher (SeHQ recommended php client))
  2.打开 selenium
   java -jar path_to_selenium.jar
  [-timeout 0]
  [-Dwebdriver.server.session.timeout=0]
  -Dwebdriver.chrome.driver="path_to_chrome_driver"
  -browser [-timeout=0] [-browserTimeout=0]
  browserName=chrome,[timeout=0]
  如需长时间运行请酌情设置各 '[ ]' 中的超时时间
  3.PHP代码
   execute(array('script' => "return (document.readyState != 'complete')", 'args' => array())));
  }  //该函数会把脚本挂起直到等待到Ajax结束
  require_once "webdriver/PHPWebDriver/__init__.php";
  // 引入 selenium 的PHP封装函数库
  // 下载地址:https://github.com/Element-34/php-webdriver
  // 文档中有各种操作浏览器方法,如获取所有cookie等
  $wd_host = 'http://127.0.0.1:4444/wd/hub';
  $web_driver = new PHPWebDriver_WebDriver($wd_host);
  $session = $web_driver->session('chrome');
  //设置超时时间
  $session->implicitlyWait(5);
  $session->setScriptTimeout(5);
  $session->setPageLoadTimeout(15);
  //打开连接
  $session->open('http://login.m.taobao.com/login.htm?tpl_redirect_url=http://m.taobao.com');
  //输入验证码用,如果需要的话
  sleep(5);
  //请设置好帐号密码
  $session->element('css selector', 'input[name=TPL_username]')->value(array('value' => str_split('your_username')));
  $session->element('css selector', 'input[name=TPL_password]')->value(array('value' => str_split('your_password')));
  //模拟点击登入按钮
  $elements = $session->element('css selector', '.c-btn-oran-big')->click();
  //打开 m.taobao.com,此时已获取到cookie
  $session->open('http://m.taobao.com/');
  //等待ajax加载完毕
  waitForAjax();
  $elements = $session->element('css selector', 'body')->text();
  //获得了登入后ajax执行完毕时的页面内容
  ?>
  之后便可以按需对 $session 实例进行 element 方法的各种操作。
  支持以下方式进行选择元素
  id
  xpath
  link text
  partial link text
  name
  tag name
  class name
  css selector
  PS:各种库对Ajax情况的检测方法
  jQuery: "jQuery.active"
  Prototype: "Ajax.activeRequestCount"
  Dojo: "dojo.io.XMLHTTPTransport.inFlight.length"

      上文内容不用于商业目的,如涉及知识产权问题,请权利人联系博为峰小编(021-64471599-8017),我们将立即处理。

【有奖活动】填问卷 送70G测试大牛精品资料(干货+视频)!

评 论

论坛新帖

顶部 底部


建议使用IE 6.0以上浏览器,800×600以上分辨率,法律顾问:上海瀛东律师事务所 张楠律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2019, 沪ICP备05003035号
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪公网安备 31010102002173号

51Testing官方微信

51Testing官方微博

扫一扫 测试知识全知道