Selenium爬取异步加载的网站

发表于:2022-8-03 09:29

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:青涩的骨头    来源:稀土掘金

  为了便利化使用selenium驱动浏览器进行操作,遇到一个网页,大部分内容都是通过xhr请求后再通过前端js处理显示,带来的一个问题就是,采用显示等待无法准确的定位到需要的节点。因此,需要考虑采用判断xhr请求是否完成后再进行定位,或者直接获取xhr请求返回内容的做法。
  import json
  from selenium import webdriver
  from selenium.webdriver import DesiredCapabilities
  import os,time
  配置浏览器启动参数:
  def get_log_options():
      option = webdriver.ChromeOptions()
      option.add_argument('--no-sandbox')
      #option.add_argument('--headless')  # 设置无头浏览
      option.add_argument("--disable-extensions")
      option.add_argument('--disable-infobars') # 禁用浏览器正在被自动化程序控制的提示
      option.add_argument("--allow-running-insecure-content")
      option.add_argument("--ignore-certificate-errors")
      option.add_argument("--disable-single-click-autofill")
      option.add_argument("--disable-autofill-keyboard-accessory-view[8]")
      option.add_argument("--disable-full-form-autofill-ios")
      option.add_argument('user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10.14; rv:55.0) Gecko/20100101 Firefox/55.0')
      option.add_experimental_option('w3c', False)
      option.add_experimental_option('perfLoggingPrefs', {
          'enableNetwork': True,
          'enablePage': False,
      })
      option.add_experimental_option('prefs',{
          #不弹出去请求
          'profile.default_content_settings.popups':0,
          #设置默认下载文件目录
          'download.default_directory':save_folder,
          # 禁止提示
          'profile.default_content_setting_values':{
              'notifications': 2
          }
      })
      return option
   
      
  def get_caps():
      caps = DesiredCapabilities.CHROME
      caps['loggingPrefs'] = {
          'browser': 'ALL',
          'performance': 'ALL',
      }
      caps['perfLoggingPrefs'] = {
          'enableNetwork': True,
          'enablePage': False,
          'enableTimeline': False
      }
      return caps
  # 获取日志中的xhr结果
  def get_xhr_logs(chrome):
      log_xhr_array = []
      for typelog in chrome.log_types:
          perfs = chrome.get_log(typelog)
          for row in perfs:
              log_data = row
              message_ = log_data['message']
              try:
                  log_json = json.loads(message_)
                  log = log_json['message']
                  if log['method'] == 'Network.responseReceived':
                      # 去掉静态js、css等,仅保留xhr请求
                      type_ = log['params']['type']
                      if type_ == "XHR":
                          log_xhr_array.append(log)
              except:
                  pass
      return log_xhr_array
  # 根据id获取返回结果
  def get_xhr_body(driver, requestId):
      response_body = driver.execute_cdp_cmd('Network.getResponseBody', {'requestId': requestId})
      return response_body
  考虑部分xhr请求较慢,增加一个判断指定请求是否完成的函数来判断执行情况。
  # 等待直到某个xhr出现,返回整个异步情况吧
  def wait_until_xhr_do(url='',limit = 10):
      tick = 0
      while tick < limit:
          logs = get_xhr_logs(chrome)
          if url == '':
              if len(logs) > 0:
                  return logs
          else:
              for log in logs:
                  if url in logs['params']['response']['url']:
                      return logs
          tick = tick + 1
      return []
  最终案例参考:
  if __name__ == '__main__':
      # 使用工具类来获取options配置,而不是平时的webdriver.ChromeOptions()方法
      options = get_log_options()
      # 使用工具类来获取caps
      desired_capabilities = get_caps()
      # 这里也可以对options和caps加入其他的参数,比如代理参数等
      chrome = webdriver.Chrome(options=options, desired_capabilities=desired_capabilities)
      chrome.get("https://spa6.scrape.center/")  # "https://www.baidu.com/"
      chrome.maximize_window()
      
      # 点击下一页
      el= chrome.find_element_by_xpath('//button[@class="btn-next"]')
      el.click()
      # 执行等待
      logs = wait_until_xhr_do()
      # 输出结果
      if len(logs) > 0:
          print(logs[0]['params']['response']['url'])
          body = get_xhr_body(chrome, logs[0]['params']['requestId'])
          # 使用eval转换遇到null会有问题,改为使用Json转换
          response = json.loads((body['body']))
          print(response)
  本文内容不用于商业目的,如涉及知识产权问题,请权利人联系51Testing小编(021-64471599-8017),我们将立即处理
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号