Selenium 的基本使用 - 登录知乎并爬取信息

发表于:2019-1-28 11:31

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:小飞牛_666    来源:简书

#
知乎
分享:
  由于 JavaScript 动态渲染的页面不止 Ajax 这一种,有些网站获取数据并不包含Ajax请求,有些网站是对 Ajax 进行加密处理;为了解决这写问题,我们可以直接使用模拟浏览器运行的方式来实现,这样就可以做到在浏览器中看到是什么样,抓取的源码就是什么样,也就可见即可抓。
  Python提供了许多模拟浏览器运行的库,如 Selenium、Splash、PyV8、Ghost 等;我们接下来以 Selenium为例,那么要使用的话我们就必须要做相应的安装,这里要注意一点的是由于我们操作的是 谷歌浏览器,因此再使用这个库之前必须要先安装好 谷歌浏览器以及操作浏览器的驱动执行文件。
  一、操作前准备
  安装谷歌浏览器
  通过命令安装库:pip install selenium
  下载谷歌浏览器驱动并配置环境变量   http://npm.taobao.org/mirrors/chromedriver/
  二、基本操作
  自动打开百度首页并休眠几秒钟后自动关闭
   from selenium import webdriver
  import time
  driver = webdriver.Chrome() # 创建实例
  driver.get("http://www.baidu.com") # 请求百度首页
  time.sleep(6)   # 睡眠六秒
  driver.quit()   # 退出浏览器
  执行代码后即可看到如下效果:
  image.png
  接下来我们以一下网页操作为例子(代码中有详细的注释),先看网页效果:
  image.png
  操作代码如下(注:操作的组件即属性的话在源码中查看):
   from selenium import webdriver
  import time
  # driver = webdriver.Chrome()   # 创建实例
  # driver.get("http://www.baidu.com") # 请求百度首页
  # time.sleep(6) # 睡眠六秒
  # driver.quit() # 退出浏览器
  # browser = webdriver.Chrome()
  # browser.get("https://3416230579.github.io/page/index.html")
  # 操作一
  #elemt = browser.find_element_by_id("element_id") #根据 id 获取对象
  # elemt = browser.find_element_by_name("element_id") #根据 name 获取对象
  # print(elemt.tag_name) #返回标签名
  # print(elemt.text) #返回标签的值
  # elemt.send_keys("哈哈哈")#给标签输入值
  # 操作二
  # elemt = browser.find_element_by_link_text("find_element_by_link_text")
  # print(elemt.tag_name) #返回标签名
  # print(elemt.text) #返回标签的值
  # elemt.click()#点击
  # 操作三
  # 利用 css选择器 获取 class='highlight' 标签对象并自动填值
  # elemt = browser.find_element_by_css_selector(".highlight")
  # elemt.send_keys("啦啦啦")
  # # 利用 xpath 获取 id='xpathname' 标签对象并自动填值
  # elemt = browser.find_element_by_xpath(r'//*[@id="xpathname"]')
  # elemt.send_keys("我的 xpath")
  # 操作四
  # 获取跳转后页面的源码
  # time.sleep(2)
  # elemt = browser.find_element_by_link_text("find_element_by_link_text")
  # elemt.click()
  # browser.switch_to_window(browser.window_handles[1])
  # print(browser.page_source)
  # 操作五
  # 操作弹出框
  # time.sleep(2)
  # elem = browser.find_element_by_tag_name("button")
  # elem.click()
  # time.sleep(2)
  # browser.switch_to_alert().accept()  # 切换到弹出框操作
  # 操作六
  # 跳转和回退操作
  # time.sleep(2)
  # elem = browser.find_element_by_link_text("forward_back")
  # elem.click()  # 点击跳转
  # time.sleep(1)
  # browser.back()  # 点击回退
  # time.sleep(2)
  # browser.forward()  # 调到上一次点击
  # time.sleep(1)
  # browser.back()  # 回退
  # 操作七
  # Cookies 的操作
  # browser = webdriver.Chrome()
  # browser.get("https://www.baidu.com")
  # print(browser.get_cookies()) # 输出全部的 cookie 的信息
  # 添加一个 cookie
  # browser.add_cookie({"name":"luchangyin", "domian":"www.baidu.com","value":"肥牛冲天"})
  # print(browser.get_cookies())
  # browser.delete_all_cookies()  # 全部删除
  # print(browser.get_cookies())
  # 操作八
  # 自动打开百度并根据关键字搜索相关的内容
  from selenium.webdriver.common.keys import Keys
  browser = webdriver.Chrome()
  browser.get("https://www.baidu.com")
  elem = browser.find_element_by_id("kw")
  elem.send_keys("python爬虫")  # 输入
  time.sleep(2)  # 休眠
  elem.send_keys(Keys.RETURN)  # 回车
  time.sleep(3)
  browser.quit() # 关闭
  三、实战 - 登录知乎并爬取信息
  1)先看观察登录界面的标签规律:
  image.png
  2)导入我们所需要的所有包:
   from selenium import webdriver
  import time
  from selenium.webdriver.common.keys import Keys
  from selenium.webdriver.support.ui import WebDriverWait
  from selenium.webdriver.support import expected_conditions as EC
  from selenium.common.exceptions import TimeoutException, NoSuchElementException
  3)根据效果图编写登录代码:
   # 声明浏览器对象
  browser = webdriver.Chrome()
  browser.get("https://www.zhihu.com/signin")
  def login_zhihu(browser):
  try:
  #获取登录用户名
  elem = browser.find_element_by_name("username")
  elem.clear()  # 清空
  elem.send_keys("用户名")  # 自动填值
  elem.send_keys(Keys.RETURN)#回车
  time.sleep(3)
  #获取登录密码
  elem = browser.find_element_by_name("password")
  elem.clear()
  elem.send_keys("密码")
  elem.send_keys(Keys.RETURN)#回车
  time.sleep(2)
  print("开始登陆...")
  #Button SignFlow-submitButton Button--primary Button--blue
  elem = browser.find_element_by_css_selector(".Button.SignFlow-submitButton.Button--primary.Button--blue")
  #elem = browser.find_element_by_xpath(r'//button[@class="Button SignFlow-submitButton Button--primary Button--blue"]')
  elem.click()
  print("开始休眠...")
  #显示等待   选择“首页”选项
  element = WebDriverWait(browser, 15).until(EC.title_contains(u'首页'))
  print("已选择...")
  except TimeoutException:
  print("Time Out")
  except NoSuchElementException:
  print("No Element")
  观察登陆后的页面:
  image.png
  获取代码如下:
   # url 去重
  urls = set()
  def get_information(browser):
  print("开始获取信息。。。")
  elems = browser.find_elements_by_css_selector(".ContentItem-title")
  for elem in elems:
  link_elem = elem.find_element_by_tag_name("a")
  if link_elem.text in urls:
  pass
  else:
  print(link_elem.text)  # 标题
  print(link_elem.get_attribute("href"))  # 链接
  urls.add(link_elem.get_attribute("href"))
  6)将进度条自动下拉到最底部实现 js 的加载:
  # 滚动加载
  def scroll_load(browser):
  #利用 execute_script() 方法将进度条下拉到最底部
  browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
  browser.implicitly_wait(2)  # 隐式等待
  7)编写主函数并调用:
   # 主主函数
  def main():
  login_zhihu(browser)  # 登录函数
  for i in range(3):  #滚动三次
  get_information(browser)  # 获取标题与链接
  scroll_load(browser)  # 滚动
  time.sleep(1)  # 休眠
  # 函数入口调用
  if __name__ == '__main__':
  main()
  input("按任意键退出-> ")
  browser.quit()
  运行结果如下:
  image.png
  8)当使用有界面爬取少量页面信息的方式还好,但是爬取很多页面的话那可就不好了-太多弹出窗口页面,值得注意的是: 从 Chrome 59 开始已经开始支持 Headless 模式,即无界面模式,这样爬取的时候就无需弹出浏览器界面了,接下来我们简单的去使用以下:
   chrome_options = webdriver.ChromeOptions()  # 获取 ChromeOptions 对象
  chrome_options.add_argument('--headless')  # 添加 headless 参数
  browser = webdriver.Chrome(chrome_options=chrome_options)  # 初始化 Chrome 对象
  browser.get(r"http://www.baidu.com/")
  # 截屏
  browser.get_screenshot_as_file("C:\\Users\\Administrator\\Desktop\\aaa\\daima\\lcy.jpg")
  html = browser.page_source  # 这里是源码,接下来就可以使用 正则 或者 xpath 表达式解析了
  print("成功提取源码-> ", html)
  执行程序之后输出源码的同时在制定的地址中可以看到截取的图片,效果如下:
  image.png
  经过这次实战,我相信同学们对 Selenium 有一定的了解了,接下来不妨去爬取一下 "腾讯视屏的评论" 练练手吧!嘿嘿,加油哦!
 
     上文内容不用于商业目的,如涉及知识产权问题,请权利人联系博为峰小编(021-64471599-8017),我们将立即处理。
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号