使用Selenium,让整个简书网站都认识我!

发表于:2019-7-25 13:39

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:王翔    来源:清风Python

分享:
  通过这篇文章我想告诉你,任何人学selenium,都不是白费的!想做微商、推广的更应该关注我这篇文章,哈哈。
  避坑指南与涉及知识点
  大概罗列下场景覆盖中,涉及到的知识点
  cookie登陆简书
  本来想找个新账号的,但就我一个人,这会儿2点了朋友圈求不怕封想出名的账号,貌似也没结果
  携带cookie登陆简书的方法,我上篇文章说了,就不再赘述了。
  动态刷新简书首页文章链接
  这里要详细说下简书的文章刷新方式...
  进入简书进来后,默认展示10-15篇文章
  页面下拉框滑动,会通过Ajax刷新文章,一次刷新5篇刷新3次
  之后滑动刷新失效,需要点击“阅读更多”来获取新的文章
  读取刷新日志,如该文章之前回复过,则跳过访问下一篇文章
  这几种场景,我们可以通过js控制滚动条滑动到底部来实现刷新文章
  通过try ... except 判断是否出现阅读更多的文章来进行点击事件
  通过link.text与我们之前保存的日志文件进行对比,判断新文章访问
  点击链接会弹出新标签页,此处涉及标签切换、访问、关闭和主handle的返回
  文章回复
  本来这里没什么知识点的,但是简书做的比较溜,文章内容也是Ajax成段展示,刚进入页面无法后去到所有的内容,更没办法定位到回复栏
  开始使用直接下拉到底部的方式,但这种方式依然无法获取所有内容及回复窗口
  需要逐步刷新,加载所有内容后,才能显示回复栏...
  for循环每次下拉500单位,最终得到文章内容的方式完成此方式
 WebDriverWait(driver,totaltime,checksplit).until()
  其实本来这里,用不到WebDriverWait的,这种一般都是在页面访问后,进行动态等待的,但咱们没这个场景就生硬的使用下吧...
  设置刷新文章页数
  根据想刷新的页数,来控制主页面进行多少次下拉框拖动和点击“阅读更多”...
  最终结束时,将访问过的文章重新写入到日志文件中...
  代码实现
  由于cookie涉及到我的登陆验证,所有就在代码中隐藏了,如何获取,上篇文章说过了...
  我习惯不太好,注释写的比较少,抱歉,有不清楚的可以微信问我...如果大家真的想刷遍全网的简书文章,可以把文章回复的等待时间间隔加长一些,我为了录屏所以几乎不去等待,连篇回复....
   # -*- coding: utf-8 -*-
  # @Author   : 王翔
  # @JianShu  : 清风Python
  # @Date     : 2019/7/4 02:19
  # @Software : PyCharm
  # @version  :Python 3.7.3
  # @File     : Be_A_Famous.py
  import time
  import os
  from selenium import webdriver
  from selenium.webdriver.support.wait import WebDriverWait
  from selenium.webdriver.support import expected_conditions as ec
  from selenium.webdriver.common.by import By
  from selenium.common.exceptions import NoSuchElementException, \
  ElementNotInteractableException, TimeoutException
  class FamousPerson:
  # 简书首页地址
  BaseUrl = "https://www.jianshu.com"
  # 脚本目录
  BaseDir = os.path.dirname(os.path.realpath(__file__))
  # 日志文件
  text_name = 'comment.txt'
  # 默认评论页面数
  Page = 3
  # 设置变量,定位已访问的文章数目
  ContentNo = 0
  def __init__(self):
  self.log_text = os.path.join(self.BaseDir, self.text_name)
  self.log_list = self.get_log()
  self.driver = self.init_driver()
  self.base_handle = None
  self.note_list = []
  def get_log(self):
  if os.path.exists(self.log_text):
  with open(self.log_text, 'r', encoding='utf-8') as f:
  return f.readlines()
  return []
  @staticmethod
  def init_driver():
  """
  basic option:
  set screen size
  disable info bar
  :return: driver
  """
  options = webdriver.ChromeOptions()
  options.add_argument('window-size=900,600')
  options.add_argument('disable-infobars')
  return webdriver.Chrome(options=options)
  def prepare_work(self):
  """
  1. add cookie
  2. set base handle
  """
  self.driver.get(self.BaseUrl)
  self.driver.add_cookie(cookie)
  self.driver.refresh()
  self.base_handle = self.driver.current_window_handle
  def control_scrollbar(self):
  """
  use js to control scroll down ...
  """
  _scrollTop = 0
  # 渐进下拉,避免大幅度页面偏移,导致的textarea获取失败...
  for i in range(20):
  _scrollTop += 400
  js = "var q=document.documentElement.scrollTop={}".format(_scrollTop)
  self.driver.execute_script(js)
  time.sleep(0.2)
  # 简书AJax刷新3次后,必须点击一次查看更多,才能继续刷新...
  try:
  self.driver.find_element_by_class_name('load-more').click()
  except NoSuchElementException:
  pass
  except ElementNotInteractableException:
  pass
  def add_comment(self):
  # 判断窗口并切换
  for handle in self.driver.window_handles:
  if handle != self.base_handle:
  self.driver.switch_to.window(handle)
  print("访问文章:{}".format(self.driver.title))
  # 滚动至页面底部
  self.control_scrollbar()
  try:
  WebDriverWait(self.driver, 5, 0.5).until(
  ec.presence_of_element_located((By.TAG_NAME, 'textarea')))
  self.driver.find_element_by_tag_name('textarea').send_keys(comment_info)
  self.driver.find_element_by_class_name('btn-send').click()
  print("回复成功")
  except TimeoutException:
  print("回复失败,未找到textarea,蓝瘦...")
  # 为展示效果,等待2秒,使用时可删除...
  time.sleep(1)
  self.driver.close()
  # 切换至主窗口
  self.driver.switch_to.window(self.base_handle)
  def get_content(self):
  while self.Page:
  notes = self.driver.find_elements_by_css_selector('.note-list li')
  for note in notes[self.ContentNo:]:
  try:
  note_link = note.find_element_by_tag_name('a')
  note_name = note_link.text + '\n'
  if note_name in self.log_list:
  continue
  self.log_list.append(note_name)
  note_link.click()
  time.sleep(1)
  self.add_comment()
  self.ContentNo += 1
  except:
  pass
  self.Page -= 1
  # 下拉刷新一次页面
  self.control_scrollbar()
  with open(self.log_text, 'w') as f:
  f.writelines(self.log_list)
  def run():
  # 实例化方法
  start_test = FamousPerson()
  # add cookie set base_handle
  start_test.prepare_work()
  # 启动评论
  start_test.get_content()
  if __name__ == '__main__':
  comment_info = ("为作者点赞! 小弟技术公众号 【清风Python】 刚刚创建,"
  "欢迎大家关注,谢谢支持。")
  cookie = {
  'name': 'remember_user_token',
  'value': 'token_value'  # 练习时请自行获取,方法上篇文章写了
  }
  run()
  代码执行效果
  大家看到了间隔时间太短,连续回复,会被系统禁止操作....因为录屏效果,我不能等多久的去实现第二次回复成功....至于回复最短间隔多久,我只是为了写文章,就不去仔细考究了....当然你如果想刷全网的回复,可以调时间长一天,跑到天荒地老...

      上文内容不用于商业目的,如涉及知识产权问题,请权利人联系博为峰小编(021-64471599-8017),我们将立即处理
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号