Scrapy+Selenium爬取UC头条网站

发表于:2017-12-08 10:36

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:KeKeFund    来源:KeKeFund技术博客

  Scrapy是Python优秀的爬虫框架,selenium是非常好用的自动化WEB测试工具,两者结合可以非常容易对动态网页进行爬虫。
  本文的需求是抓取UC头条各个板块的内容。UC头条网站没有提供搜索入口,只能每个板块的首页向下滚动鼠标加载更多。要对这样的网站进行检索,抓取其内容,采用一般的scrapy请求方式,每次只能获取最新的10条数据,分析其JS请求,发现参数过于复杂,没有规律。如果想获取更多数据,则需要采用模拟浏览器的方法,这时候selenium就派上用场了。
  1,定义spider
  模拟从百度搜索进入,这个步骤可以省略,主要为了跳到parse函数
classUCTouTiaoSpider(VideoBaseSpider):
name="uctoutiao_spider"
df_keys=['人物','百科','乌镇']
def__init__(self,scrapy_task_id=None,*args,**kwargs):
self.url_src="http://www.baidu.com"
defstart_requests(self):
requests=[]
request=scrapy.Request("http://www.baidu.com",callback=self.parse)
requests.append(request)
returnrequests
  2,parse函数
defparse(self,response):
self.log(response.url)
urls=["https://news.uc.cn/",
"https://news.uc.cn/c_redian/",
#"https://news.uc.cn/c_shipin/",
#"https://news.uc.cn/c_gaoxiao/",
"https://news.uc.cn/c_shehui/",
"https://news.uc.cn/c_yule/",
"https://news.uc.cn/c_keji/",
"https://news.uc.cn/c_tiyu/",
"https://news.uc.cn/c_qiche/",
"https://news.uc.cn/c_caijing/",
"https://news.uc.cn/c_junshi/",
"https://news.uc.cn/c_tansuo/",
"https://news.uc.cn/c_lishi/",
"https://news.uc.cn/c_youxi/",
"https://news.uc.cn/c_lvyou/",
"https://news.uc.cn/news/",
"https://news.uc.cn/c_shishang/",
"https://news.uc.cn/c_jiankang/",
"https://news.uc.cn/c_guoji/",
"https://news.uc.cn/c_yuer/",
"https://news.uc.cn/c_meishi/"]
#启动浏览器,这里用的火狐,如果在linux环境下可以用PhantomJS,稳定性稍微差点,有内存泄露的风险。
driver=webdriver.Firefox()
forurlinurls:
try:
print(url)
driver.get(url)
#模拟鼠标滚到底部(加载100条数据)
for_inrange(10):
driver.execute_script("window.scrollTo(0,document.body.scrollHeight)")
driver.implicitly_wait(10)#隐性等待,最长10秒
#printdriver.page_source
soup=bs(driver.page_source,'lxml')
articles=soup.find_all(href=re.compile("/a_\w+?/"),text=re.compile(".+"))
forarticleinarticles:
forkeyinself.df_keys:
item=VideoItem()#自定义的Item
item['title']=article.text
item['href']=article['href']
self.log(item)
yielditem
exceptExceptionase:
printe
ifdriver==None:
driver=webdriver.Firefox()
ifdriver!=None:
driver.quit()
  真正的实现部分比较简单,几句代码就搞定了。
  附:
  selenium使用实例
  1,切换焦点至新窗口
  在页面上点击一个button,然后打开了一个新的window,将当前IWebDriver的focus切换到新window,使用IWebDriver.SwitchTo().Window(stringwindowName)。
  例如,我点击按钮以后弹出一个名字叫做”ContentDisplay”的window,要切换焦点到新窗口的方法是,首先,获得新window的windowname,大家不要误以为pagetile就是windowname哦,如果你使用driver.SwitchTo().Window(“ContentDisplay”)是找不到windowname叫做”ContentDisplay”的窗口的,其实WindowName是一长串数字,类似“59790103-4e06-4433-97a9-b6e519a84fd0”。
  要正确切换到”ContentDisplay”的方法是:
  获得当前所有的WindowHandles。
  循环遍历到所有的window,查找window.title与”ContentDisplay”相符的window返回。
forhandleindr.window_handles:
dr.switch_to.window(handle)
printdr.title
iflen(dr.title)=='目标窗口标题':
break
  参考:Selenium-IWebDriver.SwitchTo()frame和Window的用法
  2,移至底部
driver.execute_script("window.scrollTo(0,document.body.scrollHeight)")
  3,移动至指定元素
  某些按钮点击时必须可见,于是要把屏幕移动到按钮可见的区域
element=driver.find_element_by_xpath("//a[@class='p-next']")
element.location_once_scrolled_into_view
#或者
driver.set_window_size(800,800)
element=driver.find_element_by_xpath("//a[@class='p-next']")
js="window.scrollTo({},{});".format(element.location['x'],element.location['y']-100)
driver.execute_script(js)

上文内容不用于商业目的,如涉及知识产权问题,请权利人联系博为峰小编(021-64471599-8017),我们将立即处理。
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号