Scrapy+Selenium爬取UC头条网站

发表于：2017-12-08 10:36

作者：KeKeFund 来源：KeKeFund技术博客

软件测试工具

Selenium

自动化测试工具

　　Scrapy是Python优秀的爬虫框架，selenium是非常好用的自动化WEB测试工具，两者结合可以非常容易对动态网页进行爬虫。

　　本文的需求是抓取UC头条各个板块的内容。UC头条网站没有提供搜索入口，只能每个板块的首页向下滚动鼠标加载更多。要对这样的网站进行检索，抓取其内容，采用一般的scrapy请求方式，每次只能获取最新的10条数据，分析其JS请求，发现参数过于复杂，没有规律。如果想获取更多数据，则需要采用模拟浏览器的方法，这时候selenium就派上用场了。

　　1，定义spider

　　模拟从百度搜索进入，这个步骤可以省略，主要为了跳到parse函数

classUCTouTiaoSpider(VideoBaseSpider):

name="uctoutiao_spider"

df_keys=['人物','百科','乌镇']

def__init__(self,scrapy_task_id=None,*args,**kwargs):

self.url_src="http://www.baidu.com"

defstart_requests(self):

requests=[]

request=scrapy.Request("http://www.baidu.com",callback=self.parse)

requests.append(request)

returnrequests

　　2，parse函数

defparse(self,response):

self.log(response.url)

urls=["https://news.uc.cn/",

"https://news.uc.cn/c_redian/",

#"https://news.uc.cn/c_shipin/",

#"https://news.uc.cn/c_gaoxiao/",

"https://news.uc.cn/c_shehui/",

"https://news.uc.cn/c_yule/",

"https://news.uc.cn/c_keji/",

"https://news.uc.cn/c_tiyu/",

"https://news.uc.cn/c_qiche/",

"https://news.uc.cn/c_caijing/",

"https://news.uc.cn/c_junshi/",

"https://news.uc.cn/c_tansuo/",

"https://news.uc.cn/c_lishi/",

"https://news.uc.cn/c_youxi/",

"https://news.uc.cn/c_lvyou/",

"https://news.uc.cn/news/",

"https://news.uc.cn/c_shishang/",

"https://news.uc.cn/c_jiankang/",

"https://news.uc.cn/c_guoji/",

"https://news.uc.cn/c_yuer/",

"https://news.uc.cn/c_meishi/"]

#启动浏览器，这里用的火狐，如果在linux环境下可以用PhantomJS，稳定性稍微差点，有内存泄露的风险。

driver=webdriver.Firefox()

forurlinurls:

try:

print(url)

driver.get(url)

#模拟鼠标滚到底部(加载100条数据)

for_inrange(10):

driver.execute_script("window.scrollTo(0,document.body.scrollHeight)")

driver.implicitly_wait(10)#隐性等待,最长10秒

#printdriver.page_source

soup=bs(driver.page_source,'lxml')

articles=soup.find_all(href=re.compile("/a_\w+?/"),text=re.compile(".+"))

forarticleinarticles:

forkeyinself.df_keys:

item=VideoItem()#自定义的Item

item['title']=article.text

item['href']=article['href']

self.log(item)

yielditem

exceptExceptionase:

printe

ifdriver==None:

driver=webdriver.Firefox()

ifdriver!=None:

driver.quit()

　　真正的实现部分比较简单，几句代码就搞定了。

　　附：

　　selenium使用实例

　　1，切换焦点至新窗口

　　在页面上点击一个button,然后打开了一个新的window,将当前IWebDriver的focus切换到新window，使用IWebDriver.SwitchTo().Window(stringwindowName)。

　　例如，我点击按钮以后弹出一个名字叫做”ContentDisplay”的window，要切换焦点到新窗口的方法是，首先，获得新window的windowname,大家不要误以为pagetile就是windowname哦，如果你使用driver.SwitchTo().Window(“ContentDisplay”)是找不到windowname叫做”ContentDisplay”的窗口的，其实WindowName是一长串数字，类似“59790103-4e06-4433-97a9-b6e519a84fd0”。

　　要正确切换到”ContentDisplay”的方法是：

　　获得当前所有的WindowHandles。

　　循环遍历到所有的window,查找window.title与”ContentDisplay”相符的window返回。

forhandleindr.window_handles:

dr.switch_to.window(handle)

printdr.title

iflen(dr.title)=='目标窗口标题':

break

　　参考：Selenium-IWebDriver.SwitchTo()frame和Window的用法

　　2，移至底部

driver.execute_script("window.scrollTo(0,document.body.scrollHeight)")

　　3，移动至指定元素

　　某些按钮点击时必须可见，于是要把屏幕移动到按钮可见的区域

element=driver.find_element_by_xpath("//a[@class='p-next']")

element.location_once_scrolled_into_view

#或者

driver.set_window_size(800,800)

element=driver.find_element_by_xpath("//a[@class='p-next']")

js="window.scrollTo({},{});".format(element.location['x'],element.location['y']-100)

driver.execute_script(js)

上文内容不用于商业目的，如涉及知识产权问题，请权利人联系博为峰小编(021-64471599-8017)，我们将立即处理。

《2023软件测试行业现状调查报告》独家发布~

搜索风云榜

测试技术了解

2023测试行业调查报告

挣点稿费

AI与软件测试

文章资料精选