用Python爬取指定关键词的微博

发表于:2021-6-07 09:16

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:志斌    来源:志斌的python笔记

  前几天学校一个老师在做微博的舆情分析找我帮她搞一个用关键字爬取微博的爬虫,再加上最近很多读者问志斌微博爬虫的问题,今天志斌来跟大家分享一下。
  01分析页面
  我们此次选择的是从移动端来对微博进行爬取。移动端的反爬就是信息校验反爬虫的cookie反爬虫,所以我们首先要登陆获取cookie。
  登陆过后我们就可以获取到自己的cookie了,有不懂的小伙伴可以看这篇文章学会Cookie,解决登录爬取的困扰!。然后我们来观察用户是如何搜索微博内容的。
  平时我们都是在这个地方输入关键字,来进行搜索微博。
  我通过在开发者模式下对这个页面观察发现,它每次对关键字发起请求后,就会返回一个XHR响应。
  我们现在已经找到数据真实存在的页面了,那就可以进行爬虫的常规操作了。
  02数据采集
  在上面我们已经找到了数据存储的真实网页,现在我们只需对该网页发起请求,然后提取数据即可。
  1、发起请求
  通过对请求头进行观察,我们不难构造出请求代码。
  代码如下:
  key = input("请输入爬取关键字:") 
  for page in range(1,10): 
     params = ( 
         ('containerid', f'100103type=1&q={key}'), 
         ('page_type', 'searchall'), 
         ('page', str(page)), 
     ) 
   
     response = requests.get('https://m.weibo.cn/api/container/getIndex', headers=headers, params=params) 
  2、提取数据
  从上面我们观察发现这个数据可以转化成字典来进行爬取,但是经过我实际测试发现,用正则来提取是最为简单方便的,所以这里展示的是正则提取的方式,有兴趣的读者可以尝试用字典方式来提取数据。代码如下:
  r = response.text 
  title = re.findall('"page_title":"(.*?)"',r) 
  comments_count = re.findall('"comments_count":(.*?),',r) 
  attitudes_count = re.findall('"attitudes_count":(.*?),',r) 
  for i in range(len(title)): 
     print(eval(f"'{title[i]}'"),comments_count[i],attitudes_count[i]) 
  在这里有一个小问题要注意,微博的标题是用Unicode编码的,如果直接爬取存储,将存储的是Unicode编码,在这里要感谢大佬—小明哥的帮助,志斌在网上搜了好多解决方法都没有成功,最后小明哥一个简单的函数就给解决了,实在是佩服!
  解决方案:用eval()来输出标题,就可以将Unicode转换成汉字了。
  03小结
  1. 本文详细介绍了如何用Python指定关键字爬取微博,有兴趣的读者可以尝试自己动手练习一下。
  2. 本文仅供读者学习使用,不做其他用途!

  本文内容不用于商业目的,如涉及知识产权问题,请权利人联系51Testing小编(021-64471599-8017),我们将立即处理
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号