Python微博移动端爬虫实例(附代码)

发表于:2018-1-04 10:06

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:挖掘机小王子    来源:Python中文社区

  本文简要讲述用Python爬取微博移动端数据的方法。可以看一下Robots协议。另外尽量不要爬取太快。如果你毫无节制的去爬取别人数据,别人网站当然会反爬越来越严厉。至于为什么不爬PC端,原因是移动端较简单,很适合爬虫新手入门。有时间再写PC端吧!
  环境介绍
  Python3/Windows-10-64位/微博移动端
  网页分析
  以获取评论信息为例(你可以以自己的喜好获得其他数据)。如下图:
  在这里就会涉及到一个动态加载的概念,也就是我们只有向下滑动鼠标滚轮才会加载出更多的评论数据。这也是网页经常使用的方式。接下来就应该找到评论信息的真实网址,找到真实网址的方法就是打开浏览器的开发者工具,火狐/谷歌是F12键。打开如下:
  打开以后点击网络,网络用来记录浏览器和服务器交换的信息。接下来将鼠标滚轮缓慢向下滚动,在这个过程中就会弹出类似于上图的信息,也就是评论信息加载出来了。找到评论信息,应该会在第一条。如下图:
  真实网址:https://m.weibo.cn/api/comments/show?id=4160547165300149&page=3
  将网址在火狐里面打开如下图:
  上面的网址其实pages=3就代表第三页,所以只需模拟网址即可,pages=4,5,6...
  另外由于是Json文件,所以提取数据非常方便,只需用切片操作即可。

上文内容不用于商业目的,如涉及知识产权问题,请权利人联系博为峰小编(021-64471599-8017),我们将立即处理。
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号