这个用Python写的开源爬虫网站 让你秒搜所有豆瓣好书

发表于:2019-5-22 10:01

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:佚名    来源:程序员书库

#
Python
分享:
  程序员在提升自己的道路,大多还是会选择阅读编程书籍这一途径,但找到一本好书就没那么容易了。
  通过查看各大销售网站的销量数据和评价,以及豆瓣评分和评价人数,可以帮助我们更快的挖掘出经典的计算机书籍,还有那些被人们忽视的好书。
  最近猿哥在GitHub上发现了一个网站,是中国科学院自动化研究所的一大神(lanbing510)用Python写的一个爬虫,他在16年的时候就爬下了豆瓣所有的读书数据并做了个WebApp接口方来挖掘查找和阅读好书。怪我知道的太晚
 
  后来lanbing510再次爬了一遍豆瓣读书的数据,总共更新了3232088本图书信息,共2138386KB,并将其开源
  为什么说它很好用呢?猿哥演示一遍你就知道了:
 
  可以看出这网站的界面非常简洁,没有花里花哨的内容,只有干货,你可以直接通过关键字、分数、和评价人数这三个选项进行搜索,比如我们可以搜索关键字:编程;分数:9.0;评价人数:100人以上
  查找结果的显示方式有按照分数排序和人数排序两种,按照分数排序的截图如下:
 
  按照评价人数排序的截图如下:
  
  除了以上演示的操作,这个网站并实现了以下功能:
  可以爬下豆瓣读书标签下的所有图书
  按评分排名依次存储
  存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet
  采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封
  也就是说你不仅可以在网站上搜索,还能通过下载各类目下的Excel书单文件,直接在Excel中搜索
  
  效果截图如下:
  
  最后附上网站地址:http://sobook.lanbing510.info
  GitHub地址:https://github.com/lanbing510/DouBanSpider

      上文内容不用于商业目的,如涉及知识产权问题,请权利人联系博为峰小编(021-64471599-8017),我们将立即处理。
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号