基于Java的分布式爬虫

发表于:2015-4-21 10:41

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:skyme    来源:51Testing软件测试网采编

  项目目标
  众推,开源版的今日头条!
  基于hadoop思维的分布式网络爬虫。
  目前已经将fourinone、jeesite、webmagic整合进来,并且进一步进行改进。想最终做成一个基于设计器的动态可配置的分布式爬虫系统,这个是第一阶段的目标。
  项目目前情况
  目前项目进展情况:
  1、sourceer,可以接入多种数据源,接口已经定义(加入builder封装,可以使用简单爬虫)。
  2、web架构工程(web工程上传并测试成功,权限、基础框架改造,导入等已经录成视频,删除activiti,删除cms部分)。
  3、分布式框架研究(分布式项目分包,添加部分注释,测试单机单工人爬取)。
  4、插件化整合。
  5、文章等各种去重方式及算法(目前已实现bloomfilter,指纹算法去重,已经实现simhash,分词算法(ansj))。
  6、分类器测试(bayes,文本分类单机测试成功)。
  项目地址:
  (分布式爬虫)http://git.oschina.net/zongtui/zongtui-webcrawler
  (去重过滤器)https://git.oschina.net/zongtui/zongtui-filter
  (文本分类器)https://git.oschina.net/zongtui/zongtui-classifier
  (文档目录)https://git.oschina.net/zongtui/zongtui-doc
  项目界面:
  启动jetty,目前皮肤暂时还未换。
  总结
  目前项目正在进一步完善当中,希望能得到你更多的意见!
22/2<12
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号