目前做的最好的爬虫项目是哪个,开源github

2024年12月01日 18:48
有2个网友回答
网友(1):

如下:
大型的:
Nutch
apache/nutch · GitHub
适合做搜索引擎,分布式爬虫是其中一个功能。
Heritrix
internetarchive/heritrix3 · GitHub比较成熟的爬虫。
小型的:
Crawler4j
yasserg/crawler4j · GitHub
WebCollector CrawlScript/WebCollector · GitHub(国人作品)
目标是在让你在5分钟之内写好一个爬虫。参考了crawler4j,如果经常需要写爬虫,需要写很多爬虫,还是不错的,因为上手肯定不止5分钟。缺点是它的定制性不强。
WebMagic code4craft/webmagic · GitHub(国人作品,推荐)
垂直、全栈式、模块化爬虫。更加适合抓取特定领域的信息。它包含了下载、调度、持久化、处理页面等模块。每一个模块你都可以自己去实现,也可以选择它已经帮你实现好的方案。这就有了很强的定制性。

网友(2):

Chatopera-cosin github star440+ 开源的智能客服系统--春松客服 可以关注一下~~~~~~~~~~~~~~~微软最具价值专家,前IBM高级架构师王海良的团队

春松客服开源的智能客服系统支持各种沟通渠道,比如移动电话、网页、微信。春松客服:坐席工作台、组织机构、账号、语音渠道、系统配置和数据报表。语音渠道:和语音网关集成,支持呼叫中心业务。聊天服务:智能问答引擎,语音识别服务和非结构化的文本数据分析服务