优点:
1.语言比较简单,PHP 是非常随意的一种语言。写起来容易让把精力放在要做的事情上,而不是各种语法规则等等。
2.各种功能模块齐全,这里分两部分:
(1)网页下载:curl 等扩展库;
(2)文档解析:dom、xpath、tidy、各种转码工具,可能跟题主的问题不太一样,爬虫需要提取正文,所以需要很复杂的文本处理,所以各种方便的文本处理工具容易上手。
缺点:
并发处理能力较弱:由于当时 PHP 没有线程、进程功能,要想实现并发需要借用多路服用模型,PHP 使用的是 select 模型。实现其来比较麻烦,可能是因为水平问题的程序经常出现一些错误,导致漏抓。