用java编写 网络爬虫(又称网络蜘蛛)程序,即一个网络搜索引擎。寻求解决办法

2025年03月23日 11:50
有3个网友回答
网友(1):

方法很多,我说一种方法吧。
你可以用HttpClient来获取网页的源码,然后在源码中分别查找每一个链接。
下面这一段代码就可以获取网页的的源码 strURL为网页链接
HttpClient client = new HttpClient();
client.getHttpConnectionManager().getParams().setConnectionTimeout(500);
client.getHttpConnectionManager().getParams().setSoTimeout(500);
method = new PostMethod(strURL);
client.executeMethod(method);
webStatus += method.getStatusLine().getStatusCode()+",";
if(! "200".equals(method.getStatusLine().getStatusCode()+"")){
if(! "".equals(method.getStatusLine().getStatusCode()+""))
return "";
}
InputStream is = method.getResponseBodyAsStream();
BufferedReader br = new BufferedReader(new InputStreamReader(is, currEncoding));
StringBuffer stringBuffer = new StringBuffer();
String str = "";
while ((str = br.readLine()) != null) {
stringBuffer.append(str);
}
content = stringBuffer.toString();

我不知道你还有什么具体的问题,有的继续追问。

网友(2):

先使用jsoup 爬取网络资源,再使用solr构建索引,就可以 了

网友(3):

用nutch.改改就是了