Java网络爬虫的实现

您的位置：
门户
>> 文章精选
>> 软件开发专栏
>> Java
>> 查看资讯

发表于：2011-3-10 09:40

字体：大中小 | 上一篇 | 下一篇 | 我要投稿

作者：grunt1223 来源：51Testing软件测试网采编

　　extractUrls的主要作用，是从网页中获取更多的URL，包括内部链接和外部链接，代码如下：

　　Java代码

public List extractUrls(String text, CrawlerUrl crawlerUrl) {

Map urlMap = new HashMap();

extractHttpUrls(urlMap, text);

extractRelativeUrls(urlMap, text, crawlerUrl);

return new ArrayList(urlMap.keySet());

}

//处理外部链接

private void extractHttpUrls(Map urlMap, String text) {

Matcher m = httpRegexp.matcher(text);

while (m.find()) {

String url = m.group();

String[] terms = url.split("a href=\"");

for (String term : terms) {

// System.out.println("Term = " + term);

if (term.startsWith("http")) {

int index = term.indexOf("\"");

if (index > 0) {

term = term.substring(0, index);

}

urlMap.put(term, term);

System.out.println("Hyperlink: " + term);

}

//处理内部链接

private void extractRelativeUrls(Map urlMap, String text,

CrawlerUrl crawlerUrl) {

Matcher m = relativeRegexp.matcher(text);

URL textURL = crawlerUrl.getURL();

String host = textURL.getHost();

while (m.find()) {

String url = m.group();

String[] terms = url.split("a href=\"");

for (String term : terms) {

if (term.startsWith("/")) {

int index = term.indexOf("\"");

if (index > 0) {

term = term.substring(0, index);

}

String s = "http://" + host + term;

urlMap.put(s, s);

System.out.println("Relative url: " + s);

}

　　如此，便构建了一个简单的网络爬虫程序，可以使用以下程序来测试它：

　　Java代码

public static void main(String[] args) {

try {

String url = "http://www.amazon.com";

Queue urlQueue = new LinkedList();

String regexp = "java";

urlQueue.add(new CrawlerUrl(url, 0));

NaiveCrawler crawler = new NaiveCrawler(urlQueue, 100, 5, 1000L,

regexp);

// boolean allowCrawl = crawler.areWeAllowedToVisit(url);

// System.out.println("Allowed to crawl: " + url + " " +

// allowCrawl);

crawler.crawl();

} catch (Throwable t) {

System.out.println(t.toString());

t.printStackTrace();

}

　　当然，你可以为它赋予更为高级的功能，比如多线程、更智能的聚焦、结合Lucene建立索引等等。更为复杂的情况，可以考虑使用一些开源的蜘蛛程序，比如Nutch或是Heritrix等等，就不在本文的讨论范围了。

33/3<1 23

《2023软件测试行业现状调查报告》独家发布~

搜索风云榜

测试技术了解

2023测试行业调查报告

挣点稿费

车载测试入门

文章资料精选