JAVA基础：Java实现抽取网页信息

您的位置：
门户
>> 文章精选
>> 软件开发专栏
>> Java
>> 查看资讯

JAVA基础：Java实现抽取网页信息

发表于：2008-12-10 13:37

字体：大中小 | 上一篇 | 下一篇 | 我要投稿

作者：未知来源：网络转载

Java

　　使用正则表达式及字符串操作，抽取网页信息，实现代码如下：

　　/* 去script */

　　public static String trimScript(String content) {

　　String regEx = "<script[^>]*>[^<]+</script>";

　　Pattern p = Pattern.compile(regEx);

　　Matcher m = p.matcher(content);

　　String result = content;

　　if (m.find()) {

　　result = m.replaceAll("");

　　}

　　return result;

　　}

　　/* 去除注释*/

　　public static String trimComment(String content) {

String regEx = "";

　　Pattern p = Pattern.compile(regEx);

　　Matcher m = p.matcher(content);

　　String result = content;

　　if (m.find()) {

　　result = m.replaceAll("");

　　}

　　return result;

　　}

　　/* 去除标签 */

　　public static String trimTag(String content) {

　　String regEx = "<[^>]+>";

　　Pattern p = Pattern.compile(regEx);

　　Matcher m = p.matcher(content);

　　String result = content;

　　if (m.find()) {

　　result = m.replaceAll("");

　　}

　　result = result.replace(" ", "").replace(">", "").replace(

　　">", "");

　　return result;

　　}

　　/* 根据起始位置和结束位置，截取字符串 */

　　public static String subString(String start, String end, String content) {

　　int iStart = content.indexOf(start);

　　int iEnd = content.indexOf(end);

　　if (iStart < iEnd) {

　　return content.substring(iStart, iEnd);

　　}

　　return null;

　　}

相关阅读：
JAVA基础：Java中如何处理异常　　JAVA基础：解读内存优化编程　　JAVA基础：模式和框架的介绍和区别

JAVA基础：Java Web三层架构的配置详解　　JAVA基础：Java变量类型之间的相互转换

《2023软件测试行业现状调查报告》独家发布~

搜索风云榜

测试技术了解

2023测试行业调查报告

挣点稿费

AI与软件测试

文章资料精选