jsoup正则去掉html标记
java去掉网页源代码的html标记String html = 这里获取html代码; String content = Jsoup.parse(html).text();//String content = html.replaceAll("< [^<]+>", "");System.out.println(
·
java去掉网页源代码的html标记
String html = 这里获取html代码;
String content = Jsoup.parse(html).text();
//String content = html.replaceAll("< [^<]+>", "");
System.out.println(content);
似乎两种方式(注释是正则)都能提取内容,但是其实用jsoup更好,不会残留一些css代码还有标记,既可以去掉标记,还能解析一些字符的html标志法。
更多推荐
已为社区贡献1条内容
所有评论(0)