java去掉网页源代码的html标记

String html = 这里获取html代码;
    
String content = Jsoup.parse(html).text();
//String content = html.replaceAll("< [^<]+>", "");
System.out.println(content);

似乎两种方式(注释是正则)都能提取内容,但是其实用jsoup更好,不会残留一些css代码还有标记,既可以去掉标记,还能解析一些字符的html标志法。

Logo

瓜分20万奖金 获得内推名额 丰厚实物奖励 易参与易上手

更多推荐