jsoup正则去掉html标记

java去掉网页源代码的html标记String html = 这里获取html代码； String content = Jsoup.parse(html).text();//String content = html.replaceAll("< [^<]+>", "");System.out.println(

Thomas-Kwan

602人浏览 · 2019-01-17 17:31:01

Thomas-Kwan · 2019-01-17 17:31:01 发布

java去掉网页源代码的html标记

String html = 这里获取html代码；

String content = Jsoup.parse(html).text();
//String content = html.replaceAll("< [^<]+>", "");
System.out.println(content);

似乎两种方式（注释是正则）都能提取内容，但是其实用jsoup更好，不会残留一些css代码还有标记，既可以去掉标记，还能解析一些字符的html标志法。

AtomGit 开源协作平台测评赛

瓜分20万奖金获得内推名额丰厚实物奖励易参与易上手

更多推荐

ChatGPT 提示词：2024最新AIGC提示词大全

开放原子开发者工作坊

项目实战9—企业级分布式存储应用与实战MogileFS、FastDFS

企业级分布式存储应用与实战-mogilefs　　环境：公司已经有了大量沉淀用户，为了让这些沉淀用户长期使用公司平台，公司决定增加用户粘性，逐步发展基于社交属性的多样化业务模式，决定开展用户讨论区、卖家秀、买家秀、用户试穿短视频等业务，因此，公司新的业务的业务特征将需要海量数据存储，你的领导要求基于开源技术，实现对公司海量存储业务的技术研究和实现，你可以完成任务吗？总项目流程图，详见...

开放原子开发者工作坊

.NET Core开源API网关 – Ocelot中文文档

.NET Core开源API网关 – Ocelot中文文档原文:.NET Core开源API网关 – Ocelot中文文档Ocelot是一个用.NET Core实现并且开源的API网关，它功能强大，包括了：路由、请求聚合、服务发现、认证、鉴权、限流熔断、并内置了负载均衡器与Service Fabric、Butterfly Tracing集成。...