文本清洗是一个繁琐复杂的工作,不论是对于NLP 的开发者,还是其它领域工作者。这部分工作可以由 JioNLP 工具包一键搞定!!!

⭐ 源码戳这里 => JioNLPhttps://github.com/dongrixinyu/JioNLPhttps://github.com/dongrixinyu/JioNLP

⭐ (在线文本清洗)戳这里 => 在线文本清洗使用

工具包安装 Installation

  • python>=3.6 github 版本略领先于 pip
$ git clone https://github.com/dongrixinyu/JioNLP
$ cd ./JioNLP
$ pip install .
  • pip 安装
$ pip install jionlp
  • 可能存在的问题
# 如安装失败,遇到安装时提示的 pkuseg、Microsoft Visual C++、gcc、g++ 等信息,
# 则说明是 pkuseg 安装失败,需要在相应系统中安装 C 和 C++ 编译器,重新安装。
# pip install pkuseg

 工具包使用 Usage

清洗文本,主要步骤包括去除 html 标签、去除异常字符、去除冗余字符、去除括号补充内容、去除 URL、去除 E-mail、去除电话号码,将全角字母数字空格替换为半角,一般用于将其当做无关噪声,处理分析数据。

>>> text = '''<p><br></p>       <p><span>创历史!张帅美网女双夺冠创6纪录 大满贯双打2冠并列中国金花第1(号外)</span></p><p><span>fds</span></p><p><span>北京时间9月13日,2021年美网女双决赛展开角逐,跨国组合张帅/斯托瑟对决美国组合高芙/麦克纳莉。张帅/斯托瑟以总比分2-1击败高芙/麦克纳莉,三盘具体比分是6-3、3-6和6-3,从辛辛那提赛开始豪取一波11连胜,成功夺得美网女双冠军,张帅生涯首次夺得美网女双冠军,也是生涯第2次夺得大满贯双打冠军。(责任编辑:唐小林)联系电话:13302130583,邮箱:dongrixinyu.89@163.com~~~~'''
>>> res = jionlp.clean_text(text)
>>> print(res)
>>> print(jionlp.clean_text.__doc__)

# '创历史!张帅美网女双夺冠创6纪录 大满贯双打2冠并列中国金花第1fds北京时间9月13日,2021年美网女双决赛展开角逐,跨国组合张帅/斯托瑟对决美国组合高芙/麦克纳莉。张帅/斯托瑟以总比分2-1击败高芙/麦克纳莉,三盘具体比分是6-3、3-6和6-3,从辛辛那提赛开始豪取一波11连胜,成功夺得美网女双冠军,张帅生涯首次夺得美网女双冠军,也是生涯第2次夺得大满贯双打冠军。联系电话:,邮箱:~ '
  • 去除异常字符主要指由于非 UTF-8 编码造成的异常字符,如“板簳浠?拷涔”等
  • 去除冗余字符主要指文本中有多个连续的空格,“~~~~”等重复冗余信息,缩减为1个字符。
  • 该方法中的所有关键字参数均为 bool 型,支持选择控制是否去除相应类型的数据
  • 所有选项都可以自己控制调控。搞明白之后,来 在线文本清洗使用 试试吧。

如果觉得好用请点个 Star 赞吧 

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐