社区云

中文分词

LingMax2013 来自魔乐社区

modelers.csdn.net · 2024-05-16 19:42:39

mysql 支持索引模糊搜索%% 代替全文搜索全文检索数据库

1.用虚拟键绑定原始键(原始值变了索引也会跟着自动变)2.利用全文索引(把虚拟键字符串逐字插入空格强制用1字符串分词)3.使用时先用全文索引搜索分好词的关键字再like一下原始键数据就准确了

#mysql #sql #elasticsearch +4

741 

3 
think_zy 来自讯飞AI开发者社区

xfyun.csdn.net · 2023-10-18 23:14:09

Docusaurus+离线安装Typesense并实现中文全文搜索

Docusaurus+离线安装Typesense并实现中文全文搜索

#全文检索 #中文分词

1582 
m0_75169084 来自讯飞AI开发者社区

xfyun.csdn.net · 2025-02-09 23:40:48

25年最新全国计算机python二级考试全部知识点总结【全网最全】

该题库最大的优势是：不需要下载任何东西，点开就直接写，也支持手机浏览器完成后可以直接提交，查看得分如果回答错误，还会告知原因按照考试的评分机制进行判定，甚至能支持turtle库的在线展示。

#python #开发语言 #中文分词 +1

5922 

51 
weixin_54141179 来自 2048 AI社区

2048ai.net · 2025-09-16 18:57:44

BeautifulSoup 爬取豆瓣电影影评并且制作词云

font_path='C:/Windows/Fonts/simkai.ttf'#中文处理，用系统自带的字体。#soup.b就是b标签b.string标签下文字#find_all找全标签内容,attrs选择属性。#print(soup.find_all(attrs={'class':'short'}))#方法1。#print(soup.find_all(class_='short'))#方法2。#定

#beautifulsoup #中文分词 #pandas +1

812 

13 
yakuchrisfor 来自讯飞AI开发者社区

xfyun.csdn.net · 2023-06-09 02:58:59

chatgpt赋能python：Python中的中文分词库——Jieba

Jieba支持自定义词典，在分词时可以根据自定义词典进行分词，从而提高分词的精度和效率。自定义词典是一个文本文件，每行一个词汇，用空格分开，第一个字符表示该词的权重等级（默认为3）。我们可以使用jieba . load_userdict("userdict.txt") text = "我爱北京天安门" words = jieba . cut(text) for word in words : pr

#python #中文分词

331 
风月雅颂来自讯飞AI开发者社区

xfyun.csdn.net · 2023-12-19 13:52:23

机器学习——中文分词

中文分词是指将汉字序列按照一定规则逐个切分为词序列的过程。在英文中，单词间以空格为自然分隔符，分词时自然以空格为单位进行切分，而中文分词则需要依靠技术和方法寻找类似英文中空格作用的分隔符。

#中文分词 #自然语言处理 #python +1

1420 

25 
德彪稳坐倒骑驴来自讯飞AI开发者社区

xfyun.csdn.net · 2023-03-15 15:06:53

5个文本分类baseline基线模型,无报错运行songyingxin/TextClassification

songyingxin/TextClassification这个项目实现了九个模型的文本分类。本文从配置环境开始，一步步讲解了应该如何操作，后面才可以把代码运行起来。其中包括，（1）每一个package应该装哪个版本的。repo的作者仅仅讲了python的小版本号以及pytorch的版本号，其实其他package的版本过高也会引发报错。（2）训练的数据集和词向量embedding文件从哪个网站下载

#中文分词 #nlp #自然语言处理 +1

1473 

2 
suimodina 来自讯飞AI开发者社区

xfyun.csdn.net · 2023-06-16 08:26:14

chatgpt赋能python：Python的中文分词工具——jieba

中文是一种没有明显分隔符的语言，因此在文本处理和分析中需要将连续的文本分割成有意义的词语，称为中文分词。例如，将“我爱Python编程”分割成“我”、“爱”、“Python”、“编程”。jieba是一种Python中文分词工具，采用了基于前缀词典的分词方法，并且支持多种分词模式，如全模式、精确模式和搜索引擎模式等。jieba在分词效果和速度上都表现出色，因此在自然语言处理、搜索引擎优化等方面得到了

#python #中文分词

392 
空中湖来自北京朝阳AI社区

devpress.csdn.net/aibjcy · 2025-09-13 15:38:25

AI觉醒：小白的大模型冒险记第3章：词向量森林的奇遇 - 词嵌入的魔法

【摘要】小白在AI向导小T的带领下探索神奇的"词向量森林"，发现每个词都被表示为语义空间中的向量光点，相似词自动聚集。他们见证了通过向量运算（如"国王-男人+女人=王后"）揭示词间关系的魔法，并遇到嵌入层魔法师，了解了词向量如何通过训练从随机状态到有序组织。文章生动展示了词向量的原理、应用（相似词查找、情感分析等）及局限性（多义词问题），并让小白体验了训练个

#人工智能 #中文分词 #transformer

783 

21 
从前太慢来自讯飞AI开发者社区

xfyun.csdn.net · 2023-08-18 17:01:54

java HanLP汉语言处理包中文分词

汉语言处理包HanLP是一系列模型与算法组成的NLP工具包，由大快搜索主导并完全开源，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。在提供丰富功能的同时，HanLP内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布，使用非常方便。默认模型训练自全世界最大规模的中文语料库，同时自带一些语料处理工具，帮助用户训练自

#java #中文分词 #开发语言

1122 
MYH516 来自讯飞AI开发者社区

xfyun.csdn.net · 2025-06-08 11:18:00

手动给中文分词和直接用神经网络RNN做有什么区别

你的代码使用 RNN 实现分词，正是利用了神经网络在上下文建模和自动特征提取上的优势，尤其适合处理未登录词和复杂语义场景。而神经网络分词更适合。

#神经网络 #中文分词 #rnn

688 

5 
PolarDay. 来自讯飞AI开发者社区

xfyun.csdn.net · 2022-01-27 23:19:48

golang使用阿里云api进行中文分词

golang使用阿里云api进行中文分词笔者刚开始学习go语言，代码有些地方不是很规范而且冗余较多，肯定不是最优的方法，但最终也实现了中文分词，但是不知道什么原因有的时候运行可能会出错，多运行几次即可。这里我使用的是通过发送http请求来调用主要在于签名的获取，其他的参数拼接到url上即可代码参考的是官方签名机制文档下的python代码——签名机制第一步：注册阿里云账号，获取AccessKey,这

#golang #阿里云 #中文分词

1172 

1 
gxyc0 来自天启AI社区

tianqi.csdn.net · 2022-11-28 19:09:59

帝国CMS7.5基于迅搜（Xunsearch）的全文搜索插件

5、查找$r=$empire->fetch1("select * from {$dbtbpre}ecms_".$tbname.$doctb." where id='$id[$i]'");3-1、索引数据按不同模型分别建立索引库，不同模型可单独设置索引字段以及索引类型，不同模型可以单独设置不同的索引服务器。1、解压后将xunsearch文件夹放到/e/extend/目录，完整路径是/e/extend

#大数据 #全文检索 #中文分词

916 
python编程家大大来自讯飞AI开发者社区

xfyun.csdn.net · 2025-07-23 20:30:00

使用python采集微博文本10000条，做文本分析，包括lda主题分析、文本聚类、情感分析、LSTM热度预测算法

特征融合与聚类的实现通过整合多种技术对文本数据进行深度处理和分析，具体包括以下步骤：首先，进行文本预处理和分词，将原始评论数据转化为规范化的中文分词文本，并去除停用词，以提高文本分析的准确性。在代码中，通过绘制折线图来观察聚类数量与总的簇内离差平方和之和之间的关系，并根据拐点法选择最佳的聚类数量，拐点法得出的结果如图所示可知，该方法的拐点为4。之后，定义了TimeSeriesDataset类，这个

#算法 #python #聚类 +3

1867 

35 
m0_62500122 来自天启AI社区

tianqi.csdn.net · 2024-04-25 13:44:31

NLP任务学习

（总结对该任务学习心得，也可以列出对该任务的问题、疑惑与思考）1.多样性：中文分词任务具有多样性，不同的文本场景、行业、领域可能需要不同的分词方法和模型。因此，在实际应用中需要根据具体情况选择合适的分词工具和技术。2.方法比较：常见的中文分词方法包括基于规则的方法、基于统计学习的方法和基于深度学习的方法。不同方法各有优缺点，需要根据实际需求进行选择和比较。3.工具选择：针对中文分词任务，有许多开源

#自然语言处理 #学习 #中文分词

977 

25 
秋田刀鱼来自上海城市开发者社区

devpress.csdn.net/shanghai · 2023-04-08 12:00:40

【庸见辞典】flow by : rivers in youth

透明 transparent：与不可见的（invisible）同义，正如我们经常看到那些撞在玻璃上的鸟一样。

#c语言 #中文分词

129 
m0_74977182 来自 DAMO开发者矩阵

damodev.csdn.net · 2025-08-12 21:27:26

机器学习第十课之TF-IDF算法（红楼梦文本分析）

本文介绍了TF-IDF算法及其在文本处理中的应用。TF-IDF通过词频(TF)和逆文档频率(IDF)的乘积来衡量词语重要性，能有效提取文本关键特征。文章详细讲解了算法原理、计算步骤，并以《红楼梦》文本分析为案例，展示了从文本分卷、分词处理到TF-IDF关键词提取的全过程。通过Python实现，包括使用jieba分词、停用词过滤、TfidfVectorizer等工具，最终提取出每个章节的前10个关键

#机器学习 #人工智能 #自然语言处理 +1

1011 

17 
bug–0/1 来自 DAMO开发者矩阵

damodev.csdn.net · 2023-11-17 16:38:47

图数据库Neo4J 中文分词查询及全文检索(建立全文索引)

Neo4j的全文索引是基于Lucene实现的，但是Lucene默认情况下只提供了基于英文的分词器，下篇文章我们在讨论中文分词器（IK）的引用，本篇默认基于英文分词来做。我们前边文章就举例说明过，比如我要搜索苹果公司？首先我们要做的第一步在各个词条上创建全文索引，第二步我们根据苹果公司进行全文检索，把匹配度高的按顺序输出。下边我们一步步讲解怎么做。

#数据库 #neo4j #中文分词

5845 

2 
Yushan_Ji 来自讯飞AI开发者社区

xfyun.csdn.net · 2023-10-23 12:34:52

ECNU自然语言处理作业2：文本处理

1. 利用nltk库进行文本切分、标准化（去除标点、大小写转换、去除停用词）、词干提取、词形还原、词频统计2. 基于中文词典实现正向最大匹配算法、逆向最大匹配算法、双向最大匹配算法3. 结巴分词

#自然语言处理 #nlp #中文分词

901 

1 
ZW_Xu_307 来自天启AI社区

tianqi.csdn.net · 2025-03-29 01:27:58

2025年Python计算机二级考试考前复习 · 知识点均提炼自真题 · 考点全面覆盖 · 计算机考试复习资料

2025年Python计算机二级考试考前复习 · 知识点均提炼自真题 · 考点全面覆盖 · 计算机考试复习资料

#算法 #python #青少年编程 +2

1331 

26 
-无-为- 来自天启AI社区

tianqi.csdn.net · 2024-08-17 00:18:52

科普文：敏感词和贝叶斯中文分词

南京市长江大桥欢迎你原来还可以这样念南京市长江大桥欢迎您：分词。中文分词：jieba分词、IK分词。1、基于trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图DAG；2、采用动态规划查找最大路径、找出基于词频的最大切分组合。3、对于未登录词，采用了基于HMM或者最大熵模型等来实现分词。

#中文分词 #自然语言处理

1196 

16 
Alexinyu 来自天启AI社区

tianqi.csdn.net · 2025-03-27 20:14:17

【轻松对比】深入解析国内rerank模型：BGE与博查Semantic Reranker API的对比

大家好啊，我是大家的老朋友北极熊，今天我们来给大家介绍一下国内的reranker。在信息检索领域，如何高效、准确地对搜索结果进行排序，一直是研究的重点。但是国内外比较出名的reranker模型仍然比较少，国内的话，主要是以智源研究院推出的BGE（BAAI General Embedding）系列模型和博查AI的Semantic Reranker API最为引人注目。今天我们就将对这两者进行深入探讨

#python #人工智能 #自然语言处理 +4

1425 

30 
Asia-Lee 来自松山湖开发者村综合服务平台

community.sslcode.com.cn · 2025-08-18 19:40:01

Elasticsearch全文检索中文分词：IK分词器详解与Docker环境集成

IK分词器（IK Analyzer）是Elasticsearch中广泛使用的中文分词插件，专门针对中文文本进行高效的分词处理。

#全文检索 #elasticsearch #中文分词

1817 

21 
栗子编程来自天启AI社区

tianqi.csdn.net · 2024-09-21 15:49:44

【Python人工智能】自然语言处理--中文分词与词频统计

词袋模型是一种自然语言处理中的文本表示方法，它将文本视为单词的集合，而不考虑单词的顺序或语法结构。每个文档被表示为一个特征向量，向量的每个元素对应于一个词的出现频率。这种模型简单易用，适合于分类和聚类等任务。为了简化代码，方便词频统计，我们舍弃传统的创建字典来统计词频的方法。直接学习和使用词袋模型。

#人工智能 #自然语言处理 #python +1

1372 

24 
Funny_AI_LAB 来自天启AI社区

tianqi.csdn.net · 2022-05-01 15:31:10

Ai数据大汇总—在这里没有找不到的数据

这是一份人工智能各个场景都包含的数据汇总整理，各位看官一定要收好，你想要的数据基本都能在这里面找到：

#人工智能 #计算机视觉 #视觉检测 +2

1531 

2 
数据结构与算法学习、智能算法来自天启AI社区

tianqi.csdn.net · 2022-04-05 22:53:31

逆向最大匹配分词算法

逆向最大匹配分词算法ByJorbe2014/03/13计算机科学No Comments中文分词是所有中文信息处理的基础。在数据挖掘、搜索引擎、自然语言处理等领域都起着至关重要的作用。中文分词算法大概可以分为三类：正向最大匹配、逆向最大匹配以及基于统计概率模型的算法。这篇博文讲的就是逆向最大匹配分词算法。其实正向最大匹配和逆向最大匹配算法类似。逆向最大匹配算法虽然简单，但在处理一些语句上面还是不能准

#算法 #中文分词

2093 
周圣贤来自 2048 AI社区

2048ai.net · 2025-08-18 12:40:32

为什么能发财的是疯子认知边疆与文明熵变

四、新商业文明的疯傻基因当AI算法将人类拖入确定性黑洞，疯傻特质升维为对抗技术霸权的最后火种：混沌引擎：字节跳动张一鸣早期重押AI推荐，表面是“看不懂内容的疯子”，实则以算法噪声破坏传统内容分发的计划经济。终极顿悟：被称为疯傻的人，实则是唯二能看清真相的族群——他们知晓：理性者的围城终将坍缩成认知废墟，唯有撕裂规则的疯子在废墟上拓印星图，浇筑时间的傻子为星图镶刻坐标。当大众将挑战常规者贬为“疯子”

#中文分词

330 

5 
星期天要睡觉来自 2048 AI社区

2048ai.net · 2025-08-17 19:03:34

机器学习——CountVectorizer词向量转化评论预测案例（中文分词jieba+停用词过滤+词袋模型n-gram特征提取+SMOTE过采样+朴素贝叶斯分类+模型评估+交互预测）

本文实现了一个基于jieba 分词 + 朴素贝叶斯 + SMOTE + n-gram 词袋模型的中文情感分析系统，能高效判断好评和差评。加入 TF-IDF代替词袋模型，提升特征质量。使用深度学习（BERT、ERNIE）提高模型表达能力。结合情感词典提升可解释性。t=P758python网络爬虫小项目（爬取评论）超级简单-CSDN博客https://blog.csdn.net/2302_780226

#中文分词 #分类 #自然语言处理 +1

1021 

24 
用心去追梦来自天启AI社区

tianqi.csdn.net · 2024-04-04 23:24:43

ElasticSearch 实战： ES 中文分词 – 结巴分词

Logstash简介：Logstash 是 Elastic Stack 中的数据收集与处理工具，可以对接多种数据源，并通过插件将数据发送到 Elasticsearch。集成：使用 Logstash 的python插件调用结巴分词库，对文本字段进行分词后再发送至 Elasticsearch。自定义应用简介：在数据入库前，通过自定义的 Python、Java 或其他语言的应用程序，调用结巴分词库对文本

#elasticsearch #中文分词 #jenkins

1348 

5 
未来之窗软件服务来自 2048 AI社区

2048ai.net · 2025-08-15 01:18:41

自建知识库，向量数据库体系建设（五）之中文分词库 HanLP ——仙盟创梦IDE

在当今数字化和智能化飞速发展的时代，企业面临着海量文本数据的处理与分析需求。HanLP 作为一款功能强大的自然语言处理工具包，在中文分词方面表现卓越，为企业在建立自己的知识库、打造智能客服、构建智能产品库以及推动 AI 应用等诸多关键领域，提供了强有力的支持。

#中文分词 #自然语言处理

1152 

12 
Happme1 来自天启AI社区

tianqi.csdn.net · 2024-12-25 00:00:28

大模型基础组件 - Tokenizer

Tokenizer分词是大模型的基础组件，用于将文本转换成模型可以理解的形式。常见的分词方式包括基于词的切分（word-based）、基于字符的切分（character-based）、基于子词的切分（subword-based）。基于词的切分和基于字符的切分都比较简单容易理解，这里只介绍主流的分词方法subword-based。subword-based方法的目的是通过一个有限的单词列表来解决所有

#中文分词

2114 

39 
我与nano 来自天启AI社区

tianqi.csdn.net · 2022-02-15 00:31:52

寒假第三周学习总结与反思

这次一共是11天的时间，学了很多东西，首先是结束了操作系统的学习，开学在做一个项目熟悉一下，又重新学了一遍Python基础，又学了直流电机、PID、机械臂、后面又学了怎么用openmv跑神经网络、再接着学习了linux基础，重新复习了一下之前学的、后面学习了爬虫，这个特别有意思哈哈哈，可以爬取电影，图片，资料等等，在娱乐的同时了解了很多网络协议，很多解析方式，最后呢又学习了QT开发，这样我的pyt

#中文分词

2097 

5 
阡之尘埃来自天启AI社区

tianqi.csdn.net · 2022-09-21 17:02:48

Python自动化小技巧03——自动统计文件里面的文字和词汇频数

Python自动统计文本字符和词汇的出现频数，输出excel表

#自动化 #python #中文分词

3517 

3 
田野猫咪来自天启AI社区

tianqi.csdn.net · 2024-04-06 12:15:00

Python最好用的中文分词库：jieba

使用jieba分词时，分词结果需要与jieba的词典库进行匹配，才能返回到分词结果中。因此有些词需要用户自定义，才能识别到。jieba.add_word('铃儿响叮当')jieba.add_word('让世界充满爱')jieba.add_word('迅雷不及掩耳之势')print('[添加自定义词语]：', lcut_res)[添加自定义词语]： ['迅雷', '迅雷不及', '迅雷不及掩耳',

#python #中文分词 #开发语言

5920 

24 
Monkey的自我迭代来自 2048 AI社区

2048ai.net · 2025-08-14 09:50:41

GitHub宕机？五层分布式代码协作方案拯救你

摘要：本文提出一个应对GitHub宕机的五层分布式代码协作方案，包括网络层（混合P2P覆盖网络）、存储层（区块链锚定+本地Git）、协作层（去中心化PR）、安全层（零知识证明）和恢复层（状态同步引擎）。该架构支持离线操作，通过CRDT自动合并、智能合约存证和AI预测等创新技术，实现99.8%的宕机恢复时间缩减和65%存储成本降低，将代码协作从平台依赖回归到开发者节点互联的本质。开源实现参考libp

#服务器 #运维 #人工智能 +2

720 

25 
周圣贤来自 2048 AI社区

2048ai.net · 2025-08-12 18:49:20

九尾狐未来机械晶核技术

3. 核心技术原理：尾核分布式架构 (Distributed Tail-Core Architecture)这是KFMCT区别于其他动力/控制核心的关键创新，也是“九尾狐”概念的具象化技术体现：主核 (Primary Core)：位于系统中心，负责核心决策、全局任务调度、高阶思维推理（如果涉及AI）以及维持系统基本生命的能量供应。它是一个多层级、多功能的复合体：物理结构 (Physical St

#中文分词

286 

4 
IT古董来自 2048 AI社区

2048ai.net · 2025-08-06 10:21:13

【第四章:大模型（LLM)】04.Transfomer: The foundation of LLM-(3)分词：英文分词与中文分词

本节介绍了分词（Tokenization）在自然语言处理中的重要性，并重点分析了英文分词与中文分词的差异。英文单词天然由空格分隔，但仍存在词形变化、缩写等问题，需要进一步处理。而中文没有显式分隔符，需依赖统计、词典或深度学习模型进行切分。

#中文分词 #自然语言处理

847 

11 
方世恩来自 DAMO开发者矩阵

damodev.csdn.net · 2024-09-02 09:45:12

【机器学习】（19） --TF-IDF中文处理

本篇介绍了：1. jieba分词的基础用法2. 如何计算中文文本中单词的TF-IDF值3. 型拟合变换之后，模型中已经将每个单词的TF-IDF值计算出来了

#机器学习 #easyui #人工智能 +3

1605 

38 
Calvin.AIAS 来自 DAMO开发者矩阵

damodev.csdn.net · 2021-11-02 09:23:31

人工智能Java SDK：词法分析模型能整体性地完成中文分词、词性标注、专名识别任务

文本 - 词法分析SDK [中文]词法分析模型能整体性地完成中文分词、词性标注、专名识别任务。词性标注：n 普通名词f 方位名词s 处所名词t 时间nr 人名ns 地名nt 机构名nw 作品名nz 其他专名v 普通动词vd 动副词vn 名动词a 形容词ad 副形词an 名形词d 副词m 数量词q 量词r 代词p 介词c 连词u 助词xc 其他虚词w 标点符号PER 人名LOC 地名ORG 机构名T

#人工智能 #java #中文分词

280 

标签介绍

中文分词

——中文分词

热门标签

关于我们

联系我们（工作时间：8:30-22:00）

400-660-0108 kefu@csdn.net