狮子座明仔个人主页

@shibing624

狮子座明仔

2023-01-03 19:37:46 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

SVM算法原理解析

我把原文作者的系列博客总结成一篇文章，便于前后对照着理解。转自：http://www.blogjava.net/zhenandaci/category/31868.html（一）SVM的简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问

#算法 #机器学习

隐马尔科夫模型（Hidden Markov Model，HMM）

wiki上有定义：隐马尔可夫模型（Hidden Markov Model，HMM）是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析，例如模式识别。

#算法

Jieba中文分词说明

结巴分词介绍现在开源的中文分词工具，有IK、MMseg4j、THULAC、Ansj、Jieba、HanLP等，其中最近还在更新并维护的，也是目前分词效果比较优秀的要属于Ansj、Jieba、HanLP了。之前我写过Ansj分词器的介绍说明博客，现在细谈一下Jieba分词的详细思路及其实现过程。结巴分词主页结巴分词的github主页地址是：https://github.com/fxsjy/jieba

#github

Ansj中文分词说明

Ansj分词这是一个基于n-Gram+条件随机场模型的中文分词的java实现.分词速度达到每秒钟大约200万字左右（mac air下测试），准确率能达到96%以上目前实现了.中文分词. 中文姓名识别 . 用户自定义词典可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目.源码：https://github.com/NLPchina/ansj_seg

#中文分词

NLP大模型微调原理

2. 论文《Training Compute-Optimal Large Language Models》研究发现最好的性能不是在最大的模型上，而是在用了更多token的模型上，因此作者认为一个较小的模型训练的时间更长，用的token更多，能达到一样的模型效果，并且在预测时较为便宜（cheaper）。GPT等大型语言模型基于Prompt的zero shot的学习范式有一个很大的问题是，预训练的模型

#人工智能 #机器学习 #深度学习

中文分词原理和实现

三大主流分词方法：基于词典的方法、基于规则的方法和基于统计的方法。1、基于规则或词典的方法定义：按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配，若在词典中找到某个字符串，则匹配成功。按照扫描方向的不同：正向匹配和逆向匹配按照长度的不同：最大匹配和最小匹配1.1正向最大匹配思想MM从左向右取待切分汉语句的m个字符作为匹配字段，m为大机器词典中最长词条个数。查找大机器词

#中文分词

暂无文章信息