logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

用python对单一微博文档进行分词——jieba分词(加保留词和停用词)

用python对单一微博文档进行分词——jieba分词(加保留词和停用词)

#自然语言处理#python
LDA主题模型绘制困惑度(perplexity)-主题数曲线——python

主题建模作为一种基于机器学习的文本内容分析技术,一般用于推断文本文档中隐藏主题的技术。很多研究使用了基于Latent Dirichlet Allocation (LDA)的主题建模算法来处理大规模文档并识别潜在主题。LDA主题模型已经在多个研究领域得到应用,且都有着不俗表现。LDA作为一种无监督机器学习技术,利用词袋方法识别隐藏在大规模文档集或语料库中的主题信息。LDA模型可挖掘出文档集或语料库中

#python#数据分析
numpy与pandas各种功能及其对比(超全)

在做数据处理的时候经常会用到numpy和pandas,有时候容易搞混,这篇文章就从功能方面总结对比一下二者的区别。一、简介numpy:numpy是以矩阵为基础的数学计算模块,提供高性能的矩阵运算,数组结构为ndarray。可以把它看作是多维数组(ndarray)的容器,可以对数组执行元素级计算以及直接对数组执行数学运算的函数。其也是用于读写硬盘上基于数组的数据集的工具。数据处理速度比Python自

#矩阵#python#机器学习
LDA主题模型简介及Python实现

一、LDA主题模型简介LDA主题模型主要用于推测文档的主题分布,可以将文档集中每篇文档的主题以概率分布的形式给出根据主题进行主题聚类或文本分类。LDA主题模型不关心文档中单词的顺序,通常使用词袋特征(bag-of-word feature)来代表文档。词袋模型介绍可以参考这篇文章:文本向量化表示——词袋模型 - 知乎了解LDA模型,我们需要先了解LDA的生成模型,LDA认为一篇文章是怎么形成的呢?

#python#机器学习#自然语言处理
LDA主题模型简介及Python实现

一、LDA主题模型简介LDA主题模型主要用于推测文档的主题分布,可以将文档集中每篇文档的主题以概率分布的形式给出根据主题进行主题聚类或文本分类。LDA主题模型不关心文档中单词的顺序,通常使用词袋特征(bag-of-word feature)来代表文档。词袋模型介绍可以参考这篇文章:文本向量化表示——词袋模型 - 知乎了解LDA模型,我们需要先了解LDA的生成模型,LDA认为一篇文章是怎么形成的呢?

#python#机器学习#自然语言处理
【Python数据分析】数据挖掘建模——分类与预测——回归分析

根据挖掘目标和数据形式可以建立分类与预测、聚类分析、关联规则、时序模型、离群点检测等模型。首先介绍一下分类与预测模型。一、分类预测模型实现过程分类模型主要是预测分类编号,预测模型主要是建立连续值函数模型,预测给定自变量对应的因变量的值。分类和预测的实现过程类似。以分类算法为例,分类算法主要有两步:第一步是学习步,通过归纳分析训练样本集来建立分类模型,得到分类规则;第二步是分类部,先用已知的测试样本

#数据挖掘#数据分析#分类
【Python数据分析】数据挖掘建模——聚类分析

聚类算法是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法,是一种无监督学习方法。聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度将他们划分为若干组,划分的原则是组内样本最小而组间距离最大化。常用的聚类方法有:常见的聚类分析算法有:这里主要介绍一下最常用的K-Means聚类算法一、K-Means聚类算法简介K-Means算法是典型的基于距离的非层次聚类算法,在最小化误

#数据挖掘#数据分析#python
【Python数据分析】时间序列分析——AR/MA/ARMA/ARIMA

常用按时间序列排序的一组随机变量X1,X2,...,Xt来表示一个随机时间的时间序列,简记为{Xt};用x1,x2,...,xn或{xt,t=1,2,...,n}表示该随机序列的n个有序观察值,称之为序列长度为n的观察值序列。时间序列分析的目的就是给定一个已经被观测的时间序列,观测该序列的未来值。一、时间序列的平稳性与差分法1.时间序列的平稳性:平稳性就是要求经由样本时间序列所得到的拟合曲线 ,在

#python#数据分析
SIR模型和Python实现

一、SIR模型介绍SIR模型时传染病中最基础最核心的模型,研究的是某个封闭地区的疫情传播规律。SIR模型的动力学关系如下图:健康人数S的变化与 健康人数S和正感人数I的乘积(代表健康人数和正感人数的接触)成正比,其中α代表交叉感染率移出人数的变化与正感人数的数量成正比,其中β代表回复率。基于上面的是自,SIR模型可以表示成一个常微分方程组如下图:当s(t)=β/α时就是病毒最严重的时候;表示S的反

#python#数据挖掘#数据分析
用python对单一微博文档进行分词——jieba分词(加保留词和停用词)

用python对单一微博文档进行分词——jieba分词(加保留词和停用词)

#自然语言处理#python
    共 12 条
  • 1
  • 2
  • 请选择