logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

python下进行lda主题挖掘(三)——计算困惑度perplexity

训练好LDA主题模型后,如何评价模型的好坏?能否直接将训练好的模型拿去应用?这是一个比较重要的问题,在对模型精度要求比较高的项目或科研中,需要对模型进行评价。一般来说,LDA模型的主题数量都是需要需要根据具体任务进行调整的,即要评价不同主题数的模型的困惑度来选择最优的那个模型。...

#自然语言处理#python
mongodb重命名数据库及常用mongodb命令

由于工作需要想要更改数据库名称,为其赋予一个更易与理解的名字,由于已存储数据较多,重新转存效率较低,遂打算直接修改数据库名称。经过查阅官网内容、社区、博客,发现mongodb未提供直接修改数据库名称的方法,社区中有人說可以通过重命名collection的方法间接实现目的。步骤如下:# 首先进入mongodbuse yourdbnameuse admin #使用管理员权限d

#mongodb
利用python将json数据转换为csv格式

假设.json文件中存储的数据为:{"type": "Point", "link": "http://www.dianping.com/newhotel/22416995", "coordinates": [116.37256372996957, 40.39798447055443], "

#python#json
python下进行lda主题挖掘(二)——利用gensim训练LDA模型

到2018年3月7日为止,本系列三篇文章已写完,可能后续有新的内容的话会继续更新。python下进行lda主题挖掘(一)——预处理(英文)python下进行lda主题挖掘(二)——利用gensim训练LDA模型python下进行lda主题挖掘(三)——计算困惑度perplexity本篇是我的LDA主题挖掘系列的第二篇,介绍如何利用gensim包提供的方法来训练自己处...

阅读笔记:利用Python进行数据分析第2版——第4章 Numpy基础:数组和矢量计算

大小相等的数组之间的任何算术运算都会将运算应用到元素级。数组与标量的算术运算会将标量值传播到各个元素。大小相同的数组之间的比较会生成布尔值数组。不同大小的数组之间的运算叫做广播( broadcasting),当你将一个标量值赋值给一个切片时( 如arr[5:8]=12),该值会自动传播( 也就说后面将会讲到的“广播”)到整个选区。跟列表最重要的区别在于,数组切片是原始数组的视图。 这意味着数据不会

#python#数据分析#numpy
排序算法(六)——归并排序算法详解及Python实现

一、简介归并排序(Merging Sort)算法是一种稳定排序算法,和堆排序算法一样,都是利用完全二叉树的深度是⌊logn⌋\lfloor logn\rfloor⌊logn⌋+1 的特性,来提高排序效率,其时间复杂度和堆排序相同,均为O(nlogn)。二、算法介绍归并排序就是利用归并(将两个或以上的有序表组合成一个新的有序表)的思想实现的排序方法。基本原理是:假设初设序列有n个记录,则可以看成是n

#排序算法#python
阅读笔记:利用Python进行数据分析第2版——第9章 绘图和可视化

信息可视化(也叫绘图)是数据分析中最重要的工作之一。Python有许多库进行静态或动态的数据可视化,但我这里重要关注于matplotlib和基于它的库。matplotlib是一个用于创建出版质量图表的桌面绘图包(主要是2D方面)。该项目是由John Hunter于2002年启动的,其目的是为Python构建一个MATLAB式的绘图接口。matplotlib和IPython社区进行合作,简化了从IP

#python#pandas#matplotlib
排序算法(三)——直接插入排序算法详解及Python实现

一、简介直接插入排序算法是一种稳定排序算法,其每次循环将特定值插入前面排序好的数组部分,时间复杂度为O(n2),性能好于冒泡排序和选择排序。二、算法介绍算法步骤:遍历数组,令i从0到n-2,若当前元素li[i]大于后一元素li[i+1],则移动元素;移动方式为:将li[i+1]赋值给t,令j=i+1,然后从位置i向前遍历,若li[j-1] > t,则将位置j-1的元素向后移动,即li[j]

#python#算法
谷歌GDELT数据说明

本文主要介绍GDELT数据以及对其58个字段进行说明,数据的下载代码会放在我的另一篇文章中,或者也可以直接在我的代码片中下载。之前因为学习需要下载了谷歌的GDELT数据,在国内也叫疙瘩汤,GDELT(www.gdeltproject.org)每时每刻监控着每个国家的几乎每个角落的100多种语言的新闻媒体–印刷的、广播的和web形式的,识别人员、位置、组织、数量、主题、数据源、情绪、报价、图片和每秒

python下进行lda主题挖掘(一)——预处理(英文)

到2018年3月7日为止,本系列三篇文章已写完,可能后续有新的内容的话会继续更新。欢迎阅读并交流。python下进行lda主题挖掘(一)——预处理(英文)python下进行lda主题挖掘(二)——利用gensim训练LDA模型python下进行lda主题挖掘(三)——计算困惑度perplexity写在前面本人打算将LDA这部分的内容写成一个系列,不涉及算法思想,...

    共 14 条
  • 1
  • 2
  • 请选择