
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
训练好LDA主题模型后,如何评价模型的好坏?能否直接将训练好的模型拿去应用?这是一个比较重要的问题,在对模型精度要求比较高的项目或科研中,需要对模型进行评价。一般来说,LDA模型的主题数量都是需要需要根据具体任务进行调整的,即要评价不同主题数的模型的困惑度来选择最优的那个模型。...
由于工作需要想要更改数据库名称,为其赋予一个更易与理解的名字,由于已存储数据较多,重新转存效率较低,遂打算直接修改数据库名称。经过查阅官网内容、社区、博客,发现mongodb未提供直接修改数据库名称的方法,社区中有人說可以通过重命名collection的方法间接实现目的。步骤如下:# 首先进入mongodbuse yourdbnameuse admin #使用管理员权限d
假设.json文件中存储的数据为:{"type": "Point", "link": "http://www.dianping.com/newhotel/22416995", "coordinates": [116.37256372996957, 40.39798447055443], "
到2018年3月7日为止,本系列三篇文章已写完,可能后续有新的内容的话会继续更新。python下进行lda主题挖掘(一)——预处理(英文)python下进行lda主题挖掘(二)——利用gensim训练LDA模型python下进行lda主题挖掘(三)——计算困惑度perplexity本篇是我的LDA主题挖掘系列的第二篇,介绍如何利用gensim包提供的方法来训练自己处...
大小相等的数组之间的任何算术运算都会将运算应用到元素级。数组与标量的算术运算会将标量值传播到各个元素。大小相同的数组之间的比较会生成布尔值数组。不同大小的数组之间的运算叫做广播( broadcasting),当你将一个标量值赋值给一个切片时( 如arr[5:8]=12),该值会自动传播( 也就说后面将会讲到的“广播”)到整个选区。跟列表最重要的区别在于,数组切片是原始数组的视图。 这意味着数据不会
一、简介归并排序(Merging Sort)算法是一种稳定排序算法,和堆排序算法一样,都是利用完全二叉树的深度是⌊logn⌋\lfloor logn\rfloor⌊logn⌋+1 的特性,来提高排序效率,其时间复杂度和堆排序相同,均为O(nlogn)。二、算法介绍归并排序就是利用归并(将两个或以上的有序表组合成一个新的有序表)的思想实现的排序方法。基本原理是:假设初设序列有n个记录,则可以看成是n
信息可视化(也叫绘图)是数据分析中最重要的工作之一。Python有许多库进行静态或动态的数据可视化,但我这里重要关注于matplotlib和基于它的库。matplotlib是一个用于创建出版质量图表的桌面绘图包(主要是2D方面)。该项目是由John Hunter于2002年启动的,其目的是为Python构建一个MATLAB式的绘图接口。matplotlib和IPython社区进行合作,简化了从IP
一、简介直接插入排序算法是一种稳定排序算法,其每次循环将特定值插入前面排序好的数组部分,时间复杂度为O(n2),性能好于冒泡排序和选择排序。二、算法介绍算法步骤:遍历数组,令i从0到n-2,若当前元素li[i]大于后一元素li[i+1],则移动元素;移动方式为:将li[i+1]赋值给t,令j=i+1,然后从位置i向前遍历,若li[j-1] > t,则将位置j-1的元素向后移动,即li[j]
本文主要介绍GDELT数据以及对其58个字段进行说明,数据的下载代码会放在我的另一篇文章中,或者也可以直接在我的代码片中下载。之前因为学习需要下载了谷歌的GDELT数据,在国内也叫疙瘩汤,GDELT(www.gdeltproject.org)每时每刻监控着每个国家的几乎每个角落的100多种语言的新闻媒体–印刷的、广播的和web形式的,识别人员、位置、组织、数量、主题、数据源、情绪、报价、图片和每秒
到2018年3月7日为止,本系列三篇文章已写完,可能后续有新的内容的话会继续更新。欢迎阅读并交流。python下进行lda主题挖掘(一)——预处理(英文)python下进行lda主题挖掘(二)——利用gensim训练LDA模型python下进行lda主题挖掘(三)——计算困惑度perplexity写在前面本人打算将LDA这部分的内容写成一个系列,不涉及算法思想,...







