勤奋的清风个人主页

@qq_23926575

勤奋的清风

2022-11-07 14:24:33 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

python下进行lda主题挖掘(三)——计算困惑度perplexity

训练好LDA主题模型后，如何评价模型的好坏？能否直接将训练好的模型拿去应用？这是一个比较重要的问题，在对模型精度要求比较高的项目或科研中，需要对模型进行评价。一般来说，LDA模型的主题数量都是需要需要根据具体任务进行调整的，即要评价不同主题数的模型的困惑度来选择最优的那个模型。...

#自然语言处理 #python

mongodb重命名数据库及常用mongodb命令

由于工作需要想要更改数据库名称，为其赋予一个更易与理解的名字，由于已存储数据较多，重新转存效率较低，遂打算直接修改数据库名称。经过查阅官网内容、社区、博客，发现mongodb未提供直接修改数据库名称的方法，社区中有人說可以通过重命名collection的方法间接实现目的。步骤如下：# 首先进入mongodbuse yourdbnameuse admin #使用管理员权限d

#mongodb

利用python将json数据转换为csv格式

假设.json文件中存储的数据为：{"type": "Point", "link": "http://www.dianping.com/newhotel/22416995", "coordinates": [116.37256372996957, 40.39798447055443], "

#python #json

python下进行lda主题挖掘(二)——利用gensim训练LDA模型

到2018年3月7日为止，本系列三篇文章已写完，可能后续有新的内容的话会继续更新。python下进行lda主题挖掘(一)——预处理(英文)python下进行lda主题挖掘(二)——利用gensim训练LDA模型python下进行lda主题挖掘(三)——计算困惑度perplexity本篇是我的LDA主题挖掘系列的第二篇，介绍如何利用gensim包提供的方法来训练自己处...

阅读笔记：利用Python进行数据分析第2版——第4章 Numpy基础：数组和矢量计算

大小相等的数组之间的任何算术运算都会将运算应用到元素级。数组与标量的算术运算会将标量值传播到各个元素。大小相同的数组之间的比较会生成布尔值数组。不同大小的数组之间的运算叫做广播（ broadcasting），当你将一个标量值赋值给一个切片时（如arr[5:8]=12），该值会自动传播（也就说后面将会讲到的“广播”）到整个选区。跟列表最重要的区别在于，数组切片是原始数组的视图。这意味着数据不会

#python #数据分析 #numpy

排序算法(六)——归并排序算法详解及Python实现

一、简介归并排序(Merging Sort)算法是一种稳定排序算法，和堆排序算法一样，都是利用完全二叉树的深度是⌊logn⌋\lfloor logn\rfloor⌊logn⌋+1 的特性，来提高排序效率，其时间复杂度和堆排序相同，均为O(nlogn)。二、算法介绍归并排序就是利用归并（将两个或以上的有序表组合成一个新的有序表）的思想实现的排序方法。基本原理是：假设初设序列有n个记录，则可以看成是n

#排序算法 #python

阅读笔记：利用Python进行数据分析第2版——第9章绘图和可视化

信息可视化（也叫绘图）是数据分析中最重要的工作之一。Python有许多库进行静态或动态的数据可视化，但我这里重要关注于matplotlib和基于它的库。matplotlib是一个用于创建出版质量图表的桌面绘图包（主要是2D方面）。该项目是由John Hunter于2002年启动的，其目的是为Python构建一个MATLAB式的绘图接口。matplotlib和IPython社区进行合作，简化了从IP

#python #pandas #matplotlib

排序算法(三)——直接插入排序算法详解及Python实现

一、简介直接插入排序算法是一种稳定排序算法，其每次循环将特定值插入前面排序好的数组部分，时间复杂度为O(n2)，性能好于冒泡排序和选择排序。二、算法介绍算法步骤：遍历数组，令i从0到n-2，若当前元素li[i]大于后一元素li[i+1]，则移动元素；移动方式为：将li[i+1]赋值给t，令j=i+1，然后从位置i向前遍历，若li[j-1] > t，则将位置j-1的元素向后移动，即li[j]

#python #算法

谷歌GDELT数据说明

本文主要介绍GDELT数据以及对其58个字段进行说明，数据的下载代码会放在我的另一篇文章中，或者也可以直接在我的代码片中下载。之前因为学习需要下载了谷歌的GDELT数据，在国内也叫疙瘩汤，GDELT(www.gdeltproject.org)每时每刻监控着每个国家的几乎每个角落的100多种语言的新闻媒体–印刷的、广播的和web形式的，识别人员、位置、组织、数量、主题、数据源、情绪、报价、图片和每秒

python下进行lda主题挖掘(一)——预处理(英文)

到2018年3月7日为止，本系列三篇文章已写完，可能后续有新的内容的话会继续更新。欢迎阅读并交流。python下进行lda主题挖掘(一)——预处理(英文)python下进行lda主题挖掘(二)——利用gensim训练LDA模型python下进行lda主题挖掘(三)——计算困惑度perplexity写在前面本人打算将LDA这部分的内容写成一个系列，不涉及算法思想，...

共 14 条

请选择