logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

stata计量之前数据清洗的必备步骤

数据清理第一步:整体数据查看一、查看识别变量--isid、duplicates一般而言,每个数据集都有唯一一个识别每条记录的识别符(重复测量的长型数据除外)。Stata检查唯一识别符是否唯一的命令为isid(或许是is this an ID的缩写)。isid允许同时检查多个唯一识别符,如果没有返回值,就说明是唯一的(没有消息就是好消息);如果不唯一,就会出现红色提示variable *** doe

#python
poisson分布及其stata实现

泊松回归假设反应变量Y是泊松分布,并假设它期望值的对数可被未知参数的线性组合建模。泊松回归模型有时(特别是当用作列联表模型时)又被称作对数线性模型。的问题建模时,一般的线性回归模型、定序回归模型和逻辑回归模型就可以解决大部分问题。发生频数的大小,只与单位大小有关系(比如1万为单位,或者100万为单位时患癌症人数不同);的因变量记录某个特定事件出现的次数(有序的非负整数),它们被称之为“发生频数的大

机器学习实现文本分类

word embedding文本分布式表示方法则是深度学习方法的重要基础文本的分布式表示(Distributed Representation)的基本思想是将每个词表示为n维稠密,连续的实数向量。分布式表示的最大优点在于它具有非常强大的表征能力,比如n维向量每维k个值,可以表征k的n次方个概念。事实上,不管是神经网络的影层,还是多个潜在变量的概率主题模型,都是在应用分布式表示。下图的神经网络语言模

文章图片
#机器学习#分类#人工智能
聚类调整标准误笔记

1. 何为聚类标准误标准误在统计推断中发挥着至关重要的作用,直接影响着系数的显著性和置信区间,并最终影响到假设检验的结论。因此,正确地估计标准误在实证分析的过程中显得尤为重要。当干扰项满足「独立同分布 (iid)」 条件时, OLS 所估计的标准误是无偏的。但是当误差项之间存在相关性时,OLS 所估计的标准误是有偏的,不能很好地反映估计系数的真实变异性 (Petersen, 2009),故需要对标

#聚类#机器学习#数据挖掘
stata实证之前通常处理步骤

1. 剔除缺失数据在主回归文件有缺失内容时,剔除掉缺失值keep if _merge==3数据处理结束——删除因变量缺失的数据drop if missing(size, lev, growth, roa, cashflow, btom, largesthold,dyratio,dgjhold,dgjwage,ncskew,duvol,sigma,ret,ipoage,board,ind_board

#python
广义精确匹配-Coarsened Exact Matching (CEM)

严格来说,即使发表的论文,协变量在匹配后也不一定更加平衡,往往是某些变量的平衡性得到提升,而另一部分变量的平衡性有所下降。因此,我们介绍一种无需检查协变量平衡性、模型依赖度更低的匹配方法——Coarsened Exact Matching (广义精确匹配 \ 粗粒度精确匹配)。1. CEM原理介绍常用的 PSM 方法往往无法确保在匹配后提升平衡性,而 Coarsened Exact Matchin

#其他
Lasso模型

Lasso是一种数据降维方法,该方法不仅适用于线性情况,也适用于非线性情况。Lasso是基于惩罚方法对样本数据进行变量选择,通过对原本的系数进行压缩,将原本很小的系数直接压缩至0,从而将这部分系数所对应的变量视为非显著性变量,将不显著的变量直接舍弃。了解Lasso之前我们需要了解的知识1.1 高维数据何谓高维数据?高维数据指数据的维度很高,甚至远大于样本量的个数。高维数据的明显的表现是:在空间中数

#其他
双变量probit模型

该模型是Probit模型的拓展,适用于模型中有两个结果变量且假定方程组的随机扰动项之间存在相关性,模型中的方程需同时进行估计。如果这两个二元变量的结果是不相关的,我们可以估计两个独立的 Probit 模型,如果这两个二元变量的结果是相关的,使用Probit 模型会导致估计结果偏差并影响结论,则需要使用 Bivariate Probit 模型。分别为标准化的二维正态分布的概率密度函数 (PDF) 和

数据标准化处理

一、为什么进行标准化处理在多指标评价体系中,由于各评价指标的性质不同,通常具有不同的量纲和数量级。当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。因此,为了保证结果的可靠性,需要对原始指标数据进行标准化处理。数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指

#机器学习#人工智能
解决内生性问题

1. 内生性来源内生性问题 (endogeneity issue) 是指模型中的一个或多个解释变量与误差项存在相关关系。换言之,如果 OLS 回归模型中出现,则模型存在内生性问题,以致于 OLS 估计量不再是一致估计。进一步,内生性问题主要由以下四种原因导致。1.1 遗漏变量在实证研究中,研究者通常无法控制所有能影响被解释变量的变量,因此遗漏解释变量 (omitted variables) 是很常

#其他
    共 20 条
  • 1
  • 2
  • 请选择