celine0227 个人主页

@celine0227

celine0227

2022-11-25 11:02:12 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

机器学习实现文本分类

word embedding文本分布式表示方法则是深度学习方法的重要基础文本的分布式表示(Distributed Representation)的基本思想是将每个词表示为n维稠密，连续的实数向量。分布式表示的最大优点在于它具有非常强大的表征能力，比如n维向量每维k个值，可以表征k的n次方个概念。事实上，不管是神经网络的影层，还是多个潜在变量的概率主题模型，都是在应用分布式表示。下图的神经网络语言模

#机器学习 #分类 #人工智能

聚类调整标准误笔记

1. 何为聚类标准误标准误在统计推断中发挥着至关重要的作用，直接影响着系数的显著性和置信区间，并最终影响到假设检验的结论。因此，正确地估计标准误在实证分析的过程中显得尤为重要。当干扰项满足「独立同分布 (iid)」条件时， OLS 所估计的标准误是无偏的。但是当误差项之间存在相关性时，OLS 所估计的标准误是有偏的，不能很好地反映估计系数的真实变异性 (Petersen, 2009)，故需要对标

#聚类 #机器学习 #数据挖掘

stata实证之前通常处理步骤

1. 剔除缺失数据在主回归文件有缺失内容时，剔除掉缺失值keep if _merge==3数据处理结束——删除因变量缺失的数据drop if missing(size, lev, growth, roa, cashflow, btom, largesthold,dyratio,dgjhold,dgjwage,ncskew,duvol,sigma,ret,ipoage,board,ind_board

#python

广义精确匹配-Coarsened Exact Matching (CEM)

严格来说，即使发表的论文，协变量在匹配后也不一定更加平衡，往往是某些变量的平衡性得到提升，而另一部分变量的平衡性有所下降。因此，我们介绍一种无需检查协变量平衡性、模型依赖度更低的匹配方法——Coarsened Exact Matching (广义精确匹配 \ 粗粒度精确匹配)。1. CEM原理介绍常用的 PSM 方法往往无法确保在匹配后提升平衡性，而 Coarsened Exact Matchin

#其他

Lasso模型

Lasso是一种数据降维方法，该方法不仅适用于线性情况，也适用于非线性情况。Lasso是基于惩罚方法对样本数据进行变量选择，通过对原本的系数进行压缩，将原本很小的系数直接压缩至0，从而将这部分系数所对应的变量视为非显著性变量，将不显著的变量直接舍弃。了解Lasso之前我们需要了解的知识1.1 高维数据何谓高维数据？高维数据指数据的维度很高，甚至远大于样本量的个数。高维数据的明显的表现是：在空间中数

#其他

双变量probit模型

该模型是Probit模型的拓展，适用于模型中有两个结果变量且假定方程组的随机扰动项之间存在相关性，模型中的方程需同时进行估计。如果这两个二元变量的结果是不相关的，我们可以估计两个独立的 Probit 模型，如果这两个二元变量的结果是相关的，使用Probit 模型会导致估计结果偏差并影响结论，则需要使用 Bivariate Probit 模型。分别为标准化的二维正态分布的概率密度函数 (PDF) 和

数据标准化处理

一、为什么进行标准化处理在多指标评价体系中，由于各评价指标的性质不同，通常具有不同的量纲和数量级。当各指标间的水平相差很大时，如果直接用原始指标值进行分析，就会突出数值较高的指标在综合分析中的作用，相对削弱数值水平较低指标的作用。因此，为了保证结果的可靠性，需要对原始指标数据进行标准化处理。数据的标准化(normalization)是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指

#机器学习 #人工智能

解决内生性问题

1. 内生性来源内生性问题 (endogeneity issue) 是指模型中的一个或多个解释变量与误差项存在相关关系。换言之，如果 OLS 回归模型中出现，则模型存在内生性问题，以致于 OLS 估计量不再是一致估计。进一步，内生性问题主要由以下四种原因导致。1.1 遗漏变量在实证研究中，研究者通常无法控制所有能影响被解释变量的变量，因此遗漏解释变量 (omitted variables) 是很常

#其他

一行代码实现安慰剂检验

1. 什么是安慰剂检验随着「因果推断方法」在实证研究中的使用比例不断提升，越来越多的文章也会进行安慰剂检验。其检验基本原理与医学中的安慰剂类似，即使用「假的政策发生时间或实验组」进行分析，以检验能否得到政策效应。如果依然得到了政策效应，则表明基准回归中的政策效应并不可靠。进一步，经济结果可能是由其他不可观测因素导致的，而非关注的政策所产生。2. 为什么要进行安慰剂检验在实证研究中，无论是稳健性检验

#概率论 #python

样本选择模型 & 处理效应模型

一、样本选择偏差与自选择偏差样本选择偏差样本选择偏差的非随机选择机制在于对样本的选择不随机。在样本数据的采集过程中，只对某部分群体进行调查，但这部分群体与其他群体在某些方面的特征差异较大，因此根据这样的样本做回归得到的普适性结论并不可信。体现在具体的数据集中就是，数据集中只有特定群体的样本，或者，虽然有全部群体的所有解释变量数据，但除特定群体之外的其他群体的被解释变量数据缺失，在这两种情况下进行的

#回归

共 18 条

请选择