回答问题

我正在尝试使用 python 库计算回归输出,但是在使用该库时无法获得截距值:

import statsmodels.api as sm

它打印除截距之外的所有回归分析。

但是当我使用时:

from pandas.stats.api import ols

我的熊猫代码:

Regression = ols(y= Sorted_Data3['net_realization_rate'],x = Sorted_Data3[['Cohort_2','Cohort_3']])
print Regression  

我收到拦截并警告说这个库将来会被弃用,所以我正在尝试使用 Statsmodels。

使用 pandas.stats.api 时收到的警告:

警告(来自警告模块):文件“C:\Python27\lib\idlelib\run.py”,self.locals 中的第 325 行执行代码 FutureWarning:pandas.stats.ols 模块已弃用,将来将被删除版本。我们指的是像 statsmodels 这样的外部包,这里有一些例子:http://statsmodels.sourceforge.net/stable/regression.html

我的 Statsmodels 代码:

import pandas as pd
import numpy as np
from pandas.stats.api import ols
import statsmodels.api as sm

Data1 = pd.read_csv('C:\Shank\Regression.csv')  #Importing CSV
print Data1

运行一些清理代码

sm_model = sm.OLS(Sorted_Data3['net_realization_rate'],Sorted_Data3[['Cohort_2','Cohort_3']])
results = sm_model.fit()
print '\n'
print results.summary()

我什至尝试过 statsmodels.formula.api: 作为:

sm_model = sm.OLS(formula ="net_realization_rate ~ Cohort_2 + Cohort_3", data = Sorted_Data3)
results = sm_model.fit()
print '\n'
print result.params
print '\n'
print results.summary()

但我得到了错误:

TypeError: init() 需要至少 2 个参数(1 个给定)

最终输出:第一个来自 pandas 第二个来自 Stats....我希望拦截值也来自来自 stats 的 pandas:在此处输入图像描述

Answers

因此,statsmodels有一个add_constant方法,您需要使用它来显式添加截距值。恕我直言,这比默认添加截距的 R 替代方案要好。

在您的情况下,您需要这样做:

import statsmodels.api as sm
endog = Sorted_Data3['net_realization_rate']
exog = sm.add_constant(Sorted_Data3[['Cohort_2','Cohort_3']])

# Fit and summarize OLS model
mod = sm.OLS(endog, exog)
results = mod.fit()
print results.summary()

请注意,您可以在数组之前或之后添加一个常量,方法是将True(默认)或False传递给sm.add_constant中的prependkwag


或者,不推荐,但您可以使用 Numpy 显式添加一个常量列,如下所示:

exog = np.concatenate((np.repeat(1, len(Sorted_Data3))[:, None], 
                       Sorted_Data3[['Cohort_2','Cohort_3']].values),
                       axis = 1)
Logo

Python社区为您提供最前沿的新闻资讯和知识内容

更多推荐