LightGBM 重要参数、方法、函数理解及调参思路、网格搜索（附例子）

文章目录一、LightGBM 原生接口重要参数训练参数预测方法绘制特征重要性分类例子回归例子二、LightGBM 的 sklearn 风格接口LGBMClassifier基本使用例子LGBMRegressor基本使用例子三、LightGBM 调参思路四、参数网格搜索与 xgboost 类似，LightGBM包含原生接口和 sklearn 风格接口两种，并且二者都实现了分类和回归的功能。如果想了解一

文章共7,567字 · 阅读需要大约26分钟

一键AI生成摘要，助你高效阅读

问答

VariableX

58788人浏览 · 2020-07-10 17:16:12

VariableX · 2020-07-10 17:16:12 发布

与 xgboost 类似，LightGBM包含原生接口和 sklearn 风格接口两种，并且二者都实现了分类和回归的功能。如果想了解一些理论性的内容，可以看看之前的文章：LightGBM 相关知识理解

一、LightGBM 原生接口

重要参数

boosting / boost / boosting_type

用于指定弱学习器的类型，默认值为 ‘gbdt’，表示使用基于树的模型进行计算。还可以选择为 ‘gblinear’ 表示使用线性模型作为弱学习器。

可选的参数值有：

‘gbdt’，使用梯度提升树
‘rf’，使用随机森林
‘dart’，不太了解，官方解释为 Dropouts meet Multiple Additive Regression Trees
‘goss’，使用单边梯度抽样算法，速度很快，但是可能欠拟合。

推荐设置为 'gbdt’

objective / application

用于指定学习任务及相应的学习目标，常用的可选参数值如下：

“regression”，使用L2正则项的回归模型（默认值）。
“regression_l1”，使用L1正则项的回归模型。
“mape”，平均绝对百分比误差。
“binary”，二分类。
“multiclass”，多分类。

num_class

用于设置多分类问题的类别个数。

min_child_samples

叶节点样本的最少数量，默认值20，用于防止过拟合。

learning_rate / eta

LightGBM 不完全信任每个弱学习器学到的残差值，为此需要给每个弱学习器拟合的残差值都乘上取值范围在(0, 1] 的 eta，设置较小的 eta 就可以多学习几个弱学习器来弥补不足的残差。

推荐的候选值为：[0.01, 0.015, 0.025, 0.05, 0.1]

max_depth

指定树的最大深度，默认值为-1，表示不做限制，合理的设置可以防止过拟合。

推荐的数值为：[3, 5, 6, 7, 9, 12, 15, 17, 25]。

num_leaves

指定叶子的个数，默认值为31，此参数的数值应该小于 $2^{max\_depth}$ 。

feature_fraction / colsample_bytree

构建弱学习器时，对特征随机采样的比例，默认值为1。

推荐的候选值为：[0.6, 0.7, 0.8, 0.9, 1]

bagging_fraction / subsample

默认值1，指定采样出 subsample * n_samples 个样本用于训练弱学习器。注意这里的子采样和随机森林不一样，随机森林使用的是放回抽样，而这里是不放回抽样。取值在(0, 1)之间，设置为1表示使用所有数据训练弱学习器。如果取值小于1，则只有一部分样本会去做GBDT的决策树拟合。选择小于1的比例可以减少方差，即防止过拟合，但是会增加样本拟合的偏差，因此取值不能太低。

注意： bagging_freq 设置为非0值时才生效。

推荐的候选值为：[0.6, 0.7, 0.8, 0.9, 1]

bagging_freq / subsample_freq

数值型，默认值0，表示禁用样本采样。如果设置为整数 z ，则每迭代 k 次执行一次采样。

lambda_l1

L1正则化权重项，增加此值将使模型更加保守。

推荐的候选值为：[0, 0.01~0.1, 1]

lambda_l2

L2正则化权重项，增加此值将使模型更加保守。

推荐的候选值为：[0, 0.1, 0.5, 1]

min_gain_to_split / min_split_gain

指定叶节点进行分支所需的损失减少的最小值，默认值为0。设置的值越大，模型就越保守。

**推荐的候选值为：[0, 0.05 ~ 0.1, 0.3, 0.5, 0.7, 0.9, 1] **

min_sum_hessian_in_leaf / min_child_weight

指定孩子节点中最小的样本权重和，如果一个叶子节点的样本权重和小于min_child_weight则拆分过程结束，默认值为1。

推荐的候选值为：[1, 3, 5, 7]

metric

用于指定评估指标，可以传递各种评估方法组成的list。常用的评估指标如下：

‘mae’，用于回归任务，效果与 ‘mean_absolute_error’， ‘l1’ 相同。
‘mse’，用于回归任务，效果与 ‘mean_squared_error’， ‘l2’ 相同。
‘rmse’，用于回归任务，效果与 ‘root_mean_squared_error’， ‘l2_root’ 相同。
‘auc’，用于二分类任务。
‘binary’，用于二分类任务。
‘binary_logloss’，用于二分类任务。
‘binary_error’，用于二分类任务。
‘multiclass’，用于多分类。
‘multi_logloss’，用于多分类。
‘multi_error’，用于多分类。

seed / random_state

指定随机数种子。

训练参数

以lightgbm.train为主，参数及默认值如下：

lightgbm.train(params, train_set, num_boost_round=100, valid_sets=None, valid_names=None, fobj=None, feval=None, init_model=None, feature_name='auto', categorical_feature='auto', early_stopping_rounds=None, evals_result=None, verbose_eval=True, learning_rates=None, keep_training_booster=False, callbacks=None)

1，params

字典类型，用于指定各种参数，例如：{‘booster’:‘gbtree’,‘eta’:0.1}

2，train_set

用于训练的数据，通过给下面的方法传递数据和标签来构造：

train_data = lgb.Dataset(train_x, train_y)

3，num_boost_round

指定最大迭代次数，默认值为10

4，valid_sets

列表类型，用于指定训练过程中用于评估的数据及数据的名称。例如：[train_data, valid_data]

train_data = lgb.Dataset(train_x, train_y)
valid_data = lgb.Dataset(valid_x, valid_y, reference=train)

5，fobj

可以指定二阶可导的自定义目标函数。

6，feval

自定义评估函数。

7，categorical_feature

指定哪些是类别特征。

8，early_stopping_rounds

指定迭代多少次没有得到优化则停止训练，默认值为None，表示不提前停止训练。

注意：valid_sets 必须非空才能生效，如果有多个数据集，则以最后一个数据集为准。

9，verbose_eval

可以是bool类型，也可以是整数类型。如果设置为整数，则每间隔verbose_eval次迭代就输出一次信息。

10，init_model

加载之前训练好的 lgb 模型，用于增量训练。

预测方法

predict(data, num_iteration=None)

参数说明：

data：string, numpy array, pandas DataFrame
num_iteration：选择第几次迭代用于预测，如果使用了 early_stopping_rounds，那么最佳的一次迭代将被使用

注意，对于分类问题，predict 方法返回的是属于各个类别的概率，需要执行下面的语句才能获取到预测的类别：

y_pred = model.predict(X_test)
y_pred = np.argmax(y_pred, axis=1)

绘制特征重要性

代码如下：

from lightgbm import plot_importance
# 显示重要特征，max_num_features 指定显示多少个特征
plot_importance(lgb_model, max_num_features)
plt.show()

分类例子

from sklearn.datasets import load_iris
import lightgbm as lgb
from lightgbm import plot_importance
import matplotlib.pyplot  as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载鸢尾花数据集
iris = load_iris()
X,y = iris.data,iris.target
# 数据集分割
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=123457)

# 参数
params = {
    'booster': 'gbtree',
    'objective': 'multiclass',
    'num_class': 3,
    'num_leaves': 31,
    'subsample': 0.8,
    'bagging_freq': 1,
    'feature_fraction ': 0.8,
    'slient': 1,
    'learning_rate ': 0.01,
    'seed': 0
}

# 构造训练集
dtrain = lgb.Dataset(X_train,y_train)
dtest = lgb.Dataset(X_test,y_test)
num_rounds = 500
# xgboost模型训练
model = lgb.train(params,dtrain, num_rounds, valid_sets=[dtrain, dtest], 
                  verbose_eval=100, early_stopping_rounds=100)

# 对测试集进行预测
y_pred = model.predict(X_test)
# 计算准确率
accuracy = accuracy_score(y_test, np.argmax(y_pred, axis=1))
print('accuarcy:%.2f%%'%(accuracy*100))

# 显示重要特征
plot_importance(model)
plt.show()

输出结果：

Training until validation scores don't improve for 100 rounds.
[100]	training's multi_logloss: 0.0200407	valid_1's multi_logloss: 0.16259
Early stopping, best iteration is:
[58]	training's multi_logloss: 0.0522685	valid_1's multi_logloss: 0.113599
accuarcy:96.67%

在这里插入图片描述

回归例子

from sklearn.datasets import load_boston
import lightgbm as lgb
from lightgbm import plot_importance
import matplotlib.pyplot  as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# 加载波士顿房价预测数据集
boston = load_boston()
X,y = boston.data,boston.target

# 数据集分割
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=0)

params = {
    'booster': 'gbtree',
    'objective': 'regression',
    'num_leaves': 31,
    'subsample': 0.8,
    'bagging_freq': 1,
    'feature_fraction ': 0.8,
    'slient': 1,
    'learning_rate ': 0.01,
    'seed': 0
}


# 构造训练集
dtrain = lgb.Dataset(X_train,y_train)
dtest = lgb.Dataset(X_test,y_test)
num_rounds = 500
# xgboost模型训练
model = lgb.train(params,dtrain, num_rounds, valid_sets=[dtrain, dtest], 
                  verbose_eval=100, early_stopping_rounds=100)

# 对测试集进行预测
y_pred = model.predict(X_test)
print('mse:', mean_squared_error(y_test, y_pred))

# 显示重要特征
plot_importance(model)
plt.show()

输出：

Training until validation scores don't improve for 100 rounds.
[100]	training's l2: 1.98858	valid_1's l2: 22.4685
[200]	training's l2: 0.76671	valid_1's l2: 21.9116
Early stopping, best iteration is:
[141]	training's l2: 1.29078	valid_1's l2: 21.7546
mse: 21.754638427136342

在这里插入图片描述

二、LightGBM 的 sklearn 风格接口

LGBMClassifier

基本使用

LGBMClassifier的引入以及重要参数的默认值如下：

from lightgbm import LGBMClassifier
# 重要参数：
lgb_model = LGBMClassifier(
    boosting_type='gbdt',
    num_leaves=31,
    max_depth=-1,
    learning_rate=0.1,
    n_estimators=100,
    objective='binary', # 默认是二分类
    min_split_gain=0.0,
    min_child_samples=20,
    subsample=1.0,
    subsample_freq=0,
    colsample_bytree=1.0,
    reg_alpha=0.0,
    reg_lambda=0.0,
    random_state=None,
    silent=True
)

其中绝大多数的参数在上文已经说明，不再赘述。

与原生的LightGBM相比，LGBMClassifier并不是调用train方法进行训练，而是使用fit方法：

lgb_model.fit(
    X, # array, DataFrame 类型
    y, # array, Series 类型
    eval_set=None, # 用于评估的数据集，例如：[(X_train, y_train), (X_test, y_test)]
    eval_metric=None, # 评估函数，字符串类型，例如：'l2', 'logloss'
    early_stopping_rounds=None, 
    verbose=True # 设置为正整数表示间隔多少次迭代输出一次信息
)

预测的方法有两种：

lgb_model.predict(data) # 返回预测值
lgb_model.predict_proba(data) # 返回各个样本属于各个类别的概率

例子

from lightgbm import LGBMClassifier
from sklearn.datasets import load_iris
from lightgbm import plot_importance
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载样本数据集
iris = load_iris()
X,y = iris.data,iris.target
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=12343)

model = LGBMClassifier(
    max_depth=3,
    learning_rate=0.1,
    n_estimators=200, # 使用多少个弱分类器
    objective='multiclass',
    num_class=3,
    booster='gbtree',
    min_child_weight=2,
    subsample=0.8,
    colsample_bytree=0.8,
    reg_alpha=0,
    reg_lambda=1,
    seed=0 # 随机数种子
)
model.fit(X_train,y_train, eval_set=[(X_train, y_train), (X_test, y_test)], 
          verbose=100, early_stopping_rounds=50)

# 对测试集进行预测
y_pred = model.predict(X_test)
model.predict_proba
#计算准确率
accuracy = accuracy_score(y_test,y_pred)
print('accuracy:%3.f%%'%(accuracy*100))

# 显示重要特征
plot_importance(model)
plt.show()

输出：

Training until validation scores don't improve for 50 rounds.
Early stopping, best iteration is:
[42]	training's multi_logloss: 0.0831629	valid_1's multi_logloss: 0.183711
accuracy: 97%

在这里插入图片描述

LGBMRegressor

基本使用

XGBRegressor与XGBClassifier类似，其引入以及重要参数的默认值如下：

from lightgbm import LGBMRegressor
# 重要参数：
lgb_model = LGBMRegressor(
    boosting_type='gbdt',
    num_leaves=31,
    max_depth=-1,
    learning_rate=0.1,
    n_estimators=100,
    objective='regression', # 默认是二分类
    min_split_gain=0.0,
    min_child_samples=20,
    subsample=1.0,
    subsample_freq=0,
    colsample_bytree=1.0,
    reg_alpha=0.0,
    reg_lambda=0.0,
    random_state=None,
    silent=True
)

其 fit 方法、predict方法与 LGBMClassifier几乎相同，不再重复说明。

例子

from lightgbm import LGBMRegressor
from lightgbm import plot_importance
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_boston
from sklearn.metrics import mean_squared_error

# 导入数据集
boston = load_boston()
X ,y = boston.data,boston.target
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=0)

model = LGBMRegressor(
    boosting_type='gbdt',
    num_leaves=31,
    max_depth=-1,
    learning_rate=0.1,
    n_estimators=100,
    objective='regression', # 默认是二分类
    min_split_gain=0.0,
    min_child_samples=20,
    subsample=1.0,
    subsample_freq=0,
    colsample_bytree=1.0,
    reg_alpha=0.0,
    reg_lambda=0.0,
    random_state=None,
    silent=True
)

model.fit(X_train,y_train, eval_set=[(X_train, y_train), (X_test, y_test)], 
          verbose=100, early_stopping_rounds=50)

# 对测试集进行预测
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test,y_pred)
print('mse', mse)

# 显示重要特征
plot_importance(model)
plt.show()

输出：

Training until validation scores don't improve for 50 rounds.
[100]	training's l2: 1.99687	valid_1's l2: 24.4987
Did not meet early stopping. Best iteration is:
[100]	training's l2: 1.99687	valid_1's l2: 24.4987
mse 24.498696726728348

在这里插入图片描述

三、LightGBM 调参思路

（1）选择较高的学习率，例如0.1，这样可以减少迭代用时。

（2）然后对 max_depth, num_leaves, min_data_in_leaf, min_split_gain, subsample, colsample_bytree 这些参数进行调整。

其中，num_leaves < $2^{max\_depth}$ 。而 min_data_in_leaf 是一个很重要的参数, 也叫min_child_samples，它的值取决于训练数据的样本个树和num_leaves. 将其设置的较大可以避免生成一个过深的树, 但有可能导致欠拟合。

其他参数的合适候选值为：

max_depth：[3, 5, 6, 7, 9, 12, 15, 17, 25]
min_split_gain：[0, 0.05 ~ 0.1, 0.3, 0.5, 0.7, 0.9, 1]
subsample：[0.6, 0.7, 0.8, 0.9, 1]
colsample_bytree：[0.6, 0.7, 0.8, 0.9, 1]

（3）调整正则化参数 reg_lambda , reg_alpha，这些参数的合适候选值为：

reg_alpha：[0, 0.01~0.1, 1]
reg_lambda ：[0, 0.1, 0.5, 1]

（4）降低学习率，继续调整参数，学习率合适候选值为：[0.01, 0.015, 0.025, 0.05, 0.1]

四、参数网格搜索

from sklearn.datasets import load_iris
import lightgbm as lgb
from sklearn.model_selection import GridSearchCV  # Perforing grid search
from sklearn.model_selection import train_test_split

# 加载样本数据集
iris = load_iris()
X,y = iris.data,iris.target
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=12343)
train_x, valid_x, train_y, valid_y = train_test_split(X, y, test_size=0.333, random_state=0)   # 分训练集和验证集
train = lgb.Dataset(train_x, train_y)
valid = lgb.Dataset(valid_x, valid_y, reference=train)


parameters = {
              'max_depth': [15, 20, 25, 30, 35],
              'learning_rate': [0.01, 0.02, 0.05, 0.1, 0.15],
              'feature_fraction': [0.6, 0.7, 0.8, 0.9, 0.95],
              'bagging_fraction': [0.6, 0.7, 0.8, 0.9, 0.95],
              'bagging_freq': [2, 4, 5, 6, 8],
              'lambda_l1': [0, 0.1, 0.4, 0.5, 0.6],
              'lambda_l2': [0, 10, 15, 35, 40],
              'cat_smooth': [1, 10, 15, 20, 35]
}
gbm = LGBMClassifier(max_depth=3,
                    learning_rate=0.1,
                    n_estimators=200, # 使用多少个弱分类器
                    objective='multiclass',
                    num_class=3,
                    booster='gbtree',
                    min_child_weight=2,
                    subsample=0.8,
                    colsample_bytree=0.8,
                    reg_alpha=0,
                    reg_lambda=1,
                    seed=0 # 随机数种子
                )
# 有了gridsearch我们便不需要fit函数
gsearch = GridSearchCV(gbm, param_grid=parameters, scoring='accuracy', cv=3)
gsearch.fit(train_x, train_y)

print("Best score: %0.3f" % gsearch.best_score_)
print("Best parameters set:")
best_parameters = gsearch.best_estimator_.get_params()
for param_name in sorted(parameters.keys()):
    print("\t%s: %r" % (param_name, best_parameters[param_name]))

参考文章：

Parameters

lightgbm.LGBMClassifier

lightgbm.LGBMRegressor

LightGBM核心解析与调参

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

【目标检测】目标检测的一些常用神经网络模型及方法

我的阶段性总结????文章目录1.概述1.2 目标检测的任务1.3 目标检测的分类2.R-CNN系列2.1 [R-CNN（Region with CNN features）](https://arxiv.org/pdf/1311.2524.pdf)2.2 [Fast R-CNN](https://www.cv-foundation.org/openaccess/content_iccv_2015/