使用python工具包计算Fleiss Kappa

_AMAZING_

814人浏览 · 2024-03-21 15:46:29

_AMAZING_ · 2024-03-21 15:46:29 发布

这个分数是用来评估多名评估员对于一系列观测样本的评估的一致性。Fleiss Kappa分越高，说明分歧越小，大家做出的判断都差不多，反之分数越低，分歧越大。一般0.8以上被认为基本完美的同意，0.6-0.8被认为大量的同意。

import numpy as np
from statsmodels.stats.inter_rater import fleiss_kappa

# 假设我们有一个评分矩阵，行代表项目，列代表类别，值代表每个项目被分到每个类别的次数
ratings = np.array([
    [0, 0, 0, 0, 14],  # 所有评价者都选择了第5类
    [0, 2, 6, 4, 2],   # 评价者的选择分散在不同的类别
    [0, 0, 0, 0, 14],  # 所有评价者都选择了第5类
    [0, 0, 0, 0, 14],  # 所有评价者都选择了第5类
    [0, 0, 0, 0, 14],  # 所有评价者都选择了第5类
    [2, 2, 4, 3, 3],   # 评价者的选择分散在不同的类别
    [0, 0, 0, 0, 14],  # 所有评价者都选择了第5类
    [0, 3, 9, 2, 0],   # 评价者的选择分散在不同的类别
])

# 计算Fleiss's Kappa
kappa = fleiss_kappa(ratings, method='fleiss')
print(f"Fleiss's Kappa: {kappa}")