引言:为什么重温 IRT?
最近在折腾知识追踪相关的研究和开源框架开发,看了不少顶会的 Paper,也敲了不少深度学习的代码。在这个过程中我越来越深刻地意识到一个问题:很多时候我们用复杂的神经网络去拟合学生的学习轨迹,其实本质上还是在试图回答教育测量学里那个最古老的问题——“如何准确评估一个人的真实能力,以及一道题的真实属性?”绕开底层逻辑去搭算法模型,总觉得像是在沙滩上建城堡。所以,我决定放慢脚步,回过头来把现代教育测量学的基石——项目反应理论(Item Response Theory, IRT) 系统地啃一遍。
CTT 与 IRT
在心理测量学中,用于分析考试数据和评估能力的主要框架有两种。
经典测量理论(CTT)
项目反应理论(IRT)
经典测量理论 (Classical Test Theory, CTT)
核心理念:将 观测分数(X)分解为 真实分数(T)和 误差(E)
特点:
难度:算通过率。100 个人里有 80 个做对,难度就是 0.8。
区分度:算这道题的得分和卷面总分的相关系数。
局限性:
样本依赖:题目难度和区分度取决于所测试的群体。
忽略题目质量差异:默认每题权重一样,简单粗暴加总分
无法建模能力变化:一次考试定终身,只评估静态结果
项目反应理论 (Item Response Theory, IRT)
核心理念:假设个体的能力(潜在特征 )决定了其对某一具体题目的反应概率。
特点:
样本独立性:被试的能力估计和题目参数估计均不依赖于特定的样本。
个体化测量:可以实现计算机自适应测验(CAT),根据学生水平调整题目难度。
高级处理:可处理猜测参数(如3参数模型)。
局限:模型假设较严格,样本量要求巨大,计算复杂。
IRT 实际应用
经典IRT(单维)
原创
项目反应理论(IRT)
本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
评论交流
欢迎留下你的想法