引言:为什么重温 IRT?

最近在折腾知识追踪相关的研究和开源框架开发,看了不少顶会的 Paper,也敲了不少深度学习的代码。在这个过程中我越来越深刻地意识到一个问题:很多时候我们用复杂的神经网络去拟合学生的学习轨迹,其实本质上还是在试图回答教育测量学里那个最古老的问题——“如何准确评估一个人的真实能力,以及一道题的真实属性?”绕开底层逻辑去搭算法模型,总觉得像是在沙滩上建城堡。所以,我决定放慢脚步,回过头来把现代教育测量学的基石——项目反应理论(Item Response Theory, IRT) 系统地啃一遍。

CTT 与 IRT

在心理测量学中,用于分析考试数据和评估能力的主要框架有两种。

  • 经典测量理论(CTT)

  • 项目反应理论(IRT)

经典测量理论 (Classical Test Theory, CTT)

  • 核心理念:观测分数(X)分解为 真实分数(T)误差(E) X=T+EX=T+E

  • 特点:

    • 难度:算通过率。100 个人里有 80 个做对,难度就是 0.8。

    • 区分度:算这道题的得分和卷面总分的相关系数。

  • 局限性:

    • 样本依赖:题目难度和区分度取决于所测试的群体。

    • 忽略题目质量差异:默认每题权重一样,简单粗暴加总分

    • 无法建模能力变化:一次考试定终身,只评估静态结果

项目反应理论 (Item Response Theory, IRT)

  • 核心理念:假设个体的能力(潜在特征 θ\theta )决定了其对某一具体题目的反应概率。

  • 特点:

    • 样本独立性:被试的能力估计和题目参数估计均不依赖于特定的样本。

    • 个体化测量:可以实现计算机自适应测验(CAT),根据学生水平调整题目难度。

    • 高级处理:可处理猜测参数(如3参数模型)。

  • 局限:模型假设较严格,样本量要求巨大,计算复杂。

IRT 实际应用

应用场景

说明

能力评估

精确估计学生的能力水平

题目校准

估计题目的难度、区分度等参数

计算机化自适应测验(CAT)

根据学生能力动态选择题目

认知诊断

诊断学生对特定知识的掌握情况

测验等值

将不同测验的分数转换到同一尺度

学习分析

追踪和分析学习过程中的能力变化

经典IRT(单维)

章节

主题

核心概念

1. Rasch模型

最简单的IRT模型

θ, b, ICC曲线

2. 2PL模型

引入区分度

a, 题目质量

3. 3PL模型

引入猜测参数

c, 选择题建模

4. 参数估计

如何从数据估计参数

MLE, EM, 贝叶斯

5. 模型拟合

判断模型是否适合数据

AIC, BIC, infit/outfit