不是所有数据集更新,都可以直接对比模型指标。必须先判断:这次数据变动,是不是破坏了可比性?
一、判断是否还能对比
| 只增加样本 | 可以 | 原分布保留 |
| 删除少量噪声 | 可以 | 难度变化小 |
| 调整答案文本 | 谨慎 | 判定规则可能变 |
| 新增OOD / BadCase | 不可 | 难度上升 |
| 重构意图比例 | 不可 | 分布改变 |
| 改评测rubric | 不可 | 指标语义变 |
二、当不能对比时,怎么做
核心思想:用锚点数据集保证纵向可比性,用新数据集评估绝对质量!
三、标准解法:锚点机制(Anchor Set)
1、什么是Anchor Set
一个长期冻结、不再改动的小型评测集,代表历史主分布,用来做跨版本对比
2、Anchor Set 怎么设计
锚点不是为了覆盖新问题,是为了对齐时间轴
| 来源 | 老版本ID |
| 是否更新 | 永久冻结 |
| 数量 | 200–400 |
| 指标 | 核心L1 + L3 |
| 角色 | 刻度尺 |
3、 实际评测怎么跑
数据集: – Anchor Set(老) – Current Eval Set(新)
模型: – Baseline Model – New Model
对比方式
| 锚固装置 | 新模型vs 老模型 |
| 新数据集 | 新模型是否过线 |
4、决策逻辑
if ( NewModel.Anchor >= Baseline.Anchor – δ AND NewModel.NewSet >= 门禁阈值 ): 允许上线 else: 阻断
四、如果没做Anchor怎么办
方法1:回放旧模型
如果你还能跑旧模型,用旧模型跑新数据集,得到两个模型在同一数据集的表现,即使数据集新,也能横向对比(最推荐)
方法2:难度校准_统计补偿
当旧模型跑不了时,1.抽50–100 条旧样本2.混入新数据3.人评难度
新集整体难度↑ 10% → 允许指标下降10%
方法3:Pairwise 胜率(LLM-Judge)
不看绝对分,只看谁更好,跨分布也能用
Q: 同一个问题 A1: 老模型答案A2: 新模型答案Judge: 哪个更好? 输出: 胜/负/平局
五、怎么判断模型新版本质量
1.纵向_时间
和历史相比,有没有退化?Anchor Set 不下降,或下降在可接受范围。
2.横向_当前
在当前真实问题上是否过线?新数据集L1 ≥ 阈值,L3 风险指标不过线= 直接否
3.风险兜底
即使变难,也不能乱来幻觉率、硬错误、违规
模型质量 = 不退步(Anchor) AND 当前可用(New Set) AND 风险受控(L3)
七、评测模板
本次数据集更新说明: – 变更类型:新增 OOD + 多轮 – 是否可直接对比:否
对比策略: – Anchor Set v1(冻结) – Baseline Model:v1.3 – New Model:v1.4
结论: – Anchor:+0.3% – 新集:达到上线门禁 – 风险指标:通过 → 允许上线
网硕互联帮助中心




评论前必须登录!
注册