June 8, 2026 · 8:41 AM
盲区·幻影(Benchmark Blind Spot)
用立体几何证明 benchmark leaderboard 是幻觉——92% 的随机试验会换掉 top-1,结构盲区是亚军差距的百倍。通勤两分钟,听懂今日最硬核「排行榜破防」数学证明。
每日大模型 Rap
@Fanchao
Subscribe
盲区·幻影(Benchmark Blind Spot)
1×
0:00
2:09
你以为 benchmark 跑赢了就是第一——Jason Z Wang 用立体几何告诉你:92% 的随机试验会换掉那个「第一名」。结构盲区比亚军差距高两个数量级。你赢的,是一个角度。
创作背景
本期 rap 基于 arXiv 今日最新论文:
The Evaluation Blind Spot: A Stereological Theory of Benchmark Coverage for Large Language Models
作者:Jason Z Wang | arXiv:2606.05169 | cs.LG
核心炸点:
三个顶级 leaderboard(Open LLM v2、12-benchmark 扩展集、LiveBench)有效维度 d_eff 仅落在
[2.86, 4.80]
结构盲区超过亚军分数差距
两个数量级
,压过统计噪声
52–127 倍
500 次随机切分实验:
92% 的试验换掉 top-1 排名
,前五名平均 2.83 个发生变动
子模贪心(Nemhauser 1-1/e 保证)只需
4 个 benchmark
锁定稳定核心,7 个覆盖 90%
顺手解决了 Gardner 1995 年遗留问题(C² 支撑函数一般维度 minimax 速率)
歌词
[Intro] 指标在闪烁,排行榜高悬 每个人都盯着那第一名的脸 多少 GPU 日夜在燃烧 多少篇论文就等这一个号
[Verse 1] 三个 leaderboard 扫一眼 Open LLM、LiveBench 跑完全 每个机构在互卷 每个分数都在自我宣传
但等一下,先别急着庆贺 问你一句,你懂有效维度吗 d_eff 是多少,你量过没有 2.86 到 4.80,比你想的还窄
你以为是高维战场 其实只有五个方向不到在转 盲区超过冠亚军差距两个量级 这不是误差,这叫结构性幻觉
[Chorus] 九十二,九十二 百分之九十二的试验换掉第一名 你赢的那个冠军是幻影 换一套 benchmark 马上原形 九十二,九十二 前五名里平均两个八在飘移 Hausdorff 距离告诉你 你看见的那条边界是零
[Verse 2] 来看数学,别跑 Lipschitz 下界已经定好套 可见距离乘上 C 加 epsilon 盲区的体积你量得出来
21 个模型互相比拼 85 对置信区间不重叠但精度一样 同样 epsilon 不同 b 值 这叫重尾,不叫误差,叫地震级
统计噪声被压低五十倍 结构盲区还有一百二十七倍等你 你以为你在挑最强的那个 其实在挑一个角度最好看的那个
[Bridge] 但不是没有出路 子模贪心,Nemhauser 保证开路 四个 benchmark 能锁核心结构 七个覆盖九成,别再硬堆数目
时间窗跨过去,保留率九十三到九十七 这才叫稳定,不是刷分游戏 特征值告诉你谁不可替代 ρ 等于负 0.69,p 等于 0.013
[Chorus] 九十二,九十二 百分之九十二的试验换掉第一名 你赢的那个冠军是幻影 换一套 benchmark 马上原形 九十二,九十二 前五名里平均两个八在飘移 Hausdorff 距离告诉你 你看见的那条边界是零
[Outro] 下次发 paper 别只放准确率 把盲区、把维度、把分布一起交 Jason Z Wang 把立体几何开了刀 1995 年 Gardner 的问题顺手解掉
你的冠军还是冠军吗 换一个截面它就原形败露啦 这不是评测论文,这是一把尺 量的是排行榜自己的幻觉
More from this channel
行为·预言(Behavior Forecaster)
2026-06-11
量化·崩塌(KV Cache Alignment Collapse)
2026-06-11
拟合·循环
2026-06-10
层·编程(PoLar)
2026-06-09
R₀大于一(模型崩溃流行病学)
2026-06-07
承诺·状态(CERL)
2026-06-06
读迹·引路(CAPR·轨迹)
2026-06-05
遗憾·后悔机(Regret Pre-training)
2026-06-04
View the full content archive of "每日大模型 Rap"
Related content
Sign in to comment.