Kaggle等竞赛平台为何成为GenAI评估的黄金标准
创始人
2025-07-10 00:01:49
0

生成式人工智能(GenAI)正在以前所未有的速度改变我们的世界,从ChatGPT到各种AI绘画工具,这些技术已经深入到我们日常生活的方方面面。然而,一个看似技术性但实际上关乎整个AI发展方向的重要问题正在困扰着研究者们:我们如何准确评估这些AI系统的真实能力?

这项由Kaggle公司的D. Sculley领导的研究团队发表于2025年5月的第42届国际机器学习会议(ICML 2025),为我们揭示了当前GenAI评估面临的严重危机,并提出了一个令人意外的解决方案。有兴趣深入了解的读者可以通过arXiv:2505.00612v2访问完整论文。研究团队包括来自Kaggle的Will Cukierski、Phil Culliton、Sohier Dane等多位专家,他们从十多年的AI竞赛经验中总结出了这些宝贵见解。

要理解这个问题的重要性,我们可以把AI评估比作给学生考试。传统的机器学习评估就像是老师准备了一套固定的试卷,先让学生用一部分题目练习,然后用另一部分题目考试。这种方法在过去几十年里运作良好,推动了计算机视觉、自然语言处理等领域的巨大进步。

然而,GenAI的出现彻底打破了这种评估模式。这就好比学生不再是普通的小学生,而是变成了记忆力超强、能够阅读整个图书馆的"超级学生"。当你给这样的学生出题时,你会发现一个严重问题:他们很可能已经在海量的阅读中见过类似的题目,甚至是完全相同的题目。这样的考试还能真实反映他们的能力吗?

研究团队指出,当前GenAI评估面临的最大问题就是"数据泄露"和"污染"。想象一下,如果一个学生在考试前偷看了答案,那么他的高分并不能证明他真正掌握了知识。同样,如果一个AI模型在训练过程中"见过"了测试数据,那么它在这些测试中的优异表现就失去了意义。

这个问题在GenAI领域尤为严重。现代大语言模型通常在互联网上几乎所有可获得的文本上进行训练,这意味着许多传统的测试数据集很可能已经被包含在训练数据中。研究团队发现,他们测试的每一个主要大语言模型都显示出对Kaggle标准测试数据集内容的详细了解,这表明数据泄露问题已经变得普遍而严重。

传统的解决方案包括创建私有数据集、动态更新测试内容、依赖社区评估等方法。私有数据集就像是把试卷锁在保险箱里,只有考试时才拿出来。动态测试则像是每周都出新题目,确保学生无法提前准备。社区评估类似于让公众投票决定哪个学生表现更好。

但这些方法都有各自的局限性。私有数据集需要绝对的信任和保密,一旦泄露就前功尽弃。动态测试需要持续的资源投入,而且很难确保新数据真的没有被AI模型接触过。社区评估虽然能提供新鲜的评估内容,但组织大规模的评估活动成本高昂,而且难以控制质量。

正是在这种背景下,研究团队提出了一个创新的观点:AI竞赛平台,特别是像Kaggle这样的平台,实际上为GenAI评估提供了一个理想的解决方案。

AI竞赛就像是组织一场大型考试,但与传统考试不同的是,这场考试有着独特的优势。首先,成千上万的参赛团队同时参与,这意味着每个新任务都能得到大规模的并行评估。这就好比同时让一千个不同的学生用不同的方法解决同一个问题,然后比较他们的表现。

更重要的是,AI竞赛在防止作弊方面积累了丰富的经验。毕竟,在真正的竞赛中,参赛者有强烈的动机去寻找任何可能的优势,包括不当的手段。因此,竞赛组织者必须设计出极其严密的防作弊机制。

研究团队通过多年的Kaggle竞赛经验,总结出了数据泄露可能出现的各种形式。有时候,泄露来源令人意想不到。比如在一次地震预测竞赛中,数据按照类别标签的顺序进行处理,文件时间戳没有重置,参赛者可以轻松地根据文件元数据进行预测。在另一次广告追踪竞赛中,数据被错误地排序,使得同一时间戳内的正标签总是出现在负标签之后。

甚至随机化也可能成为泄露源。在一次AI模型运行时间预测竞赛中,两个不同的数据桶使用了相同的随机种子,参赛者发现了这个模式并利用它来提高分数。合成数据更容易产生泄露问题。在SETI突破聆听竞赛中,合成的"外星信号"使用FP16精度,而背景信号使用FP32精度,这种微小的精度差异就足以让参赛者区分两类信号。

这些例子说明,即使是经验丰富、小心谨慎的团队也很难完全避免数据泄露。每一个AI竞赛都比成功的情况更容易出错,这需要组织者保持高度的警惕和偏执。

面对这种现实,研究团队提出了一个颇具争议但实用的建议:我们应该认为评估数据一旦在线分享或通过网络传输就已经泄露了。这个原则虽然严格,但能显著提高我们对评估结果的信任度,大大增强结果的稳健性。

这种做法确实会削弱可重现性,但研究团队认为这是一个根本性的权衡,类似于量子物理学中的海森堡不确定性原理。我们无法同时拥有一个已发布的静态基准测试和对泄露的稳健性。无论研究者的初衷多么良好,要避免污染并广泛信任这样的基准测试结果都太困难了。

因此,我们必须寻求替代策略和结构来创建防泄露的评估。这正是AI竞赛的价值所在。

AI竞赛为GenAI评估提供了一种"令人尴尬的并行"结构,这让人想起并行计算中的经典MapReduce架构。在这种结构中,独立的研究团队(通常数以千计)各自竞争解决给定问题,在这个过程中创造了对许多不同方法的大规模并行评估。

这种并行化结构显著提高了稳健性。数据泄露和污染的风险从评估公开分享或通过网络传输评估数据的那一刻就开始了。这导致了一个问题:我们如何以有效的方式公平比较不同的模型和系统,确保稳健性并避免泄露和污染导致的结果无效?

AI竞赛的并行化结构为这个问题提供了有用的解决方案。以新颖性为中心的评估可以同时并行进行,确保每个新任务在测试时对成千上万个模型来说确实是新颖的。由于独立团队各自追求不同的模型、想法和方法,这种结构产生了直接的同类比较和结果的实时重现形式。

此外,像Kaggle这样的竞赛平台可以通过运行隔离的代码竞赛来充当隐藏测试数据的可信保管者,参赛者提交他们的模型在没有网络访问的隔离安全后端上运行。通过安全地离线评估所有模型,竞赛平台可以保证没有隐藏的测试数据泄露。

研究团队还强调了AI竞赛在防止泄露方面采用的几种有效策略。前瞻性真实标注是一种策略,测试集标签在竞赛的活跃训练阶段对世界完全未知。蛋白质功能标注关键评估(CAFA)5挑战赛就是使用前瞻性真实标注来减轻泄露的竞赛例子。该竞赛将已知序列但尚未在湿实验室中确定功能标注的蛋白质作为测试集。

新颖任务生成是设计防泄露竞赛的另一种方法,即生成全新的任务,其中测试数据不类似于训练数据,因此需要有意义的泛化。AI数学奥林匹克(AIMO)挑战赛使用了这种方法,参赛者被要求解决国家级数学挑战题。由于许多(如果不是全部)参赛者使用的AI模型都在互联网规模的数据上训练,测试-训练泄露在评估它们的数学推理能力时构成了重大挑战。因此,国际数学家团队专门为竞赛创建了新的数学问题集,使数据泄露或污染极不可能发生。

截止日期后数据收集是另一种泄露缓解策略,类似于前瞻性真实标注竞赛,只是不是在新可用标签上评估,而是在完全新生成的数据上评估解决方案。WSDM杯多语言聊天机器人竞技场竞赛采用了这种设计,参赛者被要求基于来自LM Arena的多语言对话和评分数据构建预测人类对大语言模型头对头匹配偏好的解决方案。

AI竞赛还具有额外的非结构性特征,代表了行业应该采用的最佳实践,以进一步提高实证严谨性。竞赛鼓励或经常要求开放分享代码、数据和实验细节,包括成功和失败。参赛者通常更多地被分享有价值和富有洞察力的资源和想法所获得的地位和认可激励,而不是赢得奖品。事实上,去年Kaggle特色竞赛的论坛消息中位数为1400条。这种透明度促进了结果的重现,培养了对新基线的信任,并加速了研究和从业者社区内知识的传播。

基于这些发现,研究团队为整个领域提出了几项建议。首先,应该从静态基准测试转向常青的可重复过程。由于泄露和污染的风险,他们认为静态基准测试在GenAI评估中的重要性应该被降低。相反,我们需要一个稳定的可再生的新任务和问题管道,我们需要在每个任务上并行评估数百或数千个模型,以便结果直接可比并避免后续污染和泄露的风险。

其次,应该将AI竞赛的稳定流看作是该领域的资源。使用像Kaggle这样平台上托管的高质量AI竞赛管道是创建可再生管道的一种方式。这些结构已经存在并且已经在某种程度上以这种方式使用。然而,作为一个领域,我们可以通过元分析来做更多的工作来提取、分析和分享这些竞赛的发现。

第三,应该采用并改进AI竞赛的反作弊结构来改善GenAI评估的标准实践。作为一个领域,我们可以从AI竞赛开发的最佳实践中学习。为对抗故意作弊而创建的技术和实践同样有价值,可以创建对抗可能使实证结果无效的无意问题(如泄露和污染)的评估结构。

研究团队还讨论了几种可能的反对观点。一种合理的替代观点是,当前的基准测试状态在无需额外干预的情况下进展良好。每天在Hugging Face、OpenML和Kaggle等平台上出现的许多新静态基准测试可能作为他们描述的领域必需的新任务稳定流。虽然他们赞扬所有创建新基准测试的努力,但他们确实从根本上认为静态基准测试应该被认为在发布后已经有效无效,因此AI竞赛的时间组件提供了独特的附加价值。

另一个可能的批评是,与"常青"静态基准测试相比,AI竞赛的人为截止日期可能会阻止有价值的提交。他们发现,每次我们集成提交时,我们对排名靠前的解决方案几乎没有改善。换句话说,至少在Kaggle上的竞赛从数据中提取了(接近)最大信号。

此外,AI竞赛主办方强烈激励设计良好的评估指标,我们观察到与现实世界表现相关的解决方案结果更有可能出现。例如,在OpenVaccine挑战赛中,参赛者在短短4周内将mRNA疫苗降解率预测的最先进水平提高了25%,主办方进一步验证了解决方案能够泛化到作为竞赛数据集一部分未见过的更长RNA序列。

另一个合理的观点是,当前试图防泄露的现有基准测试是足够的。最值得考虑的是通过LMSYS.org的LMArena由人类评分者产生的基于Elo的并排排名。为社区提供一个开放循环来提供无限的新输入流和判断确实很有吸引力,是解决许多这些问题的强有力步骤。然而,他们认为在新颖性和严谨性方面,匿名众包任务和问题来源能够实现的存在限制,AI竞赛允许注入特定领域专业知识和精心制作的测试案例,这些将充分压力测试下一代GenAI模型。

第三个合理的观点是,GenAI模型学术评估价值的比喻之船已经启航。在这种范式中,在生产部署中对字面真实世界任务的表现可能为GenAI能力提供最有效的测试。在这种替代观点中,独立评估几乎没有价值,每个从业者或团体都应该完全按照自己的条件进行评估。虽然这种方法对于高度专业化的领域和应用是不可避免的,但他们确实认为有令人信服的理由继续对模型进行独立评估,因为该领域的历史表明,这些形式的评估以最广泛和最快速的方式推动进展。没有受控的实证研究,我们作为一个领域有失去对为什么模型在某些任务上表现良好或糟糕的广泛共享知识的风险。公开分享这种理解对于在这个快速发展的领域中解锁进一步进展的途径至关重要。

说到底,这项研究为我们揭示了一个重要真理:随着AI技术变得越来越强大,评估这些技术的方法也必须相应进化。传统的"出题-练习-考试"模式在面对能够"读完整个图书馆"的AI系统时显得力不从心。研究团队提出的AI竞赛解决方案并非完美,但它提供了一个实际可行的路径,让我们能够在快速变化的AI领域中保持评估的科学性和可信度。

这项研究的意义远超技术层面。在AI技术日益影响我们生活的今天,如何准确评估AI能力直接关系到我们对这些技术的信任和依赖程度。一个无法被准确评估的AI系统,就像一个没有准确体检报告的病人一样,我们无法知道它的真实状况,也就无法做出明智的决策。

归根结底,这项研究为整个AI领域敲响了警钟,同时也指明了前进的方向。当我们站在通用人工智能的门槛前时,确保我们有可靠的方法来评估这些强大技术的能力,不仅是科学进步的需要,更是社会责任的体现。有兴趣深入了解这项重要研究的读者,可以通过arXiv:2505.00612v2查阅完整的论文内容。

Q&A

Q1:什么是数据泄露和污染问题?为什么这对AI评估这么重要? A:数据泄露就像学生考试前偷看了答案。现在的大语言模型在训练时会"读取"互联网上的海量数据,如果测试题目也在这些数据中,那么AI的高分就不能证明它真正理解了问题,而只是"记住"了答案。这让我们无法判断AI的真实能力。

Q2:为什么AI竞赛平台能够解决评估危机? A:AI竞赛就像同时让上千个学生用不同方法解决全新问题。竞赛平台有丰富的防作弊经验,能创造真正新颖的任务,并且确保测试数据不会泄露。同时,大规模并行评估让结果更可信,就像多个裁判同时打分一样。

Q3:普通人需要关心这个问题吗?这会影响我们的日常生活吗? A:绝对需要关心。我们日常使用的AI工具,从聊天机器人到推荐系统,其可靠性都依赖于准确的评估。如果评估方法有问题,我们可能会过度信任不够可靠的AI系统,或者错过真正优秀的技术。这直接关系到我们对AI技术的信任和使用安全。

相关内容

Kaggle等竞赛平台为何...
生成式人工智能(GenAI)正在以前所未有的速度改变我们的世界,从...
2025-07-10 00:01:49
原创 ...
古树名木,历经成百上千年,是自然界留下的珍贵遗产。保护古树名木,成...
2025-07-09 22:02:23
迷走神经刺激如何让身体平静...
迷走神经刺激 如何让身体平静下来?(上) 迷走神经刺激能激活身体的...
2025-07-09 22:02:13
在唯品会大卖的小天才,如何...
进入暑假后,很多人都会在商场发现一个有趣的现象:越来越多的家长带着...
2025-07-09 22:02:10
读创今日荐书丨数据如何重构...
深圳商报·读创客户端首席记者 魏沛娜 什么是数据合作社? 如何实现...
2025-07-09 22:01:08
原创 ...
据看看新闻报道,当地时间7月3日傍晚,俄罗斯对乌克兰发动新一轮“最...
2025-07-09 20:01:27

热门资讯

存款利息怎么算?湖南农商行存款... 导读湖南农商行存款利息怎么算?湖南农商行作为湖南最大的股份制银行,它是一家地方性、集约化、国际化、股...
金三角李国辉,率领三千残部打败... 原标题:金三角李国辉,率领三千残部打败泰国政府军,到台湾后结局如何? 解放战争...
处暑节气如何做好养生?这些秘笈... 原标题:处暑节气如何做好养生?这些秘笈请收好 处暑的天气多变,可能给我们的身体...
原创 婴... 在宝宝的成长过程中,奶粉作为重要的营养来源,其选择至关重要。那么,什么样的婴儿奶粉比较好呢?奶粉的营...
孕妈检测出胎儿没有“胎心”究竟... 原标题:孕妈检测出胎儿没有“胎心”究竟为何?多半是这4种原因,预防下 昨天小樱...
新农保一年缴费180元60岁后... 导读新农保一年缴费180元,60岁后能拿多少钱呢?我们这一个月是208块。农村大多是买这种农保吧,刚...
原创 如... 肺是人体非常重要的器官,空气中的很多灰尘和垃圾都会随空气进入肺部,所以肺部的清洁是非常重要的。我们可...
激光术后护理指南:如何科学恢复... 二氧化碳激光是一种常用于去除瘢痕、色素沉着、皱纹和其他皮肤问题的治疗方法。它通过发射高能量的二氧化碳...
立春节气如何养生? 原标题:立春节气如何养生? 今天是2024年2月24日,阴历腊月二十五,今日立...
邢台农商银行存款利率表:一年期... 导读邢台农商银行现在的利率表:一年期2.25二年期2.85三年期3.45。农商银行原来的利息比这高好...