创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
色狼集中营 CoT忽视者Jason Wei:大模子评估基准的「七宗罪」 - 偷偷撸图片

色狼集中营 CoT忽视者Jason Wei:大模子评估基准的「七宗罪」

发布日期:2024-10-04 00:32    点击次数:151

Jason Wei 是想维链忽视者色狼集中营,并和 Yi Tay、Jeff Dean 等东谈主合著了对于大模子走漏本事的论文。现在他正在 OpenAI 进行责任。

在 CV 范畴,照应者一直把李飞飞等东谈主创建的 ImageNet 奉为模子鄙人游视觉任务中本事的试金石。

在大模子期间,咱们该如何评估 LLM 性能?现阶段,照应者还是忽视了诸如 MMLU、GSM8K 等一些评估基准,束缚有 LLM 在其上刷新得分。

但这些评估基准真的无缺吗?想维链忽视者 Jason Wei 在一篇博客中进行了真切的照应。

Jason Wei 最初列举了几种得手的评估基准,然后回来了评估基准失败的常见谅因,共七条,包括样本数目少、评估基准太复杂等等。

进一步的,Jason Wei 以为有些评估器具定名容貌并不无缺,比如 HumanEval 天然叫作念东谈主类评估,实践上并没灵验到东谈主类进行评估,仅仅因为问题是由东谈主类创建的。

Jason Wei 默示若是想让我方创建的评估器具得到鄙俚使用,一定要匡助照应者使用它,从而得到推行。此外,文中还提到了一些针对特定范畴的小众评估器具,Jason Wei 以为这些评估可能不会引起范畴除外的任何干注。宇宙怜惜的测试集稠浊问题,Jason Wei 也给出了一些处罚有贪图。

接下来,咱们望望 Jason Wei 原博客内容:

匿名 文爱 app

得手评估的界说是什么?我想说,若是一个评估基准被用在高低性论文中,并在社区中得到信任,那么它明白便是得手的。

以下是夙昔五年中一些得手的评估基准:

GLUE/SuperGLUE:LLM 之前基本上悉数 NLP 论文(BERT、T5 等)齐使用。

MMLU:竟然悉数 LLM 论文齐使用,亦然 DeepMind 和 Google 最可爱的评估基准。

GSM8K:引发了 LLM 的推理本事,并被用于每一篇对于想维链(chain-of-thought)的论文中。

MATH:大多数 LLM 论文会使用。

HumanEval:是 LLM 编码的经典评估基准。

得手的评估频频会有一篇大论文宣称使用该评估基准取得了一些高低。举例,GLUE 由 BERT 推行,MMLU 由 Gopher、Chinchilla 和 Flan-PaLM 推行。想维链辅导(chain-of-thought prompting)宣称在 GSM8K 上取得了高低。Minerva 的超凡本事在 MATH 上得到体现。Codex 等模子使用了 HumanEval。

更真切地说,在评估基准上得到好分数必须意味着一些过错且易于说合的事情,举例终了特等东谈主类的发扬、处罚小学水平的数常识题。

而大多数不得手的评估基准齐至少犯了如下七个失误之一:

1、若是评估莫得富余的样本,那么对于照应东谈主员来说,它会很嘈杂(noisy),而且 UI 会很恶运。举例,有东谈主可能在模子教师历程中运行评估,并发现它在各个查验点之间波动很大。这使得评估对于照应东谈主员来说终点不幸,因此他们不会可爱使用该评估基准。评估基准最佳有至少 1000 个样本供您评估;若是是多项接收评估,可能需要更多。举例尽管 GPQA 是一个很好的评估基准,但它字据 prompt 而波动的事实使其难以使用。

2、评估基准应该是高质料的。若是评估基准中有好多失误,东谈主们就不会肯定它,举例 Natural Questions(NQ)基准。

3、若是你的评估基准太复杂,东谈主们会很难说合它,况且会很少使用它。我以为 HELM 的第一个版块是一项广大的勤苦,但它有太多的想法和子集。领有单一数字想法至关过错 —— 我想不出任何伟大的评估基准是莫得单一数字想法的。

4、若是评估需要太多责任来运行,即使其他一切齐很好,它也不会有很大的引诱力。BIG-Bench 是我最可爱的评估基准之一,但运行起来终点不幸。有对数概率评估和生成评估,这需要不同的基础法子。子集太多,而且有些子集的样本太多,是以评估花了很万古分。我肯定这便是为什么 BIG-Bench 莫得得回太多关注,尽管它提供了好多上风。

5、若是评估不是针对一项有真理的任务,东谈主工智能照应东谈主员不会深度关注它。举例,在 BIG-Bench Hard 中,有保举电影等任务。这些任务具有挑战性,况且跟着模子大小的变化性能有所变化,但在这些任务上作念得好并不可对模子的智能进度作念出本质性的论断。得手的评估频繁会估量对智能至关过错的事物,举例言语说合、锻练问题或数学。

6、评估的评分应该终点正确。若是有东谈主以为模子评分不正确或者不认可该评分,那么他们不错立即取消使用该评估基准。花时分来尽量减少知道引起的失误,或者尽可能得回最佳的自动评分器 prompt 是值得的。

7、为了使评估经得起时分的锻练,性能不可太快饱和。举例,GLUE/SuperGLUE 饱和得太快,很难自大出广大的增益,东谈主们就不再使用它们。

对于评估器具,还有不完善的场合

看起来好多优秀的评估器具齐有些恶运的名字。比如 GSM8K 其实并不需要加上 8K,而 HumanEval 天然叫作念东谈主类评估,实践上并没灵验到东谈主类进行评估(之是以叫 HumanEval 是因为问题是由东谈主类创建的)。MATH 这个名字太平淡了,是以东谈主们开动称之为「Hendrycks-math」,这应该算是一个灵巧的定名容貌,以创建者的名字来定名。 

若是你想让你的评估器具得到鄙俚使用,你最初要作念的是匡助东谈主们使用它。举例,当我制定了一个评估器具时,我频繁会匡助他东谈主在模子上运行它。若是他们的模子在这个评估上发扬精良无比,那么东谈主们频繁会可爱它并进一步的推行它。HELM 就终点擅长为其他东谈主评估模子并公布成果。

此外,若是你能为东谈主们使用你的评估器具创造激励机制也很有匡助。对职工来说,最佳的激励之一便是他们调换所深爱的东西。因此,得回实验室或公司里面调换的撑握对你的评估器具可能会有所匡助,他们会条款下面职工运行它。当我在谷歌创建 MGSM 时,我接收与 Dipanjan Das(Google Deepmind 的照应旁边)配合完成,尽管咱们不在归拢个团队。我与他配合隧谈是因为他是个真理的东谈主(并不是为了推行这个评估器具),但我以为 Dipanjan 很可爱这个器具,况且在他的团队中得回了一些东谈主的撑握使用。

但是,LLMs 的出现,对评估器具忽视了更高的条款。LLMs 具有大范畴多任务处理本事并能生成长答复。现在还莫得一个单一的评估器具草率充分评估 LLMs。现时流行的评估器具仍然使用终点陋劣的评分容貌(要么是多项接收,要么是查验数字,或者推行单位测试),即便这些设施也存在问题。若是咱们能围绕一个单一的辅导,比如零样本想维链(zero-shot chain-of-thought),那会很好。我知谈由于好多原因这不是一个无缺的处罚有贪图,但我以为为了让宇宙合资法式,这是合理的。 

一个新的推能源是东谈主类对模子进行配对评估,比如 LMSYS,但这种评估容貌是一把双刃剑。它们之是以强盛, 是因为你不错通过一组陋劣的辅导得到一个单一的数字想法来估量一个言语模子的历害,况且不错通过宽绰的样原来平均掉样本级别的噪声。不外,成对评估的危机之处在于你并不十足笃定你在测量什么 —— 举例,相对于正确性,格调等这类身分的权重影响有多大。 

对模子生成内容(model-generated)的评估也变得有些流行。天然我倾向于对模子生成的评估比拟抉剔,但若是作念得好,它们不错用于快速实验和不雅察性能的大幅晋升,这是有可能的。但是创建一个经得起时分锻练的伟大的评估需要终点小心,我不想在合成评估中冒任何风险。

一个不问可知的不雅点是,评估的主题决定了有几许东谈主会怜惜这个评估。你不错创建一个终点高质料的特定范畴评估(举例,法律、医疗等),在这些情况下,最过错的是字据该范畴内行所深爱的内容来定制评估。

我也曾制作过一个组织病理学图像基准,果如其言,它在医学图像分析范畴除外竟然莫得引起任何干注,只得回了 40 次援用。话虽如斯,一朝更多东谈主理解到其过错性,你创建的特定范畴评估也有可能得回更多关注。

评估中一个日益过错的问题是测试集稠浊。创建了一个好的评估之后,评估的示例频频会传播到互联网的各个场合,如 arxiv 论文、ChatGPT 示例或 reddit。处罚这个问题的一个设施是对测试集进行「隐敝」,但这种设施引起了好多不合。斯坦福大学讲明 Chris Manning 忽视了一个很好的建议,即对公开测试集、独到测试集齐进行评估,并监控模子在这两个测试集上是否有大的偏差。这种设施均衡了在公开测试集上测试的低摩擦性和巧妙测试集的高信得过度。

我注意到的临了一件事是,你怜惜的评估很猛进度上标明了你的身份。一个充满博士的照应室可能会对言语模子在数学、编码和物理上的推理本事感意思。相背,我看到像 LMSYS 这么的面向用户的评估被来自软件或产物布景的工程师视为黄金法式。天然我两者齐怜惜,但我个东谈主更倾向于智能,因为我肯定智能是 AI 与东谈主类交互的根底驱能源。

社区应该更多地投资于评估,尽管这可能很不幸,频繁不会像建模责任那样得到好多陈说。但归根结底,好的评估器具是 AI 照应东谈主员对模子的客不雅评价想法,况且是对该范畴产生紧要影响的一种容貌。

参考说合:https://x.com/_jasonwei/status/1794093872651387004色狼集中营



热点资讯

动漫区 估量|2025年,电网投资大期间

动漫区 作家 | 杨锐‍‍‍ 2024年底,新华社泄露了一则令东谈主奋斗的音问,我国政府负责核准了雅鲁藏布江卑鄙水电工程。 西藏水能资源主要诱导分散在雅鲁藏布江、怒江、澜沧江和金沙江干流。其中,雅鲁藏布江流域干活水能资源最丰富,表面蕴涵量近8000万千瓦,其卑鄙的大拐弯地区更是“世界水能富集之最”,在50公里直线距离内,酿成了2000米的落差,汇注了近7000万千瓦的本事可开发资源,鸿沟罕见于3个多的三峡电站。 据中国动力报,雅鲁藏布江卑鄙水电装机鸿沟约6000万千瓦,按1.72万元单元千瓦投...

相关资讯

  • 动漫区 估量|2025年,电网投资大期间

    动漫区 作家 | 杨锐‍‍‍ 2024年底,新华社泄露了一则令东谈主奋斗的音问,我国政府负责核准了雅鲁藏布江卑鄙水电工程。 西藏水能资源主要诱导分散在雅鲁藏布江、怒江、澜沧江和金沙江干流。其中,雅鲁藏...

  • 萝莉少女 2月13日力王股份(831627)龙虎榜数据

    证券之星音信萝莉少女,沪深往复所2025年2月13日公布的往复公开信息露馅,力王股份(831627)因当日价钱振幅达到30%的前5只股票登上龙虎榜。这次是近5个往改日内第1次上榜。 适度2025年2月...

  • 国产主播 2025年山东省考得益查询进口

    山东省考考试网为您发布2025年山东省考得益查询进口-灯塔党建在线国产主播,同步山东公事员考试网信息:2025省考得益查询。更多对于2025山东省考得益查询,山东公事员考试得益,2025山东公事员得益...

  • twitter 巨屌 金龟子服从 “锅盖头”:为孩子们留住童年的纯碎钤记

    近日twitter 巨屌,驰名少儿节目主握东说念主金龟子(刘纯燕)在搪塞平台发布视频,恢复了网友对她数十年未换发型的疑问,激发庸俗豪情与热议。自 1991 年主握《大风车》以来,金龟子那象征性的 锅盖...

创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
JzEngine Create File False