本文授权转自量子位(ID:QbitAI)
梦晨 西风 发自 凹非寺
离大谱了,弱智吧登上正经AI论文,还成了最好的汉文测验数据??
具体来说,使用弱智吧数据测验的大模子,跑分跨越百科、、豆瓣、小红书等平台,致使是连络团队全心挑选的数据集。
在问答、头脑风暴、分类、生成、回归、索要等8项测试中赢得最高分。
没错,论文中的Ruozhiba即是指百度贴吧弱智吧,一个充满相当、离奇、分歧常剪发言的汉文社区,画风平素是这么的:
最离谱的是,弱智吧AI代码能力也跨越了使用专科时代问答社区想否数据测验的AI,这下吧友我方王人闹不解白了。
其他平台围不雅网友也纷纷蚌埠住。
这项连络来自中科院深圳先进时代连络院、中科院自动化连络所,滑铁卢大学等宽敞高校、连络机构勾搭团队。
作家之一也现身褒贬区,知道使用弱智吧数据测验AI属于灵机一动,畴昔只用来测试。
弱智吧数据究竟若何完结这一设立,具体到论文中看。
弱智发言成领导微调神器
这项连络开赴点为经管汉文大模子测验中的诸多问题:
汉文数据集许多是从英文翻译过来的,莫得很好方单合汉文的说话风俗和文化布景
不少数据集是用AI生成的,质地难以保证,容易出现事实性不实
即使是东谈主工标注的数据集,也存在数据量小、遮蔽领域不全面等问题
为了经管这些痛点,团队从汉文互联网的各式学问起源直禁受罗数据,比如知乎、、百科、小红书等,历程一系列严格的清洗和东谈主工审核,打形成高质地、千般化的汉文领导微调数据集COIG-CQIA。
除了探索不同数据源的作用,团队还稀奇从中抽取出一个精华子集CQIA-Subset。
在众巨额据开首中,弱智吧成了最十分的一个。
由500个点赞最高的帖子标题+东谈主工或GPT-4的回话构成领导微调数据集, 历程东谈主工审核后,最终留住了240组领导-回话数据对。
永诀用各式数据集测验零一万物Yi系列开源大模子,在BELLE-Eval测试集上使用GPT-4评分得到摈弃。
在范围较小的Yi-6B模子上,纯弱智吧版块总分名步骤三,还不算太超越。
看来小模子还没能意会弱智的精髓。
到了Yi-34B,弱智吧版块发达就一骑绝尘了。
只消在改写和数学任务上没能赢得最高分,但得益也比拟靠前。
另外,在安全评估上弱智吧版块也能排上第二。
关于这类神气,连络东谈主员在分析中也给出浅易忖度:
可能是弱智吧问题增强了AI的逻辑推理能力,从而使领导解任任务受益。
天然弱智吧并不是这项连络的一谈,它的信得过孝敬在于为汉文大模子成立提供了一个高质地的领导微调数据集COIG-CQIA。
通过对各式汉文互联网数据源的探索,这项连络为构建汉文领导数据集提供了许多故意的启示。比如酬酢媒体数据天然绽开千般,但也存在不少无益信息风险;而百科类数据专科性强,但遮蔽面可能不够广。
弱智吧上大分
这项连络一发,网友集体笑不活。除了“XSWL、想路灵活了”婶儿的纯围不雅,也有网友庄重商议起了弱智吧有如斯奇效的原因。
大伙儿王人比拟招供的一个原因是弱智吧题诡计“异质”。
像脑筋急转弯,加多了领导千般性,是以升迁了模子最终性能:
通用数据集多半一经在pretrain阶段见过了,再训一遍只会加剧overfitting。
另一个原因是弱智吧数据文实质地很高,用词准确且粗略。
滔滔不息汇成一句话:把弱智吧只当浅易的段子书籍的确是严重低估了它的价值!
雀食,要不此前弱智吧问题也平素被大伙儿用来测试大模子呢。
事实上从ChatGPT降生之初,弱智吧就深度参与了大模子的发展,不错算是这一波AI海浪的抨击见证者了。
一运转仅仅网友拿来拷打AI,搞搞节目后果。
其后众人发现,弱智吧问题中充满陷坑,刚好不错用来分辨AI能力上下。
还铭刻23年头那会儿,各家大模子初版还不太能很好应酬这类问题,如2023年3月的文心一言:
后续版块也渐入佳境了,如2023年8月的文心一言:
直到今天,弱智吧问题王人是每个新发布大模子王人必须要过的一关,被戏称为弱智吧Benchmark。
秘塔写稿猫
Inspo
再其后,AI公司们我方也运转深爱起来,如百度官方就搞过联动直播。
当初网友为了调戏大模子稀奇征集的弱智吧问题测试集,没意象有一天也能奥妙无穷,成了测验集。
想路如实是被掀开了~
论文地址:https://arxiv.org/abs/2403.18058
参考文件
[1]https://x.com/9hills/status/1775358963724554410
[2]https://zhuanlan.zhihu.com/p/690640864[3]https://tieba.baidu.com/p/8964992247
本文经授权转载自量子位 (ID:QbitAI),如需二次转载请联系原作家。迎接转发到一又友圈。