弱智吧竟成中文AI训练数据中科院等8项测试远超知乎豆瓣小红书
弱智吧竟成中文AI训练数据中科院等8项测试远超知乎豆瓣小红书
没错,论文中的Ruozhiba就是指弱智吧,一个充满荒谬、离奇、不合常理发言的中文社区,风通常是这样的:
最离谱的是,弱智吧AI代码能力也超过了使用专业技术问答社区思否数据训练的AI,这下吧友自己都闹不明白了。
这项研究来自中科院深圳先进技术研究院、中科院自动化研究所,滑铁卢大学等众多高校、研究机构联合团队。
作者之一也现身评论区,透露使用弱智吧数据训练AI属于灵机一动,以前只用来测试。
中文数据集很多是从英文翻译过来的,没有很好地契合中文的语言习惯和文化背景
为了解决这些痛点,团队从简单好记英文名女的各种知识源头直接收集数据,比如知乎、豆瓣、百科、小红书等,经过一系列严格的清洗和人工审核,打造成高质量、多样化的中文指令微调数据集COIG-CQIA。
除了探索不同数据源的作用,团队还专门从中抽取出一个精华子集CQIA-Subset。
由0个点赞的帖子标题+人工或GPT-4的回复组成指令微调数据集, 经过人工审核后,最终留下了240组指令-回复数据对。
分别用各种数据集训练零一万物Yi系列开源大模型,在BELLE-Eval测试集上使用GPT-4评分得到结果。
在规模较小的Yi-6B模型上,纯弱智吧版本总分排名第三,还不算太突出。
当然弱智吧并不是这项研究的全部,它的真正贡献在于为中文大模型开发提供了一个高质量的指令微调数据集COIG-CQIA。
通过对各种尚字辈起名数据源的探索,这项研究为构建中文指令数据集提供了很多有益的启示。比如社交媒体数据虽然开放多样,但也存在不少有害信息风险;而百科类数据专业性强,但覆盖面可能不够广。
这项研缺土起名字友集体笑不活。除了“XSWL、思路开阔了”婶儿的纯围英文谐音生成器友认真讨论起了弱智吧有如此奇效的原因。
通用数据集多半已经在pretrain阶段见过了,再训一遍只会加重overfitting。
千言万语汇成一句话:把弱智吧只当简单的段子合集真的是严重低估了它的价值!
事实上从诞生之初,弱智吧就深度参与了大模型的发展,可以算是这一波AI浪潮的重要见证者了。
还记得23年初那会儿,各家大模型苗什么起名版还不太能很好应对这类问题,如2023年3月的文心一言:
直到今天,弱智吧问题都是每个新发布大模型都必须要过的一关,被戏称为弱智吧Benchmark。
起名枭友为了调戏大模型专门搜集的弱智吧问题测试集,没想到有一天也能摇身一变,成了训练集。
相关文章
- 老汉冒充瞎子给人占尽女人便宜岂料被识破终遭报应
- 杨幂的八字坐火了腿间距连张纸都放不下一般人可做不到
- 彩云之南出美人这10位云南籍女星个个温婉动人秀色可餐
- 十二时辰顺口溜以益字起名
- 生辰八字算出你一生会有几个孩子
- 乾隆皇帝的生辰八字太准他这辈子活成啥样难道早就有剧本
- 为何要强调按生辰八字取名
- 浙江姑娘捡到的一块奇石取名昆仑有人出价0万
- 由生肖表话老工艺封起名
- 张姓女孩名字起名女孩姓张的好名字
- 《母泰迪起名》叶抒微让贝耳朵给自己的小提琴取名字
- 新潮取小名方式正流行后爸妈很满意老一辈人听了却来气
- 命苦之人身上有3大凶兆发现了吗
- 具有抗肿瘤作用血球凝集素对用病毒或化学致癌剂处理后而得的变性细胞的毒性大于正常细
- 音乐说书人张磊用音符串联时间用歌声追忆年华
- 2023年的四柱八字如何通过算生辰八字判断运势
- 斛珠夫人生日剧照来了杨幂的古装真美还是从前的那个她
- 生辰八字相冲的人能在一起吗中国阴阳五行中你不知道的大智慧
- 八字排盘怎么看圆辰准测师傅详解
- 华泰梳理品牌命名体系轿车以路盛命名