Bendi新闻
>
恭喜弱智吧,打败AI

恭喜弱智吧,打败AI

6月前
作者:雷斯林
来源:雷叔写故事(raistlin2017)
最近弱智吧又火了。
说它打败豆瓣、知乎、小红书成为最佳中文AI训练数据。
事情起始于arxiv上的一篇论文,文章里中科院想建立一个优质的中文AI数据集,为此就需要在中文互联网上搜集一些语料库。
于是他们就在知乎、豆瓣、小红书等平台上找找素材,再拿去训练大模型。
说起来简单,但不是什么素材都能用。
比如他们在弱智吧上找了500个点赞最高的帖子,然后用GPT-4回答这些帖子(弱智吧的帖子经常是问句形式)
再把帖子和回答组合成一个指令微调数据集,经过人工筛选,留下了240组数据。
有了数据材料就可以去训练开源大模型,训练分8项测试,包括问答、头脑风暴、分类、生成、总结、提取等,最后用GPT-4给这些测试打分。
精华部分来了。
跑完规模较小的Yi-6B模型后,弱智吧版本的总分排第三。
(CQIA-Subset是从各个数据源里,再次提炼出来的精华子集)
到了Yi-34B,弱智吧版本的表现遥遥领先;
小红书的语料价值则在社交媒体之间垫底了。
后来研究人员还做了安全评估,这方面弱智吧版本也名列前茅。
总的来说,弱智吧的中文数据价值很高。
网友见状一顿狂欢,谁说弱智吧里都是弱智的。
但弱智吧真赢了吗?
相比于小红书、知乎、豆瓣的上千组数据,弱智吧仅有240组数据,这是不是太少了?
而且,其他数据源用的数据都是本来就有的回答,由人类作出。
(即使小红书数据的回答部分,
看着像一键生成的,
也被标注为人类作出)
弱智吧的那组数据还是GPT-4去回答、GPT-4来评分的,那这是不是有既当裁判又当运动员的嫌疑呢?
另外,整个事情也不像媒体报道的一样,是“弱智吧训练出了超强AI”,而是“借助弱智吧等的语料库对开源大模型进行微调”。
前者是举足轻重的意义,后者只是参与其中。
话说回来,虽然数据不太严谨,但是弱智吧的段子充满了逻辑陷阱和思维谬误,很适合用来测试大模型。
这正是弱智吧成立近二十年来矢志不渝在做的事:
边搞笑,边让人变得有智慧。
弱智吧已成为一个难以名状的语言宇宙。
首先,里面充斥着最基础的傻瓜问题。
只切一刀,如何把四个橘子分给四个小朋友?
孟德尔为什么要花几年去做实验研究而不是直接看生物书?
为什么每条隧道上面都压着一座山
虽说“陨石为啥总落在陨石坑”这类问题不值得深思,但你也只有不被这些问题晃倒才能入门深造。
其次是抖机灵。
古人有那么多封号,是不是说明古人很爱开外挂?
恐怖分子是由2个恐怖原子组成的,还是由1个恐原子和1个怖原子构成的?
高考满分才750,怎么才能考985?
既然快递要3天才到,为什么不提前3天发?
面对这些脑经急转弯,起初你会觉得尴尬,但多想一秒就能多一份冷幽默。不算什么坏事。
至于那些有头有尾的段子,字里行间流露出思维上的精准毒辣,它们带着欧亨利式结尾,注定让人爽得不可开交。
-狙击手车沉着冷静的击毙了最后一名人质
-使绑匪失去了所有谈判筹码
-我家4400头猪,丢了一头,请问去哪里找啊?
-去4399找呀
-严重的恐高症害得我终身无法低头捡到钱
-我有洁癖每次拉完屎都不敢擦屁股
-朋友烧伤了,我王者荣耀有很多皮肤为什么不能移植给他?
-因为朋友没买英雄
说得越来越有感觉了,体会到语言高潮了吧。
那这时候又怎么少得了黄色笑话呢。
吧主黄医师就曾是这方面的高手,他们在十多年前脑洞大开,编出各种段子,为的就是构建起弱智吧友好交流的氛围:
你可以无下限,但一定要够深刻。
什么举世皆浊我独清,任何众人皆醉我独醒,都抵不上我很黄很暴力地醒着。
所以,用病态视角去审视正常社会里不正常一面,再合适不过了。不仅如此,看完之后你会觉得那些现实真刺激,那些段子真带劲。
接着一些对社会问题的针砭时弊呼之欲出。
“无头女尸拍大头贴竟被老板收钱惹民愤”
这是呼吁不要宰客。
“阳光洒在地上,到底是照亮了尘埃,还是隐入了尘埃?”
这是告诉我们很多电影没那么敏感。
别想多了的同时,也别想得太肤浅。
弱智吧里常常讨论性别议题。
很多吧友会站出来用浅显道理让人知道女性的不易。
弱智吧里也定期关注国际时政。
很多吧友科普知识段子,就是为了揭露国外的阴暗面。
谁说我们只讲无下限段子的,我们也关注宇宙起源、人性扭曲、道德沦丧,和世界和平。
吧友们只是在用另一种方式关心人类未来。
慢慢地,哲学味很浓的金句纷至沓来。
“怀念过去是不是在时间的长河里刻舟求剑”
最后为了升华主题,迎合时代精神,
许多段子主打一个劝人向善、活着就好。

这些帖子里不仅楼主发言犀利,评论区同样意味深长地讲着警世恒言,让人对世界失望悲伤的同时,产生一点点好感。
换言之,弱智吧里都是说最狠的话,讲最善的事。
看到这里你也就明白,这个吧里真没弱智,反而存在着被人忽视的生活达人和哲学大师。
他们对世界真相的揭露入木三分。
他们不像广告推荐里说得傻里傻气,急需治疗。
世界参差不齐,但对才华的识别向来一致。
他们的存在,表明弱智吧在与AI较量中,暂时领先半个身位。

一个不争的事实是:
现在各平台的语言越来越扁平和匮乏,深度复杂的逻辑越来越没人看了。
要不就是弹幕里粉圈互撕。
连古人都不放过。
要不就是生造缩写。
你惊呼yyds,我回复“蓅氺般の噯情”,咱们都有叛逆的青涩时光。
要不就是对飚表情包。
你没读懂是你out了,大叔不能怪你,因为年轻人扼住了互联网的咽喉。
要不就是阴阳怪气。
评论区里随意选一个表情符号,不打上“崩急乐孝典”等文字,都能提升嘲讽技能。
要不祖安人式骂街。
构建一个“以对方母亲为圆心、直系亲戚为半径、生殖器为主武器、意淫为主技能,配以伦理、两性、家畜、宠物、殡葬行业等领域的特有动词及名词”的脏话体系。
要不隔段时间刷“中式浪漫”。
前脚是“人不就活几个瞬间”,后脚是“咱俩一辈子幸福就完了”。
要不劣币驱逐良币。
“十二生肖过13.5年”本是由“姬霓太美”演化出来的段子,但现在手机浏览器里,前几条根本搜不到正确答案。
(切换到搜狗或360搜索,
首页里也是玩梗为主)
最后呢,为了造梗而造梗,而不是去生成鲜活的语言艺术。
以致于狂欢过后,带来的好像只是一场场黑话盛会。

此时此刻,弱智吧这种看似弱智,其实蕴含哲理的思考,非常难能可贵。
没有连篇客套话,不需要付出巨大理解成本,最后也不出现卖课广告,有的就是三言两语告诉你世间一些残酷真相。
可能嘴臭,或许悲观,但比惺惺作态好很多。
更何况,人家骂人骂得如此搞笑,很有技术难度;更何况,人家也兢兢业业写着中文字。
希望以后关于世界的深度思考,不要只能装成是精神病人的呓语才好。
为此,我们最后附上去年下半年的弱智吧精选内容。
篇幅有限,选了45条,大家也可以练一练自己的思维。
(图源:弱智吧日常)
(图源:弱智吧日常)
(图源:弱智吧日常)
-END-

本文作者雷斯林,他之前有个同名公众号被封了,欢迎关注他的新号“雷叔写故事”。


微信扫码关注该文公众号作者

来源:凤凰WEEKLY

相关新闻

弱智吧,人类抵御 AI 的最后防线“弱智吧”,人类抵御AI的最后防线吃饭不健康,癌症风险可能更高!《细胞》发现糖代谢致癌新机制;弱智吧竟成最佳中文AI训练数据?测试远超知乎豆瓣小红书|本周论文推荐现在,应该没人质疑小鹏的AI智驾了吧美国博士小哥打败女友的AI男友!7页论文让LLM降智,训出「负分男友」成功挽回AI智算网络两大主流架构及差异分析余承东:华为与江淮合作的智选车定位百万级,对标远超迈巴赫、劳斯莱斯;小鹏“开卷”AI智驾丨汽车交通日报榜单首发!高通8295「开启」高阶AI智舱时代,谁是域控领跑者收入大增65%,移动云抢滩AI智算,用核心技术向未来布局持平 GPT-4o,毒舌属性拉满, Gork-2 是吃了一个马斯克吧|AI 鲜测智谱AI版Sora来了!人人免费不限次,有手机就能玩,API也开放了智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量智谱的视频模型来了,它远非Sora,但却让这家公司更像OpenAI|对话智谱AI CEO 张鹏炒菜机器人公司橡鹿科技再获京东近 2 亿元投资;袁进辉公司硅基流动新增两位联创,获哈勃智谱 AI 等入股丨AI情报局对话智谱 AI CEO 张鹏:技术革命已经够快了,别只盯着「超级应用」的结果MiniMax、月之暗面、智谱AI为什么选择飞书?锐捷网络携AI-Fabric智算网络方案,助力智慧城市数字化转型智谱AI获中东财团 4 亿美元投资;老板跑路,900多员工一脸懵:上午改bug、下午解散;谷歌云部门大规模裁员 | AI周报余承东:不怕特斯拉 FSD,能干翻对手;智谱 AI 获中东财团 4 亿美元投资;比亚迪小米华为入围时代百大企业 | 极客早知道智启AI,新质跃迁,静安律师法律科技周开幕OpenAI、微软、智谱AI等全球16家公司共同签署前沿人工智能安全承诺Llama 3加持,用户实测Meta AI还是弱爆了!小扎弯道超车的策略竟是「免费+不限量」?AI早知道|零一万物发布千亿参数模型;智谱AI上线大模型开放平台智能物联2.0提速,边缘智能涌现:云重担下放、NPU加持、Tiny AI注智
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。