Bendi新闻
>
媲美GPT-4的开源模型泄露!Mistral老板刚刚证实:正式版本还会更强

媲美GPT-4的开源模型泄露!Mistral老板刚刚证实:正式版本还会更强

4月前
白交 发自 凹非寺
量子位 | 公众号 QbitAI

Mistral-Medium竟然意外泄露?此前仅能通过API获得,性能直逼GPT-4。

CEO最新发声:确有其事,系早期客户员工泄露。但仍表示敬请期待

换句话说,这个版本尚且还是旧的,实际版本性能还会更好。

这两天,这个名叫“Miqu”的神秘模型在大模型社区里炸了锅,不少人还怀疑这是LIama的微调版本。

对此Mistral CEO也做出了解释, Mistral Medium是在Llama 2基础上重新训练的,因为需尽快向早期客户提供更接近GPT-4性能的API, 预训练在Mistral 7B发布当天完成。

如今真相大白,CEO还卖关子,不少网友在底下戳戳手期待。


Mistral-Medium意外泄露

我们还是重新来回顾一下整个事件。1月28日,一个名叫Miqu Dev的神秘用户在HuggingFace上发布一组文件“miqu-1-70b”。

文件指出新LLM的“提示格式”以及用户交互方式同Mistral相同。

同一天,4chan上一个匿名用户发布了关于miqu-1-70b文件的链接。

于是乎一些网友注意到了这个神秘的模型,并且开始进行一些基准测试。

结果惊人发现,它在EQ-Bench 上获得83.5 分(本地评估),超过世界上除GPT-4之外的所有其他大模型

一时间,网友们强烈呼吁将这个大模型添加到排行榜中,并且找出背后的真实模型。

大致怀疑方向主要有三个:

  • 与Mistral-Medium是同一个模型

有网友晒出了对比效果:它知道标准答案还说得过去,但不可能连俄语措辞也跟Mistral-Medium完全相同吧。

  • Miqu应该是LIama 2的微调版本。

但另外的网友发现,它并不是MoE模型,并且同LIama 2架构相同、参数相同、层数相同,。

不过马上就受到其他网友的质疑,Mistral 7b也具有与 llama 7B 相同的参数和层数。

相反,这更像是Mistral早期非MoE版本模

不过讨论来讨论去,不可否认的是在不少人心中,这已经是最接近GPT-4的模型了。

如今,Mistral 联合创始人兼首席执行官 Arthur Mensch承认泄露,是他们一位早期客户员工过于热情,泄露了他们训练并公开发布的一个旧模型量化版本。

至于Perplexity这边CEO也澄清说,他们从未获得过Mistral Medium的权重。

网友担心是否会撤下这个版本。

有趣的是,Mensch并没有要求删除HuggingFace上的帖子。

而是留下评论说:可能会考虑归属问题。

参考链接:
[1]https://www.reddit.com/r/LocalLLaMA/comments/1af4fbg/llm_comparisontest_miqu170b/

[2]https://twitter.com/teortaxesTex/status/1752427812466593975
[3]https://twitter.com/N8Programs/status/1752441060133892503
[4]https://twitter.com/AravSrinivas/status/1752803571035504858

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

来源:量子位

相关新闻

性能直逼 GPT-4!最强大的免费开源模型出世 | 极客时间杀疯了!全面超越Llama3的强悍开源模型,仅9B,1000k上下文;GPT-4级别模型1年降价1万倍发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试最强开源大模型深夜炸场! Llama 3 王者归来,直逼 GPT-4, 马斯克点赞 | 附体验链接最强开源大模型Llama 3来了!4000亿参数狙击GPT-4,训练数据达Llama 2七倍比Llama 3 推理更强的开源大模型出现了! Leetcode击败80%人类英伟达开源3400亿巨兽,98%合成数据训出最强开源通用模型!性能对标GPT-4o一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo史上最强!全球首个“开源GPT-4”出世!扎克伯格的Llama 3号称全球最强开源模型!却写不好这个……最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上卷疯了!最强开源大模型Llama 3发布,最大参数4000亿,小扎内心:大模型比元宇宙香多了扎克伯格最新2万字访谈:价值百亿美金的“最强开源大模型”Llama3及背后的一切全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型端侧模型 OctopusV3 发布:手机上的超级助理,性能媲美 GPT-4V 和 GPT-4 的组合?“我们坚持开源!”阿里云发布“地表最强”中文大模型:半年一迭代、性能翻倍?OpenAI有望在今年夏季推出GPT-5;英伟达推出更强GPU芯片;马斯克宣布正式开源Grok-1|AIGC周观察第三十七期完全开源!谢赛宁发布最新SOTA多模态模型Cambrian-1,“不与GPT-4V媲美”「“梨”型曲线更健康」研究证实:腰臀比与全因死亡率的相关性最强,腰臀比越小,死亡风险越低!19.2k star,三分钟实现一套 Web 版的 Excel 组件,这个开源工具强的离谱!扎克伯格最新采访:Meta最强开源模型Llama 3凭什么值百亿美金性能强,成本低,运行快!最强开源大模型出现,超越ChatGPT和Llama!谷歌最强开源大模型亮相!Gemini技术下放,笔记本就能跑,可商用英伟达开源最强通用模型Nemotron-4 340B
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。