Bendi新闻
>
微软来大招:手机部署堪比GPT3.5高性能大模型!

微软来大招:手机部署堪比GPT3.5高性能大模型!

夕小瑶科技说 原创
作者 | 任同学

上周 LLaMa3 算是把关注度拉爆了,这才过了几天,微软已经宣布自己的 Phi-3-mini (3.8B) 模型可以媲美 Mixtral 8x7B 和 GPT-3.5 的性能了。

▲图1. Twitter:@haouarin

一些直观的数据供参考:

  1. Phi-3-mini3.3T token 上进行训练,整体性能与 Mixtral 8x7BGPT-3.5 相当,超越 Llama-3-instruct8b,而Llama-315T token上训练,这意味着 Phi-3 数据利用率提高了约4倍;
  2. 将 Phi-3-mini 模型拓展到 7B (Phi-3-small)14B (Phi-3-medium) 大小,在 4.8T token 上进行训练,两者都比 phi-3-mini 能力更强,例如,MMLU 基准上分别为 75% 和 78%,MT 基准上为 8.7 和 8.9。

面对这样的结果,网友们纷纷表示不敢置信:

Meta 发布 Llama3 不到一周,难以置信微软这么快就发布了 Phi-3,而且看起来很棒!

与此同时,Phi-3-mini 的默认上下文是 4k,但是也引入了一个长上下文版本,拓展到了 128k,称之为 phi-3-mini-128k。

而上周非常吸睛的 Llama3系列的上下文长度仅为8k,尽管有活跃的社区可以为其实现各种变种,但是难免让人觉得其8k的上下文不够亮眼...不对,Meta或许就是知道大家魔改的热情空前,所以特意留了一点工作量出来:)

这里附上Phi-3系列在20多个基准上的评测结果:

不过,网友们似乎还是不太认可这样的结果:

甚至直言对结果保持怀疑:

Phi-2在 HumanEval 中得到59分?? Llama-3-8b-instruct 也远不止38!

让我恼火的是,当人们发布基准测试结果时,他们经常忽略任何比他们自己的模型表现更好的模型。他们骗不了任何人! 这让人非常反感。我想看看它与更好的模型相比如何,而不仅仅是较弱的模型。

难怪网友们对基准测试的结果越来越不感冒了,毕竟不管各家怎么吹嘘自己的模型,GPT 3.5还是当之无愧的性价比之选,GPT-4更是遥遥领先的标杆。

因此在更全面、足够有说服力的基准测试出来之前,网友们也只能多亲身测试模型的性能惹。

而现在!在huggingface上也可以体验到 Phi-3-mini-4k-instruct 模型啦,赶紧去试试吧,友情提示,使用英文,并且不开启网络搜索的情况下模型还是很不错的!

https://huggingface.co/chat/

当然,网友们对Phi-3系列所用的数据也很感兴趣:

尽管训练数据很少,但Microsoft声称该模型的性能比其前身Phi-2(去年12月发布)要好得多,并且相比参数量更多、训练token数是其5倍的Llama3模型,Phi-3的基准测试的性能具有相当竞争力的,这也能侧面说明数据集的质量确实很高。

不过,对于网友们来说,确实已经见惯了厂商们使用GPT4来处理数据的操作,对于没有公开数据处理流程的厂商来说,这大概率倒是不冤枉hhh:

很高兴看到微软仍然在抄袭OpenAl:他们甚至没有写一个完整的句子来解释他们的数据来源,但是他们引用了他们之前关于GPT-4代码审查的论文。

小型、轻量化的模型是未来吗?

Phi系列模型作为大模型小型化的经典工作,这次更是特别强调其“可以在手机部署”的特性,研究人员称,Phi-3-mini 在 4 bit量化下仅占用约 1.8GB 内存

研究人员已经在 iPhone 14 上测试部署了 phi-3-mini 量化模型,并使用 A16 Bionic 芯片在设备上本地运行并完全离线,实现每秒超过 12 token的效率!

研究人员甚至还询问了Phi-3为什么(他们)可以在手机上构建性能堪比 ChatGPT 的大语言模型,啊喂你这也太自卖自夸了吧😲

不过既然是小模型,本身能够存储的知识上限肯定还是要低于更大参数模型的理论值的,笔者也尝试问了几个问题,发现在使用中文prompt ➕ web 搜索的时候,模型是最差的,给了笔者一点小小震撼!

但是本着不当小黑子的原则,笔者又尝试了几种提问方法,发现使用英文 prompt➕web搜索的时候,模型的表现要比刚才稍好一些:

可惜一段较长的文本输出之后,又出现了模型重复的问题:

最后!笔者发现,正确的使用方法应该是使用英文prompt➕关闭web搜索!!

在这种情况下,模型的输出质量确实都非常高,也比较稳定,这可能也是目前小模型的局限性,要获取高质量的多语言数据并让模型尽可能地存储知识是有比较大挑战的。

当然缓解办法也有,比如通过联网来获得增强,但是这也要求模型具有更好的信息处理能力,从目前的初步体验看,Phi-3在这方面的效果可能不如直接激活模型内的知识来的好~要是开源社区也能像对待llama3一样投入亿些热情,Phi-3的中文能力还是很值得期待的hhh。

尽管微软已经在Phi系列上推出了三个版本了,但是微软表示这不意味着他们放弃了做大尺寸的LLM。像Phi-3这样的模型并不是为了取代大型模型,而是为了实现GPT-4或Gemini等模型无法实现的目标,比如在设备上本地运行:

如果你有一个非常非常高风险的应用程序,比如在医疗保健场景中,那么我绝对认为你应该使用前沿模型——最好的、最有能力的、最可靠的。对于其他用途,其他因素更为重要,包括速度和成本。这就是你需要Phi-3的地方。

参考资料

 [1]https://huggingface.co/microsoft/Phi-3-mini-4k-instruct
 [2]https://arxiv.org/abs/2404.14219
 [3]https://tech.co/news/how-to-get-microsoft-phi-3-mini-ai

微信扫码关注该文公众号作者

来源:夕小瑶科技说

相关新闻

微软秒删堪比 GPT-4 的开源大模型!研发总部还被爆在北京?官方:我们只是忘了测试微软秒删堪比GPT-4的开源大模型!研发总部还被爆在北京?官方:我们只是忘了测试下一代 RAG 技术来了!微软正式开源 GraphRAG:大模型行业将迎来新的升级?2024《军队文职》公开招聘:特招120人,大专可报,待遇堪比公务员!大模型端侧 CPU 部署最高提效 6 倍!微软亚研院新开源项目 T-MAC 技术解析来了核弹级!堪比09年的大招!手机跑大模型提速4-5倍!微软亚研院开源新技术,有CPU就行卷疯了!最强开源大模型Llama 3发布,最大参数4000亿,小扎内心:大模型比元宇宙香多了全国唯一与“省份”同名的城市:面积比省会大!不输哈尔滨,比延吉人少,藏着“最美冬天”,竟没人来......AI集体失智!9.11比9.9大?微软回应全球死机蓝屏事件:影响850万设备;OpenAI发布GPT-4o mini | Q资讯鹅厂大模型人才扩招50%!面向全球顶尖天才少年:薪资算力数据管够奥特曼昨晚放话也要把大模型价格打下来!微软一夜革新生产力:Copilot 贯穿全场、小模型持续炸街微软亚研院新作:让大模型一口气调用数百万个API!微软秘密开发首个千亿大模型,竟由OpenAI对手操刀!网友:你不要奥特曼了?教程来了!3分钟教你搭建:AI大模型前端界面苹果微软两大巨头,扎堆儿发布小模型!真的终端智能快来了!喜大普奔!买房有望?房价小幅下滑,买方市场来袭!专家支招:现在正是购房时机!中国移动回应资费套餐降级难:降档较复杂,需专人办理/传微软中国员工禁用 Android 手机/周鸿祎称大模型是风口不是泡沫iPhone就能跑!微软推出轻量级模型Phi-3,性能堪比GPT-3.5 Turbo,AI的未来在手机端?专为Excel而生的大模型来了!今日arXiv最热NLP大模型论文:微软发布可视思维链VoT,提高大模型空间想象力国内首个开源千亿参数MoE大模型来了!性能超Grok-1,单张GPU可跑今日arXiv最热NLP大模型论文:微软:用大模型分析用户满意度,让智能系统更善解人意今日arXiv最热NLP大模型论文:微软提出SliceGPT,删除25%模型参数,性能几乎无损
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。