Bendi新闻
>
微软大模型Phi3安装和介绍,普通电脑不联网也能提问!

微软大模型Phi3安装和介绍,普通电脑不联网也能提问!

你好,我是郭震

1 前沿

最近,微软发布Phi-3模型,最小尺寸的phi-3-mini3.8B参数量)在更大、更干净的数据集(包含3.3T个tokens)上进行训练,在各大公开的学术基准和内部测试中,实现了与Mixtral 8x7B和GPT-3.5等大尺寸模型的性能。

模型小,phi-3-mini的尺寸也足够小,可以部署在手机上离线使用,这样让每个人在本地部署大模型成为可能。

功能不错。此前发布Phi-2时,微软已经证实了「基于LLM的web数据过滤」和「LLM合成数据」的结合,使得2.7B参数量的Phi-2可以匹敌25倍参数量大模型的性能。

这篇论文的链接:https://arxiv.org/pdf/2404.14219.pdf

2 phi-3介绍

phi-3一共三个版本,最小尺寸版本为phi-3-mini,基础模型的参数量为3.8B,采用Transformer解码器架构,默认上下文长度为4K,加长版(phi-3-mini-128K)通过LongRope技术将上下文扩展至128K.

模型参数设置上,隐藏层维度为3072、具有32个头、总共32层,使用bfloat16训练了3.3T个tokens

2.1 上下文长度

有些老铁可能不知道什么是上下文长度,我解释下。上下文窗口指的是模型一次可以处理的最大文本长度。这个长度通常用“tokens”(标记)来表示,每个标记可以是一个单词、子词或单个字符,具体取决于编码方式。

4K 上下文窗口:表示模型可以一次处理最多4096 个标记。对应的实际字符数取决于具体文本内容和标记化方式。

上下文窗口大小决定了模型在回答问题或生成文本时可以利用的上下文范围。窗口越大,模型就能处理越长的上下文,对理解长文本内容非常重要。

长文本处理:较大的窗口允许模型处理更长的文本片段,从而提高在长文本任务中的表现,如长篇对话、文档生成和分析等。

2.2 LongRope介绍

LongRope 是一种技术,可以扩展 transformer 模型的上下文窗口,从而处理更长的输入文本。传统的 transformer 模型使用固定的相对位置编码,通常无法扩展到超过模型设计时的上下文窗口大小。LongRope 技术试图解决这一问题,通过扩展位置编码的范围,使 transformer 模型可以处理超长的文本输入。

2.3 LongRope关键技术

LongRope 技术的关键特性是扩展位置编码:LongRope 技术通过增加位置编码的范围,将其适应于比传统位置编码更长的文本。可以允许模型处理多达数十万 token 的上下文。

兼容性:LongRope 技术可以与 transformer 架构兼容,无需对模型架构进行重大修改。适用于多种 transformer 模型,易于集成。

保持模型性能:即使扩展了上下文窗口,LongRope 也努力保持模型的性能和效率,确保处理长文本时的准确性和速度。

3 训练方法

模型的训练遵循「Textbooks Are All You Need」的工作序列,利用高质量的训练数据来提升小型语言模型的性能,同时突破了标准的规模法则(scaling-laws):phi-3-mini仅用3.8B的总参数量,就能达到GPT-3.5或Mixtral等高性能模型的水平(Mixtral的总参数量为45B)。

模型的训练数据来源多样,涵盖经过精挑细选的开放互联网数据和由大型语言模型生成的合成数据。

预训练由两个独立且连续的阶段组成:

第一阶段:主要使用互联网资源,旨在培养模型的通用知识和语言理解能力;

第二阶段:使用更严格筛选的互联网数据(第一阶段数据的精选子集)和部分合成数据,旨在提升模型的逻辑推理和专业技能。

4 后处理

后处理 在phi-3-mini的训练后处理中,主要包括两个阶段:

  1. 有监督微调(SFT)

SFT使用了经过精心策划的、跨多个不同领域的高质量数据,包括数学、编程、逻辑推理、对话、模型特性和安全性等,在训练初期只使用英语的样本。

  1. 直接偏好优化(DPO)

DPO的数据则包括了聊天格式的数据、逻辑推理任务,以及负责任的人工智能(RAI)相关的工作。

5 使用体验


使用 ollama 运行下面一行命令:ollama run phi3



一共文件2.3G,安装完成后,就可以在命令窗口直接提问,我的win电脑是40N卡,回复速度非常快。无需联网,直接在本地不限次,不限流量的访问和使用:


如果觉得这个命令窗口交互不友好,还可以配备一个前端界面,详细的教程在我的公众号后台,发送消息,lobe,免费领取前端配置教程。

在我自己电脑部署后,我在前端页面访问phi-3-mini,回复速度很快,质量也很高,比如问它,鸡兔同笼问题:

叫它写一首关于母亲的散文诗:

整理体验不错,会有些瑕疵,但不影响,免费一直使用,GPT4一个月可是20美元。

我们为开源大模型点赞。


1 公众号发消息: llm,免费获取《大模型从理论到实践》.PDF

公众号发消息: gpt,免费获取《GPT使用指南》.PDF


微信扫码关注该文公众号作者

来源:郭震AI

相关新闻

1000亿美元!微软和OpenAI又有大动作:欲联手打造AI超算互联网秋招 | 百度25届管培生项目!互联网大厂,含非技术岗,base北京,留学生有优势互联网大厂!恭喜DBC职梦同学已收到美团(CN)转正实习面试邀请互联网大厂!恭喜DBC职梦同学已收到美团(CN)转正实习面试邀请!互联网春招 | 百度2024春招补录进行中!互联网大厂,含非技术岗,留学生有优势大模型也能切片,微软SliceGPT让LLAMA-2计算效率大增Alibaba阿里集团24届校招还有offer!!!互联网大厂,世界五百强,海外有岗,适合留学生“重仓股曾暴跌65%!”互联网大厂辞职满三年,两娃奶爸回忆中概极端危机!在困境中最好的策略,就是等待!学好 Prompt,和大模型双向奔赴!| 极客时间识别细胞也能用大模型了!清华系团队出品,已入选ICML 2024 | 开源爆料!某互联网大厂美女公关的更多大瓜用户分析5大法则,互联网大厂都在用!全网独一份!AI大模型学习训练资源...(限时免费领)奥特曼昨晚放话也要把大模型价格打下来!微软一夜革新生产力:Copilot 贯穿全场、小模型持续炸街澳洲这个地方电网陷入大混乱!风暴和大火导致数千户家庭停电,电力公司承诺居民尽快恢复供电扩散模型也能推荐短视频!港大腾讯提出新范式DiffMM强大到不敢给普通人用!史诗级大模型 Sora 如何让众行业一夜变天?规模增长超 50%!普通人如何上手 AI 大模型应用开发? | 极客时间全网独一份!GPT+AI大模型教程资源……(待会删)性能强,成本低,运行快!最强开源大模型出现,超越ChatGPT和Llama!(待会删)全网独一份!GPT+AI大模型资源,请低调使用!手机跑大模型提速4-5倍!微软亚研院开源新技术,有CPU就行数学都是体育老师教的!13.11和13.8谁大?大模型翻车了下一代 RAG 技术来了!微软正式开源 GraphRAG:大模型行业将迎来新的升级?
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。