Bendi新闻
>
为什么Transformer一般使用LayerNorm?

为什么Transformer一般使用LayerNorm?

8月前

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

要知道近年来特别出现了很多Transformer面试题(毕竟当前AI顶流)。这里Amusi特别分享15道Transformer高频面试题求职群里有数百道Transformer题目,还有答案),希望对你有所帮助。
  1. 介绍Transformer和ViT
  2. 介绍Transformer的QKV

  3. 介绍Layer Normalization

  4. Transformer训练和部署技巧

  5. 介绍Transformer的位置编码

  6. 介绍自注意力机制和数学公式

  7. 介绍Transformer的Encoder模块

  8. 介绍Transformer的Decoder模块

  9. Transformer和Mamba(SSM)的区别

  10. Transformer中的残差结构以及意义

  11. 为什么Transformer适合多模态任务?

  12. Transformer的并行化体现在哪个地方?

  13. 为什么Transformer一般使用LayerNorm?

  14. Transformer为什么使用多头注意力机制?

  15. Transformer训练的Dropout是如何设定的?

问:为什么Transformer一般使用LayerNorm?


答:Transformer模型中的注意力机制会使不同位置的特征之间存在依赖关系。Batchnorm是对一个batch中的所有样本的每个特征进行归一化,这会破坏注意力机制所学习到的位置信息。而LayerNorm是对每个样本的每个特征进行归一化,这样可以保留位置信息。此外,Batchnorm在训练过程中需要计算每个batch的均值和方差,这在Transformer模型中会带来很大的计算开销。而LayerNorm只需要计算每个样本的均值和方差,计算开销更小。

LayerNorm的优点:能够缓解梯度饱和问题、能够保留注意力机制所学习到的位置信息、计算开销更小

求职群还分享了很多AI算法岗、软开岗的大厂面试真题,部分截图如下:


如果你还没刷面试题?想看最新面经和答案?那得赶紧加入求职群!最新校招、实习、社招、教职信息、大厂面经和企业内推全都有!Amusi 强烈建议大家扫码领券加入2024年求职群(主要面向25届、26届及之后的同学)!

最大的AI算法岗和开发岗求职群

AI算法岗和开发岗求职群(知识星球) 是一个面向全体学生和算法工程师/研究员的求职交流平台。旨在分享 AI算法岗和开发岗的校招/社招准备攻略面试题库面试经验Offer选择内推机会学习路线求职答疑海量学习资料内容。


涉及深度学习,机器学习,计算机视觉,图像处理,自然语言处理,SLAM,大数据,数据分析,自动驾驶,机器人,推荐系统,Java,C/C++和Python等方向。


求职群里既有2025届、2024届和往届求职的大佬/学生,也有刚入学的学生(大一/大二/研一等),还有很多公司里的技术大牛研究员和算法工程师。目前球的成员已经超过5800


我Amusi 每天都会在求职群里发帖/交流,回答问题,分享面试题,分享面试心得,分享内推信息,分享学习资料等。划重点!球分享的资料和问答已经超过5000条!


注:因为星球里人蛮多的,所以建议大家匿名提问,防止"隐私泄露"


▲扫码领券,进群!

求职群(部分内容精选)


群主和嘉宾既有2024届/2025届和往届参与秋招拿到算法Offer,也有已经毕业工作多年的算法研究员/工程师。涵盖Apple谷歌Meta亚马逊微软NVIDIAUberIBM腾讯阿里巴巴、百度、字节跳动、美团、拼多多、京东、快手、商汤、旷视、滴滴、OPPO、VIVO、华为、小米、大疆、平安科技等上百家企业。


面向对象


全体学生和算法工程师/研究员、软件开发程序员,特别是 2024年2025届-2026届-2027届)找工作/实习的人群(研一/研二/大二-大四等),也强烈推荐刚入学的学生以及有考虑跳槽的工程师,早点为找工作做准备,锻炼刷题意识和能力。


海量面试经验/面试题


深度学习面试宝典是 Amusi 整理的一个AI算法岗面试题库,累计900+个问题与解答。涉及的领域众多,具体如下。同时求职群里每周都会更新很多面经,方便查漏补缺!




海量校招/实习/社招内推


求职群里已分享数千个内推机会,比如去年2024届校招就发布了208个内推信息(涵盖BAT/头条/京东/美团等公司),还有大量日常实习内推:

提问交流


如果你在学习、找工作、跳槽、职场、Offer选择等领域遇到问题,都可以在星球里向我提问!我知必答!




资源分享


涵盖刷题指南(LeetCode/剑指Offer)、学习路线、优质AI课程推荐、面试题、面试心得、知识重点分享、实战项目等内容



Offer比较与选择


招聘高峰期(提前批/秋招/春招),几乎每天星球里都会有人来咨询Offer选择性问题,或者转行问题,比如:AAA 和 BBB 哪个公司的Offer更好?



加入求职群(知识星球)方式


价格:199元(每天仅4毛钱) 限时立减50!特惠仅149元!

时长:一年(从你加入的时刻算起)

加入方式:扫码下方二维码或者点击阅读原文,即可进入AI算法求职群(知识星球)


建议:进群后,推荐下载知识星球APP使用,同时也可使用小程序或者知识星球公众号进行使用,可以发帖/提问/交流/回答,并可以快速访问群里的资源。


希望这个群可以让你少走一些弯路

如果喜欢招聘/面经/内推,麻烦给个在看





微信扫码关注该文公众号作者

来源:CVer

相关新闻

高频面试题:Transformer为什么使用多头注意力机制?【深入学习MySQL】MySQL的索引结构为什么使用B+树?我为什么使用 Linux 做开发?全面去俄化:蒙古国,为什么废除俄语字母,使用传统蒙文?为什么图纸好看的方案,设计费一般都不低?为什么有些人五官长得一般般,偏让人觉得很美?使用VPN“翻墙”违法,为什么大部分人都没事?日均tokens使用量超5000亿,AI生图玩法猛猛上新:豆包大模型为什么越来越「香」了?香港保单里的钱,怎么在内地使用?奥运会开幕式上演《燃冬》,为什么?杭州18岁男孩割掉自己生殖器官,丢进马桶冲掉,问他为什么?回答让人意外大模型架构TTT问世,也能推翻Transformer?带你看清“阴谋论”:什么是阴谋论? 为什么人们会相信阴谋论?ICML 2024 | 神经网络可能不再需要激活函数?LayerNorm也具有非线性表达!73岁安妮公主脑震荡住院,英国王室被诅咒了?为什么她是查尔斯身边最重要的女人…为什么没有大学破格录取姜萍?为什么大学要处分救人老师?PointMamba迎来更新!​Mamba在点云分析中是否能替代Transformer?AI Trust资讯 | 苹果官宣将接入ChatGPT,马斯克怒了:出卖用户数据!禁止在X和特斯拉使用?澳洲社交媒体将限年龄使用?16岁以下孩子或不能再使用社交媒体!中国零售大洗牌:商超巨头们一年共亏损49亿,为什么?通赌城高铁站建在这个华人区而非LA!为什么?铠甲or软肋?为什么我不喜欢在街上穿警服澳洲即将出台数字身份证!如何运作?是否强制使用?一文带你了解它几乎一半的美国人都想在父母家附近买房!为什么?
logo
联系我们隐私协议©2025 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。