全面解析RLHF,PPO,DPO,Flash Attention,增量学习等大模型算法
详细大纲
介绍课程目标、安排和预期成果
明确对学员的要求和期望
概述课程中将探讨的项目和技术
讨论大模型技术的行业现状
推荐关注的工具和开源项目
大模型的定义和重要性
大模型发展历程和关键里程碑
预训练与微调的基本概念
大模型预训练、数据处理、微调、对齐
大模型训练的基础设施和资源需求
面临的挑战和未来发展方向
Transformer模型的基本架构
Self-Attention机制的原理和计算过程
Multi-Head Attention的设计和作用
注意力权重的计算和可视化
Self-Attention在模型中的作用和优势
Positional Encoding的概念和实现方法
Rotary Positional Embedding
BPE tokenizer,SentencePiece Encoding
Transformer中的Feed-Forward Networks
Layer Normalization的原理和重要性
Transformer模型中的残差连接
编码器和解码器的结构差异
Transformer的训练策略和优化方法
参数初始化和学习率调度
Transformer模型的正则化技术
Attention机制的变种和改进
Greedy Decoding, Beam-search
Top-K Sampling, Top-p Sampling
Transformer源码解读
全量微调与高效微调的区别
Transformer模型微调的常见策略
选择合适的微调任务和数据集
微调中的挑战和最佳实践
评估微调效果的标准和工具
PEFT的安装
PEFT的使用说明,核心模块讲解
指令数据准备和预处理的技巧
实施微调的详细步骤
微调项目的性能评估和分析
Generative Pre-Trained Transformer系列模型的发展历程
Generative Pre-Trained Transformer代码解读
Zero-shot Prompting
Few-shot Prompting
模型的局限性和挑战
LLaMA模型的特点和技术创新
LLaMA模型的原理剖析
LLaMA源码解读
LLaMA与其他大模型的对比
LLaMA模型的训练和微调策略
面对LLaMA模型的未来发展方向
智谱AI模型模型解读
智谱AI模型的技术迭代
智谱AI模型的优势和应用领域
智谱AI模型微调和部署的实践指南
智谱AI模型的评估和性能优化
Baichuan模型的概述和核心技术
Baichuan原理剖析和源码解读
Baichuan模型与其他模型的比较
Baichuan模型在特定任务上的应用
微调Baichuan模型的策略和技巧
Baichuan模型的局限
指令微调的定义与应用背景
指令微调与传统微调的对比
指令微调在大模型中的重要性
指令微调流程概览
指令微调的挑战与策略
矩阵和向量的基本概念
矩阵运算与性质
特征值和特征向量
矩阵分解(SVD)技术简介
矩阵在LoRA算法中的应用
LoRA算法的原理与动机
Lora中的Low-rank假设
LoRA的关键技术组件
LoRA算法的实现步骤
LoRA算法的优化与调试
LoRA算法源码解读
指令数据的重要性与来源
自动化和手动搜集指令数据的方法
指令数据的预处理和标准化
生成高质量指令数据的技巧
指令数据集的维护与更新
指令数据的人工质量评估与自动质量评估
Alpaca微调项目的设计与目标
准备Alpaca微调所需的指令数据
实施Alpaca微调的详细步骤
评估Alpaca微调效果的方法
分析与解决Alpaca微调中遇到的问题
解读Alpaca项目源码
AdaLoRA与LoRa的比较
动态改变矩阵权重的意义
SVD与AdaLoRA
训练AdaLoRA
AdaLoRA源码解读
AdaLoRA案例讲解
Vicuna微调项目的背景与应用场景
ShareGPT数据收集
Vicuna微调的实施流程和技术细节
Vicuna微调效果的评估与分析
基于Vicuna微调项目的经验总结与展望
第三阶段:大模型指令微调之- Quantization
Quantization在深度学习中的作用与原理
常见的Quantization技术及其分类
模型Quantization对性能和精度的影响
Quantization的实践步骤和工具
模型Quantization的挑战与解决策略
QLoRA算法的定义和背景
QLoRA与LoRA的关键区别和改进
QLoRA算法的详细实现过程
4bit NormalFloat, double quantization
QLoRA算法的优化和调试技巧
QLoRA源码解读
技术方案的设计
收集和预处理指令数据
基于PEFT进行QLora大模型微调
评估QLoRA微调之后的效果
分析QLoRA微调过程中遇到的问题及其解决方案
模型压缩的必要性和技术背景
常见的模型压缩方法概述
模型压缩与Quantization的关系
实施模型压缩的步骤和注意事项
模型压缩技术的最新研究进展
模型蒸馏的基本概念和工作原理
模型蒸馏在模型优化中的应用
不同蒸馏技术的比较和选择
实施模型蒸馏的具体方法
模型蒸馏技术面临的挑战及其解决策略
ZeroQuant算法的基本原理和应用背景
ZeroQuant在模型Quantization中的创新点
实现ZeroQuant的关键步骤和技术要求
ZeroQuant源码解读
ZeroQuant技术的局限性和未来方向
SmoothQuant算法的设计理念和核心技术
SmoothQuant与传统Quantization方法的区别
实施SmoothQuant算法的具体流程
SmoothQuant源码解读
SmoothQuant面临的技术挑战和改进路径
RLHF的起源和背景
RLHF在人工智能中的作用和重要性
强化学习与人类反馈:结合的优势
RLHF的主要应用领域和案例研究
从InstructGPT到GPT4
人类反馈在强化学习中的角色
不同形式的人类反馈:标注、偏好、指导
从人类反馈中学习:方法和策略
人类反馈数据的收集和处理
人类反馈强化学习的挑战和解决方案
PPO的起源和动机
PPO与其他策略梯度方法的对比
算法核心概念和原理
PPO的优势和局限性
PPO的应用领域和案例
强化学习基本概念介绍
数据在强化学习中的作用和重要性
状态、动作和奖励的数据结构
数据收集、处理和利用的方法
使用模拟环境进行数据生成和测试
策略梯度方法简介
优势函数和回报
基线的概念和作用
累积回报与折扣回报
探索与利用的权衡
目标函数和KL散度
裁剪目标函数的原理
多次迭代优化策略
广义优势估计(GAE)
重要性采样和策略更新
构建神经网络模型
实现PPO的优化循环
自适应学习率调整
调试和性能分析技巧
评估对齐之后的大模型
PPO变体和改进策略
处理高维输入和模型泛化
多智能体环境中的PPO应用
强化学习中的迁移学习和多任务学习
强化学习中的安全性和可解释性
项目需求分析和技术方案设计
环境设置和任务定义
对齐数据的收集和预处理
实现PPO训练流程
结果分析和性能优化
DPO(Direct Preference Optimization)介绍
与PPO算法对比
DPO的应用场景和重要性
基本原理和工作机制
DPO算法的优势和挑战
偏好与排序问题在AI中的角色
数据表示:成对比较和偏好矩阵
偏好学习的挑战
排序和偏好预测的评估指标
经典偏好学习算法概览
偏好建模的数学框架
直接与间接偏好优化的对比
DPO中的关键算法组件
成对比较数据的处理方法
DPO的损失函数和优化策略
数据整理与预处理
构建偏好学习模型的步骤
使用Python实现基础DPO模型
在benchmark上测试DPO性能
DPO的优势和缺点
推荐系统中的偏好学习
设计DPO驱动的推荐算法
处理实时用户反馈
实施DPO进行推荐模型微调
评估推荐系统的性能
多任务学习与DPO的结合
DPO在非监督学习中的应用
深度学习方法与DPO
交互式偏好学习
DPO技术的变种
Prefix Tuning的基本原理
实现Prefix Tuning的关键步骤
Prefix Tuning源码解读
Prefix Tuning与其他微调方法的比较
在NLP任务中应用Prefix Tuning的案例
Prefix Tuning的局限性和挑战
Adaptor Tuning的基本原理
如何在大模型中插入Adaptor层
Adaptor Tuning的优点和应用场景
Adaptor Tuning源码解读
实际案例:Adaptor Tuning在分类任务中的应用
Adaptor Tuning的效率和扩展性问题
Flash Attention的设计思想和算法原理
优化Transformer模型中的注意力机制
Flash Attention在提升处理速度和效率上的作用
应用Flash Attention改进大模型的案例分析
Flash Attention的实现挑战和解决方案
介绍Flash Attention 2与前版本的区别
深入探讨Flash Attention 2的技术改进点
Flash Attention 2在复杂任务处理中的应用示例
评估Flash Attention 2的性能和适用范围
Flash Attention 2的实现细节和调优建议
KTO算法背景和理论基础
Kahneman-Tversky优化在微调中的应用
实施KTO的关键技术步骤
KTO在提高决策质量中的角色
KTO应用案例和性能分析
结合QLoRA和Flash Attention的微调策略
任务选取和数据准备
微调流程详解:从预处理到模型评估
分析微调后模型的性能改进
面临的挑战及解决方案分享
增量学习(Continual learning)的重要性
与传统从零训练的对比
增量学习的应用场景
任务选取和数据准备
微调流程详解:从预处理到模型评估
什么是灾难性遗忘
解决灾难性遗忘的思路
正则化、动态网络架构、元学习
通用数据与垂直数据的混合训练
数据中的信息分析
调整学习率
增量学习在大规模数据集上的应用
多模态与跨领域增量学习
自适应学习和在线学习技术
强化学习与增量学习的结合
未来增量学习的发展方向
课程PPT举例
课程主讲
清华大学计算机科学与人工智能研究部博士后 长期在大厂从事对话系统,预训练语言模型的研发和商业化 主要从事自然语言处理,对话领域的先行研究与商业化 先后在AAAI,NeurIPS,ACM,EMNLP等国际顶会及期刊发表高水平论文十余篇
多家上市公司技术战略顾问 曾任金融科技独角兽公司首席科学家 曾任量化投资初创公司首席科学家 曾任美国亚马逊推荐系统工程师 深耕人工智能领域十余年,授课培养AI学员数万人
报名咨询
扫描二维码,添加顾问老师咨询~
微信扫码关注该文公众号作者