在近日的一次技术分享会上,北京航空航天大学的博士生孙耀威深入探讨了如何利用创新的技术框架,在亚马逊云平台上对大模型进行高效微调与强化学习训练。他介绍的两个核心框架——LlamaFAIR与EZI-ONE,引起了业界的广泛关注。
孙耀威首先回顾了大模型微调与强化学习的基本概念。他解释,微调通常涉及将大型预训练模型(如GPT-3)针对特定任务数据进行调整,以提升其在该领域的推理能力。然而,全量微调的成本高昂,尤其是对于参数规模庞大的模型而言。因此,高效微调技术应运而生,旨在降低显存占用并加速训练过程。
为了解析高效微调的奥秘,孙耀威详细剖析了显存占用的主要组成部分:模型权重、优化器状态和梯度值、以及激活状态。他提到,通过量化技术,如GPDQ,可以将32位浮点数权重转换为低精度格式,从而大幅减少显存需求。利用LoRA的低秩分解技术,可以显著压缩优化器状态和梯度的显存占用。而在激活状态方面,FlashAttention和activation recomputation等技术通过算子融合和检查点重计算,有效降低了显存消耗。
孙耀威强调,这些技术的综合运用使得在消费级显卡上微调大模型成为可能。他分享了一个实例:通过结合量化、低秩分解、算子优化等技术,成功将8B参数模型的显存占用从120GB降低到单卡1.9GB。
随后,孙耀威将话题转向了强化学习,特别是其在ChatGPT等大模型中的应用。他解释了RLHF(人类反馈强化学习)的基本原理,即通过生成多条推理轨迹并使用奖励模型进行打分,来优化策略模型的参数。与PPO等传统强化学习算法相比,RLHF无需额外的Critic模型来估计值函数,而是直接使用奖励分数的规范化值作为优势函数信号。
在介绍LlamaFAIR框架时,孙耀威指出,该框架不仅支持文本推理模型,还兼容视觉语言模型和多模态模型,能够处理图像、视频、音频等多种模态数据。LlamaFAIR集成了多种高效微调技术,提供了一个无代码界面,使得用户只需简单选择模型、数据集和参数,即可完成模型微调并进行交互测试。
紧接着,孙耀威介绍了EZI-ONE框架,这是一个专为加速GRPO(一种新的强化学习算法)训练而设计的高效框架。EZI-ONE基于字节跳动的Flare引擎构建,支持从7B到72B不同规模模型的训练。该框架采用单控制器多工作器的设计,将强化学习过程抽象为高级原语,使得算法开发和改进更加简洁高效。
孙耀威提到,EZI-ONE框架的使用同样便捷,用户只需编写一个定制奖励函数的脚本,并将其路径传入框架,即可完成RLHF训练过程。这种设计大幅降低了强化学习训练的门槛和难度。
文章采集于互联网