复旦邱锡鹏新作：单机微调650亿参数大模型，业内人士：对大模型普及意义重大

时间：2023-06-24

　　本文转载自量子位

　　单台机器，就能微调全参数羊驼大模型！

　　这一令开源党狂喜的最新成果，来自复旦邱锡鹏团队。

　　具体而言，研究人员提出了名为LOMO（低内存优化）的新优化器，并在配备8卡RTX 3090（24GB内存）的单台服务器上，成功微调65B LLaMA。

　　论文一经发布，就引发了不少讨论——

　　在GPT-4掀起狂潮之后，人们在惊叹于大语言模型能力的同时，正在越来越多地思考模型控制权的问题。

　　有业内人士对此感到十分兴奋：

　　对于大模型普及来说，单机微调LLaMA 65B具有非常重要的意义！我曾梦想每个人都至少可以微调Chinchilla（700亿参数，DeepMind出品）这种规模和质量的模型，现在复旦做到了这一点。

　　单机微调650亿参数大模型

　　论文的主要贡献LOMO（Low-Memory Optimization）优化器，想要解决的是有限资源条件下，大模型全参数微调的难题。

　　研究人员指出，在训练大语言模型的过程中，优化器状态占用了大部分内存。比如Adam，就会把中间状态存储下来，而这些状态的大小能达到参数大小的2倍。

　　因此，复旦团队的优化思路是这样的：

　　第一步，从算法角度重新思考优化器的功能。由于SGD（随机梯度下降）不存储任何中间状态，因此这是一个很好的替代方案。问题在于，SGD中梯度计算和参数更新是分开执行的，仍可能会导致梯度张量过大，内存使用率高。

　　于是，研究人员提出了LOMO，将梯度计算和参数更新合二为一，避免存储任何梯度张量，以减少内存占用量。

　　为了稳定LOMO的混合精度训练，研究人员还采取了以下步骤。

　　梯度归一化：将梯度应用于模型参数之前，对梯度进行归一化。

　　损失缩放：在计算梯度之前，用损失函数乘以缩放系数。

　　在训练期间将某些计算转换为全精度

　　研究人员分析了使用不同优化器的训练过程中，模型状态和激活的内存使用情况。

　　可以看到，与AdamW相比，LOMO的内存占用从102.20GB降低到了14.58GB。

　　吞吐量测试的结果则显示，在配备8块RTX 3090显卡的服务器上，LOMO可以hold得住LLaMA 65B的训练。

　　研究人员提到，使用这样的服务器配置和LOMO，在1000个样本上进行训练，每个样本包含512个token，训练时间大约为3.6小时。

　　研究人员还在SuperGLUE基准测试上，比较了LOMO与Zero-shot、LoRA的下游任务性能。

　　结果显示，在6个数据集和不同大小模型中，LOMO的表现均好于Zero-shot。在大部分实验中，LOMO的表现优于LoRA。

　　当然啦，尽管在大模型训练中，8块3090并不是高配，但对于普通人来说，还是有点不亲民。

　　有不少网友就吐槽说：8块3090还能叫资源有限吗？

　　不过，也有人认为，这仍然是个好消息。

　　虽然不太可能拥有这样的服务器配置，但租这个配置的机器也不算贵。

　　另一边，研究人员也坦承了论文的局限性，并表示将进一步降低训练大语言模型的资源门槛。

　　目前，使用LOMO训练时，大部分内存被参数占用。因此，一个有前景的方向是探索参数量化技术，这可能会大大减少内存使用。

　　LOMO一作吕凯，是论文通讯作者、复旦大学计算机科学技术学院邱锡鹏教授门下的硕士生。本科同样毕业于复旦大学。

　　此前，复旦开源的MOSS大模型，正是来自邱锡鹏团队。

　　论文地址：https://arxiv.org/abs/2306.09782

　　项目地址：https://github.com/OpenLMLab/LOMO

　　国赛即将来临，以赛辅练，更进一步提升专业能力，这个竞赛千万别错过！

　　国家一级协会主办，专家一对一辅导

　　2023年第四届“华数杯”全国大学生数学建模竞赛正在报名中！

　　竞赛信息

　　为了培养学生的创新意识及运用数学方法和计算机技术解决实际问题的能力，中国未来研究会大数据与数学模型专业委员会、天津市未来与预测科学研究会决定举办华数杯全国大学生数学建模竞赛。竞赛的目标是为培养大学生的科学精神及运用数学解决实际问题的能力，为创新性人才的培养奠定基础，为各行各业培养和选拔优秀的人才。

　　组织单位

　　中国未来研究会大数据与数学模型专业委员会

　　天津市未来与预测科学研究会

　　华数杯数学建模竞赛组委会

　　组委会官方文件

　　竞赛报名

　　扫描下方二维码进行报名：

　　或复制下方链接进行报名：

　　https://www.saikr.com/vse/chinamcm/202301

　　参赛对象

　　1、竞赛分为研究生组、本科生组和专科生组三组进行。

　　2、参赛队由队员（1-3名大学生）和指导教师（最多1名，可以没有）组成，以参赛队为单位进行报名。

　　3、组别由队伍中队员的最高学历定组。

　　时间安排

　　报名时间：

　　从即日起至2023年8月3日12:00；

　　比赛时间：

　　2023年8月3日（周四）18:00至8月6日（周日）20:00

　　结果公布时间：

　　预计2023年8月中下旬；

　　辅导时间：

　　2023年5月5日至9月5日（报名后即可参与辅导）

　　大赛奖项

　　1、全国一等奖：不超过报名队数的10%，荣誉证书；

　　2、全国二等奖：不超过报名队数的20%，荣誉证书；

　　3、全国三等奖：不超过报名队数的30%，荣誉证书；

　　4、优秀奖：若干支，荣誉证书；

　　以上奖项均可获得国家一级协会官方盖章的获奖证书

　　5、优秀指导老师

　　6、优秀组织单位

　　7、优秀志愿者

　　大赛福利

　　1.竞赛题目分为A题、B题、C题三个赛题，题目类型及难度均和国赛类似。赛后将开设报名同学专属赛题解析讲座，分别对本次竞赛赛题进行讲解。

　　并对每份参赛作品给出50-100字的详细的书面评价，指出论文中的优缺点。帮助各位同学快速提高参赛思维与科技论文写作水平，冲击国赛更高奖项。

　　2.特邀数学建模比赛优秀指导老师（常年负责美赛、国赛试卷评阅工作），在2023年5月5日至9月5日期间，通过竞赛专属学习群对每位参赛者进行全程数学建模技术指导，一对一进行答疑，任何数学建模相关的问题都可以与辅导老师进行沟通。

　　3.组委会特邀国赛指导老师开设公开讲座，帮助大家充分理解赛题，提升自己。

　　大赛交流

　　参赛群2：665629675

　　邮箱：huashubei01@163.com

　　BONUS TIME

　　数学建模资料、视频讲解、历年赛题

　　后台回复【校苑】领取

　　推荐阅读（点击下方图片即可跳转）