如何系统入门大模型微调并进行相关的实践?

张开发
2026/4/15 21:33:15 15 分钟阅读

分享文章

如何系统入门大模型微调并进行相关的实践?
网上大模型微调的资料非常多但大多数材料只涉及如何调用成熟的依赖包没有讲清楚为什么这样干以及微调的由来。下来我将通过尽量通俗的易懂的话阐述大模型微调的由来带你系统性入门大模型微调。首先要说的是要想入门大模型微调不是简单网上调个包就可以了。建议系统了解Prompt-Tuning、P-tuning、P-Tuning v2、Lora等微调方法以及原理。要明白在ChatGPT出来之前GPT这套技术方案并不是行业主流。各大公司都在使用Google提出的BERT作为预训练模型。那么GPT和BERT有什么区别呢GPT的训练目标是做词语接龙。其在预训练阶段的目标很简单根据上文序列预测下一个词token。具体示意图如下所示。BERT的训练目标是做完形填空。BERT在预训练阶段使用了两个任务遮挡语言模型MLM和下一句预测NSP。MLM任务通过在输入文本中随机遮挡一些词汇将遮挡的词汇重置为[MASK]并预测[MASK]帮助模型学会理解双向上下文。NSP任务则让模型学会判断两个句子是否是连续的。GPT、BERT预训练完成后还需适配下游任务。比如我想将BERT预训练模型用于垃圾广告分类需在输入[CLS]token对应输出位置1处额外配置一个Classifer网络用于分类。具体示意图如下所示。从上面的区别可以看出BERT适用于各种自然语言理解NLU任务如情感分析、命名实体识别、问答等。它通常作为一个特征提取器来为下游任务提供表示。而GPT由于其“词语接龙”的特性更擅长文本生成。在OpenAI尚未大力出奇迹的时候行业内的通识均是“特征提取下游任务适配”并不相信GPT大量“词语接龙”会产生“智能涌现”。具体大模型微调思维导图如下所示。要想入门大模型微调不是简单网上调个包就可以了。建议系统了解Prompt-Tuning、P-tuning、P-Tuning v2、Lora等微调方法以及原理。1.全参数微调顾名思义大模型所有参数都要参加微调。看图2这个例子。如果需要全参数微调BERTClassifer中所有参数均参加反向传播。因为全参数微调更新力度大计算成本高且效果未必有保障所以固定大部分预训练参数只微调少数参数的部分微调是目前更为热门的选择。2.部分微调2.1 传统微调如图2所示更新Classifer中的参数即可。当然图2只是举一个分类的例子传统微调在NLU任务中应用不仅仅包含分类任务还有文本匹配、实体识别、摘要生成等。均可通过“预训练模型下游任务适配器”这种模式预训练模型参数不动更新适配器中的参数来完成对下游任务迁移。GPT2早期也是“预训练模型下游任务适配器”这种模式。但是这种微调方式存在一个很严重的问题小样本场景过拟合。因此引入了Prompt-Tuning。2.2 Prompt-Tuning(广义上的)大家都了解提示工程一个好的提示工程模板能够最大限度激发大模型的潜力。而Prompt的目的是将下游任务目标转换为预训练的任务。如何理解这句话呢?我们依然以二分类的垃圾邮件分类作为例子描述Prompt-tuning的工作原理。给定一个句子[CLS] I like the Disney films verymuch.[SEP]传统的Fine-tuning方法是将其通过BERT的Transfomer获得[CLS]表征之后再引入新增加的MLP分类器进行二分类预测该句子是积极的(positive)还是消极的(negative)因此需要一定量的训练数据来训练。而Prompt-Tuning则执行如下步骤:1.构建模板(Template construction)通过人工定义、自动搜索、文本生成等方法生成与给定句子相关的一个含有[MASK]标记的模板。例如 It was [MASK].并拼接到原始的文本中获得Prompt-Tuning的输入:[CLS]I like the Disney films verymuch.[SEP]It was [MASK].[SEP]。将其喂入BERT模型中并复用预训练好的MLM分类器即可直接得到[MASK]预测的各个token的概率分布;2.标签词映射(Label Word Verbalizer)因为[MASK]部分我们只对部分词感兴趣因此需要建立一个映射关系。例如如果[MASK]预测的词是“great”则认为是positive类如果是“terrible”则认为是negative类。因此在prompt-tuning中如何构建模板pattern以及如何构建标签词映射Verbalizer是研究的热点也衍生出许多研究方向。2.2.1与pattern相关的方法2.2.1.1 手动构造pattern现在大模型许多提示工程模板设计均是利用手动构造pattern。比如我想要求大模型写一篇小说我会生成一个让大模型角色扮演小说家的模板。例如 我想让你扮演一个小说家。您将想出富有创意且引人入胜的故事可以长期吸引读者。并拼接到原始的文本中获得大模型输入:我想让你扮演一个小说家。您将想出富有创意且引人入胜的故事可以长期吸引读者。主题为一个历史学家穿越到秦朝的故事。将其喂入大模型中。不过需要注意的是目前大模型参数数量通常超过100亿。在Language Models are Few-Shot Learners这篇论文系统论证了扩展大语言模型参数可以大大提高与任务无关的少样本性能有时甚至可以与之前最先进的微调方法相媲美。因此现在大模型很多情况下都是手动构造pattern就能取得很好的效果。但是之前模型参数量比较小的时候prompt直接用效果会下降因此还需要考虑微调。prompt-tuning可以分为三大块分别为启发式构造pattern、自动生成pattern和伪标记法构造pattern。重点为伪标记法构造pattern其中涉及Prompt-Tuning、P-tuning、prefix tuning、P-Tuning v2。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多文章