[具身智能-315]:大语言模型(LLM)处理文本的全过程

张开发
2026/4/10 3:44:47 15 分钟阅读

分享文章

[具身智能-315]:大语言模型(LLM)处理文本的全过程
大语言模型LLM处理文本的全过程可以形象地理解为一个“先并行读懂输入再逐个生成输出”的两阶段过程。为了让你更清晰地理解我们将以用户提问“你好请介绍一下大模型”为例完整走一遍这个流程。 第一阶段输入与预处理当你输入一段文字Prompt模型并不能直接理解这些汉字。它需要先将文本转换成自己能处理的数字形式。分词 (Tokenization)模型会利用一个预定义的“词表”将你的输入文本切割成更小的单元这些单元被称为Token。一个 Token 可以是一个字、一个词甚至是一个词的一部分。举例你的输入 “你好请介绍一下大模型” 可能被切分为[你好, , 请, 介绍, 一下, 大, 模型]。转换为ID (Token to ID)分词后模型会通过查表将每个 Token 映射成一个唯一的整数编号即Token ID。举例你好 → 177519, → 11,大 → 1640。此时你的文本已经变成了一串纯数字序列[177519, 11, 1640, ...]。 第二阶段理解与编码 (Prefill)这一阶段是模型“思考”和“理解”你问题的过程在工程上被称为预填充 (Prefill)。向量化 (Embedding)模型将上一步得到的Token ID 序列转换成高维的向量一长串数字。这个向量是词语的数学表示语义相近的词如“猫”和“狗”其向量在数学空间中的距离也会很近。同时模型还会加入位置编码让它知道每个词在句子中的先后顺序。举例ID177519对应“你好”被转换成一个包含数千个数字的向量如[0.02, -0.15, 0.88, ...]。核心计算 (Transformer Self-Attention)这些向量被并行送入模型的核心——由数十甚至上百层Transformer模块堆叠而成的深度神经网络。在这里自注意力机制 (Self-Attention)开始工作。作用它让模型能够分析输入文本中所有词之间的关系理解上下文。例如在处理“大模型”时模型通过注意力机制可以知道“大”是用来修饰“模型”的而不是一个独立的形容词。结果经过层层计算模型完全理解了你的问题并将所有关键信息压缩、缓存下来这个过程称为KV Cache为下一步生成回答做好了准备。✍️ 第三阶段生成与输出 (Decode)这是模型开始“回答”你的阶段它是一个循环往复的自回归过程即根据已有的内容预测下一个内容。预测下一个Token (Next Token Prediction)基于已经理解的全部上下文模型会计算词表中所有可能的 Token 作为下一个词的概率。举例模型可能计算出下一个词是“大”的概率是30%是“我”的概率是25%等等。然后它会根据一定的策略如选择概率最高的挑出一个 Token。循环生成 (Autoregressive Generation)模型将刚刚选出的新 Token 添加到已有的序列中然后再次重复第一步的预测过程计算再下一个 Token 的概率。举例这个过程就像一个接龙游戏模型不断地根据上文预测并生成下一个 Token直到生成一个代表“结束”的特殊 Token或者达到预设的长度限制。这就是为什么你会看到模型的回答是一个字一个字“吐”出来的。解码与后处理 (Decoding Post-processing)在生成每个 Token ID 后模型会通过查表与第1阶段的查表相反将数字 ID 转换回人类可读的文本 Token。举例56568 → 我。最后这些 Token 被拼接起来经过简单的格式优化最终呈现给你。

更多文章