AI:词向量模型详解(Word Embedding)

张开发
2026/4/9 4:26:28 15 分钟阅读

分享文章

AI:词向量模型详解(Word Embedding)
词向量模型详解Word Embedding词向量Word Embedding是自然语言处理NLP中最基础且影响深远的表示学习方法之一。它将离散的词汇映射为低维、稠密的实数向量使计算机能够“理解”词语之间的语义与句法关系。以下从核心思想、经典模型、训练机制、评估方法、局限性到现代演进进行系统梳理。一、 为什么需要词向量表示方式维度稀疏性能否表达相似性计算效率One-Hot词表大小常10万极高❌ 任意两词正交低共现矩阵降维LSA/SVD可降维降低✅ 依赖人工窗口/权重中词向量分布式表示50~300极低✅ 向量距离/夹角反映语义高核心假设Distributed Representation分布式表示“一个词的含义由其上下文决定。”Firth, 1957语义相似的词在语料中出现的上下文模式相似因此在向量空间中距离更近。二、 经典词向量模型1. Word2VecMikolov et al., 2013基于局部上下文预测的无监督学习框架包含两种架构架构输入输出特点CBOW上下文词向量平均中心词训练快对常见词友好Skip-gram中心词上下文词对罕见词更鲁棒效果通常更好关键优化技术负采样Negative Sampling将VVV分类问题转化为k1k1k1个二分类问题kkk通常取 5~20大幅降低 softmax 计算量。层次 SoftmaxHierarchical Softmax基于霍夫曼树组织词表将计算复杂度从O(V)O(V)O(V)降至O(log⁡V)O(\log V)O(logV)。子采样Subsampling对高频词如the,is进行概率丢弃缓解词频分布极度不均衡问题。2. GloVeGlobal Vectors, Pennington et al., 2014思想融合全局统计信息与局部上下文预测。先构建词-词共现矩阵XXXXijX_{ij}Xij​表示词iii和词jjj在窗口内共现次数再优化以下目标J∑i,jf(Xij)(wi⊤w~jbib~j−log⁡Xij)2 J \sum_{i,j} f(X_{ij}) \left( \mathbf{w}_i^\top \tilde{\mathbf{w}}_j b_i \tilde{b}_j - \log X_{ij} \right)^2Ji,j∑​f(Xij​)(wi⊤​w~j​bi​b~j​−logXij​)2f(x)f(x)f(x)为加权函数xxmaxxx_{max}xxmax​时(x/xmax)α(x/x_{max})^\alpha(x/xmax​)α否则111抑制极高频/低频共现噪声优点充分利用全局语料统计在词类比Analogy任务上常优于 Word2Vec。3. FastTextBojanowski et al., 2016核心改进引入**子词Subword / Character n-gram**信息。将词where拆分为wh,whe,her,ere,re以,标记边界词向量 所有 n-gram 向量之和 完整词向量优势有效解决 OOV未登录词问题对形态丰富的语言德语、土耳其语、阿拉伯语等效果显著提升训练速度极快常用于轻量级文本分类三、 训练流程与超参数预处理分词 → 构建词表 → 过滤低频词 → 构建训练对CBOW/Skip-gram或共现矩阵GloVe关键超参数dim向量维度50/100/200/300window上下文窗口大小通常 5~10negative负采样数量5~20epochs训练轮数5~20min_count最低词频阈值通常 5常用工具Gensim,fasttextPython库,TensorFlow/PyTorch自定义实现四、 评估方法类型任务指标说明内在评估Intrinsic词相似度WordSim-353, MC, RGSpearman/Pearson 相关系数衡量向量空间是否对齐人类语义判断词类比Analogy: A:B :: C:?准确率测试向量是否支持线性语义关系如 king-manwoman≈queen外在评估Extrinsic作为下游任务输入特征分类、NER、MT等任务指标F1, Acc, BLEU等更贴近实际应用但受模型/数据影响大⚠️ 注意内在指标高 ≠ 下游任务一定好。静态词向量无法区分多义词复杂任务中可能被上下文模型超越。五、 局限性与现代演进静态词向量的根本缺陷一词一义无法处理多义词如“苹果”公司 vs 水果“打”电话 vs 打篮球上下文无关同一词在任何句子中向量固定长程依赖弱仅依赖局部窗口难以捕捉句法/篇章结构向上下文表示的演进模型年份核心思想是否静态ELMo2018双向 LSTM 动态生成词向量✅ 动态BERT2018Transformer MLM 预训练✅ 动态RoBERTa / DeBERTa / 大语言模型2019~更大规模 更优训练策略✅ 动态现状2026传统静态词向量在工业界已逐步被上下文感知表示LLM Embeddings取代但在以下场景仍有价值资源受限/边缘设备部署需要高度可解释性的规则系统领域词表极小、无需上下文建模的任务作为大模型微调前的轻量化基线六、 实用建议选型指南通用中文GloVe-wiki-zh或Word2Vec-Baike多语言/形态复杂语言FastText-cc系列需要动态语义直接使用sentence-transformers或开源 LLM 的 token embeddings注意事项不同模型/语料训练的向量空间不可直接混用需对齐如VecMap领域偏移严重时建议在目标语料上继续训练gensim.models.word2vec.Word2Vec.build_vocab(updateTrue)向量维度并非越高越好需与下游任务数据量匹配七、 总结词向量通过分布式表示将离散符号转化为可计算的几何空间是 NLP 从“规则驱动”迈向“数据驱动”的关键转折点。Word2Vec、GloVe、FastText 等模型虽架构不同但共享同一哲学从共现或预测中学习语义。尽管静态词向量已被上下文模型超越其核心思想负采样、子词建模、低维流形假设仍深刻嵌入现代大语言模型的 Embedding 层与训练范式中。

更多文章