跳到主要内容
极客日志极客日志
首页博客AI提示词GitHub精选代理工具
搜索
|注册
博客列表
编程语言AI算法

ELMo 模型详解:从架构到预训练与多义词处理

ELMo 是一种由华盛顿大学提出的预训练语言模型,全称 Embeddings from Language Models。其核心在于通过双向双层 LSTM 网络生成上下文相关的词向量,解决了传统 Word2Vec 和 GloVe 静态词向量无法区分多义词的问题。模型采用两阶段过程:先利用大规模语料预训练语言模型,再在下游任务中融合各层输出作为新特征。实验表明,ELMo 在多个 NLP 任务上性能显著提升,尤其在语义关系判断和阅读理解方面。尽管相比后续 Transformer 架构在特征提取能力上有所不足,但 ELMo 开启了上下文动态词向量的先河,对自然语言处理领域影响深远。

草莓泡芙发布于 2026/3/30更新于 2026/4/241 浏览
ELMo 模型详解:从架构到预训练与多义词处理

ELMo 简介

ELMo(Embeddings from Language Models)是 2018 年 3 月由华盛顿大学提出的一种预训练语言模型,其核心论文为《Deep Contextualized Word Representations》。传统的词向量如 Word2Vec 和 GloVe 都是上下文无关的静态向量,无法区分多义词。例如'apple'在不同语境下分别指代水果或公司,但固定向量难以捕捉这种差异。ELMo 通过构建上下文相关的预训练模型,在 6 个 NLP 任务上均取得了性能提升。

ELMo 的架构

宏观来看,ELMo 主要由三个核心模块构成:最底层的 Embedding 模块、中间层的双向双层 LSTM 模块,以及最上层的词向量表征模块。

总体架构

架构图

Embedding 模块

最底层采用 CNN 对字符级进行编码,生成静态的词嵌入向量作为网络输入。这一步本质上是获取一个基础的词表示。

两部分的双层 LSTM 模块

这是 ELMo 的核心。架构分为左侧的前向 LSTM 和右侧的反向 LSTM。与传统做法不同,ELMo 只预训练一个语言模型,而 word embedding 是根据输入句子实时生成的。这意味着单词的嵌入向量天然包含了上下文信息。

对于左半部分,给定 N 个 tokens (t1, t2, ..., tN),语言模型利用前 k-1 个位置的 token 序列计算第 k 个 token 出现的概率,构成前向双层 LSTM。

前向 LSTM

同理,右半部分利用后 N-k 个位置的 token 序列计算第 k 个 token 的概率,构成后向双层 LSTM。

后向 LSTM

训练目标函数即最大化上述序列的概率。

目标函数

词向量表征模块

由于 ELMo 是语言模型,每个 token 通过 L 层双向 LSTM 网络可计算出 2L+1 个表示向量:包括最底层的 CNN 编码结果、前向 LSTM 的 L 层输出、以及后向 LSTM 的 L 层输出。

向量组成

虽然得到了 2L+1 个向量,但我们需要每个 token 对应一个向量。最简单的方法是取最上层输出,但更通用的做法是引入参数融合所有层信息:

融合公式

该公式意为给 2L+1 个向量分别加上权重稀疏系数,融合成一个向量后再乘以系数得到最终词向量。原始论文指出,这个前置系数在不同任务中取值差异较大,例如在 SQuAD 任务中设为 0.01 优于 1。维度方面,初始嵌入为 512 维,双向 LSTM 每层输出 1024 维,融合后最终向量维度为 1024。

ELMo 的预训练任务

本质思想

ELMo 的本质是利用语言模型学习单词的 word embedding。虽然初始状态无法区分多义词,但在实际使用时,根据当前上下文动态调整 embedding 表示,使其能准确表达单词在当前语境下的真实含义。

两阶段过程

第一阶段:语言模型预训练

回到总体架构,网络采用双层双向 LSTM。任务目标是预测单词 Wi,Wi 之前的序列称为上文,之后的称为下文。左侧前向编码器处理上文,右侧反向编码器处理下文,深度均为 L=2。

当输入新句子时,每个单词可获得 3 个 embedding 向量:

  1. 最底层单词的 word embedding。
  2. 第一层双向 LSTM 中的 embedding,侧重句法信息。
  3. 第二层双向 LSTM 中的 embedding,侧重语义信息。

这一阶段不仅学会了 word embedding,还训练好了一个双层双向 LSTM 网络,两者均为后续使用的基础。

第二阶段:下游任务调整

以 QA 任务为例,将问句 X 输入预训练好的 ELMo 网络,获得每个单词的 3 个向量。赋予各自权重 a(可学习或平均),加权求和后整合成词向量,作为新特征补充进下游任务网络。回答 Y 同样处理。这类方法被称为"Feature-based Pre-Training"。

ELMo 模型的效果

ELMo 有效解决了多义词问题。对比 GloVe 训练的静态 embedding,对于多义词 play,GloVe 找出的近义集合几乎全在体育领域,受训练数据分布影响明显。而 ELMo 经过上下文动态调整后,不仅能找到对应'演出'含义的句子,还能保证词性一致,效果超出预期。

原始论文显示,ELMo 在 6 个主流 NLP 任务(如句子语义关系判断、分类、阅读理解等)中均有提升,最高达 25%。

ELMo 的待改进点

尽管相比 Word2Vec 和 GloVe 有显著提升,ELMo 仍存在局限:

  1. 特征提取器选择:ELMo 使用双向双层 LSTM,而非后来的 Transformer。在特征提取能力上,LSTM 弱于 Transformer。若当时选用 Transformer,后续 BERT 的影响力或许会有所不同。
  2. 特征融合方式:ELMo 采用双向拼接融合,不如 BERT 的一体化双向提取特征高效。

小结

  • 定义:ELMo 是 2018 年华盛顿大学提出的预训练语言模型,在 6 种 NLP 任务中表现优异。
  • 结构:采用双向双层 LSTM,包含 Embedding 层、LSTM 层及特征融合层。
  • 预训练:分两阶段,先预训练语言模型获取基础向量和网络,再在下游任务中提取上下文相关特征。
  • 效果:相比静态词向量,ELMo 能更好表达真实语义,解决多义词问题。
  • 局限:未采用 Transformer 架构,特征提取能力弱于后续模型。

总结图

结尾图

目录

  1. ELMo 简介
  2. ELMo 的架构
  3. 总体架构
  4. Embedding 模块
  5. 两部分的双层 LSTM 模块
  6. 词向量表征模块
  7. ELMo 的预训练任务
  8. 本质思想
  9. 两阶段过程
  10. ELMo 模型的效果
  11. ELMo 的待改进点
  12. 小结
  • 💰 8折买阿里云服务器限时8折了解详情
  • 💰 8折买阿里云服务器限时8折购买
  • 🦞 5分钟部署阿里云小龙虾了解详情
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog

更多推荐文章

查看全部
  • 哈希表原理详解:从哈希函数到冲突解决的 C++ 实现
  • 通义千问2.5-7B代码生成能力评测:与GitHub Copilot对比
  • AIGC 时代如何利用 DeepSeek 辅助孩子系统学习编程
  • 国内主流 AI 工具对比:豆包、元宝、千问、Kimi、DeepSeek、MiniMax、GLM
  • AIGC 本地部署硬件配置要求与推荐主机清单
  • 开源 IPTV 播放器 IPTVnator 功能与使用指南
  • 大语言模型(LLM)学习路径与核心资源指南
  • 国产 AI 编程助手全景:Claude Code 平替方案与成本差异
  • 双指针专题:复写零问题模拟
  • C++ STL 容器:基于红黑树模拟实现 map 和 set
  • 大模型 AI 产品经理全学习路线:从基础到实战
  • 字符编码原理与系统乱码问题解析
  • 2026 年 3 月 20 日人工智能产业动态与前沿趋势
  • C++ 精灵库相对运动动画演示:葫芦娃飞向太空
  • FastAPI:Python 高性能 Web 框架核心特性解析
  • AI 绘画报错:CheckpointLoaderSimple 模型缺失解决方案
  • 前端 Promise 详解:从原理到面试实战
  • 基于 Coze 构建小红书视频抓取并同步飞书多维表的智能体工作流
  • Windows 笔记本使用 LLaMA-Factory 微调 Qwen2.5-3B-Instruct 实战指南
  • 数据结构:树与堆

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online