Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification 论文研读

Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification 论文研读

0. 个人浅谈

Attention是在2014年提出的(paper为:Recurrent Models of Visual Attention,下载地址为https://papers.nips.cc/paper/5542-recurrent-models-of-visual-attention.pdf),而本文的发表时间是在2016年,它是ACL会议(NLP国际顶级会议之一)的录用论文(具有一定的研究意义),显而易见的是它是把attention应用到到NLP的关系抽取中的一个成功实践。所以对于AI学习者而言,学习最新的技术,然后将其应用到自己所在的工作领域,这是一件非常有趣的事情。

1. 摘要

关系抽取是自然语言处理领域中一个非常重要的语义处理任务(除了语义处理,还有其他任务吗?)。然而,已有的系统使用词法资源(如WordNet)或者依赖于解析器和命名实体识别获得的高级特征。另外一个挑战是,重要的信息可能出现在句子中的任意位置。为了解决这些问题,我们提出了基于注意力机制的LSTM网络,从而可以获取句子中最重要的语义信息。我们采用的实验数据是SemEval-2010关系分类任务数据,实验结果表明我们的方法优于现有的方法。

2. 引言

关系分类是寻找名词对之间的语义关系任务,它对于很多NLP应用都很有用,例如信息提取、知识问答。例如,下面的句子包括了Flowers和chapel的实体对。

⟨e1⟩ Flowers ⟨/e1⟩ are carried into the ⟨e2⟩ chapel ⟨/e2⟩.

其中⟨e1⟩, ⟨/e1⟩, ⟨e2⟩, ⟨/e2⟩ 是位置的标识符,它标识了实体的开始和结束。传统的关系分类是从词法资源中构造手工造特征,然后进行模式匹配,它的效果还可以。该方法的问题在于,很多的NLP系统提取了一些高级特征,例如词性标注、最短依赖路径、命名实体识别,但这会导致计算成本和误差的增大。另外一个缺点在于,手造特征不仅耗时,而且通用性较差。最近,部分研究者采用了深度学习方法,从而降低了手造特征的数量。然而这些方法还是使用了词法资源,例如WordNet或者其他高级特征。本文提出了一种新型的网络结构,从而可用于关系分类。该方法不需要任何词法资源。

本文的贡献在于自动提取重要的单词,而没有应用额外的知识和NLP系统。在SemEval-2010第八个任务的数据集上进行实验,F1 score为84%,超过了现有的方法。

3. 相关工作

这些年来,产生了各种用作关系分类的方法。大多数的是采用模式匹配的方法,并且利用了额外的NLP系统去提取词法特征。其中一个方法是由Rink and Harabagiu在2010年提出的,该方法是从其他语料库提取多个特征,然后使用SVM进行分类。

近些年来,深度神经网络自动学习特征,并且在各种文献中使用。最有代表性的是由Zeng在2014年提出的,他使用CNN进行关系分类。 然而CNN不太适合用来学习长距离的语义信息,因此我们的方法是基于RNN。

其中和RNN相关的一个工作是由 Zhang和Wang在2015年提出的,使用双向RNN从原始文本数据中提取特征。尽管双向RNN可以提取双向的上下文信息,但它容易产生梯度消失的问题。为了克服这个问题,在1997年,Hochreiter和Schmidhuber提出了长短期记忆网络。

在2015年Yan也提出了SDP-LSTM模型。该模型利用了两个实体的最短依赖路径,沿着该路径使用LSTM单元提取异构信息。然而我们的方法针对的是原始文本数据。

而我们的工作是基于Zhang提出的双向LSTM模型。该模型利用了NLP的工具和词法资源去获取单词、位置、词性标注、命名实体识别、依赖解析和上位词特征,然后输入到LSTM单元,最终实现了很好的效果。然而他提出的特征过于复杂,而我们的方法把四个位置标志( ⟨e1⟩,⟨/e1⟩,⟨e2⟩,⟨/e2⟩ )作为单独的词,并且把所有的词表示成词向量,虽然简单但效果也很好。

4. 模型

www.zeeklog.com - Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification 论文研读


在本节中,我们提出了基于注意力机制的双向LSTM模型。该模型包括5个组成部分:

  1. 输入层:将句子输入模型。
  2. 嵌入层:把每个词映射到低维的向量。
  3. LSTM层:使用双向LSTM逐步获取高级特征。
  4. 注意力层,产生一个权重向量,然后通过把权重向量和每个时间步长的词特征相乘,合并为句子级别的特征向量。
  5. 输出层,句子级别的特征向量最终用来特征分类。

4.1 Word Embeddings

给定一个由若干个词组成的序列,将每个词转换成一个实数向量。通过查表得到句子的嵌入矩阵 W w r d W^{wrd} Wwrd。该矩阵W是学习的参数,每个词词嵌入的维度是一个超参数,需要用户提前指定。我们把每个单词 x i x_i xi​ 转换为词嵌入 e i e_i ei​,是通过矩阵向量运算得到的。
 e i = W w r d v i e_i = W^{wrd}v_i ei​=Wwrdvi​
其中 v i v_i vi​是一个独热向量,只在 e i e_i ei​的位置为1,其它位置均为0。所以句子可以表示为向量 e m b s = { e 1 , e 2 , … , e T } emb_s=\{e_1,e_2,\dots,e_T\} embs​={e1​,e2​,…,eT​}。

4.2 双向LSTM网络

LSTM单元是由Hochreiter和Schmidhuber在1997年提出的,它是为了解决梯度消失的问题(并不能解决梯度爆炸的问题)。它的主要想法是采用适应门机制,它决定LSTM单元保持之前状态和从当前输入数据从提取特征的程度。有很多LSTM的变种也被提出了,如GRU,它是把输入门和遗忘门合并为了一个门。
具体步骤就不做阐述了,可参考链接https://blog.ZEEKLOG.net/herosunly/article/details/89554214 。值得注意的是,最终是把双向LSTM的输出加到了一起。

4.3 Attention

基于注意力机制的神经网络在很多任务中都取得了极大的成功,如知识问答,机器翻译等。在这个小节中,我们提出了关系分类任务中的注意力机制。假设H是由LSTM产生的多个向量组成的,即 H = [ h 1 , h 2 , … , h T ] H = [h_1,h_2,\dots,h_T] H=[h1​,h2​,…,hT​],其中T是句子的长度(Pytorch文档中RNN的输出维度为output of shape (seq_len, batch, num_directions * hidden_size,其中seq_len指代的就是句子的长度)。句子的表示是由这些输出向量的加权和。
 M = t a n ( H ) M = tan(H) M=tan(H)  α = s o f t m a x ( W T M ) \alpha =softmax(W^TM) α=softmax(WTM)  r = H α T r=H\alpha^T r=HαT
我们获取句子级别的特征用来进行分类:
 h ∗ = t a n h ( r ) h^∗ = tanh(r) h∗=tanh(r)

4.4 分类

采用softmax计算每个类别的概率,并以概率最大的作为预测的关系。在本文中,我们采用L2正则化和dropout去缓解过拟合。

5. 实验

5.1 实验数据说明

实验数据为SemEval-2010第八个任务的数据集。该数据集包括了9种关系。包括了10,717个数据,其中8000个句子用于训练,而2717个数据用于测试。评价指标为F1,并且考虑关系的方向性。

采用了50维的词向量和100维的词向量分别进行测试。其中50维向量是为了和Zhang、Wang (2015)的工作进行比较,它是由Turian在2010年提出的,然后将它作为嵌入层的初始化。

由于没有官方提供的验证集,我们随机选取800个句子进行验证。超参数是在验证集中进行搜索得到的。我们的模型所使用的是AdaDelta优化方法,并且学习率为1.0,batch size为10。L2正则化的强度为10^-5。其它的参数是随机初始化产生的。

5.2 实验结果

www.zeeklog.com - Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification 论文研读

6. 结论

在本篇论文中,我们提出了一个新的神经网络模型,用来进行分类。该模型不依赖NLP工具或者其它的词法资源,使用的是原始的文本数据和位置标识作为输入。

Read more

最新电子电气架构(EEA)调研-3

而新一代的强实时性、高确定性,以及满足CAP定理的同步分布式协同技术(SDCT),可以实现替代TSN、DDS的应用,且此技术已经在无人车辆得到验证,同时其低成本学习曲线、无复杂二次开发工作,将开发人员的劳动强度、学习曲线极大降低,使开发人员更多的去完成算法、执行器功能完善。 五、各大车厂的EEA 我们调研策略是从公开信息中获得各大车厂的EEA信息,并在如下中进行展示。 我们集中了华为、特斯拉、大众、蔚来、小鹏、理想、东风(岚图)等有代表领先性的车辆电子电气架构厂商。        1、华为 图12 华为的CCA电子电气架构              (1)华为“计算+通信”CC架构的三个平台                         1)MDC智能驾驶平台;                         2)CDC智能座舱平台                         3)VDC整车控制平台。        联接指的是华为智能网联解决方案,解决车内、车外网络高速连接问题,云服务则是基于云计算提供的服务,如在线车主服务、娱乐和OTA等。 华

By Ne0inhk
Apache IoTDB 架构特性与 Prometheus+Grafana 监控体系部署实践

Apache IoTDB 架构特性与 Prometheus+Grafana 监控体系部署实践

Apache IoTDB 架构特性与 Prometheus+Grafana 监控体系部署实践 文章目录 * Apache IoTDB 架构特性与 Prometheus+Grafana 监控体系部署实践 * Apache IoTDB 核心特性与价值 * Apache IoTDB 监控面板完整部署方案 * 安装步骤 * 步骤一:IoTDB开启监控指标采集 * 步骤二:安装、配置Prometheus * 步骤三:安装grafana并配置数据源 * 步骤四:导入IoTDB Grafana看板 * TimechoDB(基于 Apache IoTDB)增强特性 * 总结与应用场景建议 Apache IoTDB 核心特性与价值 Apache IoTDB 专为物联网场景打造的高性能轻量级时序数据库,以 “设备 - 测点” 原生数据模型贴合物理设备与传感器关系,通过高压缩算法、百万级并发写入能力和毫秒级查询响应优化海量时序数据存储成本与处理效率,同时支持边缘轻量部署、

By Ne0inhk
SQL Server 2019安装教程(超详细图文)

SQL Server 2019安装教程(超详细图文)

SQL Server 介绍) SQL Server 是由 微软(Microsoft) 开发的一款 关系型数据库管理系统(RDBMS),支持结构化查询语言(SQL)进行数据存储、管理和分析。自1989年首次发布以来,SQL Server 已成为企业级数据管理的核心解决方案,广泛应用于金融、电商、ERP、CRM 等业务系统。它提供高可用性、安全性、事务处理(ACID)和商业智能(BI)支持,并支持 Windows 和 Linux 跨平台部署。 一、获取 SQL Server 2019 安装包 1. 官方下载方式 前往微软官网注册账号后,即可下载 SQL Server Developer 版本(

By Ne0inhk