如何选择网站建设公司百度搜国外服务器Wordpress
如何选择网站建设公司,百度搜国外服务器Wordpress,网站制作手机网站,网站开发英文术语构筑 AI 理论体系#xff1a;深度学习 100 篇论文解读
第十九篇#xff1a;序列建模的焦点——注意力机制 Attention Mechanism (2015)
I. 论文背景、核心命题与作者介绍 #x1f4a1;
在 2014 年#xff0c;Encoder-Decoder#xff08;编码器-解码器#xff09; 架构在神…构筑 AI 理论体系深度学习 100 篇论文解读第十九篇序列建模的焦点——注意力机制 Attention Mechanism (2015)I. 论文背景、核心命题与作者介绍 在2014 年Encoder-Decoder编码器-解码器架构在神经机器翻译NMT中取得了突破。这种架构使用一个 RNN通常是 LSTM 或 GRU将整个输入序列压缩成一个单一的固定长度向量Context Vector。当输入序列很长时这种信息瓶颈会导致翻译质量急剧下降。Dzmitry Bahdanau及其团队在 2015 年提出的注意力机制Attention Mechanism彻底解决了这个信息瓶颈问题。它允许解码器在每一步输出时动态地、有选择性地关注输入序列中的相关部分。核心作者介绍作者国籍机构2015 年时核心贡献Dzmitry Bahdanau白俄罗斯/加拿大University of Montreal (Yoshua Bengio 团队)注意力机制在机器翻译中的首次成功应用者。Kyunghyun Cho (赵竟玄)韩国University of MontrealGRU 的提出者注意力机制的共同贡献者。Yoshua Bengio加拿大University of Montreal深度学习三巨头之一。信息项详情论文题目Neural Machine Translation by Jointly Learning to Align and Translate发表年份2015 年出版刊物ICLR (International Conference on Learning Representations)核心命题如何取代传统的固定长度上下文向量让解码器在每一步生成输出时能够动态地关注输入序列中最相关的部分从而改善长序列的翻译质量II. 核心机制软对齐与动态上下文 ⚙️注意力机制的核心思想是实现软对齐Soft Alignment。它为输入序列的每个隐藏状态分配一个权重Attention Weight这些权重是动态计算的。1. 核心概念隐藏状态 (hhh)隐藏状态hth_tht是循环神经网络RNN、LSTM 或 GRU在处理序列数据时在时间步ttt产生的、对历史信息和当前输入进行概括的“记忆”。本质它是对**从序列开始到时间步ttt为止的所有历史信息上下文**的压缩表示。作用在 Encoder-Decoder 架构中编码器产生的一系列隐藏状态构成了输入序列的完整信息库解码器则使用自己的隐藏状态进行查询。关于隐藏状态数量的澄清隐藏状态的维度向量的宽度是一个超参数由开发者手动设置与句子长度和网络层数无关。但是隐藏状态的数量时间步ttt的总数是由输入序列的长度决定的如果输入句子有NNN个词则编码器将产生NNN个隐藏状态{h1,h2,…,hN}\{h_1, h_2, \dots, h_N\}{h1,h2,…,hN}。2. 关键输入与角色划分Q, K, V 概念映射在编码器-解码器架构中注意力机制工作的起点是输入序列信息键KKK和值VVV这是编码器处理输入句子后产生的所有时间步的隐藏状态Hencoder{h1enc,h2enc,…,hTxenc}H_{encoder} \{h_1^{enc}, h_2^{enc}, \dots, h_{T_x}^{enc}\}Hencoder{h1enc,h2enc,…,hTxenc}。当前查询信息查询QQQ这是解码器在生成第ttt个目标词时使用的前一个隐藏状态ht−1h_{t-1}ht−1。符号解释hench^{enc}henc:隐藏状态是编码器 RNN 单元在特定时间步输出的向量代表了历史信息的压缩记忆。HencoderH_{encoder}Hencoder: 编码器生成的所有隐藏状态的集合。TxT_xTx:输入序列的总长度即隐藏状态的总时间步数。3. 步骤一计算对齐分数Scoring/Energy目标是计算查询ht−1h_{t-1}ht−1与所有输入状态hiench_{i}^{enc}hienc的相关性或“匹配度”。计算使用对齐模型Score Function输出一个分数score(ht−1,hienc)\text{score}(h_{t-1}, h_{i}^{enc})score(ht−1,hienc)。公式解释ht−1h_{t-1}ht−1: 表示解码器的前一个时间步的隐藏状态查询QQQ。hiench_{i}^{enc}hienc: 表示编码器的第iii个时间步的隐藏状态键KKK/值VVV。4. 步骤二归一化与注意力权重的确定将所有分数转换成概率分布确保总和为 1。计算αtiexp(score(ht−1,hienc))∑j1Txexp(score(ht−1,hjenc))\alpha_{ti} \frac{\exp(\text{score}(h_{t-1}, h_{i}^{enc}))}{\sum_{j1}^{T_x} \exp(\text{score}(h_{t-1}, h_{j}^{enc}))}αti∑j1Txexp(score(ht−1,hjenc))exp(score(ht−1,hienc))结果αti\alpha_{ti}αti是最终的注意力权重。公式解释αti\alpha_{ti}αti:注意力权重。表示在解码器ttt时刻对输入序列中第iii个时间步的关注度。∑j1Txexp(… )\sum_{j1}^{T_x} \exp(\dots)∑j1Txexp(…): 对所有输入时间步jjj从 1 到TxT_xTx的分数进行求和用于归一化。5. 步骤三计算动态上下文向量根据注意力权重αti\alpha_{ti}αti对编码器隐藏状态hiench_{i}^{enc}hienc进行加权求和得到动态上下文向量ctc_tct。计算ct∑i1Txαtihiencc_t \sum_{i1}^{T_x} \alpha_{ti} h_{i}^{enc}cti1∑Txαtihienc结果ctc_tct是全新的、为当前解码步骤定制的上下文信息。公式解释ctc_tct:动态上下文向量专为解码器ttt时刻的输出而定制。∑i1Tx\sum_{i1}^{T_x}∑i1Tx: 对输入序列中的所有时间步iii进行求和。6. 步骤四解码器生成输出解码器利用ctc_tct和ht−1h_{t-1}ht−1来计算并生成下一个输出词。III. 历史意义与地位 1. 解决信息瓶颈注意力机制彻底打破了 RNN 编码器-解码器架构中固定上下文向量的限制。2. 可解释性的革命注意力权重αti\alpha_{ti}αti为深度学习模型提供了一种罕见的可解释性。通过可视化这些权重我们可以清晰地看到模型在生成某个输出词时“看”向了输入序列中的哪个词实现了对齐Alignment的可视化。3. Transformer 的催化剂证明了注意力比循环更有效处理序列依赖关系为Transformer架构的诞生奠定基础。IV. 零基础理解注意力机制做了什么 他们做了什么科学家给模型设计了一个机制让它不再“一次性记住”整个长句子而是动态地聚焦。怎么做的改变记忆方式机器将输入的每个词都存放在一个单独的卡片上即hiench_{i}^{enc}hienc隐藏状态。动态查找在翻译时机器用当前状态ht−1h_{t-1}ht−1查询询问所有卡片“我当前最需要看哪个词”计算相关性机器计算当前状态与所有输入卡片的匹配度转换为 0 到 1 之间的关注度比例权重αti\alpha_{ti}αti。形成焦点最后机器将所有输入词语按这个权重比例加权平均形成一个临时的、高度聚焦的上下文信息ctc_tct。结果机器翻译长句子时不再“健忘”每次都能将注意力集中在最关键的输入部分。下一篇预告下一篇第二十篇我们将探讨另一项在 NLP 中至关重要的技术——**词嵌入Word Embeddings**的重大突破Word2Vec (2013)它是如何用高效的浅层网络捕捉词语语义关系的。