靖州建设局网站百度网址收录入口-宁德市网站建设公司-Seo优化

靖州建设局网站,百度网址收录入口,wordpress模板下载,海淀网站建设服务1. BLIP BLIP 是一种多模态 Transformer 模型#xff0c;主要针对以往的视觉语言训练 (Vision-Language Pre-training, VLP) 框架的两个常见问题#xff1a; 模型层面#xff1a;大多数现有的预训练模型仅在基于理解的任务或者基于生成的任务方面表现出色#xff0c;很少有…1. BLIPBLIP 是一种多模态 Transformer 模型主要针对以往的视觉语言训练 (Vision-Language Pre-training, VLP) 框架的两个常见问题模型层面大多数现有的预训练模型仅在基于理解的任务或者基于生成的任务方面表现出色很少有可以兼顾的模型。比如, CLIP只能实现图文检索但是不能生成文本。数据层面大多数现有的预训练模型为了提高性能直接从网络收集的嘈杂图像-文本对扩展数据集。虽然提高了性能但是很明显这个带噪声的监督信号肯定不是最优的。1.1. 模型结构上图是BLIP的模型结构主要分为四个模块1图像编码器提取图像特征图中最左边采取ViT架构提取图像的信息。将输入图像分割成一个个的 Patch并将它们编码为一系列 Image Embedding并使用额外的[CLS]token 来表示全局的图像特征。2文本编码器提取文本特征图中第2列是文本编码器就是 BERT的架构其中 [CLS] token 附加到文本输入的开头以总结句子。作用是提取文本特征做对比学习。同时不需要cross attention。3视觉文本编码器图1第3列的是视觉文本编码器通过 Cross-Attention来注入视觉信息且注意力部分是双向的 Self-Attention。添加一个额外的 [Encode] token作为图像文本的联合表征。4视觉文本编码器图1第4列的是视觉文本解码器通过 Cross-Attention来注入视觉信息作用是根据 ViT 给的图片特征和文本输入做文本生成的任务所以使用的是解码器且注意力部分是 Casual-Attention目标是预测下一个 token。添加一个额外的 [Decode] token 和结束 token作为生成结果的起点和终点需要注意的是文本编码器和文本解码器共享除SA层之外的所有参数。原因是编码和解码任务之间的差异最好由SA层捕获。另一方面嵌入层、CA层和FFN在编码和解码任务之间的功能相似因此共享这些层可以提高训练效率同时受益于多任务学习。同时每个 image-text 在输入时image 部分只需要过一个 ViT 模型text 部分需要过3次文本模型。1.2. 预训练目标1图像文本对比度损失ITCITC 作用于视觉编码器和文本编码器通过使正样本图文对的相似性更大、负样本图文对的相似性更低对齐视觉和文本的特征空间。2图像文本匹配损失ITMITM 作用于视觉编码器和图像文本编码器旨在学习图像-文本多模态表示以捕捉视觉和语言之间的细粒度对齐。ITM是一个二元分类任务其中模型使用ITM头线性层来预测图像-文本对在多模态特征下是正匹配还是负不匹配。3语言模型损失LMLM 作用于视觉编码器和图像文本解码器用于生成任务其目的通过cross attention 利用图像特征。它优化了交叉熵损失该损失训练模型以自回归方式最大化文本的可能性。1.3. BLIP 的主要缺点最大的问题就是端到端预训练代价高BLIP 使用的是端到端的联合训练导致训练成本非常高。不利于在大规模模型或更复杂的任务上扩展。Blip的这这个缺点在Blip-2中解决了比如image encoder直接用现成的诸如CLIP的encoder或 ViTlarge language model怎么办直接也用现成的呗Blip2采用的是OPT、Flan-T5等现成的最核心的问题就是image encoder和LLM都是现成的这两大部分原本都是在各自的语义空间训练的视觉特征的空间和文本特征的空间不容易对齐。这就是Q-Former存在的意义了2. BLIP-2BLIP-2 提出了一个轻量级的 Transformer如上图所示。该 Transformer 分两个阶段进行预训练。Q-Former 是一个轻量级 Transformer它使用一组可学习的 Queries 向量从冻结的视觉编码器中提取视觉特征并充当视觉编码器和文本编码器之间的瓶颈。Q-Former 把关键的视觉信息传递给 LLM。第一个预训练阶段强制 Q-Former 学习与文本最相关的视觉表征第二个预训练阶段通过将 Q-Former 的输出连接到冻结的 LLM 来执行视觉语言生成学习使其输出的视觉表征可以直接由 LLM 解释。这样一来Q-Former 就可以有效地利用冻结的预训练图像模型和语言模型。2.1. BLIP-2 架构BLIP-2 由预训练好的冻结参数的视觉模型和LLM模型外加所提出的可训练的 Q-Former 构成。图像编码器从输入图片中提取视觉特征Q-Former采用独特的双Transformer设计两个子模块共享Self-Attention机制图像Transformer左侧输入可学习的查询向量(Queries)数量为32每个query的维度是768。处理流程先通过Self-Attention建模查询间关系再通过Cross-Attention建立与图像特征的关联。因为两个 Transformer 的self attention是共享参数的所以 Queries 也可以与文本输入做交互。文本Transformer右侧功能同时作为文本编码器和解码器特点与图像Transformer共享Self-Attention参数Q-Former 一共包含了 188M 参数其权重使用 BERT-Base 做初始化Cross-Attention 的参数做随机初始化。Queries 随着预训练目标一起训练迫使它们提取到与文本最相关的视觉信息。2.2. 两阶段训练策略详解2.2.1 第一阶段训练在表示学习阶段我们将Q-Former连接到冻结图像编码器并使用图像-文本对进行预训练。我们的目标是训练Q-Former使查询能够学习提取文本中信息量最大的视觉表示。对于不同的预训练目标采用不同的注意力mask策略来控制在查询和文本之间的交互。图文对比学习(ITC)原理最大化正样本对匹配的图像-文本对的相似度最小化负样本对的相似度类似 CLIP掩码策略阻止查询和文本相互不可见实现方式将图像trasnformer的输出查询表示Z与文本转换器的文本表示t对齐其中t是[CLS]标记的输出嵌入。由于Z包含多个输出嵌入我们首先计算每个查询输出与t之间的成对相似度然后选择最高的一个作为图像文本相似度。ITC迫使图像和文本的表示空间在语义层面“对齐”。但这种对齐不需要图像和文本在自注意力层面直接交互 Attention Mask 方法如图3的最右侧所示属于 Uni-modal Self-Attention Mask不允许 Queries 和 Text 相互看到(相互之间的注意力值为0)。图文匹配任务(ITM)原理学习图像和文本表示之间的细粒度对齐掩码策略允许查询和文本相互可见实现方式ITM 是个二分类任务要求模型预测图像-文本对是正样本 (匹配) 还是负样本 (不匹配)。ITM 的 Attention Mask 方法如图3的最左侧所示属于 Bi-directional Self-Attention Mask允许 Queries 和 Text 相互看到。输出查询Z捕获了多模态信息。我们将每个嵌入的输出查询输入到一个两类线性分类器中以获得一个logit并将所有查询的logit平均作为输出匹配分数基于图像的文本生成(ITG)机制查询向量queries提取关键视觉信息通过Self-Attention传递给文本token掩码策略允许 Text 看到 Queries (Queries 里面有视觉信息)同时每个 Text token 只能看到它之前的 token训练方式标准的自回归语言建模实现方式给定输入图像作为条件的情况下生成文本。查询queries提取生成文本所需的视觉信息然后通过self attention传递给文本token。因此查询被迫提取捕获文本所有信息的视觉特征。采用多模态因果自我注意掩码来控制查询文本交互查询可以相互处理但不能处理文本标记。每个文本标记都可以处理所有查询及其之前的文本标记。我们还用一个新的[DEC]令牌替换[CLS]令牌作为第一个文本令牌来指示解码任务2.2.2 第二阶段训练Queries 在经过了第1阶段的训练之后已经学习到了如何更好地结合文本提取图片信息因此它可以有效地将最有用的图片信息提供给 LLM同时删除不相关的视觉信息。这减少了 LLM 学习视觉语言对齐的负担。作者尝试了2种大型语言模型分别是基于纯 Decoder 架构的和基于 Encoder-Decoder 架构的。对于基于纯 Decoder 架构的模型使用语言建模目标函数进行训练。冻结参数的 LLM 的任务是根据 Q-Former 提供的视觉表征来生成文本。对于基于 Encoder-Decoder 架构的模型把文本分成两段前缀随着 Queries 的输出喂给 LLM 的 Encoder希望 Decoder 输出后缀。这一阶段通过简单的线性投影将Q-Former输出适配到语言模型连接方式使用全连接层将Q-Former输出投影到到与LLM的文本嵌入相同的维度将投影结果作为soft prompt为LLM提供最有用的视觉信息架构适配对于仅解码器架构直接输入Q-Former生成的token对于编码器-解码器架构前缀文本与视觉信息作为LLM编码器的输入再生成后缀文本整体结构图图像 --- 视觉编码器 (ViT, 冻结参数) --- Patch 特征 ↓ [交叉注意力层] Query Embeddings (可训练) -------- Q-Former ↓ 压缩后的图像语义向量 ↓ 送入大语言模型 (LLM)预训练好的视觉模型和 LLM视觉模型使用CLIP训练的 ViT-L/14EVA-CLIP训练的 ViT-g/14LLM 模型使用OPTFlanT52.3. 特点总结Q-Former 是 BLIP-2 中的关键模块Q-Former的核心是拿一组预定义好的、可学的、固定数量的 Query tokens通过 cross attention 层去融合来自冻结的图像编码器的视觉信息。它本质上是一个视觉语义压缩器与对齐器。但是存在以下一些缺点参数量大收敛慢视觉信息有损压缩Q-Former在压缩视觉信息时可能会导致有损压缩丢失重要的视觉信息。例如Q-Former会将任意长度的visual token序列转译成固定数量的token这种方式可能会引入有损压缩。相比之下MLP和AdaptiveAveragePooling能够更好地保留视觉信息。论文DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models 提出可以用AdaptiveAveragePooling替代Q-Former

靖州建设局网站百度网址收录入口

seo推广淘客绍兴seo网站推广

外贸soho虚拟公司做网站wordpress卖东西主题

做问卷调查的网站有哪些wordpress 调用页眉

自定义网站图标团员注册网站

佛山百度网站快速排名网站制作流程和方法

友联建设集团官方网站ps网页制作视频教程

靖州建设局网站百度网址收录入口

seo推广淘客绍兴seo网站推广

外贸soho虚拟公司做网站wordpress卖东西主题

做问卷调查的网站有哪些wordpress 调用 页眉

自定义网站图标团员注册网站

佛山百度网站快速排名网站制作流程和方法

友联建设集团官方网站ps网页制作视频教程

做问卷调查的网站有哪些wordpress 调用页眉