衡水网站建设公司哪家比较好h5网站制作介绍-宁德市网站建设公司-Seo优化

衡水网站建设公司哪家比较好,h5网站制作介绍,湛江自做网站,网站维护与更新RAG中的上下文压缩#xff08;Contextual Compression#xff09; RAG的烦恼#xff1a;信息太多#xff0c;噪声太大 RAG系统的本质#xff0c;就是“先检索#xff0c;再生成”。你问个问题#xff0c;系统先去知识库里搜一圈#xff0c;把相关的内容捞出来#x…RAG中的上下文压缩Contextual CompressionRAG的烦恼信息太多噪声太大RAG系统的本质就是“先检索再生成”。你问个问题系统先去知识库里搜一圈把相关的内容捞出来然后丢给大模型生成答案。听起来很美好但实际用起来常常是这样的检索出来的内容Relevant相关和Irrelevant无关混杂在一起。有用的信号被一堆废话包围模型的上下文窗口被“水文”占满。结果答案啰嗦、跑题、甚至答非所问。举个栗子你问“AI决策的伦理问题有哪些”检索出来的段落里既有“AI的历史”又有“AI的优点”还有“AI的缺点”真正和伦理相关的内容可能只占三分之一。怎么办别慌今天我们就来聊聊——上下文压缩Contextual Compression什么是上下文压缩上下文压缩就是在RAG检索后把无关内容“剪掉”只留下和问题最相关的部分。这里的“压缩”既指压缩单个文档的内容也指批量过滤文档。我们可以使用给定查询的上下文来压缩它们以便只返回相关信息而不是立即按原样返回检索到的文档。这样做的好处减少噪声让大模型只看到有用的信息。提升准确率答案更聚焦、更靠谱。节省上下文窗口能处理更长的文档成本更低。压缩不是一刀切常见有三种玩法Selective选择性保留只保留和问题直接相关的句子/段落原文照抄不做改写。Summary摘要压缩把相关内容浓缩成简明扼要的摘要信息密度高。Extraction句子抽取只抽取原文中包含关键信息的句子逐句列出。不同场景可以选不同流派你要“原汁原味”选Selective或Extraction你要“言简意赅”选Summary。RAG上下文压缩的完整流程1. 文档预处理PDF提取文本用PyMuPDF等工具把PDF里的内容全都抽出来。分块Chunking把长文本切成小块比如每1000字一块重叠200字方便后续检索。2. 向量化与检索文本嵌入Embedding用OpenAI、bge等模型把每个chunk变成向量。向量检索用户提问后把问题也变成向量找出最相似的Top-K个chunk。3. 上下文压缩核心对每个检索到的chunk调用大模型按指定压缩方式Selective/Summary/Extraction处理只保留和问题相关的内容。批量处理一次性压缩多个chunk效率更高。4. 生成最终答案把压缩后的内容拼成上下文丢给大模型生成最终答案。如果压缩后内容太少可以回退用原始chunk。5. 评估与可视化对比不同压缩方式的效果准确率、信息量、上下文长度、压缩比。可视化原文和压缩后的内容直观感受“瘦身”效果。再上升到理论层面一些。现有的上下文压缩方法主要分为基于词汇的压缩硬提示如LLMLingua和RECOMP和基于嵌入的压缩(软提示如Gist、AutoCompressor和ICAE)。前者通过选择或总结上下文中的重要词或短语来减少上下文大小后者则通过嵌入模型将上下文转换为较少的嵌入token。但这个对于不同的场景会有不同的方案我们来具体看下RAG这个场景的代表方案。一、基于硬提示的RAG上下文压缩方案1、RECOMP论文名称《RECOMP: Improving Retrieval-Augmented LMs with Compression and Selective Augmentation》原文地址https://arxiv.org/pdf/2310.04408其核心思想为通过在上下文增强之前将检索到的文档压缩成文本摘要来提高语言模型的性能同时减少计算成本。实现上包括两个压缩器一个是提取式压缩器从检索到的文档集中选择相关句子。该方法训练一个双编码器模型将句子和输入序列嵌入到固定维度的嵌入空间中并通过计算它们的内积来评估句子的有用性。最终摘要是从与输入最相关的句子中选择的前N个句子。一个是生成式压缩器通过综合多个检索到的文档中的信息来生成摘要。该方法从一个极端规模的LM如GPT-3中蒸馏出一个轻量级的生成式压缩器使用教师模型生成摘要并通过一个裁判模型评估生成的摘要对目标任务的表现选择表现最好的摘要进行训练。2、CompAct论文名称《Compressing Long Context for Enhancing RAG with AMR-based Concept Distillation》原文地址https://arxiv.org/pdf/2405.03085其思想在于使用基于AMRAbstract Meaning Representation的概念蒸馏算法来压缩长文本通过从AMR图中提取关键概念节点将冗余的支持文档转换为简洁的概念集。在具体实现上首先是设计基于概念的RAG框架该框架通过从原始支持文档中提取的关键概念来增强LLMs的推理能力。框架包括三个主要组件信息检索、概念蒸馏和基于概念的推理。其次在这个基础上采用一种AMR概念蒸馏算法将支持文档从连续序列转换为离散概念核心思路为使用mBart-based解析器将支持文档解析为AMR图设计SplitSnt函数将AMR图分割成基于句子的子图通过深度优先搜索DFS遍历AMR图中的节点提取关键概念并格式化为概念集合处理特殊角色如:name, :wiki, :date-entity以确保概念的完整性和一致性使用ConceptFormat和ConceptBacktrace函数过滤和回溯概念确保概念与原始支持文档的语义一致。3、FAVICOMP论文名称《Familiarity-aware Evidence Compression for Retrieval Augmented Generation》原文地址https://arxiv.org/pdf/2409.12468一般RAG面临的主要挑战是LLM难以过滤掉多个证据片段中的不一致和不相关信息。FAVICOMP通过引入一种新的集成解码技术主动降低压缩证据的困惑度使其对目标模型更熟悉。具体包括两个步骤一个是证据压缩Evidence Compression首先使用一个压缩模型将检索到的证据文档压缩成一个与输入相关的简洁上下文。压缩模型的目标是将证据文档生成一个查询相关的摘要。另一个是集成解码Ensemble Decoding为了使压缩后的证据对目标模型更加熟悉FAVICOMP引入了集成解码技术。具体来说在解码过程中结合压缩模型和目标模型的token概率选择概率最高的token。二、基于软提示的RAG上下文压缩方案1、xRAG论文名称《xRAG: Extreme Context Compression for Retrieval-augmented Generation with One Token》原文地址https://arxiv.org/pdf/2405.13792GitHub地址https://github.com/Hannibal046/xRAG这个工作通过模态融合的方式将文档嵌入直接投影到LLM的表示空间中从而实现极端的压缩率。实现上xRAG通过重新解释密集检索中的文档嵌入将其视为检索模态的特征从而实现上下文压缩。具体地xRAG引入了一个模式投影器W该投影器被训练以直接将检索特征E投影到语言模型LLM的表示空间中。这样输入到LLM的表示就从传统的嵌入层Emb(D⊕q)变为W(E)⊕Emb(q)大大减少了输入的长度。2、COCOM论文名称《Context Embeddings for Efficient Answer Generation in RAG》原文地址https://arxiv.org/pdf/2407.09252项目地址https://huggingface.co/naver/cocom-v1-128-mistral-7b这个工作通过一个压缩器模型将长上下文压缩成少量上下文嵌入。压缩器模型与生成器模型相同使用相同的预训练语言模型并通过自编码任务训练压缩器模型和生成器模型联合学习如何有效地压缩和解压缩上下文。自适应压缩率压缩嵌入的数量可以根据压缩率ξ和输入长度n进行调整例如当压缩长度为128的上下文时压缩率为64得到2个上下文嵌入输入减少了64倍。此外还可以处理多个检索到的段落上下文即上下文独立压缩后使用[SEP]特殊标记在嵌入之间进行区分然后将其输入到LLM中。参考资料https://blog.csdn.net/bagell/article/details/143507074https://blog.csdn.net/u012094427/article/details/149019102https://blog.csdn.net/u013066244/article/details/131888097

衡水网站建设公司哪家比较好h5网站制作介绍

一个好的网站的重要性东莞横沥医院

网站制作的评价标准工作了应该浏览器哪些网站

网站开发设计南邮婚庆公司简介范文

怎么弄网站关键词如何分析一个网站

哪个网站可以做一对一老师网站路径

网站二级分类呢图网站场建设封面