网站建设教程免费国外营销型网站-宁德市网站建设公司-Seo优化

网站建设教程免费,国外营销型网站,淘宝网站怎样建,有高级感的公司名字论文链接#xff1a;https://arxiv.org/pdf/2512.05965 项目链接#xff1a;https://appletea233.github.io/think-while-edit/图1。EditThinker 概述。子图#xff08;a#xff09;展示了多轮思考编辑流程#xff0c;该流程迭代批评、优化和重复编辑指令#xff0c;子图…论文链接https://arxiv.org/pdf/2512.05965项目链接https://appletea233.github.io/think-while-edit/图1。EditThinker 概述。子图a展示了多轮思考编辑流程该流程迭代批评、优化和重复编辑指令子图b报告了四个图像编辑基准测试的结果展示了三种现有编辑方法的显著提升我们使用了FLUX.1 Kontext开发版图中标示为FLUX.1 Kontext亮点直击突破单轮指令范式针对现有单轮指令遵循模式的局限创新性地提出边思考边编辑新范式将图像编辑任务重构为迭代式推理过程。构建推理驱动模型EditThinker——一个通过监督微调与强化学习联合训练的推理驱动多模态大语言模型能够对编辑指令进行迭代式的批判、优化与重规划。创建大规模数据集推出包含14万样本的THINKEDIT-140k多轮对话数据集该数据集提供统一的指令优化监督信号专为基于推理的训练流程设计。验证广泛适用性在四个广泛使用的基准测试上进行大量实验证明方法在多样化编辑场景与不同编辑模型中均具卓越效果。总结速览解决的问题现有基于指令的图像编辑方法受限于单轮执行范式难以有效应对模型固有的随机性与缺乏推理机制的问题导致指令遵循准确率低、编辑结果与用户意图存在偏差尤其在复杂或多步编辑任务中表现不足。提出的方案提出一种“边思考边编辑”Think-while-Edit的迭代式推理框架将图像编辑重构为一个可循环优化的认知过程在每轮编辑后自动评估结果、批判不足、优化原始指令并重复生成直至满足用户需求。该框架以统一的推理引擎 EditThinker 为核心实现指令的动态精炼与再执行。应用的技术构建并训练一个多模态大语言模型MLLMEditThinker联合输出批判评分、自然语言推理过程和改进后的编辑指令采用监督微调与强化学习相结合的训练策略使模型的“思考”推理与批判与“编辑”行为对齐发布THINKEDIT-140k 多轮对话数据集含14万样本提供结构化的多轮指令优化监督信号支持推理驱动的模型训练。达到的效果在四个主流图像编辑基准上的大量实验表明该方法显著且大幅度地提升了各类图像编辑模型的指令遵循能力无论编辑任务复杂度或底层模型架构如何均展现出强泛化性与广泛适用性为高保真、高语义对齐的指令式图像编辑提供了新范式。思考即编辑为了解决当前编辑模型在单轮指令遵循方面的固有局限性本文提出了“思考即编辑”框架模仿人类在创作过程中“批判、反思和编辑”的认知过程。整体框架以前的方法主要以单轮方式操作给定源图像和原始指令编辑模型直接生成最终编辑图像。这个过程缺乏迭代细化输出或从失败编辑中恢复的能力。图2。边思考边编辑的流程。EditThinker 是一个多轮指令迭代优化框架。第一轮中原始图像Isrc和指令T输入编辑器生成初始编辑图像进行编辑。这张编辑后的图片连同原始图片和指令随后被输入 EditThinker生成编辑分数 St、精细提示 Tt 以及相应的推理过程 Rt。如果分数低于阈值框架将进入下一次迭代使用精炼后的提示直到达到满意结果。为了解决这一限制本文引入了一个基于 MLLM 的思考者它将单遍编辑转换为迭代的多轮过程。本文的框架将编辑工作流明确地解耦为两个不同的角色一个用于判断和推理的思考者一个用于执行的编辑器其中思考者通过 SFT 和 RL 进行训练编辑器是任何现有的图像编辑模型例如Qwen-Image-EditFlux-Kontext。具体来说在每次迭代中思考者评估先前的输出并同时生成指令遵循分数、细化指令和推理过程如以下公式所示然后编辑器在源图像上执行新指令生成更新结果如以下公式所示这个迭代过程被称为“批判-改进-重复”循环一直持续到实现编辑目标。EditThinker 的设计本文将 EditThinker 建模为一个双重角色模型同时进行评估和规划。与使用单独模型进行评估基于 MLLM 的评分器和规划基于 LLM 的重写器的解耦方法不同EditThinker 在一次前向传播中执行这两个任务。本文的关键见解是有效的规划需要深入评估模型必须首先批判先前的输出生成分数和推理然后才能生成细化指令。通过在生成之前生成 EditThinker 创建了一个明确的思维链将指令细化基于对和的视觉批判。为了实现这种双重角色设计本文定义了一个结构化的输入-输出格式明确编码了评估然后规划的过程。输入元组。EditThinker 在每次迭代接收一个多模态元组提供编辑状态的完整上下文和代表原始参考是当前要批判的结果是生成它的先前指令。结构化输出格式。输出是一个结构化文本字符串它序列化了 EditThinker 的推理过程其中是的感知质量是与原始指令相对于的语义对齐。两个分数范围都为 0 到 10。EditThinker 的训练训练 EditThinker 执行这种双重角色任务需要专门的数据集和多阶段训练策略。本文采用两阶段方法首先是监督微调 (SFT)以学习输出格式和基本推理然后是强化学习 (RL)根据实际编辑反馈优化指令细化。监督微调 (冷启动)使用专家 (GPT-4.1) 演示数据集详见第 4 节基础 MLLM 学习采用本文的结构化 I/O 格式例如think、score、answer模仿专家的推理风格并理解批判和细化指令的原则。强化学习微调 (RLT)SFT 模型学习专家理想的推理方式但这种推理并未基于实际编辑器的实际限制。该模型从未观察到实际的编辑失败也未学习哪些类型的指令容易被特定编辑器误解。因此对于 SFT 模型来说一个看似最优的指令在由实际编辑器如 Qwen-Image-Edit执行时仍然可能失败。这在理想推理和实际执行之间造成了差距。为了弥合这一差距本文引入了一个 RL 阶段该阶段根据实际编辑反馈优化 EditThinker。本文采用标准 GRPO组相对策略优化并设计了一个精心设计的奖励函数。如前文所述EditThinker 充当双重角色代理即评论者和细化者本文设计了一个多组件奖励为这两个方面提供学习信号如下所示评论者奖励。该组件训练 EditThinker 成为一个更准确的评论者。模型输出预测分数包括和这些分数应与编辑结果的实际质量保持一致。本文使用 GPT-4.1 作为评论专家 (E) 来评估结果图像。评论者奖励惩罚预测误差如下所示该奖励鼓励 EditThinker 校准其自我评估高估质量实际分数为 5 时预测为 9或低估都会受到惩罚。通过这种反馈模型学会将其内部批判与实际编辑结果保持一致。编辑奖励。这是训练 EditThinker 成为更好的细化者的主要奖励。它激励模型生成一个指令该指令导致图像质量和指令遵循方面的可衡量改进。本文使用差分奖励使用相同的专家 E 比较“之前”状态 () 和“之后”状态 ()如下所示仅当生成的指令成功促使编辑器生成比前一步更好的图像时该奖励才为正。这直接将 EditThinker 的规划能力基于实际执行结果。最终奖励如下其中是基本推理格式奖励且。THINKEDIT 数据集为了训练 EditThinker本文需要一个高质量的数据集来捕获多轮“思考即编辑”循环。如下图 3 所示本文设计了一个自动化数据构建管道来模拟这个过程包括四个顺序步骤轨迹生成、轨迹过滤、分步过滤和数据划分。这个管道使本文能够构建 THINKEDIT-140k 数据集。下面详细介绍每个步骤。轨迹生成第一阶段侧重于模拟多轮“思考即编辑”循环。该管道从包含各种 (, ) 对的编辑数据池开始。在每个步骤编辑思考者专家 (GPT-4.1) 评估当前状态基于、和并生成新指令 ()、推理过程 () 和stop标记。值得注意的是专家不输出分数 ()。相反它通过发出stop标记直接决定何时停止该过程。这种设计选择源于本文的发现即单个专家难以在任务细化和输出评分方面同时保持高性能。如果未发出stop标记图像编辑器将使用新的生成。此循环持续进行直到专家触发stop条件或达到最大迭代限制 N从而完成完整轨迹。轨迹过滤由于编辑思考者专家只生成精炼指令和stop标记而不提供质量分数本文采用一个额外的编辑评分器来评估每个步骤并分配一个分数。在对所有步骤 () 进行评分后本文应用一个两阶段过滤过程过滤失败轨迹。本文只保留至少一个后续步骤 () 获得的分数高于或等于初始步骤的轨迹即。不符合此条件的轨迹将被丢弃。截断保留轨迹。对于保留的轨迹本文识别分数最高的步骤 () 并将轨迹截断为仅包含从 1 到的步骤。所有后续步骤 () 都将被丢弃。分步过滤最后本文处理来自轨迹过滤的精心策划的轨迹通过两个步骤创建最终训练数据样本提取。首先本文展开截断的轨迹。轨迹中的每个单独步骤都转换为一个不同的训练样本。此样本将输入元组 (, , , ) 与其相应的地面实况专家输出 (, ) 配对。该步骤的分数作为元数据保留用于后续过滤。分布平衡。本文应用最终过滤步骤沿两个维度平衡数据集任务分布本文在不同任务类型例如对象移除、颜色修改、添加项目之间平衡样本以确保均匀覆盖。分数分布本文在分数级别之间标准化样本以确保编辑质量的平衡表示。SFT 和 RL 数据划分在轨迹过滤之后本文获得了大量精选的高质量轨迹。从这个集合中本文为监督微调 (SFT) 和强化学习 (RL) 阶段创建了两个不同的数据集。划分原则是 SFT 需要稳定、高质量的示例而 RL 最受益于动态改进示例。RL 数据集。本文首先识别对强化学习最有价值的轨迹。关键标准是高轨迹内分数方差即“高波动”分数Var() 。这些轨迹代表了模型最初遇到困难但随后设法改进的挑战性案例为学习提供了丰富的奖励信号。本文筛选了 10k 这样高方差的轨迹同时确保该集合在不同任务类型和分数分布之间保持平衡。展开后这些轨迹产生了 27k 个分步样本构成了本文的 RL 数据集。SFT 数据集。SFT 数据集旨在教授模型正确、稳定的细化行为。因此本文选择了具有低分数方差或持续高质量的样本。这些“低波动”步骤通常代表更直接、正确和可靠的细化示例。这个过程产生了一个单独的 140k 个分步样本数据集用于 SFT。实验实验设置总结本节详细介绍了 EditThinker 框架的实验设置。EditThinker 基于 Qwen3-VL-8B-Instruct 构建。训练分为两个阶段监督微调 (SFT)在本文新构建的 THINKEDIT-SFT-140k 数据集上进行一个 epoch 的训练。关键超参数包括学习率为 2 10批大小为 32。强化学习 (RL)在 THINKEDIT-RL-10k 数据集上进行一个 epoch 的训练。关键超参数包括学习率为 2 10全局批大小为 128生成的回滚数 (N) 为 8KL 散度惩罚系数为 1 10。最大像素数设置为 1024 1024。整个训练过程在 8 块 H800 GPU 上进行大约需要 48 小时。在推理阶段本文的“思考即编辑”范式与 OmniGen2、Flux Kontext [dev]和 Qwen-Image-Edit结合使用。基准和基线为了全面验证“思考即编辑”范式的有效性本文在四个不同的基准上进行了综合评估ImgEdit-Bench、GEdit-Bench 、RISEBench和 KRIS-Bench。选择这套基准是为了进行多方面的评估其中 RISEBench 和 KRIS-Bench 专门侧重于评估编辑模型的推理能力。主要结果总结本节总结了 EditThinker 框架在通用编辑和推理编辑任务上的评估结果如下表 1 和表 2 所示。通用编辑性能如上表 1 所示本文的“思考即编辑”框架在 ImgEdit-Bench 和 GEdit-Bench-EN 数据集上显著且持续地提升了所有基础模型的性能。在 ImgEdit-Bench 上EditThinker 将 FLUX.1-Kontext [Dev] 的总体分数从 3.44 提高到 3.98OmniGen2 从 3.4 提高到 3.5Qwen-Image-Edit 从 4.36 提高到 4.37。这些结果超越了一些最先进的模型。在 GEdit-Bench-EN 数据集上本文的方法同样取得了稳定的增益将 FLUX.1-Kontext [Dev] 的分数从 6.18 提高到 7.05OmniGen2 从 6.19 提高到 6.28Qwen-Image-Edit 从 7.49 提高到 7.73。推理编辑性能本文的方法在需要深度推理的任务上同样提供了持续的改进如上表 2 所示。在 RISE-Bench 上EditThinker 框架为所有模型提供了稳定的性能提升。FLUX.1-Kontext [Dev] 从 5.8 提高到 14.4OmniGen2 从 3.1 提高到 3.4Qwen-Image-Edit 从 8.9 提高到 17.8。专家模型能力的影响本文观察到框架的性能与 EditThinker (专家模型) 本身的能力呈正相关。如上表 1 所示EditThinker-8B 将 FLUX 分数提高到 3.98而更强大的 EditThinker (GPT-4.1) 进一步将其提高到 4.13。这种模式在其他模型和基准上也成立表明使用更强大的专家模型作为“思考者”直接转化为最终编辑结果的更大性能提升。消融研究总结本节总结了对 EditThinker 框架中关键组件的消融研究结果。以 FLUX.1-Kontext [Dev] 模型为基线并在 GEdit-Bench-EN 和 ImgEdit-Bench 上进行评估。思考模式分析如下表 3 所示本文将模型编辑思考范式分为两种主要方法“思考再编辑”Think before Edit和“思考即编辑”Think while Edit。“思考再编辑”仅使用源图像重写优化后的提示而“思考即编辑”是本文提出的迭代推理和编辑框架。“思考再编辑”提供了显著改进但始终不如“思考即编辑”。用“思考再编辑”步骤初始化“思考即编辑”会导致性能下降这可能是因为首次“思考再编辑”在第一轮推理中引入了偏差导致信息传输不完整。思考轮次的效果如下表 4 所示基线模型相当于单次通过即“Turn 1”的 G O 分数为 6.18。引入“思考即编辑”框架最大两轮Turn 2立即将 G O 分数大幅提升至 6.95。随着最大允许轮次的增加G O 分数持续攀升在 4 轮时达到 7.13在 6 轮时达到 7.16在 8 轮时达到 7.30。这表明本文的框架有效利用了更深层次的多步推理。此外下表 8 显示了 EditThinker-8B 的多轮推理性能。从基线到 Turn 8性能持续改进从 6.18 提高到 7.03。在 Turn 2 观察到最大的性能提升分数从 6.18 跃升至 6.90。训练阶段分析如下表 5 所示SFT 阶段本身 EditThinker-8B-SFT带来了显著的性能提升将 G O 分数从 6.18 提高到 6.93ImgEdit-Bench 的总体分数从 3.44 提高到 3.57。随后的强化学习 (RL) 阶段 EditThinker-8B-RL提供了额外且关键的优化。虽然在 GEdit-Bench 上取得了适度增益7.02 G O但其影响在 ImgEdit-Bench 基准上最为显著将总体分数从 3.57 (SFT) 提高到 3.95 (RL)。这表明 SFT 对于传授基础细化能力至关重要而 RL 在优化专家判断和微调决策策略方面非常有效。不同 EditThinker 专家模型的影响如上表 6 所示本文通过替换训练好的 EditThinker-8B探究了框架的可扩展性。基线 FLUX 模型的 G O 分数为 6.00。当本文简单地用像 GPT 4.1 这样强大的现成专有模型替换专家时G O 分数跃升至 7.19。这证实了两个关键见解1) 本文的“思考即编辑”框架是一个通用且高度可扩展的范式不限于本文特定的训练专家。2) 框架的性能与所采用的专家模型的底层推理和批判能力直接且呈正相关。结论本文提出了一个深思熟虑的编辑框架 EditThinker它使图像编辑模型能够在编辑时“思考”解决了现有单轮方法中由于固有的随机性和缺乏深思熟虑而导致的指令遵循能力有限的问题。本文的框架通过模拟迭代的“批判-改进-重复”循环来模仿人类的认知过程从而实现自我纠正的图像编辑。通过将 EditThinker 训练为一个统一的多模态大语言模型 (MLLM)它能够联合生成批判分数、详细推理过程和改进后的指令。本文还引入了 THINKEDIT-140k一个用于监督微调 (SFT) 和强化学习 (RL) 的大规模、多轮数据集以将 EditThinker 的规划能力与实际编辑器的限制对齐。在 ImgEdit-Bench、GEdit-Bench、RISE-Bench 和 Kris-Bench 等四个广泛使用的基准上进行的综合实验表明EditThinker 显著提高了现有图像编辑模型的指令遵循能力特别是在需要复杂推理的任务中。消融研究进一步证实了“思考即编辑”范式、迭代推理轮次、两阶段训练策略和专家模型能力的关键贡献。本文的研究结果强调了将深思熟虑和迭代推理整合到图像编辑工作流中的重要性为开发更智能、更稳健的交互式视觉系统铺平了道路。本文计划发布所有数据集和模型以促进该领域的进一步研究。参考文献[1] EditThinker: Unlocking Iterative Reasoning for Any Image Editor

网站建设教程免费国外营销型网站

cnzz 网站域名怎么填企业网络推广做网站推广公司

ico网站建设阿里巴巴网站制作

建设银行网站电脑版做盗文网站

做学徒哪个网站好网站建设需要什么硬件和软件

电子商务网站建设教学大纲文字图片在线制作生成器

建筑参考网站2万块建一个网站贵吗

网站建设教程免费国外营销型网站

cnzz 网站域名怎么填企业网络推广做网站推广公司

ico网站建设阿里巴巴网站制作

建设银行网站电脑版做盗文网站

做学徒哪个网站好网站建设需要什么硬件和软件

电子商务网站建设 教学大纲文字图片在线制作生成器

建筑参考网站2万块建一个网站贵吗

电子商务网站建设教学大纲文字图片在线制作生成器