news 2026/6/17 18:32:20

USO“,一种基于分离和奖励学习的新方法:走在将风格和主题融为一体的图像生成的最前沿

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
USO“,一种基于分离和奖励学习的新方法:走在将风格和主题融为一体的图像生成的最前沿

概述

近年来,"风格驱动生成 "和 "主题驱动生成 "作为图像生成中的两个独立问题被研究。
前者强调参考图像的风格,而后者侧重于保持人物或物体的一致性,两者被视为对立的。

然而,本文认为可以将两者视为统一的。
原因在于,这两项任务无非都是将 "内容 "和 "风格 "进行分离和重新组合的任务。

因此,作者提出了 USO(统一风格-主体优化)模型。
USO 建立了一个大型三元组数据集(内容图像、风格图像和风格应用图像),并进一步将风格对齐学习和内容-风格分离学习结合起来风格对齐学习和内容-风格分离学习。

此外,还引入了风格奖励学习(SRL),以增强风格保真度。
作者还建立了一个新的基准–USO-Bench,以同时评估风格相似性和主题一致性。

实验结果表明,USO 优于传统方法,在风格和主题一致性方面都达到了最先进的水平。

建议的方法

USO 的核心思想是将风格驱动任务和主题驱动任务作为 "互补任务 "同时学习。

首先,作者构建了一个跨任务三元组保存框架(Cross-Task Triplet Curation Framework)。
这是一种使用风格化专用模型和去风格化模型自动生成三重数据(参考风格图像、主题参考图像和风格应用结果图像)的机制。

接下来是统一定制框架 统一定制框架(USO)。
学习分为两个阶段。

在第一阶段,使用 SigLIP 编码器和分层投影仪进行风格对齐训练,确保能够准确提取风格特征。
在第二阶段,内容和风格图像被输入到不同的编码器中,以执行内容-风格分离训练(Content-Style Disentanglement Training),避免不必要的特征污染。

此外,还引入了风格奖励学习(SRL),将生成的结果与参考风格的接近程度作为奖励信号反映在训练中。
这成功地同时提高了风格保真度和主体一致性。

实验

为了测试所提方法的有效性,作者使用新构建的 USO-Bench 和现有的 DreamBench 进行了大规模实验。

USO-Bench 是一个结合了 50 种不同内容图像和 50 种不同风格图像的基准,可以全面评估主题驱动、风格驱动和两者结合的任务。
评估指标包括衡量主题一致性的 CLIP-I 和 DINO、衡量风格相似性的 CSD 以及衡量文本和图像一致性的 CLIP-T。

实验结果表明,USO 在主题驱动和风格驱动任务中的表现均优于现有方法,尤其是在同时处理风格和主题的复杂任务中,表现出了显著的性能提升。
在定量评估中,CSD 和 CLIP-T 的得分最高;在定性评估中,USO 忠实地再现了各种绘画风格,同时保留了主体的外观。

此外,消融实验证实,风格奖励学习和分层投影对性能的提高有很大帮助。
总之,可以得出结论,USO 是一种最先进的统一生成模型,可以同时实现风格和主题。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/16 18:38:08

由 MCP-Bench 首创的 LLM 代理评估新趋势!复杂任务和真实世界场景的挑战

小结 本文提出了一种新的基准–MCP-Bench,用于评估 LLM 执行现实复杂任务的能力。 传统的基准通常假定只调用一次应用程序接口(API)或人为连接一个工具链,因此无法充分衡量在现实世界中所需的多个工具之间处理长期规划和模糊指令的…

作者头像 李华
网站建设 2026/6/14 12:32:51

百度网盘直链解析终极指南:告别龟速下载的完美方案

百度网盘直链解析终极指南:告别龟速下载的完美方案 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 还在为百度网盘的下载速度而烦恼吗?每天面对几十KB的…

作者头像 李华
网站建设 2026/6/15 15:17:23

利用混合语境生成长视频的创新!高效的语境保存和高精度生成

概述 这项研究旨在解决长时间视频生成中的最大难题:长期上下文保存。 传统的扩散变换器(Diffusion Transformer)基于自注意机制,很难生成数分钟规模的视频,因为计算复杂度会随着序列长度的增加而平方增加。 以前的方法…

作者头像 李华
网站建设 2026/6/16 2:57:33

G-Helper硬件控制工具终极指南:释放华硕笔记本全部性能潜力

寻找一款轻量级替代方案来管理您的华硕笔记本硬件?G-Helper硬件控制工具正是您需要的系统性能优化利器。这款设备管理软件不仅功能强大,而且操作简单,能够帮助您实现一键配置和智能场景切换,让硬件控制变得前所未有的轻松。 【免费…

作者头像 李华
网站建设 2026/6/16 18:24:00

G-Helper风扇控制终极指南:3步解决笔记本散热问题

G-Helper风扇控制终极指南:3步解决笔记本散热问题 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops. Control tool for ROG Zephyrus G14, G15, G16, M16, Flow X13, Flow X16, TUF, Strix, Scar and other models 项目地址: h…

作者头像 李华
网站建设 2026/6/17 20:43:17

如何组织有效的测试评审(Test Review):策略、流程与最佳实践

测试评审的价值与挑战 在快速迭代的软件开发生命周期中,测试评审(Test Review)作为质量保证体系的关键活动,既是技术审查,也是团队协作与知识传递的重要枢纽。一次有效的测试评审不仅能够提前暴露测试设计的盲点、提升…

作者头像 李华