同济大学与腾讯联手,如何用“画风配方“造出史上最大风格图库?

张开发
2026/4/21 1:06:46 15 分钟阅读

分享文章

同济大学与腾讯联手,如何用“画风配方“造出史上最大风格图库?
这项由同济大学、腾讯、南洋理工大学、香港科技大学、香港大学、福州大学和新加坡国立大学联合完成的研究以预印本形式于2026年4月9日发布论文编号为arXiv:2604.08364有兴趣深入了解的读者可以通过该编号查询完整论文。**画风这件事比你想象的难多了**每个人小时候大概都玩过描红纸——把一张半透明的纸蒙在原画上学着把一只老虎画成同样的模样。风格迁移这件事在计算机视觉领域的意思差不多给计算机看一张参考图告诉它照着这个画风帮我把一只猫画出来。听起来简单做起来却麻烦得很。问题的根源在于画风本身极难定义。颜色算画风吗算但只是其中一层。笔触的粗细、颜料堆叠的厚度、光线打在画面上的方式、颜料是水彩还是油彩……这些因素交织在一起才构成一个人眼能感知到的风格。更棘手的是就连同一位大师的作品在不同时期、不同心情下创作出来风格也可能相差很远——梵高早年的暗沉和晚年的旋涡状笔触就是典型例子。正因如此现有的风格迁移方法始终有一块顽固的短板它们拿来训练自己的素材太差了。要训练一个风格迁移模型最直接的做法是准备成对的图像——同一种风格、不同内容的一组图。但这种成对素材从哪儿来从互联网上收集太难保证同风格让已有的风格迁移模型自动生成又陷入了用坏工具造好工具的死循环生成的图往往只学到了颜色笔触、质感、光线全部丢失而且不同张图之间的风格还互相不一致。研究团队把这个问题想得很清楚要想得到真正好用的风格迁移模型必须先有一个画风配方足够精准、品类足够丰富、每道配方做出来的菜又足够统一的大型数据集。而MegaStyle这整套方案就是为了解决这个先有鸡还是先有蛋的困局而生的。**一、数据集的三个硬指标统一、多样、高质**在正式介绍MegaStyle的做法之前需要先理解研究团队给自己定下的三个核心目标因为这三个目标贯穿了整个方案的设计逻辑。第一个目标叫同风格内部一致intra-style consistency。通俗地说如果数据集里有一组图片都标注为浮世绘风格那这一组里每一张图不管画的是猫还是房子都必须真的是浮世绘风格而不是第一张是日式木版画、第二张变成了水彩、第三张又莫名其妙带上了赛博朋克的感觉。这一点听起来理所当然但之前的数据集偏偏做不到因为它们是用已有的风格迁移模型来生成图片的而那些模型本身就不稳定同样的风格输入每次生成的结果都微妙不同。第二个目标叫不同风格之间足够多样inter-style diversity。数据集里收录的风格种类得够多不能只有那几个大家耳熟能详的风格。否则训练出来的模型就只会处理有限的几类风格遇到新风格就手足无措了。第三个目标是整体图像质量要高。模糊的、有色块污染的、边缘碎裂的图像会让模型学到错误的东西哪怕风格对了图像质量本身就是一种干扰。以往最接近这个目标的数据集是OmniStyle-150K它从1000种基础风格出发用六种主流风格迁移方法生成了15万张图。然而生成结果普遍只学到了参考图的颜色完全忽略了笔触和质感而且不同风格迁移方法对同一张图处理出来的结果风格相互矛盾——一张图是数字插画感另一张却是重水彩渲染明明是同风格的一组图看起来完全不像同一个人画的。这就像你拿着同一道菜谱却让六个厨艺参差不齐的厨师各做了一道端上来的菜差异极大根本无法当作统一配方来学习。**二、核心洞察让大模型当风格翻译官**研究团队找到的突破口来自对一类大型生成模型能力的重新审视。近年来像Qwen-Image这样的文生图大模型已经展现出一种惊人的能力当你用文字描述一种风格它能非常精确地把这种风格反映在生成的图像上而且同一段风格描述无论你让它画猫、画车、画火箭生成的图像都忠实维持着同一种风格特征。这就好像给了这个模型一本极其精准的画风字典——每个词条风格描述对应一种独一无二的视觉呈现方式而且这本字典的用法非常稳定不会朝令夕改。研究团队在论文的一个示例中展示了这一点用儿童绘画风格这一段描述让Qwen-Image分别生成了一辆车、一枚火箭、一只鸟和一个机器人四张图画风高度一致都有那种孩子用蜡笔随手涂鸦的感觉——颜色块状、线条歪歪扭扭、充满天真气息。这正是之前的方案做不到的事风格描述一致生成结果也一致。基于这个核心发现整个MegaStyle数据集构建方案就有了一条清晰的主线不再用已有的风格迁移模型来生成配对图像转而用文字描述风格再用文生图大模型根据文字描述生成风格配对图。文字是精准的大模型的风格映射是稳定的两者结合就能生产出风格内部高度一致的成对图像。**三、从图像到文字精心设计的风格翻译流程**具体操作上整个数据集的构建被分为三个阶段每个阶段都有精心的设计细节。第一阶段是收集素材图像。研究团队从三个来源拼凑出一个包含200万张图的风格图像池从去重后的JourneyDB数据集中取了100万张涵盖各类风格的Midjourney生成图从WikiArt数据集取了8万张涵盖27种流派的真实画作再从LAION-Aesthetics数据集中筛选出了100万张带有风格特征的图片。与此同时另外再从LAION-Aesthetics中取出200万张普通的非风格化图片构成内容图像池这些图片里有各种日常物件和场景只负责提供画什么的信息。第二阶段是把图像翻译成文字。研究团队请了另一个大型视觉语言模型Qwen3-VL来做这个翻译工作。对于风格图片他们给Qwen3-VL一份专门设计的指令模板要求它从以下几个维度描述图片风格总体艺术风格是什么、主色调和配色是什么、光线是如何分布的、使用了什么样的艺术媒介水彩、油画、数字插画……、表面质感是什么样的、笔触的宽窄长短和方向是怎样的——同时明确要求它完全忽略画面里画的是什么内容只描述怎么画。这样得到的风格描述就是一份纯粹的画风配方。对于内容图片指令则完全相反只描述画面里有什么物体、它们的位置关系是什么完全不提任何风格相关的词汇——颜色、光线、质感、材质统统不许提。这样得到的内容描述就是一份纯粹的画什么清单。这一步翻译结束后研究团队得到了200万条风格描述和200万条内容描述。但200万条里必然存在大量重复和相似的描述直接用这些数据训练会导致模型对某些常见风格过度拟合忽视罕见风格。于是进入第三阶段对文字描述进行去重和均衡采样。研究团队先用三种去重方法层层过滤——完全相同的去掉、近似的去掉、语义上高度重叠的也去掉——把200万条精简到100万条。然后用一种叫做分层k-means聚类的方法对剩余的描述进行均衡抽样把描述按语义相似度分成不同的簇从每个簇里按比例抽取确保最终留下来的描述在风格和内容上都均匀分布就像超市采购员确保货架上不会只摆可乐、连矿泉水都买不到。这个过程最终产出了17万条风格描述和40万条内容描述。研究团队还对17万条风格描述做了一个分析发现其中涉及的总体艺术风格多达8000种排名靠前的包括图形插画、水彩插画、抽象表现主义、数字渲染、波普艺术、明暗对比画法、浪漫主义、赛博朋克数字艺术、3D数字插画等等而且没有哪种风格占据压倒性的比例分布相当均匀。进入最后的生成阶段研究团队把每条风格描述随机搭配若干条内容描述形成内容风格的组合提示词然后交给Qwen-Image批量生成图片。同一条风格描述搭配不同内容描述就能生成一组画风高度一致、内容各不相同的图片——这正是训练风格迁移模型所需要的成对数据。最终MegaStyle-1.4M数据集诞生包含140万张图片覆盖17万种细粒度风格每种风格下有多张不同内容的图片配对。与之前的数据集对比这个规模是相当惊人的WikiArt有8万张图但只有27种风格IMAGStyle有21万张图和1.5万种风格OmniStyle-150K有15万张图和1000种风格而MegaStyle-1.4M有140万张图和17万种风格而且三个核心指标——风格内部一致性、风格间多样性、图像质量——都做到了同时满足。更重要的是由于整套流程的每个环节都是可以自动化扩展的理论上17万条风格描述搭配40万条内容描述可以产生680亿种不同的组合数据集的规模上限几乎没有天花板。**四、训练风格鉴赏家MegaStyle-Encoder**有了数据集研究团队做的第一件事是训练一个专门评判风格相似度的模型叫做MegaStyle-Encoder。为什么需要这个因为在评估风格迁移效果时需要一个可靠的指标来量化这张生成图的风格和参考图有多像。目前常用的方法如CLIP的图像特征相似度本质上是为了理解图像内容而训练的它更擅长判断画面里有没有猫而不是这张图的笔触风格和那张图像不像用它来评价风格相似度就像让一个美食评论家去评判音乐节奏感——专业不对口。另一个专门为风格设计的模型叫CSD它基于WikiArt数据集训练按画家名字给图片分类来学习风格特征。问题在于同一位画家在不同时期的画风差异可能极大按画家名字划分的同风格图片在视觉上可能差得很远。这好比让你学习法国菜的特点但教材里把路易十四宫廷宴席和现代小酒馆的家常菜混在一起你学完可能更糊涂。MegaStyle-Encoder的训练方式不同。它以SigLIP图像编码器为基础用MegaStyle-1.4M数据集进行微调采用一种叫做风格监督对比学习的训练策略。这个策略的核心思路是同一条风格描述下生成的图片不管内容多么不同都应该在风格特征空间里彼此靠近而不同风格描述下生成的图片即使内容相似也应该在特征空间里彼此远离。这就像是在一个巨大的坐标系里把同风格的图拉到一起把不同风格的图推开。为了让学习更准确训练时还额外加了一个辅助任务让图像特征和对应的风格描述文字的特征也保持接近——即图像编码器学到的风格特征应该和描述这种风格的文字在语义空间里是一致的。这相当于给模型配了一本风格词典作为参考防止它学歪。训练时用了8192张图片的超大批次目的是在每次更新时都能看到足够多的反例逼着模型不能只靠颜色这种浅层特征来区分风格而必须真正学习笔触、质感这些更深层的视觉特征。在一个专门为此设计的检索测试集上MegaStyle-Encoder的表现远远超过了CLIP和CSD。这个测试集叫StyleRetrieval从训练集未见过的800种总体艺术风格出发每种风格生成32张图用其中4张作为查询看能不能从剩余28张里检索出同风格的图。在mAP1这个指标上CLIP得了9.29分CSD得了45.60分而MegaStyle-Encoder得了88.46分——几乎是CSD的两倍。论文里还展示了直观的可视化对比给定一张参考图SigLIP检索出来的最相似图片往往是内容相近但风格完全不同的图CSD的结果好一些但偶尔还是会受内容干扰MegaStyle-Encoder检索出的图则无论内容如何风格都高度吻合。为了排除在自家生成的数据上测试存在优势的疑虑研究团队还在三个额外的测试集上验证了结果包含真实画作的StyleBench、用FLUX模型生成的FLUX-Retrieval以及OmniStyle-150K数据集。MegaStyle-Encoder在所有三个测试集的所有指标上均排名第一说明它学到的风格特征有真正的泛化能力而不是对Qwen-Image生成风格的死记硬背。**五、训练风格画家MegaStyle-FLUX**有了高质量的成对数据集研究团队做的第二件大事是训练风格迁移模型MegaStyle-FLUX。这个模型基于FLUX后者是目前最强大的开源文生图模型之一采用扩散变换器Diffusion Transformer架构。训练的逻辑很直白从MegaStyle-1.4M里随机挑出两张同风格的图一张作为参考风格图另一张作为训练目标。模型拿到参考图和一段描述目标内容的文字提示任务是生成一张画风和参考图一致、但内容按照文字描述来的新图片。在技术实现上参考风格图先经过FLUX的图像编码器VAE压缩成视觉特征向量然后切割成小块patch这些小块和带噪声的目标图片的小块以及文字描述的特征一起输入到FLUX的核心网络——多模态扩散变换器MM-DiT里。这里有一个细节值得一提参考图的视觉小块被加上了一种经过特殊偏移处理的位置编码shifted RoPE目的是防止网络把参考图和目标图的位置信息混淆——毕竟两张图是完全不同的画面不能让网络以为它们在空间上是对齐的否则模型可能直接把参考图的内容复制到输出里而不是学习风格。这是避免内容泄漏的关键设计。训练时只更新扩散变换器的参数其他组件编码器、解码器等全部冻结不动以LoRA低秩适配的方式进行微调秩设置为128。整个训练过程持续3万步图像分辨率512×512。**六、实验结果在七位对手面前的全面对决**研究团队把MegaStyle-FLUX和当前最主流的七种风格迁移方法放在一起做了全面比较包括DEADiff、StyleShot、Attention-DistillationAttn-Distill、CSGO、StyleCrafter、InstantStyle和StyleAligned。测试用了StyleBench中的50张真实画作风格参考图和20个文字内容提示。在定量指标上用MegaStyle-Encoder计算的风格相似度Style分数和用CLIP计算的文字对齐度Text分数被同时测量。MegaStyle-FLUX在Text分数上排名第一23.20Style分数排名第二76.16第一名是Attention-Distillation为85.59。但这个第二名是有背景的——Attention-Distillation得到最高Style分数的代价是极低的Text分数20.29因为它的策略基本上是把参考图直接复制粘贴输出和文字提示几乎没有关系。真正需要同时兼顾风格准确和内容正确的时候Attn-Distill其实是失败的。人工评价的结果更能说明问题超过30位评估者对所有方法的输出进行了风格和内容的双维度排名。MegaStyle-FLUX在人工风格偏好得分上以31.37分大幅领先第二名InstantStyle只有18.19分在人工内容偏好得分上MegaStyle-FLUX同样以28.72分居首第二名StyleShot只有13.69分。定性的视觉对比也很直观CSGO、DEADiff和StyleCrafter在面对训练时未见过的新风格时基本失效只能转移颜色完全丢失笔触和质感StyleShot和StyleAligned表现更好但有内容泄漏问题比如参考图里有一个碟子生成图里莫名其妙出现了同样的碟子InstantStyle和Attn-Distill对文字提示反应迟钝容易把参考图里的特定元素直接搬过来——在某个案例里参考图里有一条黏土条生成的第一行结果里也出现了这条黏土条尽管文字提示根本没有提到它。MegaStyle-FLUX生成的图像则干净地只保留了风格内容忠实跟随了文字提示。**七、数据集对模型的影响换个食谱厨艺天差地别**为了验证是MegaStyle-1.4M本身让结果变好而不只是模型架构的功劳研究团队做了一个对照实验用同样的FLUX架构分别在三个不同数据集上训练然后对比结果。在JourneyDB上训练的模型表现最差连参考图的颜色都学不准——因为JourneyDB里的图片没有经过成对匹配同一个训练批次里被当作同风格的两张图其实风格差得很远模型学到了混乱的信号什么都学不好。在OmniStyle-150K上训练的模型只能转移基础颜色笔触、质感、材质感这些更深层的风格特征完全无法学习——这印证了最初的判断OmniStyle-150K里的风格对虽然在内容上有配对但风格本身不够一致导致模型学到的只是颜色这个最表层的特征。在MegaStyle-1.4M上训练的模型则能很好地处理各种复杂风格3D立体感、平面插画风、水墨画风都能准确迁移。数字指标上JourneyDB训练的Style得分是34.56OmniStyle-150K训练的是51.49MegaStyle-1.4M训练的是76.16差距相当显著。研究团队还做了另一个对照把StyleShot这个有公开训练代码的基线方法在FLUX架构下分别用它原有的StyleGallery数据集和MegaStyle-1.4M来训练比较结果。用StyleGallery训练的StyleShot-FLUX只能迁移基础颜色而换成MegaStyle-1.4M之后StyleShot-FLUX-Mega能学到3D、平面、水墨这些更高级的风格。这进一步证明数据集的质量才是制约风格迁移能力的关键瓶颈而不是模型架构本身。当然MegaStyle-FLUX在所有指标上仍然优于StyleShot-FLUX-Mega原因在于StyleShot用了一个额外的图像编码器来提取风格特征这个额外的压缩步骤会损失一部分细粒度风格信息而MegaStyle-FLUX直接把参考图的视觉token送进网络保留了更完整的风格细节。**八、局限与未来还有哪些食谱没写好**研究团队在论文里坦率地指出了这套方案目前的两个主要局限。第一个局限来自视觉语言模型对风格的描述能力。Qwen3-VL在描述一些不常见的风格时有时会给出模糊、不精确的词汇——比如对某种特殊材质的描述语焉不详。这主要是因为指令模板没有足够细致地引导模型关注哪些视觉维度。研究团队计划未来进一步优化指令设计让风格描述覆盖更广的风格空间。第二个局限来自Qwen-Image的生成偏见。这个模型在遇到某些文化相关风格时会自动关联一些刻板印象。比如当风格描述包含日本绘画时生成的人物往往穿着和服、留着传统发型场景带着明显的江户时代或明治时代气息。这是模型训练数据里固有的文化偏见靠改进指令模板解决不了只能期待未来更好的生成模型来逐步修正。尽管如此研究团队对整个框架的可扩展潜力持乐观态度并计划把数据集规模扩展到1000万张的级别。说到底MegaStyle这项工作的核心贡献是把一个数据质量问题转化成了一个提示词工程问题然后借助大型生成模型的稳定性把它优雅地解决了。当你手里有一份精确的风格描述现代的文生图大模型会忠实地按照这份描述生成图片而且每次生成都高度稳定——这个特性在此之前一直被忽视现在被研究团队发现并充分利用了。对于普通用户而言这项研究最直接的意义是未来的相机滤镜、图片编辑软件、AI绘图工具在处理照着这种风格画这个任务时将有更高的准确率和稳定性。你指定一个风格参考工具输出的结果会真正学到那种风格的内在逻辑而不是只把颜色抄走。这是画风翻译走向真正精准的一步。---QAQ1MegaStyle-1.4M数据集和以前的风格数据集相比最大的区别是什么A最大的区别在于风格内部的一致性和风格种类的丰富程度同时达标。以前的数据集比如OmniStyle-150K只有1000种风格而且同一组图内部风格不稳定WikiArt有真实画作但风格分类太粗糙。MegaStyle-1.4M覆盖了17万种细粒度风格共140万张图并且同一种风格下的所有图片由同一份文字描述生成风格高度一致。Q2MegaStyle-Encoder评价风格相似度和普通CLIP有什么本质区别ACLIP本质上是为了理解图像内容画面里有什么而训练的用它判断风格相似度就像拿温度计量湿度方向不对。MegaStyle-Encoder基于SigLIP进行微调训练目标明确设定为同一种风格的图片彼此靠近、不同风格的图片彼此远离还加入了风格描述文字作为辅助监督让模型专注于笔触、质感这些真正的风格特征而不是颜色或内容。Q3MegaStyle-FLUX为什么在风格相似度上不是得分最高的却仍然被认为效果最好A风格得分最高的Attention-Distillation85.59分是靠大量复制参考图内容实现的文字指令几乎被无视内容对齐得分极低20.29分。这相当于把答案原封不动抄过来来拿高分其实什么都没学会。MegaStyle-FLUX的风格得分76.16排名第二但文字对齐得分23.20排名第一人工评价的风格和内容偏好得分也均排名第一。真正的风格迁移需要同时做到画风像参考图和内容跟文字提示一致MegaStyle-FLUX是唯一同时满足两个条件的方法。

更多文章