OpenAI 的 GPT-4o 在图像理解、生成和编辑任务上展现了顶级性能。流行的架构猜想是:
Tokens → [Autoregressive 模型] → [Diffusion 模型] → 图像像素
该混合架构将自回归与扩散模型的优势结合。Salesforce Research、马里兰大学、弗吉尼亚理工、纽约大学、华盛顿大学的研究者在最新的研究(统一多模态模型 BLIP3-o)中也采用了自回归 + 扩散框架。
论文标题:BLIP3-o: A Family of Fully Open Unified Multimodal Models—Architecture, Training and Datase论文地址:https://arxiv.org/pdf/2505.09568v1GitHub 代码:https://github.com/JiuhaiChen/BLIP3o模型权重:https://huggingface.co/BLIP3o/BLIP3o-Model在线演示:https://huggingface.co/spaces/BLIP3o/blip-3o预训练:https://huggingface.co/datasets/BLIP3o/BLIP3o-Pretrain-Long-Caption指令微调:https://huggingface.co/datasets/BLIP3o/BLIP3o-60k
在这个框架里,自回归模型先生成连续的中间视觉特征,用以逼近真实图像表示,进而引出两个关键问题:
真实特征来源 (Ground-truth features):用 VAE 还是 CLIP 将图像编码为连续特征?特征对齐方式:使用 MSE 损失,还是借助扩散模型(Flow Matching)来对齐预测与真实特征?
统一多模态下的图像生成
研究者考察两种图像编码–解码范式:
VAE:将图像编码为 low level 像素特征,以获得更好的重建质量。但 VAE 编码器在处理更高分辨率输入时,会生成更长的向量序列,从而增加训练过程中的计算负担。CLIP + Diffusion:先将图像映射到 high level 语义特征,再通过扩散模型重建真实图像。在实际操作过程中,会先用 CLIP 得到图像特征,然后基于 CLIP feature 训练一个扩散模型来重建图像。该方法好处是无论输入图像分辨率如何,每张图像都可编码为固定长度的连续向量 (比如长度为 64 的向量),这种编码方式能有较好的图像压缩率;但需要额外训练来使扩散模型适配不同的 CLIP 编码器。
针对自回归模型预测的视觉特征与 VAE/CLIP 提供的真实特征,有两类训练目标:
MSE:对预测特征与真实特征计算均方误差Flow Matching:基于自回归模型生成的预测特征,通过流匹配损失训练一个 Diffusion Transformer,用 Diffusion Transformer 的输出值来逼近 CLIP 或 VAE 特征
结合不同的编码–解码架构与训练目标,共有三种设计选择:
CLIP + MSE:最小化预测表征与 CLIP 真实表征之间的 MSE, 比如 Emu2、SeedX。在生成图片的时候,自回归模型生成视觉特征,基于这个视觉特征,使用一个扩散模型来解码图片。CLIP + Flow Matching:以自回归模型预测的视觉特征为条件,使用流匹配损失来训练 Diffusion Transformer,以预测真实的 CLIP 表征。在生成图片的时候,自回归模型生成视觉特征,基于这个视觉特征,Diffusion Transformer 生成一个 CLIP feature,然后再基于这个 CLIP feature,使用一个轻量的扩散模型来解码图片。整个过程涉及两次扩散过程,第一次生成 CLIP feature,第二次生成真实图片。VAE + Flow Matching:以自回归模型预测的视觉特征为条件,使用流匹配损失来训练 Diffusion Transformer,以预测真实的 VAE 表征。在生成图片的时候,自回归模型生成视觉特征,基于这个视觉特征,Diffusion Transformer 生成一个 VAE feature, 由 VAE 解码器来生成真实图片。
Caption: 在统一多模态模型中,图像生成有三种设计方案。所有方案均采用自回归 + 扩散框架,但在图像生成组件上各有不同。对于流匹配损失,保持自回归模型冻结,仅微调图像生成模块 (Diffusion Transformer),以保留模型的语言能力。
下图对比了这三种方案在相同设置下的表现,证明CLIP + Flow Matching能在提示对齐、图像多样性与视觉质量之间取得最佳平衡。
Caption: 不同方案的对比
研究者发现将图像生成集成到统一模型时,自回归模型对语义级特征(CLIP)的学习比对像素级特征(VAE)的学习更为高效。同时,将流匹配 (Flow Matching)作为训练目标能够更好地捕捉图像分布,从而带来更丰富的样本多样性和更出色的视觉质量。同时有两个阶段的扩散过程,相对于传统的一个阶段的扩散模型,将图像生成分解成了两个阶段,第一阶段自回归模型和 diffusion transformer 只负责生成语义特征,第二阶段再由一个轻量的扩散模型来补全 low-level 特征,从而大幅减轻训练压力。
统一图像理解与生成
通过 CLIP 编码器,图像理解与图像生成共用同一语义空间,实现了两者的统一。
研究者采用顺序训练(late fusion)而非联合训练(early fusion),原因在于:
可以冻结自回归模型,保留其图像理解能力;把全部训练资源集中在图像生成模块,避免多任务间的相互干扰。
caption:联合训练(early fusion)同时更新理解和生成模块,顺序训练 (late fusion)先独立调优「理解」,再冻结骨干只训练「生成」。
BLIP3-o:统一多模态模型
基于上述对比,研究者选定CLIP + Flow Matching与顺序训练 (late fusion),构建了 4B 和 8B 参数的 BLIP3-o:
预训练数据:25M 开源图文 + 30M 专有图像图像字幕 (caption):均由 Qwen-2.5-VL-7B-Instruct 生成,平均 120 token;为增强对短提示的适应,还额外混入~10%(6M)的短字幕(20 token)4B 参数开源模型:纯 25M 开源图文对,及~10%(3M)短字幕指令微调:GPT-4o 生成 60K 条高质量示例,显著提升提示对齐和视觉美感
所有代码、模型、数据均陆续开源中,欢迎试用!
Caption: BLIP3-o 可视化示例
研究者发现:
模型能迅速调整至 GPT-4o 风格,提示对齐 (instruction following) 和视觉质量均大幅提升。
caption:图像理解表现
Caption: 图像生成的基准性能与人工评估
结论
本文首次系统地探索了结合自回归与扩散架构的统一多模态建模,评估了三个关键维度:图像表示(CLIP 特征 vs. VAE 特征)、训练目标(流匹配 vs. MSE)和训练策略(early fusion vs. 顺 late fusion)。实验结果表明,将 CLIP 嵌入与流匹配损失相结合,不仅加快了训练速度,也提升了生成质量。
基于这些发现,本文推出了 BLIP3-o, 一系列先进的统一多模态模型,并通过 BLIP3o-60k 6 万条指令微调数据集,大幅改善了提示对齐效果和视觉美感。研究者还正在积极开展该模型的应用研究,包括迭代图像编辑、视觉对话和逐步视觉推理。
《倪克斯被❌爆乳狂C的小说》,《w3u7903ejky2ywls》黑土本子奖励专用网站
“少萝自愿裸体❌❌”
13小男生GAY自慰脱裤子网站
……
05月31日
“美女校花🌸张开腿让我❌动漫”北交所:未开展加密货币交易业务
↓↓↓
05月31日,探访澳大利亚悉尼唐人街,龙宙堕落记无删减版漫画下拉,欧美做受高潮喷水白丝袜,微勃破解板官方网入口,孕妇胸的隐私㊙️图片高清
05月31日,山西将迎持续降雪天气 或影响春运返程,女坐隐私㊙️黄www.图片,龙珠18❌AV黄漫网站,女女H百合无遮羞羞漫画软件,京剧猫小青被狂揉下部❌拔萝卜
05月31日,(新春走基层)中越边境上的东兴市站首迎春运“大考”,宝宝你被c的时候好骚,博人把雏田狂❌❌❌在线,男男扒开🍑伸进🍌❌,女生在床上放屁拉肚子拉裤子
05月31日|中科卫星空天信息产业基地“落户”合肥 集中签约一批重点项目|散兵脱裤子自慰|少妇裸体自慰Porn|禁止免下载观看|男生把🐔🐔桶30分钟无需网
05月31日|《繁花》、“科目三”火到台湾,再正常不过了!|春野樱爆乳❌🔞🔞㊙️|开户猎手(破解版)|乱亲女洗澡69XX|女同闺蜜互慰高潮
05月31日|北京首家华为旗舰店展示电动汽车|别摸了我尿了啊嗯|992tv在线观看免费进|未来初音裸体自慰被暴❌|91精品秘密㊙️福利姬……
05月31日,深入推动长江经济带建设 “川—鄂—沪”长江班轮首航,91学生精品白嫩在线,小柔被体育老师c到流白浆作文,班长🌿我~慢点~好爽小作文,女fyee牲zozo交体内谢
05月31日,西部陆海新通道省际协商合作联席会议第四次会议在渝举行,爽⋯好大⋯快⋯深点无码免费看,白光莹被C的合不拢腿H,狠狠干,男生露出🐔🐔给别人摸
05月31日|牛皮船,“划”向广阔天地|蠢沫沫全册资源在线观看|爽⋯躁多水⋯快⋯深鑫|美女扒开内👙内裤看个够|18无套直蓝莓视频
05月31日,中关村论坛年会期间将举办中关村国际前沿科技大赛总决赛,男生撒尿无遮挡㊙️视频,房东含着我的奶边摸边做,雏田小樱被鸣人无码,jm网页打不开
05月31日,第92届好莱坞圣诞大游行欢乐登场 “大熊猫”亮相备受欢迎,㊙️羞羞漫画入口网站,双男主被❌到爽🔞流游戏,美妙羞意,重口猎奇91黑料网
05月31日,河北昌黎:盐碱地上稻飘香,淫纹贴骚私处漫画,男男GayGays✅打男生屁股网站,掀开奶罩边躁狠狠躁软学生软件,巨乳❌❌❌的爱
05月31日|“不制止补课被处分”的班主任很冤吗?|女人荫蒂被添全过程A片|国语对白做受❌❌❌按摩|maurten棒球兄弟|男人与牛性口牲恔配视频
05月31日|川航飞机右侧引擎起火,为何盘旋16圈才降落?专家解读|国风产精品㊙️入口羞羞视频|主人请主人打烂贱狗耳光视频|美女裸体100%裸露全身无遮挡|玖辛奈本子🈲🔞🔞🈲
05月31日|春节临近 南昌新春饰品走俏年味渐浓特定体质的人群更怕冷 中医专家:属于阳虚状态 日常保养可改善|国产在线秘麻豆苏畅|茜特垃莉被爆❌黄漫|夸克咚咚资原|日产国产亚洲A片无🈚码
鲁保罗变装皇后秀 第十六季,金世佳和王传君打过视频后哭了|日本女川核电站一设备意外启动 电力公司称无辐射影响|欧美大片颜色指数六颗星|日本打白嫩㊙️光屁屁硬|裸体春丽被❌到爽网站|性裸交❌❌❌❌❌女m
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺