猫眼电影
猫眼电影记者 郑一真 报道w3u7903ejky2ywls
机器之心发布
机器之心编辑部
随着 Deepseek 等强推理模型的成功,强化学习在大语言模型训练中越来越重要,但在视频生成领域缺少探索。复旦大学等机构将强化学习引入到视频生成领域,经过强化学习优化的视频生成模型,生成效果更加自然流畅,更加合理。并且分别在 VDC(Video Detailed Captioning)[1] 和 VBench [2] 两大国际权威榜单中斩获第一。
视频细粒度文本描述
视频细粒度文本描述模型(video detailed caption)为视频生成模型提供标签,是视频生成的基础。复旦大学等机构提出了 Cockatiel 方法 [3],该方法在权威的 VDC(Video Detailed Captioning 视频细粒度文本描述评测集)榜单上获得第一名,超过了包括通义千问 2-VL、VILA1.5、LLaVA-OneVision,Gemini-1.5 等在内的多个主流视频理解多模态大模型。
论文标题:Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption项目主页: https://sais-fuxi.github.io/projects/cockatiel/论文地址: https://arxiv.org/pdf/2503.09279Github: https://github.com/Fr0zenCrane/Cockatiel
Cockatiel 的核心思路是:基于人类偏好对齐的高质量合成数据,设计三阶段微调训练流程,系统集成了多个在不同描述维度上表现领先的模型优势。通过这一方法,以单机的训练成本训练出了一套在细粒度表达、人类偏好一致性等方面均表现卓越的视频细粒度描述模型,为后续视频生成模型的训练和优化打下了坚实基础,模型细节如下(更多详情可参考论文和开源 github):
阶段一:构造视频细粒度描述的人类偏好数据:分别对视频描述的对象、对象特征、动态特征、镜头动作和背景的文本描述质量进行人工标注。阶段二:基于打分器的多模型集成训练:基于人工标注数据训练奖励函数(reward model),并多个模型合成的视频描述计算奖励(reward),最终对 13B 的多模态大语言模型进行人类偏好对齐优化。阶段三:蒸馏轻量化模型:基于上一步训练的 13B 的多模态大语言模型蒸馏 8B 模型,方便后续在下游任务中低成本推理。
实验结果显示基于 Cockatiel 系列模型生成的视频细粒度描述,具备维度全面、叙述精准详实以及幻觉现象较少的显著优势。如下图所示,与 ViLA,LLaVA 和 Aria 的基线模型相比,Cockatiel-13B 不仅能够准确复现基线模型所描述的细节(以黄底高亮部分表示),还能捕捉到基线模型遗漏的关键信息(以红底高亮部分表示)。而 Cockatiel 生成的描述则大量避免了幻觉性内容,Cockatiel 展现了更高的可靠性和准确性。
强化学习加强的视频生成技术
在视频生成领域,该团队首次提出了迭代式强化学习偏好优化方法 IPOC [4],在权威视频生成评测榜单 VBench (2025-04-14) 上,IPOC 以 86.57% 的总分强势登顶,领先通义万相、Sora、HunyuanVideo、Minimax、Gen3、Pika 等众多国内外知名视频生成模型。
论文标题:IPO: Iterative Preference Optimization for Text-to-Video Generation论文地址:https://arxiv.org/pdf/2502.02088项目主页:https://yangxlarge.github.io/ipoc//GitHub 地址:https://github.com/SAIS-FUXI/IPO
研究者通过迭代式强化学习优化方式,避免了强化学习中训练不稳定的问题。同时只需要依赖少量的训练数据和算力,以低成本实现效果优化。 模型细节如下(更多详情可参考论文和开源 github):
阶段一:人工偏好数据标注:IPO 方法通过逐视频打分(Pointwise Annotation)与成对视频排序(Pairwise Annotation)两种方式进行人工标注。标注过程中,标注者不仅需要提供评分或排序结果,还需详细阐述评分理由,以构建具有思维链(Chain-of-Thought, CoT)风格的标注数据。这种标注形式有助于模型深入理解视频内容与文本描述之间的语义一致性,从而形成高质量的人类偏好数据集。
阶段二:奖励模型训练:IPO 方法进一步引入了一种基于多模态大模型的 “奖励模型”(Critic Model)。奖励模型仅通过少量人工标注数据和少量算力即可高效训练完成,随后可自动实现对单个视频的评分以及对多个视频的对比排序。这种设计无需在每次迭代优化时都重新进行人工标注,显著提高了迭代优化效率。此外,奖励模型具备出色的通用性和 “即插即用” 特性,可广泛适配于各类视频生成模型。
阶段三:迭代强化学习优化:IPO 方法利用当前的视频生成(T2V)模型生成大量新视频,并由已训练的奖励模型对这些视频进行自动评价与标注,形成新的偏好数据集。随后,这些自动标注的数据用于进一步优化 T2V 模型。这一过程持续迭代循环,即:“视频生成采样 → 样本奖励计算 → 偏好对齐优化”。此外,我们提出的 IPO 框架同时兼容当前主流的偏好优化算法,包括基于对比排序的 Diffusion-DPO 方法与基于二分类评分的 Diffusion-KTO 方法,用户可灵活选择训练目标,其中两种人类偏好对齐方法(DPO 和 KTO)的训练目标为:
DPO (Direct Preference Optimization):
KTO (Kahneman-Tversky Optimization):
实验结果显示经过优化后,视频生成模型在时序一致性上实现了显著提升。相比于 CogVideoX-2B(左图),IPOC-2B 生成的视频(右图)中,狮子的行走动作更加自然连贯,整体动态流畅度有了明显改善。
视频链接:https://mp.weixin.qq.com/s/ul5gcS3tqrKo8Z_mSMiJhw
Prompt: An astronaut in a sandy-colored spacesuit is seated on a majestic lion with a golden mane in the middle of a vast desert. The lion's paws leave deep prints in the sand as it prowls forward. The astronaut holds a compass, looking for a way out of the endless expanse. The sun beats down mercilessly, and the heat shimmers in the air.
视频生成模型在结构合理性提升明显。相比于 CogVideoX-2B(左图),IPOC-2B 生成的视频(右图)中,人物和猛犸象具有更好结构合理性。
视频链接:https://mp.weixin.qq.com/s/ul5gcS3tqrKo8Z_mSMiJhw
Prompt: A young girl in a futuristic spacesuit runs across a vast, icy landscape on a distant planet, with a towering mammoth-like creature beside her. The mammoth's massive, shaggy form and long tusks contrast with the stark, alien environment. The sky above is a deep, star-filled space, with distant planets and nebulae visible.
视频生成模型在动态程度和美学度都有明显提升,相比于 CogVideoX-2B(左图),IPOC-2B 生成的视频(右图)中,人物动作更加流畅,人物和背景更好美观。
视频链接:https://mp.weixin.qq.com/s/ul5gcS3tqrKo8Z_mSMiJhw
Prompt: A woman with flowing dark hair and a serene expression sits at a cozy The café, sipping from a steaming ceramic mug. She wears a soft, cream-colored sweater and a light brown scarf, adding to the warm, inviting atmosphere. The The café is dimly lit with soft, ambient lighting, and a few potted plants add a touch of greenery.
相关内容:
[1].Chai, Wenhao, Enxin Song, Yilun Du, Chenlin Meng, Vashisht Madhavan, Omer Bar-Tal, Jenq-Neng Hwang, Saining Xie, and Christopher D. Manning. "Auroracap: Efficient, performant video detailed captioning and a new benchmark." arXiv preprint arXiv:2410.03051 (2024).Project Page:https://wenhaochai.com/aurora-web/
[2].Huang, Ziqi, Yinan He, Jiashuo Yu, Fan Zhang, Chenyang Si, Yuming Jiang, Yuanhan Zhang et al. "Vbench: Comprehensive benchmark suite for video generative models." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 21807-21818. 2024.Project Page:https://vchitect.github.io/VBench-project/
[3].Qin, Luozheng, Zhiyu Tan, Mengping Yang, Xiaomeng Yang, and Hao Li. "Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption." arXiv preprint arXiv:2503.09279 (2025).Porject Page:https://sais-fuxi.github.io/projects/cockatiel/
[4].Yang, Xiaomeng, Zhiyu Tan, and Hao Li. "Ipo: Iterative preference optimization for text-to-video generation." arXiv preprint arXiv:2502.02088 (2025). Porject Page:https://yangxlarge.github.io/ipoc//
时事1:崩坏3爱莉希雅女仆装
05月15日,大同古城开城迎宾盛典 展现北魏盛世壮阔,
“小紫你们快长大,好带着我去山脉深处看一看。”小不点搂着它们的脖子,扑闪着大眼,露出希冀之色。而后,他又开始探索三头幼鸟的原始宝符,研究这个种族独有的神秘力量。
,我把科莱特❌了一晚上。05月15日,沈阳优化资源配置 推动成品油流通行业持续发展,
海面都红了,漂浮着众多尸体,各个种族的都有,喊杀震天,鲲鹏之无上宝术将出,各族精英尽出。
第二百三十三章 冲突与强势,精品人妻无码一区二区三区李丽珍,丰满大肥奶肥婆BBBwww,班长拉起胸让我的🍌伸进去动漫。时事2:女仆被强❌喷水羞羞视频
05月15日,四川4市共建丘区农机装备产业园,
当年,金狼部落未曾迁移前,年年岁岁都要朝贡一个古国,而其祖先更是在那里立过不世大功,被赐予了一件宝具——狼牙匕。
,别c我⋯啊⋯嗯上课呢抽搐,女人与动物交配一区2区三区四区,大淼淼77ee。05月15日,统战力量因地制宜施策 助浙江新昌低收入家庭“奔中”,
最后,祝大家假期快乐,并预祝大家新年大发!
,扒开胡桃❌揉动❌,免费看男人吃奶摸捏奶头视频,免费🔞成人❌❌❌结动漫。时事3:贺朝不让谢俞尿出来
05月15日,《中国大百科全书》第三版首批纸质版图书集中面市,
●一、以认真、专业、务实的工作作风,认真落实党建和党风廉政建设责任制,按照山东----有限公司党委的工作部署,认真抓好党建、党风廉政建设、实现思想政治工作、职工队伍建设和企业文化建设的制度化、规范化、经常化。紧紧围绕搞好生产经营、稳定职工队伍、促进企业发展的中心,不断适应新形势、新任务的要求,不断创新工作思路,不断改进工作的方式方法,积极主动地发挥好党委、党支部的战斗堡垒作用、的先锋模范作用。
,好爽~要尿了~要喷了~同桌,李淑芬无力的张开双腿视频,韩国19禁유하AV无码。05月15日,四川将打造西部地区创新高地 提高科技进步对经济增长贡献率,
一声莽牛咆哮,声传上百里,离火冲天,一头赤红如血的巨牛,高达十几米,长达三十米,自一座裂开的大山中冲出,带着岩浆,裹着火光。
,初中女生光溜溜身子图片,草莓视频下载18,国产➕刺激➕高潮➕免费游戏。时事4:【免費A漫 - 禁漫天堂
05月15日,专家:泡脚水温过高会影响睡眠,时间以15分钟到30分钟为宜,
第四、提高服务群众、为民办实事的能力。 农村基层干部直接和农民群众打交道,官虽然不大,但其作用和能量却不可低估。群众始终把我们当成党和政府形象的化身。农村基层干部认真为群众办实事,遇事同群众商量,干部的形象就好,党在农民群众中的威望就高。反之,就会直接影响党和政府的形象。我们要切实解放思想,转变观念,自觉地从那些不合时宜的观念、做法和体制的束缚中解放出来,破除不思进取、小富即安的思想,树立强烈的发展意识;破除墨守成规、因循守旧的思想,树立强烈的创新意识;破除封闭保守、固步自封的思想,树立强烈的开放意识。按照县委总体发展目标和发展思路,把主要精力放在实施 “ 六大工程 ” 、 “ 三大战役 ” ,搞活商贸流通,培育新的经济增长点,增加农民的收入上来。要通过提高服务水平,帮助群众解决好制约发展的各种问题,为群众提供良好的产前、产中、产后服务。特别要结合落实中央四个长效机制文件,巩固先进性教育成果,落实服务承诺制,开展各种便民利民活动,切实为群众办实事,做好事,解决好群众最直接、反映最强烈的热点难点问题,帮助解决一家一户难以解决的问题,努力为群众发展经济排忧解难,推动农村经济发展,实现共同富裕。
,99亚洲欲妇❌❌❌❌❌,XXXX69馃崋馃崋HT,丝袜脚交视频。05月15日,文旅热、体育改革……“部长通道”有最新回应,
众人露出异色,收一个奇才为徒,还可以带走太古魔禽的后裔,更能得到狻猊宝骨,这笔帐太划算了。故此,又有几股势力开口。
,av无码高潮+学生,张元英爆乳被❌自慰流,女厕撒尿看个够。责编:赵诗敏
审核:秦光荣
责编:黄家驹