正文

全球首个大一统多模态视频模型可灵O1发布让P视频像P图一样简单

亿通速配 V管理员 /2025-12-02 20:20:04/25阅读/0评论

1202

文章最后更新时间2025年12月02日，若文章内容或图片失效，请留言反馈！

近日，全球首个大一统的多模态视频、图片创作工具"可灵O1"正式上线。可灵O1基于全新的视频和图像模型，以自然语言作为语义骨架，配合视频、图片、主体等多模态描述，将所有生成和编辑任务融合于一个全能引擎之中，为用户搭建全新的多模态创作流，实现从灵感到成品的一站式闭环。

大一统模型，解决视频创作的所有难题

作为首个大一统多模态视频模型，可灵O1基于MVL（Multi-modal Visual Language，多模态视觉语言）理念，打破了传统单一视频生成任务的模型边界，将参考生视频、文生视频、首尾帧生视频、视频内容增删、视频修改变换、风格重绘、镜头延展等多种任务，融合于同一个全能引擎之中，使得用户无需在多个模型及工具间跳转，即可一站式完成从生成到修改的全部创作流程。

依托可灵视频O1模型的深层语义理解力，用户上传的图片、视频、主体、文字——在可灵O1眼中，皆是指令。模型打破了模态限制，能够综合理解一张照片、一段视频或一个主体，甚至一个角色的不同视角，精准生成各种细节。

可灵O1的多模态指令输入区，让繁琐的剪辑后期变成了简单的对话。用户无需手动遮罩或关键帧，只需输入「移除路人」、「将白天改为黄昏」或「替换主角服装」，模型即可读懂影像逻辑，从局部的主体替换，到整体的视频风格重绘，自动完成像素级的语义重构。此外，如图片/主体参考；指令变换（视频增加、删除内容、切换景别/视角、视频修改任务等）、视频参考、首尾帧、文生视频等能力也一并支持。

针对AI视频难以落地的痛点——角色与场景的一致性，可灵O1底层强化了对输入图像及视频的理解。它能像人类导演一样，“记住”主角、道具和场景。无论镜头如何流转，主体特征始终稳定如一。此外，该模型展现了强大的多主体融合能力。用户可以自由组合多个不同主体，或将主体与参考图混搭。即便是在复杂的群像戏或互动场景中，模型也能独立锁定并保持每一位角色或道具的特征，确保“主角”在不同镜头中实现工业级的特征统一。

不再局限于单点任务，而是支持“技能组合”。用户可以要求可灵O1“在视频中增加主体的同时修改背景”，或者“在图片参考生成时，同步修改风格”。这种一次生成多种创意变化的能力，极大地拓展了创作的自由度，让创意的化学反应成为可能。

叙事时长自由定义，让每一段故事都有其独特的呼吸感。可灵O1将定义时间的权力交还给创作者，支持3-10秒自由生成。无论是短促的视觉冲击，还是悠长的故事铺陈，都由用户自由掌控。值得注意的是，作为统一模型的一部分，可灵O1的首尾帧能力也将支持3-10秒的生成时长选择（即将发布），这将进一步增强叙事的张弛度。

一同登场的还有可灵图像O1模型，可实现从基础图像生成到高阶细节编辑全链路无缝衔接，用户既可通过纯文本生成图像，也可上传最多10张参考图进行融合再创作。该模型具备四大核心优势：特征高度保持，让主体元素稳定不偏差；细节修改精准响应，让每一处调整都符合预期；风格调性准确把控，让画面氛围始终统一；超丰富想象力，让创意呈现更具张力，真正实现“所想即所得”。

一个模型，搞定影视、自媒体、广告电商等多视频创作场景

全新的可灵O1集生成与编辑于一体，可广泛适用于影视、自媒体、广告电商等多种场景。无论是从零构建的叙事生成，还是对既有素材的深度重塑，可灵O1都能根据不同需求，灵活调用其参考、编辑的能力，轻松完成创作。

在影视创作领域，凭借可灵O1的超强一致性的图片（主体）参考，配合主体库功能，可以精准锁定每个分镜的角色及服化道，轻松创作生成多个连贯的影视镜头；而对于视频后期、自媒体创作者来说，可通过简单对话式的提示词，如输入“删除背景中的路人”、“让天空变蓝”，就能让可灵O1自动完成像素级的智能修补与重构。

针对传统线下广告实拍成本高，制作周期长的问题。如今用户只需上传商品图、模特图和场景图，配合简单指令描述，即可快速生成多个酷炫的商品展示广告，大幅降低实拍成本。针对模特约拍麻烦、更换背景/服装需要重复拍摄等问题，使用可灵O1，能搭建你的永不落幕的虚拟T台：上传模特 + 服装实拍图，输入指令，完美还原服饰的质感和细节，批量生产高质量的 Lookbook 视频。

据悉，可灵O1能实现上述强大而全面的功能，源于在技术底座上的深层创新。全新的可灵视频O1模型打破视频模型在生成、编辑与理解上的功能割裂，构建了全新的生成式底座。融合多模态理解的Multimodal Transformer和多模态长上下文，实现了多任务的深度融合与统一。

相关阅读

发表评论取消回复

评论列表（暂无评论，25人围观）

还没有评论，来说两句吧...

目录[+]