通义万相重大升级“AI绘图”全面进化为“音视频全栈创作”


通义万相近期(2025年底至2026年初)经历了重大升级,其核心方向已从单纯的“AI绘图”全面进化为“音视频全栈创作”。

以下是通义万相的最新动态及亮点:

1. 发布万相 2.6 系列:视频生成进入“角色时代”

2025年12月,阿里正式发布通义万相 2.6。这是该系列迄今为止最重要的更新,核心突破在于“一致性”与“多模态融合”:

  • 国内首个角色扮演(Character ID)功能: 解决了AI视频中角色“变脸”的痛点。用户只需上传一张照片,AI即可在生成的视频中保持同一人物的脸部特征、身材和穿着,实现连续、稳定的角色叙事。

  • 音画同步(Audio-Visual Sync): 生成视频的同时自动配上契合场景的背景音乐或音效,告别“哑巴视频”。

  • 声音驱动: 支持通过语音输入驱动视频中的人物开口说话,口型同步精度大幅提升。

2. “AI 小剧场”上线:人人都是导演

随万相 2.6 同步推出的功能,主要集成在通义APP(原通义千问)中:

  • 角色合拍: 用户可以选取内置的经典IP或自行上传角色,通过简单的文字描述让两个角色在同一场景下互动。

  • 多镜头控制: 支持推、拉、摇、移等专业摄影机位的指令,使得生成的视频更具“电影感”。

3. 技术指标:登顶视频大模型竞技场

在2025年初的权威评测中,通义万相 2.1 及其后续版本在视频生成大模型榜单(如 VBench)上表现出色:

  • 总分领先: 在肢体运动稳定性、语义理解准确度等16个维度上获得高分,超越了部分国内外同类模型。

  • DiT 架构优化: 采用了自研的 Diffusion Transformer 架构,使得生成的画面在 1080P 分辨率下依然保持极高的清晰度和光影质感。

4. 商业化与生态集成

  • 阿里云百炼平台: 通义万相已深度集成至阿里云“百炼”平台,企业开发者可以通过 API 调用最新的视频生成能力,应用于广告营销、短剧制作等工业化生产。

  • 免费开放: 目前万相 2.6 的核心能力在通义 APP 和万相官网上向普通用户免费开放体验。

核心动态总结表

动态维度 关键突破 核心价值
视频生成 万相 2.6 发布 支持长视频、高一致性角色生成
互动玩法 AI 小剧场 国内首个实现“多角色合拍”的消费级应用
技术底座 DiT + 语音驱动 实现音画同步,提升视频的真实感与表现力
应用场景 专业影视 + 电商 降低了角色连续性视频的创作门槛

一句话总结: 现在的通义万相不仅能画出精美的静态画作,更是一个能听懂指令、能保持角色一致、且自带背景音乐的AI视频工厂。

通义万相

查看更多行业动态相关文章→返回电商网首页