通义万相近期(2025年底至2026年初)经历了重大升级,其核心方向已从单纯的“AI绘图”全面进化为“音视频全栈创作”。
以下是通义万相的最新动态及亮点:
2025年12月,阿里正式发布通义万相 2.6。这是该系列迄今为止最重要的更新,核心突破在于“一致性”与“多模态融合”:
国内首个角色扮演(Character ID)功能: 解决了AI视频中角色“变脸”的痛点。用户只需上传一张照片,AI即可在生成的视频中保持同一人物的脸部特征、身材和穿着,实现连续、稳定的角色叙事。
音画同步(Audio-Visual Sync): 生成视频的同时自动配上契合场景的背景音乐或音效,告别“哑巴视频”。
声音驱动: 支持通过语音输入驱动视频中的人物开口说话,口型同步精度大幅提升。
随万相 2.6 同步推出的功能,主要集成在通义APP(原通义千问)中:
角色合拍: 用户可以选取内置的经典IP或自行上传角色,通过简单的文字描述让两个角色在同一场景下互动。
多镜头控制: 支持推、拉、摇、移等专业摄影机位的指令,使得生成的视频更具“电影感”。
在2025年初的权威评测中,通义万相 2.1 及其后续版本在视频生成大模型榜单(如 VBench)上表现出色:
总分领先: 在肢体运动稳定性、语义理解准确度等16个维度上获得高分,超越了部分国内外同类模型。
DiT 架构优化: 采用了自研的 Diffusion Transformer 架构,使得生成的画面在 1080P 分辨率下依然保持极高的清晰度和光影质感。
阿里云百炼平台: 通义万相已深度集成至阿里云“百炼”平台,企业开发者可以通过 API 调用最新的视频生成能力,应用于广告营销、短剧制作等工业化生产。
免费开放: 目前万相 2.6 的核心能力在通义 APP 和万相官网上向普通用户免费开放体验。
| 动态维度 | 关键突破 | 核心价值 |
| 视频生成 | 万相 2.6 发布 | 支持长视频、高一致性角色生成 |
| 互动玩法 | AI 小剧场 | 国内首个实现“多角色合拍”的消费级应用 |
| 技术底座 | DiT + 语音驱动 | 实现音画同步,提升视频的真实感与表现力 |
| 应用场景 | 专业影视 + 电商 | 降低了角色连续性视频的创作门槛 |
一句话总结: 现在的通义万相不仅能画出精美的静态画作,更是一个能听懂指令、能保持角色一致、且自带背景音乐的AI视频工厂。