Character.AI推出具备实时AI视频技术的TalkingMachines
Character.AI宣布了在实时视频生成领域的重大进展,推出了创新的自回归扩散模型TalkingMachines。这项新技术支持创建互动、音频驱动的FaceTime风格视频,使角色能够以不同风格和类型实时对话,正如Character.AI博客所报道的那样。
革新视频生成
TalkingMachines建立在Character.AI此前的作品AvatarFX之上,它在Character.AI平台上驱动视频生成。这个新模型为沉浸式、实时AI视觉互动和动画角色奠定了基础。仅需一张图像和一个语音信号,模型便可生成动态视频内容,为娱乐和互动媒体打开了新的可能性。
TalkingMachines背后的技术
该模型利用了扩散变换器(DiT)架构,采用了一种被称为不对称知识蒸馏的方法。此方法将高质量的双向视频模型转换为快速的实时生成器。主要特点包括:
- 流匹配扩散:预训练以管理复杂的运动模式,从细微的表情到动态手势。
- 音频驱动的交叉注意:一个拥有12亿参数的音频模块,将声音与动作精细排列。
- 稀疏因果注意:通过关注相关的历史帧来减少内存和延迟。
- 不对称蒸馏:采用快速的两步扩散模型,实现无限长度生成而不损失质量。
对未来的影响
这一突破不仅限于面部动画,还为互动视听AI角色铺平了道路。它支持从写实到动漫以及3D头像等各种风格,有望通过自然的说话与聆听阶段提升流媒体体验。这项技术为角色扮演、故事讲述和互动世界构建奠定了基础。
推进AI能力
Character.AI的研究标志着多项进步,包括实时生成、高效蒸馏和高扩展性,操作仅需使用两个GPU。系统还支持多角色互动,实现无缝的角色对话。
未来前景
尽管尚未推出产品,但这一发展是Character.AI路线图中的一个关键里程碑。公司正努力将此技术整合到其平台中,目标是实现FaceTime式的体验、角色流媒体和视觉世界构建。最终目标是实现沉浸式视听角色的创作与互动的民主化。
Character.AI在训练架构和系统设计方面进行了大量投资,利用了超过150万经过筛选的视频片段和一个三阶段的训练管道。此方法体现了前沿研究在AI技术中的精确性和目的性。
Read More
Character.AI Unveils Real-Time AI Video Technology with TalkingMachines
Jul 04, 2025 1 Min Read
Render Network Celebrates June 2025 Render Royale Winners
Jul 04, 2025 1 Min Read
NVIDIA Unveils Data Flywheel Blueprint to Optimize AI Agents
Jul 04, 2025 1 Min Read
Sei Network Integrates Model Context Protocol for Enhanced AI Blockchain Interactions
Jul 04, 2025 1 Min Read
CoreWeave Marks Milestone with NVIDIA GB300 NVL72 Platform Deployment
Jul 04, 2025 1 Min Read