本期播客节目介绍了阿里巴巴通义实验室XR实验室负责人薄烈锋博士分享的多模态领域的发展历程和进展。他通过Anumate Anyone和EMO两个项目展示了多模态技术在视频生成和语音驱动图像动画方面的应用。讨论了Sora视频生成模型对行业的冲击以及多模态技术在人工智能发展中的作用和挑战。还涉及了数字人的基本问题,包括数字资产和数字人技能生成。此外,还探讨了语音驱动技术在创建EMO上的应用、大模型与非大模型的区别、多模态技术在学术和应用领域的交集,以及多模态研究的演变和与深度学习的关系。最后,讨论了多模态领域的人才需求和技术发展趋势以及多模态发展中存在的不确定性和世界模型的不同实现方式。
Sign in to continue reading, translating and more.
Continue