Sora 的惊喜与失望，「世界模型」的可能与想象｜串台 OnBoard!

本播客节目探讨了视频生成领域的前沿进展和挑战，重点关注 Sora 等多模态模型。嘉宾介绍了 Sora 独特的技术创新，包括动态分辨率训练、多维位置编码和高质量数据集，使该模型能够生成高分辨率且不同长度的视频。此外，专家们讨论了 Sora 对生成式 AI 能力的扩展，包括用文本生成音频文件和探索视频理解任务的潜力。

Outlines

Sign in to continue reading, translating and more.

Continue

此话当真

Transformer模型在视频生成领域的应用与挑战

GPT-4和Sora：多模态模型的惊人进步

Sora：惊艳的视频生成模型，解锁视频生成新高度

视频生成模型的压缩技术

多模态模型中的压缩网络及其重要性

生成式AI模型的涌现能力

Diffusion Model 与 Auto Regressive Model 的融合之路

语言模型的压缩理论与视频模型的生成算法

Sora与语言模型的训练目标有何异同

Sora 的算力需求和 Encoder-Decoder 缩放的影响

视频生成模型的未来发展与挑战

视频生成和世界模型中的实时知识获取

扩散模型优化方向和挑战

数据质量与模型效果的悖论

游戏引擎数据：视频模型的物理定律补全剂

Sora模型的误解与低估

多分辨率技术助力视频生成，OpenAI引领追赶之路

Sora的视频生成技术有望在半年内追赶GP4

Diffusion Transformer与世界模型的融合探索

Sora 的惊喜与失望，「世界模型」的可能与想象｜串台 OnBoard!

此话当真

00:02Transformer模型在视频生成领域的应用与挑战

Transformer模型在视频生成领域的应用与挑战

03:40GPT-4和Sora：多模态模型的惊人进步

GPT-4和Sora：多模态模型的惊人进步

07:07Sora：惊艳的视频生成模型，解锁视频生成新高度

Sora：惊艳的视频生成模型，解锁视频生成新高度

11:08视频生成模型的压缩技术

视频生成模型的压缩技术

16:56多模态模型中的压缩网络及其重要性

多模态模型中的压缩网络及其重要性

20:05生成式AI模型的涌现能力

生成式AI模型的涌现能力

25:25Diffusion Model 与 Auto Regressive Model 的融合之路

Diffusion Model 与 Auto Regressive Model 的融合之路

32:19语言模型的压缩理论与视频模型的生成算法

语言模型的压缩理论与视频模型的生成算法

40:34Sora与语言模型的训练目标有何异同

Sora与语言模型的训练目标有何异同

46:49Sora 的算力需求和 Encoder-Decoder 缩放的影响

Sora 的算力需求和 Encoder-Decoder 缩放的影响

51:37视频生成模型的未来发展与挑战

视频生成模型的未来发展与挑战

58:14视频生成和世界模型中的实时知识获取

视频生成和世界模型中的实时知识获取

1:04:36扩散模型优化方向和挑战

扩散模型优化方向和挑战

1:09:17数据质量与模型效果的悖论

数据质量与模型效果的悖论

1:16:03游戏引擎数据：视频模型的物理定律补全剂

游戏引擎数据：视频模型的物理定律补全剂

1:24:27Sora模型的误解与低估

Sora模型的误解与低估

1:30:08多分辨率技术助力视频生成，OpenAI引领追赶之路

多分辨率技术助力视频生成，OpenAI引领追赶之路

1:35:14Sora的视频生成技术有望在半年内追赶GP4

Sora的视频生成技术有望在半年内追赶GP4

1:41:27Diffusion Transformer与世界模型的融合探索

Diffusion Transformer与世界模型的融合探索