E8 专访张祥雨：多模态推理和自主学习是未来的 2 个「GPT-4」时刻

本期播客采访了一位 AI 科学家张祥雨，主要探讨了 AGI（通用人工智能）的技术发展动态和个人研究视角。张祥雨回顾了自己从博士阶段研究模型放大，到在旷视做小模型，再到重新做大模型的学术经历，分享了在 CV 领域模型和数据 scaling 上的探索，以及对多模态模型，特别是视觉领域智能的深刻思考。他认为纯视觉 domain 存在问题，并提出了利用视觉和语言对齐关系的短期目标和通过视频挖掘视觉智能的长期目标。此外，还深入讨论了 next-token prediction 的缺陷，以及如何通过 RL 和反思机制来改进模型，对多模态推理的 GPT 时刻进行了展望，并对 Long Context 的重要性及建模方式提出了独特的见解。

Outlines

Part 1: 播客介绍与嘉宾背景

Part 2: 多模态模型与视觉理解

Part 3: Long Context与自主学习

Sign in to continue reading, translating and more.

Continue

海外独角兽

Part 1: 播客介绍与嘉宾背景

播客介绍及嘉宾介绍

张祥雨的学术经历和模型缩放研究

小模型研究与数据缩放的挑战

Part 2: 多模态模型与视觉理解

对比学习、Transformer 在 CV 领域的应用及局限性

视觉、语言数据差异与 AGI 研究方向

多模态模型研究与挑战：理解与生成的一体化

多模态模型的理解与生成迭代及局限性

Reinforcement Learning (RL) 的应用与局限性

思维链 Pattern、反思机制与多模态推理

视觉理解的 COT 与多模态 GPT-4 时刻

高可控视觉生成、数据清洗和多模态推理的未来

Part 3: Long Context与自主学习

Long Context 的重要性、局限性和多 Agent 协作机制

自主学习、在线学习及对基础模型范式的潜在影响

Agent 的不同理解、世界模型与 AGI 的终局形态

E8 专访张祥雨：多模态推理和自主学习是未来的 2 个 「GPT-4」 时刻

海外独角兽

Part 1: 播客介绍与嘉宾背景

00:00播客介绍及嘉宾介绍

播客介绍及嘉宾介绍

01:22张祥雨的学术经历和模型缩放研究

张祥雨的学术经历和模型缩放研究

04:55小模型研究与数据缩放的挑战

小模型研究与数据缩放的挑战

Part 2: 多模态模型与视觉理解

10:08对比学习、Transformer 在 CV 领域的应用及局限性

对比学习、Transformer 在 CV 领域的应用及局限性

16:07视觉、语言数据差异与 AGI 研究方向

视觉、语言数据差异与 AGI 研究方向

22:33多模态模型研究与挑战：理解与生成的一体化

多模态模型研究与挑战：理解与生成的一体化

31:04多模态模型的理解与生成迭代及局限性

多模态模型的理解与生成迭代及局限性

43:06Reinforcement Learning (RL) 的应用与局限性

Reinforcement Learning (RL) 的应用与局限性

58:12思维链 Pattern、反思机制与多模态推理

思维链 Pattern、反思机制与多模态推理

1:16:22视觉理解的 COT 与多模态 GPT-4 时刻

视觉理解的 COT 与多模态 GPT-4 时刻

1:31:04高可控视觉生成、数据清洗和多模态推理的未来

高可控视觉生成、数据清洗和多模态推理的未来

Part 3: Long Context与自主学习

1:43:02Long Context 的重要性、局限性和多 Agent 协作机制

Long Context 的重要性、局限性和多 Agent 协作机制

2:03:34自主学习、在线学习及对基础模型范式的潜在影响

自主学习、在线学习及对基础模型范式的潜在影响

2:16:05Agent 的不同理解、世界模型与 AGI 的终局形态

Agent 的不同理解、世界模型与 AGI 的终局形态

E8 专访张祥雨：多模态推理和自主学习是未来的 2 个「GPT-4」时刻