本期播客采访了一位 AI 科学家张祥雨,主要探讨了 AGI(通用人工智能)的技术发展动态和个人研究视角。张祥雨回顾了自己从博士阶段研究模型放大,到在旷视做小模型,再到重新做大模型的学术经历,分享了在 CV 领域模型和数据 scaling 上的探索,以及对多模态模型,特别是视觉领域智能的深刻思考。他认为纯视觉 domain 存在问题,并提出了利用视觉和语言对齐关系的短期目标和通过视频挖掘视觉智能的长期目标。此外,还深入讨论了 next-token prediction 的缺陷,以及如何通过 RL 和反思机制来改进模型,对多模态推理的 GPT 时刻进行了展望,并对 Long Context 的重要性及建模方式提出了独特的见解。
Sign in to continue reading, translating and more.
Continue