本期 AIGC 周刊播客主要内容包括:谷歌发布了 Nano Banana 模型,该模型支持多图融合、角色一致性叙事和自然语言定向转换;XAI 发布了代码模型 Grok Code Fast 1,擅长与编码 agent 配合完成编码任务,并且限时免费;Xcode26 可以直接登录账号,调用 GPT5 和 Cloud4 模型来帮助编写代码;Notebook LM 的视频概览能力新增了 80 多种语言;Flow 新用户可以免费使用 VO3;CREA 推出了实时视频生成模型;OpenAI 推出了更先进的语音到语音模型 GPT Realtime;Anthropic 发布了可以控制浏览器的 Cloud 插件;Meta 与 ScaleAI 关系紧张;腾讯开源了 Honeywell Video Foley 端到端文本到视频音频框架;OpenAI 与 Anthropic 互相对对方公开模型进行了安全与对齐评估;阿里开源了 One 2.2 S2V 模型;亚马逊采取内部培养和激励现有员工来应对 AI 人才流失的挑战。此外,还推荐了 Codex IDE 插件版本、Lindy Build、Wanderboat 2.0、画鱼游戏和 A1 个人新闻助理等产品。精选内容包括谷歌 Nano Banana 图像模型幕后揭秘、2025 年人工智能商业的现状、Andrej Kapasi 分享的最佳 LLM 辅助编码体验、A16z 的 Top 100 Gen AI Consumer Apps 报告、人工智能在设计系统中的失败之处、重新思考人工智能的应用以及在概率时代构建人工智能产品。重点研究部分则涵盖了微软开源的文本转语音模型 VibeVoice、Anemoi、AgentFly、InternVL3.5 和 PrefJRPO 等。
Sign in to continue reading, translating and more.
Continue