EP05 AI Voice 2.0：Fish Audio 如何叩开情感智能交互的大门

本期播客主要探讨了 AI 语音智能体的发展与应用，以及 Fish Audio 在该领域的创新与实践。Fish Audio 的两位创始人 Rissa 和冷月分享了他们如何通过开源模型和用户生成内容（UGC）的生态系统，迅速成为全球第二大的 AI 语音平台，并在过去一年实现了 13 倍的增长和 1000 万美元的 ARR。讨论深入探讨了 Fish Audio 的核心技术，如 S1 和 S2 模型，以及它们在情感控制、多语种支持和低延迟方面的优势。他们还强调了高质量数据的重要性，以及如何通过独特的数据管线和强化学习来提升模型表现力，尤其是在处理包含噪声和情感的语音数据方面。

Outlines

Part 1: 产品概览与市场表现

Part 2: 核心技术与数据策略

Part 3: 模型架构与迭代优化

Part 4: 商业化、开源与全球化

Part 5: 创业历程与团队建设

Sign in to continue reading, translating and more.

Continue

The Alphaist

Part 1: 产品概览与市场表现

AI 语音平台 Fish Audio：AI 配音赋能游戏、娱乐及内容创作

Fish Audio 的增长：用户、模型市场及开源贡献

Fish Audio 客户群体演化：Prosumer 创作者与 API 企业用户

Part 2: 核心技术与数据策略

冷月：语音交互是未来，端到端建模是关键

独立音频模型的价值：情感控制与数据构建的挑战

音频领域的数据挑战：高质量标注与模型训练

Fish Audio 的数据策略：语音标注与版权风险

高质量语音数据：清洗、自然度与情绪表达

Part 3: 模型架构与迭代优化

TTS 模型架构：Fish Audio 的端到端建模与低延迟

端到端架构：降低延迟，提升语音模型效率

Voice Agent 架构优化：端到端与全双工模型

S2 模型：精细控制、多说话人与数据管线重构

ASR 模型：提升语音数据质量与模型迭代

Part 4: 商业化、开源与全球化

产品商业化：模型矩阵匹配不同场景需求

增长策略：开源模型驱动 C 端与 B 端用户增长

UGC 音色市场：激励机制与闭环效应

开源策略：分发渠道与商业化模型

产品深度：Fish Studio 与专业内容创作

全球化战略与市场竞争：多语言支持与差异化

未来目标：增长、多模态与团队故事

Part 5: 创业历程与团队建设

Rissa 加入 Fish Audio：技术与商业的结合

冷月：创业契机与团队组建

股权危机与团队重组：信任与成人礼

创业经验：股权结构与合伙人选择

人才吸引力：超级个体与团队文化

EP05 AI Voice 2.0：Fish Audio 如何叩开情感智能交互的大门

The Alphaist

Part 1: 产品概览与市场表现

00:03AI 语音平台 Fish Audio：AI 配音赋能游戏、娱乐及内容创作

AI 语音平台 Fish Audio：AI 配音赋能游戏、娱乐及内容创作

02:35Fish Audio 的增长：用户、模型市场及开源贡献

Fish Audio 的增长：用户、模型市场及开源贡献

04:15Fish Audio 客户群体演化：Prosumer 创作者与 API 企业用户

Fish Audio 客户群体演化：Prosumer 创作者与 API 企业用户

Part 2: 核心技术与数据策略

06:19冷月：语音交互是未来，端到端建模是关键

冷月：语音交互是未来，端到端建模是关键

08:48独立音频模型的价值：情感控制与数据构建的挑战

独立音频模型的价值：情感控制与数据构建的挑战

11:20音频领域的数据挑战：高质量标注与模型训练

音频领域的数据挑战：高质量标注与模型训练

14:29Fish Audio 的数据策略：语音标注与版权风险

Fish Audio 的数据策略：语音标注与版权风险

17:31高质量语音数据：清洗、自然度与情绪表达

高质量语音数据：清洗、自然度与情绪表达

Part 3: 模型架构与迭代优化

19:37TTS 模型架构：Fish Audio 的端到端建模与低延迟

TTS 模型架构：Fish Audio 的端到端建模与低延迟

22:31端到端架构：降低延迟，提升语音模型效率

端到端架构：降低延迟，提升语音模型效率

24:25Voice Agent 架构优化：端到端与全双工模型

Voice Agent 架构优化：端到端与全双工模型

27:36S2 模型：精细控制、多说话人与数据管线重构

S2 模型：精细控制、多说话人与数据管线重构

29:26ASR 模型：提升语音数据质量与模型迭代

ASR 模型：提升语音数据质量与模型迭代

Part 4: 商业化、开源与全球化

31:44产品商业化：模型矩阵匹配不同场景需求

产品商业化：模型矩阵匹配不同场景需求

34:15增长策略：开源模型驱动 C 端与 B 端用户增长

增长策略：开源模型驱动 C 端与 B 端用户增长

37:24UGC 音色市场：激励机制与闭环效应

UGC 音色市场：激励机制与闭环效应

40:50开源策略：分发渠道与商业化模型

开源策略：分发渠道与商业化模型

44:50产品深度：Fish Studio 与专业内容创作

产品深度：Fish Studio 与专业内容创作

47:42全球化战略与市场竞争：多语言支持与差异化

全球化战略与市场竞争：多语言支持与差异化

51:21未来目标：增长、多模态与团队故事

未来目标：增长、多模态与团队故事

Part 5: 创业历程与团队建设

53:32Rissa 加入 Fish Audio：技术与商业的结合

Rissa 加入 Fish Audio：技术与商业的结合

55:17冷月：创业契机与团队组建

冷月：创业契机与团队组建

57:32股权危机与团队重组：信任与成人礼

股权危机与团队重组：信任与成人礼

1:01:17创业经验：股权结构与合伙人选择

创业经验：股权结构与合伙人选择

1:04:18人才吸引力：超级个体与团队文化

人才吸引力：超级个体与团队文化