本期《科技早知道》由 Yaxian 主持,邀请了原始智能的联合创始人罗璇,探讨了循环神经网络(RNN)架构 RWKV(也被称为 RAKU)在大模型领域的应用与发展。罗璇介绍了 RAKU 架构的特点,它作为一种可大规模训练的 RNN,旨在解决 Transformer 架构面临的推理和训练成本高、长上下文能力受限等瓶颈问题。讨论内容涵盖了 Transformer 的挑战,包括性能效率、Scaling Law 瓶颈、商业模式问题以及专利风险。同时,深入比较了 RNN 与 Transformer 的机制差异,以及 RAKU 在不同代际上的改进,例如通过固定大小的 state、信息衰减机制等优化,并探讨了 RNN 加 Attention 的混合模型。此外,还讨论了 RAKU 架构在端侧部署的优势和商业机会,以及未来云端和端侧模型可能的发展方向,强调了 RAKU 在空间计算等新兴领域的潜力。
Sign in to continue reading, translating and more.
Continue