Trending
Ask AI
Library
You
Sign in
Help
Toggle theme
SIGN IN
Prev
Next
Summary
Mindmap
Transcript
Keywords
Highlights
Shownotes
Trending
Ask AI
Library
You
Enjoy Podwise!
00:00
00:00
1x
10
10
Enjoy Podwise!
Detail
Transcript
EP97 对话常扬:LLM盛行时代,专门的OCR模型还有意义吗? | 硬地骇客 | Podwise
Prev
Next
25 Mar 2025
47m
EP97 对话常扬:LLM盛行时代,专门的OCR模型还有意义吗?
硬地骇客
Play
Summary
Mindmap
Transcript
Keywords
Highlights
Shownotes
Sign in to access all AI-generated content
Continue
本期节目探讨了在大模型时代,小型专用模型如 OCR 模型的意义和与大型模型的关系。 在大型语言模型(LLM)如 DeepSeek R1 和 Mistral 等发布的背景下,Mistral 团队发布了一个号称达到 Sota 的 OCR 模型引发了讨论。 常扬老师,一位在文字识别领域深耕多年的 AI 产品研发负责人,解释了大型模型和专用模型的区别,并非简单的参数数量界定,更在于任务的泛化性和专用程度。例如,大型模型擅长处理翻译、摘要等泛化任务,而 OCR 等则专注于特定任务,在精度和效率上更胜一筹。 更重要的是,常扬老师比较了卷积神经网络(CNN)和 Transformer 在 OCR 中的应用。CNN 擅长处理局部图像特征,在结构规整的文档识别中表现出色;而 Transformer 则更擅长捕捉长距离特征,在处理复杂排版、自然场景下的文字识别方面优势明显。 例如,CNN 在处理规整文档时效果好,但对于复杂排版或手写体则力不从心,而 Transformer 则可以更好地处理这些情况。 然而,Transformer 的算力需求更高。 未来,兼顾局部和全局特征的模型将成为主流,但 CNN 仍会在特定场景下保持优势。 讨论进一步深入到大型模型的 “幻觉” 问题以及在 OCR 中的处理方法。 常扬老师指出,基于 Transformer 的视觉大模型,其底层机制不同,有些会产生幻觉,有些则不会。 对于产生幻觉的模型,可以通过一些方法来进行规避,例如利用视觉提示来限制幻觉的生成。 此外,节目还探讨了 CNN-based OCR 如何处理复杂排版,以及如何结合 LLM 进行纠错,并分析了在实际应用中,如车牌识别、金融票据识别等场景下,如何通过结构化处理来提高效率和准确性。 最后,常扬老师介绍了其公司核信息(Text Intelligence)在 OCR 领域的积累和技术优势,以及其在 2B 和 2C 领域的业务模式。 这体现了 OCR 技术不断发展的趋势,以及对数据质量和模型架构优化的持续追求。
Takeaways
Outlines
Q & A
Preview
How to Get Rich: Every Episode
Naval