Trending
Ask AI
Library
You
Sign in
Help
Toggle theme
Library
SIGN IN
Prev
Next
Summary
Mindmap
Transcript
Keywords
Highlights
Shownotes
Send
Translate
Trending
Ask AI
Library
You
Enjoy Podwise!
Enjoy Podwise!
10
10
1x
YouTube
Sign in to sync playlist
Playlist 0/50
EP97 对话常扬:LLM盛行时代,专门的OCR模型还有意义吗? | 硬地骇客 | Podwise
Prev
Next
25 Mar 2025
47m
EP97 对话常扬:LLM盛行时代,专门的OCR模型还有意义吗?
硬地骇客
Play
Summary
Mindmap
Transcript
Keywords
Highlights
Shownotes
Sign in to access all AI-generated content
Continue
本期节目探讨了在大模型时代,小型专用模型如 OCR 模型的意义和与大型模型的关系。 在大型语言模型(LLM)如 DeepSeek R1 和 Mistral 等发布的背景下,Mistral 团队发布了一个号称达到 Sota 的 OCR 模型引发了讨论。 常扬老师,一位在文字识别领域深耕多年的 AI 产品研发负责人,解释了大型模型和专用模型的区别,并非简单的参数数量界定,更在于任务的泛化性和专用程度。例如,大型模型擅长处理翻译、摘要等泛化任务,而 OCR 等则专注于特定任务,在精度和效率上更胜一筹。 更重要的是,常扬老师比较了卷积神经网络(CNN)和 Transformer 在 OCR 中的应用。CNN 擅长处理局部图像特征,在结构规整的文档识别中表现出色;而 Transformer 则更擅长捕捉长距离特征,在处理复杂排版、自然场景下的文字识别方面优势明显。 例如,CNN 在处理规整文档时效果好,但对于复杂排版或手写体则力不从心,而 Transformer 则可以更好地处理这些情况。 然而,Transformer 的算力需求更高。 未来,兼顾局部和全局特征的模型将成为主流,但 CNN 仍会在特定场景下保持优势。 讨论进一步深入到大型模型的 “幻觉” 问题以及在 OCR 中的处理方法。 常扬老师指出,基于 Transformer 的视觉大模型,其底层机制不同,有些会产生幻觉,有些则不会。 对于产生幻觉的模型,可以通过一些方法来进行规避,例如利用视觉提示来限制幻觉的生成。 此外,节目还探讨了 CNN-based OCR 如何处理复杂排版,以及如何结合 LLM 进行纠错,并分析了在实际应用中,如车牌识别、金融票据识别等场景下,如何通过结构化处理来提高效率和准确性。 最后,常扬老师介绍了其公司核信息(Text Intelligence)在 OCR 领域的积累和技术优势,以及其在 2B 和 2C 领域的业务模式。 这体现了 OCR 技术不断发展的趋势,以及对数据质量和模型架构优化的持续追求。
Takeaways
Outlines
Q & A
Preview
How to Get Rich: Every Episode
Naval