YouTube22 Oct 2025
15m

DeepSeek-OCR:使用上下文视觉压缩技术打破上下文限制枷锁,用一张图=几千字的视觉压缩思路,解决大模型吃长文本时的算力爆炸问题,模拟出人类记忆衰减的思路

Podcast cover

AIGCLINK

本期 AIGCLINK 播客介绍 DeepSeek 最新发布的 DeepSeek-OCR 产品,重点在于其提出的上下文视觉压缩技术,该技术通过图像来表达大量文本信息,大幅压缩 token 数量,从而缓解大语言模型处理长文本时的算力压力。此外,该技术还允许控制压缩比例,模拟人类记忆衰减,灵活应用于不同场景,如长期记忆和短期记忆。播客还分析了 DeepSeek-OCR 的论文,包括其在 Fox Benchmark 和 OMEDUC 上的准确率测评,以及编码器(SAM 和 CLIP 模型)和解码器的技术架构。最后,播客演示了如何使用该产品进行图像解释和要素切割,并提供了在林科云上运行该项目的步骤和提示词修改方法。

Outlines

Sign in to continue reading, translating and more.

Open full episode in Podwise