DeepSeek-OCR：使用上下文视觉压缩技术打破上下文限制枷锁，用一张图=几千字的视觉压缩思路，解决大模型吃长文本时的算力爆炸问题，模拟出人类记忆衰减的思路

AIGCLINK

本期 AIGCLINK 播客介绍 DeepSeek 最新发布的 DeepSeek-OCR 产品，重点在于其提出的上下文视觉压缩技术，该技术通过图像来表达大量文本信息，大幅压缩 token 数量，从而缓解大语言模型处理长文本时的算力压力。此外，该技术还允许控制压缩比例，模拟人类记忆衰减，灵活应用于不同场景，如长期记忆和短期记忆。播客还分析了 DeepSeek-OCR 的论文，包括其在 Fox Benchmark 和 OMEDUC 上的准确率测评，以及编码器（SAM 和 CLIP 模型）和解码器的技术架构。最后，播客演示了如何使用该产品进行图像解释和要素切割，并提供了在林科云上运行该项目的步骤和提示词修改方法。

Outlines

Open full episode in Podwise

DeepSeek-OCR：使用上下文视觉压缩技术打破上下文限制枷锁，用一张图=几千字的视觉压缩思路，解决大模型吃长文本时的算力爆炸问题，模拟出人类记忆衰减的思路

AIGCLINK

DeepSeek-OCR 产品介绍及上下文视觉压缩技术

DeepSeek-OCR 技术细节及应用演示

DeepSeek-OCR：使用上下文视觉压缩技术打破上下文限制枷锁，用一张图=几千字的视觉压缩思路，解决大模型吃长文本时的算力爆炸问题，模拟出人类记忆衰减的思路

AIGCLINK

00:00DeepSeek-OCR 产品介绍及上下文视觉压缩技术

DeepSeek-OCR 产品介绍及上下文视觉压缩技术

06:05DeepSeek-OCR 技术细节及应用演示

DeepSeek-OCR 技术细节及应用演示