首页 > 经济> 正文

DeepSeek 再开源:3B OCR 模型,用视觉方式压缩文本|每日消息

2025-10-20 20:34:53来源:网易科技报道

DeepSeek再开源:3BOCR模型,用视觉方式压缩文本,deepseek,解码器,视觉,ocr,上下文,token


(资料图片仅供参考)

北京时间10月20日,DeepSeek 在 GitHub 上开源其最新研究成果 —— DeepSeek-OCR 模型。

据介绍,DeepSeek-OCR 参数量约3B ,是对“光学二维映射压缩”技术在长文本上下文处理中的可行性的一次初步探索。

模型核心由 DeepEncoder 与 DeepSeek3B-MoE-A570M 解码器构成:DeepEncoder 负责在高分辨率输入下保持低激活状态,实现高压缩比并生成适量视觉 token,解码器则负责将这些 token 转化为精确文本信息。

实验数据显示,当文本 token 数量控制在视觉 token 的10倍以内(压缩率 <10×)时,OCR 精度可达97%;即便压缩率达到20×,准确率仍保持在 约60%。研究团队称,这一结果为长上下文压缩和 LLM 记忆遗忘机制研究提供了新的思路。(袁宁)

关键词: deepseek 解码器 视觉 ocr 上下文 token

责任编辑:hnmd004