计算机｜扫描工具（OCR）：全模态大模型时代入口

文｜杨泽原丁奇潘儒琛朱珏琦

扫描工具是一类满足用户“卡点”需求的效率型办公应用，基于OCR技术，实现纸质文档的电子化、内容解析和抽取。从传统OCR模型到通用VLM、专用VLM，技术创新不断涌现，多模态文本智能时代到来。未来，OCR技术有望成为全模态大模型内容入口，以DeepSeek-OCR为引领，变革大模型输入范式。我们看好扫描工具和OCR技术的持续创新升级。

▍扫描工具：满足“卡点”需求的效率型办公应用。

扫描工具属于办公软件分支，基于OCR技术，实现纸质文档的电子化过程，以及对文档的内容解析、抽取。C端，扫描工具用户群体广阔、职业分散，典型应用场景如财务报销、求职就业等；用户云端存储海量文档，扫描工具已进阶为文档资产管理平台；应用方面，除扫描全能王、Adobe Scan以外，WPS Office、夸克等也增加了扫描功能入口，反映OCR技术应用前景广。B端，金融、制造、物流等垂直行业对OCR技术均有应用需求，实现证照、合同、报表等的录入、解析。

▍技术路径：传统OCR、通用VLM、专用VLM创新涌现。

OCR概念早在1929年便已提出，初期基于模板匹配实现字符识别，后引入传统机器学习、深度学习等技术提升识别效果和效率。传统OCR模型采取模块化处理方式，通过若干个独立模型分别完成版面检测、文本识别等任务；通用VLM，主要为多模态大模型，虽未经过OCR特定数据训练，但在基础的零样本OCR任务中表现尚可；专用VLM，模型竞争激烈，以百度PaddleOCR-VL为例，近期开源后在多领域取得SOTA表现。OCR正朝着多模态文本智能的方向发展，未来多模型互补的路线或成为选择，复杂场景识别准确率等指标有望进一步提升。

▍应用创新：DeepSeek-OCR引领，未来将成为全模态大模型内容入口。

伴随模型创新涌现，OCR技术的应用形态未来将发生变化。C端，扫描工具可进一步增加生成式AI功能，在OCR基础上进行AI问答、总结、改写等，丰富用户体验和提升粘性。B端，OCR技术将助力大模型提升RAG效果。范式创新维度，近期DeepSeek-OCR提出上下文光学压缩的概念，将文本token压缩为视觉token，以提升大模型上下文处理能力，在10倍压缩的情况下，DeepSeek-OCR实现97%的解码精度、20倍压缩的情况下实现60%的精度，OCR作为连接视觉和语言的中间模态，未来有望成为全模态大模型内容入口。

▍风险因素：

技术升级不及预期的风险；商业化转化不及预期的风险；海外市场拓展不及预期的风险；数据安全风险。

▍投资策略：

OCR技术正在走向多模态文本智能，传统OCR模型、通用VLM、专用VLM各有所长，识别准确率等指标不断提升。未来，OCR技术有望成为全模态大模型内容入口，以DeepSeek-OCR为引领，变革大模型输入范式。我们看好扫描工具和OCR技术的持续创新升级。