文|杨泽原 丁奇 潘儒琛 朱珏琦
扫描工具是一类满足用户“卡点”需求的效率型办公应用,基于OCR技术,实现纸质文档的电子化、内容解析和抽取。从传统OCR模型到通用VLM、专用VLM,技术创新不断涌现,多模态文本智能时代到来。未来,OCR技术有望成为全模态大模型内容入口,以DeepSeek-OCR为引领,变革大模型输入范式。我们看好扫描工具和OCR技术的持续创新升级。
▍扫描工具:满足“卡点”需求的效率型办公应用。
扫描工具属于办公软件分支,基于OCR技术,实现纸质文档的电子化过程,以及对文档的内容解析、抽取。C端,扫描工具用户群体广阔、职业分散,典型应用场景如财务报销、求职就业等;用户云端存储海量文档,扫描工具已进阶为文档资产管理平台;应用方面,除扫描全能王、Adobe Scan以外,WPS Office、夸克等也增加了扫描功能入口,反映OCR技术应用前景广。B端,金融、制造、物流等垂直行业对OCR技术均有应用需求,实现证照、合同、报表等的录入、解析。
▍技术路径:传统OCR、通用VLM、专用VLM创新涌现。
OCR概念早在1929年便已提出,初期基于模板匹配实现字符识别,后引入传统机器学习、深度学习等技术提升识别效果和效率。传统OCR模型采取模块化处理方式,通过若干个独立模型分别完成版面检测、文本识别等任务;通用VLM,主要为多模态大模型,虽未经过OCR特定数据训练,但在基础的零样本OCR任务中表现尚可;专用VLM,模型竞争激烈,以百度PaddleOCR-VL为例,近期开源后在多领域取得SOTA表现。OCR正朝着多模态文本智能的方向发展,未来多模型互补的路线或成为选择,复杂场景识别准确率等指标有望进一步提升。
▍应用创新:DeepSeek-OCR引领,未来将成为全模态大模型内容入口。
伴随模型创新涌现,OCR技术的应用形态未来将发生变化。C端,扫描工具可进一步增加生成式AI功能,在OCR基础上进行AI问答、总结、改写等,丰富用户体验和提升粘性。B端,OCR技术将助力大模型提升RAG效果。范式创新维度,近期DeepSeek-OCR提出上下文光学压缩的概念,将文本token压缩为视觉token,以提升大模型上下文处理能力,在10倍压缩的情况下,DeepSeek-OCR实现97%的解码精度、20倍压缩的情况下实现60%的精度,OCR作为连接视觉和语言的中间模态,未来有望成为全模态大模型内容入口。
▍风险因素:
技术升级不及预期的风险;商业化转化不及预期的风险;海外市场拓展不及预期的风险;数据安全风险。
▍投资策略:
OCR技术正在走向多模态文本智能,传统OCR模型、通用VLM、专用VLM各有所长,识别准确率等指标不断提升。未来,OCR技术有望成为全模态大模型内容入口,以DeepSeek-OCR为引领,变革大模型输入范式。我们看好扫描工具和OCR技术的持续创新升级。


VIP复盘网