扫码体验VIP
网站公告:为了给家人们提供更好的用户体验和服务,股票复盘网V3.0正式上线,新版侧重股市情报和股票资讯,而旧版的复盘工具(连板梯队、热点解读、市场情绪、主线题材、复盘啦、龙虎榜、人气榜等功能)将全部移至VIP复盘网,VIP复盘网是目前市面上最专业的每日涨停复盘工具龙头复盘神器股票复盘工具复盘啦官网复盘盒子股票复盘软件复盘宝,持续上新功能,目前已经上新至V6.56版本,请家人们移步至VIP复盘网 / vip.fupanwang.com

扫码VIP小程序
返回 当前位置: 首页 热点财经 计算机|扫描工具(OCR):全模态大模型时代入口

股市情报:上述文章报告出品方/作者:中信证券研究;仅供参考,投资者应独立决策并承担投资风险。

计算机|扫描工具(OCR):全模态大模型时代入口

时间:2025-11-06 08:08
上述文章报告出品方/作者:中信证券研究;仅供参考,投资者应独立决策并承担投资风险。

杨泽原  丁奇  潘儒琛  朱珏琦

扫描工具是一类满足用户“卡点”需求的效率型办公应用,基于OCR技术,实现纸质文档的电子化、内容解析和抽取。从传统OCR模型到通用VLM、专用VLM,技术创新不断涌现,多模态文本智能时代到来。未来,OCR技术有望成为全模态大模型内容入口,以DeepSeek-OCR为引领,变革大模型输入范式。我们看好扫描工具和OCR技术的持续创新升级。


扫描工具:满足“卡点”需求的效率型办公应用。


扫描工具属于办公软件分支,基于OCR技术,实现纸质文档的电子化过程,以及对文档的内容解析、抽取。C端,扫描工具用户群体广阔、职业分散,典型应用场景如财务报销、求职就业等;用户云端存储海量文档,扫描工具已进阶为文档资产管理平台;应用方面,除扫描全能王、Adobe Scan以外,WPS Office、夸克等也增加了扫描功能入口,反映OCR技术应用前景广。B端,金融、制造、物流等垂直行业对OCR技术均有应用需求,实现证照、合同、报表等的录入、解析。



技术路径:传统OCR、通用VLM、专用VLM创新涌现。


OCR概念早在1929年便已提出,初期基于模板匹配实现字符识别,后引入传统机器学习、深度学习等技术提升识别效果和效率。传统OCR模型采取模块化处理方式,通过若干个独立模型分别完成版面检测、文本识别等任务;通用VLM,主要为多模态大模型,虽未经过OCR特定数据训练,但在基础的零样本OCR任务中表现尚可;专用VLM,模型竞争激烈,以百度PaddleOCR-VL为例,近期开源后在多领域取得SOTA表现。OCR正朝着多模态文本智能的方向发展,未来多模型互补的路线或成为选择,复杂场景识别准确率等指标有望进一步提升。



应用创新:DeepSeek-OCR引领,未来将成为全模态大模型内容入口。


伴随模型创新涌现,OCR技术的应用形态未来将发生变化。C端,扫描工具可进一步增加生成式AI功能,在OCR基础上进行AI问答、总结、改写等,丰富用户体验和提升粘性。B端,OCR技术将助力大模型提升RAG效果。范式创新维度,近期DeepSeek-OCR提出上下文光学压缩的概念,将文本token压缩为视觉token,以提升大模型上下文处理能力,在10倍压缩的情况下,DeepSeek-OCR实现97%的解码精度、20倍压缩的情况下实现60%的精度,OCR作为连接视觉和语言的中间模态,未来有望成为全模态大模型内容入口。



风险因素:


技术升级不及预期的风险;商业化转化不及预期的风险;海外市场拓展不及预期的风险;数据安全风险。



投资策略:


OCR技术正在走向多模态文本智能,传统OCR模型、通用VLM、专用VLM各有所长,识别准确率等指标不断提升。未来,OCR技术有望成为全模态大模型内容入口,以DeepSeek-OCR为引领,变革大模型输入范式。我们看好扫描工具和OCR技术的持续创新升级。

股票复盘网
当前版本:V3.0