注:端到端 OCR 模型是统一神经网络架构系统,融合检测图像中的文本和字符识别,摒弃了传统“先检测文字框、再单独识别”的繁琐流程,直接从输入图像映射到文本序列输出,从而减少信息丢失和计算冗余。
主流端到端 OCR 模型每生成 1 个 token,都会扩大 KV cache,显存占用和延迟随之上升,导致在用户的感知中,AI 解析多页文档后越生成越慢。
注:端到端 OCR 模型是统一神经网络架构系统,融合检测图像中的文本和字符识别,摒弃了传统“先检测文字框、再单独识别”的繁琐流程,直接从输入图像映射到文本序列输出,从而减少信息丢失和计算冗余。
主流端到端 OCR 模型每生成 1 个 token,都会扩大 KV cache,显存占用和延迟随之上升,导致在用户的感知中,AI 解析多页文档后越生成越慢。