仅用5天GitHub Star破万!百度Unlimited OCR引爆全球技术圈,跻身开源”现象级爆款”

大模型之家讯近日,百度正式发布并开源端到端OCR模型 Unlimited OCR。模型发布后迅速获得全球开发者关注,发布次日即登顶 GitHub Daily Trending 榜、Python榜。随后热度持续攀升,GitHub Star 仅 5 天就突破 1 万,跻身 GitHub 现象级爆款项目行列,且位列HuggingFace全球多模态大模型榜单第一。

仅用5天GitHub Star破万!百度Unlimited OCR引爆全球技术圈,跻身开源"现象级爆款"
仅用5天GitHub Star破万!百度Unlimited OCR引爆全球技术圈,跻身开源"现象级爆款"
仅用5天GitHub Star破万!百度Unlimited OCR引爆全球技术圈,跻身开源"现象级爆款"

GitHub Star 突破 1 万,一直被视为全球开源项目影响力的重要分水岭,而能够在极短时间内达到这一规模的,通常都是具有现象级关注度和病毒式传播效应的开源项目。Unlimited OCR 仅用 5 天便迈过这一里程碑,意味着其技术能力获得全球开发者广泛认可,也标志着其影响力正从模型能力快速扩展至全球开发者生态。

Unlimited OCR 面向长文档解析场景打造,总参数规模 3B、推理时激活参数仅约 570M。公开评测结果显示,Unlimited OCR 在 OmniDocBench v1.6 基准测试中取得 93.92% 综合成绩,刷新端到端 OCR 最新纪录;在保持高精度解析能力的同时,真实文档场景推理速度较 DeepSeek OCR 提升约 12.7%,输出长度达 6000 tokens 时速度优势扩大至 35%。

Unlimited OCR 更重要的意义在于推动了长文档解析技术向前迈出关键一步。过去,OCR 模型面对书籍、论文、报告等长文档时,通常需要采用“逐页解析+结果拼接”的工程方案,随着输出内容不断增长,解码阶段的 KV Cache 持续膨胀,推理速度和显存成本也随之增加。

针对这一行业痛点,百度提出 Reference Sliding Window Attention (R-SWA) 机制,为长程解析提供了新的解决思路。该机制借鉴人类阅读和抄录长文档时的工作方式:始终保持对原始文档内容的关注,同时仅保留最近一段生成内容作为“工作记忆”,而不是无限累积全部历史信息。基于这一设计,模型能够在一次前向推理中连续完成数十页文档解析,实现从第一页到最后一页的连贯输出,同时将解码阶段的 KV Cache 控制在恒定规模,使计算成本和显存占用不随输出长度持续增长。

仅用5天GitHub Star破万!百度Unlimited OCR引爆全球技术圈,跻身开源"现象级爆款"

这一突破不仅提升了 OCR 在长文档场景下的可用性,也为大模型长期记忆管理提供了新的技术思路。近年来,行业普遍通过扩展上下文窗口来增强长程能力,而 Unlimited OCR 则探索了另一条路径——通过更高效的注意力机制和记忆管理策略,让模型“学会保留关键上下文、适度遗忘历史信息”,以更稳定、更经济的方式完成超长任务。

Unlimited OCR 展现的不仅是一项 OCR 能力升级,更是百度在多模态基础模型和长程推理方向上的一次重要探索,为行业提供了处理超长上下文的新思路。

Unlimited OCR开源地址:

GitHub:https://github.com/baidu/Unlimited-OCR

HuggingFace:https://huggingface.co/baidu/Unlimited-OCR

原创文章,作者:志斌,如若转载,请注明出处:http://damoai.com.cn/archives/16612

(0)
上一篇 1天前
下一篇 40分钟前

相关推荐

发表回复

登录后才能评论