MonkeyOCR 是一款基于大型語言模型(LLM)的輕量級文檔解析模型,專注于結(jié)構(gòu)化文檔解析任務(wù)。其核心創(chuàng)新在于采用“結(jié)構(gòu)-識別-關(guān)系”(SRR)三元組范式,將非結(jié)構(gòu)化文檔中的文本、表格、公式等內(nèi)容精準(zhǔn)轉(zhuǎn)換為機器可讀的結(jié)構(gòu)化數(shù)據(jù)。該模型在英文文檔解析任務(wù)中超越了Gemini 2.5 Pro和Qwen2.5-VL-72B等頂級模型,展現(xiàn)出卓越的性能。
MonkeyOCR項目官網(wǎng)入口網(wǎng)址:https://github.com/Yuliang-Liu/MonkeyOCR

MonkeyOCR 的模型參數(shù)量僅為3B,具有輕量級架構(gòu),支持中英文文檔解析,適配10+文檔類型,包括學(xué)術(shù)論文、發(fā)票、報表等復(fù)雜文檔類型。其處理速度達(dá)到每秒0.84頁,顯著優(yōu)于其他同類工具(如MinerU和Qwen2.5-VL-7B)。該模型支持多語言支持、復(fù)雜文檔處理、表格與結(jié)構(gòu)化數(shù)據(jù)提取等功能,適用于金融、教育、醫(yī)療等領(lǐng)域的文檔自動化處理。
MonkeyOCR 的部署方式靈活,支持本地和云端部署,可在單個NVIDIA 3090 GPU上高效運行,滿足不同規(guī)模應(yīng)用需求。其開源資源豐富,包括GitHub倉庫、在線Demo和論文,便于開發(fā)者和研究人員使用。
MonkeyOCR 采用結(jié)構(gòu)-識別-關(guān)系(SRR)三元組范式,將文檔解析過程分為結(jié)構(gòu)檢測、內(nèi)容識別和關(guān)系預(yù)測三個階段,有效提升復(fù)雜文檔處理的效率和準(zhǔn)確性。該模型在公式識別、表格還原等難點任務(wù)上表現(xiàn)突出,性能提升顯著。
MonkeyOCR 是當(dāng)前文檔智能領(lǐng)域最具實用價值的技術(shù)方案之一,為文檔數(shù)字化和自動化處理提供了強大的支持。



