騰訊混元大模型團(tuán)隊正式發(fā)布并開源HunyuanOCR模型!
這是一款商業(yè)級、開源且輕量(1B參數(shù))
的OCR專用視覺語言模型,模型采用原生ViT和輕量LLM結(jié)合的架構(gòu)。
具體而言,其感知能力(文本檢測和識別、復(fù)雜文檔解析)優(yōu)于所有公開方案;語義能力(信息抽取、文字圖像翻譯)表現(xiàn)出色,榮獲ICDAR 2025 DIMT挑戰(zhàn)賽(小模型賽道)冠軍,并在OCRBench上取得3B以下模型SOTA成績。
目前,該模型在抱抱臉(Hugging Face)趨勢榜排名前四,GitHub標(biāo)星超過700,并在Day 0被vllm官方團(tuán)隊接入。
團(tuán)隊介紹,混元OCR專家模型實現(xiàn)了三大突破:
(1)全能與高效統(tǒng)一。
在輕量框架下支持文字檢測和識別、復(fù)雜文檔解析、開放字段信息抽取、視覺問答和拍照圖像翻譯,解決了傳統(tǒng)專家模型功能單一和通用視覺理解大模型效率低下的痛點。
(2)極簡端到端架構(gòu)。
摒棄版面分析等前處理依賴,徹底解決流水線錯誤累積問題,大幅簡化部署。
(3)數(shù)據(jù)驅(qū)動與RL創(chuàng)新。
驗證了高質(zhì)量數(shù)據(jù)價值,并證明強(qiáng)化學(xué)習(xí)可顯著提升多項OCR任務(wù)性能。
目前模型參數(shù)已在抱抱臉和ModelScope等渠道開源,并提供基于vLLM的高性能部署方案,旨在助力科研與工業(yè)落地。
HunyuanOCR核心技術(shù)大揭秘
作為一款具備商業(yè)級性能的開源多語言VLM,混元OCR專家模型的核心動機(jī)在于構(gòu)建一個真正統(tǒng)一、高效的端到端OCR基礎(chǔ)模型。
其核心技術(shù)主要聚焦于以下幾個方面:
輕量化模型結(jié)構(gòu)設(shè)計、高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù)生產(chǎn)、重應(yīng)用導(dǎo)向的預(yù)訓(xùn)練策略和OCR任務(wù)定制的強(qiáng)化學(xué)習(xí)。
輕量化模型結(jié)構(gòu)設(shè)計
下圖為HunyuanOCR架構(gòu)示意圖。
不同于其他開源的級聯(lián)OCR方案或?qū)<夷P停煸狾CR模型貫徹端到端訓(xùn)推一體范式,各項任務(wù)僅需單次推理即可獲取完整效果。