Site logo
港股報價由天滙財經提供

雲知聲(09678)推出文檔智能基礎大模型“Unisound U1-OCR” 正式開啓OCR 3.0時代

時間2026-02-26 15:33:25

雲知聲

下載霸財智贏APP,買賣點即市預警,炒家心水交流 >>

智通財經APP獲悉,2月26日,雲知聲(09678)宣佈正式推出文檔智能基礎大模型“Unisound U1-OCR”。作爲首個工業級文檔智能基座,該模型正式開啓OCR 3.0時代,在理解版面的基礎上,進一步洞察文檔深層語義,實現自動分類與業務級信息抽取,完成了從“字符感知”到“文檔認知”的質的飛躍,標誌着AI從單純“識字”躍遷至“理解業務邏輯”。

Unisound U1-OCR是一款達到國際頂尖水平(SOTA)的文檔智能理解模型,在多項權威測試中均獲業界SOTA表現,其核心優勢在於突破了傳統模型“只讀文字、不懂排版”的瓶頸,能夠像人類專家一樣“看懂”複雜文檔。

爲適應 OCR 3.0 時代對於文檔業務級結構化抽取的新要求,Unisound U1-OCR採用ViT + LLM架構,其中視覺編碼器部分採用NaViT架構,實現文檔分辨率動態處理,模型參數規模3B量級,兼顧模型計算效率與文檔深層語義信息理解的能力要求。

模型提出了多項創新舉措:首創“語義驅動+動態聚焦”策略,自動構建文檔的“語義地圖”,精準識別標題、圖表與正文的從屬關係,擁有“先懂結構,再讀內容”的智慧;具備敏銳的“空間感知力”,能主動理解元素間的空間佈局,結合動態分辨率技術精準還原文檔結構;此外,採用Multi-Token Prediction(MTP)技術,在預測當前Token時,同步考慮未來多個Token的概率分佈,大幅提升長文檔邏輯連貫性。配合全任務強化學習策略,增強模型對版式結構的全局預見性並在推理階段將模型生成效率提升了80%以上。

業務層面,模型立足於工業級場景需求,打造了精準溯源、業務融合、安全高效部署、超強適配四大核心能力,真正適配企業真實業務的全場景需求,實現從‘讀懂’到‘執行’的業務落地。

Unisound U1-OCR開啓OCR 3.0時代,不僅是文檔智能的革新,更是雲知聲邁向AGI的關鍵一步。公司將以多模態文檔爲知識入口,賦予機器自主推理與證據溯源能力,推動AI從感知走向認知。未來,雲知聲期待構建能像人類一樣閱讀、思考並解決複雜問題的通用智能體,讓每一份文檔都成爲通往AGI的智慧階梯。

免責聲明:本資訊不構成建議或操作邀約,市場有風險,投資需謹慎!