IBM paskelbė apie išleidimą Granitas 4.0 3B Visionvizijos kalbos modelis (VLM), sukurtas specialiai įmonės lygio dokumentų duomenims išgauti. Nukrypstant nuo monolitinio požiūrio į didesnius multimodalinius modelius, 4.0 Vision leidimas yra sukurtas kaip specializuotas adapteris, sukurtas siekiant suteikti aukšto tikslumo vaizdinius argumentus. Granitas 4.0 Micro kalbos stuburas.
Šis leidimas reiškia perėjimą prie modulinio, į išskyrimą orientuoto AI, kuris teikia pirmenybę struktūrinių duomenų tikslumui, pvz., sudėtingų diagramų konvertavimui į kodą arba lenteles į HTML, o ne bendrosios paskirties vaizdų antraštėms.
Architektūra: Modulinė LoRA ir DeepStack integracija
Granite 4.0 3B Vision modelis pristatomas kaip a LoRA (žemo lygio adaptacija) adapteris su maždaug 0,5B parametrų. Šis adapteris skirtas dėti ant viršaus Granitas 4.0 Micro bazinis modelis, 3,5B parametrų tankios kalbos modelis. Ši konstrukcija leidžia naudoti „dviejų režimų“ diegimą: pagrindinis modelis gali savarankiškai tvarkyti tik teksto užklausas, o regėjimo adapteris aktyvuojamas tik tada, kai reikalingas daugiarūšis apdorojimas.
Vision Encoder ir pataisų plytelės
Vaizdinis komponentas naudoja google/siglip2-so400m-patch16-384 kodavimo įrenginys. Siekiant išlaikyti didelę skiriamąją gebą įvairiuose dokumentų maketuose, modelyje naudojamas plytelių klojimo mechanizmas. Įvesties vaizdai suskaidomi į 384×384 pleistraikurie apdorojami kartu su sumažintu viso vaizdo pasauliniu vaizdu. Šis metodas užtikrina, kad smulkios detalės, pvz., apatiniai indeksai formulėse arba maži duomenų taškai diagramose, būtų išsaugoti prieš pasiekiant kalbos pagrindą.
„DeepStack“ stuburas
Siekdama sujungti viziją ir kalbą, IBM naudoja vieną variantą DeepStack architektūra. Tai apima gilų vaizdinių žetonų sudėjimą į kalbos modelį 8 specifiniai įpurškimo taškai. Nukreipdamas vaizdines ypatybes į kelis transformatoriaus sluoksnius, modelis pasiekia glaudesnį „kas“ (semantinis turinys) ir „kur“ (erdvinis išdėstymas) suderinimą, o tai labai svarbu norint išlaikyti struktūrą analizuojant dokumentus.
Mokymo programa: orientuota į diagramų ir lentelių ištraukimą
„Granite 4.0 3B Vision“ mokymas atspindi strateginį poslinkį į specializuotas gavybos užduotis. Užuot pasikliavę vien bendrais vaizdo ir teksto duomenų rinkiniais, IBM panaudojo kuruojamą instrukcijų sekančių duomenų derinį, sutelktą į sudėtingas dokumentų struktūras.
- „ChartNet“ duomenų rinkinys: Modelis buvo patobulintas naudojant ChartNetmilijono masto multimodalinis duomenų rinkinys, sukurtas patikimam diagramų supratimui.
- Kodu valdomas vamzdynas: Pagrindinis techninis mokymo akcentas yra „kodu vadovaujamas“ požiūris į diagramų samprotavimą. Šiame dujotiekyje naudojami suderinti duomenys, sudaryti iš pradinio braižymo kodo, gauto atvaizdo ir pagrindinių duomenų lentelės, todėl modelis gali sužinoti struktūrinį ryšį tarp vaizdinių vaizdų ir jų šaltinio duomenų.
- Ištraukimo derinimas: Modelis buvo tiksliai suderintas naudojant duomenų rinkinių mišinį, sutelkiant dėmesį į Rakto ir vertės poros (KVP) išskyrimaslentelės struktūros atpažinimas ir vaizdinių diagramų konvertavimas į mašininio skaitomus formatus, pvz., CSV, JSON ir OTSL.
Veiklos ir vertinimo gairės
Atliekant techninius vertinimus, Granite 4.0 3B Vision buvo lyginamas su keliais pramonės standartų rinkiniais, siekiant suprasti dokumentus. Svarbu pažymėti, kad duomenų rinkiniai kaip PubTables-v2 ir OmniDocBench yra naudojami kaip vertinimo etalonas, siekiant patikrinti modelio efektyvumą realaus pasaulio scenarijuose.
| Užduotis | Vertinimo etalonas | Metrika |
| KVP gavyba | VAREX | 85,5 % tiksli atitiktis (nulinis kadras) |
| Diagramos samprotavimas | „ChartNet“ (žmogaus patikrintų testų rinkinys) | Didelis tikslumas Chart2Summary |
| Lentelės ištraukimas | „TableVQA-Bench“ ir „OmniDocBench“. | Įvertinta naudojant TEDS ir HTML ištraukimą |
Modelis šiuo metu užima 3 vietą tarp 2–4B parametrų klasės modelių VAREX lyderių sąraše (nuo 2026 m. kovo mėn.), parodydamas savo efektyvumą struktūrizuotame ištraukime, nepaisant kompaktiško dydžio.




Key Takeaways
- Modulinė LoRA architektūra: Modelis yra a 0.5B parametro LoRA adapteris kuri veikia ant Granitas 4.0 Micro (3.5B) stuburas. Šis dizainas leidžia vienu diegimu efektyviai tvarkyti tik teksto darbo krūvius ir suaktyvinti regėjimo galimybes tik tada, kai to reikia.
- Didelės raiškos plytelių klojimas: Naudojant google/siglip2-so400m-patch16-384 koduotuvą, modelis apdoroja vaizdus, juos išdėstydamas 384×384 pleistrai kartu su pasauliniu sumažintu vaizdu, užtikrinančiu, kad sudėtinguose dokumentuose būtų išsaugotos smulkios detalės.
- DeepStack įpurškimas: Siekiant pagerinti išdėstymo suvokimą, modelis naudoja a DeepStack priartėti su 8 injekcijos taškai. Taip semantinės funkcijos nukreipiamos į ankstesnius sluoksnius, o erdvinės detalės – į vėlesnius sluoksnius, o tai labai svarbu norint tiksliai išgauti lentelę ir diagramą.
- Specializuotas ekstrahavimo mokymas: Be bendrų nurodymų, modelis buvo patobulintas naudojant ChartNet ir „kodu valdomas“ vamzdynas, kuris suderina braižymo kodą, vaizdus ir duomenų lenteles, kad padėtų modeliui internalizuoti vaizdinių duomenų struktūrų logiką.
- Kūrėjo paruoštas integravimas: Išleidimas yra Apache 2.0 licencijuota ir turi vietinį palaikymą vLLM (per pritaikytą modelio įgyvendinimą) ir DokavimasIBM įrankis, skirtas nestruktūriniams PDF failams konvertuoti į mašininio skaitomo JSON arba HTML.
Patikrinkite Techninės detalės ir Modelio svoris. Be to, nedvejodami sekite mus Twitter ir nepamirškite prisijungti prie mūsų 120 000+ ML SubReddit ir Prenumeruoti mūsų naujienlaiškis. Palauk! ar tu telegramoje? dabar galite prisijungti prie mūsų ir per telegramą.


