Vaizdinių ir tekstinių duomenų integracija į dirbtinį intelektą kelia sudėtingą iššūkį. Tradiciniai modeliai dažnai stengiasi aiškinti struktūrizuotus vaizdinius dokumentus, tokius kaip lentelės, diagramos, infografika ir diagramos. Šis apribojimas daro įtaką automatizuotam turinio išgavimui ir supratimui, kurie yra labai svarbūs atliekant duomenų analizę, informacijos gavimą ir sprendimų priėmimą. Kadangi organizacijos vis labiau remiasi AI pagrįstomis įžvalgomis, modelių, galinčių efektyviai apdoroti tiek vaizdinę, tiek tekstinę informaciją, poreikis smarkiai išaugo.
IBM išsprendė šį iššūkį išleidus „Granito-vizicijos-33.1-2B“ išleidimąkompaktiškas vizijos kalbos modelis, skirtas dokumentams suprasti. Šis modelis gali išgauti turinį iš įvairių vaizdinių formatų, įskaitant lenteles, diagramas ir diagramas. Apmokytas gerai pagamintame duomenų rinkinyje, apimančiame tiek viešus, tiek sintetinius šaltinius, jis skirtas atlikti platų su dokumentais susijusių užduočių asortimentą. Patobulintas iš granito didelės kalbos modelio, Granito ir 3,1-2B integruotas vaizdų ir teksto būdas, kad pagerintų jo aiškinamąsias galimybes, todėl jis tinka įvairioms praktinėms programoms.
Modelį sudaro trys pagrindiniai komponentai:
- „Vision Encoder“: Efektyviai naudoja „Siglip“, kad galėtų efektyviai apdoroti ir koduoti vaizdinius duomenis.
- Regėjimo kalbos jungtis: Dviejų sluoksnių daugiasluoksnis „Perceptron“ (MLP) su „Gelu“ aktyvavimo funkcijomis, skirtas įveikti vaizdinę ir tekstinę informaciją.
- Didelės kalbos modelis: Sukurtas ant granito-3,1-2B instrumento, kuriame yra 128K konteksto ilgis, skirtas sudėtingoms ir plačioms įėjimams tvarkyti.
Treniruotės procesas grindžiamas „Llava“ ir joje yra kelių sluoksnių kodavimo įrenginių funkcijų, taip pat tankesnę tinklo skiriamąją gebą „AnyRes“. Šie patobulinimai pagerina modelio sugebėjimą suprasti išsamų vaizdinį turinį. Ši architektūra leidžia modeliui atlikti įvairias vaizdinių dokumentų užduotis, tokias kaip lentelių ir diagramų analizė, optinio simbolių atpažinimo (OCR) vykdymas ir atsakymas į dokumentus pagrįstas užklausas.

Vertinimai rodo, kad Granito ir 3,1-2B vizija gerai veikia keliuose etalonuose, ypač suprantant dokumentus. Pavyzdžiui, „ChartQA“ etalone jis pasiekė 0,86 balą, pranokdamas kitus modelius 1B-4B parametrų diapazone. „TextVQA“ etalone jis pasiekė 0,76 balą, parodydamas tvirtą aiškinimo ir atsakymo į klausimus, pagrįstus tekstine informacija, įterpta į vaizdus, rezultatus. Šie rezultatai pabrėžia modelio įmonių programų, kurioms reikalingas tikslus vaizdinis ir tekstinis duomenų apdorojimas, galimybes.
IBM „Granite-Apion-33.1-2B“ yra pastebimas tobulėjimas regos kalbos modeliuose, siūlantis gerai subalansuotą požiūrį į vaizdinių dokumentų supratimą. Jos architektūros ir mokymo metodika leidžia jai efektyviai interpretuoti ir analizuoti sudėtingus vaizdinius ir tekstinius duomenis. Turint vietinę „Transformeriai“ ir „VLLM“ palaikymą, modelis yra pritaikomas įvairiems naudojimo atvejams ir gali būti diegtas debesų aplinkoje, tokioje kaip „Colab T4“. Šis prieinamumas daro jį praktine priemone tyrėjams ir specialistams, norintiems patobulinti AI pagrįstų dokumentų apdorojimo galimybes.
Patikrinkite IBM-granito/granito vizija-3,1-2b-prevence ir IBM-granitas/granitas-3,1-2B instrukcija. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Be to, nepamirškite sekti mūsų „Twitter“ ir prisijunkite prie mūsų „Telegram“ kanalas ir „LinkedIn GrOUP. Nepamirškite prisijungti prie mūsų 75K+ ml subreddit.
🚨 Rekomenduojama atvirojo kodo AI platforma: „„ Intellagent “yra atvirojo kodo daugialypės terpės sistema, skirta įvertinti sudėtingą pokalbio AI sistemą“ (Paaukštintas)

Asif Razzaq yra „MarkTechPost Media Inc“ generalinis direktorius. Kaip vizionierius verslininkas ir inžinierius, ASIF yra įsipareigojęs išnaudoti dirbtinio intelekto potencialą socialiniam gėrybei. Naujausias jo siekis yra dirbtinio intelekto žiniasklaidos platformos „MarkTechPost“, kuri išsiskiria išsamia mašininio mokymosi ir giluminio mokymosi naujienų, kuri yra techniškai pagrįsta, ir lengvai suprantama plačiai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonai mėnesinių peržiūrų, parodydama jos populiarumą tarp auditorijos.
✅ (rekomenduojama) Prisijunkite prie mūsų telegramos kanalo