Edge AI jau seniai susidūrė su efektyvumo ir efektyvumo pusiausvyros iššūkiu. „Vision Language Models“ (VLM) diegti kraštutiniuose įrenginiuose sunku dėl jų didelio dydžio, didelių skaičiavimo reikalavimų ir delsos problemų. Debesų aplinkai sukurti modeliai dažnai susiduria su ribotais kraštinių įrenginių ištekliais, todėl per daug sunaudojama baterija, lėtėja atsako laikas ir nenuoseklus ryšys. Lengvų, bet efektyvių modelių paklausa auga, nes tai skatina tokios programos kaip papildyta realybė, išmanieji namų asistentai ir pramoninis daiktų internetas, kuriems reikalingas greitas vaizdo ir teksto įvesties apdorojimas. Šiuos iššūkius dar labiau apsunkina padidėjęs haliucinacijų dažnis ir nepatikimi rezultatai atliekant tokias užduotis kaip vaizdinis atsakymas į klausimus ar vaizdų antraštės, kur kokybė ir tikslumas yra labai svarbūs.
„Nexa AI“ išleido „OmniVision-968M“: mažiausią pasaulyje vizijos kalbos modelį su 9 kartus sumažintu žetonų kiekiu kraštiniams įrenginiams. „OmniVision-968M“ buvo sukurta su patobulinta architektūra, palyginti su LLaVA (Large Language and Vision Assistant), todėl pasiekiamas naujas kompaktiškumo ir efektyvumo lygis, idealiai tinkantis važiuoti ant krašto. Dėl dizaino, kurio pagrindinis dėmesys skiriamas vaizdų žetonų sumažinimui devynis kartus – nuo 729 iki 81, su tokiais modeliais įprastai susijusi delsa ir skaičiavimo našta buvo drastiškai sumažinta.
„OmniVision“ architektūra sudaryta iš trijų pagrindinių komponentų:
- Bazinės kalbos modelis: Qwen2.5-0.5B-Instruct yra pagrindinis teksto įvesties apdorojimo modelis.
- Vizija Encoder: SigLIP-400M, su 384 raiška ir 14 × 14 pataisos dydžiu, generuoja vaizdo įterpimus.
- Projekcinis sluoksnis: Multi-Layer Perceptron (MLP) sulygina regėjimo koduotuvo įterpimus su kalbos modelio žetonų erdve. Skirtingai nuo standartinės Llava architektūros, mūsų projektorius sumažina vaizdo žetonų skaičių 9 kartus.
„OmniVision-968M“ integruoja keletą pagrindinių techninių patobulinimų, todėl jis puikiai tinka kraštiniam diegimui. Modelio architektūra buvo patobulinta remiantis LLaVA, leidžiančia efektyviai apdoroti tiek vaizdo, tiek teksto įvestis. Vaizdo žetonų sumažinimas nuo 729 iki 81 reiškia didelį optimizavimo šuolį, todėl žetonų apdorojimas yra beveik devynis kartus efektyvesnis, palyginti su esamais modeliais. Tai turi didelį poveikį delsos ir skaičiavimo sąnaudų mažinimui, kurie yra esminiai veiksniai kraštiniams įrenginiams. Be to, „OmniVision-968M“ naudoja tiesioginių nuostatų optimizavimo (DPO) mokymus su patikimais duomenų šaltiniais, o tai padeda sušvelninti haliucinacijų problemą – įprastą daugiarūšio dirbtinio intelekto sistemų iššūkį. Sutelkdamas dėmesį į vaizdinį atsakymą į klausimus ir vaizdų antraštes, modelis siekia pasiūlyti sklandžią, tikslią vartotojo patirtį, užtikrindamas patikimumą ir tvirtumą kraštutinėse programose, kuriose labai svarbus atsakas realiuoju laiku ir energijos vartojimo efektyvumas.
OmniVision-968M išleidimas yra reikšmingas pažanga dėl kelių priežasčių. Visų pirma, žetonų skaičiaus sumažinimas žymiai sumažina skaičiavimo išteklius, reikalingus išvadoms daryti. Kūrėjams ir įmonėms, norintiems įdiegti VLM ribotoje aplinkoje, pvz., nešiojamuose įrenginiuose, mobiliuosiuose įrenginiuose ir daiktų interneto aparatinėje įrangoje, kompaktiškas OmniVision-968M dydis ir efektyvumas yra idealus sprendimas. Be to, DAP mokymo strategija padeda sumažinti haliucinacijas – dažną problemą, kai modeliai generuoja neteisingą arba klaidinančią informaciją, užtikrinant, kad „OmniVision-968M“ būtų efektyvus ir patikimas. Preliminarūs etaloniniai rodikliai rodo, kad OmniVision-968M pasiekia 35 % sumažintą išvados laiką, palyginti su ankstesniais modeliais, išlaikant ar net pagerinant užduočių, pvz., vizualaus atsakymo į klausimus ir vaizdų antraštes, tikslumą. Tikimasi, kad ši pažanga paskatins pritaikymą visose pramonės šakose, kurioms reikalinga didelės spartos ir mažai galios DI sąveika, pavyzdžiui, sveikatos priežiūra, išmanieji miestai ir automobilių sektorius.
Apibendrinant galima pasakyti, kad „Nexa AI OmniVision-968M“ pašalina ilgalaikę spragą AI pramonėje: poreikį sukurti labai efektyvius vaizdo kalbos modelius, kurie galėtų sklandžiai veikti pažangiuose įrenginiuose. Sumažinus vaizdų žetonus, optimizuojant LLaVA architektūrą ir įtraukiant DPO mokymus, kad būtų užtikrintas patikimas išvestis, „OmniVision-968M“ yra naujas pažangos AI riba. Šis modelis priartina mus prie visur esančio AI vizijos – kai išmanieji, prijungti įrenginiai gali atlikti sudėtingas daugiarūšes užduotis vietoje, nereikalaujant nuolatinio debesų palaikymo.
Patikrinkite Modelis apsikabinęs veidą ir Kitos detalės. Visi nuopelnai už šį tyrimą tenka šio projekto tyrėjams. Taip pat nepamirškite sekti mūsų Twitter ir prisijunk prie mūsų Telegramos kanalas ir LinkedIn group. Jei jums patinka mūsų darbai, jums patiks ir mūsų darbai naujienlaiškis.. Nepamirškite prisijungti prie mūsų 55k+ ML SubReddit.
(NEMOKAMAS AI internetinis seminaras) Sumanaus dokumentų apdorojimo su GenAI įgyvendinimas finansinių paslaugų ir nekilnojamojo turto sandoriuose
Asif Razzaq yra „Marktechpost Media Inc.“ generalinis direktorius. Kaip verslininkas ir inžinierius, Asif yra įsipareigojęs panaudoti dirbtinio intelekto potencialą socialinei gerovei. Naujausias jo siekis yra dirbtinio intelekto medijos platformos „Marktechpost“ paleidimas, kuri išsiskiria išsamia mašininio mokymosi ir gilaus mokymosi naujienomis, kurios yra techniškai pagrįstos ir lengvai suprantamos plačiajai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonais peržiūrų per mėnesį, o tai rodo jos populiarumą tarp auditorijos.
🐝🐝 Artėjantis tiesioginis LinkedIn renginys „Viena platforma, daugiarūšės galimybės“, kuriame „Encord“ generalinis direktorius Ericas Landau ir produktų inžinerijos vadovas Justinas Sharpsas kalbės, kaip jie iš naujo išranda duomenų kūrimo procesą, kad padėtų komandoms greitai kurti žaidimus keičiančius multimodalinius AI modelius.