Daugiarūšio pagrindo modeliai tampa vis svarbesni dirbtinio intelekto srityje, leidžiantys sistemoms apdoroti ir integruoti įvairias duomenų formas, pvz., vaizdus, tekstą ir garsą, kad būtų galima atlikti įvairias užduotis. Tačiau šios sistemos susiduria su dideliais iššūkiais. Esamiems modeliams dažnai sunku apibendrinti įvairius būdus ir užduotis, nes jie priklauso nuo ribotų duomenų rinkinių ir būdų. Be to, daugelio dabartinių modelių architektūra kenčia nuo neigiamo perdavimo, kai tam tikrų užduočių našumas blogėja, kai pridedami nauji būdai. Šie iššūkiai trukdo mastelio keitimui ir gebėjimui pasiekti nuoseklius rezultatus, o tai pabrėžia, kad reikia struktūrų, kurios galėtų suvienodinti įvairius duomenų pateikimus išsaugant užduočių atlikimą.
EPFL mokslininkai pristatė 4M – atvirojo kodo sistemą, skirtą įvairiapusiams ir keičiamo dydžio daugiarūšio pagrindo modeliams, kurie apima ne tik kalbą, mokyti. 4M sprendžia esamų metodų apribojimus, įgalindama prognozes įvairiais būdais, integruodama duomenis iš šaltinių, tokių kaip vaizdai, tekstas, semantinės savybės ir geometriniai metaduomenys. Skirtingai nuo tradicinių sistemų, kurios patenkina siaurą užduočių rinkinį, 4M plečiasi ir palaiko 21 būdą, tris kartus daugiau nei daugelis jo pirmtakų.
Pagrindinė 4M naujovė yra diskrečiųjų žetonų naudojimas, paverčiantis įvairius būdus į vieningą žetonų seką. Šis suvienodintas vaizdavimas leidžia modeliui panaudoti transformatoriumi pagrįstą architektūrą bendram kelių duomenų tipų mokymui. Supaprastindama mokymo procesą ir pašalindama specifinių užduočių komponentų poreikį, 4M pasiekia balansą tarp mastelio ir efektyvumo. Kaip atvirojo kodo projektas, jis yra prieinamas platesnei mokslinių tyrimų bendruomenei, skatina bendradarbiavimą ir tolesnę plėtrą.

Techninės detalės ir privalumai
4M sistemoje naudojama kodavimo-dekoderio transformatoriaus architektūra, pritaikyta daugiarūšiam maskuotam modeliavimui. Mokymo metu modalumai ženklinami naudojant specializuotus kodavimo įrenginius, pritaikytus jų duomenų tipams. Pavyzdžiui, vaizdo duomenyse naudojami erdviniai diskretūs VAE, o tekstas ir struktūriniai metaduomenys apdorojami naudojant WordPiece prieigos raktą. Šis nuoseklus požiūris į tokenizavimą užtikrina sklandų įvairių duomenų tipų integravimą.
Viena pastebimų 4M savybių yra galimybė generuoti smulkius ir valdomus duomenis. Kondicionuodamas išvestis pagal tam tikrus būdus, pvz., žmogaus pozas ar metaduomenis, modelis užtikrina aukštą generuojamo turinio valdymo laipsnį. Be to, 4M kryžminio modalinio gavimo galimybės leidžia atlikti užklausas vienu būdu (pvz., tekstu), kad būtų galima gauti atitinkamą informaciją kitame (pvz., vaizdai).
Sistemos mastelio keitimas yra dar viena stiprybė. Apmokytas naudoti didelius duomenų rinkinius, tokius kaip COYO700M ir CC12M, 4M apima daugiau nei 0,5 milijardo mėginių ir padidina iki trijų milijardų parametrų. Suglaudindamas tankius duomenis į retas žetonų sekas, jis optimizuoja atmintį ir skaičiavimo efektyvumą, todėl tai yra praktiškas pasirinkimas sudėtingoms daugiarūšėms užduotims.

Rezultatai ir įžvalgos
4M galimybės yra akivaizdžios atliekant įvairias užduotis. Atlikus vertinimus, jis parodė tvirtą našumą naudojant 21 būdą, nepakenkiant rezultatams, palyginti su specializuotais modeliais. Pavyzdžiui, 4M XL modelis pasiekė 48,1 semantinio segmentavimo MIO balo, atitinkantį arba viršijantį etalonus, o atliekant tris kartus daugiau užduočių nei ankstesni modeliai.
Sistema taip pat puikiai tinka perkėlimo mokymuisi. Tolesnių užduočių, tokių kaip 3D objektų aptikimas ir daugiarūšis semantinis segmentavimas, bandymai rodo, kad 4M iš anksto paruošti koduotuvai išlaiko didelį tikslumą atliekant pažįstamas ir naujas užduotis. Šie rezultatai parodo jo taikymo galimybes tokiose srityse kaip autonominės sistemos ir sveikatos priežiūra, kur labai svarbu integruoti daugiarūšius duomenis.

Išvada
4M sistema žymi reikšmingą žingsnį į priekį kuriant daugiarūšio pagrindo modelius. Sprendžiant mastelio ir kelių transporto rūšių integracijos iššūkius, EPFL indėlis sudaro sąlygas lankstesnėms ir efektyvesnėms AI sistemoms. Jo atvirojo kodo leidimas skatina mokslinių tyrimų bendruomenę remtis šiuo darbu, perkeliant ribas, ką gali pasiekti daugiarūšis AI. Sričiai vystantis, tokios sistemos kaip 4M atliks esminį vaidmenį įgalinant naujas programas ir tobulinant AI galimybes.
Patikrinkite į Popierius, projekto puslapis, „GitHub“ puslapis, demonstracinė versija ir tinklaraštis. Visi nuopelnai už šį tyrimą tenka šio projekto tyrėjams. Taip pat nepamirškite sekti mūsų Twitter ir prisijunk prie mūsų Telegramos kanalas ir LinkedIn group. Nepamirškite prisijungti prie mūsų 60k+ ML SubReddit.
🚨 NEMOKAMAS BŪTINAS AI internetinis seminaras (2025 M. SAUSIO 15 d.): padidinkite LLM tikslumą naudodami sintetinius duomenis ir įvertinimo informaciją–Prisijunkite prie šio internetinio seminaro, kad gautumėte veiksmingų įžvalgų, kaip padidinti LLM modelio našumą ir tikslumą, kartu išsaugant duomenų privatumą.
Asif Razzaq yra „Marktechpost Media Inc.“ generalinis direktorius. Kaip verslininkas ir inžinierius, Asif yra įsipareigojęs panaudoti dirbtinio intelekto potencialą socialinei gerovei. Naujausias jo siekis yra dirbtinio intelekto medijos platformos „Marktechpost“ paleidimas, kuri išsiskiria išsamia mašininio mokymosi ir gilaus mokymosi naujienomis, kurios yra techniškai pagrįstos ir lengvai suprantamos plačiajai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonais peržiūrų per mėnesį, o tai rodo jos populiarumą tarp auditorijos.
✅ (Rekomenduojama skaityti) „Nebius AI Studio“ plečiasi regėjimo modeliais, naujais kalbos modeliais, įterpimais ir LoRA (reklamuojama)


