Pastaraisiais metais didelių kalbos modelių kūrimas žymiai patobulino natūralios kalbos apdorojimą (NLP). Šie modeliai, parengti naudojant didelius duomenų rinkinius, gali nepaprastai gerai generuoti, suprasti ir analizuoti žmonių kalbą. Tačiau norint sukurti tokius modelius reikia daug duomenų, o prieiga prie aukštos kokybės daugiakalbių duomenų rinkinių tebėra didelis iššūkis. Atvirai prieinamų, didelio masto ir įvairių mokymo duomenų rinkinių trūkumas sutrukdė tyrėjams ir kūrėjams kurti labiau įtraukiančius ir patikimesnius kalbos modelius, ypač rečiau vartojamoms kalboms. Kalbos barjerai ir ribotas atstovavimas neleido NLP sistemoms išnaudoti viso savo potencialo. Norint išspręsti šiuos iššūkius, reikia naujo požiūrio, pagal kurį pirmenybė teikiama daugiakalbystei ir atvirai prieigai mokant kalbų modelius.
Bendrojo korpuso išleidimas
Pleias Neseniai išleido „Common Corpus“: didžiausią daugiakalbį duomenų rinkinį, skirtą išankstinio mokymo kalbų modeliams. Šis platus duomenų rinkinys yra svarbus etapas NLP bendruomenei, siūlantis daugiau nei du trilijonus žetonų dešimtimis kalbų, gaunamų iš įvairių atvirų domenų. Bendrasis korpusas, pasiekiamas Hugging Face, yra AI aljanso atvirų duomenų rinkinių iniciatyvos dalis, įkūnijanti įsipareigojimą teikti atviros prieigos duomenis tyrimams ir inovacijoms. „Common Corpus“ yra rinkinys, kuriame švenčiama bendrų žinių įvairovė ir platumas, apimantis penkias pagrindines duomenų kategorijas: atvirą kultūrą, atvirą valdymą, atvirąjį kodą, atvirąjį mokslą ir atvirą internetą. Nuo viešų ataskaitų iki mokslinių publikacijų, atviros kultūros išteklių, pvz., Vikipedijos, ir net leistinai licencijuoto kodo iš GitHub – šis duomenų rinkinys suteikia precedento neturintį turinį, skirtą mokyti daugiakalbius modelius. Įtraukus šiuos įvairius duomenų tipus, jis idealiai tinka bendrosios paskirties kalbos modeliams, kurie gali suprasti ir reaguoti į niuansuotą, įvairų žmonių bendravimą.
Techninė informacija ir privalumai
Techniniu požiūriu „Common Corpus“ yra nepaprastas pasiekimas, tarnaujantis kaip daugiakalbių duomenų šaltinis. Tai apima kuruojamus duomenis iš atviros prieigos saugyklų, tokių kaip OpenAlex moksliniams straipsniams, vyriausybės leidiniams, GitHub atvirojo kodo programinei įrangai ir kt. Naudodamas kelis duomenų domenus, „Pleias“ užtikrina, kad duomenų rinkinys būtų ne tik didžiulis, bet ir atspindėtų platų realaus pasaulio turinio spektrą. Ši įvairovė leidžia kalbiniams modeliams, parengtiems bendrajame korpuse, geriau suprasti kontekstą ir giliau suvokti skirtingus kalbos žanrus ir registrus. Be to, jos daugiakalbiškumas patenkina esminį vienodo atstovavimo visoms pasaulio kalboms poreikį, padedant NLP tyrėjams siekti ateities, kurioje kalbų technologijose nedominuoja tik anglų kalba ar keletas plačiai vartojamų kalbų. Duomenų rinkinys, kuriame akcentuojama atviroji prieiga, taip pat padeda sumažinti išteklių skirtumus tarp pagrindinių mokslinių tyrimų subjektų ir nepriklausomų ar akademinių tyrėjų, todėl pažangiosios kalbos technologijos tampa prieinamesnės.
Svarba ir rezultatai
Bendrojo korpuso išleidimas yra esminis vystymasis dėl kelių priežasčių. Duomenų rinkinys ne tik nustato naują etaloną dydžio atžvilgiu, bet ir įkūnija bendrų žinių, atkuriamumo ir įtraukimo viziją. Tai suteikia tyrėjams visame pasaulyje galimybę kurti kalbos modelius, skirtus platesnei auditorijai. Mokydamiesi apie gausų daugiakalbių duomenų rinkinį, būsimi modeliai gali pateikti tikslesnius, kultūrinius ir kontekstinius atsakymus. Preliminarūs eksperimentai jau parodė daug žadančių rezultatų, o modeliai, parengti naudojant „Common Corpus“, pagerino našumą nulinio ir kelių kadrų nustatymuose įvairiomis kalbomis. Tai rodo, kad tokio duomenų rinkinio apimtis gali iš tikrųjų pakelti kalbų modelius už įprastų vienakalbių ar dvikalbių mokymo paradigmų, o tai yra tikras žingsnis į priekį tiek akademinei bendruomenei, tiek pramonei sprendžiant tokias problemas kaip kalbos išsaugojimas ir AI sistemų kultūrinės įtraukties užtikrinimas.
Išvada
Apibendrinant galima pasakyti, kad „Pleias Common Corpus“ yra didžiulis indėlis į daugiakalbių kalbų modeliavimo ateitį. Pateikdamas atvirą ir išsamų duomenų rinkinį, jis sprendžia duomenų prieinamumo ir įvairovės iššūkius, kurie apribojo NLP plėtrą. Kadangi duomenų rinkinys yra atvirai prieinamas tokiose platformose kaip Hugging Face, tai taip pat rodo augantį AI bendruomenės įsipareigojimą teikti pirmenybę bendradarbiavimui ir atvirumui. Kai judėsime į priekį, tokie ištekliai kaip „Common Corpus“ bus labai svarbūs kuriant demokratiškesnes, sąžiningesnes ir įtraukesnes AI sistemas, kurios tikrai galėtų pasitarnauti pasaulinei auditorijai.
Peržiūrėkite „HuggingFace“ bendrąjį korpusą. Visi nuopelnai už šį tyrimą tenka šio projekto tyrėjams. Taip pat nepamirškite sekti mūsų Twitter ir prisijunk prie mūsų Telegramos kanalas ir LinkedIn group. Jei jums patinka mūsų darbai, jums patiks ir mūsų darbai naujienlaiškis.. Nepamirškite prisijungti prie mūsų 55k+ ML SubReddit.
Kodėl dirbtinio intelekto modeliai vis dar yra pažeidžiami: pagrindinės įžvalgos iš Kili Technology ataskaitos apie didelių kalbų modelių pažeidžiamumą (Visą techninę ataskaitą skaitykite čia)
Aswin AK yra MarkTechPost konsultavimo praktikantas. Jis siekia dvigubo laipsnio Indijos technologijos institute, Kharagpur. Jis yra aistringas duomenų mokslui ir mašininiam mokymuisi, turintis tvirtą akademinį išsilavinimą ir praktinę patirtį sprendžiant realaus gyvenimo kelių sričių iššūkius.
🐝🐝 LinkedIn renginys „Viena platforma, multimodalinės galimybės“, kuriame „Encord“ generalinis direktorius Ericas Landau ir produktų inžinerijos vadovas Justinas Sharpsas kalbės apie tai, kaip jie iš naujo išranda duomenų kūrimo procesą, kad padėtų komandoms greitai kurti žaidimus keičiančius multimodalinius AI modelius.