Modelių sujungimas yra pažangi mašininio mokymosi technika, kuria siekiama sujungti kelių ekspertų modelių stipriąsias puses į vieną galingesnį modelį. Šis procesas leidžia sistemai pasinaudoti žiniomis apie įvairius modelius, tuo pačiu sumažinant didelio masto individualaus modelio mokymo poreikį. Modelių sujungimas sumažina skaičiavimo ir saugojimo išlaidas bei pagerina modelio galimybes apibendrinti įvairias užduotis. Sujungdami kūrėjai gali panaudoti decentralizuotą plėtrą, kai skirtingos komandos savarankiškai kuria ekspertų modelius, kurie sujungiami, kad būtų stipresnė bendra sistema.
Didelis iššūkis yra modelių sujungimo mastelio keitimas. Dauguma tyrimų buvo sutelkti į mažo masto modelius, sujungiant ribotus ekspertų modelius, paprastai du ar tris. Didėjant modelių dydžiui ir ekspertų modelių skaičiui, sujungimas tampa sudėtingesnis. Pagrindinis klausimas yra tai, kaip efektyviai sujungti didesnius modelius neprarandant našumo. Kitas rūpestis yra tai, kaip tokie veiksniai kaip bazinio modelio kokybė – ar bazinis modelis yra iš anksto paruoštas, ar tiksliai sureguliuotas konkrečioms užduotims – turi įtakos sujungto modelio veikimui. Labai svarbu suprasti šiuos veiksnius, nes bendruomenė kuria vis didesnius ir sudėtingesnius modelius.
Dabartiniai modelių sujungimo metodai apima paprastus metodus, pvz., ekspertų modelių svorių vidurkį, ir sudėtingesnius, tokius kaip užduočių aritmetika, kai koreguojami konkrečios užduoties parametrai. Tačiau šie metodai buvo išbandyti tik naudojant mažus modelius, paprastai mažiau nei 7 milijardus parametrų, ir paprastai sujungiami tik keli modeliai. Nors šie metodai buvo sėkmingi, jų veiksmingumas didesnio masto modeliuose nebuvo sistemingai vertinamas. Be to, šių metodų galimybė apibendrinti iki nematomų užduočių lieka nepakankamai ištirta, ypač kai susiduriama su keliais didelio masto modeliais.
Mokslininkų komanda iš Šiaurės Karolinos universiteto Chapel Hill, Google ir Virginia Tech pristatė išsamų tyrimą, kuriame įvertinamas didelio masto modelių susiliejimas. Tyrėjai ištyrė sujungiamus modelius, kurių parametrai svyruoja nuo 1 milijardo iki 64 milijardų parametrų, naudodami iki aštuonių įvairių konfigūracijų ekspertų modelių. Buvo įvertinti keturi sujungimo metodai: vidurkis, užduočių aritmetika, dare-TIES ir TIES-sujungimas. Jie taip pat eksperimentavo su dviem baziniais modeliais – PaLM-2 ir PaLM-2-IT (PaLM-2 su instrukcijomis suderinta versija). Jų tikslas buvo ištirti, kaip tokie veiksniai kaip bazinio modelio kokybė, modelio dydis ir sujungiamų ekspertų skaičius veikia bendrą sujungto modelio efektyvumą. Šis didelio masto vertinimas yra vienas pirmųjų bandymų sistemingai įvertinti tokio masto modelių susiliejimą.
Tyrėjai savo metodikoje naudojo visiškai sureguliuotus ekspertų modelius, išmokytus atlikti konkrečias užduotis. Tada jie buvo sujungti, kad būtų įvertintas jų atlikimas atliekant užlaikytas užduotis (užduotys, kurių ekspertai buvo apmokyti) ir uždelstos užduotys (nematytos užduotys, skirtos nuliniam apibendrinimui). Sujungimo metodai buvo susiję su konkrečios užduoties parametrų modifikavimu arba naudojant paprastą vidurkį modeliams derinti. PaLM-2-IT, pagal instrukcijas suderintas bazinio modelio variantas, buvo naudojamas kaip atskaitos taškas siekiant išsiaiškinti, ar instrukcijų derinimas pagerino modelio gebėjimą apibendrinti po sujungimo. Ši metodika leido sistemingai analizuoti modelio dydžio, ekspertų skaičiaus ir bazinio modelio kokybės įtaką sujungimo sėkmei.
Tyrimo rezultatai atskleidė keletą svarbių įžvalgų. Pirma, jie nustatė, kad didesnius modelius, pavyzdžiui, turinčius 64 milijardus parametrų, buvo lengviau sujungti nei mažesnius. Sujungimas žymiai pagerino modelių apibendrinimo galimybes, ypač naudojant instrukcijomis suderintus modelius, tokius kaip PaLM-2-IT. Pavyzdžiui, sujungus aštuonis didelius ekspertų modelius, sujungti modeliai pranoko kelių užduočių atliktus modelius, todėl buvo pasiektas didesnis našumas atliekant neregėtas užduotis. Tiksliau, rezultatai parodė, kad sujungus modelius iš PaLM-2-IT, buvo gautas geresnis nulinis apibendrinimas nei iš anksto apmokyto PaLM-2 modeliai. Be to, didėjant modelio dydžiui sumažėjo skirtingų sujungimo metodų našumo skirtumas, o tai reiškia, kad net tokie paprasti metodai, kaip vidurkio skaičiavimas, gali būti veiksmingi dideliems modeliams. Tyrėjai taip pat pažymėjo, kad sujungus daugiau ekspertų modelių (iki aštuonių), buvo galima geriau apibendrinti be reikšmingo našumo praradimo.
Našumo metrika parodė, kad didesni ir pagal instrukcijas suderinti modeliai turi aiškų pranašumą. Pavyzdžiui, sujungus aštuonis ekspertų modelius iš 64 milijardų parametrų PaLM-2-IT modelio, buvo pasiekti rezultatai, viršijantys daugelio užduočių mokymo bazinio lygio, tradiciškai naudojamo apibendrinimo gerinimui, rezultatus. Tyrimas pabrėžė, kad pagal instrukcijas suderinti modeliai buvo geresni atliekant visus vertinimus, o tai parodė geresnius rezultatus apibendrinant iki nematomų užduočių. Sujungti modeliai geriau prisitaikė prie naujų užduočių nei atskiri tiksliai suderinti ekspertai.
Apibendrinant galima pasakyti, kad tyrimo grupės tyrimas rodo, kad modelių sujungimas, ypač didelio masto, yra daug žadantis metodas kuriant labai apibendrinamus kalbos modelius. Išvados rodo, kad pagal instrukcijas suderinti modeliai labai naudingi sujungimo procesui, ypač gerinant nulinį našumą. Augant modeliams, šiame tyrime vertintų metodų sujungimas taps labai svarbus kuriant keičiamo dydžio ir efektyvias sistemas, kurios gali apibendrinti atliekant įvairias užduotis. Tyrimas suteikia praktinių įžvalgų praktikams ir atveria naujas galimybes tolesniems didelio masto modelių sujungimo metodų tyrimams.
Patikrinkite Popierius. Visi nuopelnai už šį tyrimą tenka šio projekto tyrėjams. Taip pat nepamirškite sekti mūsų Twitter ir prisijunk prie mūsų Telegramos kanalas ir LinkedIn group. Jei jums patinka mūsų darbai, jums patiks ir mūsų darbai naujienlaiškis.. Nepamirškite prisijungti prie mūsų 50 000+ ML SubReddit
(Būsimas įvykis – 202 m. spalio 17 d.) RetrieveX – „GenAI“ duomenų paieškos konferencija (reklamuojama)
Nikhilas yra „Marktechpost“ konsultantas. Indijos technologijos institute Charagpūre jis siekia integruoto dvigubo medžiagų studijų laipsnio. Nikhilas yra AI / ML entuziastas, kuris visada tiria pritaikymą tokiose srityse kaip biomedžiagos ir biomedicinos mokslas. Turėdamas tvirtą medžiagų mokslo išsilavinimą, jis tyrinėja naujus pasiekimus ir kuria galimybes prisidėti.