Tyrėjai vis daugiau dėmesio skiria sistemų kūrimui, galinčioms tvarkyti daugiarūšį duomenų tyrimą, kuris sujungia struktūrinius ir nestruktūruotus duomenis. Tai apima teksto, vaizdų, vaizdo įrašų ir duomenų bazių analizę, kad būtų galima atsakyti į sudėtingas užklausas. Šios galimybės yra labai svarbios sveikatos priežiūroje, kur medicinos specialistai bendrauja su pacientų įrašais, medicininiais vaizdais ir tekstinėmis ataskaitomis. Panašiai multimodalinis tyrinėjimas padeda interpretuoti duomenų bazes su metaduomenimis, teksto kritika ir meno kūrinių vaizdais meno kuravimo ar tyrimų metu. Sklandus šių duomenų tipų derinimas suteikia didelį potencialą priimti sprendimus ir įžvalgas.
Vienas iš pagrindinių iššūkių šioje srityje yra suteikti vartotojams galimybę pateikti užklausas dėl daugiarūšių duomenų naudojant natūralią kalbą. Tradicinės sistemos sunkiai interpretuoja sudėtingas užklausas, apimančias kelis duomenų formatus, pvz., klausia tendencijų struktūrinėse lentelėse analizuojant susijusį vaizdo turinį. Be to, nesant įrankių, kurie aiškiai paaiškintų užklausos rezultatus, vartotojams sunku pasitikėti rezultatais ir juos patvirtinti. Šie apribojimai sukuria atotrūkį tarp pažangių duomenų apdorojimo galimybių ir naudojimo realiame pasaulyje.
Dabartiniais sprendimais bandoma spręsti šias problemas naudojant du pagrindinius metodus. Pirmasis integruoja kelis modalumus į suvienodintas užklausų kalbas, tokias kaip NeuralSQL, kuri įterpia vizijos kalbos funkcijas tiesiai į SQL komandas. Antrasis naudoja agentines darbo eigas, kurios koordinuoja įvairius įrankius, skirtus konkrečių metodų analizei, pavyzdžiui, CESURA. Nors šie metodai padarė pažangą šioje srityje, jie nesugeba optimizuoti užduočių vykdymo, užtikrinti paaiškinamumą ir efektyviai spręsti sudėtingas užklausas. Šie trūkumai išryškina sistemos, galinčios dinamiškai prisitaikyti ir aiškiai mąstyti, poreikį.
Ciuricho taikomųjų mokslų universiteto mokslininkai pristatė XMODE – naują sistemą, skirtą šioms problemoms spręsti. XMODE įgalina paaiškinamą daugiarūšį duomenų tyrimą naudojant didelės kalbos modeliu (LLM) pagrįstą agentinę sistemą. Sistema interpretuoja vartotojo užklausas ir suskaido jas į papildomas užduotis, tokias kaip SQL generavimas ir vaizdų analizė. Kurdama darbo eigas, vaizduojamas kaip nukreipti acikliniai grafikai (DAG), XMODE optimizuoja užduočių seką ir vykdymą. Šis metodas pagerina efektyvumą ir tikslumą, palyginti su pažangiausiomis sistemomis, tokiomis kaip CESURA ir NeuralSQL. Be to, XMODE palaiko užduočių perplanavimą, leidžiančią prisitaikyti, kai sugenda konkretūs komponentai.
XMODE architektūrą sudaro penki pagrindiniai komponentai: planavimas ir ekspertinio modelio paskirstymas, vykdymas ir savaiminis derinimas, sprendimų priėmimas, ekspertų įrankiai ir bendra duomenų saugykla. Kai gaunama užklausa, sistema sukuria išsamią užduočių eigą, priskirdama jas atitinkamiems įrankiams, pvz., SQL generavimo moduliams ir vaizdų analizės modeliams. Šios užduotys, kur įmanoma, atliekamos lygiagrečiai, sumažinant delsą ir skaičiavimo išlaidas. Be to, XMODE savaiminio derinimo galimybės leidžia nustatyti ir ištaisyti užduoties vykdymo klaidas, užtikrinant patikimumą. Šis pritaikomumas yra labai svarbus tvarkant sudėtingas darbo eigas, apimančias įvairius duomenų būdus.
XMODE pademonstravo puikų našumą testuodamas du duomenų rinkinius. Meno kūrinių duomenų rinkinyje XMODE pasiekė 63,33% tikslumą, palyginti su CESURA 33,33%. Jis puikiai atliko užduotis, reikalaujančias sudėtingų išvesties, pvz., brėžinių ir kombinuotų duomenų struktūrų, ir pasiekė 100 % tikslumą generuojant sklypo ir duomenų struktūros išvestis. Be to, XMODE galimybė vykdyti užduotis lygiagrečiai sumažino delsą iki 3 040 milisekundžių, palyginti su CESURA 5 821 milisekundėmis. Šie rezultatai pabrėžia jo efektyvumą apdorojant natūralios kalbos užklausas per daugiarūšius duomenų rinkinius.
Elektroninių sveikatos įrašų (EHR) duomenų rinkinyje XMODE pasiekė 51 % tikslumą, pranokdamas NeuralSQL kelių lentelių užklausose ir surinko 77,50 %, palyginti su NeuralSQL 47,50 %. Sistema puikiai tvarko dvejetaines užklausas, pasiekdama 74 % tikslumą, žymiai didesnį nei NeuralSQL 48 % toje pačioje kategorijoje. XMODE gebėjimas prisitaikyti ir perplanuoti užduotis prisidėjo prie jos tvirto veikimo, todėl jis ypač veiksmingas scenarijuose, kuriems reikia išsamaus argumentavimo ir kelių transporto rūšių integracijos.
XMODE veiksmingai pašalina esamų daugiarūšių duomenų tyrimo sistemų apribojimus, derindama pažangų planavimą, lygiagretų užduočių vykdymą ir dinaminį perplanavimą. Jo novatoriškas požiūris leidžia vartotojams efektyviai pateikti užklausas dėl sudėtingų duomenų rinkinių, užtikrinant skaidrumą ir paaiškinamumą. Įrodytas tikslumo, efektyvumo ir ekonomiškumo patobulinimas, XMODE yra didelė pažanga šioje srityje, siūlanti praktinį pritaikymą tokiose srityse kaip sveikatos priežiūra ir meno kuravimas.
Patikrinkite į Popierius. Visi nuopelnai už šį tyrimą tenka šio projekto tyrėjams. Taip pat nepamirškite sekti mūsų Twitter ir prisijunk prie mūsų Telegramos kanalas ir LinkedIn group. Nepamirškite prisijungti prie mūsų 60k+ ML SubReddit.
🚨 Populiarumas: LG AI tyrimų išleidimas EXAONE 3.5: trys atvirojo kodo dvikalbiai AI lygio modeliai, teikiantys neprilygstamas instrukcijas ir ilgą konteksto supratimą, kad būtų pasaulinė lyderystė kuriant AI tobulumą….

Nikhilas yra „Marktechpost“ konsultantas. Indijos technologijos institute Charagpūre jis siekia integruoto dvigubo medžiagų studijų laipsnio. Nikhilas yra AI / ML entuziastas, kuris visada tiria pritaikymą tokiose srityse kaip biomedžiagos ir biomedicinos mokslas. Turėdamas tvirtą medžiagų mokslo išsilavinimą, jis tyrinėja naujus pasiekimus ir kuria galimybes prisidėti.
🧵🧵 (Atsisiųsti) Didelių kalbų modelio pažeidžiamumo ataskaitos įvertinimas (reklamuojamas)