AI padarė didelę įtaką sveikatos priežiūrai, ypač ligų diagnostikai ir gydymo planavimui. Viena iš sričių, sulaukianti dėmesio, yra medicininių didelių matymo kalbos modelių (Med-LVLM), kurie sujungia vaizdinius ir tekstinius duomenis pažangiems diagnostikos įrankiams, kūrimas. Šie modeliai parodė didelį potencialą pagerinti sudėtingų medicininių vaizdų analizę, siūlydami interaktyvius ir protingus atsakymus, kurie gali padėti gydytojams priimti klinikinius sprendimus. Tačiau nepaisant to, kad šios priemonės yra daug žadančios, jos susiduria su kritiniais iššūkiais, ribojančiais jų platų taikymą sveikatos priežiūros srityje.
Didelė problema, su kuria susiduria Med-LVLM, yra tendencija pateikti netikslią arba „haliucinuotą“ medicininę informaciją. Šios faktinės haliucinacijos gali smarkiai paveikti paciento rezultatus, jei modeliai generuoja klaidingas diagnozes arba neteisingai interpretuoja medicininius vaizdus. Pagrindinės šių problemų priežastys yra didelių, aukštos kokybės paženklintų medicininių duomenų rinkinių poreikis ir paskirstymo spragos tarp duomenų, naudojamų šiems modeliams mokyti, ir duomenų, su kuriais susiduriama realioje klinikinėje aplinkoje. Šis mokymo duomenų ir faktinių diegimo duomenų neatitikimas kelia didelių problemų dėl patikimumo, todėl sunku pasitikėti šiais modeliais kritiniais medicinos scenarijais. Be to, dabartiniai sprendimai, tokie kaip koregavimo ir paieškos papildytos kartos (RAG) metodai, turi apribojimų, ypač kai jie taikomi įvairiose medicinos srityse, tokiose kaip radiologija, patologija ir oftalmologija.
Esami metodai, skirti pagerinti Med-LVLM našumą, daugiausia orientuoti į du metodus: koregavimą ir RAG. Tikslus derinimas apima modelio parametrų koregavimą, remiantis mažesniais, labiau specializuotais duomenų rinkiniais, siekiant pagerinti tikslumą, tačiau ribotas aukštos kokybės pažymėtų duomenų prieinamumas trukdo šiam metodui. Be to, tiksliai suderinti modeliai dažnai turi veikti geriau, kai jie taikomi naujiems, nematomiems duomenims. Ir atvirkščiai, RAG leidžia modeliams gauti išorines žinias išvados proceso metu, siūlant nuorodas realiuoju laiku, kurios gali padėti pagerinti faktinį tikslumą. Tačiau ši technika galėtų būti dar geresnė. Dabartinėms RAG pagrįstoms sistemoms dažnai reikia padėti apibendrinti įvairiose medicinos srityse, o tai riboja jų patikimumą ir gali nesutapti tarp gautos informacijos ir konkrečios sprendžiamos medicininės problemos.
Tyrėjai iš UNC-Chapel Hill, Stanfordo universiteto, Rutgers universiteto, Vašingtono universiteto, Browno universiteto ir PloyU pristatė naują sistemą, vadinamą MMed-RAGuniversali multimodalinė paieškos sistema, sukurta specialiai medicininiams regėjimo kalbos modeliams. MMed-RAG siekia žymiai pagerinti faktinį Med-LVLM tikslumą, įdiegdama domeną žinomą paieškos mechanizmą. Šis mechanizmas gali valdyti įvairius medicininių vaizdų tipus, tokius kaip radiologija, oftalmologija ir patologija, užtikrinant, kad paieškos modelis būtų tinkamas konkrečiai medicinos sričiai. Tyrėjai taip pat sukūrė adaptyvų konteksto atrankos metodą, kuris tiksliai sureguliuoja gautų kontekstų skaičių darant išvadas, užtikrinant, kad modelis naudotų tik svarbią ir aukštos kokybės informaciją. Šis prisitaikantis pasirinkimas padeda išvengti įprastų spąstų, kai modeliai gauna per daug arba per mažai duomenų, todėl gali atsirasti netikslumų.
MMed-RAG sistema sukurta iš trijų pagrindinių komponentų:
- The domeno atkūrimas mechanizmas užtikrina, kad modelis nuskaito konkrečios srities informaciją, kuri glaudžiai atitinka įvestą medicininį vaizdą. Pavyzdžiui, radiologijos vaizdai būtų susieti su atitinkama radiologine informacija, o patologijos vaizdai būtų paimti iš specifinių patologijų duomenų bazių.
- The adaptyvus konteksto pasirinkimas Šis metodas pagerina gautos informacijos kokybę, naudodamas panašumo balus, kad išfiltruotų nesusijusius arba žemos kokybės duomenis. Šis dinaminis požiūris užtikrina, kad modelis atsižvelgs tik į svarbiausius kontekstus, sumažindamas faktinių haliucinacijų riziką.
- The RAG pagrįstas pirmenybių koregavimas optimizuoja modelio kelių rūšių derinimą, užtikrinant, kad gauta informacija ir vizualinė įvestis būtų teisingai suderinti su pagrindine tiesa, taip pagerinant bendrą modelio patikimumą.
MMed-RAG buvo išbandytas penkiuose medicininiuose duomenų rinkiniuose, apimančiuose radiologiją, patologiją ir oftalmologiją, ir gauti puikūs rezultatai. Sistemos faktinis tikslumas, palyginti su ankstesniais Med-LVLM, pagerėjo 43,8 %, o tai pabrėžia jos gebėjimą padidinti diagnostikos patikimumą. Atliekant medicininių klausimų atsakymų užduotis (VQA), MMed-RAG pagerino tikslumą 18,5%, o medicininių ataskaitų generavimo metu jis pasiekė nepaprastą 69,1% pagerėjimą. Šie rezultatai parodo sistemos veiksmingumą atliekant uždaras ir atviras užduotis, kai gauta informacija yra labai svarbi norint tiksliai atsakyti. Be to, MMed-RAG naudojama pirmenybės koregavimo technika sprendžia kryžminio modalumo nesutapimą, dažnai pasitaikančią kituose Med-LVLM, kai modeliai stengiasi subalansuoti vaizdinę įvestį ir gautą tekstinę informaciją.
Pagrindiniai šio tyrimo rezultatai yra šie:
- MMed-RAG pasiekė 43,8% didesnį faktinį tikslumą per penkis medicininius duomenų rinkinius.
- Sistema pagerino medicininio VQA tikslumą 18,5%, o medicininės ataskaitos generavimą – 69,1%.
- Domeną suvokiantis paieškos mechanizmas užtikrina, kad medicininiai vaizdai būtų susieti su tinkamu kontekstu, pagerinant diagnostikos tikslumą.
- Adaptyvus konteksto pasirinkimas padeda sumažinti nereikšmingų duomenų gavimą, padidindamas modelio išvesties patikimumą.
- RAG pagrįstas pirmenybių koregavimas veiksmingai pašalina vizualinių įvesties ir gautos informacijos neatitikimą, pagerindamas bendrą modelio veikimą.

Apibendrinant galima pasakyti, kad MMed-RAG žymiai patobulina medicininės regėjimo kalbos modelius, spręsdama pagrindinius iššūkius, susijusius su faktiniu tikslumu ir modelio derinimu. Įtraukdama domeną žinomą paiešką, adaptyvų konteksto pasirinkimą ir pirmenybių koregavimą, sistema pagerina faktinį Med-LVLM patikimumą ir padidina jų apibendrinimą keliose medicinos srityse. Ši sistema labai pagerino diagnostikos tikslumą ir generuojamų medicininių ataskaitų kokybę. Dėl šių pažangų MMed-RAG yra labai svarbus žingsnis į priekį, kad dirbtinio intelekto pagalba atliekama medicininė diagnostika taptų patikimesnė ir patikimesnė.
Patikrinkite Popierius ir GitHub. Visi nuopelnai už šį tyrimą tenka šio projekto tyrėjams. Taip pat nepamirškite sekti mūsų Twitter ir prisijunk prie mūsų Telegramos kanalas ir LinkedIn group. Jei jums patinka mūsų darbai, jums patiks ir mūsų darbai naujienlaiškis.. Nepamirškite prisijungti prie mūsų 50 000+ ML SubReddit.
(Būsimas tiesioginis internetinis seminaras – 2024 m. spalio 29 d.) Geriausia platforma, skirta tiksliai suderintiems modeliams aptarnauti: „Predibase Inference Engine“ (reklamuojama)

Asif Razzaq yra „Marktechpost Media Inc.“ generalinis direktorius. Kaip verslininkas ir inžinierius, Asif yra įsipareigojęs panaudoti dirbtinio intelekto potencialą socialinei gerovei. Naujausias jo siekis yra dirbtinio intelekto medijos platformos „Marktechpost“ paleidimas, kuri išsiskiria išsamia mašininio mokymosi ir gilaus mokymosi naujienomis, kurios yra techniškai pagrįstos ir lengvai suprantamos plačiajai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonais peržiūrų per mėnesį, o tai rodo jos populiarumą tarp auditorijos.
Klausykite mūsų naujausių AI podcast'ų ir AI tyrimų vaizdo įrašų čia ➡️