Hipotezės patvirtinimas yra esminis mokslinio atradimo, sprendimų priėmimo ir informacijos gavimo. Ar biologijoje, ekonomikoje ar politikos formavime tyrėjai remiasi hipotezių tikrinimu, kad padėtų jų išvadas. Tradiciškai šis procesas apima eksperimentų projektavimą, duomenų rinkimą ir rezultatų analizę, siekiant nustatyti hipotezės pagrįstumą. Tačiau atsiradus LLM, atsiradus LLM, dramatiškai padidėjo. Nors šios AI pagrįstos hipotezės siūlo naujas įžvalgas, jų patikimumas labai skiriasi, todėl rankinis patvirtinimas yra nepraktiškas. Taigi hipotezės patvirtinimo automatizavimas tapo esminiu iššūkiu užtikrinant, kad tik moksliškai griežtos hipotezės vadovaus būsimiems tyrimams.
Pagrindinis hipotezės patvirtinimo iššūkis yra tas, kad daugelis realaus pasaulio hipotezių yra abstrakčios ir nėra tiesiogiai išmatuojamos. Pavyzdžiui, teiginys, kad konkretus genas sukelia ligą, yra per platus ir ją reikia paversti tikrinamomis pasekmėmis. LLM kilimas padidino šią problemą, nes šie modeliai sukuria hipotezes precedento neturinčiu mastu, iš kurių daugelis gali būti netikslūs ar klaidinantys. Esami patvirtinimo metodai stengiasi neatsilikti nuo tempo, todėl sunku nustatyti, kurios hipotezes verta toliau ištirti. Be to, dažnai kenkia statistinis griežtumas, dėl kurio gali būti klaidingų patikrinimų, galinčių klaidingai nukreipti tyrimus ir politines pastangas.
Tradiciniai hipotezės patvirtinimo metodai apima statistinius bandymo sistemas, tokias kaip p-vertės pagrįstų hipotezių testavimas ir Fišerio kombinuotas testas. Tačiau šie požiūriai priklauso nuo žmogaus intervencijos, kad būtų sukurtos falsifikavimo eksperimentai ir interpretuojami rezultatai. Yra keletas automatizuotų metodų, tačiau jiems dažnai trūksta mechanizmų, skirtų I tipo klaidų kontroliuoti (klaidingi teiginiai) ir užtikrinti, kad išvados būtų statistiškai patikimos. Daugelis AI pagrįstų patvirtinimo priemonių sistemingai neginčija hipotezių dėl griežto klastojimo, padidindama klaidinančių išvadų riziką. Dėl to, norint efektyviai automatizuoti hipotezės patvirtinimo procesą, reikalingas keičiamas ir statistiškai patikimas sprendimas.
Pristatė Stanfordo universiteto ir Harvardo universiteto tyrėjai Popperisagentinė sistema, automatizuojanti hipotezės patvirtinimo procesą, integruojant griežtus statistinius principus su LLM pagrįstais agentais. Sistema sistemingai taiko Karlo Popperio klastojimo principą, kuris pabrėžia paneigimą, o ne įrodo hipotezes. „Popper“ dirba du specializuotus AI varomus agentus:
- Eksperimento projektavimo agentas, kuris formuluoja falsifikavimo eksperimentus
- Eksperimento vykdymo agentas, kuris juos įgyvendina
Kiekviena hipotezė yra suskirstyta į specifines, patikrinamas subhipozes ir atliekama klastojimo eksperimentams. „Popper“ užtikrina, kad tik gerai palaikomos hipotezės būtų pažengusios nuolat tobulinant patvirtinimo procesą ir kaupiančius įrodymus. Skirtingai nuo tradicinių metodų, „Popper“ dinamiškai pritaiko savo požiūrį remdamasis ankstesniais rezultatais, žymiai pagerindamas efektyvumą išlaikant statistinį vientisumą.
Popperis funkcionuoja per pasikartojantį procesą, kurio metu klastojimo eksperimentai paeiliui išbando hipotezes. Eksperimento projektavimo agentas sukuria šiuos eksperimentus, nustatydama išmatuojamą tam tikros hipotezės padarinius. Tada eksperimento vykdymo agentas atlieka siūlomus eksperimentus, naudodamas statistinius metodus, modeliavimą ir realaus pasaulio duomenų rinkimą. „Popper“ metodikos raktas yra jos sugebėjimas griežtai valdyti I tipo klaidų procentus, užtikrinant, kad būtų kuo mažiau klaidingų teigiamų dalykų. Skirtingai nuo įprastų metodų, gydančių p vertes atskirai, Popperis pristato nuoseklųjį bandymo sistemą, kurioje atskiros p vertės paverčiamos e vertomis-statistinė priemonė, leidžianti nuolat kauptis įrodymais, išlaikant klaidų kontrolę. Šis adaptyvusis požiūris leidžia sistemai dinamiškai patobulinti jos hipotezes, sumažinant galimybes padaryti neteisingas išvadas. Sistemos lankstumas leidžia jai dirbti su esamais duomenų rinkiniais, atlikti naujus modeliavimus ar bendrauti su tiesioginiais duomenų šaltiniais, todėl jis yra labai universalus visose disciplinose.
Popperis buvo įvertintas šešiose srityse: biologijoje, sociologijoje ir ekonomikoje. Sistema buvo patikrinta pagal 86 patvirtintas hipotezes, o rezultatai rodo, kad I tipo klaidų lygis yra mažesnis nei 0,10 visuose duomenų rinkiniuose. Popperis parodė reikšmingą statistinės galios pagerėjimą, palyginti su esamais patvirtinimo metodais, pralenkdamas standartinius metodus, tokius kaip Fišerio kombinuotas testas ir tikimybės santykio modeliai. Viename tyrime, kuriame pagrindinis dėmesys skiriamas biologinėms hipotezėms, susijusioms su interleukinu-2 (IL-2), Popperio iteracinis bandymo mechanizmas pagerino patvirtinimo galią 3,17 karto, palyginti su alternatyviais metodais. Taip pat ekspertų vertinimas, apimantis devynis daktaro laipsnio skaičiavimo biologus ir biostatistikus, nustatė, kad Popperio hipotezės patvirtinimo tikslumas buvo panašus į žmonių tyrėjų, tačiau buvo baigtas per dešimtmetį laiką. Pasinaudodamas savo adaptyviosios bandymo sistema, Popperis sumažino laiką, reikalingą sudėtingam hipotezės patvirtinimui 10, todėl jis buvo žymiai labiau keičiamas ir efektyvesnis.
Keli pagrindiniai tyrimų paėmimai apima:
- „Popper“ pateikia keičiamą, AI varomą sprendimą, kuris automatizuoja hipotezių klastojimą, sumažina rankinį darbo krūvį ir pagerina efektyvumą.
- Sistema palaiko griežtą I tipo klaidų kontrolę, užtikrinant, kad klaidingi teiginiai išliktų mažesni nei 0,10, o tai labai svarbu moksliniam vientisumui.
- Palyginti su žmonių tyrėjais, Popperis užbaigia hipotezės patvirtinimą 10 kartų greičiau, žymiai pagerindamas mokslinio atradimo greitį.
- Skirtingai nuo tradicinio p vertės testavimo, e verčių naudojimas leidžia kauptis eksperimentiniais įrodymais, tuo pačiu dinamiškai tobulinant hipotezės patvirtinimą.
- Išbandyta šešiose mokslinėse srityse, įskaitant biologiją, sociologiją ir ekonomiką, parodant plačią pritaikomumą.
- Įvertinę devyni doktorantūros mokslininkai, Popperio tikslumas atitiko žmogaus rezultatus, tuo pačiu dramatiškai sutrumpindamas laiką, praleistą patvirtinimui.
- Patobulinta statistinė galia 3,17 kartus per tradicinius hipotezės patvirtinimo metodus, užtikrinant patikimesnes išvadas.
- Popperis integruoja didelius kalbos modelius, kad dinamiškai generuotų ir patobulintų klastojimo eksperimentus, todėl jis yra pritaikomas besikeičiančiam tyrimų poreikiams.
Patikrinkite Popieriaus ir „GitHub“ puslapis. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Taip pat nedvejodami sekite mus „Twitter“ Ir nepamirškite prisijungti prie mūsų 75K+ ml subreddit.
🚨 Rekomenduojama „Read-LG AI Research“ išleidžia „Nexus“: pažangių sistemos integracinių agentų AI sistemos ir duomenų atitikties standartų, skirtų teisiniams klausimams spręsti AI duomenų rinkiniuose
Asif Razzaq yra „MarkTechPost Media Inc“ generalinis direktorius. Kaip vizionierius verslininkas ir inžinierius, ASIF yra įsipareigojęs išnaudoti dirbtinio intelekto potencialą socialiniam gėrybei. Naujausias jo siekis yra dirbtinio intelekto žiniasklaidos platformos „MarkTechPost“, kuri išsiskiria išsamia mašininio mokymosi ir giluminio mokymosi naujienų, kuri yra techniškai pagrįsta, ir lengvai suprantama plačiai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonai mėnesinių peržiūrų, parodydama jos populiarumą tarp auditorijos.



