AI Matematikos įgūdžių padidinimas: kaip pagrįstai pagrįstai pagrįstai samprotavimai keičia didelių kalbų modelius
Matematiniai didelių kalbos modeliai (LLM) parodė stiprias problemų sprendimo galimybes, tačiau jų…
Šis UC Berkeley AI dokumentas pristato efektyvų duomenis, susijusius su ilgais didelių kalbų modelių mąstymo pagrindais.
Didelių kalbos modeliai (LLMS) apdoroja didelius duomenų rinkinius, kad būtų galima generuoti…
„Salesforce AI Research“ pristato apdovanojimą, kurį valdo spekuliatyviai dekodavimas (RSD): nauja sistema, pagerinanti išvadų efektyvumą didelių kalbų modeliuose (LLM) iki 4,4 × mažiau flopų.
Pastaraisiais metais dėl greito didelių kalbų modelių (LLMS) mastelio keitimas lėmė nepaprastą…
Adaptyvusis išvadų biudžeto valdymas didelių kalbų modeliuose, naudojant suvaržytą politikos optimizavimą
Didelių kalbų modeliai (LLM) parodė nepaprastas galimybes atlikti sudėtingas samprotavimo užduotis, ypač…
„Meta AI“ pristato „Paretoq“: vieningą mašininio mokymosi sistemą, skirtą kiekybiškai įvertinti sub-4 bitą didelių kalbų modeliuose
Toliau augant giluminio mokymosi modeliams, mašinų mokymosi modelių kiekis tampa būtinas, o…
„Microsoft AI“ tyrėjai pristato pažangias mažo bitų kiekio nustatymo metodus, kad būtų galima efektyviai diegti LLM krašto įrenginius be didelių skaičiavimo išlaidų
EDRE įrenginiai, tokie kaip išmanieji telefonai, IoT prietaisai ir įterptos sistemos, apdoroja…
ChemAgent: didelių kalbų modelių tobulinimas sudėtingam cheminiam samprotavimui naudojant dinaminės atminties sistemas
Cheminis samprotavimas apima sudėtingus, kelių etapų procesus, reikalaujančius tikslių skaičiavimų, kai mažos…
„Microsoft AI“ pristato „SCBench“: visapusišką ilgo konteksto metodų įvertinimo didelių kalbų modeliuose etaloną
Ilgo konteksto LLM įgalina pažangias programas, tokias kaip saugyklos lygio kodo analizė,…
„Microsoft AI Research“ pristato OLA-VLM: į viziją orientuotą požiūrį į daugiarūšių didelių kalbų modelių optimizavimą
Daugiarūšiai didelių kalbų modeliai (MLLM) sparčiai tobulėja, todėl mašinos vienu metu gali…
Tyrėjai iš MBZUAI ir CMU pristato „Bi-Mamba“: keičiamo dydžio ir efektyvią 1 bitų „Mamba“ architektūrą, sukurtą kelių dydžių didelių kalbų modeliams (780 M, 1,3 B ir 2,7 B parametrai)
Mašininio mokymosi raida padarė didelę pažangą kalbos modeliuose, kurie yra esminiai tokiems…

