„Microsoft“ tyrėjai pateikia magmą: multimodalinis AI modelis, integruojantis viziją, kalbą ir veiksmus, skirtus pažengusiai robotikai, UI navigacijai ir intelektualiam sprendimų priėmimui
Multimodaliniai AI agentai yra skirti apdoroti ir integruoti įvairius duomenų tipus, tokius…
MaskGCT: naujas atviras moderniausias teksto į kalbą modelis
Pastaraisiais metais teksto į kalbą (TTS) technologija padarė didelę pažangą, tačiau vis…
ConceptAgent: natūralia kalba varoma robotų platforma, skirta užduotims atlikti nestruktūrizuotomis sąlygomis
Robotų užduočių vykdymas atviro pasaulio aplinkoje kelia didelių iššūkių dėl didžiulės būsenos…

