Black Forest Labs išleidžia FLUX.2 (klein), kompaktišką vaizdo modelių šeimą, skirtą interaktyviam vartotojų aparatūros vaizdiniam intelektui. FLUX.2 (klein) išplečia FLUX.2 liniją su antrosios kartos ir redagavimu, vieninga teksto į vaizdą ir vaizdo į vaizdą architektūra bei diegimo parinktimis, kurios svyruoja nuo vietinių GPU iki debesies API, išlaikant naujausią vaizdo kokybę.
Nuo FLUX.2 (dev) iki interaktyvaus vaizdo intelekto
FLUX.2 (dev) yra 32 milijardų parametrų ištaisytas srauto transformatorius, skirtas tekstiniams vaizdams generuoti ir redaguoti, įskaitant kompoziciją su keliais etaloniniais vaizdais, ir daugiausia veikia duomenų centro klasės greitintuvuose. Jis pritaikytas maksimaliai kokybei ir lankstumui, su ilgais mėginių ėmimo grafikais ir dideliais VRAM reikalavimais.
FLUX.2 (klein) imasi tos pačios konstrukcijos krypties ir suspaudžia ją į mažesnius rektifikuotus srauto transformatorius su 4 milijardais ir 9 milijardais parametrų. Šie modeliai distiliuojami pagal labai trumpus mėginių ėmimo grafikus, palaiko tas pačias teksto į vaizdą ir kelių nuorodų redagavimo užduotis ir yra optimizuoti, kad šiuolaikiniuose GPU reakcijos laikas būtų mažesnis nei 1 sekundė.
Modelių šeima ir galimybės
FLUX.2 (klein) šeimą sudaro 4 pagrindiniai atviro svorio variantai pagal vieną architektūrą.
- FLUX.2 (klein) 4B
- FLUX.2 (klein) 9B
- FLUX.2 (klein) 4B Pagrindas
- FLUX.2 (klein) 9B Pagrindas
FLUX.2 (klein) 4B ir 9B yra pakopinio distiliavimo ir orientacinio distiliavimo modeliai. Jie naudoja 4 išvados žingsnius ir yra laikomi greičiausiomis gamybos ir interaktyviųjų darbo krūvių parinktimis. FLUX.2 (klein) 9B sujungia 9B srauto modelį su 8B Qwen3 teksto įterpimo įtaisu ir apibūdinamas kaip pavyzdinis mažas modelis Pareto pasienyje, siekiant kokybės ir vėlavimo tarp teksto į vaizdą, vienos nuorodos redagavimo ir kelių nuorodų generavimo.
Baziniai variantai yra nedistiliuoti variantai su ilgesniu mėginių ėmimo grafiku. Dokumentacijoje jie išvardyti kaip pagrindiniai modeliai, kurie išsaugo visą mokymo signalą ir užtikrina didesnę išvesties įvairovę. Jie skirti tiksliam derinimui, LoRA mokymui, tyrimų vamzdynams ir pasirinktinėms darbo eigoms po mokymo, kai valdymas yra svarbesnis už minimalų delsą.
Visi FLUX.2 (klein) modeliai palaiko tris pagrindines užduotis toje pačioje architektūroje. Jie gali generuoti vaizdus iš teksto, jie gali redaguoti vieną įvesties vaizdą ir gali atlikti kelių nuorodų generavimą ir redagavimą, kai keli įvesties vaizdai ir raginimas kartu apibrėžia tikslinę išvestį.
Latencija, VRAM ir kvantuoti variantai
FLUX.2 (klein) modelio puslapyje pateikiami apytiksliai GB200 ir RTX 5090 išvados nuo pabaigos iki pabaigos. FLUX.2 (klein) 4B yra greičiausias variantas ir pateikiamas maždaug nuo 0,3 iki 1,2 sekundės vienam vaizdui, priklausomai nuo aparatinės įrangos. FLUX.2 (klein) 9B nutaiko apie 0,5–2 sekundes aukštesne kokybe. Baziniams modeliams reikia kelių sekundžių, nes jie veikia su 50 žingsnių mėginių ėmimo tvarkaraščiais, tačiau jie suteikia daugiau lankstumo pasirinktiniams vamzdynams.
FLUX.2 (klein) 4B modelio kortelėje nurodyta, kad 4B telpa apie 13 GB VRAM ir tinka GPU, pvz., RTX 3090 ir RTX 4070. FLUX.2 (klein) 9B kortelė reikalauja apie 29 GB VRAM ir yra skirta aparatūrai, tokiai kaip RTXille. variantai su visos skiriamosios gebos atranka.
Siekdama išplėsti pasiekiamumą iki daugiau įrenginių, Black Forest Labs taip pat išleidžia FP8 ir NVFP4 versijas visiems FLUX.2 (klein) variantams, sukurtas kartu su NVIDIA. FP8 kvantavimas apibūdinamas kaip iki 1,6 karto greitesnis su iki 40 procentų mažesniu VRAM naudojimu, o NVFP4 – iki 2,7 karto greitesnis su iki 55 procentais mažesniu VRAM naudojimu RTX GPU, išlaikant tas pačias pagrindines galimybes.
Palyginimai su kitais vaizdo modeliais
Black Forest Labs įvertina FLUX.2 (klein) per Elo stiliaus palyginimus teksto ir vaizdo, vienos nuorodos redagavimo ir kelių nuorodų užduočių srityse. Našumo diagramos rodo FLUX.2 (klein) Elo balo ir VRAM Pareto ribose. Komentare teigiama, kad FLUX.2 (klein) atitinka arba viršija Qwen pagrįstų vaizdo modelių kokybę, esant delsos ir VRAM daliai, ir kad jis pranoksta Z vaizdą, kartu palaikydamas daugialypį teksto redagavimą viename vaizde ir daugialypės terpės redagavimą.


Baziniai variantai keičia tam tikrą greitį, kad būtų galima visiškai pritaikyti ir tiksliai suderinti, o tai suderinama su jų, kaip naujų tyrimų ir konkrečių domeno vamzdynų pagrindų kontrolės punktų, vaidmeniu.
Key Takeaways
- FLUX.2 (klein) yra kompaktiška rektifikuotų srauto transformatorių šeima su 4B ir 9B variantais, kuri palaiko tekstą į vaizdą, vieno vaizdo redagavimą ir kelių nuorodų generavimą vienoje vieningoje architektūroje.
- Distiliuotiems FLUX.2 (klein) 4B ir 9B modeliams naudojami 4 mėginių ėmimo žingsniai ir jie yra optimizuoti, kad būtų galima daryti po antrosios išvados naudojant vieną šiuolaikinį GPU, o nedistiliuoti baziniai modeliai naudoja ilgesnį tvarkaraštį ir yra skirti tiksliam derinimui ir tyrimams.
- Kvantuoti FP8 ir NVFP4 variantai, sukurti naudojant NVIDIA, užtikrina iki 1,6 karto pagreitį ir maždaug 40 procentų sumažintą VRAM FP8 atveju ir iki 2,7 karto pagreitį su maždaug 55 procentų VRAM sumažinimu NVFP4 naudojant RTX GPU.
Patikrinkite Techninės detalės, Repo ir Modelio svoriai. Be to, nedvejodami sekite mus Twitter ir nepamirškite prisijungti prie mūsų 100 000+ ML SubReddit ir Prenumeruoti mūsų naujienlaiškis. Palauk! ar tu telegramoje? dabar galite prisijungti prie mūsų ir per telegramą.

Michal Sutter yra duomenų mokslo profesionalas, Paduvos universiteto duomenų mokslo magistro laipsnis. Turėdamas tvirtą statistinės analizės, mašininio mokymosi ir duomenų inžinerijos pagrindą, Michal puikiai sugeba sudėtingus duomenų rinkinius paversti įgyvendinamomis įžvalgomis.


