AI programinė įranga, vadinama DALL-E, paverčia jūsų žodžius paveikslėliais

AI programinė įranga, vadinama DALL-E, paverčia jūsų žodžius paveikslėliais

Atvirojo kodo kūrėjų grupės DALL-E Mini programinė įranga nėra tobula, tačiau kartais ji efektyviai sukuria paveikslėlius, atitinkančius žmonių tekstinius aprašymus.

Ekrano kopija

Didelė tikimybė, kad pastaruoju metu slinkdami per savo socialinės žiniasklaidos kanalus pastebėjote iliustracijas su antraštėmis. Jie dabar populiarūs.

Tikėtina, kad jūsų matomos nuotraukos yra įmanomos naudojant teksto į vaizdą programą, pavadintą DALL-E. Prieš paskelbdami iliustracijas, žmonės įterpia žodžius, kurie vėliau per dirbtinio intelekto modelius paverčiami vaizdais.

Pavyzdžiui, „Twitter“ vartotojas paskelbė tviterį su tekstu „Būti ar nebūti, rabinas, laikantis avokadą, marmurinę skulptūrą“. Prisegtame paveikslėlyje, kuris yra gana elegantiškas, pavaizduota marmurinė statula, barzdotas vyras su chalatu ir kepure, griebęs avokadą.

Dirbtinio intelekto modeliai gaunami iš „Google“ programinės įrangos „Imagen“, taip pat „OpenAI“ – startuolio, kurį palaiko „Microsoft“, kuris sukūrė DALL-E 2. Savo svetainėje OpenAI vadina DALL-E 2 „nauja AI sistema, galinčia kurti tikroviškus vaizdus ir menas iš aprašymo natūralia kalba“.

Tačiau didžioji dalis to, kas vyksta šioje srityje, kyla iš santykinai mažos žmonių grupės, besidalinančios savo nuotraukomis ir kai kuriais atvejais skatinančios didelį įsitraukimą. Taip yra todėl, kad „Google“ ir „OpenAI“ nepadarė šios technologijos plačiai prieinamos visuomenei.

Daugelis pirmųjų OpenAI vartotojų yra darbuotojų draugai ir giminaičiai. Jei norite gauti prieigą, turite prisijungti prie laukiančiųjų sąrašo ir nurodyti, ar esate profesionalus menininkas, kūrėjas, akademinis tyrinėtojas, žurnalistas ar interneto kūrėjas.

„Sunkiai dirbame, kad paspartintume prieigą, bet tikėtina, kad prireiks šiek tiek laiko, kol pasieksime visus; birželio 15 d. pakvietėme 10 217 žmonių išbandyti DALL-E“, – rašė „OpenAI“ atstovė Joanne Jang įmonės pagalbos puslapyje. Interneto svetainė.

Viena viešai prieinama sistema yra DALL-E Mini. jis remiasi atviro kodo iš laisvai organizuotos kūrėjų komandos ir dažnai yra perkrautas paklausa. Bandymai jį naudoti gali būti pasveikinti dialogo lange, kuriame rašoma „Per daug srauto, bandykite dar kartą“.

Tai šiek tiek primena „Google“ paslaugą „Gmail“, kuri 2004 m. priviliojo žmones neribota el. pašto saugyklos vieta. Ankstyvieji vartotojai iš pradžių galėjo patekti tik pakvietę, todėl milijonai liko laukti. Dabar „Gmail“ yra viena populiariausių el. pašto paslaugų pasaulyje.

Vaizdų kūrimas iš teksto niekada negali būti toks visur paplitęs kaip el. Tačiau technologija tikrai turi akimirką, o dalis jos patrauklumo yra išskirtinumas.

Privati ​​tyrimų laboratorija „Midjourney“ reikalauja, kad žmonės užpildytų formą, jei nori eksperimentuoti su jos vaizdų generavimo robotu iš kanalo „Discord“ pokalbių programoje. Tik pasirinkta žmonių grupė naudojasi „Imagen“ ir skelbia nuotraukas iš jos.

Teksto į paveikslėlį paslaugos yra sudėtingos, jos nustato svarbiausias vartotojo raginimų dalis ir atspėja geriausią būdą tiems terminams iliustruoti. „Google“ apmokė savo vaizdo modelį naudodama šimtus vidinių AI lustų 460 milijonų vidinių vaizdo ir teksto porų, be išorinių duomenų.

Sąsajos yra paprastos. Paprastai yra teksto laukelis, mygtukas generavimo procesui pradėti ir žemiau esanti sritis vaizdams rodyti. Norėdami nurodyti šaltinį, „Google“ ir „OpenAI“ prideda vandens ženklus apatiniame dešiniajame DALL-E 2 ir „Imagen“ vaizdų kampe.

Įmonės ir grupės, kuriančios programinę įrangą, yra pagrįstai susirūpinusios, kad visi vienu metu šturmuotų vartus. Žiniatinklio užklausų tvarkymas vykdyti užklausas naudojant šiuos AI modelius gali būti brangus. Dar svarbiau, kad modeliai nėra tobuli ir ne visada duoda rezultatų, kurie tiksliai atspindi pasaulį.

Inžinieriai apmokė modelius naudotis plačiomis žodžių ir paveikslėlių kolekcijomis iš žiniatinklio, įskaitant nuotraukas, kurias žmonės paskelbė „Flickr“.

„OpenAI“, įsikūrusi San Franciske, pripažįsta galimą žalą, kurią gali sukelti modelis, kuris išmoko kurti vaizdus iš esmės naršydamas žiniatinklį. Siekdami išspręsti šią riziką, darbuotojai pašalino smurtinį turinį iš mokymo duomenų, o yra filtrai, neleidžiantys DALL-E 2 generuoti vaizdų, jei vartotojai pateikia raginimus, kurie gali pažeisti įmonės politiką prieš nuogumą, smurtą, sąmokslą ar politinį turinį.

„Vyksta šių sistemų saugumo gerinimo procesas“, – sakė „OpenAI“ tyrinėtojas Prafulla Dhariwal.

Taip pat svarbu suprasti rezultatų paklaidas ir tai reiškia didesnį susirūpinimą dėl AI. Borisas Dayma, kūrėjas iš Teksaso ir kiti, dirbę su DALL-E Mini, paaiškino problemą paaiškindami savo programinę įrangą.

„Profesijoms, kuriose yra aukštesnis išsilavinimas (pvz., inžinieriai, gydytojai ar mokslininkai) arba didelis fizinis darbas (pavyzdžiui, statybų pramonė), dažniausiai atstovauja baltieji vyrai“, – rašė jie. “Priešingai, slaugytojos, sekretorės ar padėjėjos paprastai yra moterys, dažnai taip pat baltos.”

Google aprašė panašius savo Imagen modelio trūkumus akademiniame darbe.

Nepaisant rizikos, „OpenAI“ džiaugiasi, kokius dalykus gali įgalinti ši technologija. Dhariwalas teigė, kad tai gali atverti kūrybines galimybes asmenims ir padėti komercinėms interjero dizaino programoms ar svetainių dekoravimui.

Laikui bėgant rezultatai turėtų gerėti. DALL-E 2, kuris buvo pristatytas balandį, išskleidžia realistiškesnius vaizdus nei pradinė versija, kurią OpenAI paskelbė praėjusiais metais, o bendrovės teksto generavimo modelis GPT su kiekviena karta vis tobulėjo.

„Galite tikėtis, kad tai nutiks daugeliui šių sistemų“, – sakė Dhariwal.

ŽIŪRĖTI: Buvęs pres. Obama imasi dezinformacijos ir sako, kad su AI gali pablogėti

.

Leave a Comment

Your email address will not be published.