L’intelligenza artificiale è il presente e sicuramente sarà il futuro nel mondo e lo sarà anche nel mondo della fotografia e delle immagini. Ho già parlato diverse volte dell’intelligenza artificiale usata nei software di sviluppo per le fotografia, di come si siano software che utilizzino l’IA per scontornare oggetti e applicare in autonomia in ambienti reali, oppure come ne ho parlato nella presentazione del formato AppleProRaw di qualche anno fa, oggi voglio parlane per quanto riguarda un servizio di creazione e modifica di immagini partendo da un testo o da un’immagine + testo, DALL-E
Riepilogo Articolo - Luca Cazzaniga
DALL-E: cos’è e come accedere
OpenAI ha messo a punto un particolare modello di intelligenza artificiale conosciuto come DALL-E in grado di generare immagini partendo da descrizioni con il comune linguaggio.
Più nello specifico, questo sistema richiede un input, sia questo di solo testo o di testo con immagine. Il risultato sarà un output di immagini. In buona sostanza questo vuol dire che l’utente potrà scrivere delle descrizioni anche improbabili, come ad esempio una sedia a forma di farfalla oppure un astronauta a cavallo, così da ottenere diverse varianti di queste immagini. Quest’ultime saranno realizzate in tempo reale dal sistema, quindi non si tratta di foto recuperate su Internet come avviene con qualsiasi motore di ricerca.
Qui sotto un esempio di come vengono generate le immagini, nel primo caso chi ha dato l’input ha scritto: “Rendering 3D di un simpatico pesce tropicale in un acquario su uno sfondo blu scuro, arte digitale”
A detta degli sviluppatori, DALL-E consente agli utenti di potersi esprimere in una maniera molto creativa e del resto il nome di questo modello vuole essere un omaggio a Salvador Dalì, nonché al robot Wall E della Pixar. Si tratta, più nel dettaglio di una sorta di rielaborazione del linguaggio naturale GPT-3, ma con una specifica caratteristica. DALL-E, infatti, integra ben 12 miliardi di parametri, per questo si rivela fortemente specializzato nelle rappresentazioni grafiche.
Il dataset è formato da coppie di testo-immagine che consentono al modello di fornire disegni tenuto conto delle informazioni iniziali che vengono fornite in fase di input. DALL-E è stato realizzato in modo tale da eseguire astrazioni singolari, emoji e il rendering dei testi, nonché creazioni di rappresentazioni ibride, ad esempio fra una carota e un riccio.
Bisogna considerare che il sistema può ricevere anche istruzioni molto dettagliate, esempio un rinoceronte che indossa occhiali da sole, delle scarpe gialle, una cravatta rossa e che si corre sul mare
“A rhinoceros wearing sunglasses, yellow shoes, a red tie and running on the sea”
DALL-E è anche in grado di generare prodotti reali, come ad esempio:
“Hamburger cheese, mayonnaise and lettuce sandwich placed on a cutting board that has a knife resting next to the bun”
“Panino con hamburger, formaggio, maionese e lattuga posto su un tagliere con un coltello appoggiato accanto al panino.“
O ancora:
“Still-Life photograph of a cold beer resting on the bar counter”
“Fotografia di still-Life di una birra fresca appoggiata sul bancone del bar”
Tuttavia, potrebbe capitare che in fase di creazione dell’immagine qualche dettaglio venga alla fine omesso. Insomma, in alcune situazioni non sempre il modello riesce nell’intento, ovvero a rappresentare ciò che desidera davvero l’utente, anche quando si tratta di tramutare un’immagine in un disegno. Per farlo sarà necessario separare in modo corretto i contorni, eliminare lo sfondo e utilizzare i colori più adatti. Alcune elaborazioni, pertanto, potrebbero rilevarsi tutt’altro che intelligenti.
Queste criticità sono state comunque superate dopo il rilascio della versione DALL-E 2, capace di realizzare creazioni di alta qualità e di manipolare foto da un sistema AI. Grazie all’aggiornamento il sistema riesce oggi a portare a termine modifiche selettive e a produrre immagini simili ma differenti dall’originale. Tutto ciò perché viene sfruttata la tecnologia basata sulla rete neurale generativa.
DALL-E rappresenta dunque un sistema dalle grandi potenzialità e abbastanza versatile, in quanto può essere efficacemente adoperato in moltissimi settori. Viene infatti utilizzato con un certo successo all’interno degli studi di interior designer, nonché nell’ambito della moda e in tutti quelle situazioni in cui è necessaria una spiccata fantasia visiva. DALL-E, infatti, non fa altro che supportare gli artisti a ottenere inedite ispirazioni, specialmente quando occorre spiegare in pochi secondi concetti lunghi da rappresentare graficamente attraverso i tradizionali metodi.
Intelligenza artificiale nella fotografia, DALL-E solo l’inizio
L’intelligenza artificiale sviluppata da OpenAI e che riesce a creare immagini partendo da informazioni di testo riesce a dar vita a immagini molto evocative, nonché a descrivere qualsiasi cosa attingendo direttamente dalla realtà o dalla fantasia.
La prima cosa da sapere è che l’IA si riferisce in linea generale a qualsiasi genere di comportamento simile a quello umano, a sua volta visualizzata da un sistema o dalla macchina. Nella versione più elementare, è previsto che i computer siano programmati per emulare il nostro comportamento, utilizzando dati ricavati ad esempio da precedenti comportamenti. Il riconoscimento delle distinzioni, ad esempio fra un uccello e un gatto, è il frutto di attività complesse che sono parte integrante di un impianto di produzione.
In passato l’intelligenza artificiale consentiva ai computer di sfidare a dama gli esseri umani, ma oggi le cose sono notevolmente cambiate. Attualmente, infatti, possiamo contare sull’IA per analizzare i video, eseguire sintesi vocali, quality control, guide autonome, soluzioni per la sanità, l’intrattenimento, di natura finanziaria e molto altro ancora.
Insomma l’IA si rivela un tool particolarmente potente, non solo per le grandi aziende che generano dati significativi, ma anche per le piccole imprese e organizzazioni chiamate ad elaborare le chiamate degli utenti in maniera efficiente. Insomma l’intelligenza artificiale riesce a semplificare i processi aziendali, quindi a ultimare le operazioni in maniera veloce, eliminando al contempo il rischio dell’errore umano.
I recenti progressi che hanno interessato gli algoritmi, la diffusioni dei set di dati digitali e l’aumento della potenza di elaborazione, fanno di DALL-E un sistema particolarmente versatile per chi opera nel settore della fotografia, visto che riesce ad estrarre un preciso significato partendo da testi e immagini.
Questo modello di apprendimento automatico, inizialmente preceduto da una versione non molto potente, adesso può dar vita ad immagini straordinarie, anche in termini di risoluzione e di tecniche sofisticate di deep learning.
A differenza di quello che si possa pensare, DALL-E non è solo uno strumento per giocare con le fotografie, ma anche il trampolino di lancio per creare qualcosa di nuovo e del tutto originale. In ogni caso le applicazioni più interessanti potranno emergere nel corso del tempo, quindi grazie al lavoro degli utenti che potranno testare e sperimentare differenti creazioni.
Futuro DALL-E e accesso a pagamento
Il lavoro sviluppato da OpenAI, diversamente da ciò che molti pensano, non è gratuito, in quanto l’accesso comporta l’acquisto di un canone, almeno dopo un certo numero di utilizzi gratuiti. I crediti si possono comprare con la carta di credito, esattamente come avviene con tanti altri servizi web.
Come diffuso ufficialmente dagli sviluppatori, ciascun collage composto da quattro foto (oppure da tre nel caso in cui si volesse chiedere una modifica), richiede un credito per poter essere generato.
Il primo milione di utilizzatori che avranno regolare accesso al sistema ancora in versione beta possono ricevere gratuitamente un credito pari a 50, da spendere nell’arco di un mese. A tutto ciò si aggiungono ulteriori 15 token da impiegare nel mese seguente. Una volta esauriti i coupon bisogna caricare il portafoglio investendo in un pacchetto da 115 crediti, i quali comportano una spesa di 15 dollari, ovvero circa 15 euro. In questa maniera per ogni collage sarà necessario versare in media 13 centesimi.
Bisogna comunque far presente che l’uso delle immagini che vengono generate attraverso l’intelligenza artificiale non ha limiti, nel senso che le creazioni di possono sfruttare anche per scopi commerciali, quindi ad esempio per le copertine di libri, al fine di personalizzare magliette, cappelli, gadget aziendali e molto altro ancora. Queste realizzazioni grafiche si possono impiegare al fine di decorare siti internet. Spendendo cifre comunque contenute si riescono ad ottenere risultati non solo liberamente utilizzabili, ma anche professionali.
Sul punto, molti utenti temono che le immagini frutto dell’intelligenza artificiale possano essere sfruttate per scopi poco leciti, ad esempio per diffondere notizie false. Il consorzio ha già assicurato che verranno bloccate le foto posticce, in cui appaiono visi di persone note e riconoscibili, nonché tutto ciò che rientra nel materiale esplicito. DALL-E è quindi aperto a tutti e per la maggior parte degli utilizzatori i crediti gratuiti si rivelano più che sufficienti per iniziare a familiarizzare con il sistema, nonché per dare libero sfogo alla creatività. I collage più belli e divertenti si possono condividere online sui social. Gli utenti professionali, invece, sfrutteranno l’IA per motivi commerciali e potranno disporre di uno strumento evoluto, comunque investendo un piccolo budget.
E tu cosa vorresti provare a generare con l’intelligenza artificiale? lascia un commento e proverò a chiedere a DALL-E di realizzare la tua “creazione”
Lascia un commento