Indietro

Immagini che non tornano

Frizione semantica e produzione visiva critica nell’era del TTI

Di Angela Fusillo 28/09/2025

L’articolo prende le mosse dall’analisi di due serie realizzate nel 2021 e nel 2025, per indagare come la tensione tra linguaggio e immagine apra nuove prospettive critiche sull’immagine generativa e suggerisca approcci innovativi alla produzione di senso nella relazione tra linguaggio, visualità e intelligenza artificiale.

1. Da Genital Landscape a Corpus Latens: un’introduzione

Genital Landscape inaugura una riflessione sulla disfunzione percettiva come strategia generativa, attraverso una rete GAN addestrata su un dataset fotografico di genitali. Il modello non doveva riconoscere, ma confondere: trasformare il corpo sessuato in paesaggio, alterando le coordinate della visione.

Con Corpus Latens, la stessa logica viene riattivata attraverso un TTI (Text-to-Image), dove il linguaggio e l’archivio visivo pregresso entrano in tensione. Prompt ambigui e immagini GAN si combinano senza integrarsi, generando una frizione computazionale che disarticola ogni relazione lineare tra parola e immagine.

Opera dell’autrice, da Genital Landscape, 2021. Collezione dell’autrice.

2. Testo e immagine: una relazione non gerarchica

Nei modelli TTI, il testo non deriva dall’immagine, né l’immagine ne è una diretta illustrazione. Il prompt testuale agisce come attivatore statistico che stimola l’emergere di pattern visivi senza un legame semantico diretto. Le parole vengono trasformate in coordinate numeriche che modulano l’output, non veicolano significati. L’immagine è una sintesi di regioni latenti, non la risposta a un’intenzione. Come osservato da Kang et al. [1], i modelli TTI faticano a mantenere coerenza tra testo e immagine, con il linguaggio che agisce più come segnale attivante che come codice rappresentazionale.

Quando a questo input testuale si aggiungono immagini sintetiche — come in Corpus Latens, dove le immagini GAN del 2021 sono state reimmesse come riferimento visuale — il sistema viene sollecitato su due fronti: da un lato la matrice linguistica, dall’altro una “memoria sintetica” visiva. Il risultato è una tensione algoritmica, un corto circuito semantico. L’output non ricompone, ma disarticola. Come osservato da Wang et al. [2], anche nei modelli TTI più sofisticati la co-presenza di input multipli e composizionali porta spesso a una interferenza tra domini, in cui il modello fallisce nell’integrare logicamente i contenuti, restituendo immagini ibride, incongruenti o disturbanti.

Tale attrito è epistemicamente fertile. L’immagine non è “sbagliata” perché imprecisa, ma perché eccede le aspettative di chiarezza. È proprio nel suo apparente malfunzionamento che la macchina rivela la struttura di potere che regola le relazioni simboliche tra parola e visione. Il fallimento non è errore di sistema, ma affiorare di un altro regime di senso. L’immagine, anziché illustrare un concetto, si manifesta come residuo di un processo che opera senza comprensione, aprendo uno spazio di perturbazione in cui il significato si disarticola.

In questo contesto, il prompt non funge più da strumento progettuale, ma da operatore critico. Non produce contenuti, ma attiva frizioni tra domini eterogenei. La generazione visiva si situa in una soglia di opacità, dove immagine e senso si sfiorano senza coincidere. In quello scarto tra input e output si genera una forma di conoscenza fondata sull’attrito, non sull’intelligibilità: un sapere che nasce dalla non-coerenza, dal rifiuto dell’immagine di adeguarsi alla pretesa del linguaggio.

Opera dell’autrice, da Genital Landscape, 2021. Collezione dell’autrice.

3. L’ambiguità come metodo epistemologico

Nei modelli generativi basati su intelligenza artificiale, l’ambiguità non è un’anomalia, ma una componente strutturale. Questi sistemi non interpretano: operano per correlazioni statistiche, generando output in linea con le configurazioni probabilistiche apprese. Il linguaggio non viene “letto”, ma tradotto in mappe numeriche; le parole non trasmettono significati univoci, ma attivano distribuzioni. L’immagine non esprime un’intenzione semantica, ma risulta da compatibilità interne al modello. L’errore apparente è l’effetto visibile di una logica algoritmica priva di orientamento semantico.

Tale disallineamento tra input linguistico e output visivo solleva una riflessione più ampia sulla natura della creatività nei sistemi computazionali. Come osserva Dennis Yi Tenen in Teoria letteraria per robot (2024) [3], molte preoccupazioni sull’IA derivano dal fraintendimento che attribuisce autonomia cognitiva ad azioni algoritmiche, ignorandone la dimensione socio-tecnica.

Sia l’IA che la produzione culturale umana sono fenomeni distribuiti, storicamente situati e mediati da infrastrutture, codici e ambienti condivisi. La creatività va quindi intesa non come espressione individuale, ma come processo relazionale, inscritto in sistemi complessi di codifica [4].

La disfunzione computazionale assume così un rilievo epistemologico. Non segnala un malfunzionamento, ma un cortocircuito tra la logica operativa del modello e le aspettative semantiche ereditate da paradigmi umanistici. L’ambiguità prodotta non è un errore, ma un sintomo: un attrito tra regimi di senso — quello umano e quello dell’elaborazione automatica.

La tensione diventa evidente nel passaggio da Genital Landscape a Corpus Latens. Nella prima, realizzata con GAN, l’ambiguità emergeva dall’interpolazione visiva: corpi resi paesaggi, senza input testuale, attraverso analogie formali. In Corpus Latens, il testo introduce un nuovo livello di disallineamento: il prompt non guida, ma apre uno scarto tra linguaggio e immagine.

L’innesto delle immagini GAN nel modello TTI non genera continuità, ma ulteriore frizione. Tra memoria sintetica e input testuale si crea un campo di tensione in cui l’ambiguità diventa struttura del processo, non effetto. Si attiva come processo critico che interroga i rapporti tra intenzione, codice e output visivo.

Sivertsen et al. (2024) [5] analizzano l’ambiguità come risorsa nelle pratiche artistiche con modelli generativi, mostrando come l’incertezza estenda la comunicazione, coinvolgendo il pubblico in un processo interpretativo speculativo. Artisti come Helena Sarin e Mario Klingemann utilizzano glitch, distorsioni e instabilità percettive per attivare una riflessione critica. L’ambiguità, così, non ostacola la comprensione, ma la decentralizza e la moltiplica, configurandosi come un dispositivo epistemico.

A questa prospettiva si affianca l’approccio più politico di Abeba Birhane (2021) [6], che nel saggio The Impossibility of Automating Ambiguity critica l’inadeguatezza dei modelli predittivi nel trattare la complessità sociale. Per Birhane, automatizzare l’ambiguità significa ridurla nella sua dimensione situata, storica e relazionale. L’IA, nel tentativo di ordinare la realtà in categorie operative, finisce per neutralizzare ciò che nel vissuto umano è contesto, affetto, conflitto e contraddizione. Le operazioni semantiche automatizzate non sono strumenti neutri, ma veicoli di semplificazione normativa.

In questo quadro, la pratica artistica assume un ruolo strategico non nel chiarire, ma nel complicare. Sottraendosi alla logica rappresentazionale, l’arte può trasformare l’ambiguità in metodo, inscrivendola nei processi stessi del fare.

Genital Landscape e Corpus Latens non offrono soluzioni semantiche, ma espongono lo scarto tra intenzione, codice e generazione. Le immagini introducono interferenze che aprono uno spazio critico, oltre l’idea di coerenza o convergenza del senso.

Opera dell’autrice, da Corpus Latens, 2025. Collezione dell’autrice.

4. L’immagine come soglia, non come forma

L’uso prolungato di modelli TTI ha progressivamente messo in discussione l’idea stessa di un’immagine “giusta”. Non perché manchi un’immagine coerente col prompt, ma perché l’ideale di una corrispondenza stabile tra testo e visione si è rivelato improduttivo. Non esiste un codice iconografico in grado di garantire una chiusura semantica: esiste piuttosto uno scarto, la distanza irriducibile tra enunciazione e generazione. Ed è in questo spazio che si attiva un campo critico. L’opera non si compie nell’output, ma nell’intervallo tra promessa linguistica e fallimento computazionale. In quel disallineamento si apre una
soglia epistemica.

Questa distanza non è un errore, ma una condizione produttiva. Disarticola la funzione illustrativa dell’immagine, ridefinendone il ruolo: da risultato chiuso a soglia dinamica tra desiderio e distorsione. Un territorio liminale dove le categorie semantiche cedono, e la visione entra in crisi. Qui l’immagine non chiarisce, ma complica; non accompagna il senso, lo disloca.

Jan Svenungsson, in Art Intelligence (2024) [7], osserva che l’IA non solo trasforma i mezzi artistici, ma impone una ridefinizione dei fondamenti della pratica: intenzione, forma, mediazione. La macchina diventa non solo uno strumento, ma un’occasione per ripensare il concetto di opera. La generatività algoritmica apre spazi di incertezza in cui l’artista non crea messaggi, ma attiva soglie percettive e concettuali.

Un approccio simile emerge nei lavori di Jon Rafman, che utilizza modelli generativi per creare universi visivi disturbanti. In progetti come Dream Journal o 9 Eyes, l’eccesso visivo interrompe la linearità narrativa, mentre i prompt contraddittori sabotano la coerenza. L’immagine non illustra, ma deborda, mettendo in crisi il significato, diventando più superficie inconscia che oggetto leggibile [8].

5. Conclusione: oltre l’adesione, dentro l’attrito

Le sperimentazioni in Genital Landscape e Corpus Latens esplorano i processi di generazione visiva algoritmica, evidenziando il  disallineamento tra input e output come punto critico che solleva interrogativi sulla produzione del significato. Il rapporto tra testo e immagine mette in discussione la stabilità delle categorie di significato.

In questo contesto, l’ambiguità amplifica le possibilità critiche, stimolando una riflessione su come il senso venga prodotto e interpretato. Le dinamiche in gioco suggeriscono una riconsiderazione della creatività come processo distribuito, aprendo a nuove forme di conoscenza e pensiero, e invitano a ripensare le categorie che regolano il concetto di intelligenza umana e non.

Angela Fusillo

(Artista audiovisuale e Ricercatrice)

1)

H. Kang, D. Lee, M. Shin, I. Lee, Semantic Guidance Tuning for Text-To-Image Dif usion Models, 2023,
https://doi.org/10.48550/arXiv.2312.15964

2)

R. Wang, Z. Chen, C. Chen, J. Ma, H. Lu, X. Lin, Compositional Text-to-Image Synthesis with Attention Map Control of Difusion Models, 2023, https://doi.org/10.48550/arXiv.2305.13921

3)

D.Y. Tenen, Literary Theory for Robots. How Computers Learned to Write (2024), tr. it. di A. Migliori, Bollati Boringhieri, Torino 2024, pp. 111 – 113.

4)

V.P. Glăveanu, Distributed Creativity: thinking inside, outside and across the box, Springer Cham, Heidelberg New York Dordrecht London 2014, DOI 10.1007/978-3-319-05434-6

5)

C. Sivertsen, G. Salimbeni, A.S. Løvlie, S. Benford, J. Zhu, Machine Learning Processes as Sources of Ambiguity: Insights from AI Art, «CHI Conference on Human Factors in Computing Systems», Association for Computing Machinery, New York 2024, https://doi.org/10.1145/3613904.3642855

6)

A. Birhane, The Impossibility of Automating Ambiguity, in «Artificial Life» vol. 27 (2021), https://doi.org/10.1162/artl_a_00336

7)

J. Svenungsson, Art Intelligence: How Generative AI Relates to Human Art-Making, Transcript Verlag, Bielefeld 2024, pp. 46 – 61, https://doi.org/10.14361/9783839474723

8)

V. Tanni, Conversazioni con la macchina. Il dialogo dell'arte con le intelligenze artificiali, Tlon edizioni, Roma 2025, pp. 67– 76