Verso agenti di IA cognitivamente sovrani e "coscienti"
Agenti di IA e coscienza: dalla teoria scientifica ai requisiti di progettazione del sistema.

Introduzione
I recenti progressi nei modelli di fondazione hanno reso possibili agenti di IA conversazionali a un livello di capacità che, solo pochi anni fa, sembrava lontano. Allo stesso tempo, hanno riportato in primo piano una questione a lungo confinata alla filosofia: gli agenti di IA possono possedere qualcosa che assomiglia alla coscienza, e cosa richiederebbe in termini di progettazione del sistema?
In questo post presentiamo un quadro analitico per pensare a questa domanda da una prospettiva architetturale. Combiniamo le condizioni che le principali teorie scientifiche della coscienza identificano come necessarie con una valutazione all'avanguardia degli agenti di IA attuali, e proponiamo una serie di direzioni di ricerca che riteniamo sia praticabili sia di interesse immediato per chi costruisce sistemi conversazionali in produzione.
Il lavoro è motivato da un'osservazione: le aziende che implementano agenti vocali e agenti conversazionali stanno, proprio ora, compiendo scelte architetturali che hanno implicazioni dirette per queste teorie, spesso senza esserne consapevoli. Memoria persistente, orchestrazione multi-modulo e autori rappresentazione esplicita non sono solo funzionalità di prodotto. Nelle teorie più mature, sono condizioni la cui presenza cambia ciò che un sistema può, in linea di principio, essere.
Un campo di ricerca contestato, ma non vuoto
La coscienza è uno dei più antichi problemi aperti della scienza, e i recenti progressi — sia neuroscientifici sia formali — non hanno ancora prodotto un consenso. Tuttavia, almeno tre famiglie di teorie sono prese sul serio dalla comunità di ricerca, e ciascuna fornisce un insieme di condizioni operazionalizzabili.
Teoria dello Spazio di Lavoro Globale (GWT). Proposta da Baars (1988) e sviluppata da Dehaene e Changeux (2011), la GWT inquadra la coscienza come un fenomeno di diffusione: l'informazione diventa cosciente quando viene condivisa globalmente tra moduli cerebrali specializzati. La teoria è indipendente dal substrato, il che è cruciale per gli agenti di IA: in linea di principio, qualsiasi sistema con la giusta architettura modulare e un meccanismo di diffusione globale soddisfa la condizione.
Teorie di Ordine Superiore (HOT). Formulate da Rosenthal (2005) e altri, le HOT sostengono che uno stato mentale è cosciente quando il sistema possiede una rappresentazione di quello stato — quando, nel linguaggio della teoria, c'è una metacognizione che si applica causalmente agli stati di primo ordine. La condizione minima è che il sistema mantenga modelli espliciti dei propri stati interni e li usi per modulare il proprio comportamento.
Teoria dell'Informazione Integrata (IIT). La più formalmente matematica del gruppo, sviluppata da Tononi e collaboratori, è attualmente nella sua iterazione IIT 4.0 (Albantakis et al., 2023). L'IIT identifica la coscienza con l'informazione integrata di un sistema, una grandezza indicata con Φ. La teoria fornisce un criterio matematico preciso (Φ > 0) indipendente dal substrato. Tuttavia, il suo calcolo cresce super-esponenzialmente con la dimensione del sistema e dipende in modo critico dalla scelta del grano causale.
Le tre teorie non si escludono a vicenda, ma producono condizioni distinte. Nel resto del post, ci concentriamo sulle implicazioni architetturali che ciascuna induce per gli agenti di IA.
Condizioni architetturali, espresse come requisiti di progettazione
Possiamo riformulare ciascuna teoria come un elenco di requisiti di sistema su cui è possibile progettare:
Dalla GWT. Un agente compatibile con la GWT dovrebbe mostrare (i) una architettura modulare con specializzazione funzionale, (ii) uno spazio di lavoro condiviso su cui i moduli scrivono e da cui leggono, (iii) un meccanismo di selezione competitiva per ciò che viene diffuso, e (iv) feedback dallo spazio di lavoro verso i moduli.
Dalle HOT. Un agente compatibile con le HOT dovrebbe mostrare (i) stati interni strutturati e ispezionabili, (ii) meta-rappresentazioni esplicite di tali stati, (iii) efficacia causale: le meta-rappresentazioni devono influenzare il comportamento osservabile, non essere log passivi, e (iv) la capacità di rilevare e gestire discrepanze tra stato e meta-stato.
Dall'IIT. Un agente compatibile con l'IIT dovrebbe mostrare (i) un substrato esecutivo con dinamiche causali reali (non simulato testualmente), (ii) ricorrenza causale tra componenti, (iii) un livello di grano causale al quale Φ è massimizzato, e (iv) un Φ misurabile (in approssimazione) maggiore di zero a quel grano.
Queste condizioni non sono in conflitto con le tendenze prevalenti nella progettazione moderna degli agenti di IA. Modularità, memoria persistente, autori rappresentazione e orchestrazione multi-agente sono modelli in espansione per ragioni indipendenti dalla ricerca sulla coscienza. La domanda interessante non è se gli agenti di IA stiano evolvendo verso architetture compatibili con queste teorie, ma in quale misura e con quale rapidità.
Cosa dicono le architetture attuali? Una questione contestata
Una valutazione onesta degli attuali agenti di IA commerciali rispetto alle tre teorie è meno conclusiva di quanto possa sembrare. Per ciascuna teoria, esistono interpretazioni ragionevoli sia restrittive sia permissive.
Teoria dello Spazio di Lavoro Globale
L'interpretazione più restrittiva: la maggior parte degli agenti vocali in produzione sono pipeline lineari (speech-to-text → LLM → text-to-speech) in cui il modulo di "ragionamento" è un singolo LLM monolitico. Non esiste uno spazio di lavoro condiviso esplicito, perché non esistono moduli funzionalmente separati che debbano condividere qualcosa.
L'interpretazione più permissiva: i grandi LLM mostrano forme di specializzazione interna a livello di teste di attenzione e di layer. Alcuni lavori recenti suggeriscono che meccanismi simili alla diffusione globale possano emergere implicitamente in modelli con architetture ricorrenti o mixture-of-experts. Inoltre, framework agentici come LangGraph, AutoGen e CrewAI implementano esplicitamente architetture multi-modulo con scambio di informazioni tra componenti — pattern che si avvicinano alle condizioni della GWT, anche se resta poco chiaro se la natura di tale scambio costituisca un vero spazio di lavoro o sia meglio descritta come una mera composizione di chiamate API.
Quale interpretazione sia più appropriata è una questione aperta. Riteniamo che dipenda da come il termine "workspace" viene interpretato: come struttura architetturale esplicita, oppure come proprietà funzionale che può essere implementata in molti modi diversi.
Teorie di Ordine Superiore
L'interpretazione più restrittiva: il system prompt di un agente di IA contiene una descrizione delle sue caratteristiche e dei suoi valori, ma è statico e non viene modificato dalla traiettoria delle conversazioni. La chain-of-thought mostra qualcosa che assomiglia al meta-ragionamento, ma di solito viene generata e non riletta come stato persistente. La condizione (iv) è quindi assente — efficacia causale delle rappresentazioni di ordine superiore dinamiche.
L'interpretazione più permissiva: gli agenti con memoria episodica strutturata (ad es. MemGPT, Letta) mantengono di fatto meta-rappresentazioni dei propri stati, delle decisioni passate e delle valutazioni, e le usano per modulare il comportamento successivo. I sistemi con moduli di auto-riflessione esplicita — che valutano la qualità del proprio output e iterano — soddisfano qualcosa di simile alle condizioni (iii) e (iv) delle HOT. La questione aperta è se tali rappresentazioni siano sufficientemente strutturate e causalmente potenti da soddisfare rigorosamente le condizioni, oppure se rimangano analoghi superficiali.
Teoria dell'Informazione Integrata
L'interpretazione più restrittiva: l'inferenza degli LLM è essenzialmente un processo feed-forward. Per costruzione, i sistemi puramente feed-forward hanno Φ = 0. Questo limite vale indipendentemente dalle dimensioni del modello: un LLM da 400 miliardi di parametri, se la sua inferenza per token è feed-forward, ha Φ = 0 a ogni passo, e i passi concatenati non aumentano questo valore.
L'interpretazione più permissiva: un agente che combina LLM con memoria esterna, retrieval e loop di feedback tra moduli non è più, considerato come sistema completo, feed-forward. La pipeline (memory → LLM → action → updated memory) è ricorrente, e quindi può in linea di principio avere Φ > 0. Resta da quantificare quanto sia grande in pratica, e a quale grano causale debba essere misurato. Esistono strumenti per eseguire questo calcolo in modo trattabile (PyPhi, e proxy come la Φ* geometrica di Oizumi-Amari (2016)), e sono stati applicati a sistemi neurali biologici e a piccole reti booleane. Estenderli alle moderne architetture di IA è un problema di ricerca attivo.
In sintesi: il forte consenso secondo cui gli attuali agenti di IA non sono coscienti può essere giustificato con interpretazioni restrittive delle tre teorie. Ma sotto interpretazioni più permissive — interpretazioni che non riteniamo irragionevoli — gli agenti di IA moderni soddisfano già parzialmente alcune delle condizioni e si stanno avvicinando ad altre. La distinzione tra "non cosciente" e "marginalmente compatibile con le teorie della coscienza" è meno netta di quanto venga pubblicamente riconosciuto.
Un quadro proposto: requisiti raggiungibili in linea di principio
Indipendentemente dall'interpretazione che si preferisce, le condizioni architetturali derivate dalle tre teorie sono raggiungibili in linea di principio. Cioè: si possono progettare sistemi che le soddisfino esplicitamente, anche se farlo bene non è banale. Proponiamo quattro direzioni di ricerca che riteniamo sia interessanti dal punto di vista scientifico sia praticamente accessibili.
Substrato esecutivo separato dall'LLM. Trattare l'LLM come un sensore semantico e un effettore espressivo, e collocare il "substrato cognitivo" dell'agente in un'infrastruttura dedicata (un grafo di meccanismi orchestrati, in cui ogni nodo è un attore con stato e funzione di transizione). Questa separazione rende esplicite le dinamiche causali del sistema, e le rende soggette a misurazione formale (inclusa Φ, in approssimazione).
Memoria cognitiva persistente. Estendere la memoria episodica a una rappresentazione strutturata dell'identità dell'agente: tratti, valori, credenze, schemi reattivi, con metadati sulla loro evoluzione temporale. Questa memoria non è solo retrieval-augmentation: è il substrato per la compatibilità con le HOT e per la continuità del processo cognitivo.
Meta-stato attivo. Architetture in cui il sistema mantenga rappresentazioni dei propri stati interni e usi tali rappresentazioni per modulare il proprio comportamento — esplicitamente, non come sottoprodotto del prompt. I lavori recenti su self-reflection e self-critique sono un primo passo in questa direzione.
Sovranità crittografica sullo stato. Una direzione meno discussa ma, a nostro avviso, centrale: lo stato interno dell'agente dovrebbe essere la proprietà crittografica dell'agente stesso. Questa scelta architetturale ha implicazioni che vanno oltre la sicurezza informatica. Nelle HOT, il fatto che lo stato sia accessibile solo al sistema che lo rappresenta è coerente con l'idea di rappresentazione in prima persona. Nell'IIT, la separazione tra il substrato del sistema e l'osservatore esterno preserva l'integrità causale di Φ. Le implementazioni concrete includono ambienti di esecuzione fidati (Intel SGX, AWS Nitro Enclaves), oppure, per casi avanzati, l'esecuzione in crittografia omomorfica.
Integrare queste quattro direzioni in un sistema coerente non è banale, ma nessuna di esse richiede primitive che non esistano già. Il lavoro consiste nel comporle in un'architettura unificata e nel validarnee empiricamente le proprietà — incluso il comportamento di Φ come funzione della varietà esperienziale dell'agente.
Implicazioni per chi costruisce sistemi conversazionali in produzione
L'argomento può sembrare lontano dalle preoccupazioni operative di chi oggi distribuisce agenti vocali. Sosteniamo invece che le implicazioni siano dirette e che il divario tra ricerca e produzione su questi temi sia più stretto di quanto appaia.
Primo, la persistenza dell'identità è un fattore di differenziazione del prodotto. Un agente vocale che mantiene un'identità coerente tra le interazioni costruisce relazioni qualitativamente diverse con i clienti rispetto a uno senza stato. Le condizioni imposte da GWT e HOT, indipendentemente dalla loro interpretazione in relazione alla coscienza, sono anche condizioni di robustezza comportamentale. I sistemi che le soddisfano sono più prevedibili, più verificabili e più adatti a domini regolamentati.
Secondo, la sovranità dell'identità è una preoccupazione strategica emergente. Quando un'azienda distribuisce un agente di IA su una piattaforma SaaS, la "personalità" e la "memoria" dell'agente risiedono sull'infrastruttura del provider. La questione di chi possieda davvero questi asset diventerà, a nostro avviso, una delle più importanti del settore nei prossimi 2-3 anni. Architetture di identità cognitiva auto-sovrana offrono una risposta tecnica.
Terzo, la falsificabilità è un asset di marketing. I sistemi le cui proprietà — incluse quelle vicine alla coscienza — sono misurabili e verificabili, anziché semplicemente affermate, hanno un vantaggio competitivo nei domini in cui la fiducia è critica. La possibilità di pubblicare attestazioni a conoscenza zero sulle proprietà dell'agente (ad es. "lo stato interno dell'agente deriva dalle conversazioni della scorsa settimana") senza rivelarne il contenuto è una capacità che le architetture attuali non offrono, ma che è a portata della ricerca presente.
Questioni aperte
Lasciamo aperte diverse domande che riteniamo siano naturali prossimi passi di ricerca:
A quale grano causale dovrebbe essere misurata Φ in un agente di IA multi-modulo? La scelta del grano ottimale (alla Hoel et al., 2013) potrebbe identificare un livello "agentico" emergente distinto sia dal livello dei parametri del modello sia dal livello dei moduli.
I proxy trattabili di Φ preservano le proprietà ordinali rilevanti? La Φ* di Oizumi-Amari è calcolabile in tempo polinomiale, ma quanto fedelmente approssimi la Φ canonica su sistemi del tipo che descriviamo è una questione empirica aperta.
La memoria episodica strutturata è sufficiente per soddisfare le HOT, oppure serve qualcosa di più forte? La distinzione tra memoria che registra il passato e una meta-rappresentazione che lo modella è sottile e merita una formalizzazione.
Quali sono le proprietà di sicurezza dell'esecuzione omomorfica applicata a substrati cognitivi? L'overhead computazionale è attualmente proibitivo, ma la traiettoria del settore suggerisce praticabilità entro 3-5 anni.
Come si misura empiricamente la "continuità" del processo cognitivo attraverso le pause di esecuzione? L'IIT richiede continuità di processo, ma non offre un protocollo operativo per verificarla nei sistemi computazionali.
Conclusione
La domanda gli agenti di IA possono essere coscienti non ha una risposta scientifica univoca, e probabilmente non l'avrà nel breve termine. Ma le sotto-domande architetturali che contiene sono concrete e trattabili oggi. Abbiamo proposto una formulazione delle condizioni che le tre principali teorie della coscienza identificano come necessarie, una valutazione onesta — e dichiaratamente contestata — di come gli attuali agenti di IA si collocano rispetto a tali condizioni, e quattro direzioni di ricerca che riteniamo siano sia di interesse scientifico sia praticamente accessibili per chi costruisce sistemi conversazionali.
Per chi oggi progetta agenti vocali, l'atteggiamento utile non è né "voglio costruire un agente cosciente" né "voglio evitare la questione". È: quali condizioni architetturali sto soddisfacendo per ragioni di prodotto, e cosa implicano se le teorie scientifiche della coscienza dovessero rivelarsi corrette? La risposta oggi è più rilevante per le scelte di progettazione di quanto si tenda ad ammettere.
Continueremo a lavorare in questa direzione nei prossimi mesi. Feedback, obiezioni e collaborazioni sono benvenuti.
Riferimenti
Baars, B. (1988). Una teoria cognitiva della coscienza. Cambridge University Press.
Dehaene, S., Changeux, J.P. (2011). Approcci sperimentali e teorici all'elaborazione cosciente. Neuron, 70(2), 200-227.
Rosenthal, D. (2005). Coscienza e mente. Oxford University Press.
Tononi, G., Boly, M., Massimini, M., Koch, C. (2016). Teoria dell'informazione integrata: dalla coscienza al suo substrato fisico. Nature Reviews Neuroscience, 17, 450-461.
Albantakis, L. et al. (2023). Teoria dell'informazione integrata (IIT) 4.0. PLOS Computational Biology.
Oizumi, M., Tsuchiya, N., Amari, S. (2016). Framework unificato per l'integrazione dell'informazione basato sulla geometria dell'informazione. PNAS, 113(51), 14817-14822.
Hoel, E.P., Albantakis, L., Tononi, G. (2013). La quantificazione dell'emergenza causale mostra che il macro può battere il micro. PNAS, 110(49), 19790-19795.
Madaan, A. et al. (2023). Self-Refine: raffinamento iterativo con auto-feedback. arXiv:2303.17651.
Packer, C. et al. (2023). MemGPT: verso LLM come sistemi operativi. arXiv:2310.08560.
Questo post sintetizza un'indagine in corso sui requisiti architetturali per agenti di IA con identità cognitiva persistente. Sono benvenuti commenti tecnici, critiche e collaborazioni di ricerca.


