9 giu 2026

Ingegnerizzare il prompt di agenti vocali IA: ecco perché non è come farlo per un chatbot

C'è un errore che quasi tutti commettono quando sviluppano il loro primo agente vocale: prendono il system prompt che funzionava a meraviglia per un chatbot, lo inseriscono nella catena di elaborazione vocale e si aspettano lo stesso risultato. Ciò che ottengono invece è un'entità che legge prose scritte a voce alta — grammaticalmente impeccabile, perfettamente robotica.

Il motivo è più profondo di quanto sembri, ed è il punto di partenza di gran parte delle ricerche recenti su questo argomento. All'interno di una catena a cascata STT → LLM → TTS, l'LLM al centro non ha alcuna consapevolezza di trovarsi all'interno di una conversazione vocale. Dal suo punto di vista, opera in un ambiente testuale tradizionale, proprio come fa in una chat. È un'osservazione che le guide al prompting dei principali fornitori di modelli vocali mettono in primissimo piano e che comporta conseguenze pratiche significative: a meno che non glielo diciate esplicitamente, il modello produrrà testo da leggere, non parlato da ascoltare. Per una panoramica dell'argomento, consultate la nostra guida introduttiva sui fondamenti di prompt engineering per agenti vocali.

La catena di elaborazione vocaleQuattro componenti distinti, ciascuno con il proprio costo e la propria latenzaTELEFONIA · Twilio / Telnyx / VonageSTTTrascrizionela voce diventa testoLLMRagionamentodecide cosa direcomportandosi come in una chatTTSSintesiiil testo diventa voceIl punto chiave:l'LLM al centro non sa di essere in una conversazione vocale. Se non glielo dici, produce testo da leggere, non parlato da ascoltare.

La catena di elaborazione vocale: STT, LLM e TTS, con l'LLM inconsapevole di essere in una conversazione vocale.

A ciò si aggiunge un problema più sottile, evidenziato dalle ricerche accademiche più recenti: il parlato non è "testo più rumore." La stessa richiesta può essere realizzata con voci, accenti, ritmi, emozioni e disfluenze completamente diversi, e un modello robusto dovrebbe mantenere lo stesso comportamento in tutte queste varianti acustiche. I lavori del periodo 2025-2026 su questo fronte — come i benchmark VocalBench-DF e DOWIS — mostrano che i prompt vocali pronunciati da esseri umani registrano ancora risultati inferiori rispetto ai prompt di testo, e che le prestazioni crollano in presenza di disfluenze: riempitivi, ripetizioni, autocorrezioni. In altre parole: un'elevata qualità di trascrizione (ASR) non garantisce un rispetto stabile delle istruzioni.

Mettete insieme i pezzi. Scrivere il prompt per un agente vocale significa lavorare su tre livelli contemporaneamente: far capire al modello che sta parlando, non scrivendo; renderlo robusto rispetto alla natura caotica del parlato reale; e ottenere questo risultato senza appesantire la catena al punto da danneggiare la latenza. Ecco come fare.

Un agente vocale è un sistema composto, non un modello

Vale la pena inquadrare la questione attraverso la prospettiva proposta da Berkeley AI Research (BAIR): lo stato dell'arte non deriva più da modelli monolitici, ma da sistemi di IA composti costituiti da molteplici componenti che lavorano insieme. Un agente vocale ne è l'esempio più chiaro: orchestrazione, STT, LLM, TTS, gestione dei turni del discorso, strumenti, memoria. Il prompt non è "il cervello" del sistema — è un componente e deve essere progettato con la piena consapevolezza di come interagisce con tutti gli altri. Se volete approfondire questa visione d'insieme del sistema, leggete il nostro articolo sugli agenti IA cognitivamente sovrani.

Questa prospettiva cambia il modo di lavorare. Invece di dare la caccia al "prompt perfetto" che risolve tutto, suddividete il comportamento dell'agente in parti più piccole e gestibili, utilizzando passaggi di consegne e task dedicati. Un singolo prompt monolitico che cerca di fare tutto si rivela fragile; i task circoscritti sono preferibili, poiché riducono il contesto e rendono il comportamento prevedibile. E ogni modifica al prompt dovrebbe essere trattata come una modifica al codice di produzione — perché è esattamente ciò che è.

Il nocciolo del problema: gli LLM sono addestrati a scrivere bene

La radice di tutto è semplice. Gli LLM sono addestrati su enormi quantità di testo e poi perfezionati per produrre scritti puliti e grammaticalmente corretti. Ottimo per e-mail e documenti. Terribile quando si tratta di simulare una telefonata. Il vero parlato umano è denso di riempitivi, correzioni a metà frase, brevi risate, pause leggere e frasi che si disperdono e ricominciano.

Quindi sì, la soluzione è chiedere al modello di essere più naturale — con la differenza che, in pratica, il modello vi contrasterà a meno che non siate estremamente espliciti. Dire "sii colloquiale" non ha alcun effetto: otterrete comunque una prosa rifinita. Avete bisogno di tecniche precise. Quelle riportate di seguito sono le più efficaci, tratte dalla pratica e dalla ricerca dell'ultimo anno.

1. Iniziate con il minimo indispensabile, non eccedete con i prompt

C'è un principio che le guide al prompting dei modelli vocali ripetono insistentemente: iniziate con un prompt minimo, eseguite le valutazioni e aggiungete istruzioni solo per i comportamenti che risultano errati nei test. Un prompt appesantito fin dall'inizio non migliora il modello; lo rende più lento e meno prevedibile. Partite dall'essenziale e costruite eliminando gli errori, non accumulando regole.

2. Mostrate, non descrivete

Gli LLM non assimilano obiettivi di stile vaghi. Se fornite loro solo istruzioni generiche ("usa qualche riempitivo, sii breve"), continueranno a produrre frasi da manuale. Ciò che funziona invece è fornire loro esempi concreti dell'output desiderato, messi a contrasto con l'output errato:

Se disponete di registrazioni di chiamate reali tra clienti e operatori umani, questo è oro colato: estraete i pattern di parlato dell'operatore e usateli come modello. Una volta ottenuti alcuni esempi solidi, potete ampliarli facendo generare varianti a un altro LLM, per poi reinserire le migliori nel system prompt.

3. Progettate le disfluenze con pause strutturate

I soli riempitivi non bastano. Ciò che li rende credibili è il tempo di esecuzione (timing). Quando un essere umano dice "um," di solito fa una breve pausa e poi riparte con un connettivo ("quindi," "beh"). Spesso gli agenti sbagliano dicendo "um" e poi partendo a tutta velocità — e il risultato suona finto.

Se il vostro motore TTS supporta i tag SSML, potete insegnare al modello a imitare il timing annotando gli esempi con pause esplicite. L'LLM le includerà nelle risposte generate, indicando di fatto al TTS come pronunciarle:

Versione corretta: Yeah, um <break time="300ms"/> so <break time="300ms"/>

Versione corretta: Yeah, um <break time="300ms"/> so <break time="300ms"/>

Versione corretta: Yeah, um <break time="300ms"/> so <break time="300ms"/>

Tenete presente, tuttavia, una distinzione emersa di recente. La nuovissima generazione di TTS costruiti su un modello linguistico — di cui Hume Octave è l'esempio più citato — non ha affatto bisogno di tag SSML: interpreta il significato del testo e deduce emozione, ritmo e pause direttamente dal contenuto e da una descrizione in linguaggio naturale del personaggio. Per i motori tradizionali, al contrario, l'annotazione esplicita rimane la strada da seguire. La scelta della tecnica dipende quindi dal componente vocale selezionato.

Questa è la parte che richiede la maggiore attività di test e ottimizzazione. Anche i migliori LLM a volte non generano pause dove ci si aspetterebbe e, d'altro canto, se ne inserite troppe nei vostri esempi, finirete per avere una pausa in ogni frase. La tecnica che funziona meglio è quella di rafforzare la stessa regola da più angolazioni: dichiarate la regola esplicitamente ("dopo ogni 'um' isolato, inserite subito una pausa"), mostrate esempi e poi ribaditela in una sezione successiva con ulteriori esempi.

4. Trattate i tag relativi alle emozioni come vincoli, non come decorazioni

I controlli emotivi funzionano al meglio quando vengono usati come linee guida protettive (guardrails). Gli esseri umani non saltano da un'emozione all'altra all'interno della stessa frase. Se il vostro agente passa da eccitato a divertito a triste a irritato in un unico turno, suonerà profondamente instabile.

La pratica suggerisce che i toni "calmi" (pacifici, rilassati) tendono a suonare più umani rispetto alle emozioni "forti" (entusiaste, elettrizzate). Stabilite un'emozione di base, quindi fornite al modello alcuni scenari specifici in cui un'emozione più forte, o una risata, ha senso. La risata, in particolare, va usata dove opportuno, ma si può essere generosi: è uno dei segnali più potenti di naturalezza.

5. Normalizzate ciò che il modello dovrà pronunciare

C'è un dettaglio che viene quasi sempre trascurato e che le guide al prompting degli strumenti vocali empatici (come l'interfaccia EVI di Hume) aggiungono di default: la normalizzazione del testo. Numeri, date, valute e simboli devono essere convertiti in parole effettivamente pronunciabili. "$50.25" deve diventare "cinquanta dollari e venticinque centesimi"; "Lun 6/9" deve diventare "lunedì nove giugno"; "Dr." deve diventare "Dottore." È una regola che, se saltata, produce alcuni degli effetti più stridenti in assoluto, perché il modello legge il simbolo invece di pronunciare la parola. Aggiungete una sezione dedicata al vostro prompt con le regole di conversione per il vostro dominio (importi, orari, codici alfanumerici, abbreviazioni).

6. Pianificate preamboli parlati e pronunce difficili

Altri due tocchi, presi in prestito dalle guide al prompting dei modelli in tempo reale. Primo: i preamboli, brevi aggiornamenti parlati che l'agente pronuncia mentre esegue un'azione ("lasciami controllare l'ordine," "un attimo mentre verifico"). Questi non sono ragionamenti nascosti mostrati all'utente — sono una manciata di parole che coprono il tempo di elaborazione e rendono naturale l'attesa. Secondo: una sezione di pronunce di riferimento, una piccola guida fonetica per i termini che il modello tende a sbagliare — nomi propri, marchi, termini tecnici, parole straniere. Entrambi costano pochissimi token e migliorano notevolmente l'esposizione.

7. Descrivete la personalità come comportamenti udibili, non come aggettivi

"Amichevole e disponibile" è già la modalità predefinita di quasi tutti gli LLM: scriverlo non aggiunge nulla. Per ottenere realismo, avete bisogno di tratti di personalità che si traducano in pattern di parlato osservabili — cose che il modello può letteralmente produrre. Trattatelo come una checklist, perché la maggior parte di ciò che scriverete qui si rifletterà nell'audio:

- Inizia le frasi con "E," "Ma," "Quindi." Viola le regole grammaticali come
  fanno le persone reali.
- Quando ritorni su un argomento precedente, fallo senza menzionarlo esplicitamente:
  "A proposito di quell'altra cosa che hai citato..."
- Se pensi di aver capito male: "Scusa, <break time="300ms"/> mi è sfuggito,
  potresti ripetere?"
- Quando descrivi una ricerca, dillo a voce alta: "Hmm, fammi controllare
  <break time="500ms"/>

- Inizia le frasi con "E," "Ma," "Quindi." Viola le regole grammaticali come
  fanno le persone reali.
- Quando ritorni su un argomento precedente, fallo senza menzionarlo esplicitamente:
  "A proposito di quell'altra cosa che hai citato..."
- Se pensi di aver capito male: "Scusa, <break time="300ms"/> mi è sfuggito,
  potresti ripetere?"
- Quando descrivi una ricerca, dillo a voce alta: "Hmm, fammi controllare
  <break time="500ms"/>

- Inizia le frasi con "E," "Ma," "Quindi." Viola le regole grammaticali come
  fanno le persone reali.
- Quando ritorni su un argomento precedente, fallo senza menzionarlo esplicitamente:
  "A proposito di quell'altra cosa che hai citato..."
- Se pensi di aver capito male: "Scusa, <break time="300ms"/> mi è sfuggito,
  potresti ripetere?"
- Quando descrivi una ricerca, dillo a voce alta: "Hmm, fammi controllare
  <break time="500ms"/>

8. Ridondanza, ridondanza, ridondanza

Il filo conduttore di tutte queste tecniche è solo uno: il modello ha bisogno di molta più ripetizione di quanto si possa pensare necessario. Esponete la regola, mostratela con esempi, ribaditela in una sezione diversa. E quando pensate di averla ripetuta abbastanza, ripetetela ancora.

La struttura del prompt: le sezioni che contano davvero

Oltre al realismo, c'è la questione dell'organizzazione. Le guide più recenti sui modelli vocali convergono su un formato strutturato, suddiviso in sezioni brevi ed etichettate, in modo che il modello trovi rapidamente le istruzioni pertinenti. Lo schema che ricorre più spesso è:

Lo schema del prompt vocaleSezioni brevi ed etichettate in modo che il modello trovi rapidamente ciò di cui ha bisogno1 · Ruolo e obiettivochi è l'agente e cosa significa "avere successo"2 · Personalità e tonola voce e lo stile da mantenere3 · Contestoinformazioni recuperate e dati pertinenti4 · Pronunce di riferimentoguida fonetica per termini complessi5 · Strumentiquali usare, quando usarli e con quali preamboli6 · Istruzioni e regolecosa fare e cosa non fare7 · Flusso della conversazionestati, obiettivi e transizioni8 · Sicurezza e escalationlogica di ripiego e passaggio a un operatore umano

Lo schema ricorrente di un prompt vocale: otto sezioni brevi ed etichettate.

Ruolo e obiettivo — chi è l'agente e cosa significa per lui "aver avuto successo".
Personalità e tono — la voce e lo stile da mantenere.
Contesto — informazioni recuperate e dati pertinenti alla conversazione.
Pronunce di riferimento — la guida fonetica per i termini difficili.
Strumenti — quali usare, quando usarli e con quali preamboli parlati.
Istruzioni e regole — cosa fare e cosa non fare.
Flusso della conversazione — stati, obiettivi e transizioni tra le fasi.
Sicurezza e escalation — logica di ripiego (fallback) e passaggio a un operatore umano; qui si pianificano anche le difese contro il prompt injection, un rischio reale per qualsiasi agente che accetti input in linguaggio naturale.

A questo, aggiungete un vincolo valido per ogni agente vocale, anche per quelli nativi speech-to-speech: l'istruzione di essere sintetici. Pochi utenti hanno la pazienza di ascoltare monologhi. Questo non è un aspetto puramente estetico: una struttura chiara è ciò che rende il comportamento dell'agente riproducibile anziché casuale.

La tassa nascosta: ogni parola nel prompt costa latenza

Qui arriviamo al vincolo che separa il prompting vocale dal prompting testuale, e che molti scoprono troppo tardi. Un agente vocale è un sistema sensibile alla latenza: sotto i 500 ms di risposta suona come una persona, oltre gli 800 ms inizia a sembrare non funzionante. E i prompt sovraccarichi, insieme a elenchi di strumenti eccessivamente lunghi, rallentano tutto.

Il budget di latenzaQuanto tempo può attendere un interlocutore prima che la conversazione sembri innaturalesuona umanoaccettabilesembra non funzionare236 mstempo medio di risposta umano500 mssoglia ottimale800 mssoglia criticaLa scomposizione, componente per componenteVADrilevamento voce~15–20 msSTTtrascrizione in streamingLLMprima risposta (TTFT)< 300 msTTSprimo audio< 200 msOgni token aggiunto al prompt erode questo budget: più istruzioni equivalgono a maggiore latenza.

Il budget di latenza: 236 ms di risposta media umana, sotto i 500 ms suona umano, oltre gli 800 ms sembra non funzionare — con la scomposizione per singolo componente.

È un vero e proprio compromesso. Ciascuna delle tecniche di realismo descritte sopra aggiunge token al prompt e ogni token in più significa maggiore tempo di elaborazione. Il punto di equilibrio non si trova alla scrivania: si trova testando sotto carico reale — e un approccio utile in questo caso è mettere alla prova l'agente con personaggi virtuali che simulano chiamate diverse, in modo da poterne osservare il comportamento prima di esporlo a clienti reali. La raccomandazione pratica è la stessa che si applica al codice di produzione: mantenete il prompt il più snello possibile per un determinato comportamento, suddividetelo in task circoscritti piuttosto che in un unico mega-prompt e misurate l'impatto di ogni aggiunta sul tempo che precede la prima risposta (il cosiddetto time-to-first-token). Una nota pratica utile per chi lavora con modelli in tempo reale: mantenere stabile il system prompt consente di sfruttare il caching, con un risparmio tutt'altro che trascurabile in termini di costi e latenza.

Quando il prompting non basta: il confine con il fine-tuning

C'è un limite che le ricerche recenti hanno reso esplicito ed è onesto riconoscerlo. Un paper di ricerca del 2025 ha confrontato direttamente il fine-tuning con il system prompting, proprio con l'obiettivo di ottenere un "tono di voce colloquiale" per le applicazioni vocali. La conclusione: un elenco crescente di istruzioni complesse nel prompt porta a un peggioramento nel rispetto delle istruzioni e a bias legati al contesto. A volte il modello non segue nemmeno una singola istruzione di sistema.

Il loro risultato mostra che il fine-tuning di un modello piccolo a pesi aperti (open-weights) (un Llama da 1 miliardo di parametri, ottimizzato con LoRA su dati generati sinteticamente) supera il prompting nell'allineare il modello a un tono colloquiale naturale. Più in generale, una linea di ricerca parallela mostra che l'allineamento comportamentale tramite apprendimento per rinforzo (RL) — trattando le diverse realizzazioni acustiche della stessa richiesta come un segnale di allineamento — rende i modelli vocali notevolmente più robusti.

La lettura pragmatica, per chi sviluppa in produzione, non è quella di abbandonare il prompting, ma di riconoscere che si tratta del punto di partenza, non sempre del traguardo. Per la maggior parte dei casi d'uso, un prompt ben progettato che utilizzi le tecniche descritte sopra è più che sufficiente e infinitamente più rapido da iterare. Quando avete bisogno di un tono molto specifico, coerente su milioni di chiamate, e il prompt inizia a diventare ingestibile (e a costare in termini di latenza), questo è il segnale che vale la pena valutare un piccolo modello ottimizzato sul vostro dominio. Vale anche la pena ricordare che la scelta del modello al centro della catena influisce direttamente sull'affidabilità delle risposte: a questo proposito, consultate il nostro approfondimento sulle allucinazioni degli LLM e come arginarle.

La frontiera: oltre il "turn-by-turn"

È utile sapere dove si sta dirigendo la ricerca, perché questo cambierà il modo in cui verranno scritti i prompt nei prossimi mesi. Diversi filoni del periodo 2025-2026 stanno spingendo il problema oltre la classica interazione alternata "turn-by-turn":

Full-duplex — modelli che ascoltano e parlano contemporaneamente, gestiti istruendo l'LLM a operare come una macchina a stati finiti con due stati (PARLA / ASCOLTA), in modo che possa interrompere o cedere il turno in tempo reale, proprio come fanno gli esseri umani.
Ragionamento "a blocchi" durante il parlato — approcci come STITCH fanno sì che il modello pensi e parli contemporaneamente, generando il ragionamento a blocchi mentre sta già producendo la voce, in modo da ridurre la latenza percepita.
Controllo temporale — modelli che seguono istruzioni con vincoli di durata ("rispondi in circa 15 secondi"), utili per gli agenti che devono rimanere entro finestre temporali precise.

Questo è ancora in gran parte territorio di ricerca, ma questi filoni indicano la direzione: il prompt del futuro non descriverà solo cosa dire, ma come gestire i tempi e i turni della conversazione.

Checklist operativa

Se domani dovete lavorare sul prompt di un agente vocale, questi sono i punti su cui concentrarsi, nell'ordine:

Iniziate con il minimo indispensabile. Un prompt essenziale, poi aggiungete regole solo per gli errori che emergono nei test.
Dichiarate che si tratta di una conversazione vocale. L'LLM non lo sa. Diteglielo e imponete la sintesi.
Mostrate esempi concreti di parlato corretto rispetto a quello errato, idealmente estratti da chiamate reali.
Progettate le disfluenze con le pause (SSML per i TTS tradizionali, descrizioni in linguaggio naturale per i TTS basati su modelli linguistici).
Usate le emozioni come vincoli, partendo da una base di calma.
Normalizzate numeri, date, valute e abbreviazioni in parole pronunciabili.
Pianificate preamboli parlati e una guida per le pronunce complesse.
Descrivete la personalità come comportamenti udibili, non come aggettivi.
Strutturate il prompt in sezioni brevi ed etichettate.
Monitorate la latenza: ogni token ha un costo. Tagliate, scomponete, misurate e mantenete il prompt stabile per sfruttare il caching.
Ripetete le regole chiave da più punti di vista.
Sappiate quando fermarvi con il prompting: se il prompt diventa ingestibile per mantenere un tono molto specifico e coerente, considerate un piccolo modello ottimizzato tramite fine-tuning.

Il prompt engineering per agenti vocali, nello scenario del 2026, è diventato una disciplina a sé stante, a metà strada tra la scrittura, l'ingegneria dei sistemi in tempo reale e la regia teatrale. La buona notizia è che le tecniche sono concrete e ripetibili. La cattiva — o forse la notizia interessante — è che richiedono test, ascolto e iterazione: nessun prompt suona bene al primo colpo. Si scrive, si ascolta, si corregge. Esattamente come fareste con una voce reale.