Quanto costa davvero un agente vocale AI nel 2026 - Una guida pratica
Quanto costa davvero un assistente vocale AI nel 2026 - Una guida pratica per i provider VoIP europei, i CRM e i software aziendali

Se gestisci un'azienda di VoIP, una piattaforma CRM o un software di gestionale in Italia, Spagna, Germania o Francia, probabilmente ti sarai già chiesto: come faccio ad aggiungere agenti vocali IA alla mia offerta? E, soprattutto, quanto mi costa davvero e quale margine mi rimane?
La risposta non è così semplice come appare sulle pagine dei prezzi. La maggior parte dei provider pubblicizza un prezzo "al minuto" che sembra molto competitivo, ma racconta solo una parte della storia. In questa guida cerchiamo di fare un po' di chiarezza: come si compone effettivamente il costo di un agente vocale nel 2026, dove si nascondono le voci di spesa che non vedi nel preventivo iniziale e come scegliere un'architettura che ti garantisca margini sani e il controllo sulla relazione con il cliente.
Questo non è un articolo "contro" nessuno. Vapi, ElevenLabs e gli altri sono strumenti solidi, ognuno con i propri punti di forza. L'obiettivo è darti ciò di cui hai bisogno per fare una scelta informata, specialmente se il tuo modello di business consiste nel rivendere questa tecnologia ai tuoi clienti.
Anatomia di una chiamata: i cinque componenti che compongono il costo
Un agente vocale IA non è un blocco unico. È un'orchestrazione di componenti separati, ognuno con il proprio costo indipendente. Comprendere questa struttura è il primo passo per leggere correttamente qualsiasi preventivo.
Orchestrazione — Il motore che gestisce il flusso della conversazione, coordina le varie parti e gestisce le interruzioni (barge-in) e i turni di parola. È il "direttore d'orchestra".
STT (Speech-to-Text) — Trascrive ciò che dice chi chiama in tempo reale.
LLM (Large Language Model) — Il "cervello" che interpreta la richiesta e decide cosa dire.
TTS (Text-to-Speech) — Trasforma la risposta testuale in una voce sintetica naturale.
Telefonia — Il canale telefonico effettivo (Twilio, Telnyx, Vonage o infrastruttura interna). Spesso è la voce di spesa più sottovalutata: il costo cambia drasticamente a seconda della direzione (l'outbound è molto più costoso dell'inbound) e della destinazione (un cellulare europeo costa molto più di un telefono fisso).
Quando un provider ti dice "$0,05 al minuto", quasi sempre si riferisce solo al livello di orchestrazione. Gli altri quattro componenti vengono fatturati separatamente. Non si tratta di disonestà: è semplicemente il modo in cui funziona un'architettura modulare. Il problema sorge quando questa struttura non viene comunicata chiaramente e ti ritrovi in produzione con una fattura di costo diversa da quella che avevi preventivato.
Il modello di abbonamento di ElevenLabs: ottimo per i creatori di contenuti, più complesso per i rivenditori
ElevenLabs rappresenta oggi il punto di riferimento per la qualità e la naturalezza delle voci sintetiche. Non ci sono dubbi: per molti casi d'uso è semplicemente il miglior TTS sul mercato. Vale la pena capire come funziona il suo modello commerciale, però, perché è progettato principalmente per i creatori di contenuti, non per chi crea un servizio multi-cliente.
ElevenLabs funziona con un abbonamento mensile con un pacchetto di "crediti" (in sostanza, caratteri che puoi sintetizzare):
Starter: ~5 €/mese
Creator: ~22 €/mese (~121.000 crediti)
Pro: ~99 €/mese (~600.000 crediti)
Scale: ~330 €/mese (2 milioni di crediti)
Business: da ~990 €/mese in su
Per un creatore che produce doppiaggi, è un modello sensato. Per un provider che gestisce decine di clienti con volumi imprevedibili, ci sono alcuni aspetti a cui prestare attenzione, che emergono spesso nelle discussioni tra chi lo utilizza in produzione.
Come vengono gestiti i crediti non utilizzati. I crediti seguono il ciclo di fatturazione, con un rollover limitato (di solito fino a un paio di mesi). Diversi utenti descrivono la sorpresa di perdere crediti già pagati dopo un downgrade o una cancellazione. Una testimonianza ricorrente: "Avevo più di 200.000 crediti pagati, ho effettuato il downgrade del mio abbonamento e li ha cancellati tutti."
Non è un comportamento nascosto - è scritto nei termini - ma è esattamente il tipo di dettaglio che, se non spieghi chiaramente al tuo cliente fin dall'inizio, ti si ritorce contro sotto forma di reclamo.
Voci legacy deprecate. ElevenLabs evolve rapidamente i suoi modelli e periodicamente ritira le voci più vecchie. Per un creatore si tratta di un fastidio gestibile; per chi ha costruito decine di agenti su una voce specifica, può significare doverli riconfigurare. Quando scegli una voce per un cliente, vale la pena verificare che sia tra quelle "stabili" e non in via di eliminazione.
Consiglio pratico: se usi ElevenLabs come componente TTS, tieni pronta una voce di "backup" testata per ciascun cliente, in modo che una deprecazione non ti colga di sorpresa. E quando presenti il servizio al tuo cliente, sii esplicito su come funziona la fatturazione dei crediti: le aspettative mal gestite sono la causa numero uno dell'abbandono (churn).
Vapi: reale flessibilità, purché si capisca dove va a finire il budget
Vapi è una delle piattaforme di orchestrazione più apprezzate dagli sviluppatori, e per ottime ragioni: ti consente di scegliere la tua STT, LLM e TTS, ti offre un controllo granulare sullo stack e garantisce un deployment rapido. È pensata per chi vuole costruire, non per chi cerca una soluzione chiavi in mano.
Il prezzo base è di $0,05/min per l'orchestrazione. Gli altri componenti si aggiungono in cima, fatturati "al costo" (un passthrough dei prezzi dei provider stessi). Un'osservazione che ricorre spesso tra gli utenti è proprio questa, ben riassunta da uno di loro: "Vapi è di gran lunga la soluzione migliore per semplicità, ma sì, $0,05 al minuto è pesante, a cui va aggiunto il costo dell'IA."
Ed è qui che i calcoli cambiano notevolmente rispetto a quello che si vede a prima vista. Facendo i conti su uno stack realistico, con ElevenLabs come TTS (la scelta più comune per la qualità vocale) e una chiamata in uscita verso un cellulare europeo:
Componente | Costo indicativo |
|---|---|
Orchestration (Vapi) | $0,050/min |
STT (Deepgram Nova-3, multilingua) | ~$0,006–0,010/min |
LLM (modello leggero) | ~$0,003/min |
TTS (ElevenLabs) | ~$0,04–0,07/min |
Telefonia outbound — cellulare IT/ES/UE | ~$0,045/min |
Totale outbound verso cellulare | ~$0,145–0,175/min |
Due importanti chiarimenti su queste cifre, perché è esattamente qui che quasi tutti sottovalutano il proprio budget:
ElevenLabs non costa "pochi centesimi al minuto". La tariffazione è per carattere (~$0,18 per 1.000 caratteri sui modelli realistici; i modelli Turbo/Flash v2.5 si attestano intorno ai $50 per milione di caratteri, v3 intorno a $100). Tradotto in minuti di conversazione con una verbosità media, significa circa $0,04–0,07/min solo per la voce, non meno. L'utilizzo di un TTS più economico (Deepgram Aura, OpenAI, voci cloud standard) riduce notevolmente i costi, ma si rinuncia alla qualità che spinge molte persone a scegliere ElevenLabs in primo luogo.
La telefonia pesa, e dipende dalla direzione della chiamata. Vapi non gestisce la telefonia: devi portare la tua (Twilio, Telnyx, Vonage). E qui la geografia conta enormemente. Una chiamata in uscita verso un cellulare in Italia, Spagna o nel resto d'Europa costa in media ~$0,045/min o più (su Twilio, da un numero europeo; da un numero statunitense i sovrapprezzi possono più che raddoppiare la tariffa). Una chiamata in entrata (inbound), invece, è molto più economica - circa $0,01/min. Ciò significa che lo stesso identico agente può costarti tre volte tanto a seconda che chiami i cellulari o riceva chiamate in entrata.
Mettendo insieme i due scenari su uno stack con ElevenLabs:
Scenario | Costo totale stimato |
|---|---|
Outbound verso cellulare UE | ~$0,145–0,175/min |
Inbound (rete fissa) | ~$0,11–0,14/min |
Queste cifre sono in linea con il consenso del mercato, che stima il costo reale di una chiamata Vapi tra $0,13 e $0,31/min una volta sommati tutti i provider — ben lontano dai $0,05 del solo livello di orchestrazione. Su 2.500 minuti/mese di chiamate in uscita verso cellulari, si parla di ~$360–440/mese per un singolo cliente. Non proibitivo, ma utile da sapere in anticipo per costruire un prezzo di rivendita che lasci un margine.
Due aspetti tecnici da conoscere prima di andare in produzione:
Concorrenza di chiamate simultanee. Il piano pay-as-you-go include un numero base di linee simultanee (circa 10), con linee aggiuntive disponibili a pagamento. Se offri servizi a clienti con picchi stagionali - pensa a una campagna di marketing o a un periodo di alta stagione - vale la pena dimensionare la concorrenza in anticipo, per evitare sia colli di bottiglia che costi imprevisti.
Latenza sotto carico. Poiché Vapi orchestra diverse API esterne, la latenza totale è la somma dei tempi di ogni componente. Uno stack ben ottimizzato (STT veloce, un LLM "mini" leggero, TTS in modalità turbo) si attesta intorno ai 500–700 ms. Uno configurato male può salire di più. Un utente riassume la situazione così: "All'inizio ho amato la flessibilità, ma nel momento in cui ho aumentato la concorrenza la voce ha iniziato a rallentare e la conversazione non sembrava più naturale." È il rovescio della medaglia della modularità: la flessibilità richiede ottimizzazione.
Consiglio pratico: se scegli un'architettura modulare come questa, investi del tempo nella scelta dei componenti più veloci e fai dei test sotto carico reale prima di portare i clienti in produzione. La differenza tra uno stack "predefinito" e uno ottimizzato si sente tutta nella naturalezza della conversazione.
Capire la latenza: il numero che separa il "naturale" dal "robotico"
Questo è il punto tecnico più sottovalutato, e quello che separa un agente apprezzato dai clienti da uno che viene abbandonato. Vale la pena spendere due parole al riguardo, perché è un argomento che ricorre costantemente tra chi costruisce questi sistemi.
Nella conversazione umana, il tempo medio di risposta dopo che l'interlocutore ha finito di parlare è di circa 236 millisecondi. Quando un agente vocale supera gli 800 ms end-to-end, la conversazione inizia a sembrare innaturale; lo standard di riferimento per un'esperienza fluida è sotto i 500 ms.
Una scomposizione utile del "budget di latenza":
Componente | Latenza target |
|---|---|
VAD (rilevamento attività vocale) | ~15-20 ms |
STT | streaming, quasi in tempo reale |
LLM (time-to-first-token) | < 300 ms |
TTS (primo audio) | < 200 ms |
Le misure che fanno davvero la differenza, secondo chi ottimizza questi sistemi in produzione:
Streaming, non batch. Ciascun componente dovrebbe iniziare a lavorare sullo stream parziale anziché attendere il completamento di quello precedente. Il passaggio dall'elaborazione batch allo streaming è spesso l'unico intervento con il maggiore impatto.
LLM leggeri per il dialogo. Un modello "mini" o "haiku" risponde in una frazione di tempo rispetto a un modello di punta e, per la maggior parte delle conversazioni di servizio, la qualità è più che sufficiente. Riserva i modelli grandi per le attività che ne hanno effettivamente bisogno.
TTS in modalità turbo/flash. Le varianti a bassa latenza dei TTS premium sacrificano un pizzico di qualità per un enorme guadagno in termini di reattività.
Riempitivi contestuali. Brevi interiezioni naturali ("certo, lasciami controllare subito...") coprono la latenza di elaborazione e rendono la conversazione molto più umana.
Architettura modulare vs end-to-end: due filosofie, due compromessi
C'è un dibattito tecnico in corso che vale la pena conoscere, perché influisce sia sui costi che sulla qualità.
I modelli nativi speech-to-speech (l'audio entra ed esce direttamente dal modello) offrono una latenza estremamente bassa e preservano il tono e l'emozione, ma comportano un certo grado di vendor lock-in, costi più elevati per token audio e uno stato conversazionale più fragile.
Le pipeline modulari (STT → LLM → TTS, l'approccio utilizzato da Vapi e Callin.io) introducono il rischio di "accumulo di latenza" se configurate male, ma offrono una flessibilità totale, la possibilità di ottimizzare i costi componente per componente e nessun vincolo a un singolo fornitore.
Per un provider che rivende a diversi clienti con esigenze differenti, la modularità è quasi sempre la scelta giusta: consente di utilizzare uno stack economico per il cliente che vuole risparmiare e uno premium per chi desidera il massimo della qualità, senza cambiare piattaforma.
Costruire margini sani: la prospettiva del rivenditore
Se il tuo modello è la rivendita di agenti vocali, ecco la parte che conta davvero. Alcuni punti di riferimento di mercato utili, raccolti da utenti che operano già in questo settore:
Diversi programmi white-label acquistano capacità a circa $0,010/min "tutto incluso" e rivendono tra $0,20 e $0,35/min, con margini di conseguenza molto interessanti.
Le agenzie più attive riferiscono di aver generato entrate ricorrenti significative già nel primo trimestre integrando gli agenti vocali con i loro servizi esistenti (marketing, automazione, telefonia).
Il consiglio più ripetuto dai rivenditori è solo uno: tieni d'occhio l'utilizzo dei clienti per proteggere il tuo margine. Un cliente con un picco imprevisto di volumi può erodere il tuo margine se il tuo pricing non lo prevede.
Ciò di cui una piattaforma ha davvero bisogno per essere "rivendibile" senza grattacapi:
Vero multi-tenant - ogni cliente isolato, con i propri dati, campagne e analisi.
White-label completo - il tuo dominio, logo e colori; il cliente finale non dovrebbe mai vedere il nome del provider sottostante.
Fatturazione integrata - un sistema di rifatturazione che ti consente di impostare i tuoi prezzi senza scrivere codice.
Integrazioni native - CRM, calendari, telefonia: meno integrazioni devi creare da solo, prima raggiungi il mercato.
Onboarding rapido - la differenza tra "attivo in un giorno" e "un progetto di tre mesi" è la differenza tra un business scalabile e uno bloccato.
Qual è il ruolo di Callin.io
Callin.io è stato costruito attorno a questo modello: una piattaforma modulare con un livello white-label multi-tenant pronto all'uso. Non un framework da assemblare, ma un sistema che puoi iniziare a rivendere subito.
Stack modulare, costi ottimizzabili. L'orchestrazione parte da $0,039/min e puoi scegliere liberamente STT, LLM e TTS per ogni cliente. Uno stack ottimizzato per il dialogo (Deepgram + LLM leggero + TTS efficiente) si attesta intorno a ~$0,044/min per i soli componenti conversazionali, a cui si aggiunge la telefonia, che è la stessa per qualsiasi piattaforma (~$0,045/min in uscita verso cellulari UE, ~$0,01/min in entrata). La differenza rispetto a una pipeline equivalente non sta tanto nella telefonia, che è un costo di passthrough identico per tutti, ma nei componenti IA: scegliendo bene STT, LLM e TTS puoi tenere sotto controllo il livello conversazionale senza rinunciare alla qualità, passando a componenti premium (incluso ElevenLabs) solo per i clienti che ne hanno davvero bisogno.
Configurazione assistita. È qui che cerchiamo di fare la differenza per i rivenditori. L'onboarding di un nuovo cliente è automatizzato e richiede meno di un'ora: nessun server da configurare, nessun certificato SSL da gestire manualmente. Offriamo configurazioni di stack pre-ottimizzate per settore (sanità, ospitalità, vendite) in modo che tu non debba diventare un esperto di tuning IA. E quando uno dei tuoi clienti ha una domanda tecnica durante la configurazione, il nostro team supporta sia te che il tuo cliente: tu gestisci la relazione commerciale, noi ci occupiamo della parte tecnica.
White-label pronto per l'uso, non da costruire. Il dominio, il branding e l'interfaccia sono tuoi. Il cliente finale non vede mai "Callin.io". La fatturazione è integrata, quindi rivendi con i tuoi margini senza sviluppo personalizzato. E la scalabilità è automatica: quando un cliente passa da 100 a 10.000 chiamate al mese, la piattaforma si adatta senza interventi.
API documentate. Le API REST sono documentate con esempi e webhook, in modo da poterti integrare con il tuo CRM (Salesforce, HubSpot, Pipedrive), i tuoi sistemi di prenotazione (Calendly, Acuity) e il tuo stack telefonico (Twilio, Telnyx, Vonage) in giorni, non settimane.
Il fattore europeo: la residenza dei dati e il GDPR come vantaggio competitivo
C'è un aspetto che fa una differenza concreta in Europa, specialmente nei settori regolamentati. La voce è considerata dato biometrico ai sensi del GDPR, e questo comporta obblighi precisi: consenso esplicito, crittografia, minimizzazione e conservazione controllata dei dati.
Molte piattaforme statunitensi elaborano i dati su infrastrutture negli Stati Uniti. Questo è spesso gestibile contrattualmente tramite un DPA, ma per determinati clienti — uno studio legale, un istituto sanitario, una banca, una filiale europea con obblighi di residenza dei dati — può essere un ostacolo insormontabile.
Callin.io affronta questo aspetto in modo nativo:
Residenza dei dati in Europa - installazione su data center UE (Irlanda, Francoforte, Milano). I dati rimangono in Europa.
On-premises — per i clienti più sensibili, installazione sui server personali del cliente, senza che alcun dato lasci la sede.
GDPR by design — registro attività, minimizzazione dei dati e diritto alla cancellazione nativi sulla piattaforma, coperti dal nostro DPA.
Per saperne di più sul panorama normativo, i riferimenti ufficiali: GDPR.eu, il Garante per la Protezione dei Dati Personali italiano, l'AEPD spagnola e la CNIL francese.
Per un cliente in un settore regolamentato, "i tuoi dati rimangono in Europa, e sui tuoi server se necessario" non è un dettaglio di marketing: è spesso la condizione che rende fattibile il progetto.
Tabella riassuntiva
Aspetto | Pipeline Vapi + 11Labs | Callin.io |
|---|---|---|
Costo componenti IA (conversazione) | ~$0,06–0,08/min | ~$0,044/min |
Telefonia (outbound cellulare UE) | ~$0,045/min | ~$0,045/min |
Telefonia (inbound) | ~$0,01/min | ~$0,01/min |
Costo totale tipico (outbound mobile) | ~$0,13–0,31/min | ~$0,09–0,10/min |
Modello commerciale TTS | abbonamento a crediti | pay-as-you-go |
Flessibilità dello stack (LLM/STT/TTS) | alta | alta |
Residenza dei dati in UE | non nativa | nativa (IE/DE/IT) |
On-premise | no | sì |
Socio multi-tenant white-label | da costruire da soli | pronto all'uso |
Configurazione e supporto rivenditori | self-service | assistito |
GDPR | tramite DPA | nativo + DPA |
Nota: la telefonia è un costo di passthrough identico per un determinato provider e per una determinata direzione di chiamata. La differenza tra le due colonne sta quasi interamente nei componenti IA e nel modello commerciale.
Vapi è un'ottima scelta se hai un team tecnico e desideri la massima libertà di sviluppo. ElevenLabs rimane un punto di riferimento per la qualità della voce. Callin.io è pensato per chi vuole rivendere agenti vocali in Europa con margini prevedibili e senza dover costruire l'infrastruttura da zero.
La conclusione
Il prezzo "al minuto" è solo il punto di partenza. Il costo reale dipende dallo stack scelto, la qualità dipende da quanto bene lo si ottimizza e il margine — se si rivende — dipende da quanto la piattaforma lavora per te invece di costringerti a fare il lavoro.
Se stai valutando come aggiungere agenti vocali alla tua offerta, le tre cose da verificare prima di scegliere sono sempre le stesse: costo reale end-to-end (non solo l'orchestrazione), latenza sotto carico reale (non in una demo) e modello di rivendita (white-label, fatturazione, supporto).
Se desideri un confronto sui numeri specifici per il tuo caso d'uso, o una demo del livello white-label, possiamo partire dalle risorse di integrazione e costruire insieme uno scenario basato sui tuoi volumi reali.
Callin.io — agenti vocali IA modulari, in white-label, conformi al quadro europeo. Il tuo stack, il tuo brand, i tuoi margini.

