Clonación de Voz para TTS de Accesibilidad: Personal Voice en Dispositivos

La clonación de voz para accesibilidad ha pasado del laboratorio de investigación a la mesita de noche en pocos años. Para las personas que viven con ELA, ENM, laringectomía u otra condición que erosiona progresivamente la capacidad de hablar, la posibilidad de preservar y usar después su propia voz —no un sintetizador genérico y robótico— a través de un dispositivo TTS o un smartphone ya no es una posibilidad lejana. Está disponible hoy, y esta guía explica cómo.

Cubriremos la tecnología con claridad, compararemos las principales plataformas incluyendo Apple Personal Voice, Acapela My-own-voice, VocaliD, ElevenLabs y VoxBooster, y ofreceremos consejos prácticos sobre el momento adecuado, la calidad de grabación y la integración con dispositivos AAC.

Puntos clave

El banco de voz debe comenzar pronto — antes de un deterioro significativo del habla — para capturar el mejor material fuente.
Apple Personal Voice (iOS 17+) ofrece clonación de voz gratuita y en el dispositivo para usuarios en idiomas compatibles.
Las plataformas profesionales de AAC (Acapela, VocaliD) proporcionan modelos de alta fidelidad diseñados específicamente para dispositivos de comunicación aumentativa.
Las plataformas de síntesis de voz por IA (ElevenLabs, VoxBooster) ofrecen un tiempo de entrega más rápido y opciones de enrutamiento más flexibles.
Una voz clonada puede usarse con hardware AAC, lectores de pantalla, micrófonos virtuales y aplicaciones TTS en Windows, iOS y Android.
La clonación de voz para cirugía electiva (p. ej., laringectomía por tratamiento oncológico) es igualmente válida y debe planificarse antes de la operación.

¿Qué Es la Clonación de Voz para Accesibilidad?

La clonación de voz para accesibilidad es la aplicación de la síntesis de voz por IA para crear un modelo de texto a voz personalizado basado en grabaciones de la voz de una persona específica. El modelo resultante permite a esa persona escribir texto y escucharlo en una voz que suena como la suya propia, en lugar de un sintetizador genérico.

Esto importa por una razón humana directa: la identidad. La voz de una persona lleva personalidad, acento regional, color emocional y décadas de relaciones construidas alrededor de ese sonido. Cuando una condición elimina la capacidad física de producir habla, perder el carácter de la voz además de la pérdida comunicativa es un duelo agravado. La clonación ofrece una forma de preservar y restaurar esa capa de identidad.

La tecnología subyacente ha cambiado drásticamente. Los sistemas anteriores de banco de voz concatenativos unían grabaciones de fonemas — funcionales, pero robóticos en frases nuevas. Los modelos neurales de TTS actuales aprenden el carácter acústico de una voz de forma holística y pueden sintetizar texto arbitrario con prosodia, entonación e incluso cierto colorido emocional natural.

¿Quién Usa la Clonación de Voz TTS para Accesibilidad?

Pacientes con ELA y ENM

La Esclerosis Lateral Amiotrófica (ELA) y la Enfermedad de la Neurona Motora (ENM) son los diagnósticos más frecuentes que impulsan la demanda de banco de voz. La enfermedad progresa a ritmos diferentes, pero la ELA de inicio bulbar puede afectar al habla meses después del diagnóstico. Los clínicos y organizaciones recomiendan sistemáticamente comenzar la grabación de voz lo antes posible tras el diagnóstico — idealmente cuando el habla aún es 100% inteligible y sin fatiga ni arrastre notables.

Organizaciones como la Asociación ELA y la Motor Neurone Disease Association ofrecen orientación y a veces apoyo financiero para este proceso.

Pacientes con Laringectomía

Una laringectomía total — extirpación quirúrgica de la laringe, más frecuentemente por cáncer laríngeo o tiroideo — produce una pérdida completa de la voz natural. A diferencia de la ELA, generalmente es una cirugía programada, lo que significa que la grabación preoperatoria es posible y muy recomendable. Los pacientes que han grabado su voz antes de la cirugía pueden usar una voz TTS clonada inmediatamente después de la operación, en lugar de empezar desde cero con una laringe electrónica o una prótesis traqueoesofágica.

Para estos pacientes, la clonación de voz no es un proyecto a largo plazo sino una tarea preoperatoria específica con una fecha límite definida.

Disfonía Espasmódica y Enfermedad de Parkinson

La disfonía espasmódica causa espasmos involuntarios de las cuerdas vocales, haciendo que el habla sea esforzada e inconsistente. La enfermedad de Parkinson a menudo conduce a hipofonía (voz muy baja y suave) y disartria. Ambas poblaciones pueden llegar a un punto en que la suplementación o sustitución por TTS es preferible a luchar con la comunicación hablada.

Grabar mientras el habla es todavía relativamente clara sigue siendo la mejor estrategia — una voz hipofénica de Parkinson produce un modelo más débil de lo que habría producido una grabación anterior a la progresión.

Situaciones Electivas

No toda la clonación de voz para uso TTS surge de un diagnóstico médico. Las personas transgénero que aún no han realizado entrenamiento vocal pueden usar una voz clonada como salida TTS en el género deseado mientras su voz natural se desarrolla. Figuras públicas que quieren crear versiones de audiolibro o narrador de IA de su voz usan la clonación para producción TTS escalable.

Apple Personal Voice: Clonación en el Dispositivo para Todos

Apple introdujo Personal Voice en iOS 17 y macOS Sonoma (2023) como función de accesibilidad que no requiere suscripción y se procesa completamente en el dispositivo. Actualmente está disponible para inglés (EE. UU., Reino Unido, Australia, India), español, francés, alemán, italiano, coreano, mandarín, cantonés y japonés.

Cómo Configurar Apple Personal Voice

Ve a Configuración > Accesibilidad > Personal Voice.
Toca Crear una Personal Voice y sigue las instrucciones.
Se te pedirá que leas aproximadamente 150 frases aleatorias en voz alta — las mismas frases en cada sesión para cubrir una amplia gama fonética.
Cada sesión puede ser tan corta o larga como desees; la grabación guarda el progreso para que puedas completarla en varios días.
Cuando la grabación esté completa, el dispositivo procesa el modelo durante la noche mientras se carga.
Activa Configuración > Accesibilidad > Habla en vivo, selecciona tu Personal Voice y podrás escribir para hablar con tu voz clonada desde el Centro de control.

La integración de Habla en vivo significa que tu Personal Voice está disponible en llamadas FaceTime, llamadas telefónicas y cualquier otra aplicación que use audio del sistema.

El procesamiento en el dispositivo de Apple es significativo: no sale ningún audio del dispositivo, no hay tarifa de suscripción y el modelo está vinculado a tu Apple ID para copia de seguridad en iCloud. La calidad es impresionante para un sistema de nivel consumidor en el dispositivo, aunque no está al nivel de la salida de plataformas AAC profesionales.

Limitaciones

Solo inglés y un conjunto limitado de idiomas (en expansión).
Requiere iPhone 12 o posterior, o Mac con Apple Silicon.
Sin acceso a API — no se puede redirigir la voz a aplicaciones que no sean de Apple.
150 frases llevan ~20–30 minutos de grabación activa; un hablante con fatiga puede necesitar varios días.

Dispositivos AAC y Plataformas Profesionales de Banco de Voz

Los dispositivos AAC van desde hardware dedicado (Tobii Dynavox, dispositivos PRC-Saltillo) hasta software en iPad y tabletas Windows. La mayoría de los sistemas AAC modernos aceptan voces sintéticas personalizadas a través de su capa de software.

Acapela My-own-voice

El servicio My-own-voice de Acapela Group es una de las plataformas de banco de voz profesional más antiguas y utilizadas. Ha sido diseñada específicamente en torno al flujo de trabajo AAC, con asociaciones con los principales fabricantes de dispositivos AAC.

Proceso: Los usuarios graban un conjunto de frases (típicamente 50–200) a través de la plataforma web. El equipo de Acapela procesa el modelo y entrega un archivo de voz compatible con su tecnología Acapela Voice, que se instala en Windows y genera salida como voz SAPI5 — compatible de forma nativa con la mayoría del software AAC, incluyendo Tobii Dynavox Communicator, Grid 3 y otros.

Puntos fuertes: Integración directa con hardware y software AAC, soporte dedicado para casos de ELA/ENM, salida de alta calidad, orientación logopédica disponible.

Limitaciones: Precio por suscripción o por voz; no es gratuito.

VocaliD

VocaliD adopta un enfoque distintivo: si una persona dispone de muy poco audio utilizable de su propia voz, VocaliD mezcla sus grabaciones existentes con una voz “donante” del Banco de Voces Humanas de VocaliD (donantes que contribuyen grabaciones de voz para este propósito). La mezcla puede preservar algo del carácter acústico del paciente incluso cuando solo quedan minutos de habla inteligible.

Puntos fuertes: Viable incluso con deterioro significativo del habla; comunidad de donantes de voz amplia; diseñada específicamente para AAC.

Limitaciones: Modelo de suscripción; el resultado mezclado es menos “puramente tu voz” que un clon limpio de una grabación anterior.

Comparación de Plataformas

Plataforma	Ideal Para	Grabación Mínima	Formato de Salida	Coste	¿En el Dispositivo?
Apple Personal Voice	Usuarios de iPhone/Mac, iOS Habla en vivo	~150 frases / 20 min	Apple Habla en vivo	Gratuito	Sí
Acapela My-own-voice	Dispositivos AAC, flujo logopédico profesional	50–200 frases	SAPI5 (Windows)	De pago	No
VocaliD	Habla limitada restante, mezcla de donante	Cualquier cantidad	SAPI5 (Windows)	De pago/suscripción	No
ElevenLabs	Entrega rápida, desarrolladores de apps	~1 min de audio	API / reproductor web	Nivel gratuito + de pago	No
VoxBooster	Enrutamiento en tiempo real en Windows, apps flexibles	Minutos de audio	Micrófono virtual	De pago (prueba 3 días)	No

ElevenLabs para TTS de Accesibilidad

ElevenLabs se ha convertido en el referente para los desarrolladores que crean aplicaciones de accesibilidad, en gran parte por su diseño orientado a la API y su clonación de voz rápida.

Casos de uso para accesibilidad:

Aplicaciones TTS personalizadas para iOS o Android que llaman a la API de ElevenLabs para reproducir la salida de voz clonada.
Integración en herramientas de productividad (lectores de voz de Notion, lectores de correo electrónico).
Producción de audiolibros con una voz preservada.
Contenido de vídeo accesible donde la voz del creador ha cambiado o se ha perdido.

Limitaciones: El audio se procesa en los servidores de ElevenLabs (no en el dispositivo), lo que es una consideración de privacidad para algunos usuarios. La salida es principalmente a través de llamadas a la API o su reproductor web — conectarla al software AAC de Windows requiere un puente personalizado o enrutamiento de micrófono virtual.

Usar VoxBooster para el Enrutamiento TTS Accesible

VoxBooster no está diseñado específicamente para AAC médico, pero juega un papel específico y práctico en el flujo de trabajo de clonación de voz para accesibilidad: el enrutamiento flexible en Windows.

El escenario: tienes una voz clonada de ElevenLabs, un modelo de voz de IA ajustado, u otra plataforma de síntesis — pero necesitas llevar esa salida de voz a una videollamada, una interfaz de dictado de Windows, o un paquete de software AAC que espera entrada de micrófono en lugar de una voz SAPI5.

La salida del micrófono virtual de VoxBooster se registra como un dispositivo de entrada de audio estándar de Windows. Cualquier aplicación que acepte un micrófono — Zoom, Teams, Discord, Reconocimiento de voz de Windows, OBS — puede recibir la voz clonada como si fuera una fuente de micrófono en directo.

Flujo de trabajo práctico:

Entrena o carga tu modelo de voz en VoxBooster (sesión de grabación corta, minutos de audio).
Escribe o dicta texto; VoxBooster lo sintetiza a través de tu modelo de voz clonada.
Selecciona VoxBooster como entrada de micrófono en cualquier aplicación de Windows.
Tu voz clonada aparece en la aplicación receptora en tiempo real.

Esto es especialmente útil para videollamadas y comunicación en tiempo real donde la integración SAPI5 no está disponible, y para usuarios de Windows que quieren una herramienta que gestione tanto los efectos de voz como el enrutamiento TTS sin pilas de software separadas.

Preservación de Voz para Cirugía Electiva: Lista de Verificación Preoperatoria

Si te enfrentas a una laringectomía u otro procedimiento que alterará permanentemente tu voz, la grabación preoperatoria de voz es una prioridad clara. Un marco práctico:

Al menos 4 semanas antes de la cirugía:

Contacta a un logopeda familiarizado con AAC y banco de voz.
Elige una plataforma según tu hardware (ecosistema Apple vs. dispositivo AAC de Windows), presupuesto e idioma.
Graba en una habitación tranquila con un micrófono condensador USB o un smartphone a 15–20 cm de la boca.
Graba primero frases personales: tu nombre, nombres de familiares, saludos habituales, tu cargo, frases de emergencia.
Completa el conjunto de frases de la plataforma en su totalidad — la cobertura fonética aleatoria está ahí por una razón.

Después de la cirugía:

Configura tu plataforma TTS o AAC para usar tu voz clonada.
Trabaja con tu logopeda para integrarla en tu dispositivo AAC o flujo TTS de Windows.
Guarda las grabaciones originales — la tecnología de clonación mejora rápidamente y en 2–3 años podrían entrenarse mejores modelos con los mismos datos.

TTS Personalizado en Lectores de Pantalla

Los usuarios con discapacidad visual que prefieren su propia voz pueden usar una voz clonada con lectores de pantalla en Windows.

NVDA y SAPI5: NVDA soporta sintetizadores de voz SAPI5. Cualquier voz clonada exportada como SAPI5 (Acapela, VocaliD) aparecerá como opción en la configuración del sintetizador de NVDA.

JAWS: JAWS admite SAPI5 y también tiene su propio motor Vocalizer Expressive. Las voces SAPI5 de plataformas de banco de voz son compatibles.

Narrador de Windows: Narrador admite voces SAPI5 a través de Configuración > Narrador > Elegir una voz.

Puente de micrófono virtual (vía VoxBooster): Para lectores de pantalla o aplicaciones que no tienen selección flexible de voz pero sí aceptan entrada de micrófono para dictado, la salida de micrófono virtual de VoxBooster proporciona una solución alternativa.

La Ética de la Clonación de Voz para Accesibilidad

Consentimiento y propiedad: Una voz de accesibilidad clonada está éticamente justificada cuando la persona clonada ha tomado decisiones informadas sobre quién puede usar el modelo, en qué dispositivos y bajo qué condiciones. Los familiares o cuidadores no deben encargar un clon de la voz de otra persona sin el consentimiento claro y la participación de esa persona.

Límites del dispositivo médico: Una voz AAC es una herramienta de comunicación, no un deepfake. Usar una voz de accesibilidad clonada para suplantar a la persona en contextos que no ha autorizado — transacciones financieras, declaraciones legales, redes sociales — es un mal uso que socava la confianza en estas herramientas.

Para una discusión más amplia sobre estos temas, consulta nuestro artículo sobre ética de la clonación de voz 2026 y nuestra reflexión sobre la ética de la clonación de voz para memoriales.

¿Qué Plataforma Es la Adecuada para Ti?

Situación	Punto de Partida Recomendado
Usuario de iPhone o Mac, angloparlante, presupuesto limitado	Apple Personal Voice — gratuito, en el dispositivo, buena calidad
Diagnóstico de ELA/ENM, usando Tobii Dynavox o Grid 3	Acapela My-own-voice — compatible con logopeda, salida SAPI5
Deterioro del habla ya significativo	VocaliD — el enfoque de mezcla de donante funciona con audio limitado
Desarrollador creando una aplicación de accesibilidad	API de ElevenLabs — integración más rápida, buena documentación
Usuario de Windows que necesita enrutamiento flexible en llamadas	VoxBooster — salida de micrófono virtual, sin controlador de kernel
Prelaringectomía, cualquier plataforma	Empieza con Apple Personal Voice O Acapela; graba 4 semanas antes de la cirugía

Preguntas Frecuentes

¿Qué es la clonación de voz para accesibilidad?

La clonación de voz para accesibilidad utiliza IA para crear una versión sintética de la voz de una persona a partir de grabaciones de audio. Las personas con ELA, laringectomía u otras condiciones que afectan el habla usan su voz clonada a través de dispositivos AAC, lectores de pantalla o aplicaciones TTS para seguir comunicándose con una voz que suena como la suya.

¿Cuántas muestras de voz necesita Apple Personal Voice?

Apple Personal Voice (iOS 17 y macOS Sonoma o posterior) requiere que leas aproximadamente 150 frases en voz alta. El proceso toma entre 15 y 30 minutos en total y el modelo se entrena en el dispositivo, lo que significa que tus datos de voz nunca salen de tu iPhone o Mac.

¿Puede funcionar la clonación de voz para alguien que ya perdió su voz?

Solo si existen grabaciones de la voz de la persona antes de la pérdida. Por eso se recomienda fuertemente el banco de voz lo antes posible tras un diagnóstico de ELA, ENM u otra condición progresiva. VocaliD, Acapela My-own-voice y servicios similares pueden crear un modelo a partir de 20 minutos a varias horas de discurso pregrabado.

¿Está cubierta por el seguro la clonación de voz para accesibilidad?

Algunos dispositivos AAC y el software asociado pueden ser financiados a través de Medicare, Medicaid o seguros privados en EE. UU., y mediante programas del NHS en el Reino Unido. El servicio de clonación en sí suele ser un coste separado. Organizaciones como la ALS Association a veces ofrecen subvenciones. Consulta siempre con un logopeda especializado en AAC.

¿Cuál es la diferencia entre banco de voz y clonación de voz?

El banco de voz suele referirse a grabar una biblioteca de frases que se unen fonéticamente — un enfoque concatenativo. La clonación de voz construye un modelo neuronal a partir de las grabaciones y puede generar cualquier texto con una versión natural de la voz original. La clonación suele sonar más natural en frases nuevas.

¿Puedo usar mi voz clonada con un lector de pantalla o en Windows?

Algunas plataformas exponen una voz clonada como sintetizador SAPI5 (Windows) o compatible con NVDA. VoxBooster puede enrutar una voz clonada a cualquier aplicación a través de un micrófono virtual, lo cual es una solución flexible cuando la integración directa con SAPI5 no está disponible.

¿Cuánto tiempo tarda en clonarse una voz para uso de accesibilidad?

Con la síntesis de voz por IA moderna, un modelo utilizable puede estar listo en minutos a pocas horas a partir de tan solo 20–30 minutos de audio limpio. Apple Personal Voice procesa el modelo durante la noche en el dispositivo. Las plataformas empresariales para AAC suelen tardar entre 1 y 3 días hábiles.

Conclusión

La clonación de voz para accesibilidad se ha convertido en uno de los casos más claros en que la tecnología de IA aporta valor humano significativo. Ya seas una persona con ELA guardando tu voz antes de que cambie, alguien preparándose para una laringectomía, o un cuidador que ayuda a un familiar a configurar software AAC — las herramientas están disponibles, el proceso está documentado y el resultado es preservar una parte fundamental de la identidad humana.

El consejo práctico: empieza pronto, graba con audio limpio, elige una plataforma adaptada a tu ecosistema de dispositivos y trabaja con un logopeda cuando sea posible. Personal Voice es la respuesta correcta para usuarios de iPhone y Mac que necesitan un punto de partida gratuito. Acapela y VocaliD son las opciones profesionales para integración con hardware AAC. ElevenLabs cubre los casos de uso de desarrolladores. VoxBooster llena el vacío de enrutamiento en Windows cuando otras herramientas no se conectan directamente a tus aplicaciones.

Si quieres explorar cómo se ve el TTS de voz personal en un entorno Windows, VoxBooster ofrece una prueba gratuita de 3 días sin tarjeta de crédito requerida. Para el lado clínico de la preservación de voz, lee nuestra guía detallada sobre banco de voz para pacientes médicos.