Estadísticas de Fraude por Clonación de Voz 2027

El FBI IC3 registró más de 22,000 denuncias atribuidas a IA en su Internet Crime Report 2025 — el primer año en que el organismo designó formalmente “relacionado con IA” como descriptor de delito (FBI IC3, 2025). El informe Voice Intelligence and Security Report 2025 de Pindrop documentó un aumento del 1,300% interanual en intentos de fraude deepfake en todos los sectores industriales durante 2024. La FTC documentó más de $1,900 millones en pérdidas declaradas por estafas telefónicas e impersonación en 2023, y la encuesta de consumidores de McAfee encontró que el 77% de las víctimas de deepfake de voz perdió dinero — el 36% entre $500 y $3,000 por incidente (McAfee, 2023).

El contexto latinoamericano añade una dimensión particular: el ecosistema de estafas de voz en LATAM está creciendo aceleradamente, impulsado por la proliferación de aplicaciones de mensajería de voz, la alta penetración de WhatsApp y la escasa regulación específica sobre IA generativa en la mayoría de los países de la región. Grupos de cibercrimen documentados por Interpol y agencias locales han adoptado herramientas de síntesis de voz para amplificar estafas tradicionales de vishing con resultados cada vez más convincentes.

Este artículo agrega los mejores datos disponibles de la FTC, FBI IC3, EUROPOL, ENISA, Pindrop, McAfee, Sumsub e investigaciones académicas para ofrecer una imagen precisa de la amenaza — y las defensas que se están desplegando frente a ella.

TL;DR

FBI IC3 registró 22,000+ denuncias de delitos “relacionados con IA” por primera vez en 2025 (FBI IC3, 2025).
Pindrop midió un aumento del 1,300% interanual en intentos de fraude por deepfake de voz en 2024 (Pindrop, 2025).
FTC: estafas telefónicas e impersonación superaron $1,900M en pérdidas declaradas en 2023 (FTC, 2024).
FBI IC3: Business Email Compromise causó $2,770M en pérdidas en 2024; síntesis de voz cada vez más citada (FBI IC3, 2025).
McAfee: 77% de víctimas de deepfake de voz perdió dinero; 36% perdió $500–$3,000 (McAfee, 2023).
Los humanos identifican correctamente el audio sintético solo el 60–73% de las veces en estudios controlados (PLOS One, 2023).
EUROPOL y ENISA señalan la clonación de voz como amenaza prioritaria emergente para 2025–2027.
El Artículo 50 del Reglamento de IA de la UE sobre divulgación de contenido sintético entra en vigor en agosto de 2026.

1. La Magnitud del Problema: Métricas Clave

Antes de analizar las tipologías de fraude, es útil establecer el contexto con los datos que definen la escala actual.

Métrica	Valor	Fuente
Denuncias atribuidas a IA en FBI IC3 (informe 2025)	22,000+	FBI IC3, 2025
Aumento interanual en intentos de fraude deepfake (todos los sectores, 2024)	+1,300%	Pindrop, 2025
Audio mínimo para clonar una voz	30 segundos	Pindrop, 2025
Pérdidas por estafas telefónicas/impersonación (FTC, 2023)	$1,900M+	FTC, 2024
Pérdidas por BEC/fraude CEO (FBI IC3, 2024)	$2,770M	FBI IC3, 2025
Víctimas de deepfake de voz que perdieron dinero	77%	McAfee, 2023
Víctimas que perdieron $500–$3,000 por incidente	36%	McAfee, 2023
Precisión de detección humana para audio sintético	60–73%	PLOS One, 2023
Precisión de detección biométrica comercial	94–97%	Pindrop / NICE, 2025

Fuentes principales: FBI IC3, FTC ReportFraud, Pindrop, McAfee.

La brecha entre detección humana (apenas por encima del azar) y detección biométrica comercial (94–97%) justifica la inversión empresarial en autenticación de voz — y representa la vulnerabilidad central de cualquier sistema que dependa únicamente del oído humano.

2. La Estafa del Abuelo: Clonando Voces Familiares

La estafa del abuelo es una de las tipologías de fraude de voz más emocionalmente devastadoras. Un llamante que se hace pasar por un nieto afirma estar en una emergencia — accidente de tránsito, arresto, crisis médica — y solicita una transferencia urgente o el pago con tarjetas de regalo. Antes de la síntesis de voz con IA, la estafa dependía de la impersonación vaga y el nerviosismo del estafador. Ahora, los defraudadores pueden sintetizar una copia convincente de la voz de un nieto a partir de unos pocos segundos de audio extraído de redes sociales.

La FTC ha identificado la estafa del abuelo como una categoría de denuncia persistente y en crecimiento, especialmente dirigida a adultos mayores de 60 años. Según el Consumer Sentinel Network Data Book 2023 de la FTC, las estafas de impersonación — la categoría general — fueron el segundo tipo de fraude con más pérdidas totales reportadas entre adultos mayores, con más de $700 millones perdidos por personas de 60 años o más ante fraudes de impersonación solo en 2023 (FTC, 2023).

En el contexto latinoamericano: la estafa equivalente se difunde ampliamente a través de WhatsApp y llamadas de voz móvil. La facilidad para obtener clips de voz de redes sociales como TikTok, Instagram y YouTube significa que cualquier usuario con presencia pública —o incluso con publicaciones de amigos y familiares— puede ser objetivo. Las agencias de protección al consumidor en México (Profeco), Colombia (SIC) y Argentina (Defensa del Consumidor) han comenzado a registrar variantes de esta estafa que incorporan síntesis de voz.

Medida de defensa: acordar previamente una palabra de seguridad familiar (una frase aleatoria conocida solo por la familia inmediata) y realizar una devolución de llamada en un número verificado antes de cualquier transacción financiera. En EE.UU., el portal de denuncias de la FTC en reportfraud.ftc.gov acepta quejas de todas las variantes de estafa de impersonación.

3. Fraude CEO y Business Email Compromise

El Business Email Compromise (BEC) ha evolucionado de ataques solo por correo electrónico a campañas multicanal que incluyen llamadas de voz o mensajes de voz generados con IA. Un correo electrónico convincente de un “CFO” solicitando una transferencia urgente tiene aún más peso cuando va acompañado de una llamada de seguimiento con la voz real del CFO.

El Informe de Ciberdelincuencia en Internet 2024 del FBI IC3 documentó $2,770 millones en pérdidas por BEC en 21,442 denuncias — la categoría de ciberdelincuencia con mayor pérdida en dólares que registra el organismo (FBI IC3, 2025). Si bien no todas las denuncias de BEC involucran clonación de voz, el análisis narrativo del organismo señaló un fuerte aumento en menciones de componentes de voz en los expedientes de 2023 y 2024.

El ejemplo real más citado sigue siendo el caso de febrero de 2024 de la empresa de ingeniería Arup: un empleado financiero en Hong Kong transfirió $25.6 millones después de una videollamada con deepfake que suplantó al CFO de la empresa en el Reino Unido y otros colegas senior (CNN / Policía de HK, 2024). La síntesis de audio fue parte del stack de engaño junto con deepfakes de video.

Métrica	Valor	Fuente
Pérdidas por BEC del FBI IC3 (2024)	$2,770M	FBI IC3, 2025
Denuncias BEC del FBI IC3 (2024)	21,442	FBI IC3, 2025
Pérdida por llamada deepfake de Arup (HK, feb. 2024)	$25.6M	CNN / Policía HK, 2024
BEC como proporción de pérdidas totales IC3 (2024)	Mayor categoría individual	FBI IC3, 2025

Fuente: FBI IC3 Annual Report.

La defensa empresarial se ha concentrado en dos capas: verificación verbal fuera de banda (devolver la llamada a un número previamente registrado, nunca al que llamó) y detección biométrica de actividad de voz a nivel de centro de llamadas, que puede detectar artefactos de síntesis que el oído humano no capta con una precisión superior al 94%.

4. Voice Spoofing: La Superficie de Ataque Más Amplia

La clonación de voz es un subconjunto del panorama más amplio de amenazas de voice spoofing. El Internet Organised Crime Threat Assessment (IOCTA) 2024 de EUROPOL identifica los medios sintéticos de audio y video como un facilitador transversal para el fraude, la ingeniería social, la extorsión y las operaciones de desinformación, señalando que el uso criminal de herramientas de IA “ya no es dominio exclusivo de actores a nivel estatal” (EUROPOL, IOCTA 2024).

El Threat Landscape 2024 de ENISA clasifica igualmente el audio generado por IA como un componente “significativo y creciente” de los ataques de ingeniería social, señalando que la calidad de la síntesis ha avanzado al punto en que los artefactos distinguibles en 2022 ya no son detectables de forma confiable sin herramientas específicas (ENISA, 2024).

La taxonomía de spoofing en 2026–2027:

Tipo de ataque	Base técnica	Detectabilidad (humana)	Detectabilidad (sistema biométrico)
Impersonación simple por modulación de tono	Solo DSP	Alta	Alta
Reproducción de audio grabado	n/a (detección de actividad)	Variable	Alta
Text-to-speech en voz objetivo	Síntesis IA	Baja	Alta
Conversión de voz en tiempo real	Síntesis IA, transmisión en vivo	Baja	Media–Alta
Llamada deepfake completa (voz+video)	Síntesis multimodal	Muy baja	Alta (herramientas especializadas)

La conversión de voz en tiempo real — transformar la voz de un llamante en vivo a la voz del objetivo — es lo que amplía la amenaza de la creación de contenido (producir un clip falso) al fraude en vivo (ser la persona falsa en tiempo real). Esta es la variante más relevante para el fraude en centros de llamadas, la estafa del abuelo y las llamadas de voz BEC.

5. Panorama Regional: FTC, FBI IC3, EUROPOL y América Latina

Estados Unidos

La FTC y el FBI IC3 son las principales fuentes de datos de EE.UU. El Consumer Sentinel de la FTC recibió 2.6 millones de reportes de fraude en 2023, con las llamadas telefónicas siendo el método de contacto más común para el fraude (17% de los contactos) (FTC, 2024). Las estafas de impersonación — la categoría que más se superpone con el fraude por clonación de voz — fueron la segunda categoría de pérdidas totales más grande, y el teléfono se mantuvo como el canal dominante para eventos de impersonación con altas pérdidas.

Registre un reporte en reportfraud.ftc.gov o ic3.gov.

Unión Europea

EUROPOL señaló la síntesis de audio y video habilitada por IA como una amenaza de primer nivel en su IOCTA 2024, con especial atención al fraude dirigido al sector financiero y a víctimas mayores. El Reglamento de IA de la UE (Artículo 50) exige etiquetas de divulgación en audio y video sintéticos, con reglas que entran en vigor de forma escalonada desde agosto de 2026 (Comisión Europea, 2024). ENISA proporciona orientación a los estados miembros sobre detección de fraude de voz y ha publicado directrices técnicas para implementar autenticación biométrica de voz en sectores regulados.

Documentos de referencia: EUROPOL IOCTA 2024, ENISA Threat Landscape 2024.

América Latina: Un Ecosistema en Expansión

El ecosistema de estafas de voz en LATAM está creciendo con características propias. Los factores regionales que lo impulsan:

Alta penetración de WhatsApp: WhatsApp domina las comunicaciones móviles en toda LATAM, y su función de mensajes de voz es vector frecuente para estafas de impersonación de voz.
Sistemas de pago instantáneo: PIX en Brasil, OXXO/SPEI en México, PSE en Colombia y sistemas equivalentes permiten transferencias inmediatas que dificultan la recuperación de fondos una vez realizado el fraude.
Brecha regulatoria: la mayoría de los países latinoamericanos no tienen legislación específica sobre síntesis de voz con IA o deepfakes, dejando la aplicación principalmente a leyes de protección al consumidor de alcance limitado.
Adopción de herramientas de IA: las mismas plataformas de síntesis de voz disponibles en inglés están accesibles en español, y los actores de amenazas regionales documentados por Interpol ya las están incorporando a sus playbooks.

6. La Carrera Armamentista Biométrica

El lado de la demanda de autenticación de voz está creciendo rápidamente. Pindrop estima la exposición al fraude en los centros de contacto de EE.UU. en $44,500 millones para 2025, lo que ha impulsado la adopción empresarial de detección biométrica de voz en vivo de proveedores como Pindrop, Nuance (Microsoft), NICE Actimize y Verint. Los sistemas comerciales ahora logran una precisión de detección del 94–97% en audio sintético, aunque esa cifra va aproximadamente 24 meses por detrás de la calidad de generación (Pindrop / consenso académico, 2025).

La dinámica adversarial: a medida que mejora la detección, las herramientas de clonación se adaptan. El desarrollo más preocupante es la síntesis adversarial adaptativa — modelos ajustados específicamente para evadir clasificadores de detección conocidos añadiendo patrones de micro-variación que sortean firmas biométricas específicas. Esto aún no está extendido en kits de fraude de uso masivo (a mediados de 2026), pero el pronóstico de amenazas de ENISA para 2027 lo identifica como una progresión probable.

STIR/SHAKEN (marco de autenticación de caller ID en EE.UU.) no detecta síntesis de voz, pero dificulta la suplantación de caller ID — eliminando una capa del stack de engaño. Su adopción completa en operadoras más pequeñas y rutas internacionales sigue siendo incompleta.

7. Panorama Legislativo y Regulatorio

Jurisdicción	Instrumento	Disposición clave	Estado / fecha de vigencia
UE	Reglamento de IA, Artículo 50	Etiquetado de divulgación para audio/video sintéticos	Escalonado desde ago. 2026
UE	RGPD Artículo 9	Datos biométricos como categoría especial	En vigor
EE.UU.	FTC Act Sección 5	Impersonación engañosa mediante IA	Aplicación en curso
EE.UU.	TRACED Act	Autenticación de caller ID STIR/SHAKEN	Obligatorio para grandes operadoras, 2021
EE.UU. (California)	AB 2602, AB 1836	Réplicas de voz IA en contratos de entretenimiento	En vigor 2025
Brasil	LGPD	Marco de protección de datos biométricos	En vigor, brecha en fraude de voz
Australia	Online Safety Act 2021	Obligaciones de reporte de medios sintéticos	Enmendado 2024

La UE es la más avanzada en gobernanza de contenido sintético. Una vez que entre en vigor el Artículo 50 del Reglamento de IA, las plataformas y los implementadores deben divulgar cuándo el contenido de audio es generado por IA, lo que crea un rastro de auditoría procesable para reguladores y víctimas.

8. Detección Humana: Por Qué el Oído Solo No Es Suficiente

Un estudio de PLOS One de 2023 analizó la capacidad de los participantes para distinguir habla humana de audio sintetizado con IA en múltiples sistemas de síntesis. La tasa media de detección fue del 73% en sistemas más antiguos y cayó a aproximadamente el 60% en modelos modernos de alta calidad — apenas por encima del azar (PLOS One, 2023). En condiciones de llamada en vivo, donde la carga cognitiva es alta y el llamante aplica tácticas de presión social, el rendimiento en el mundo real probablemente caiga aún más.

La implicación práctica: las defensas orientadas al consumidor deben ser procedurales (verificación por devolución de llamada, desafío de palabra clave), no perceptuales. Asumir que se puede “escuchar” un falso es la vulnerabilidad.

9. Manual de Defensa: Qué Funciona Realmente

Para individuos

Establecer una palabra de seguridad familiar. Acuerde una frase sin sentido con familiares cercanos. Si un llamante angustiado no puede suministrarla, cuelgue y llame de vuelta en un número verificado.
Devolver la llamada en números conocidos. Nunca dependa del número que llama para la identificación.
Reportar llamadas sospechosas. reportfraud.ftc.gov (EE.UU.), ic3.gov (FBI), o el organismo nacional de protección al consumidor de su país.
Reducir su huella de audio pública. Los clips de voz en redes sociales son material de entrenamiento primario para clonación.

Para empresas

Implementar detección biométrica de voz en vivo en centros de contacto que gestionen transacciones financieras o autenticación de clientes.
Establecer confirmación verbal fuera de banda para transferencias de alto valor — una devolución de llamada en un número previamente registrado, no el número que inicia la operación.
Capacitar a empleados sobre riesgos de llamadas de voz BEC. La impersonación ejecutiva por voz ahora es un paso documentado en los playbooks de BEC (FBI IC3, 2025).
Implementar STIR/SHAKEN donde esté disponible y monitorear llamadas sin autenticar en rutas de alto riesgo.

10. Tecnología de Voz con Consentimiento: Una Nota Breve

El auge del fraude habilitado por IA de voz ha intensificado el escrutinio sobre toda la tecnología de voz IA — incluidas las aplicaciones de uso consentido y legítimo. Existe una distinción significativa entre servicios de procesamiento de voz basados en la nube que cargan grabaciones de voz a servidores de terceros sin políticas claras de retención de datos, y herramientas diseñadas para uso local con consentimiento explícito.

VoxBooster ejecuta todo el procesamiento de voz con IA localmente en Windows — no se envía audio a servidores externos. El enfoque de consentimiento primero importa: los casos de uso legítimos (clonación de voz personal para accesibilidad, entretenimiento y producción creativa) dependen de que la tecnología siga siendo de confianza. Si está evaluando herramientas de voz con IA, pregunte si el procesamiento es local o basado en la nube, quién retiene el audio de entrenamiento y si existe un marco de consentimiento explícito.

FAQ

¿Qué tan común es el fraude por clonación de voz en 2027? El fraude por clonación de voz se ha convertido en una de las categorías de ciberamenazas de más rápido crecimiento. El FBI IC3 registró más de 22,000 denuncias atribuidas a IA en su informe de 2025, y Pindrop documentó un aumento interanual del 1,300% en intentos de fraude deepfake en todos los sectores durante 2024.

¿Qué es la estafa del abuelo y cómo la facilita la clonación de voz? La estafa del abuelo consiste en que un estafador se hace pasar por un nieto en apuros y solicita una transferencia urgente. La clonación de voz con IA permite sintetizar una imitación convincente a partir de unos pocos segundos de audio público, como un clip en redes sociales, haciendo la estafa mucho más convincente.

¿Cuánto dinero se pierde anualmente por estafas de voz? La FTC reportó más de $1,900 millones en pérdidas declaradas por estafas telefónicas e impersonación en 2023. La encuesta de McAfee de 2023 encontró que el 77% de las víctimas de deepfake de voz perdió dinero, y el 36% perdió entre $500 y $3,000 por incidente.

¿Qué es el fraude CEO (BEC) y cómo lo amplifica la clonación de voz? El Business Email Compromise (fraude CEO) ahora suele incluir una llamada de seguimiento con la voz clonada de un ejecutivo. El informe FBI IC3 2024 documentó $2,770 millones en pérdidas por BEC — la mayor categoría de ciberdelincuencia individual, con síntesis de voz cada vez más citada en las narrativas.

¿Cómo puedo detectar si una llamada usa una voz clonada? Las señales de alerta incluyen urgencia inesperada, solicitudes de transferencias o tarjetas regalo, artefactos de audio (pausas antinaturales, tonalidad robótica) y caller ID que no coincide con contactos guardados. Cuelgue y llame de vuelta usando un número verificado.

¿Cuál es la diferencia entre voice spoofing y clonación de voz? El voice spoofing es la categoría amplia: cualquier técnica para suplantar una voz. La clonación de voz usa IA para generar habla nueva en la voz de un objetivo a partir de una muestra de entrenamiento. La clonación es más convincente y escalable que los métodos anteriores.

¿Qué herramientas defensivas existen contra el fraude por clonación de voz? Las defensas incluyen verificación por devolución de llamada, palabras clave familiares acordadas previamente, detección biométrica de voz en centros de llamadas, autenticación STIR/SHAKEN y el Artículo 50 del Reglamento de IA de la UE con requisitos de divulgación desde agosto de 2026.