La clonación de voz mediante inteligencia artificial ha abierto un nuevo campo para las estafas y conforme se ha ido perfeccionando esta tecnología, se ha ido complicando el poder detectar cuándo estamos ante un deepfake y cuándo no. Sin embargo, hay huellas algorítmicas que pueden ayudarnos en esta tarea.
"A medida que los modelos se perfeccionan, las señales de detección se vuelven más sutiles", explica Josep Curto, profesor de los Estudios de Informática, Multimedia y Telecomunicación de la Universitat Oberta de Catalunya (UOC), quien, no obstante, indica que es posible dar con la trampa.
Así, advierte de que la mayor parte de los deepfakes de voz fallan en cómo suena la conversación: "la prosodia (entonación, acento, ritmo, intensidad), las pausas, las latencias". El problema reside en que en una llamada urgente, un supuesto aviso del banco o una videollamada improvisada, no suelen percibirse estas anomalías si no se saben qué observar y cómo comprobarlo en el momento.
La clave para evitar ser engañados pasa por ser capaz de distinguir posibles problemas de conexión de la red de las imperfecciones algorítmicas. "En una mala conexión, el sonido fluctúa y el desfase audio/vídeo es errático, mientras que en el contenido sintético, los "fallos" tienden a ser consistentes: entonación plana o saltos de tono improbables, pausas colocadas donde la gramática no las espera, latencias de respuesta demasiado iguales", detalla. Lo mismo ocurre con las videollamadas, donde "hay microseñales del rostro como parpadeo, sombras, detalles del cabello y de las orejas" y cuando se trata de IA "aparecen pequeñas incoherencias visuales que no se explican por compresión o ancho de banda", matiza este experto.
Para un test en directo, este profesor de la UOC aconseja solicitar a nuestro interlocutor que repita una frase inesperada, hacer ruido dando una palmada frente al micrófono o tecleando fuerte o intercalar interrupciones cortas para forzar la variación en la prosodia. "Si persiste la entonación antinatural o las latencias constantes, hay que sospechar", indica, al tiempo que recomienda "devolver la llamada a un número verificado" y, si la hubiera, "comprobar la palabra clave acordada previamente para autentificar".
Asimismo, Curto detalla las cinco señales que en tiempo real nos pueden alertar de que estamos ante una voz creada con IA.
1. Prosodia no natural y entonación plana: La voz falsa no fluye emocionalmente: se producen pausas uniformes o mal situadas, tonos monótonos o saltos abruptos. Cuando hay mala red, pueden oírse cortes, pero al volver la señal, el acento y la entonación de base suenan humanos.
2. Artefactos espectrales ("metal", clics finales): Hay que fijarse se se produce algún tipo de siseo o brillo anómalo en colas de palabra o si el audio resulta demasiado limpio para el entorno.
3. Desajuste labios-voz en videollamada: Hemos de sospechar si hay un retraso constante o microanomalías, como labios que "flotan" sobre los dientes. Cuando hay problemas de conexión puede haber desfase, pero el movimiento facial sigue siendo orgánico.
4. Microgestos extraños: En las videollamadas falsas, el parpadeo es escaso, la mirada fija, y las sombras e iluminación son planas. También puede haber píxeles raros en el cabello y las orejas. Estos pequeños detalles son propios de la IA, pues cuando hay mala red se producen congelaciones o macropixelado.
5. Latencia sospechosa: Otros aspectos que debe hacernos sospechar son las demoras demasiado regulares o los cambios bruscos sin motivo, pues los modelos tardan un tiempo fijo en "escupir" la respuesta completa.
Detectores: últiles, pero no infalibles
Para detectar este tipo de fraudes existen herramientas basadas en el análisis forense de artefactos que los modelos de IA aún no han aprendido a eliminar. Sin embargo, si bien son útiles, este profesor de la UOC advierte de que no son mágicas. Este tipo de sistemas analiza rasgos acústicos para reconocer patrones de entrenamiento de la Inteligencia Artificial. En este grupo están ASVspoof Challenges, como Logical Access LA y Physical Access PA); herramientas para medios como VerificAudio); y detectores de plataformas como ElevenLabs).
Cómo proteger nuestra voz
Desde la UOC lanzan también una serie de consejos para proteger nuestra voz, con el fin de que se no sea utilizada en actos fraudulentos. En este contexto apuntan cuatro claves:
- Consentimiento y privacidad: No se deben compartir grabaciones sin propósito claro. En entornos corporativos, hay que exigir el consentimiento para grabar/analizar la biometría vocal; y conviene revisar los asistentes (Alexa/Google) y desactivar el almacenamiento continuo y la función de "ayudar a mejorar el servicio".
- MFA (autenticación multifactor) para la constatación vocal: Es aconsejable establecer un "Código de Seguridad" o "Frase Anti-Deepfake" que sea inesperada, rotativa y contextual.
- Gestionar la huella vocal pública: Se debe limitar la publicación de audios largos y nítidos en abierto. Si se publican, se recomienda bajar el bitrate (cantidad de datos procesados por segundo medidos en kbps) o añadir música de fondo.
- Tecnologías de anulación/ruido blanco: Por último, aunque son caros, de alcance limitado y pueden estar sometidos a restricciones legales, se puede recurrir a dispositivos como HARP Speech Protector o software con ultrasonidos/ruido de banda ancha que interfieren con micrófonos.
En resumen este profesor de los Estudios de Informática, Multimedia y Telecomunicación de la (UOC) precisa que la mejor defensa ante este tipo de fraudes se basa en el propio "escepticismo humano", la "verificación a través de un segundo canal" y en tratar de reducir la "huella pública de la voz".
Síguenos en Google Discover y no te pierdas las noticias, vídeos y artículos más interesantes
Síguenos en Google Discover