“Alexa, pon la alarma a las ocho”, “Alexa, reproduce la película oppenheimer”o “Alexa, dime cómo estará el clima durante Semana Santa”. Todas estas interacciones con el altavoz inteligente quedan grabadas y están disponibles para cualquier usuario que las solicite a Amazon. Eso hizo la criminóloga María Aperador. Su sorpresa fue descubrir que algunos audios no iban precedidos de la palabra de activación, “Alexa”, y así lo informó hace unos días en un vídeo en TikTok e Instagram que se ha vuelto viral. ¿Cómo es esto posible?
La política de Amazon es clara al respecto: no se almacena ni envía audio a la nube a menos que el dispositivo detecte la palabra de activación. Así lo confirma la empresa. Y añaden que el usuario sabrá cuando Alexa envía su petición a la nube mediante un indicador de luz azul o un sonido del altavoz.
En este sentido, David Arroyo, investigador del CSIC especializado en ciberseguridad y datos, ofrece una alternativa: “El sistema que tienen sólo se activa cuando alguien dice la palabra de activación. Pero, por diversos motivos, puede tener falsos positivos. Lo que tendríamos que ver allí es hasta qué punto es robusto frente a elementos que están perturbando cuál es la interpretación de esa palabra de activación”.
Los sistemas de aprendizaje automático de interpretación de voz, como los que utilizan los altavoces de Alexa o Google o Apple, incorporan dispares elementos para mejorar su funcionamiento. Pero aun así, no es una tarea fácil. “Estos sistemas están diseñados para identificar todo aquello que sea elementos de variabilidad debido a la pronunciación”, afirma Arroyo en referencia a los diferentes acentos y formas de hablar, pero también a cambios en la resonancia o reverberación de la sala en la que se ubica. el dispositivo. “Habría que conocer en detalle cuál tiene la precisión y tasa de falsos positivos del algoritmo que utiliza Amazon específicamente”.
EL PAÍS ha hablado con María Aperador para conocer un poco más las grabaciones, que duran alrededor de 6 segundos. Son fragmentos de conversaciones casuales, de ella o de personas que estuvieron en su casa. La criminóloga no ha revisado los más de 500 archivos de audio que le envió Amazon, pero de unos 50 que ha escuchado encontró dos en los que no había ninguna palabra de activación.
Un estudio realizado por investigadores de la Universidad del Ruhr en Bochum y el Instituto Max Planck para la Seguridad y la Privacidad destaca la importancia de las activaciones accidentales en los altavoces inteligentes. Tras analizar 11 dispositivos de ocho fabricantes diferentes, publicaron información de más de 1.000 activaciones involuntarias. “Estamos hablando de sistemas de reconocimiento de voz, que dependiendo de cómo se implementen pueden funcionar mejor o peor”, afirma Josep Albors, director de Investigación y Sensibilización de la firma de ciberseguridad ESET España, sobre la posibilidad de falsos positivos.
Cómo los hablantes detectan la palabra de activación
Para activar cuando escuchen la palabra Alexa o las frases “ok, Google” o “ey, Siri”, los parlantes inteligentes cuentan con un sistema que rastrea constantemente ese término. “Al final son dispositivos que están escuchando constantemente. Pero esto también lo hace teléfonos inteligentes o muchos intercomunicadores. No es exclusivo de Alexa”, afirma Albors.
Arroyo también hace esta valoración. “Cuando pones al orador en modo de espera activo, significa que está absorbiendo constantemente lo que estás hablando. No lo graba. Pero el algoritmo lo está procesando, porque tiene que ver qué palabras se dicen”.
Se trata de un algoritmo que funciona localmente, en el propio dispositivo, buscando los patrones acústicos correspondientes a la palabra de activación. Fuentes de Amazon señalan que su tecnología sólo se basa en información de ondas sonoras para detectar el término. Además, destacan que el altavoz también permite activarlo con un botón, lo que evitaría la monitorización del sonido. En el caso de las grabaciones, que se producen cuando se activa el dispositivo, los usuarios pueden optar por no almacenarlas en sus opciones de privacidad.
¿Cuál es el problema con este seguimiento permanente de la palabra de activación? Los dos especialistas en ciberseguridad coinciden en que, si el sonido fuera procesado para extraer datos más allá de la búsqueda de palabras clave, los problemas de privacidad serían muy graves. Pero también coinciden en que no hay pruebas de que así sea. “Hay muchos intereses para que esto no suceda, porque supondría la pérdida de confianza en todos los dispositivos y un perjuicio económico muy considerable para estas empresas”, afirma Albors.
puedes seguir EL PAÍS Tecnología en Facebook y X o regístrate aquí para recibir nuestra boletín semanal.



