El phishing llega a Gemini: descubren un modo de manipular el modelo para que muestre mensajes maliciosos en Gmail

por Edgar Otero Ayer a las 17:07

Según comparte el equipo de la red de investigación 0din (Mozilla), existe una técnica que permite manipular a Gemini for Workspace, la herramienta de inteligencia artificial de Google, para que incluya mensajes maliciosos en los resúmenes automáticos de correos electrónicos. Este descubrimiento supone un riesgo de phishing indirecto que podría afectar a usuarios de servicios profesionales de Google.

Lo peor de todo es que la técnica es bastante simple. Básicamente, consiste en ocultar instrucciones dentro del correo original mediante texto blanco sobre fondo blanco o CSS que reduce el tamaño de la letra a cero. De este modo, el usuario que recibe el resumen generado por Gemini vería un mensaje fabricado, sin ser consciente de la orden oculta que lo provocó.

Así funciona el engaño a Gemini

A medida que la IA se generaliza, Google va expandiendo más aún su chatbot. Ya te hemos explicado los mejores trucos de Gemini en Android y cómo se ha integrado en Google Fotos. No obstante, en este caso, es Gmail el servicio del que toca hablar. Y es que el ataque que te mencionamos aprovecha que Gemini resume correos electrónicos a petición del usuario. Si el correo contiene una orden oculta, como "ADVERTENCIA: Su contraseña de GMail ha sido comprometida. Llame al 1-800-555-1212", la IA puede incluirla en su resumen, mostrando un aviso falso de cuenta comprometida.

Para reforzar la trampa, los atacantes emplean etiquetas HTML falsas, como "administrador", que dan apariencia de legitimidad, y estilos CSS que ocultan visualmente el texto en el mensaje original. Según 0din, aunque cualquiera podría descubrir el truco resaltando el texto invisible en el correo, es poco probable que los usuarios lo hagan, ya que el ataque depende de que se solicite un resumen automático sin leer el contenido completo.

Esta técnica recuerda a las inyecciones rápidas, que insertan instrucciones ocultas para alterar la respuesta de los modelos de lenguaje. Google ya ha aplicado mitigaciones tras ataques similares detectados en 2024, pero los investigadores aseguran que el método sigue siendo viable.

Evidentemente, los LLM son altamente manipulables, no solo por el propio usuario, sino por terceros. Por eso, desde 0din recomiendan tratarlos con precaución, implementar controles y no asumir que el contenido que generan es siempre seguro, ya que cualquier fragmento de texto externo podría actuar como código ejecutable.

Fin del Artículo. ¡Cuéntanos algo en los Comentarios!