Durante la conferencia Black Hat USA 2025, la firma de ciberseguridad Zenity Labs presentó una sofisticada técnica de explotación llamada AgentFlayer. Permite que agentes tipo ChatGPT, Copilot Studio, Salesforce Einstein, Google Gemini y otros, sean manipulados sin que el usuario haga absolutamente nada —ni abrir enlaces ni interactuar con algún archivo— solo con tener su correo electrónico .
En el caso de ChatGPT, se aprovecha su función Connectors que permite vincular servicios como Google Drive, SharePoint o GitHub. Mediante un documento aparentemente inocuo «poisoned document» que el usuario sube para que el modelo lo resuma, se esconde un «prompt» malicioso (texto blanco en tamaño uno, indetectable a simple vista). Ese prompt instruye al agente para buscar datos sensibles (como API keys) y exfiltrarlos a través de una URL embebida en markdown, aprovechando que ChatGPT renderiza imágenes desde URLs externas .
Zenity demostró que con solo compartir ese documento y conocer el correo de la víctima, el atacante puede acceder a chats anteriores, archivos vinculados, ¡incluso controlar respuestas del modelo!  .
Otros agentes resultaron igualmente vulnerables: Salesforce Einstein fue manipulado para corromper flujos de CRM mediante contextos ocultos (técnica prompt mines), mientras que Microsoft Copilot, Cursor+Jira, y Google Gemini también mostraron puertas de entrada similares
El fallo ya está corregido, pero la vigilancia sigue siendo clave
Tras la investigación conjunta llevada a cabo por Zenity y otros actores del sector, las principales plataformas afectadas han aplicado las correcciones necesarias. OpenAI actuó con rapidez y parcheó la vulnerabilidad en ChatGPT, mientras que Microsoft confirmó que Copilot ya no es vulnerable gracias a mejoras continuas en sus sistemas de control y acceso. Salesforce también solucionó el fallo reportado, y en el caso de Einstein se tienen indicios claros de que el problema fue resuelto a partir del 11 de julio de 2025. En conjunto, estas acciones han eliminado el riesgo inmediato para los usuarios. Aunque el peligro ha sido neutralizado, este incidente subraya la importancia de mantener una vigilancia constante ante posibles nuevas vías de explotación
¿Qué implica técnicamente esta clase de ataque?
A) Expansión del «attack surface» a través de agentes AI
Cada nuevo servicio conectado —Drive, SharePoint, GitHub, CRM, etc.— amplía la superficie de ataque. Si el agente ejecuta prompts indetectables o respuestas visuales (como imágenes) sin validación rígida, se abren brechas críticas.
B) Fallos en la desinfección de prompts y en filtros
Aunque ChatGPT aplica una función de filtrado (url_safe) a URLs externas, Zenity halló que era posible evitar esa validación usando Azure Blob Storage, que escapaba del bloque . En general, los sistemas basados en «deny lists» son frágiles ante variaciones semánticas y técnicas de evasión.
C) Persistencia en memoria y manipulación
Al infiltrarse con prompts ocultos, un atacante puede alterar permanentemente el contexto o comportamiento de agentes como Copilot o Einstein, logrando persistencia en memoria y control de funcionamiento.