The lethal trifecta describes any AI agent that simultaneously accesses private data, consumes untrusted content, and can talk to external systems. Combine those three abilities and a hidden instruction inside a web page, email, or PDF can trick the agent into exfiltrating everything it can touch. La tríada letal describe a cualquier agente de IA que acceda a datos privados, consuma contenido no confiable y pueda hablar con sistemas externos al mismo tiempo. Al combinar esas tres habilidades, una instrucción oculta en una web, correo o PDF puede engañar al agente para exfiltrar todo lo que toca. A tríade letal descreve qualquer agente de IA que acessa dados privados, consome conteúdo não confiável e consegue falar com sistemas externos ao mesmo tempo. Ao combinar essas três habilidades, uma instrução escondida em uma página, e-mail ou PDF consegue enganar o agente e exfiltrar tudo o que ele acessa.

The Lethal Trifecta Diagram Access to Private Data Exposure to Untrusted Content Ability to Communicate Out
The lethal trifecta diagram showing the overlap of private data access, untrusted content, and external communication. Diagrama de la tríada letal que muestra la superposición de acceso a datos privados, contenido no confiable y comunicación externa. Diagrama da tríade letal mostrando a sobreposição de acesso a dados privados, conteúdo não confiável e comunicação externa.

The Three Overlapping Capabilities Las tres capacidades superpuestas As três capacidades sobrepostas

Access to private data is the superpower organizations want most. Unfortunately, it means any hijacked agent inherits visibility into CRM notes, contracts, support transcripts, or code repositories. El acceso a datos privados es el superpoder que más desean las organizaciones. Lamentablemente, también significa que cualquier agente secuestrado hereda visibilidad a notas de CRM, contratos, conversaciones de soporte o repositorios de código. O acesso a dados privados é o superpoder mais desejado pelas empresas. Infelizmente, isso também quer dizer que qualquer agente sequestrado herda visibilidade sobre notas de CRM, contratos, atendimentos ou repositórios de código.

Exposure to untrusted content is inevitable because we ask agents to summarize websites, triage inboxes, and read attachments. Each source can smuggle its own instructions next to the legitimate text. La exposición a contenido no confiable es inevitable porque pedimos a los agentes que resuman sitios web, clasifiquen bandejas de entrada y lean adjuntos. Cada fuente puede colar sus propias instrucciones junto al texto legítimo. A exposição a conteúdo não confiável é inevitável porque pedimos aos agentes para resumirem sites, triagem caixas de entrada e ler anexos. Cada fonte pode contrabandear instruções ao lado do texto legítimo.

External communication completes the loop. If the agent can email, post to chat, trigger webhooks, or call third-party APIs, it has everything required to deliver stolen data to an adversary. La comunicación externa cierra el ciclo. Si el agente puede enviar correos, publicar en chats, disparar webhooks o llamar APIs de terceros, tiene todo lo necesario para entregar los datos robados a un adversario. A comunicação externa fecha o ciclo. Se o agente pode enviar e-mails, postar em chats, disparar webhooks ou chamar APIs de terceiros, ele tem tudo para entregar os dados roubados a um adversário.

Why Instructions in Content Win Por qué ganan las instrucciones en el contenido Por que as instruções no conteúdo vencem

LLMs do not reliably separate directives that came from their operators versus directives embedded in user-supplied content. Tokens all land in the same prompt, so a realistic sounding instruction from a web page carries as much weight as your carefully crafted guardrail. Los LLM no separan de forma confiable las directrices que vienen del operador de las que están embebidas en contenido del usuario. Todos los tokens terminan en el mismo prompt, así que una instrucción verosímil desde una web pesa tanto como tu guardrail cuidadosamente diseñado. LLMs não separam de forma confiável as diretrizes vindas do operador das que estão embutidas no conteúdo do usuário. Todos os tokens caem no mesmo prompt, então uma instrução convincente de uma página vale tanto quanto sua barreira cuidadosamente escrita.

Telling the model to ignore hostile instructions only lowers the probability of failure. Attackers rewrite, translate, and obfuscate commands, and the non-deterministic nature of inference ensures that a single successful run can be enough to leak data. Pedirle al modelo que ignore instrucciones hostiles solo reduce la probabilidad de fallo. Los atacantes reescriben, traducen y ofuscan órdenes, y la naturaleza no determinista de la inferencia asegura que un solo intento exitoso puede bastar para filtrar datos. Mandar o modelo ignorar instruções hostis apenas reduz a probabilidade de falha. Atacantes reescrevem, traduzem e ofuscam comandos, e a natureza não determinística da inferência garante que um único sucesso pode ser suficiente para vazar dados.

Evidence from Recent Incidents Evidencia desde incidentes recientes Evidências de incidentes recentes

Security researchers have repeatedly demonstrated data theft against assistants such as Microsoft 365 Copilot, GitHub's Model Context Protocol servers, GitLab Duo, Google Bard, Slack AI, and NotebookLM. Investigadores de seguridad han demostrado repetidamente robo de datos contra asistentes como Microsoft 365 Copilot, los servidores MCP de GitHub, GitLab Duo, Google Bard, Slack AI y NotebookLM. Pesquisadores de segurança demonstraram repetidamente roubo de dados contra assistentes como Microsoft 365 Copilot, servidores MCP do GitHub, GitLab Duo, Google Bard, Slack AI e NotebookLM.

Each disclosure followed the same choreography: a tainted document or website injected instructions, the agent grabbed internal data using its tools, and it exfiltrated the results over email, chat, or an API request. Cada divulgación siguió la misma coreografía: un documento o sitio contaminado inyectó instrucciones, el agente tomó datos internos con sus herramientas y los exfiltró por correo, chat o una solicitud API. Cada divulgação seguiu a mesma coreografia: um documento ou site contaminado injetou instruções, o agente coletou dados internos com suas ferramentas e os exfiltrou via e-mail, chat ou requisição API.

Everyday Scenarios Escenarios cotidianos Cenários cotidianos

A customer-support co-pilot that reads inboxes, retrieves CRM histories, and emails customers hits all three sides of the triangle. A single hostile email can order it to forward billing exports to an attacker-controlled address. Un copiloto de soporte que lee bandejas de entrada, recupera historiales de CRM y envía correos a clientes toca los tres lados del triángulo. Un único correo hostil puede ordenarle reenviar exportaciones de facturación a una dirección controlada por el atacante. Um copiloto de suporte que lê caixas de entrada, recupera históricos de CRM e envia e-mails para clientes toca os três lados do triângulo. Um único e-mail hostil pode ordená-lo a reenviar exportações de faturamento para um endereço controlado pelo invasor.

A finance assistant that summarizes spreadsheets from a shared drive and posts updates into Slack can be tricked by a booby-trapped workbook to leak vendor payment data into a public channel. Un asistente financiero que resume hojas de cálculo en una carpeta compartida y publica actualizaciones en Slack puede ser engañado por un archivo manipulado para filtrar datos de pagos de proveedores en un canal público. Um assistente financeiro que resume planilhas de uma pasta compartilhada e posta atualizações no Slack pode ser enganado por uma planilha armadilha para vazar dados de pagamentos de fornecedores em um canal público.

A developer bot that clones repositories, reads READMEs, and files tickets gains enough capabilities to exfiltrate secrets if a repository inserts instructions telling it to publish environment variables in a new issue. Un bot para desarrolladores que clona repositorios, lee READMEs y crea tickets obtiene suficientes capacidades para exfiltrar secretos si un repositorio inserta instrucciones que le digan publicar variables de entorno en un nuevo issue. Um bot para desenvolvedores que clona repositórios, lê READMEs e abre tickets ganha capacidades suficientes para exfiltrar segredos se um repositório inserir instruções pedindo para publicar variáveis de ambiente em um novo issue.

Key Takeaways Puntos clave Pontos Principais

  • Never deploy an agent that satisfies all three elements without layering isolation, approvals, and runtime monitoring. Nunca implementes un agente que cumpla los tres elementos sin aislamientos, aprobaciones y monitoreo en tiempo real. Nunca coloque em produção um agente que cumpra os três elementos sem camadas de isolamento, aprovações e monitoramento em tempo real.
  • Treat every external artifact—emails, docs, websites, screenshots—as a potential instruction set written by an adversary. Trata cada artefacto externo—correos, documentos, sitios web, capturas—como un posible conjunto de instrucciones escrito por un adversario. Trate todo artefato externo—e-mails, documentos, sites, capturas—como um possível conjunto de instruções escrito por um adversário.
  • Review your connectors and outbound tools with the same rigor as human-access policies, because they become part of the attack surface. Revisa tus conectores y herramientas de salida con el mismo rigor que las políticas de acceso humanas, porque forman parte de la superficie de ataque. Revise seus conectores e ferramentas de saída com o mesmo rigor das políticas de acesso humanas, pois eles viram parte da superfície de ataque.

Closing Thoughts Reflexión final Reflexão Final

Break the triangle and the threat collapses. Remove access to private data, sanitize untrusted inputs, or lock down outbound channels with policy-aware enforcement and detailed telemetry, and you prevent attackers from turning helpful agents into turnkey exfiltration tools. Rompe el triángulo y la amenaza se derrumba. Quita el acceso a datos privados, desinfecta las entradas no confiables o bloquea los canales de salida con políticas y telemetría detallada, y evitarás que los atacantes conviertan agentes útiles en herramientas de exfiltración. Quebre o triângulo e a ameaça desaba. Remova o acesso a dados privados, higienize entradas não confiáveis ou bloqueie canais de saída com políticas e telemetria detalhada, e você impede que invasores transformem agentes úteis em ferramentas de exfiltração.

Talk with ForkSec Habla con ForkSec Converse com a ForkSec