AI Alert
Riesgos de IA generativa: una taxonomía práctica para equipos de seguridad y operaciones
analysis

Riesgos de IA generativa: una taxonomía práctica para equipos de seguridad y operaciones

Los riesgos de IA generativa abarcan inyección de prompts, envenenamiento de datos, vulnerabilidades de cadena de suministro, alucinación y fallas de gobernanza. Análisis técnico de las categorías principales con prioridades de mitigación.

Por AI Alert Desk · · 8 min de lectura

Los riesgos de IA generativa han pasado de preocupación teórica a incidente documentado en el lapso de dos años. Con el 88% de las organizaciones corriendo IA en al menos una función de negocio, y solo el 24% teniendo un marco de gobernanza robusto que lo acompañe, la brecha entre velocidad de despliegue y postura de seguridad se ensancha. Los equipos de seguridad necesitan un mapa claro de cuáles son realmente las amenazas —no un resumen de marketing, sino la taxonomía de trabajo que informa decisiones de arquitectura, alcance de pen test y evaluación de proveedor—.

Cómo se estructuran las categorías de riesgo

Dos marcos definen el campo. NIST AI 600-1, publicado en julio de 2024 como complemento del AI RMF más amplio, identifica 12 categorías de riesgo específicas a sistemas de IA generativa —incluyendo confabulación, violaciones de privacidad de datos, sesgo dañino, manipulación humana, fallas de integridad de información y mal uso para generar contenido malicioso—.

El OWASP Top 10 para aplicaciones LLM, actualizado para 2025, aborda el mismo espacio desde un ángulo ofensivo: ¿dónde están las debilidades explotables? Las dos listas se solapan sustancialmente pero tienen orientaciones distintas. NIST es lenguaje de gestión de riesgo; OWASP es lenguaje de vulnerabilidad.

Las categorías prácticas se dividen en cuatro zonas operacionales: manipulación de modelo, exposición de datos, cadena de suministro y falla de gobernanza.

Manipulación de modelo: inyección de prompts y envenenamiento

La inyección de prompts es OWASP LLM01 —el riesgo principal— y ha mantenido esa posición en las ediciones 2023 y 2025 porque los incidentes siguen llegando. En un ataque de inyección directa, un usuario adversario construye entrada que anula instrucciones del sistema. En la inyección indirecta, contenido malicioso embebido en un documento, correo o página web que el modelo recupera secuestra la sesión sin interacción directa adversaria del usuario. La segunda variante es más peligrosa en contextos agénticos: un modelo con acceso a correo, calendario y APIs internas está expuesto a inyección mediante cada pieza de contenido que lee.

El envenenamiento de datos apunta al pipeline de entrenamiento o fine-tuning en lugar del tiempo de inferencia. Investigación publicada en 2025 encontró que corromper tan poco como 0.001% de los tokens de entrenamiento médico aumentó las salidas dañinas del modelo en 4.8%. En modelos de generación de código, 3% de datos envenenados produjo 41% de tasa de éxito de ataque para salidas con backdoor.

Exposición de datos y riesgos de privacidad

La brecha de datos de IA generativa más común no es un ataque sofisticado —es un empleado pegando información confidencial en una herramienta de IA pública—. La investigación de Proofpoint encontró que el 77% de los empleados empresariales que usan IA han pegado datos de la empresa en una consulta de chatbot; el 22% de esas entradas incluyó datos personales o financieros confidenciales.

La extracción de datos de entrenamiento es el reverso técnico de esto. Un modelo entrenado con datos sensibles —código interno, registros de clientes, documentos propietarios— puede filtrar esa información mediante prompts suficientemente dirigidos. NIST AI 600-1 clasifica esto como un riesgo de privacidad de datos y recomienda técnicas de privacidad diferencial, auditorías de datos de entrenamiento, y controles contractuales sobre retención de datos con proveedores de IA.

OWASP LLM02 (Divulgación de Información Sensible) cubre el lado de runtime: modelos sacando a la superficie datos personales, claves API, o detalles de configuración interna mediante consultas conversacionales normales. La filtración del prompt de sistema (OWASP LLM07) es un modo de falla relacionado que ha aparecido en múltiples despliegues comerciales.

Riesgos de cadena de suministro e infraestructura

La IA generativa introduce riesgo de cadena de suministro en cada capa: fuentes de datos de entrenamiento, modelos base preentrenados, datasets de fine-tuning, librerías de inferencia y hosting de modelos de terceros. OWASP LLM03 cubre esta clase. Un modelo base comprometido o con backdoor puede propagarse mediante cualquier fine-tuning que se construya sobre él. Los modelos maliciosos distribuidos mediante repositorios públicos —Hugging Face ha documentado varios incidentes— pueden ejecutar código arbitrario mediante formatos de deserialización inseguros como pickle durante la carga del modelo, antes de que ocurra cualquier inferencia.

La superficie de dependencia también incluye bases de datos vectoriales (OWASP LLM08), pipelines de recuperación RAG y modelos de embeddings. Un atacante que pueda manipular documentos recuperados influencia las salidas del modelo sin tocar el modelo mismo. Este es el mecanismo detrás de los ataques de envenenamiento RAG.

OWASP LLM10 —Consumo Sin Límites— aborda el final de abuso de infraestructura: modelos invocados a escala para agotar presupuestos de cómputo, disparar denegación de servicio, o extraer información propietaria mediante muestreo de alto volumen.

Las brechas de gobernanza amplifican todos los demás riesgos

Shadow AI es el multiplicador. El 78% de los usuarios de IA en entornos empresariales traen sus propias herramientas, evadiendo procura de IT, revisión de seguridad y controles DLP. Cada integración de IA no autorizada es un canal potencial de exfiltración de datos y una superficie de inyección de prompts no monitoreada. Proofpoint estima que el uso de shadow AI añade un promedio de $670,000 a los costos de brecha de datos cuando ocurre un incidente.

NIST AI 600-1 y el checklist de gobernanza OWASP convergen en la misma prescripción: inventariar toda la IA en uso, clasificar sensibilidad de datos antes de integrar con sistemas de IA, implementar controles de acceso en la capa API del modelo, y establecer monitoreo para patrones de uso anómalos.

El 24% de las organizaciones con marcos maduros de gobernanza de IA no está operando en un entorno de amenaza fundamentalmente distinto. Tiene un inventario de activos que coincide con su exposición real.

Fuentes

  1. NIST AI 600-1: AI Risk Management Framework — Generative AI Profile
  2. OWASP Top 10 for Large Language Model Applications 2025