OpenAI abre un programa público de recompensas para detectar abusos y fallos de seguridad en sus sistemas de IA

por Edgar Otero 27/03/2026

OpenAI ha lanzado un nuevo programa público de recompensas por fallos centrado en riesgos de seguridad y abuso vinculados a sus productos de inteligencia artificial. La iniciativa amplía el alcance del programa tradicional de ciberseguridad y abre la puerta a que investigadores externos reporten problemas que no encajan en una vulnerabilidad clásica, pero que sí pueden derivar en daños reales para usuarios, plataformas o terceros.

La novedad es relevante porque refleja cómo está cambiando el mapa de riesgos en la IA. Ya no se trata solo de proteger servidores, cuentas o aplicaciones frente a ataques convencionales, sino de vigilar comportamientos emergentes en sistemas capaces de actuar, navegar, recuperar información o ejecutar tareas en nombre del usuario. En ese contexto, OpenAI está reconociendo que parte de esa supervisión tendrá que apoyarse también en la comunidad externa de seguridad.

El programa, que la compañía describe una vez con el término bug bounty, pone el foco en varios escenarios concretos. Entre ellos destacan los riesgos agénticos, como los casos en los que texto malicioso de terceros logra secuestrar el comportamiento de un agente para forzarlo a realizar acciones dañinas o a filtrar información sensible. También entran vulnerabilidades relacionadas con la exfiltración de datos, la exposición de información propietaria de OpenAI o la manipulación de señales de integridad de cuenta y plataforma.

Los agentes empiezan a marcar la agenda de seguridad en IA

La parte más significativa del anuncio está precisamente en ese énfasis sobre productos agénticos. OpenAI menciona escenarios en los que un atacante puede lograr que un agente interprete instrucciones externas como válidas y actúe contra los intereses del usuario. Es un tipo de problema distinto al de una simple respuesta inapropiada del modelo: aquí el riesgo aparece cuando la IA tiene capacidad de operar sobre páginas web, datos personales o flujos automatizados.

Este planteamiento sugiere que la industria empieza a tratar la seguridad de la IA como algo más cercano a la protección de plataformas complejas que a la mera moderación de contenido. Cuanto más integrados estén estos sistemas en tareas reales, mayor será la necesidad de detectar rutas de abuso reproducibles, evaluar daños plausibles y corregir fallos antes de que escalen. En ese sentido, OpenAI está externalizando parte de esa detección para ampliar cobertura en una superficie técnica cada vez más amplia.

Una señal de hacia dónde se mueve la seguridad del sector

El programa también delimita qué considera OpenAI prioritario. Quedan fuera, por ejemplo, los jailbreaks genéricos sin impacto claro en seguridad o abuso, mientras que sí se valoran fallos con una vía directa hacia daño tangible y con medidas concretas de corrección. La selección del alcance importa porque deja ver que la empresa quiere centrar recursos en problemas operativos, verificables y con consecuencias materiales, no solo en desvíos llamativos del comportamiento del modelo.

Más allá de OpenAI, el anuncio funciona como una señal para el conjunto del sector. A medida que la IA se va generalizando, la seguridad deja de ser un tema limitado al entrenamiento del modelo o a sus filtros de respuesta. Pasa a incluir cuentas, automatización, memoria, agentes y acceso a servicios conectados. Que la startup abra un programa específico para estos casos podría ser un indicativo de que la seguridad en IA ya se está profesionalizando como una disciplina propia, con herramientas, incentivos y procesos cada vez más parecidos a los de la ciberseguridad moderna.

Fin del Artículo. ¡Cuéntanos algo en los Comentarios!