OpenAI lanza GPT-5.3-Codex-Spark, un modelo de IA optimizado para programar a más de 1.000 tokens por segundo
por Edgar OteroOpenAI ha presentado GPT-5.3-Codex-Spark, una versión reducida de GPT-5.3-Codex (curiosamente, una versión por encima del modelo general, GPT-5.2) diseñada específicamente para programación en tiempo real. El modelo es capaz de generar más de 1.000 tokens por segundo cuando se ejecuta en hardware de baja latencia, permitiendo a los desarrolladores ver resultados casi instantáneamente mientras trabajan en Codex.
Este lanzamiento marca el primer resultado de la asociación entre OpenAI y Cerebras anunciada en enero. Codex-Spark se ejecuta sobre el Wafer Scale Engine 3 de Cerebras, un acelerador de IA específicamente diseñado para inferencia de alta velocidad. La compañía ha lanzado el modelo como una preview de investigación para usuarios de ChatGPT Pro mientras amplía la capacidad de los centros de datos y mejora la experiencia de usuario.
Rendimiento y características técnicas
Según la propia OpenAI, Codex-Spark está optimizado para trabajo interactivo donde la latencia importa tanto como la capacidad del modelo. Permite colaborar en tiempo real, interrumpir o redirigir el trabajo del modelo mientras está en marcha e iterar rápidamente con respuestas casi instantáneas. Por defecto, el modelo realiza ediciones mínimas y específicas y no ejecuta pruebas automáticamente a menos que se solicite explícitamente.
En los benchmarks SWE-Bench Pro y Terminal-Bench 2.0, que evalúan capacidades de ingeniería de software, GPT-5.3-Codex-Spark demuestra un rendimiento sólido, completando las tareas en una fracción del tiempo comparado con GPT-5.3-Codex completo. En Terminal-Bench 2.0 alcanza un 58.4% de precisión, frente al 77.3% del modelo completo y el 46.1% de GPT-5.1-Codex-mini.
OpenAI también ha implementado mejoras de latencia que beneficiarán a todos sus modelos. La compañía ha reducido el overhead por ida y vuelta entre cliente y servidor en un 80%, el overhead por token en un 30%, y el tiempo hasta el primer token en un 50% mediante una conexión WebSocket persistente y optimizaciones en su stack de inferencia.
El modelo cuenta actualmente con una ventana de contexto de 128k tokens y solo procesa texto. Durante la preview de investigación, tendrá límites de uso independientes que pueden ajustarse según la demanda. Codex-Spark está disponible en las últimas versiones de la aplicación Codex, CLI y extensión de VS Code para usuarios de ChatGPT Pro, además de estar accesible vía API para un grupo reducido de partners de diseño.
Fin del Artículo. ¡Cuéntanos algo en los Comentarios!



