Microsoft amplía su familia MAI con modelos de voz, transcripción e imagen, pero sigue lejos de jugar en la misma liga que OpenAI o Google

por Edgar Otero 03/04/2026Actualizado: 03/04/2026

Microsoft ha presentado tres nuevos modelos propios bajo la marca MAI. El primero es MAI-Transcribe-1 para transcripción de voz a texto, MAI-Voice-1 para generación de voz y MAI-Image-2, que ya había empezado a desplegarse en algunos servicios de la compañía. Todos ellos pasan a estar disponibles en Microsoft Foundry y forman parte del intento de la empresa por construir una pila de inteligencia artificial más propia, menos dependiente de terceros y mejor integrada en productos como Copilot, Bing o PowerPoint.

Sobre el papel, el anuncio tiene bastante sustancia técnica. MAI-Transcribe-1 se presenta como el modelo de transcripción más preciso de Microsoft en 25 idiomas de uso frecuente, con una velocidad por lotes que la compañía cifra en 2,5 veces la de su oferta Azure Fast previa. En paralelo, MAI-Voice-1 promete síntesis de voz natural con rango emocional, conservación de identidad de hablante y un rendimiento suficiente como para generar 60 segundos de audio en apenas un segundo de proceso.

El tercer pilar es MAI-Image-2, que Microsoft vuelve a empujar como su apuesta fuerte en generación visual. La compañía asegura que duplica la velocidad de generación en Foundry y Copilot manteniendo una calidad similar, y sigue insistiendo en atributos como mejor iluminación natural, tonos de piel más precisos y texto más claro dentro de las imágenes. También confirma que su despliegue seguirá extendiéndose a servicios como Bing y PowerPoint.

Microsoft mejora su catálogo propio, pero sigue llegando tarde a una carrera que ya debería estar disputando

Desde un punto de vista técnico, el movimiento es positivo. Microsoft necesita modelos propios que no se limiten a envolver tecnología ajena con una capa de producto. De hecho, ya vimos en marzo que MAI-Image-2 debutó como un modelo notable, aunque todavía por detrás de Google y OpenAI. Volver ahora con una familia más amplia de modelos indica que Microsoft quiere dar continuidad a esa línea y no dejarla como un experimento aislado.

El problema es que, a estas alturas del ciclo, Microsoft ya debería estar compitiendo con mucha más claridad contra OpenAI, Anthropic o Google en modelos propios de referencia. No hablamos de una empresa pequeña que llega tarde al mercado, sino de una compañía con recursos astronómicos, acceso privilegiado a infraestructura y una posición dominante en software empresarial. Y aun así, cuando presenta sus modelos internos, la sensación sigue siendo la de un aspirante serio, pero todavía por detrás de los líderes reales.

Este análisis no nace de lo anunciado ahora. Ya en 2024 se supo que Microsoft trabajaba en un modelo de IA independiente de GPT bajo el nombre interno de MAI, precisamente para reducir la dependencia estratégica de OpenAI. Dos años después, esa ambición sigue viva, pero aún no se traduce en una posición claramente dominante en ninguna de las grandes categorías: ni en chat generalista, ni en razonamiento, ni en imagen, ni en voz.

Mucho producto, mucha inversión y todavía demasiada dependencia

Eso no significa que la estrategia sea errónea. Al contrario, lanzar modelos de transcripción, voz e imagen para Foundry es una forma lógica de reforzar el atractivo de la plataforma para desarrolladores y empresas. Son piezas muy utilizables en producto real, especialmente en escenarios de agentes, copilotos verticales, automatización documental y experiencias multimedia. En ese sentido, Microsoft está construyendo algo útil, no solo una demo para presumir de benchmarks.

Pero sigue flotando una contradicción. Microsoft lleva meses intentando proyectar una imagen de independencia creciente respecto a OpenAI, mientras gran parte de la relevancia comercial de Copilot y del ecosistema Azure AI continúa descansando sobre modelos ajenos o sobre una mezcla de tecnologías donde la autoría real queda difusa. Estos nuevos MAI son una oportunidad para corregir eso, sí, pero también dejan claro que la empresa aún no ha convertido su inversión masiva en liderazgo técnico incuestionable.

Ahí aparece, además, una comparación interesante con Apple. Cupertino va muchísimo más atrás en la carrera de la IA, nadie lo discute, pero también ha invertido con una notable contención y sin alimentar la misma expectativa de liderazgo inmediato. Microsoft, en cambio, ha gastado y prometido a escala de primera división. Por eso sus avances propios se miden con otra vara. En este caso, no basta con que sean buenos, deberían ser claramente dominantes. Y todavía no lo son.

Con todo, la noticia de hoy no es mala para Microsoft. Suma modelos, amplía Foundry y refuerza su autonomía tecnológica en áreas con demanda real. El problema es que también confirma que el camino sigue abierto. MAI mejora, pero aún no impone el ritmo del sector. Para una compañía del tamaño de Microsoft, eso ya no debería ser una meta futura, sino algo que atañe al presente.

Fin del Artículo. ¡Cuéntanos algo en los Comentarios!