Baidu afirma que su nuevo modelo de IA supera al GPT-5

Baidu lanza ERNIE-4.5-VL: el modelo open source que supera a GPT-5. Con 28 mil millones de parámetros y arquitectura de expertos, revoluciona la IA multimodal.

El gigante tecnológico chino Baidu ha lanzado un nuevo modelo de inteligencia artificial que, según afirma, supera en rendimiento a los sistemas más avanzados de OpenAI y Google. El modelo ERNIE-4.5-VL-28B-A3B-Thinking, presentado el 11 de noviembre de 2025, representa un avance significativo en las capacidades multimodales de IA y se ofrece como software de código abierto bajo licencia Apache 2.0.

Un modelo ligero con rendimiento de élite

La característica más destacada del nuevo modelo de Baidu es su eficiencia arquitectónica. ERNIE-4.5-VL-28B-A3B-Thinking cuenta con 28 mil millones de parámetros totales, pero activa únicamente 3 mil millones durante cada operación, lo que permite ejecutarse hasta en una sola GPU de 80 GB como la Nvidia A100. Esta arquitectura de Mezcla de Expertos (MoE) logra un rendimiento excepcional mientras mantiene una eficiencia computacional notable, operando entre 2 y 3 veces más rápido que modelos de estructura similar.

Según los benchmarks publicados por Baidu, el modelo supera a GPT-5 High y Gemini 2.5 Pro en 10 de 15 pruebas de referencia, particularmente en tareas de razonamiento STEM, comprensión de gráficos y análisis de video. El modelo demuestra capacidades superiores en comprensión visual, razonamiento científico y procesamiento de datos técnicos densos como diagramas de ingeniería, informes médicos y esquemas logísticos.

Capacidades multimodales avanzadas

El modelo ERNIE-4.5-VL integra capacidades de procesamiento simultáneo de texto e imágenes que lo distinguen en el mercado. Su función “Thinking with Images” permite al sistema hacer zoom en regiones específicas de una imagen, razonar sobre vistas recortadas e integrar esas observaciones locales en una respuesta final coherente. Esta capacidad resulta especialmente valiosa para aplicaciones empresariales que requieren análisis de datos visuales complejos.

Entre sus funcionalidades destacan el razonamiento visual mejorado por aprendizaje por refuerzo a gran escala, capacidades STEM potenciadas que permiten resolver problemas complejos desde fotografías, posicionamiento visual más preciso con ejecución flexible de instrucciones, y comprensión de video con capacidad de extraer subtítulos y mapearlos a marcas de tiempo precisas.

Código abierto como estrategia de mercado

A diferencia de sus competidores occidentales que mantienen modelos cerrados con acceso exclusivo mediante suscripciones o APIs de pago, Baidu ha optado por liberar ERNIE-4.5-VL bajo licencia Apache 2.0. Esta licencia permite uso comercial sin restricciones, personalización completa mediante fine-tuning con datos propietarios, y redistribución libre sin dependencia de proveedores externos.

La decisión de Baidu de ofrecer el modelo como código abierto forma parte de una estrategia más amplia del ecosistema tecnológico chino. Siguiendo el ejemplo de DeepSeek, que provocó turbulencias en Silicon Valley con su modelo de bajo costo, Baidu busca democratizar el acceso a IA de alto nivel y ganar cuota de mercado internacional.

El modelo de razonamiento ERNIE X1.1

Además del modelo multimodal, Baidu presentó en septiembre de 2025 el ERNIE X1.1, un modelo de razonamiento que también compite directamente con GPT-5 y Gemini 2.5 Pro. Este modelo registra mejoras significativas respecto a su predecesor: un incremento del 34,8% en precisión factual, 12,5% en seguimiento de instrucciones, y 9,6% en capacidades agénticas.

ERNIE X1.1 supera a DeepSeek R1-0528, el modelo de referencia en China durante meses, y se posiciona al nivel de GPT-5 y Gemini 2.5 Pro según benchmarks independientes. El modelo incorpora un marco híbrido de aprendizaje por refuerzo iterativo que combina metodologías de entrenamiento múltiples para optimizar el rendimiento en tareas complejas y mejorar la precisión y coherencia en las respuestas generadas.

Implicaciones para el mercado global

El lanzamiento de estos modelos posiciona a Baidu como un competidor serio en la carrera global de IA, desafiando la supremacía de OpenAI, Google y Anthropic. La estrategia de ofrecer modelos de alto rendimiento a precios significativamente más bajos —ERNIE 4.5 cuesta aproximadamente el 1% del precio de GPT-4.5, según Baidu— está forzando una reconfiguración del sector.

Esta competencia intensificada ha generado reacciones en Silicon Valley. OpenAI ha solicitado al gobierno estadounidense restricciones globales sobre modelos de IA “alineados con el Partido Comunista Chino”, advirtiendo que la distancia tecnológica entre Estados Unidos y China se está reduciendo rápidamente. Sin embargo, la apertura del código y los precios competitivos están acelerando la adopción de modelos chinos en mercados emergentes donde las restricciones a tecnología estadounidense son más comunes.

Ecosistema de desarrollo y disponibilidad

Baidu ha desplegado estos modelos a través de múltiples plataformas. Los usuarios pueden acceder a ERNIE X1.1 mediante Ernie Bot (interfaz web gratuita), la aplicación móvil Wenxiaoyan, y la API Qianfan de Baidu AI Cloud para integraciones empresariales. El modelo ERNIE-4.5-VL está disponible en Hugging Face y Baidu AI Studio, con soporte completo para ajuste de instrucciones (SFT, LoRA) y entrenamiento de alineación (DPO).

El ecosistema PaddlePaddle-ERNIE sirve actualmente a 23,33 millones de desarrolladores y 760.000 empresas, mientras que el asistente de codificación Baidu Comate ha soportado más de 10 millones de desarrolladores. Esta infraestructura robusta facilita la adopción empresarial y el desarrollo de aplicaciones especializadas.

Baidu planea mostrar el nuevo modelo y otras actualizaciones de IA en su evento Baidu World 2025 el 13 de noviembre en Beijing, consolidando su posición como actor clave en el panorama global de inteligencia artificial.

Actualizado el
Partager
Économia Mundial