Qwen2.5-Max de Alibaba compite con DeepSeek con ventaja
Qwen2.5-Max está diseñado para destacar en tareas como la programación y conversaciones, pero lo más interesante es que supera en varios benchmarks* a rivales como DeepSeek V3 y Llama 3.1.
[Ciencia – Tecnología – Inteligencia Artificial / Empresa – Información Digital]
Días de vértigo en el mundo de la Inteligencia Artificial (IA). Cuando parecía que los gigantes tecnológicos estadounidenses no tenían rival capaz de hacerles sombra, DeepSeek causó un auténtico terremoto.
El excelente desempeño de los últimos modelos de lenguaje de la compañía china se tradujo en una amenaza directa para las firmas de Silicon Valley, que en cuestión de horas perdieron miles de millones de dólares de valor de mercado.
El éxito de DeepSeek V3 y DeepSeek-R1 radica en una clave muy sencilla de entender. Son propuestas que, en muchos aspectos, están a la altura de lo más avanzado del mundo, como GPT-4 y o1.
No solo funcionan muy bien, sino que los costes de entrenamiento y funcionamiento son varias veces más bajos que los de OpenAI. Mientras Occidente se alista para lanzar modelos “mucho mejores”, como mencionaba Sam Altman, la competencia para superar a DeepSeek también se juega en China.
Alibaba en carrera para avanzar a DeepSeek
Las cosas se están moviendo muy rápidamente en el campo de la IA. Alibaba, el gigante del comercio electrónico conocido como ‘el Amazon chino’, acaba de lanzar su modelo de lenguaje más avanzado: Qwen2.5-Max.
Estamos ante una alternativa preentrenada con 20 billones de tokens y mejorada mediante técnicas de fine-tuning supervisado (SFT) y aprendizaje por refuerzo a partir de comentarios humanos (RLHF).
Al igual que GPT-4 y DeepSeek, Qwen2.5-Max utiliza una arquitectura Mixture of Experts (MoE), optimizando los recursos al activar únicamente las partes necesarias del modelo, los llamados ‘expertos’.
Está diseñado para destacar en tareas como la programación y conversaciones, pero lo más interesante es que supera en varios benchmarks a rivales como DeepSeek V3 y Llama 3.1.
El Qwen2.5-Max superando pruebas
Qwen2.5-Max ha logrado una puntuación del 87,9 % en MMLU (es un estándar o punto de referencia utilizado para evaluar la comprensión de lenguaje de modelos de IA), una de las pruebas más exigentes para evaluar el conocimiento general de un modelo, frente al 87,1% de DeepSeek V3 y del 85,2% de Llama 3.1.
En BBH, una prueba diseñada para evaluar el razonamiento complejo, Qwen2.5-Max ha alcanzado un 89,3%, situándose por delante de DeepSeek V3 (87,5 %) y Llama 3.1 (85,9 %).
Si nos fijamos en MATH, el benchmark que evalúa el desempeño en matemáticas a nivel olímpico, el modelo de Alibaba alcanza un 68,5%, mientras que sus rivales DeepSeek V3 y Llama 3.1, alcanzan los 61,6% y 53,8% respectivamente.
La diferencia no es abrumadora, pero sigue siendo un dato interesante, sobre todo porque muestra que sus competidores, tanto dentro como fuera de China, no están tan lejos.
Acceso sencillo a Qwen2.5-Max
Un dato muy importante es que no estamos frente a uno de esos anuncios que nos dejan con la miel en los labios, que presumen mejoras, pero que todo sigue bajo llave en el laboratorio.
Alibaba ha puesto a disposición de los usuarios su nuevo modelo, así que tenemos varias vías para poder acceder a él: mediante la API de pago, a través de Hugging Face o utilizando el Qwen Chat, el chatbot de la compañía equivalente a ChatGPT.
Comenzar a utilizar Qwen Chat es tan sencillo como registrarse. El paso siguiente es comenzar a chatear. Este chatbot tiene seleccionado por defecto el modelo Qwen2.5-Plus, pero podemos cambiar a Qwen2.5-Max utilizando el selector de modelos de la esquina superior izquierda. Incluso podemos utilizar dos modelos simultáneos.
El chatbot de Alibaba tiene un montón de otras funciones, como búsqueda web, artifacts, y generación de imágenes y vídeos. También es capaz de analizar imágenes y documentos. Y si bien estamos hablando de una solución que tiene origen en el gigante asiático, hemos podido comprobar que también funciona en español.
Javier Marquez
Publicado en xataka.com, 28-01-2025
Origen de la imagen:
analyticsvidhya.com
__________
* Una prueba de rendimiento o comparativa (en inglés benchmark). Es una técnica utilizada para medir el rendimiento de un sistema o uno de sus componentes.
Más formalmente puede entenderse que una prueba de rendimiento es el resultado de la ejecución de un programa informático o un conjunto de programas en una máquina, con el objetivo de estimar el rendimiento de un elemento concreto, y poder comparar los resultados con máquinas similares. (Wikipedia).
Ver:
> Los algoritmos tienen vida propia y deberían estar regularizados
> El ChatGPT emite toneladas de CO2 y consume grandes cantidades agua
> Yubal Noah Harari – ‘Nexus’. Redes informativas de la Edad de Piedra a la IA
> GPT-4o – La IA más avanzada de OpenAI
> Galaxy S24 y viajar sin saber idiomas – La IA traduce a tiempo real
> Protocolos TCP/IP – Cómo viaja la información por la red
> La Declaración de Bletchley y los riesgos de la IA
> Inteligencia Artificial para escribir textos y hacer resúmenes
> MWC 2024 (Mobile World Congress) – Menos móviles y más IA
> OpenAI – Caso omiso a los derechos de autor