DeepSeek V3: Un potente modelo de IA abierta que emerge desde China

El panorama de la IA está en constante evolución, y un desarrollo reciente desde China está causando sensación: DeepSeek V3, un nuevo y potente modelo de IA «abierto». Este modelo no solo es impresionante en sus capacidades, sino también significativo debido a su licencia permisiva, que permite a los desarrolladores descargarlo, modificarlo y usarlo para una amplia gama de aplicaciones, incluidas las comerciales.

Hace solo un mes, DeepSeek presentó su modelo que razona y que se posicionaba como un serio competidor de OpenAI o1. No contentos con ese hito, acaban de presentar DeepSeek V3

¿Qué hace que DeepSeek V3 destaque?

Las pruebas internas de DeepSeek muestran que V3 supera tanto a los modelos «abiertos» disponibles públicamente como a los modelos «cerrados» accesibles solo a través de API, destacando en diversas tareas basadas en texto, desde la codificación y la traducción hasta la redacción de ensayos y correos electrónicos.

En particular, ha demostrado un rendimiento superior en competiciones de codificación en Codeforces, superando a modelos como Llama 3.1 405B de Meta, GPT-4o de OpenAI y Qwen 2.5 72B de Alibaba. Su rendimiento en la prueba Aider Polyglot, que evalúa la capacidad de un modelo para integrar código nuevo en bases de código existentes, es particularmente impresionante.

Entrenamiento eficiente

DeepSeek V3 se entrenó en un conjunto de datos colosal de 14,8 billones de tokens (aproximadamente equivalente a 11 billones de palabras). Su tamaño, con 671 mil millones de parámetros (o 685 mil millones en Hugging Face), supera significativamente los 405 mil millones de parámetros de Llama 3.1. Si bien una mayor cantidad de parámetros a menudo se correlaciona con un mejor rendimiento, también requieren hardware más potente.

A pesar de su tamaño, DeepSeek logró entrenar V3 en aproximadamente dos meses utilizando un centro de datos de GPU Nvidia H800, incluso con las recientes restricciones sobre estas GPU para las empresas chinas. Además, el coste fue de solo $5.5 millones, según los informes, una fracción de lo que costó desarrollar modelos como GPT-4. Esto destaca la eficiencia y el ingenio de DeepSeek.

La naturaleza «abierta» de DeepSeek V3 es muy importante porque democratiza el acceso a la potente tecnología de IA, permitiendo a los desarrolladores experimentar, innovar y construir sobre esta base. Esto contrasta fuertemente con el enfoque «cerrado» de modelos como GPT-4, que son accesibles solo a través de API.

En lo negativo

Sin embargo, hay malas noticias porque como empresa china, DeepSeek está sujeta a la supervisión regulatoria. El modelo evita responder preguntas sobre temas políticamente sensibles, como la Plaza de Tiananmen. Esto destaca la influencia del contexto político en el desarrollo de la IA.

Por otro lado, el gran tamaño de DeepSeek V3 significa que requiere recursos de hardware sustanciales para funcionar de manera eficiente. Esto limita su accesibilidad para desarrolladores individuales o aquellos con recursos limitados.

DeepSeek V3, aunque no está exento de limitaciones, representa un logro significativo. Su naturaleza abierta, su impresionante rendimiento y su eficiente proceso de capacitación lo convierten en un desarrollo notable en la evolución continua de la IA. Será interesante ver cómo este modelo es utilizado por la comunidad de desarrolladores y cómo influye en el futuro de la IA.

Cómo acceder a DeepSeek

Para utilizar DeepSeek sólo tienes que acceder a su web y registrarte con usuario y contraseña o hacerlo a través de tu cuenta de Google. El interface está en inglés y es calcado del resto de chatbots, así que no te constará utilizarlo.

En mis pruebas, he podido comprobar que es muy rápido y que funciona bastante bien en español, aunque mi sensación es que es mejor en inglés. Por si fuera poco y al igual que ChatGPT Search, también tiene una opción para hacer búsqueda en la web, mostrando los enlaces a las fuentes.

También puedes activar el modo DeepThink, que como vimos hace pocas semanas, activa el modo de razonamiento.

👉 Acceder a DeepSeek

1 comentario

Miguel Ángel Macías Vargas

7 de enero de 2025, 8:14 pm

Interesante, el hecho de que sea open es un punto a favor. Y que consuma menos recursos también, ya que a mi personalmente, el tema del descomunal consumo que tiene esta tecnología me preocupa bastante tanto en agua como en electricidad. Los chinos tienen mucho que decir en la IA.

Los comentarios están cerrados