NeMo el nuevo modelo pequeño de Mistral desarrollado con NVIDIA

Mistral AI, en colaboración con NVIDIA, ha lanzado Mistral NeMo, un modelo pequeño de lenguaje que combina potencia, eficiencia y accesibilidad. Este nuevo modelo tiene 12 mil millones de parámetros y promete resultados similares a los de modelos mucho más grandes y complejos.

La mayoría de las compañías que desarrollan modelos de lenguaje de inteligencia artificial llevan tiempo presentando modelos más pequeños (como Microsoft Phi-3) pero con los que se consiguen resultados similares a los modelos más grandes, que, en ocasiones tienen 10 (o incluso 40) veces más parámetros. En este caso, el rendimiento de Mistral NeMo es particularmente notable en áreas críticas como razonamiento, conocimiento del mundo y precisión en codificación.

Una de las características más destacadas de Mistral NeMo es su excepcional capacidad multilingüe. Diseñado para aplicaciones globales, el modelo demuestra un gran rendimiento en muchos idiomas, incluyendo inglés, francés, alemán, español, italiano, portugués, chino, japonés, coreano, árabe e hindi. Esta gran capacidad lingüística representa un punto importante para que los usuarios utilicen la IA en su idioma natal, trascendiendo barreras culturales y lingüísticas.

En el aspecto técnico, Mistral NeMo introduce innovaciones significativas. El nuevo tokenizador Tekken, basado en Tiktoken, ofrece una compresión más eficiente del texto en lenguaje natural y código fuente en comparación con tokenizadores anteriores. Tekken demuestra mejoras notables en la compresión de código fuente y varios idiomas, con una eficiencia particularmente destacada en idiomas como el coreano y el árabe.

Además, el modelo ha sido sometido a un proceso avanzado de afinamiento y alineación, mejorando significativamente su capacidad para seguir instrucciones precisas, razonar, manejar conversaciones complejas y generar código. Estas mejoras posicionan a Mistral NeMo como una herramienta versátil y potente para una amplia gama de aplicaciones en procesamiento del lenguaje natural.

La accesibilidad de Mistral NeMo se extiende a su disponibilidad práctica. Los pesos del modelo están disponibles en HuggingFace, tanto en su versión base como en la versión afinada con instrucciones. Además, Mistral AI ha optado por liberar los checkpoints pre-entrenados y afinados con instrucciones bajo la licencia Apache 2.0, fomentando así su adopción tanto en círculos académicos como empresariales.

🟣 Anuncio oficial