Zephyr-7B: LLM Súper Optimizado De HuggingFace Construido Sobre Mistral 7B ❤️ 2025

La evolución de los modelos de lenguaje grandes y abiertos (LLM) ha tenido un impacto significativo en la comunidad de investigación de la Inteligencia Artificial (IA), particularmente en el desarrollo de chatbots y aplicaciones similares. Tras el lanzamiento de modelos como el LLaMA, ha habido un aumento en la investigación sobre la sintonización eficiente, el manejo de indicaciones extendidas, la generación aumentada de recuperación (RAG) y la cuantización.

El modelo LLaMA, por ejemplo, marcó una nueva era en la sintonización fina y la contextualización de indicaciones, allanando el camino para modelos posteriores como el MPT de MosaicML, RedPajama-INCITE de Together AI, Falcon de TII y Llama 2 de Meta. Cada uno de estos modelos aporta capacidades únicas, mejorando la funcionalidad y el alcance general de los LLM.[automatic_youtube_gallery type="search" search="Zephyr-7B: LLM Súper Optimizado de HuggingFace Construido sobre Mistral 7B" cache="2419200" per_page="1" thumb_excerpt="0" player_description="0"]

Mistral AI, una startup de París fundada por ex empleados de Google DeepMind y Meta, se ha hecho un nombre con su primera oferta: Mistral 7B.

La ventaja de Mistral 7B radica en su eficiencia, ofreciendo capacidades similares o mejoradas en comparación con pares como Llama 2 pero con menor demanda computacional.

Específicamente afinado para tareas instructivas, Mistral 7B Instruct brilla en plataformas como Hugging Face, donde supera a otros modelos del mismo tamaño y compite de cerca con aquellos que tienen casi el doble de sus parámetros.

Sobre esto, Hugging Face presentó Zephyr 7B Alfa, demostrando que un Mistral 7B afinado puede de hecho superar las habilidades de modelos de chat significativamente más grandes y, en algunas tareas, incluso rivalizar con GPT-4. La versión “Alfa” fue solo el comienzo, ya que poco después siguió la versión Zephyr 7B Beta.

En este artículo exploraremos cómo Zephyr 7B aprovecha el poder de modelos más grandes para refinar su capacidad de responder y alinearse con las instrucciones humanas, un proceso posible gracias a la técnica de destilación de conocimiento. Este método implica entrenar modelos más pequeños en los patrones complejos aprendidos por los más grandes, reduciendo las demandas de entrenamiento sin sacrificar las capacidades de modelado del lenguaje. Profundizaremos en los detalles del enfoque de destilación de conocimiento de Hugging Face.

Destilado de Conocimientos

Una innovación clave en el desarrollo de modelos como Zephyr-7B es el afinado supervisado destilado (dSFT). Este método implica utilizar la salida de un modelo ‘maestro’ más grande y capaz para entrenar a un modelo ‘estudiante’ más pequeño, mejorando su precisión. Mientras que la destilación mejora los modelos abiertos en diversas tareas, todavía existe una brecha en el rendimiento en comparación con los modelos maestros.

La destilación de conocimientos es un método en el aprendizaje automático donde un modelo compacto, denominado “estudiante,” aprende a replicar el rendimiento de un modelo “maestro” más grande y complejo. Esta técnica permite que el estudiante realice tareas que anteriormente estaban más allá de su capacidad al transferir los patrones intrincados aprendidos por el maestro.

zephyr-7b: llm súper optimizado de huggingface construido sobre mistral 7b

El modelo estudiante se entrena en las probabilidades de salida o características generadas por el modelo maestro, centrándose en la coincidencia de estas salidas en lugar de solo las predicciones finales. Esto permite al estudiante aprender los procesos de decisión matizados del maestro, a menudo resultando en un rendimiento mejorado sobre el entrenamiento solo con los datos de verdad terrenal.

Históricamente, la destilación de conocimientos ha sido utilizada en modelos como las redes de destilación originales de Hinton, y más recientemente en NLP con modelos como DistilBERT, que destila el modelo BERT en una versión más pequeña y rápida que conserva la mayor parte de las capacidades de comprensión del lenguaje del original. Otro ejemplo es TinyBERT, que va más allá en la optimización del tamaño y la velocidad para dispositivos móviles o de vanguardia.

En el caso de Zephyr-7B, se utiliza la destilación de conocimientos para transmitir a un modelo de parámetros 7B más pequeño las capacidades de sus contrapartes más grandes. Al hacerlo, Zephyr-7B logra un equilibrio entre rendimiento y eficiencia, lo que lo hace adecuado para entornos donde los recursos computacionales son limitados, sin sacrificar la calidad de la interacción y la comprensión.

En el desarrollo de Zephyr-7B, los investigadores se enfrentaron al desafío de alinear un pequeño LLM abierto únicamente a través de la destilación. Introdujeron un enfoque llamado optimización de preferencias directas destiladas (dDPO), que utiliza retroalimentación de IA de un conjunto de modelos maestros como datos de preferencia. Este método, que no requiere anotación humana, reduce significativamente el tiempo y los recursos necesarios para el entrenamiento del modelo.

Construyendo ZEPHYR-7B

Para validar dDPO, los investigadores construyeron ZEPHYR-7B, una versión alineada del modelo Mistral-7B. El proceso implicó tres pasos:

dSFT utilizando el conjunto de datos UltraChat: El Afinado Supervisado Destilado (dSFT) es un método avanzado para entrenar modelos de lenguaje grandes (LLM) mediante el aprovechamiento de la salida de modelos «maestros» más grandes y capaces. Comienza con un LLM crudo que se entrena para responder a indicaciones de usuario. A diferencia del afinado supervisado tradicional (SFT) que utiliza un conjunto de datos fijo, dSFT emplea un enfoque dinámico donde el modelo mismo genera indicaciones y respuestas. Este método, conocido como auto-instrucción, implica utilizar el modelo maestro para responder y refinar las instrucciones basándose en las respuestas.El proceso comienza con un conjunto de indicaciones iniciales (x₀₁, x₀₂, …, x₀_J) que representan diversos temas. Cada indicación se refina de manera iterativa: para una indicación dada x₀, se genera una respuesta y₀ por el modelo maestro, y luego se selecciona una nueva instrucción x₁ basada en x₀ y y₀. El conjunto de datos final C = {(x₁, y₁), …, (x_J, y_J)} se usa para ajustar finamente el modelo.
Incorporando datos de retroalimentación de IA de UltraFeedback: Estos datos fueron cruciales para refinar las respuestas del modelo. En este paso, el modelo genera respuestas a varias indicaciones (como describir cómo hacer brownies de chocolate) que luego son calificadas por un modelo más avanzado como GPT-4. La respuesta de mayor puntuación (yw) y una respuesta de puntuación más baja elegida al azar (yl) forman un conjunto de datos de retroalimentación D.
Aplicando dDPO:La última fase, la Optimización de Preferencias Directas Destilada (dDPO), implica refinar el modelo dSFT maximizando la probabilidad de clasificar las respuestas preferidas más altamente. Esto se logra utilizando una función de recompensa rθ(x, y) en el modelo de preferencia, que se basa en la política LLM óptima π* y la política original πdSFT. El objetivo de optimización se formula como πθ = max π E (x, yw, yl) ∼ D log σ (β log π(yw|x)/πdSFT(yw|x) − β log π(yl|x)/πdSFT(yl|x)), lo que simplifica el proceso de entrenamiento al comenzar con la versión dSFT del modelo y pasar por cada triple AIF.

Notablemente, Zephyr-7B logra un rendimiento comparable con modelos con parámetros 70B mucho más grandes alineados con retroalimentación humana. Sobresale tanto en comparativas académicas como en capacidades conversacionales, destacando la eficacia del aprendizaje de preferencias en el desarrollo de modelos. Para una exploración más profunda, los modelos, el código y las instrucciones están disponibles en El repositorio de GitHub de Hugging Face.

Abordando el Desafío de la Alineación de la Intención

Una preocupación notable con los LLM ha sido su alineación con la intención humana. Los modelos anteriores a menudo fallaban al producir respuestas que coincidieran con las preferencias del usuario, lo que llevaba a respuestas inexactas o irrelevantes. Sin embargo, recientes referencias como MT-Bench y AlpacaEval han proporcionado herramientas para cuantificar y mejorar este aspecto, resaltando el rendimiento superior de los modelos propietarios entrenados con retroalimentación humana sobre los entrenados únicamente a través de la destilación.

Métodos de Evaluación

La evaluación de Zephyr 7B involucró pruebas rigurosas en comparativas que evalúan las habilidades conversacionales de un modelo en contextos de una sola vuelta y de varias vueltas:

MT-Bench: Esta comparativa de varias vueltas requiere que un modelo responda a 160 preguntas que cubren ocho dominios. Cada respuesta es calificada por GPT-4, con la puntuación final del modelo reflejando el promedio en dos rondas de preguntas.
AlpacaEval: En esta comparativa de una sola vuelta, se presenta al modelo con 805 preguntas en varios temas. Aquí el enfoque está en la utilidad del modelo, con GPT-4 calificando las respuestas para determinar una tasa de ganancia comparativa.

Además, se probó Zephyr 7B en el Open LLM Leaderboard, que, aunque no es una evaluación directa de las habilidades conversacionales, ofrece perspectivas sobre la veracidad y el razonamiento del modelo después del ajuste fino.

Se comparó Zephyr 7B con una variedad de