Alineación de Meta Llama 3 a Preferencias Humanas con DPO, Amazon SageMaker Studio y Amazon SageMaker Ground Truth
Los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) poseen capacidades notables. No obstante, usarlos en aplicaciones orientadas al cliente a menudo requiere adaptar sus respuestas para alinearse con los valores e identidad de marca de una organización. En este artÃculo, demostramos cómo utilizar la optimización directa de preferencias (DPO), una técnica que permite ajustar un LLM con datos de preferencias humanas, junto con Amazon SageMaker Studio y Amazon SageMaker Ground Truth, para alinear las respuestas del modelo Meta Llama 3 8B Instruct con los valores de su organización.
Usando SageMaker Studio y SageMaker Ground Truth para DPO
Con DPO, se puede ajustar finamente un LLM con datos de preferencias humanas, como calificaciones o clasificaciones, para que genere respuestas que se alineen con las expectativas del usuario final. Esta técnica es computacionalmente eficiente y ayuda a mejorar la utilidad, honestidad e inofensividad del modelo, desviando al LLM de abordar ciertos temas y mitigando sesgos. Generalmente, se comienza seleccionando un modelo ya existente o entrenado anteriormente con ajuste fino supervisado (SFT, por sus siglas en inglés). Se usa el modelo para generar respuestas y se recopila retroalimentación humana sobre estas respuestas. Después, se utiliza esta retroalimentación para llevar a cabo el ajuste fino DPO y alinear el modelo con las preferencias humanas. Al ajustar un LLM preentrenado con SFT o cargar un modelo ya afinado...
Fuente de la noticia:
lujovip
URL de la Fuente:
http://lujovip.com/
| -------------------------------- |
|
|
Tu Dinero, Tus Datos, Tu Decisión: Más Allá de la Bancarización
31-10-2024 06:17 - (
lujo )
