AlineaciÃ³n de Meta Llama 3 a Preferencias Humanas con DPO, Amazon SageMaker Studio y Amazon SageMaker Ground Truth

Los grandes modelos de lenguaje (LLMs, por sus siglas en inglÃ©s) poseen capacidades notables. No obstante, usarlos en aplicaciones orientadas al cliente a menudo requiere adaptar sus respuestas para alinearse con los valores e identidad de marca de una organizaciÃ³n. En este artÃculo, demostramos cÃ³mo utilizar la optimizaciÃ³n directa de preferencias (DPO), una tÃ©cnica que permite ajustar un LLM con datos de preferencias humanas, junto con Amazon SageMaker Studio y Amazon SageMaker Ground Truth, para alinear las respuestas del modelo Meta Llama 3 8B Instruct con los valores de su organizaciÃ³n.
Usando SageMaker Studio y SageMaker Ground Truth para DPO
Con DPO, se puede ajustar finamente un LLM con datos de preferencias humanas, como calificaciones o clasificaciones, para que genere respuestas que se alineen con las expectativas del usuario final. Esta tÃ©cnica es computacionalmente eficiente y ayuda a mejorar la utilidad, honestidad e inofensividad del modelo, desviando al LLM de abordar ciertos temas y mitigando sesgos. Generalmente, se comienza seleccionando un modelo ya existente o entrenado anteriormente con ajuste fino supervisado (SFT, por sus siglas en inglÃ©s). Se usa el modelo para generar respuestas y se recopila retroalimentaciÃ³n humana sobre estas respuestas. DespuÃ©s, se utiliza esta retroalimentaciÃ³n para llevar a cabo el ajuste fino DPO y alinear el modelo con las preferencias humanas. Al ajustar un LLM preentrenado con SFT o cargar un modelo ya afinado...

Ver la noticia completa en la fuente original

Fuente de la noticia: lujovip

URL de la Fuente: http://lujovip.com/

--------------------------------

Juan Coll Implementa Estrategias Avanzadas en ClimatizaciÃ³n Industrial para Mejorar la Productividad y las Condiciones de Trabajo

Bytetravel SA Anuncia Impresionantes Resultados del Primer Semestre de 2024: Triplica el EBITDA

ByteTravel, S.A. ha sorprendido al mercado tras presentar sus resultados financieros correspondientes al primer semestre de 2024, mostrando un notable incremento en su EBITDA y un significativo crecimiento en sus ventas. La empresa, que...

31-10-2024 06:17 - ( lujo )

Tu Dinero, Tus Datos, Tu DecisiÃ³n: MÃ¡s AllÃ¡ de la BancarizaciÃ³n

El BurÃ³ de ProtecciÃ³n Financiera del Consumidor (CFPB) ha finalizado una nueva normativa diseÃ±ada para facilitar a los usuarios la comparaciÃ³n de servicios bancarios y la transferencia entre cuentas. Esta regulaciÃ³n, que permitirÃ¡ a los consumidores...

31-10-2024 06:17 - ( lujo )