Más Rápidos LLMs con Decodificación Especulativa y AWS Inferentia2
En los últimos años, hemos observado un gran aumento en el tamaño de los modelos de lenguaje de grandes dimensiones (LLMs) que se utilizan para resolver tareas de procesamiento del lenguaje natural (NLP) como la respuesta a preguntas y la resumir texto. Los modelos más grandes, con más parámetros, que están en el orden de cientos de miles de millones en el momento de escribir esto, tienden a producir mejores resultados. Por ejemplo, Llama-3-70B puntúa mejor que su versión más pequeña de 8 mil millones de parámetros en métricas como la comprensión de lectura (SQuAD 85.6 comparado con 76.4). AsÃ, los clientes a menudo experimentan con modelos más grandes y nuevos para construir productos basados en machine learning que aporten valor. Sin embargo, cuanto más grande es el modelo, más exigente es computacionalmente y más alto es el costo de despliegue. Por ejemplo, en AWS Trainium, Llama-3-70B tiene una latencia mediana por token de 21.4 ms, mientras que Llama-3-8B toma 4.7 ms. De manera similar, Llama-2-70B tiene una latencia mediana por token de 20.6 ms, mientras que Llama-2-7B toma 3.7 ms. Los clientes deben considerar el rendimiento para asegurar que cumplen con las necesidades de sus usuarios. En este blog, exploramos cómo el muestreo especulativo puede ayudar a hacer que la inferencia de modelos de lenguaje grande sea más eficiente en términos de computo y costos en AWS Inferentia y Trainium. Esta técnica mejora el rendimiento de inferencia de LLM y ...
Fuente de la noticia:
lujovip
URL de la Fuente:
http://lujovip.com/
| -------------------------------- |
|
|
Tu Dinero, Tus Datos, Tu Decisión: Más Allá de la Bancarización
31-10-2024 06:17 - (
lujo )
