Soporte De Amazon EKS En Amazon SageMaker HyperPod: Una Nueva Era En La Gestión De Contenedores
Estamos emocionados de anunciar la introducción del soporte de Amazon Elastic Kubernetes Service (Amazon EKS) en Amazon SageMaker HyperPod, una infraestructura especializada diseñada con la resiliencia como base. Esta capacidad permite la adición fluida de computación gestionada por SageMaker HyperPod a los clústeres de EKS, utilizando caracterÃsticas automatizadas de resiliencia para nodos y trabajos en el desarrollo de modelos de base (Foundation Models, FM).
Los FMs suelen ser entrenados en clústeres de computación a gran escala con cientos o miles de aceleradores. En tales circunstancias, las fallas de hardware representan un desafÃo significativo, ya que un solo fallo entre miles puede detener todo el proceso de entrenamiento. Un ejemplo de esto es el modelo Meta Llama 3 405B, que durante su pre-entrenamiento de 54 dÃas en 16,000 NVIDIA H100 Tensor Core GPUs, experimentó 419 interrupciones inesperadas, de las cuales el 78% se atribuyeron a problemas de hardware confirmados o sospechosos, y el 58.7% fueron problemas relacionados con GPU, incluidas fallas de NVLink y HBM3 memory. Desde su creación, SageMaker HyperPod se diseñó con caracterÃsticas de resiliencia gestionada para mitigar tales fallas de hardware, permitiendo que los constructores de FM, como Thomson Reuters, Perplexity AI y Hugging Face, escalen su entrenamiento y la inferencia de FM en clústeres de Slurm. Con el soporte de EKS en HyperPod, ahora también se pueden aprovechar las caracterÃs...
Fuente de la noticia:
lujovip
URL de la Fuente:
http://lujovip.com/
| -------------------------------- |
|
|
Tu Dinero, Tus Datos, Tu Decisión: Más Allá de la Bancarización
31-10-2024 06:17 - (
lujo )
