Instancias Trn1 de Amazon EC2
Entrenamiento rentable y de alto rendimiento de modelos de IA generativa
¿Por qué elegir las instancias Trn1 de Amazon EC2?
Las instancias Trn1 de Amazon Elastic Compute Cloud (EC2), impulsadas por chips AWS Trainium, están diseñadas específicamente para el entrenamiento de aprendizaje profundo (DL) de alto rendimiento de modelos de IA generativa, incluidos los modelos de lenguaje grande (LLM) y los modelos de difusión latente. Las instancias Trn1 ofrecen hasta un 50 % de ahorro en el costo del entrenamiento con respecto a otras instancias de Amazon EC2 comparables. Puede usar instancias Trn1 para entrenar más de 100 000 millones de modelos de DL de parámetros y de IA generativa en un amplio conjunto de aplicaciones, como resúmenes de texto, generación de códigos, respuesta a preguntas, generación de imágenes y videos, recomendaciones y detección de fraudes.
El SDK de AWS Neuron ayuda a los desarrolladores a entrenar modelos en AWS Trainium (e implementar modelos en los chips de AWS Inferentia). Se integra de forma nativa con marcos de trabajo, como PyTorch y TensorFlow, para que pueda seguir utilizando el código y los flujos de trabajo existentes para entrenar modelos en instancias Trn1. Para obtener más información sobre el soporte actual de Neuron para los marcos y bibliotecas de aprendizaje automático (ML), las arquitecturas de modelos y las optimizaciones de hardware, consulte la documentación de Neuron.
Introducción a las instancias Trn1 de Amazon EC2 impulsadas por AWS Trainium
Beneficios
Las instancias Trn1 se diseñan específicamente para lograr un DL de alto rendimiento y reducir los tiempos de entrenamiento de meses a semanas o incluso días. Con tiempos de entrenamiento más breves, puede iterar más rápido, crear modelos más innovadores y aumentar la productividad. Las instancias Trn1n ofrecen un tiempo de entrenamiento hasta un 20 % más rápido que las instancias Trn1 para los modelos que se benefician de un mayor ancho de banda de la red.
Las instancias Trn1 ofrecen una alto rendimiento y un ahorro de hasta el 50 % en costos de entrenamiento en comparación con otras instancias Amazon EC2 comparables.
Utilice el SDK de AWS Neuron para extraer todo el rendimiento de las instancias Trn1. Con Neuron, puede usar marcos de trabajo de ML populares, como PyTorch y TensorFlow, y seguir usando su código y flujos de trabajo existentes para entrenar modelos en instancias Trn1. Para comenzar rápidamente a usar las instancias Trn1, vea ejemplos de modelos populares en la documentación de Neuron.
Las instancias Trn1 admiten hasta 800 Gbps de ancho de banda de la red Elastic Fabric Adapter (EFAv2) de segunda generación. Las instancias Trn1n admiten hasta 1600 Gbps de ancho de banda de la red de EFAv2 para ofrecer un rendimiento aún mayor para los modelos que hacen un uso intensivo de la red. Ambas instancias se implementan en EC2 UltraClusters que permiten escalar hasta 30 000 chips de Trainium, que están interconectados con una red a escala de petabits sin bloqueo para proporcionar 6 exaflops de rendimiento informático.
Características
Las instancias Trn1 funcionan con hasta 16 chips de AWS Trainium creados específicamente para acelerar el entrenamiento de DL y ofrecer hasta 3 petaflops de potencia informática FP16/BF16. Cada chip incluye dos núcleos NeuronCore de segunda generación.
Para permitir un paralelismo eficiente de datos y modelos, cada instancia Trn1 tiene 512 GB de memoria aceleradora compartida (HBM) con 9,8 TB/s de ancho de banda total de memoria.
Para respaldar el entrenamiento de modelos con uso intensivo de la red, como Mixture of Experts (MoE) y Generative PreTrained Transformers (GPT), cada instancia Trn1n ofrece hasta 1600 Gbps de ancho de banda de la red de EFAv2. Cada instancia Trn1 admite hasta 800 Gbps de ancho de banda de EFAv2. EFAv2 acelera el entrenamiento distribuido al ofrecer una mejora de hasta un 50 % en el rendimiento de las comunicaciones colectivas en comparación con el servicio EFA de primera generación. Estas instancias también admiten hasta 80 Gbps de ancho de banda de Amazon Elastic Block Store (EBS) y hasta 8 TB de almacenamiento en disco duro de estado sólido (SSD) NVMe local para un acceso rápido a la carga de trabajo de grandes conjuntos de datos.
Para una conectividad rápida entre aceleradores y comunicaciones colectivas optimizadas, las instancias Trn1 admiten hasta 768 Gb/s de NeuronLink, una interconexión de alta velocidad sin bloqueos.
Para ofrecer un alto rendimiento y, al mismo tiempo, cumplir con los objetivos de precisión, las instancias Trn1 están optimizadas para FP32, TF32, BF16, FP16, UINT8 y el nuevo tipo de datos FP8 configurable (cFP8). Para respaldar el rápido ritmo de innovación del DL y la IA generativa, las instancias Trn1 cuentan con varias innovaciones que las hacen flexibles y ampliables para entrenar modelos de DL en constante evolución. Las instancias Trn1 cuentan con optimizaciones de hardware y soporte de software para formas de entrada dinámicas. Para permitir la compatibilidad con nuevos operadores en el futuro, admiten operadores personalizados escritos en C++. También admiten el redondeo estocástico, un método de redondeo probabilístico que permite un alto rendimiento y una mayor precisión en comparación con los modos de redondeo heredados.
Testimonios de clientes y socios
Estos son algunos ejemplos de cómo los clientes y socios lograron sus objetivos empresariales con las instancias Trn1 de Amazon EC2.
Databricks
Más de 10 000 organizaciones de todo el mundo (incluidas Comcast, Condé Nast y más del 50 % de las empresas de la lista Fortune 500) confían en los Databricks para unificar sus datos, análisis e inteligencia artificial.
«Miles de clientes han implementado Databricks en AWS, lo que les permite usar MosaicML para preentrenar, ajustar y ofrecer modelos básicos para una variedad de casos de uso. AWS Trainium nos brinda la escala y el alto rendimiento necesarios para entrenar nuestros modelos MPT de Mosaic, y a un bajo costo. A medida que entrenamos nuestros modelos Mosaic MPT de próxima generación, Trainium2 permitirá construir modelos aún más rápido, lo que nos permitirá ofrecer a nuestros clientes una escala y un rendimiento sin precedentes para que puedan lanzar al mercado sus propias aplicaciones de IA generativa con mayor rapidez. «
Naveen Rao, VP of Generative AI de Databricks
Stockmark Co., Ltd
Con la misión de “reinventar el mecanismo de creación de valor y hacer avanzar a la humanidad”, Stockmark ayuda a muchas empresas a crear y construir negocios innovadores al proporcionar tecnología de procesamiento del lenguaje natural de vanguardia.
«Con 16 nodos de instancias Trn1 de Amazon EC2 impulsadas por chips AWS Trainium, hemos desarrollado y publicado stockmark-13b, un gran modelo de lenguaje con 13 000 millones de parámetros, previamente entrenado desde cero en un corpus japonés de 220 000 millones de tokens. El corpus incluye los textos más recientes sobre dominios empresariales hasta septiembre de 2023. El modelo obtuvo la puntuación más alta de JSquad (0,813) en el punto de referencia JGLUE (Japanese General Language Understanding Evaluation) en comparación con otros modelos equivalentes. Está disponible en Hugging Face Hub y se puede usar comercialmente con la licencia de MIT. Las instancias Trn1 nos ayudaron a lograr una reducción del 20% en los costos de capacitación en comparación con las instancias de GPU equivalentes. »
Kosuke Arima, CTO de Stockmark Co., Ltd.
RICOH
RICOH ofrece soluciones para el lugar de trabajo y servicios de transformación digital diseñados para gestionar y optimizar el flujo de información entre las empresas.
«La migración a las instancias de Trn1 fue bastante sencilla. Pudimos completar el entrenamiento de nuestro modelo de parámetros 13B en solo 8 días. Basándonos en este éxito, esperamos desarrollar y entrenar nuestro modelo de parámetros 70B en Trainium y estamos entusiasmados con el potencial de estas instancias para entrenar nuestros modelos de manera más rápida y rentable. «
Yoshiaki Umetsu, Director, Digital Technology Development Center, RICOH
Hélice Xon
«En HeliXon, creamos soluciones de IA de próxima generación para terapias basadas en proteínas. Nuestro objetivo es desarrollar herramientas de IA que permitan a los científicos descifrar la función e interacciones de las proteínas, examinen los conjuntos de datos genómicos a gran escala para identificar objetivos y diseñar tratamientos como anticuerpos o terapias celulares. Hoy en día usamos bibliotecas de distribución de entrenamiento como FSDP para poner en paralelo el entrenamiento de modelos con varios servidores basados en GPU; sin embargo, aún tardamos semanas en entrenar un solo modelo. Nos entusiasma utilizar las instancias Trn1 de Amazon EC2, que ofrecen el mayor ancho de banda de red (800 Gbps) disponible en AWS para mejorar el rendimiento de nuestros trabajos de formación distribuidos y reducir los tiempos de formación de nuestros modelos, además de reducir los costes de formación. «
Jian Peng, CEO, Helixon
Money Forward, Inc.
Money Forward, Inc. brinda servicios a empresas e individuos con una plataforma financiera abierta y justa.
«Lanzamos un servicio de chatbot de IA a gran escala en las instancias Inf1 de Amazon EC2 y redujimos nuestra latencia de inferencia en un 97% en comparación con las instancias comparables basadas en GPU, al tiempo que redujimos los costos. Mientras seguimos ajustando los modelos adaptados de NLP periódicamente, también es importante reducir los costos y tiempos de entrenamiento de modelos. Basándonos en nuestra experiencia de migración exitosa de cargas de trabajo de inferencia en instancias Inf1 y en nuestro trabajo inicial en instancias Trn1 EC2 basadas en AWS Trainium, esperamos que las instancias Trn1 proporcionen un valor adicional para mejorar el rendimiento y el costo del aprendizaje automático de extremo a extremo. «
Takuya Nakade, CTO, Money Forward, Inc.
Magic
Magic es un producto integrado y una empresa de investigación que desarrolla IA que es como el colega ideal para hacer que el mundo sea más productivo.
«El entrenamiento de grandes modelos basados en transformadores autorregresivos es un componente esencial de nuestro trabajo. Las instancias Trn1 impulsadas por AWS Trainium se diseñan específicamente para estas cargas de trabajo y ofrecen escalabilidad casi infinita, conexión rápida a redes internodales y soporte avanzado para tipos de datos de 8 y 16 bits. Las instancias Trn1 nos ayudan a entrenar modelos grandes más rápido y a un costo más bajo. Estamos especialmente entusiasmados con la compatibilidad nativa con el redondeo estocástico BF16 en Trainium, ya que aumenta el rendimiento mientras que la precisión numérica es indistinguible de la precisión total. «
Eric Steinberger, cofundador y director ejecutivo, Magic
Comunicaciones Cactus
CACTUS tiene un conjunto de productos y soluciones para investigadores y organizaciones que mejora el financiamiento, publicación, difusión y descubrimiento de la investigación.
«En Cactus Labs, aprovechamos el poder de la IA, con investigaciones centradas en el procesamiento, la clasificación y la recomendación del lenguaje natural, la IA conversacional, los modelos de lenguaje de gran tamaño, la visión artificial, AR/VR y XAI. En consonancia con nuestra búsqueda para habilitar un entrenamiento más rápido de los modelos de machine learning, así como permitir a nuestros investigadores llevar a cabo experimentos mientras administran los costos de infraestructura, nos encantó evaluar AWS Trainium. Las funciones listas para usar de AWS Trainium, como la optimización de XLA, el entrenamiento paralelo de datos para varios trabajadores y el almacenamiento en caché de gráficos, son muy útiles para reducir nuestros tiempos de entrenamiento y nos ayudan a realizar más experimentos de forma más rápida y económica. «
Nishchay Shah, director de tecnología y jefe de productos emergentes, Cactus Communication
Watashiha
Watashiha ofrece un servicio de chatbot de IA innovador e interactivo, OGIRI AI, que incorpora sentido del humor para ofrecer una respuesta divertida en el acto a una pregunta.
«Usamos modelos de lenguaje grande para incorporar el humor y ofrecer una experiencia conversacional más relevante a nuestros clientes en nuestros servicios de IA. Esto nos obliga a preentrenar y ajustar estos modelos con frecuencia. Entrenamos previamente un modelo japonés basado en GPT en la instancia Trn1.32xlarge de EC2, en el cual aprovechamos el paralelismo de tensores y datos. El entrenamiento se completó en 28 días, con una reducción de costos del 33 % en comparación con nuestra infraestructura anterior basada en GPU. A medida que nuestros modelos siguen aumentando rápidamente en complejidad, esperamos contar con instancias de TRN1n que tengan el doble de ancho de banda de red que Trn1 para acelerar el entrenamiento de modelos más grandes. «
Yohei Kobashi, director técnico de Watashiha, K.K.
PyTorch
«En PyTorch, aceleramos la transición del aprendizaje automático desde la creación de prototipos de investigación hasta la producción lista para los clientes. Hemos colaborado ampliamente con el equipo de AWS para ofrecer soporte de PyTorch nativo para las nuevas instancias Trn1 de Amazon EC2 impulsadas por AWS Trainium que se diseñan específicamente para entrenar modelos de aprendizaje profundo. Los desarrolladores que se encargan de diseñar modelos de PyTorch pueden comenzar a entrenar en instancias Trn1 con cambios mínimos al código. Además, hemos trabajado con la comunidad de OpenXLA para habilitar bibliotecas distribuidas de PyTorch para facilitar la migración de modelos de instancias basadas en GPU a instancias Trn1. Estamos muy emocionados por la innovación que traerán las instancias Trn1 a la comunidad de PyTorch, incluidos tipos de datos más eficientes, formas dinámicas, operadores personalizados, redondeo estocástico optimizado para hardware y un modo de depuración ágil. Todo esto hace que Trn1 sea ideal para una amplia adopción por parte de los desarrolladores de PyTorch y esperamos recibir futuras contribuciones conjuntas a PyTorch para optimizar aún más el rendimiento del entrenamiento. «
Geeta Chauhan, IA aplicada, directora de ingeniería de PyTorch
Hugging Face
«La misión de Hugging Face es democratizar el buen aprendizaje automático para ayudar a los desarrolladores de aprendizaje automático de todo el mundo a resolver problemas del mundo real. Y la clave para ello es garantizar que los mejores y más recientes modelos se ejecuten de la manera más rápida y eficiente posible en los mejores chips de ML de la nube. Estamos muy entusiasmados con la posibilidad de que Inferentia2 se convierta en la nueva forma estándar de implementar modelos de IA generativa a escala. Con Inf1, obtuvimos un costo hasta un 70 % menor al de las instancias tradicionales basadas en GPU, y con Inf2 hemos visto una latencia hasta 8 veces menor en los transformadores tipo BERT en comparación con Inferentia1. Con Inferentia2, nuestra comunidad podrá escalar fácilmente este rendimiento a los LLM con una escala de parámetros de más de 100 000 millones, y también a los últimos modelos de visión artificial y difusión. «
Amazon
«Estamos capacitando modelos lingüísticos de gran tamaño (LLM) que son multimodales (texto e imagen), multilingües, multilocales, con formación previa para múltiples tareas y que abarcan múltiples entidades (productos, consultas, marcas, reseñas, etc.) para mejorar la experiencia de compra de los clientes. Las instancias Trn1 proporcionan una manera más sostenible de entrenar los LLM a la vez que ofrecen el mejor rendimiento por vatios en comparación con otras soluciones aceleradas de machine learning y nos ofrecen alto rendimiento a menor precio. Planeamos explorar el nuevo tipo de datos FP8 configurable y el redondeo estocástico acelerado por hardware para aumentar aún más la eficiencia de nuestra capacitación y la velocidad de desarrollo. «
Trishul Chilimbi, vicepresidente, Amazon Search
Introducción
Puede entrenar modelos en instancias Trn1 fácilmente a través de Amazon SageMaker. Reduzca significativamente el tiempo y el costo de los entrenamientos, y ajuste modelos de ML sin tener que administrar infraestructuras. Con SageMaker, puede usar herramientas integradas para administrar experimentos de entrenamiento y hacer un seguimiento, elegir automáticamente hiperparámetros óptimos, depurar trabajos de entrenamiento y supervisar el uso de recursos del sistema.
Las AMI de aprendizaje profundo de AWS (DLAMI) ofrecen a los investigadores y profesionales de aprendizaje profundo (DL) la infraestructura y las herramientas necesarias para agilizar el DL en AWS a cualquier escala. Los controladores de AWS Neuron vienen preconfigurados en las DLAMI para entrenar los modelos de DL de forma óptima en instancias Trn1.
Ahora puede implementar instancias Trn1 en Amazon Elastic Kubernetes Service (EKS), un servicio de Kubernetes completamente administrado, así como en Amazon Elastic Container Service (ECS), un servicio de orquestación de contenedores completamente administrado. Neuron también está disponible de manera preinstalada en los contenedores de aprendizaje profundo de AWS. Para obtener más información sobre cómo ejecutar contenedores en instancias Trn1, consulte los tutoriales sobre contenedores de Neuron.
Detalles del producto
|
Instance Size
|
Trainium Chips
|
Accelerator Memory (GB)
|
vCPUs
|
Instance Memory (GiB)
|
Local NVMe Storage (TB)
|
Network Bandwidth (Gbps)
|
EFA and RDMA Support
|
EBS Bandwidth (Gbps)
|
On-Demand Price per Hour
|
1-Year Reserved Instance Effective Hourly*
|
3-Year Reserved Instance Effective Hourly*
|
|---|---|---|---|---|---|---|---|---|---|---|---|
|
trn1.2xlarge
|
1
|
32
|
8
|
32
|
0,5
|
Hasta 12,5
|
No
|
Hasta 20
|
1,34 USD
|
0,79 USD
|
0,4744 USD
|
|
trn1.32xlarge
|
16
|
512
|
128
|
512
|
8
|
800
|
Sí
|
80
|
21,50 USD
|
12,60 USD
|
7,59 USD
|
|
trn1n.32xlarge
|
16
|
512
|
128
|
512
|
8
|
1600
|
Sí
|
80
|
24,78 USD
|
14,52 USD
|
8,59 USD
|