Fujitsu y RIKEN consiguen el primer puesto en la prueba de HPC MLPerf con el superordenador Fugaku

El rendimiento más rápido del mundo para el número de modelos de aprendizaje profundo entrenados por unidad de tiempo para CosmoFlow, un benchmark clave de procesamiento de aprendizaje automático

Por Redacción

Más artículos de este autor

lunes 29 de noviembre de 2021, 13:55h

Fujitsu y RIKEN han anunciado que el superordenador Fugaku ha obtenido el primer puesto en el benchmark de aplicación de entrenamiento CosmoFlow (1), uno de los principales benchmarks HPC de MLPerf para tareas de procesamiento de aprendizaje automático a gran escala que requieren las capacidades de un superordenador. Fujitsu y RIKEN aprovecharon aproximadamente la mitad de los recursos de Fugaku (2) para lograr este resultado, demostrando el rendimiento más rápido del mundo en esta prueba clave.

MLPerf HPC mide cuántos modelos de aprendizaje profundo se pueden entrenar por unidad de tiempo (throughput performance, 3). La tecnología de software que perfecciona el rendimiento del procesamiento paralelo de Fugaku ha logrado una velocidad de procesado aproximadamente 1,77 veces más rápida que la de otros sistemas, lo que demuestra el nivel de rendimiento más alto del mundo en el campo de los cálculos científicos y tecnológicos a gran escala, mediante el aprendizaje automático.

Estos resultados se anunciaron como MLPerf HPC versión 1.0 el 17 de noviembre en la Conferencia de Computación de Alto Rendimiento SC21, que se celebra actualmente como evento híbrido.

Fugaku reivindica el mayor nivel de rendimiento del mundo en el campo de los cálculos científicos y tecnológicos a gran escala mediante el aprendizaje automático
MLPerf HPC es una prueba de rendimiento compuesta por tres programas de referencia distintos: CosmoFlow, que predice parámetros cosmológicos, uno de los indicadores utilizados en el estudio de la evolución y la estructura del universo, DeepCAM (4), que identifica fenómenos meteorológicos anómalos, y Open Catalyst (5), que estima cómo reaccionan las moléculas en la superficie de los catalizadores.

Para CosmoFlow, Fujitsu y RIKEN utilizaron aproximadamente la mitad de todos los recursos informáticos del sistema Fugaku para entrenar múltiples modelos de aprendizaje profundo con un cierto grado de precisión en la predicción y midieron desde la hora de inicio del modelo, que comenzó el entrenamiento, hasta la hora de finalización para evaluar el rendimiento.

Para mejorar aún más el resultado del procesamiento en paralelo de Fugaku, Fujitsu y RIKEN aplicaron una tecnología a los programas utilizados en el sistema, que reduce la interferencia mutua de la comunicación entre las CPU, que se produce cuando se procesan múltiples modelos de aprendizaje en paralelo, y también optimiza la cantidad de comunicación de datos entre la CPU y el almacenamiento. Como resultado, el sistema entrenó 637 modelos de aprendizaje profundo en 8 horas y 16 minutos, una tasa de aproximadamente 1,29 modelos de aprendizaje profundo por minuto.

El valor medido de Fugaku obtuvo el primer puesto entre todos los sistemas para la categoría de referencia de la aplicación de entrenamiento CosmoFlow, demostrando un rendimiento a un ritmo aproximadamente 1,77 veces más rápido que otros sistemas. Este resultado reveló que Fugaku tiene el nivel de rendimiento más alto del mundo en el campo de los cálculos científicos y tecnológicos a gran escala que utilizan el aprendizaje automático.

En el futuro, Fujitsu y RIKEN pondrán a disposición del público pilas de software como bibliotecas y marcos de IA que aceleran el procesamiento de aprendizaje automático a gran escala desarrollado para esta medición. Compartir ampliamente los conocimientos sobre el procesamiento de aprendizaje automático a gran escala mediante superordenadores obtenidos a través de este ejercicio permitirá a los usuarios aprovechar los sistemas líderes en el mundo para el análisis de los resultados de la simulación, lo que conducirá a posibles nuevos descubrimientos en astrofísica y otros campos científicos y tecnológicos. Estos recursos también se aplicarán a otros cálculos de aprendizaje automático a gran escala, como los modelos de procesamiento del lenguaje natural utilizados en los servicios de traducción automática, para acelerar la innovación tecnológica y contribuir a resolver problemas sociales y científicos.

Sobre MLPerf HPC

MLPerf HPC es un benchmark de aprendizaje automático creado en 2020 por MLCommons, una comunidad que realiza benchmarks de aprendizaje automático, para evaluar el rendimiento del sistema de un superordenador para los cálculos de aprendizaje automático a gran escala, que llevan una enorme cantidad de tiempo, para crear una lista de rendimiento de los sistemas que ejecutan aplicaciones de aprendizaje automático. Se utiliza en superordenadores de todo el mundo y se prevé que se convierta en un nuevo estándar de la industria.

MLPerf HPC se diseñó para evaluar el rendimiento de los modelos de aprendizaje automático a gran escala que requieren el uso de superordenadores. La evaluación del rendimiento se llevó a cabo para 3 aplicaciones: CosmoFlow, DeepCAM y Open Catalyst. Además, también se ha establecido recientemente un benchmark que mide el número de modelos de aprendizaje profundo entrenados por unidad de tiempo.

Todos los datos de medición están disponibles en el siguiente sitio web:
https://mlcommons.org/

Notas
[1] CosmoFLow: Un modelo de aprendizaje profundo para predecir parámetros cosmológicos a partir de resultados de simulación tridimensional de materia oscura distribuida en el espacio exterior.
[2] Aproximadamente la mitad de todo el sistema Fugaku: Dado que esta medición se realizó durante el funcionamiento de Fugaku, la escala de medición se redujo a la mitad en consideración al impacto en otras investigaciones que utilizan Fugaku.
[3] Medir cuántos modelos de aprendizaje profundo se pueden aprender por unidad de tiempo (throughput performance): Un nuevo método de medición para MLPerf. Al aprender múltiples modelos simultáneamente, se puede extraer el rendimiento total de un superordenador, y al medir el número de modelos que se pueden aprender por unidad de tiempo, es posible comparar el rendimiento de todo el sistema de un superordenador.
[4] DeepCAM: Un modelo de aprendizaje profundo para identificar fenómenos meteorológicos anómalos a partir de datos de simulación de predicción climática global.
[5] Open Catalyst: Un modelo de aprendizaje profundo que estima la energía de relajación de las moléculas en la superficie del catalizador a partir de datos de simulación de reacciones atómicas e intermoleculares