Radeon Open Compute 'ROCm' Stack v3.1 llançat amb RAS per a Vega 7nm, suport SLURM per a una millor gestió dels recursos, però encara falta Navi

Maquinari / Radeon Open Compute 'ROCm' Stack v3.1 llançat amb RAS per a Vega 7nm, suport SLURM per a una millor gestió dels recursos, però encara falta Navi 2 minuts de lectura

AMD Radeon



La versió nova de la pila Radeon Open Compute o 'ROCm' és ara disponible per descarregar. El Radeon Open Compute v3.1 comporta força funcions, però, curiosament, encara falta el suport per a AMD Navi i GFX10.

ROCm, la plataforma universal més acceptada per a computació accelerada per GPU, ja està a la versió 3.1. La darrera actualització de la plataforma modular que permet als proveïdors de maquinari construir controladors que admetin el marc ROCm inclou algunes funcions molt esperades, com ara el suport RAS per a 7 nm Vega i el suport SLURM per a les GPU AMD. Tot i això, per motius encara desconeguts, el ROCm encara no té compatibilitat completa amb la nova generació AMD Navi Architecture.



Novetats de Radeon ROCm v3.1:

El canvi més gran i evident de la nova instal·lació de Radeon ROCm v3.1 es troba a l’estructura de directori d’instal·lació de ROCm. Una nova instal·lació del joc d'eines ROCm instal·la els paquets al fitxer / opt / rocm- carpeta. Anteriorment, els paquets de jocs d'eines ROCm es van instal·lar al fitxer / opt / rocm carpeta.



La nova versió de ROCm ha millorat la compatibilitat de fiabilitat, accessibilitat i facilitat de servei (RAS) per a GPU Vega de 7 nm. Aquest treball de 7 nm de Vega és presumiblement encara al microscopi per a 'Arcturus' basat en Vega accelerador de càlcul aquest any. El suport inclou:



  • UMC RAS ​​- HBM ECC (injecció d'errors no corregibles), retirada de pàgina, recuperació de RAS mitjançant GPU (BACO) restablert
  • GFX RAS - GFX, MMHUB ECC (injecció d'errors no corregibles), recuperació de RAS mitjançant GPU (BACO) restablert
  • PCIE RAS - PCIE_BIF ECC (injecció d'errors no corregibles), recuperació RAS mitjançant GPU (BACO) restablerta

Radeon ROCm v3.1 també obté suport SLURM per a GPU AMD. SLURM o Simple Linux Utility for Resource Management és un dels sistemes de planificació de tasques i gestió de clústers molt preferits i fàcilment utilitzats per als clústers Linux. Es prefereix SLURM perquè és de codi obert, tolerant a fallades i altament escalable.

Aquest sistema ara pot interactuar bé amb les GPU AMD. La darrera versió 20.02.0 de SLURM inclou connectors AMD que permeten a SLURM detectar i configurar les GPU AMD automàticament. També recopila i informa del consum energètic dels xips gràfics. El suport SLURM és una addició útil donat el nombre creixent de desplegaments de supercomputació que utilitzen GPU Radeon i altres clústers AMD GPU més grans.

Tot i la inclusió de diverses funcions, encara no hi ha signes de compatibilitat GFX10 / Navi a ROCm. El Pàgina de GitHub per a ROCm s'ha actualitzat per reflectir tots els canvis, les notes d'instal·lació i els problemes coneguts.



Etiquetes amd