Instalar AMD ROCm en Windows y Linux: guía completa

Mundobytes » Linux » Cómo instalar AMD ROCm en Windows y Linux: guía paso a paso y compatibilidad

ROCm integra CPU y GPU en una plataforma abierta con foco en Linux y soporte previo en Windows para PyTorch.
Compatibilidad creciente: RDNA 4, modelos seleccionados RDNA 3 y soporte inicial para APUs Ryzen.
Métodos de instalación flexibles: gestor de paquetes, multi-versión, runfile y modo offline.
Ecosistema sólido: PyTorch/TensorFlow, vLLM, JAX (inferencias), ONNX Runtime con MIGraphX y utilidades de rendimiento.

Si trabajas con IA, HPC o cómputo científico y tienes una GPU Radeon o un APU Ryzen, seguramente te suene ROCm. La plataforma de AMD pretende ser la base abierta para programar y acelerar tareas en GPU, con especial foco en Linux y, en versión preliminar, también en Windows para ciertos casos. Aquí vas a encontrar, paso a paso, lo que necesitas saber para instalarlo y ponerlo a producir.

Antes de nada, conviene anticipar algo que suele pasar desapercibido en el marketing: el éxito de la instalación y el rendimiento dependen mucho del hardware, del sistema operativo y de la versión exacta de ROCm. En las siguientes secciones reunimos toda la información clave (métodos de instalación oficiales, compatibilidad, trucos de rendimiento, estado en Windows y experiencias reales) para que no te pille a contrapié.

Qué es AMD ROCm y por qué importa

ROCm es la pila de software de AMD para computación de alto rendimiento (HPC) y aprendizaje automático. En esencia, integra CPU y GPU para acelerar cargas de trabajo intensivas, permitiendo programar y ejecutar kernels en GPU con un ecosistema principalmente de código abierto. Históricamente se ha centrado en Linux, donde ofrece el mejor soporte y madurez.

En el escritorio, la misma base ROCm que usas con una Radeon para desarrollo local también es compatible con las aceleradoras AMD Instinct en centros de datos (arquitectura CDNA). Esa continuidad facilita desarrollar en tu equipo y desplegar después a gran escala sin rehacer el trabajo, aprovechando el mismo conjunto de librerías y herramientas.

Para IA, esto se traduce en frameworks como PyTorch o TensorFlow funcionando sobre GPUs AMD, además de herramientas clave para inferencia y entrenamiento. El objetivo es claro: ofrecer un camino abierto y escalable para investigación, ingeniería y workloads de producción sin encierros propietarios.

Compatibilidad de hardware y plataformas

La versión ROCm 7.0.2 destaca por ampliar la base de dispositivos compatibles. Ofrece soporte para la serie Radeon 9000 (RDNA 4) y una selección de modelos de la serie 7000 (RDNA 3). También introduce soporte inicial para APUs Ryzen, abriendo la puerta a flujos de trabajo de IA en equipos compactos y portátiles gracias a la memoria compartida (hasta 128 GB en ciertos escenarios).

En términos de sistemas operativos, mantiene un soporte sólido en Linux, con mención expresa a Ubuntu y Red Hat Enterprise Linux 9.6. En Windows, ROCm se encuentra en fase «Preview» para PyTorch, tanto en GPUs Radeon como en ciertos APUs Ryzen, lo que permite empezar a desarrollar de forma nativa aunque con las precauciones propias de una vista previa.

Un detalle importante: no todas las GPUs Radeon están soportadas de forma oficial en todas las versiones. Hay usuarios que señalan que modelos como la 7800 XT no aparecen como compatibilizados oficialmente en determinadas releases de ROCm para Linux. Por eso, antes de instalar, conviene revisar las matrices de compatibilidad de AMD en la documentación oficial y verificar tanto la versión de ROCm como la del sistema y, cuando sea necesario, exportar logs desde GPU-Z.

En cuanto a capacidad, las Radeon para escritorio pueden llegar a disponer de hasta 48 GB de VRAM, lo que convierte a una workstation local en una alternativa potente y privada frente a la nube. Para quien se mueve entre desarrollo local y despliegue en datacenter, la compatibilidad cruzada con Instinct simplifica la migración.

Sega eliminará más de 60 juegos clásicos de sus tiendas digitales en diciembre

Métodos de instalación en Linux

AMD documenta varios enfoques para instalar ROCm en Linux, pensados para diferentes perfiles de uso y restricciones de entorno. Lo más recomendable si eres nuevo en ROCm es comenzar por la guía de inicio rápido oficial.

Gestor de paquetes nativo. Es el método preferente en Ubuntu o RHEL: usas el propio gestor del sistema para instalar, actualizar o desinstalar los paquetes. La ventaja es que se integran mejor con el sistema y heredas el soporte del ecosistema de tu distribución. Si tu distro ofrece repos adecuados, esta vía es cómoda y reproducible.

Instalación de una o múltiples versiones. Cuando necesitas probar compatibilidades, mantener proyectos antiguos o verificar regresiones, puedes instalar varias versiones de ROCm en paralelo. AMD publica un procedimiento específico para estos escenarios multi-versión a fin de aislar dependencias y evitar conflictos.

ROCm Offline Installer Creator. Si tu máquina destino no tiene Internet o el entorno está aislado, puedes crear un paquete de instalación fuera de línea para el driver AMDGPU, para ROCm o para ambos. Esta utilidad genera todo lo necesario para desplegar en modo desconectado.

ROCm Runfile Installer. Como alternativa al gestor de paquetes, existe un instalador «runfile» que permite instalar con o sin conectividad a la red y sin depender del sistema de paquetes de la distro. Es útil en entornos controlados o cuando necesitas una versión muy concreta.

Nota para SUSE/SLES. Antes de instalar en SUSE Linux Enterprise Server, registra y actualiza tu Enterprise Linux según el procedimiento de la propia distribución. Es un requisito previo para evitar errores de dependencias y obtener los repos necesarios.

Instalación práctica en Ubuntu y derivadas

En entornos Ubuntu recientes, hay flujos de instalación que parten de repositorios mantenidos por empleados de AMD (no oficiales como tal). La idea es añadir el repo adecuado a tu versión y después instalar los paquetes requeridos. Esta vía puede agilizar pruebas y setups orientados a IA.

Versiones de Ubuntu. Si trabajas con Ubuntu 24.04 «Noble» o 22.04 «Jammy», ajusta las referencias del repositorio a tu release. Cambiar «noble» por «jammy» (o viceversa) en la línea de descarga del repo es suficiente para alinear paquetes con tu versión concreta.

Paquetes a instalar. Aquí viene una particularidad: no hay un metapaquete único «patrón» que arrastre todo lo necesario, por lo que en algunos procedimientos se instalan los componentes por separado. Además, esta ruta acostumbra a incluir dependencias de compilación útiles para librerías como FlashAttention.

Python y herramientas. Se recomienda tener Python entre 3.10 y 3.13 y Git. Instala ROCm, el SDK y Python en el orden que te resulte más cómodo según tu distribución, revisando que PIP y virtualenv están listos para crear entornos aislados. Con esto podrás compilar o instalar los bindings correctos de PyTorch o TensorFlow para ROCm.

Otras distros. Este procedimiento se ha probado sobre todo en Ubuntu, pero hay quien lo extiende a openSUSE Leap y Slowroll adaptando los repos y nombres de paquetes. En estos casos, valida bien los repos, ya que no son escenarios testados oficialmente con la misma profundidad.

ROCm con SD.Next: flags, Docker y ajustes finos

Si tu objetivo es usar Stable Diffusion Next (SD.Next) con GPUs AMD, el flujo es directo: instala primero las librerías de ROCm y lanza SD.Next con el flag –use-rocm. De esta forma forzarás la instalación de la versión adecuada de torch para tu entorno ROCm.

Arranque inicial lento. Al primer uso, tras cambiar de resolución por primera vez o al actualizar PyTorch, ROCm realiza una búsqueda de kernels óptimos que puede tardar entre 5 y 8 minutos. Sucede una vez por resolución; las siguientes ejecuciones arrancan mucho más rápido.

Cómo poner un vídeo como fondo de pantalla en Windows: guía completa y trucos

Control de MIOPEN. Si ese «warm-up» inicial te resulta un incordio, puedes ajustar variables de entorno: MIOPEN_FIND_MODE=FAST reduce el tiempo de inicio a costa de un rendimiento algo inferior, mientras que MIOPEN_FIND_ENFORCE=SEARCH prioriza el rendimiento óptimo (pero penaliza más el primer arranque). Úsalas con cabeza según tu flujo de trabajo.

Precisión y VRAM. En tarjetas RDNA 3 y superiores, SD.Next puede detectar automáticamente bf16. En algunos casos esto dispara el uso de VRAM (16 GB o más) al decodificar la imagen final o al reescalar con upscalers no latentes. Para mitigarlo, establece la precisión en fp16 y desactiva el VAE upcasting en la configuración. Muchos usuarios notan además una mejora de rendimiento al forzar fp16.

Flash Attention en RDNA 3. Para exprimir rendimiento en la atención cruzada, puedes activar CK Flash Attention en Ajustes de Cómputo > Cross Attention > SDP Options. Requiere tener instalado rocm-hip-sdk porque descargará y compilará un paquete adicional en el arranque.

Docker sí o no. Tienes la opción de usar imágenes preconstruidas para acelerar la puesta en marcha, o construir tu propia imagen con las versiones exactas que necesitas. Si prefieres el control total de dependencias, el enfoque DIY con Docker y un requirements.txt pinneado es una buena práctica.

Ecosistema y frameworks compatibles

Las últimas releases de ROCm ponen mucho énfasis en IA práctica. PyTorch y TensorFlow cuentan con soporte establecido tanto para entrenamiento como para inferencia en Radeon sobre Linux. Ese binomio cubre la mayoría de flujos de investigación y despliegue actuales.

Para modelos grandes y serving, vLLM dispone de soporte completo, lo que facilita la inferencia eficiente de LLMs en GPUs AMD. Si te mueves con JAX, el soporte de momento se orienta a inferencia, así que planifica bien si tu pipeline depende del entrenamiento con XLA.

En el mundo «C++ first», llama.cpp funciona sobre ROCm para inferencia rápida y contenida en memoria, útil cuando quieres portabilidad y control fino del consumo. Es una alternativa excelente para entornos de edge o equipos con recursos ajustados.

ONNX Runtime con MIGraphX amplía el abanico para despliegue, con soporte extendido para INT8 e INT4 en inferencia. Esto ayuda a rebajar consumo de VRAM y acelerar tiempos afrontando modelos cuantizados, sin renunciar a la precisión aceptable en producción.

Por último, en la parte de entrenamiento eficiente, FlashAttention-2 habilita el backward pass, lo que mejora el rendimiento y reduce el uso de memoria en transformers, un plus si entrenas o reajustas modelos grandes en local.

Estado en Windows: vista previa y alternativas

Por primera vez, PyTorch cuenta con soporte oficial en Windows en modo «Preview» sobre GPUs Radeon y APUs Ryzen. Es una noticia positiva para quien no puede cambiar a Linux, pero implica asumir que hay áreas aún en construcción y que el rendimiento puede evolucionar con cada versión.

Si buscas vías alternativas, existe soporte no oficial como ZLUDA, que algunos usan para ejecutar determinados workloads sobre Windows con hardware AMD. También se mencionan rutas como DirectML, ONNX o Olive para la aceleración y compilación de modelos en el ecosistema Microsoft, con los matices y limitaciones propios de cada herramienta.

Conviene recalcar que, al estar en vista previa, PyTorch en Windows sobre ROCm puede no cubrir todos los casos ni ofrecer el mismo nivel de estabilidad que en Linux. Si tu proyecto es crítico, valora entornos dual-boot o containers en Linux donde la pila está más madura.

Rendimiento y solución de problemas: lo bueno, lo malo y lo que debes comprobar

Hay experiencias de usuario muy dispares. Por un lado, se reporta una mejora clara en compatibilidad y rendimiento con cada release, especialmente en IA aplicada (PyTorch, TensorFlow, vLLM). Por otro, también hay testimonios que describen instalaciones frustrantes con errores de dependencias o paquetes que no encajan con el sistema.

Guía avanzada: control total de Windows Update con wuauclt y usoclient

Un ejemplo real recoge a un usuario que probó seis distribuciones de Ubuntu en metal y, en todas, amdgpu_install arrojaba paquetes ausentes o incompatibles. Comparaba la experiencia con Nvidia (donde la instalación de drivers le resultaba «pan comido») y criticaba el desajuste entre marketing y realidad cuando su 7800 XT no figuraba como soportada oficialmente por ROCm en Linux.

En situaciones así, el primer paso es revisar la matriz de compatibilidad de hardware y versiones de AMD, ya que la ausencia de soporte oficial para una GPU concreta suele explicar fallos de instalación o cuelgues. El segundo es alinear distribución, kernel y versión de ROCm documentadas por AMD como «buenas» para ese hardware.

Si aun así te atascas, plantéate los métodos alternativos: instalación con runfile, creador de instalador offline o, en casos específicos, repos mantenidos por empleados de AMD. Mantén también a mano la opción de multi-versión para probar una release anterior o más reciente sin comprometer tu entorno principal.

Para rendimiento, recuerda los ajustes de MIOPEN_FIND_MODE y MIOPEN_FIND_ENFORCE, revisa la precisión (fp16 suele ser una apuesta segura en RDNA 3+ para equilibrar VRAM y velocidad) y activa CK Flash Attention cuando aplique. Estos pequeños cambios marcan diferencias notables en tiempos de inferencia y consumo.

Comunidad y recursos útiles

La comunidad pesa mucho en el día a día. Si trabajas con flujos creativos, el subreddit no oficial de ComfyUI es un buen punto de encuentro para compartir consejos, trucos y workflows. Piden mantener las publicaciones SFW, evitar flujos de pago, ceñirse al tema y, sobre todo, ser amables con quien está empezando.

Además, es fácil que encuentres scripts y configuraciones para automatizar instalaciones de ROCm, preparar entornos con PyTorch compatible o tunear SD.Next. Cruza siempre lo que leas con la documentación oficial y con las matrices de soporte vigentes para no perder tiempo.

Si estás empezando, la recomendación de AMD es clara: usa la guía de inicio rápido y, a partir de ahí, escala a métodos avanzados (multi-versión, runfile, offline) cuando tengas claro qué problema concreto resuelven en tu caso. Evitarás vueltas innecesarias.

Vista global. Quedémonos con las piezas clave: ROCm en Linux es hoy la ruta más estable para GPUs Radeon; Windows está en fase de construcción con PyTorch en «Preview»; la compatibilidad de hardware importa y mucho; y hay herramientas probadas (vLLM, ONNX Runtime con MIGraphX, llama.cpp, FlashAttention-2) que dan músculo a workflows reales de IA y cómputo.

Quien quiera una estación local privada para IA tiene recorrido con Radeon con hasta 48 GB de VRAM, y quien apueste por portátiles o equipos compactos puede explorar los APUs Ryzen con memoria compartida. Entre medias, Docker y los instaladores alternativos ofrecen caminos para entornos controlados o sin red.

Sin prometer milagros, con las piezas correctas encajadas y la versión adecuada para tu hardware, ROCm permite construir un entorno serio y productivo para IA y HPC, tanto en desarrollo como en despliegue. Y si algo no cuadra a la primera, no eres el único: la comunidad y la documentación están ahí para ayudarte a ajustarlo.