AMD acaba de dar uno de los anuncios más interesantes para el mercado de la inteligencia artificial local. Durante una demostración pública liderada por Lisa Su, la compañía mostró cómo un sistema basado en el procesador Ryzen AI Max+ 395, conocido por su nombre clave Strix Halo, puede ejecutar modelos de lenguaje extremadamente grandes sin depender de la nube ni de costosos servidores con GPUs dedicadas.
La propuesta de AMD apunta directamente a desarrolladores, investigadores, profesionales de IA y entusiastas del homelab que buscan ejecutar modelos avanzados de forma privada, sin costos recurrentes por suscripciones ni limitaciones impuestas por proveedores externos.
¿Qué hace tan especial al Ryzen AI Max+ 395?
El AMD Ryzen AI Max+ 395 es una APU de nueva generación que integra:
|
Especificación |
Detalle |
|---|---|
|
CPU |
16 núcleos Zen 5 / 32 hilos |
|
GPU |
Radeon 8060S con 40 Compute Units RDNA 3.5 |
|
NPU |
XDNA 2 con más de 50 TOPS |
|
Memoria unificada |
Hasta 128 GB LPDDR5X |
|
Memoria asignable a GPU |
Hasta 96 GB oficialmente, con configuraciones Linux que pueden superar los 110 GB |
|
Arquitectura |
Strix Halo |
La clave está en su arquitectura de memoria unificada. A diferencia de una GPU tradicional, donde la VRAM es un recurso fijo y limitado, el Ryzen AI Max+ 395 permite compartir una enorme cantidad de memoria entre CPU y GPU. AMD destaca que se pueden asignar hasta 112 GB para cargas de IA en determinadas configuraciones.
Más memoria que una RTX 5090
Uno de los principales problemas para ejecutar modelos de lenguaje avanzados es la memoria.
Comparativa rápida:
|
Hardware |
Memoria disponible |
|---|---|
|
RTX 4090 |
24 GB |
|
RTX 5090 |
32 GB |
|
Ryzen AI Max+ 395 |
Hasta 96-112 GB compartidos |
Esto significa que modelos que normalmente requieren múltiples GPUs o servidores especializados pueden ejecutarse en un único equipo compacto.
Soporte para modelos de hasta 235B parámetros
Fabricantes como GMKtec ya comercializan sistemas basados en este procesador, como el EVO-X2, promocionado como el primer mini PC capaz de ejecutar modelos de hasta 235 mil millones de parámetros localmente.
Entre los modelos que pueden ejecutarse localmente se encuentran:
- DeepSeek-R1
- Qwen3
- Llama 4
- GPT-OSS
- QWQ
- Otros modelos compatibles con Ollama, llama.cpp y LM Studio
Las pruebas publicadas por GMKtec muestran velocidades cercanas a 11 tokens por segundo con modelos Qwen3 de 235B parámetros en sistemas con 128 GB de memoria.
¿Por qué esto puede cambiar el mercado de la IA local?
Hasta ahora existían dos opciones principales:
Opción 1: Servicios en la nube
- ChatGPT Plus o Pro
- Claude
- Gemini
- Cursor
- Copilot
Ventajas:
- Máxima calidad de modelos.
- Sin necesidad de hardware potente.
Desventajas:
- Costos mensuales recurrentes.
- Dependencia de Internet.
- Restricciones de uso.
- Problemas de privacidad para información sensible.
Opción 2: Infraestructura propia
Ejecutar modelos de 70B o más parámetros generalmente requería:
- Varias GPUs NVIDIA.
- Equipos con cientos de GB de RAM.
- Consumo eléctrico elevado.
Con Strix Halo aparece una tercera alternativa:
- Equipo compacto.
- Consumo relativamente contenido.
- Capacidad para modelos muy grandes.
- Coste único de adquisición.
Casos de uso donde destaca
RAG empresarial privado
Empresas que necesitan consultar documentación interna sin enviar datos a terceros.
Desarrollo de agentes autónomos
Frameworks como:
- Open WebUI
- AnythingLLM
- Langflow
- n8n
- OpenHands
pueden aprovechar modelos locales sin depender de APIs externas.
Laboratorios de IA y homelabs
Los administradores de sistemas y entusiastas de DevOps pueden montar plataformas de IA locales para pruebas, automatización y experimentación.
Desarrollo de software asistido por IA
Modelos especializados en programación como Qwen-Coder o DeepSeek-Coder pueden ejecutarse completamente en entornos internos.
¿Cuánto cuesta?
Los equipos comerciales con Ryzen AI Max+ 395 y 128 GB de memoria suelen encontrarse entre los USD 1.800 y USD 2.800 dependiendo del fabricante y la configuración. También existen estaciones de trabajo oficiales de AMD y otros fabricantes con precios superiores a los USD 3.900.
Aunque la inversión inicial es elevada, para usuarios que pagan varias suscripciones premium de IA durante todo el año, el retorno puede ser interesante a mediano plazo.
Linux juega un papel importante
La comunidad de IA local está adoptando rápidamente esta plataforma gracias al soporte de:
- ROCm
- llama.cpp
- Ollama
- LM Studio
- Open WebUI
- vLLM
Ya existen pruebas reales ejecutando Fedora, Ubuntu, Arch Linux y Linux Mint con modelos de entre 30B y 120B parámetros utilizando la memoria unificada de Strix Halo.
¿Estamos ante el comienzo de una nueva generación de IA local?
Todo indica que sí. AMD ha identificado uno de los principales cuellos de botella de la IA moderna: la memoria. Mientras NVIDIA continúa dominando el mercado de aceleración por GPU, la estrategia de AMD apuesta por ofrecer enormes cantidades de memoria accesible en un formato compacto y relativamente asequible.
Todavía no reemplazará completamente a servicios como ChatGPT, Claude o Gemini para todos los usuarios, pero sí abre la puerta a un escenario donde empresas, desarrolladores y profesionales puedan ejecutar modelos avanzados localmente, con total privacidad y sin depender de la nube.
Si la evolución de Strix Halo continúa y AMD logra mantener esta ventaja en memoria unificada, podríamos estar viendo el inicio de una nueva categoría de equipos diseñados específicamente para la IA personal y empresarial.






