Cómo configurar Ollama con modelos locales y sin Internet para usar IA desde la terminal o VSCode

Published:

La inteligencia artificial local está ganando terreno entre desarrolladores, sysadmins y profesionales DevOps que buscan privacidad, velocidad y trabajar sin depender de servicios cloud. Herramientas como  Ollama permiten ejecutar modelos LLM directamente en Linux, Windows o macOS, incluso completamente offline.

En esta guía vamos a ver cómo instalar Ollama, descargar modelos como DeepSeek o QwenCoder, administrarlos y conectarlos con Visual Studio Code mediante el plugin Continue para tener un asistente de IA local similar a GitHub Copilot, pero sin enviar código a Internet.

¿Qué es Ollama y por qué usarlo?

OllamaAttachment.tiff es una plataforma diseñada para ejecutar modelos de lenguaje de manera local utilizando CPU o GPU. Su principal ventaja es la simplicidad: instalar, descargar un modelo y empezar a usarlo en minutos.

Entre sus beneficios más importantes:

  • Funciona completamente offline
  • No envía información a terceros
  • Permite usar modelos open source
  • Compatible con GPUs NVIDIA y Apple Silicon
  • Integración sencilla con VS Code y herramientas CLI
  • Ideal para entornos corporativos o laboratorios aislados

Para entornos donde la privacidad es crítica, como infraestructura, seguridad o desarrollo interno, ejecutar IA localmente es una ventaja enorme frente a soluciones SaaS.


Paso 1: Instalar Ollama en Linux

La instalación oficial es extremadamente simple.

Ejecutar:

curl -fsSL https://ollama.com/install.sh | sh

El instalador detectará automáticamente la arquitectura y configurará el servicio.

Documentación oficial:

Descargas oficiales de Ollama

Verificar que Ollama quedó funcionando

Una vez instalado:

ollama --version

En muchas distribuciones modernas el servicio queda iniciado automáticamente.


Paso 2: Descargar modelos IA localmente

Ollama trabaja descargando modelos preparados para ejecución local. Yo estuve probando los siguientes:

Descargar QwenCoder

Modelo orientado a programación:

ollama pull qwen2.5-coder:7b

Descargar DeepSeek

Modelo muy popular actualmente para razonamiento y generación de código:

ollama pull deepseek-r1:14b

Dependiendo de la velocidad de Internet y tamaño del modelo, la descarga puede tardar varios minutos.


Administrar modelos en Ollama

Ver modelos instalados

ollama list

Eliminar modelos

ollama rm qwen2.5-coder:7b

Ejecutar modelos

Ejecutar QwenCoder:

ollama run qwen2.5-coder:7b

Cuando el modelo inicia, ya se puede interactuar desde la terminal como si fuera ChatGPT.

Ejemplo:

>>> explicame kubernetes como si fuera un sysadmin

Requisitos de hardware recomendados

Aunque Ollama puede funcionar con CPU, para modelos grandes la experiencia mejora muchísimo con GPU.

Recomendaciones aproximadas

Modelo

RAM mínima

GPU recomendada

qwen2.5-coder:7b

8 GB

NVIDIA 6 GB VRAM

deepseek-r1:14b

16-24 GB

NVIDIA 12 GB VRAM

Para laboratorios caseros o notebooks, QwenCoder suele ser una excelente opción inicial.


Paso 3: Integrar Ollama con VS Code usando Continue

Ahora viene la parte más interesante: utilizar IA local dentro de Visual Studio Code.

El plugin más utilizado actualmente es  Continue.


Configurar Continue para usar Ollama local

Una vez instalado el plugin, aparece en el lateral izquierdo, y vamos a su configuración y nos va a detectar el modelo que descargamos previamente.

Ya se puede usar desde VSCode o desde la terminal, pero la prueba de fuego que te recomiendo es desconectar internet y probarlo. Con estos simples pasos tengo una AI corriendo localmente. Aclaro que justo el modelo de Deepseek me dio que no era compatible por eso probé QWEN.

Consideraciones importantes

El tamaño del modelo importa

DeepSeek 14B ofrece mejores respuestas, pero consume bastante más RAM y VRAM.

Si el hardware es limitado:

  • usar modelos 7B
  • cuantizaciones Q4/Q5
  • ejecutar sólo CPU

El rendimiento depende mucho de la GPU

Con NVIDIA y CUDA la experiencia cambia radicalmente.

En CPU los tiempos de respuesta pueden ser lentos.


Conclusión

Ollama se convirtió rápidamente en una de las herramientas más interesantes para ejecutar inteligencia artificial localmente. Combinado con modelos como DeepSeek o QwenCoder y plugins como Continue, permite transformar VS Code en un entorno de desarrollo asistido por IA completamente privado y offline.

Para sysadmins, DevOps y desarrolladores que trabajan con infraestructura sensible o simplemente quieren independencia de servicios cloud, esta arquitectura local representa una alternativa muy potente y cada vez más madura.

Además, al tratarse de modelos open source, el ecosistema evoluciona constantemente y aparecen nuevas variantes optimizadas prácticamente cada semana.

- Advertisement -
Jorge
Jorgehttps://nksistemas.com
Soy Jorge, Sr Sysadmin Linux/DevOps/SRE y creador de NKSistemas.com Trabajo con plataformas: Linux, Windows, AWS, GCP, VMware, Helm, kubernetes, Docker, etc.

Related articles