Guía completa para instalar y usar GPT-OSS en Linux paso a paso

gpt-oss en linux

La llegada de modelos de lenguaje abiertos como GPT-OSS ha marcado un antes y un después en el uso de inteligencia artificial en local. Cada vez más usuarios quieren beneficiarse de la potencia de estos modelos sin depender de la nube o exponer sus datos a terceros. Instalar GPT-OSS en Linux es uno de los retos y oportunidades más interesantes para quienes buscan autonomía tecnológica y máxima privacidad.

Esta guía exhaustiva te llevará de la mano a través del proceso de instalación y uso de GPT-OSS en Linux. Analizaremos todo lo que necesitas saber: desde los requisitos, diferencias entre modelos, consideraciones de hardware, elección y configuración de herramientas como Ollama y LM Studio, hasta la integración con la terminal, personalización y solución de problemas habituales. Todo ello con consejos prácticos, ejemplos reales y sin omitir detalles clave para que exprimas al máximo las posibilidades que te ofrece GPT-OSS trabajando en tu propio ordenador.

¿Qué es GPT-OSS y qué ventajas tiene ejecutarlo en Linux?

GPT-OSS es la propuesta open source de modelos de lenguaje de OpenAI. En su lanzamiento, la compañía ha liberado dos versiones principales: gpt-oss-20b y gpt-oss-120b. Estas variantes están diseñadas para funcionar localmente y permiten a cualquier usuario experimentar, programar o trabajar con IA avanzada sin depender de servidores externos ni conexiones a la nube.

¿Por qué merece la pena usar GPT-OSS en local en lugar de servicios online?

Privacidad total: tus datos se quedan en tu equipo, sin enviar nada a internet.
Evitas costes de API: perfecto para desarrollos intensivos o experimentales.
Personalización: puedes controlar parámetros, adaptar el comportamiento y afinar el modelo a tareas específicas.
Acceso offline: perfectos para entornos sin conectividad o con restricciones de seguridad.

Linux, por su flexibilidad y robustez, es el entorno ideal para desplegar y aprovechar todo el potencial de GPT-OSS, especialmente cuando se requieren herramientas de línea de comandos y automatización avanzada.

Diferencias clave entre GPT-OSS-20b y GPT-OSS-120b

Aunque ambos modelos comparten filosofía open source, sus requisitos técnicos son muy diferentes. Esto es esencial al elegir cuál instalar en tu equipo.

gpt-oss-20b: es el modelo más accesible y puede ejecutarse en ordenadores de consumo siempre que tengan al menos 16 GB de memoria (preferiblemente VRAM). Su rendimiento es muy bueno para la mayoría de tareas e incluso puede funcionar en portátiles potentes o PCs de escritorio equipados con GPUs medianamente modernas.
gpt-oss-120b: este modelo requiere mínimo 60-80 GB de VRAM (memoria gráfica), algo que solo está al alcance de estaciones de trabajo profesionales o hardware de centro de datos. Su nivel de desempeño y capacidad de razonamiento está a la altura de lo más avanzado de OpenAI, pero para la mayoría de usuarios domésticos o desarrolladores individuales, gpt-oss-20b es la opción lógica.

En resumen, si tienes un ordenador con recursos adecuados y buscas experimentar, comienza siempre por gpt-oss-20b. De esta forma, evitas problemas de rendimiento y te aseguras una experiencia fluida sin comprometer la funcionalidad fundamental del modelo.

Importante: si tu equipo dispone de menos de 16 GB de memoria VRAM, el modelo usará la memoria RAM convencional. Es necesario que cuentes, al menos, con esos 16 GB de RAM física para evitar ralentizaciones extremas y posibles cuelgues.

Consideraciones previas y requisitos técnicos

Instalar y ejecutar GPT-OSS en Linux implica ciertos requisitos mínimos de hardware y software. Antes de avanzar, asegúrate de cumplirlos para no encontrarte con problemas desagradables más adelante.

Hardware recomendado para gpt-oss-20b: mínimo 16 GB de RAM (mejor si es VRAM dedicada en GPU), CPU moderna y al menos 20-50 GB de espacio libre en disco.
Para gpt-oss-120b: necesitarás una GPU profesional de 80 GB o más, entorno de centro de datos y almacenamiento SSD rápido de alta capacidad.
Sistema operativo: Linux es el más sencillo de configurar para este tipo de aplicaciones. MacOS es compatible y Windows requiere pasos adicionales.
Software auxiliar: controladores oficiales de tu GPU, Ollama o LM Studio para facilitar ejecución y gestión de modelos, y eventualmente Docker para interfaces web avanzadas o pruebas de API.
Conexión a internet estable: solo necesaria para descargar los modelos y componentes la primera vez.

Dedica todos los recursos posibles al proceso de instalación y ejecución: cierra las aplicaciones innecesarias y libera memoria antes de lanzar GPT-OSS.

Instalando Ollama en Linux: primeras herramientas para manejar GPT-OSS

Ollama se ha convertido en la plataforma de referencia para ejecutar modelos de lenguaje en local con facilidad. Es gratuito, open source y simplifica la descarga, gestión y uso de GPT-OSS y otros LLM (Large Language Models).

Instalarlo es muy sencillo:

Dirígete a la web ollama.com y descarga el instalador específico para Linux.

Abre una terminal y ejecuta:

curl -fsSL https://ollama.com/install.sh | sh

Comprueba la instalación ejecutando (debería devolverte el número de versión instalada):
```
ollama --version
```
Inicia el servidor Ollama:
```
ollama serve
```

Con estos pasos, Ollama queda listo para descargar y gestionar tus modelos favoritos.

Además de la CLI, Ollama puede usarse con interfaces web como Open WebUI o mediante API, lo que lo convierte en una herramienta muy versátil tanto para usuarios técnicos como para quienes prefieren entorno gráfico.

Descargando e instalando los modelos GPT-OSS

El siguiente paso fundamental es descargar el modelo GPT-OSS que se adapta a tu equipo. Ambos modelos están disponibles en Hugging Face y se pueden importar fácilmente con Ollama.

Elige el modelo que vas a usar. Lo más habitual será gpt-oss-20b salvo que dispongas de hardware profesional.
En la terminal, ejecuta (esto descargará e instalará la versión optimizada para tu entorno):
```
ollama pull gpt-oss-20b
```

La descarga puede ser pesada (desde 12 a 50 GB) y llevará tiempo dependiendo de tu conexión. No cierres la terminal ni suspendas el equipo durante el proceso.

Cuando termine, puedes listar los modelos disponibles con ollama list.

Ejecutando y usando GPT-OSS desde la terminal

Ollama proporciona varias formas de interactuar con los modelos: por línea de comandos, mediante llamadas API, o integrándolo en aplicaciones propias.

Sesión interactiva: ejecuta ollama run gpt-oss-20b y empieza a chatear directamente desde la terminal.
Consultas directas: para recibir respuestas rápidas sin sesión, puedes lanzar:
```
ollama run gpt-oss-20b "¿Qué es Linux y por qué es importante para la IA?"
```
Ajustar el comportamiento: modifica parámetros como temperatura y top-p para controlar la creatividad y diversidad de las respuestas, por ejemplo:
```
ollama run gpt-oss-20b --temperature 0.2 --top-p 0.9 "Explica qué es el aprendizaje supervisado"
```

El modelo responderá en tiempo real, aunque la velocidad dependerá de la potencia de tu hardware. En equipos sin GPU, el rendimiento puede ser mucho más lento, sobre todo con modelos grandes. No te asustes si al principio tarda varios segundos o minutos en responder, especialmente en equipos justos de recursos.

Personalización avanzada: Modelfiles en Ollama

Uno de los puntos fuertes de Ollama es la posibilidad de crear modelos personalizados usando los llamados Modelfiles. Esto te permite adaptar GPT-OSS a tareas específicas (por ejemplo, ser un asistente experto en Python, redactar textos periodísticos, etc.)

Crea un archivo llamado Modelfile en una carpeta vacía.

Especifica el modelo de base y los parámetros personalizados, por ejemplo:

FROM gpt-oss-20b
SYSTEM "Eres un asistente experto en ciencia de datos. Responde de forma clara y breve."
PARAMETER temperature 0.4
PARAMETER num_ctx 4096

En la misma carpeta, ejecuta:

ollama create asistente-datos -f Modelfile

Arranca el modelo personalizado con:
```
ollama run asistente-datos
```

Este método te permite adaptar rápidamente el comportamiento del modelo sin necesidad de reentrenar ni modificar sus parámetros internos.

Integrando GPT-OSS en tus aplicaciones: uso de la API de Ollama

Ollama expone una API local, compatible con el formato de OpenAI, para poder integrar GPT-OSS en tus aplicaciones o flujos de trabajo.

El endpoint principal es http://localhost:11434. Puedes realizar peticiones POST a los endpoints /api/generate y /api/chat con JSONs similares a los de OpenAI.
Ejemplo en terminal:
curl http://localhost:11434/api/generate -H «Content-Type: application/json» -d ‘{«model»: «gpt-oss-20b», «prompt»: «Desarrolla una función en Python para ordenar números»}’
Para uso en Python puedes utilizar la librería openai señalando el endpoint local:

from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
response = client.chat.completions.create(
    model="gpt-oss-20b",
    messages=[{"role": "user", "content": "¿Qué es machine learning?"}]
)
print(response.choices[0].message.content)

Así puedes reutilizar scripts o integraciones creadas para la API de OpenAI sin cambios significativos.

Otras herramientas para ejecutar GPT-OSS: LM Studio y Open WebUI

Además de Ollama, existen otras plataformas que permiten gestionar e interactuar con modelos GPT-OSS en local. Entre ellas, LM Studio destaca por su facilidad de uso y su enfoque visual.

Descarga LM Studio desde su web oficial, instálalo y ábrelo. La aplicación te guiará por un asistente de configuración sencillo, donde podrás elegir el modelo más compatible con tu hardware. Si tu equipo es limitado, te sugerirá alternativas más ligeras, aunque siempre puedes forzar la instalación de GPT-OSS 20b.

Para instalar el modelo:

Abre LM Studio y deja la app ejecutándose.
En tu navegador, busca el modelo GPT-OSS en Hugging Face o en la web oficial y selecciona la opción “Use Model in LM Studio”.
Confirma la apertura desde el navegador y haz clic en “Download”. El proceso puede tardar más de lo esperado debido al tamaño del modelo (aprox. 12 GB solo para la versión pequeña).
Cuando termine la descarga, aparecerá la opción “Use in new chat” para empezar a interactuar con el modelo desde la propia interfaz de LM Studio.

¿Qué pasa si tienes menos de 16 GB de RAM? Podrás ejecutar el modelo, pero la experiencia será mucho más lenta. Cuantos más recursos dediques, mejor será la fluidez y velocidad.

Solución de problemas habituales y optimización

Como todo software avanzado, pueden surgir complicaciones al ejecutar GPT-OSS en local. Aquí van los problemas más comunes y cómo resolverlos:

Fallos por memoria insuficiente: gpt-oss-120b no arrancará si no dispones de una GPU de 80 GB (o más). Usa gpt-oss-20b o ajusta los recursos del sistema.
Modelo no descargado: si Ollama da error, comprueba con ollama list que has bajado el modelo deseado.
La API parece no funcionar: asegúrate de que Ollama esté corriendo (comando ollama serve) y que el puerto 11434 no está ocupado.
Lentitud extrema: ocurre al ejecutar modelos grandes sin GPU o con poca RAM. Cierra aplicaciones, reduce el tamaño de contexto y prueba con prompts más cortos.
Problemas con drivers: asegúrate de que los controladores NVIDIA o AMD estén correctamente instalados para aprovechar la aceleración por hardware.

En caso de dudas graves, consulta el repositorio oficial de la herramienta que estés usando o foros especializados como Hugging Face.

Depuración y trabajo avanzado con Apidog y Open WebUI

Para quienes desarrollan aplicaciones o experimentan con prompts complejos, herramientas como Apidog son imprescindibles. Permiten visualizar las respuestas en streaming de la API de Ollama, analizar el razonamiento del modelo y encontrar posibles errores.

Instala Apidog desde su web oficial.
Crea una petición a la API local de Ollama usando el endpoint adecuado y activa la opción de streaming.
Apidog muestra cada token recibido en tiempo real, facilitando la depuración y comparación de parámetros como temperatura o tamaño del contexto.

También puedes usar Open WebUI (vía Docker) para disponer de una interfaz web avanzada, con historial de chat y subida de documentos para respuestas contextuales.

docker run -d -p 3000:8080 --name open-webui ghcr.io/open-webui/open-webui:main

Accede en tu navegador a http://localhost:3000 y selecciona el modelo deseado para chatear cómodamente.

Integración avanzada con la terminal: ejemplo con Python

Si quieres llevarlo más allá e integrar GPT-OSS o ChatGPT en scripts, Linux te lo pone fácil usando Python y la API de OpenAI apuntando al backend de Ollama.

Asegúrate de tener Python 3 y pip instalados:
Instala las dependencias principales:
```
pip3 install openai requests
```
Exporta la API key local en tu terminal (puede no ser necesaria usando Ollama, pero se deja para compatibilidad):
```
export OPENAI_API_KEY=ollama
```
Crea un script como el siguiente:

import openai
openai.api_base = "http://localhost:11434/v1"
openai.api_key = "ollama"

prompt = input("Introduce tu pregunta: ")
response = openai.ChatCompletion.create(
    model="gpt-oss-20b",
    messages=[{"role": "user", "content": prompt}]
)
print(response['choices'][0]['message']['content'])

De esta forma, puedes crear un chatbot personalizado en tu terminal y aprovechar GPT-OSS para cualquier tarea que necesites en Linux.

Optar por GPT-OSS y Linux como plataforma de IA local proporciona máxima personalización, privacidad y ahorro de costes. Instalando los modelos adecuados, eligiendo la herramienta de gestión que mejor se adapte a tu perfil (Ollama, LM Studio, Open WebUI) y afinando la configuración a tu hardware, podrás disfrutar de una experiencia al nivel de los centros de datos, pero desde la comodidad de tu escritorio y manteniendo el control absoluto sobre tus datos y procesos. Si quieres experimentar, desarrollar o simplemente aprender cómo funcionan los LLM en local, esta es tu mejor oportunidad.

Tagged GNU / Linux, Programas

Linux-OS.net