DeepSeek-V3.2-Exp, el modelo más reciente del chatbot chino introduce DSA, eficiencia, API y despliegue

DeepSeek-V3.2-Exp

DeepSeek-V3.2-Exp ha llegado como una iteración experimental que pone el foco en la eficiencia a gran escala y en contextos largos, con un guiño claro a la comunidad: código abierto, kernels publicados y una API más barata.

Más allá del ruido, la clave está en que este modelo, basado en V3.1-Terminus, debuta un mecanismo de atención dispersa de grano fino llamado DeepSeek Sparse Attention (DSA) que acelera entrenamiento e inferencia manteniendo la calidad. La compañía lo ha puesto ya en marcha en App, Web y API, y ha recortado los precios de uso en más de un 50%, un movimiento agresivo que, francamente, aprieta a la competencia.

Novedades clave de DeepSeek-V3.2-Exp

La innovación estrella es DSA, que permite una atención selectiva sobre partes relevantes del contexto sin recorrer exhaustivamente toda la secuencia. Según la propia compañía, el impacto en calidad es muy bajo, mientras que la ganancia en eficiencia en long-context es tangible.

En disponibilidad, el modelo está operativo en aplicación, web y API desde el día uno, acompañándose de una bajada de precios significativa (50%+) para facilitar pruebas y adopción. Para quien quiera comparar, DeepSeek mantiene un end-point temporal de V3.1-Terminus hasta el 15 de octubre de 2025 a las 15:59 UTC.

Rendimiento y benchmarks de DeepSeek-V3.2-Exp: paridad con V3.1-Terminus

DeepSeek ha buscado la paridad con V3.1-Terminus en un amplio abanico de pruebas, precisamente para aislar el efecto de introducir atención dispersa. En la práctica, esto se traduce en métricas comparables en razonamiento, coding y uso de herramientas tipo agente.

Distintas fuentes señalan cifras que ayudan a aterrizar expectativas: V3.2-Exp se describe como un modelo con 685 mil millones de parámetros y rendimiento similar o con ligeras variaciones según el dominio. En razonamiento sin herramientas se citan números como 85.0 en MMLU-Pro y 89.3 en AIME 2025; en escenarios de agente, aparecen 40.1 en BrowseComp y 67.8 en SWE Verified. Son resultados que encajan con la narrativa oficial de validar eficiencia antes que perseguir un salto bruto de exactitud.

Hay incluso comparativas finas: en tareas de codificación se menciona una subida a 2121 en Codeforces frente a 2046, mientras que en pruebas más humanísticas se observan ligeras caídas (p. ej., 19.8 frente a 21.7 en Humanity’s Last Exam). En conjunto, el cuadro sugiere equilibrio: mejoras puntuales y pequeñas concesiones, con la velocidad como protagonista.

DSA: la atención dispersa de grano fino, contada claro

La atención clásica se vuelve costosa con contextos amplios; DSA minimiza trabajo donde aporta poco. Al aplicar sparsity con control fino, el modelo concentra cómputo donde realmente encuentra señal, mejorando la latencia y reduciendo consumo, sin desvirtuar la salida.

A nivel de experiencia real, esto se nota en tareas que exigen mucho contexto: resúmenes de documentos extensos, análisis de logs, agentes que mantienen diálogos largos o pipelines que mezclan recuperación y generación. Justo ahí, la eficiencia no es un lujo: es la diferencia entre que algo sea usable a escala o no.

Disponibilidad de DeepSeek-V3.2-Exp, precios y comparativas

DeepSeek ha comunicado que V3.2-Exp está ya disponible en App, Web y API. Además, ha recortado el precio de la API en más de un 50% con efecto inmediato, una decisión que apunta a expandir adopción e incentivar pruebas comparativas.

Para quienes quieran cotejar con el modelo anterior, se mantiene V3.1-Terminus en un end-point temporal hasta el 15/10/2025 15:59 (UTC). La compañía también invita a enviar feedback a través de un formulario público, reforzando una dinámica de mejora continua con la comunidad.

Estado open source: pesos, informe técnico y kernels

DeepSeek publica el modelo en Hugging Face, junto a un informe técnico que documenta los cambios y los resultados. Hay una vocación clara de transparencia y de impulsar investigación aplicada a largo contexto con costes menores.

En el plano de kernels, hay dos vías: TileLang para lectura y prototipado más accesibles, y CUDA para máximas prestaciones. Los kernels de índices de logits (incluyendo variantes paginadas) están en DeepGEMM, mientras que los de atención dispersa se publican en FlashMLA. Esta separación facilita que la comunidad investigadora y la orientada a producción encuentren su encaje.

Ejecución local de DeepSeek-V3.2-Exp y demos de inferencia

DeepSeek ofrece un repositorio de inferencia con una demo actualizada para arrancar rápido e inspeccionar la arquitectura. El primer paso consiste en convertir los pesos de Hugging Face al formato esperado por la demo, definiendo el número de expertos y el paralelismo de modelo.

Comandos de ejemplo para conversión y generación interactiva (ajusta EXPERTS=256 y MP al número de GPUs): se pueden usar tal cual en un entorno preparado.

cd inference
export EXPERTS=256
python convert.py --hf-ckpt-path ${HF_CKPT_PATH} --save-path ${SAVE_PATH} --n-experts ${EXPERTS} --model-parallel ${MP}

export CONFIG=config_671B_v3.2.json
torchrun --nproc-per-node ${MP} generate.py --ckpt-path ${SAVE_PATH} --config ${CONFIG} --interactive

Para quienes prefieran SGLang, hay imágenes preparadas y comando de arranque. La compatibilidad abarca GPUs NVIDIA (H200), AMD (MI350) y ciertos NPUs, con etiquetas específicas.

# H200
docker pull lmsysorg/sglang:dsv32
# MI350
docker pull lmsysorg/sglang:dsv32-rocm
# NPUs
docker pull lmsysorg/sglang:dsv32-a2
docker pull lmsysorg/sglang:dsv32-a3

python -m sglang.launch_server --model deepseek-ai/DeepSeek-V3.2-Exp --tp 8 --dp 8 --page-size 64

Si prefieres vLLM, dispone de soporte desde el primer día. Conviene revisar las recetas oficiales para parámetros al día y optimizaciones por hardware.

API: endpoints, compatibilidad y caducidades

La API de DeepSeek sigue convenciones estándar y es compatible con SDKs populares. Por defecto, usando la URL base https://api.deepseek.com apuntas a V3.2-Exp, lo que simplifica la integración inicial y el acceso a la tarifa reducida.

Para pruebas comparativas, hay un endpoint temporal para V3.1-Terminus: https://api.deepseek.com/v3.1_terminus_expires_on_20251015. Ten presente la fecha y hora de caducidad (15 de octubre de 2025, 15:59 UTC) para planificar benchmarks.

Además, existe compatibilidad con el ecosistema de Anthropic. Puedes usar la base https://api.deepseek.com/anthropic para interacciones estilo Claude, o la variante asociada al endpoint temporal si necesitas comparar con el modelo anterior.

Autenticación y gestión de claves

Las solicitudes se autentican mediante Bearer en el encabezado Authorization. Genera tu clave desde el panel de DeepSeek y guárdala de forma segura, por ejemplo, en variables de entorno o gestores de secretos como AWS Secrets Manager.

El panel muestra uso y facturación para controlar consumo de tokens. Aunque los precios han bajado, conviene aplicar limitación de tasa y rotación periódica de claves en equipos, además de revocar cualquier clave comprometida sin demora.

Chat completions, modelos y solicitud básica

El endpoint central es /chat/completions, que procesa diálogos multi-turno y mantiene contexto entre llamadas, escenario ideal para las fortalezas de long-context de V3.2-Exp. Hay dos modos típicos de modelo: deepseek-chat y deepseek-reasoner.

Un cuerpo de solicitud simple podría verse así, usando JSON con comillas escapadas (aquí representadas como " para mayor claridad): incluye un prompt de sistema y uno de usuario.

{
  "model": "deepseek-chat",
  "messages": [
    { "role": "system", "content": "You are a technical expert." },
    { "role": "user", "content": "Explain sparse attention." }
  ],
  "stream": false
}

Cuando quieras respuestas en tiempo real, activa stream=true. Los encabezados deben incluir Content-Type: application/json y el token en Authorization: Bearer ${DEEPSEEK_API_KEY}. Si trabajas con razonamiento explícito, puedes controlar el comportamiento con la bandera reasoning.enabled.

Estructura de respuestas y streaming SSE

Las respuestas no en streaming incluyen campos como id, object, created, model, choices y usage. En choices encontrarás el contenido generado (role: «assistant»), y en usage el detalle de prompt_tokens, completion_tokens y total_tokens.

En modo streaming, la API envía Server-Sent Events. Cada fragmento llega como un evento data con un delta que debes ir acumulando. Es la opción ideal para interfaces interactivas o terminales con salida incremental.

Function calling y salidas en JSON estricto

Puedes definir herramientas para que el modelo decida cuándo llamar a una función, por ejemplo, para recuperar datos o ejecutar acciones. Esto encaja bien con flujos de agente y con integraciones backend.

Si necesitas salidas estructuradas, fuerza el modo JSON mediante response_format. Es útil para extracción de datos o validación automática en pipelines.

Ejemplos en Python con SDK estilo OpenAI

Con Python, la curva de entrada es muy suave. Configura la api_base a la de DeepSeek, define la clave y lanza peticiones; puedes alternar entre mode estándar y streaming según el caso de uso.

import openai
openai.api_base = "https://api.deepseek.com"
openai.api_key = "your_api_key_here"

response = openai.ChatCompletion.create(
  model="deepseek-chat",
  messages=[
    {"role": "system", "content": "You are a coding assistant."},
    {"role": "user", "content": "Write a Python function to calculate Fibonacci numbers."}
  ],
  stream=False
)
print(response.choices[0].message.content)

# Streaming
stream = openai.ChatCompletion.create(model="deepseek-chat", messages=[...], stream=True)
for chunk in stream:
    if chunk.choices[0].delta.content is not None:
        print(chunk.choices[0].delta.content, end="")

# Function calling (definición de herramientas)
tools = [
  {
    "type": "function",
    "function": {
      "name": "get_weather",
      "description": "Get current weather",
      "parameters": {
        "type": "object",
        "properties": { "location": {"type": "string"} },
        "required": [ "location" ]
      }
    }
  }
]

Para salidas en JSON estricto, establece response_format a {«type»: «json_object»}. Y si vas a mantener diálogos largos, recuerda ir acotando contexto para mantenerte dentro de los límites y maximizar eficiencia.

Integración con Apidog

Apidog acelera la prototipación de llamadas: importa especificaciones, guarda variables de entorno (como la clave), construye POSTs y prueba al vuelo. Su simulador de respuestas facilita testear casos extremos sin coste de tokens.

También genera fragmentos de código en distintos lenguajes y ofrece una vista de línea de tiempo para depurar autenticación o parámetros. Dado que V3.2-Exp maneja contextos amplios, Apidog te viene de perlas para experimentar con prompts largos y ver rendimiento.

Buenas prácticas para sacarle partido

Define prompts de sistema claros y escuetos que delimiten el comportamiento. Para problemas complejos, el modo razonador puede ayudar, combinándolo con técnicas de estructura de pensamiento de forma adecuada a tu caso.

Gestiona el contexto con cabeza: aunque V3.2-Exp tolera long-context (se citan casos de hasta 128K), un historial excesivo puede penalizar eficiencia. Implementa truncado inteligente, cachés para consultas frecuentes y batch donde tenga sentido.

En seguridad, sanea entradas para evitar inyecciones de prompt y registra interacciones para auditoría. Ajusta temperature y top_p según tu objetivo: valores bajos para determinismo, altos para creatividad.

Realiza pruebas A/B entre deepseek-chat y deepseek-reasoner para escoger el modo óptimo. Y recuerda la limitación de tasa para evitar sorpresas en la facturación.

Comparativa con V3.1-Terminus

La introducción de DSA trae mejoras de latencia que, en algunos escenarios, se aproximan a 3× de velocidad sin sacrificar paridad general de calidad. Es una evolución centrada en la relación potencia/eficiencia más que en récords de precisión.

Las pequeñas subidas en coding y ligeras caídas en dominios humanísticos reflejan el ajuste fino propio de un modelo que, por diseño, es experimental. El endpoint temporal de V3.1 permite comparaciones directas que muestren las ganancias de DSA en contexto largo.

Implementación local avanzada

Para despliegues sensibles a la privacidad o sin conexión, descargar los pesos desde Hugging Face y usar los scripts de conversión oficiales es el camino. Configura el número de expertos (por ejemplo, 256) y ajusta el paralelismo de modelo a tus GPUs.

La demo de inferencia permite testear en modo interactivo, y los kernels en TileLang o CUDA te ayudarán a exprimir rendimiento según prioridades: rapidez de prototipado o máximo throughput en producción.

Kernels abiertos y rendimiento

TileLang prioriza legibilidad y diseño para investigación, de modo que puedas iterar con agilidad en nuevas ideas. Es perfecto si vas a explorar variantes de atención dispersa u optimizaciones de memoria.

Para exprimir cada milisegundo, los kernels de CUDA entran en juego: los índices de logits (con versiones paginadas) están en DeepGEMM, mientras que los de atención dispersa viven en FlashMLA. Esta segmentación permite a cada equipo elegir el stack óptimo sin rehacer trabajo.

Licencia de DeepSeek-V3.2-Exp, cita y contacto

El repositorio y los pesos del modelo se publican bajo licencia MIT. Esto abre la puerta a usos comerciales con gran flexibilidad, fomentando adopción e innovación en el ecosistema.

Para referenciar V3.2-Exp en trabajos, DeepSeek proporciona una entrada de cita de tipo @misc con el título «DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention» y autoría «DeepSeek-AI» (año 2025). Ante dudas o incidencias, el correo de contacto es service@deepseek.com.

Recursos oficiales y enlaces útiles sobre DeepSeek-V3.2-Exp

Si quieres bajar el modelo, lo tienes en Hugging Face. El informe técnico se encuentra en GitHub, junto con detalles de implementación y evaluaciones.

Para pruebas de comparación entre V3.2-Exp y V3.1-Terminus, consulta la guía oficial. Y si quieres enviar sugerencias, tienes un canal de feedback público en https://feedback.deepseek.com/dsa.

Con V3.2-Exp, DeepSeek prioriza una idea sencilla: eficiencia sin renunciar a calidad. DSA marca el rumbo para modelos que soporten contextos gigantes a coste razonable, la API rebajada acerca estas capacidades a más equipos, y la apertura del stack (pesos, kernels y documentación) facilita que la comunidad investigue, compare y construya productos reales sin fricción.

Tagged Programas, Recursos

Linux-OS.net