Shotcut 25.10 llega con IA local, HTML y captura nativa

Shotcut 25.10

El editor de vídeo de código abierto más conocido en el escritorio Linux vuelve a mover ficha. Shotcut 25.10 ya está entre nosotros y llega cargado de funciones que apuntan directamente a la productividad: inteligencia artificial que se ejecuta en local, generadores HTML para títulos con estilo y una grabación de pantalla nativa que evita depender de utilidades externas.

Tras un periodo de pruebas en beta, la publicación como versión estable confirma que el proyecto sigue su hoja de ruta con paso firme. La novedad estrella es el texto a voz (TTS) para notas y subtítulos, acompañada de un filtro de máquina de escribir, un generador de imagen/vídeo desde HTML y la actualización a FFmpeg 8, sin olvidar un buen paquete de correcciones y mejoras de compatibilidad.

Panorama general: qué cambia en Shotcut 25.10

El equipo ha ido incorporando funciones con IA en los últimos tiempos: primero llegó la transcripción con Whisper (voz a texto) y ahora se completa el círculo con texto a voz integrado y en local. Esta combinación abre flujos de trabajo muy potentes para narrar, subtitular y hacer contenidos accesibles sin salir del editor.

Junto a la IA, esta entrega introduce herramientas creativas apoyadas en HTML y funcionalidades pedidas por la comunidad, como la grabación de pantalla multiplataforma. El lanzamiento también eleva la base técnica con FFmpeg 8 y bibliotecas clave actualizadas.

Shotcut 25.10 introduce texto a voz local para notas y subtítulos

La implementación de TTS en Shotcut se apoya en KokoroDoki y el modelo Kokoro 82M, un motor de síntesis de voz abierto que puede trabajar en tiempo real. Cabe recordar que la versión 25.07 incorporó un modelo de speech-to-text. Lo más destacable es que todo ocurre en tu equipo: no hay envío a la nube, de modo que la privacidad y el control del proyecto quedan garantizados.

Para acelerar el procesamiento, KokoroDoki puede usar CPU o GPU NVIDIA con CUDA. En máquinas con gráfica compatible notarás tiempos de generación sustancialmente menores, algo que se agradece cuando hay que iterar sobre muchas líneas de subtítulos o cuando se preparan locuciones largas.

En cuanto a las voces, el paquete actual está más completo en inglés. El inglés americano cuenta con más de veinte voces, el británico ofrece en torno a ocho, y para otros idiomas la cobertura es más limitada por ahora. Es de esperar que el abanico se vaya ampliando en futuras revisiones, pero de entrada ya hay material suficiente para maquetas, prototipos y proyectos finales en inglés.

Hay un detalle técnico a tener en cuenta: la integración se ejecuta mediante Docker. Esto añade un paso extra de configuración respecto a otras funciones, especialmente si nunca has trabajado con contenedores. No es un muro infranqueable, pero conviene reservar unos minutos para dejarlo fino.

Shotcut 25.10, la generación desde HTML y efecto de máquina de escribir

La creatividad se expande con dos aportes que van de la mano: un nuevo generador «Imagen/Vídeo desde HTML» y un efecto de texto que simula una máquina de escribir. El enfoque es claro: llevar las capacidades del navegador a la línea de tiempo para producir títulos, cartelas y animaciones con fondo transparente y sin plugins raros.

El generador HTML crea imágenes o clips con transparencia por defecto. Para mantener la estabilidad, los vídeos generados se limitan a 15 fotogramas por segundo, un valor suficiente para grafismos y superposiciones que evita cuellos de botella. Nada más terminar, el resultado se abre automáticamente en el visor Origen junto a su HTML, de forma que puedes revisar o retocar el código sobre la marcha.

El efecto «Text: Typewriter» trae presets listos para usar y otros pensados para personalizar. Entre los perfiles incluidos están 3D image, elastic stroke, folded, gold metal o party time, que cubren desde acabados sólidos para imágenes hasta animaciones más juguetonas para vídeo. Si te manejas con CSS y JS, la puerta queda abierta a hacer cosas muy serias.

Compatibilidad con código compilado desde CodePen, ideal para reutilizar snippets y diseños que ya tengas en la recámara.
Render con límite de 15 FPS para estabilidad en la generación basada en navegador.
Posibilidades creativas con fondos transparentes sin composiciones complicadas.

Grabación de pantalla nativa y multiplataforma

Otra petición clásica de la comunidad por fin aterriza: grabación de pantalla integrada. La implementación varía según el entorno, pero en todos los casos se ha buscado el backend nativo más fiable para reducir fricciones.

X11: uso de FFmpeg como backend principal.
Wayland (GNOME): integración con la herramienta nativa de captura/screencast.
KDE Plasma: apoyo en Spectacle para la captura.
Alternativa: si ninguno de los anteriores está presente, se recurre a OBS Studio como comodín.

Con esto se evita instalar utilidades adicionales en la mayoría de casos y se unifica el flujo de trabajo: grabas, editas y exportas desde la misma aplicación. Para creadores de tutoriales, reseñas de software o sesiones formativas, es una mejora que se nota desde el primer día.

Shotcut 25.10 pone el motor multimedia al día: FFmpeg 8 y librerías

Debajo del capó también hay movimiento. La aplicación pasa a FFmpeg 8, lo que significa mejoras en codificación/decodificación, nuevos filtros y una compatibilidad más amplia con formatos modernos. A nivel práctico, exportaciones más consistentes y reproducción más suave en proyectos complejos.

Se actualizan además componentes esenciales como SVT-AV1, libaom, dav1d, libvpx, libwebp y whisper.cpp. Estas piezas afectan a códecs AV1, VP9, WebP o a la propia transcripción por IA, cerrando el círculo para workflows más robustos.

Mejoras en la interfaz de Shotcut 25.10 y flujo de trabajo

Pequeños detalles que suman: en el panel de Propiedades ahora están disponibles las opciones «Abrir con» y «Recargar». Son cambios modestos pero prácticos cuando hay que refrescar medios editados externamente o lanzarlos rápido con una app del sistema.

El nuevo generador «Imagen/Vídeo desde HTML» convive con el filtro «Text: Typewriter», por lo que puedes combinar la generación HTML fuera de la línea de tiempo (como activo de medios) con la animación de máquina de escribir aplicada a un clip ya insertado. Flexibilidad total según el caso de uso.

Correcciones de errores y estabilidad de Shotcut 25.10

El lanzamiento corrige varios problemas molestos que se habían reportado, similar a la actualización 25.08. Por ejemplo, fallos al exportar cuando el nombre o la ruta contenían el carácter &, un inconveniente más habitual de lo que parece en proyectos compartidos.

Se resuelve también un problema al iniciar la AppImage en Linux cuando estaba instalado AppImageLauncher, y se arreglan keyframes avanzados en «Text: Rich» que no se comportaban como debían. Por último, se corrige un error en el canal alfa al decodificar Ut Video, clave para quienes trabajan con transparencia en pipelines profesionales.

Instalación y compatibilidad

Para facilitar la vida en Linux, el proyecto distribuye una AppImage universal que puedes descargar y ejecutar sin instalar dependencias. En la práctica, es darle permisos de ejecución y listo.

En el frente de compatibilidad, se confirma apoyo para glibc 2.35 en Ubuntu 22.04 LTS, por lo que esa LTS está cubierta. Cualquier distribución moderna con kernel superior a 5.10 debería ir sin sorpresas, mientras que en sistemas más antiguos puede que necesites ajustar librerías.

Casos de uso: de creadores a educadores y devs

Para quienes hacen contenido en redes o YouTube, el pack es redondo. Grabas la pantalla sin salir del editor, aplicas efectos de texto con estilo y generas voces sintéticas para intros, explicaciones o llamadas a la acción sin tener que locutar cada cambio.

Tutoriales en vídeo: grabación integrada + anotaciones con TTS para ritmos dinámicos.
Presentaciones: títulos animados profesionales sin plugins de pago.
Accesibilidad: combinando Whisper (voz a texto) y TTS puedes mejorar subtitulado y narración.

En educación y formación, el valor es claro: clases grabadas, videotutoriales y material de apoyo con rótulos y voces generadas en local. Varios perfiles de voz en inglés permiten diversificar el tono según la audiencia.

Demos de software: captura nativa de aplicaciones sin depender de herramientas externas.
Documentación visual: vídeos con anotaciones técnicas y ráfagas de texto legibles.
Testing de interfaz: grabar y revisar flujos para retroalimentación rápida.

Comparativa rápida frente a la versión anterior

Respecto a la entrega previa, las mejoras son sustanciales. La grabación nativa elimina la necesidad de soluciones adicionales en la mayoría de escritorios y el tándem HTML+Typewriter multiplica las opciones de títulos y lower thirds.

Grabación integrada sin pasar por OBS (salvo escenario alternativo).
Efectos de texto avanzados con soporte HTML/CSS y presets de calidad.
Texto a voz para notas y subtítulos dentro del propio Shotcut.
FFmpeg 8 para mejor rendimiento y formatos actuales.
Estabilidad reforzada con arreglos en casos edge habituales.

Requisitos y configuración recomendada

Para que todo fluya, conviene apuntar a un equipo equilibrado. Con 8 GB de RAM puedes trabajar, pero si te mueves con proyectos medianos/grandes agradecerás tener 16 GB.

CPU: al menos 4 núcleos para efectos y codificaciones holgadas.
RAM: 8 GB mínimo, 16 GB recomendados.
GPU: compatible con OpenGL 3.3+; si usas CUDA, acelerará TTS con KokoroDoki.
Almacenamiento: SSD para medios y caché, especialmente en proyectos con códecs pesados.

En ajustes de proyecto, es buena idea igualar FPS y resolución a tu destino final para evitar reescalados innecesarios. Mantener proxies y previsualización optimizada te ahorrará tirones al sumar filtros y varias pistas.

Flujos de trabajo con HTML, CodePen y Typewriter

Si vas a exprimir el generador HTML, trabaja el diseño en tu editor o en CodePen, compila/empaca los recursos y pégalos en la plantilla de Shotcut. Así te aseguras que fuentes, estilos y scripts se resuelven sin llamadas externas.

Para animaciones de texto, alterna el filtro «Text: Typewriter» y la generación externa: cuando quieras rapidez y algo ligero, el filtro te saca del apuro; si necesitas acabados complejos, el flujo con HTML te dará más control (y transparencia nativa).

Notas sobre rendimiento, privacidad y límites

El enfoque local del TTS tiene dos grandes ventajas: protege tus contenidos y evita latencias o cuotas de servicios online. A cambio, exige configurar Docker y, si quieres velocidad máxima, contar con una GPU NVIDIA para CUDA.

El límite de 15 FPS en la generación HTML no es un capricho: estabiliza el render cuando el motor del navegador genera vídeo o imágenes con transparencias y capas. En la práctica, para rótulos, transiciones y overlays es más que suficiente.

Pequeños detalles que marcan diferencia

La opción «Abrir con» en Propiedades agiliza retocar un clip en una herramienta externa y volver sin perder el hilo, mientras que «Recargar» permite forzar la actualización de un medio si el archivo ha cambiado en disco. Esas dos teclas, más el visor Origen abriendo en automático lo generado por HTML, hacen el día a día más redondo.

La suma de FFmpeg 8 y las bibliotecas renovadas también se nota en tranquilidad: menos sorpresas al importar/exportar y mejor manejo de formatos recientes como AV1, junto a una decodificación más fina.

Quien venga de versiones anteriores se encontrará con un editor que ha madurado sin perder su esencia: gratuito, multiplataforma y con decisiones técnicas que favorecen trabajar en local. La sensación es que el proyecto pisa el acelerador justo donde toca: rendimiento, IA práctica y herramientas creativas con curvas de aprendizaje suaves.

Tagged Multimedia, Programas

Linux-OS.net