Whisper: Sistema libre de reconocimiento automático del habla
Durante el periodo 2020 – 2022, las tecnologías Blockchain y DeFi encabezadas principalmente por las criptomonedas acapararon mucha de la atención del ámbito tecnológico. Sobre todo, en sitios webs relacionados con tecnologías libres y abiertas, ya que, muchas de las mismas eran generadas a partir de esta base.
Y con ellas, esperamos, en su debido momento, un salto o incremento en la usabilidad de nuestros sistemas operativos GNU/Linux gracias a aplicaciones y plataformas más libres, pero también más descentralizadas y seguras. Mientras que, al día de hoy, algo se ha avanzado en eso. Pero, ahora muy posiblemente, durante los próximos 3 años o más, la tendencia es el uso de Tecnologías de Inteligencia Artificial (AI). Tecnologías que, muy seguramente como ChatGPT, Sidney, Bard, LLaMA y otras como, Whisper, tendrán la oportunidad de lograr el mismo objetivo.
Pero, antes de empezar este post sobre «Whisper», un sistema libre de reconocimiento automático del habla, les recomendamos explorar, a posterior, la anterior publicación relacionada:
Whisper: Open Source + IA + ASR
¿Qué es Whisper?
Seguramente, muchos ya conocen a la tecnología GPT (Generative Pre-trained Transformer en inglés, o Transformador preentrenado generativo en español) de OpenAI. La cual, es un modelo de inteligencia artificial que permite generar lenguaje escrito mediante el empleo de un modelo de lenguaje auto-regresivo, es decir, un algoritmo que permite crear la siguiente mejor palabra que seguiría a un texto dado. Y que se ha hecho extremadamente famosa gracias a ChatGPT.
ChatGPT es un sistema de procesamiento del lenguaje natural (PLN) de código abierto desarrollado, diseñado para generar conversaciones similares a las humanas a partir de texto de entrada. Por lo cual, es ampliamente utilizado en diversas aplicaciones y plataformas, para lograr chatbots, comprensión del lenguaje natural (NLU) y atención al cliente automatizada, entre muchas otras.
Sin embargo, OpenAI tiene muchos proyecto más de IA, entre los que destaca «Whisper». El cual, según su sitio web oficial, es descrito como un proyecto de código abierto que aporta un modelo versátil de reconocimiento del habla que puede transcribir, identificar y traducir varios idiomas.
Whisper es un sistema de reconocimiento automático del habla (ASR) entrenado con 680.000 horas de datos multilingües y multitarea supervisados recogidos de la web. Demostramos que el uso de un conjunto de datos tan amplio y diverso mejora la solidez frente a los acentos, el ruido de fondo y el lenguaje técnico. Presentación de Whisper
Mientras que, en su sección oficial en GitHub, añaden más detalles sobre el mismo de la forma siguiente:
Whisper es un modelo de reconocimiento de voz de propósito general. Está entrenado en un gran conjunto de datos de audio diverso y también es un modelo multitarea que puede realizar reconocimiento de voz multilingüe, así como traducción de voz e identificación de idioma.
¿Qué podría aportar esta tecnología IA a los Sistema Operativos?
Así como, ChatGPT ha llegado para quedarse y ayudar en tareas como búsquedas más precisas y amigables por internet; generar, resumir y traducir textos; y sostener charlas o asistir a personas con diferentes necesidades, todo mediante la introducción de texto. Whisper puede fácilmente aportarle a esas mismas tareas los oídos y boca que tan necesarios pueden ser para hacer mucho más amigable la tarea de hacer todo esto mediante un ratón (mouse) y teclado.
Por ende, tanto en Linux como en otros Sistemas Operativos de Escritorio y Móviles, pudiéramos estar pronto viendo una nueva generación de aplicaciones AI, con un nivel extremadamente avanzado de interacción, las cuales pudieran fácilmente prescindir de la introducción manual de texto. Es decir, que pudieran escuchar, entender y responder a su usuario interlocutor, mediante un micrófono y unas cornetas.
Por lo que, no sería nada raro que, en la próxima década, al encender tu ordenador con GNU/Linux, lo primero que salga en pantalla sea el rostro (GUI) de una IA, dándonos un saludo de bienvenida, y preguntándonos que deseamos hacer, para ella misma abrir las aplicaciones y empezar a ejecutar las órdenes solicitadas.
Tales como: Realizar un búsqueda en Internet, tomar un dictado para escribir un documento, abrir un editor de imágenes o videos para crear o cargar un archivo a modificar, entre muchísimas más.
Por último, Whisper actualmente puede ser instalado sobre Linux y Windows o probado en línea en la web de Playground de OpenAI. Mientras que existen interesantes herramientas que ya utilizan dicha tecnología, siendo 2 buenos ejemplos las siguientes: Whisper Typer Tool y Speech Translate.
Resumen
En resumen, esperemos que todas estas nuevas tecnologías de Inteligencia Artificial disponibles y en construcción, sobre todo las que tienen un origen, base o licenciamiento libre y abierto, como ChatGPT y «Whisper» de OpenAI, contribuyan a muchas cosas positivas para la humanidad. Pero, sobre todo, a que nuestros actuales sistemas operativos libres y abiertos puedan seguir mejorando en usabilidad y accesibilidad, al contar con apps y características mucho más avanzadas y amigables para cualquier tipo de usuario.
Si te ha gustado esta publicación, no dejes de compartirla con otros en tus sitios webs, canales, grupos o comunidades favoritas de redes sociales o sistemas de mensajería. Y, por último, recuerda visitar nuestra página de inicio para explorar más noticias, además de, unirte a nuestro canal oficial de Telegram de DesdeLinux, o este grupo para más información sobre el tema de hoy.