El líder de la SFC quiere anular el término «IA de código abierto»
Hace pocos días la SFC hizo oficial su nueva definición de «Inteligencia Artificial de Código Abierto» a lo cual Bradley M. Kuhn, líder de Software Freedom Conservancy (SFC), ha expresado su preocupación sobre dicha definición.
Kuhn menciona que su intención de anular dicho término es debido a que los criterios de «IA abierta» actuales pueden tener consecuencias serias al diluir el valor del término «código abierto» y dividir a la comunidad. Uno de los puntos que ha generado conflicto, es la exclusión del requisito de publicar los datos usados para entrenar los modelos de IA.
Y es que, según la OSI, incluir este requisito haría imposible que la mayoría de los modelos lingüísticos actuales se consideren abiertos, ya que sus datos de entrenamiento son en su mayoría privados.
Kuhn considera que esta definición fue aprobada de manera apresurada, sin el mismo proceso exhaustivo y prolongado que le dio la definición al «código abierto» tradicional. En su opinión, OSI debería haber calificado esta nueva guía como una «recomendación» en lugar de una «definición», dado que los sistemas de IA aún están en sus primeras etapas de desarrollo.
El resumen aquí, en mi opinión, es simple: OSAID no exige la reproducibilidad por parte del público del proceso científico de construcción de estos sistemas, porque no establece requisitos suficientes sobre la concesión de licencias y la divulgación pública de conjuntos de entrenamiento para los llamados sistemas de «código abierto». La OSI se negó a agregar este requisito debido a una falla fundamental en su proceso; decidieron que «no tenía sentido publicar una definición que ningún sistema de IA existente podría cumplir actualmente».
Por su parte la OSI argumenta que la definición ayudará a evitar el uso ambiguo del término «abierto» en el contexto de IA, dado que muchos fabricantes etiquetan sus modelos como abiertos solo porque permiten acceso a ciertos componentes, como los coeficientes de ponderación, pero restringen su uso o no revelan todos los detalles de implementación.
La OSI ha establecido que un sistema de IA abierto solo necesita ofrecer información detallada sobre los datos utilizados en su entrenamiento, sin requerir que los datos sean públicos. Kuhn, sin embargo, considera que esta limitación impide que los modelos de IA cumplan con la reproducibilidad necesaria en el software de código abierto, donde el acceso completo a los datos y al código es esencial.
En su crítica, Kuhn menciona que, al omitir el acceso a los datos de entrenamiento, la OSI ha reducido la definición a un enfoque puramente tecnológico, sin reconocer la IA como un sistema completo y reproducible, lo cual, según él, está en conflicto con los principios del código abierto.
Realmente no sé con certeza (aún) si la única forma de respetar los derechos de los usuarios en un sistema de IA generativa respaldado por LLM es usar solo conjuntos de entrenamiento que estén disponibles públicamente y licenciados bajo licencias de software libre. Creo que esa es la forma ideal y preferida para la modificación de esos sistemas.
La definición de «sistema de IA abierto» aprobada por la OSI ha generado controversias ya que garantiza solo dos de las cuatro libertades fundamentales del software de código abierto: la capacidad de usar y distribuir. Sin embargo, las libertades de estudiar y modificar el modelo no están completamente aseguradas, principalmente debido a la falta de acceso a los datos de entrenamiento. Esta omisión complica, además, la detección de posibles puertas traseras insertadas en los modelos de IA.
Desde el punto de vista de OSI, la restricción en la publicación de datos se entiende, ya que a menudo obedece a factores externos al control de los desarrolladores, como la protección de datos confidenciales, derechos de autor, o acuerdos de licencia con terceros. Sin embargo, los críticos, incluidos Bradley Kuhn y miembros de la comunidad Debian, argumentan que estos desafíos no justifican una definición que debilita los principios de código abierto. Según ellos, la ausencia de acceso a datos de entrenamiento disminuye el valor de la IA abierta y amenaza con diluir el significado y la integridad del movimiento de código abierto.
Kuhn menciona que planea participar en las próximas elecciones de liderazgo de OSI para intentar revocar esta definición y promover que se clasifique solo como una recomendación, y no una norma. Además, otros organismos como la Open Source Foundation están desarrollando su propia definición de IA libre, que incluirá un requisito para la disponibilidad de datos, aunque reconociendo excepciones éticas para ciertos tipos de datos, como los médicos o personales.
Finalmente si estás interesado en poder conocer más al respecto, puedes consultar los detalles en el siguiente enlace.