Copilot, el asistente de AI de GitHub recibió fuertes críticas de la comunidad open source
Hace algunos dias compartimos aquí en el blog la noticia de Copilot, el cual es un asistente de inteligencia artificial para la escritura de código de GitHub y el cual básicamente presento como una herramienta de ayuda para los programadores.
Aun que Copilot se diferencia de los sistemas de finalización de código tradicionales por la capacidad de formar bloques de código bastante complejos, hasta funciones listas para usar sintetizadas teniendo en cuenta el contexto actual. Ya que Copilot es una función de IA que ha aprendido a través de varios millones de líneas de código y reconoce lo que está planeando en función de la definición de una función, etc.
Si bien Copilot representa un gran ahorro de tiempo debido a su aprendizaje de millones de líneas de código, lo cual ha comenzado a despertar el temor de que la herramienta pueda eludir los requisitos de licencia de fuente abierta y violar las leyes de derechos de autor.
Armin Ronacher, un desarrollador destacado en la comunidad de código abierto, es uno de los desarrolladores que se sintió frustrado con la forma en que se construyó Copilot, ya que menciona que experimentó con la herramienta y publicó una captura de pantalla en Twitter en la que menciona que le pareció extraño que Copilot, una herramienta de inteligencia artificial que se comercializa, pudiera producir código con derechos de autor.
Ante esto algunos desarrolladores comenzaron a alarmarse por el uso de código público para entrenar la inteligencia artificial de la herramienta. Una preocupación es que si Copilot reproduce partes suficientemente grandes del código existente, podría infringir los derechos de autor o blanquear el código fuente abierto para usos comerciales sin la licencia adecuada (básicamente un arma de doble filo).
I don’t want to say anything but that’s not the right license Mr Copilot. pic.twitter.com/hs8JRVQ7xJ
— Armin Ronacher (@mitsuhiko) July 2, 2021
Además, se demostró que la herramienta también puede incluir información personal que publicaron los desarrolladores y en un caso, replicó el código ampliamente citado del juego de PC Quake III Arena de 1999, incluidos los comentarios del desarrollador John Carmack.
Cole Garry, un portavoz de Github, se negó a comentar y se contentó con referirse a las preguntas frecuentes existentes de la compañía en la página web de Copilot, que reconoce que la herramienta puede producir fragmentos de texto a partir de sus datos de entrenamiento.
Esto sucede aproximadamente el 0.1% de las veces, según GitHub, generalmente cuando los usuarios no brindan suficiente contexto en torno a sus solicitudes o cuando el problema tiene una solución trivial.
«Estamos en el proceso de implementar un sistema de seguimiento de origen para detectar los raros casos en los que se repite el código de todos los datos de entrenamiento, para ayudarlo a tomar buenas decisiones en tiempo real. Con respecto a las sugerencias de GitHub Copilot», dice la pregunta frecuente de la compañía.
Mientras tanto, el director ejecutivo de GitHub, Nat Friedman, argumentó que la formación de sistemas de aprendizaje automático sobre datos públicos es un uso legítimo, al tiempo que reconoce que «la propiedad intelectual y la inteligencia artificial serán objeto de una interesante discusión política» en la que la empresa participará activamente.
En uno de sus tweets, escribió:
“GitHub Copilot fue, por su propia admisión, formado en montañas de código GPL, así que no estoy segura de cómo esto no es una forma de lavado de dinero. Código de fuente abierta en trabajos comerciales. La frase «no suele reproducir las piezas exactas» no es muy satisfactoria «.
“Los derechos de autor no solo cubren copiar y pegar; cubre obras derivadas. GitHub Copilot se formó en código fuente abierto y la suma total de todo lo que conoce se ha tomado de ese código. No hay una interpretación posible del término «derivado» que no incluya esto «, escribió. “La generación anterior de IA se entrenó en textos y fotos públicos, sobre los cuales es más difícil reclamar derechos de autor, pero este está tomado de grandes trabajos con licencias muy explícitas probadas por los tribunales, por lo que espero con ansias lo inevitable/acciones colectivas/masivas sobre esto ”.
Finalmente, toca esperar a las acciones que tomara GitHub para modificar la forma en la que se entrena Copilot, ya que al final de cuentas tarde o temprano la forma en que genera el código puede poner en problemas a mas de un desarrollador.