Jefe legal de GitHub La oficial Shelley McKinley tiene mucho que hacer, con disputas legales en torno a su programador de pares Copilot, así como la Ley de Inteligencia Artificial (IA), que fue votada en el Parlamento Europeo esta semana como «la primera ley integral de IA del mundo». .”
Después de tres años de elaboración, la Ley de IA de la UE apareció por primera vez en 2021 a través de propuestas diseñadas para abordar el creciente alcance de la IA en nuestra vida cotidiana. El nuevo marco legal regirá las aplicaciones de IA en función de sus riesgos percibidos, con diferentes reglas y estipulaciones según la aplicación y el caso de uso.
GitHub, que Microsoft compró por 7.500 millones de dólares en 2018, se ha convertido en uno de los detractores más vocales en torno a un elemento muy específico de las regulaciones: una redacción confusa sobre cómo las reglas podrían crear responsabilidad legal para los desarrolladores de software de código abierto.
McKinley se unió a Microsoft en 2005, desempeñando diversos roles legales, incluidos negocios de hardware como Xbox y Hololens, así como puestos de asesor general con sede en Munich y Amsterdam, antes de ocupar el puesto de director legal en GitHub hace tres años.
«Me mudé a GitHub en 2021 para asumir este rol, que es un poco diferente a algunos roles de director jurídico: es multidisciplinario», dijo McKinley a TechCrunch. “Así que tengo cosas legales estándar como contratos comerciales, productos y cuestiones de recursos humanos. Y luego tengo accesibilidad, así que [that means] impulsando nuestra misión de accesibilidad, lo que significa que todos los desarrolladores pueden usar nuestras herramientas y servicios para crear cosas”.
McKinley también tiene la tarea de supervisar la sostenibilidad ambiental, lo que lleva directamente a los propios objetivos de sostenibilidad de Microsoft. Y luego están las cuestiones relacionadas con la confianza y la seguridad, que abarcan cosas como moderar el contenido para garantizar que «GitHub siga siendo un lugar acogedor, seguro y positivo para los desarrolladores», como dice McKinley.
Pero no se puede ignorar el hecho de que el papel de McKinley se ha entrelazado cada vez más con el mundo de la IA.
Antes de que la Ley de IA de la UE reciba luz verde esta semana, TechCrunch se reunió con McKinley en Londres.
Dos mundos chocan
Para los que no están familiarizados, GitHub es una plataforma que permite el desarrollo colaborativo de software, permitiendo a los usuarios alojar, administrar y compartir “repositorios” de código (una ubicación donde se guardan los archivos específicos del proyecto) con cualquier persona, en cualquier parte del mundo. Las empresas pueden pagar para que sus repositorios sean privados para proyectos internos, pero el éxito y la escala de GitHub han sido impulsados por el desarrollo de software de código abierto llevado a cabo de forma colaborativa en un entorno público.
En los seis años transcurridos desde la adquisición de Microsoft, mucho ha cambiado en el panorama tecnológico. La IA no era exactamente novedosa en 2018, y su creciente impacto se estaba volviendo más evidente en toda la sociedad, pero con la llegada de ChatGPT, DALL-E y el resto, la IA ha llegado firmemente a la conciencia general.
“Yo diría que la IA está asumiendo [a lot of] mi tiempo, eso incluye cosas como ‘¿cómo desarrollamos y comercializamos productos de IA’ y ‘¿cómo participamos en las discusiones sobre IA que se están llevando a cabo desde una perspectiva política?’, así como ‘¿cómo pensamos sobre la IA como ¿Llega a nuestra plataforma?’”, dijo McKinley.
El avance de la IA también ha dependido en gran medida del código abierto, y la colaboración y los datos compartidos son fundamentales para algunos de los sistemas de IA más destacados de la actualidad; esto tal vez se ejemplifique mejor con el modelo de IA generativa OpenAI, que comenzó con una sólida plataforma de código abierto. base antes de abandonar esas raíces por una jugada más patentada (este giro es también una de las razones por las que Elon Musk está demandando actualmente a OpenAI).
Por muy bien intencionadas que puedan ser las nuevas regulaciones europeas sobre IA, los críticos argumentaron que tendrían importantes consecuencias no deseadas para la comunidad de código abierto, lo que a su vez podría obstaculizar el progreso de la IA. Este argumento ha sido fundamental para los esfuerzos de lobby de GitHub.
«Los reguladores, los formuladores de políticas, los abogados… no son tecnólogos», dijo McKinley. “Y una de las cosas más importantes en las que he estado involucrado personalmente durante el año pasado es salir y ayudar a educar a la gente sobre cómo funcionan los productos. La gente sólo necesita una mejor comprensión de lo que está pasando, para poder pensar en estas cuestiones y llegar a las conclusiones correctas en términos de cómo implementar la regulación”.
En el centro de las preocupaciones estaba que las regulaciones crearían responsabilidad legal para los “sistemas de inteligencia artificial de propósito general” de código abierto, que se basan en modelos capaces de manejar una multitud de tareas diferentes. Si los desarrolladores de IA de código abierto fueran considerados responsables de los problemas que surjan más adelante (es decir, a nivel de aplicación), podrían estar menos dispuestos a contribuir y, en el proceso, se otorgaría más poder y control a las grandes empresas tecnológicas. desarrollando sistemas propietarios.
El desarrollo de software de código abierto, por su propia naturaleza, es distribuido, y GitHub (con sus más de 100 millones de desarrolladores en todo el mundo) necesita que los desarrolladores sean incentivados para seguir contribuyendo a lo que muchos consideran la cuarta revolución industrial. Y es por eso que GitHub ha sido tan ruidoso sobre la Ley de IA, presionando para obtener exenciones para los desarrolladores que trabajan en tecnología de IA de propósito general de código abierto.
«GitHub es el hogar del código abierto, somos los administradores de la comunidad de código abierto más grande del mundo», dijo McKinley. “Queremos ser el hogar de todos los desarrolladores, queremos acelerar el progreso humano a través de la colaboración de los desarrolladores. Por eso, para nosotros, es una misión crítica: no es sólo algo ‘divertido’ o ‘bueno tener’, sino que es fundamental para lo que hacemos como empresa como plataforma”.
Como sucedieron las cosas, el texto de la Ley de IA ahora incluye algunas exenciones para los modelos y sistemas de IA publicados bajo licencias gratuitas y de código abierto, aunque una excepción notable incluye aquellos casos en los que están en juego sistemas de IA “inaceptables” de alto riesgo. De hecho, los desarrolladores detrás de modelos de IA de propósito general de código abierto no tienen que proporcionar el mismo nivel de documentación y garantías a los reguladores de la UE, aunque aún no está claro qué modelos propietarios y de código abierto caerán bajo su categoría de «alto riesgo». categorización.
Pero dejando de lado esas complejidades, McKinley considera que su arduo trabajo de lobby ha dado sus frutos, ya que los reguladores se centran menos en los “componentes” de software (los elementos individuales de un sistema que es más probable que creen los desarrolladores de código abierto) y más en lo que es sucediendo en el nivel de la aplicación compilada.
«Ese es un resultado directo del trabajo que hemos estado haciendo para ayudar a educar a los formuladores de políticas sobre estos temas», dijo McKinley. “Lo que hemos podido ayudar a la gente a comprender es el aspecto de los componentes: hay componentes de código abierto que se desarrollan todo el tiempo, que se publican de forma gratuita y que [already] tienen mucha transparencia a su alrededor, al igual que los modelos de IA de código abierto. Pero, ¿cómo pensamos en asignar responsablemente el pasivo? En realidad, eso no depende de los desarrolladores iniciales, sino de productos comerciales posteriores. Así que creo que es una gran victoria para la innovación y una gran victoria para los desarrolladores de código abierto”.
Entra copiloto
Con el lanzamiento de su herramienta de programación de pares habilitada para IA Copilot hace tres años, GitHub preparó el escenario para una revolución generativa de IA que parece que revolucionará casi todas las industrias, incluido el desarrollo de software. Copilot sugiere líneas o funciones a medida que el desarrollador de software escribe, un poco como Smart Compose de Gmail acelera la escritura de correo electrónico al sugerir el siguiente fragmento de texto en un mensaje.
Sin embargo, Copilot ha molestado a un segmento sustancial de la comunidad de desarrolladores, incluidos aquellos de la organización sin fines de lucro Software Freedom Conservancy, que pidió a todos los desarrolladores de software de código abierto que abandonen GitHub tras el lanzamiento comercial de Copilot en 2022. ¿El problema? Copilot es un servicio propietario de pago que aprovecha el arduo trabajo de la comunidad de código abierto. Además, Copilot se desarrolló en connivencia con OpenAI (antes de la locura de ChatGPT), apoyándose sustancialmente en OpenAI Codex, que a su vez fue entrenado en una enorme cantidad de código fuente público y modelos de lenguaje natural.
En última instancia, Copilot plantea preguntas clave sobre quién fue el autor de un software: si se trata simplemente de regurgitar código escrito por otro desarrollador, ¿no debería ese desarrollador recibir crédito por ello? Bradley M. Kuhn, de Software Freedom Conservancy, escribió un artículo sustancial precisamente sobre ese tema, titulado: “Si el software es mi copiloto, ¿quién programó mi software?”
Existe la idea errónea de que el software de “código abierto” es gratuito para todos, que cualquiera puede simplemente tomar el código producido bajo una licencia de código abierto y hacer con él lo que quiera. Pero si bien las diferentes licencias de código abierto tienen diferentes restricciones, todas tienen una estipulación notable: los desarrolladores que reapropian el código escrito por otra persona deben incluir la atribución correcta. Es difícil hacerlo si no sabes quién (si es que alguien) escribió el código que Copilot te proporciona.
El alboroto de Copilot también resalta algunas de las dificultades para comprender simplemente qué es la IA generativa. Los modelos de lenguaje grandes, como los utilizados en herramientas como ChatGPT o Copilot, se entrenan en grandes cantidades de datos; de manera muy similar a como un desarrollador de software humano aprende a hacer algo estudiando detenidamente el código anterior, siempre es probable que Copilot produzca resultados similares. (o incluso idéntico) a lo que se ha producido en otros lugares. En otras palabras, siempre que coincide con el código público, la coincidencia «frecuentemente» se aplica a «docenas, si no cientos» de repositorios.
«Esto es IA generativa, no es una máquina de copiar y pegar», dijo McKinley. “La única vez que Copilot podría generar código que coincida con el código disponible públicamente, en general, es si se trata de una forma muy, muy común de hacer algo. Dicho esto, escuchamos que la gente tiene preocupaciones sobre estas cosas; estamos tratando de adoptar un enfoque responsable para garantizar que satisfacemos las necesidades de nuestra comunidad en términos de desarrolladores. [that] Estamos muy entusiasmados con esta herramienta. Pero también escuchamos los comentarios de los desarrolladores”.
A finales de 2022, varios desarrolladores de software estadounidenses demandaron a la empresa alegando que Copilot viola la ley de derechos de autor, calificándolo de «piratería de software de código abierto sin precedentes». En los meses intermedios, Microsoft, GitHub y OpenAI lograron que se desestimaran varias facetas del caso, pero la demanda continúa y los demandantes presentaron recientemente una queja enmendada sobre el supuesto incumplimiento de contrato de GitHub con sus desarrolladores.
La escaramuza legal no fue exactamente una sorpresa, como señala McKinley. “Definitivamente escuchamos a la comunidad; todos vimos las cosas que estaban ahí, en términos de inquietudes que surgieron”, dijo McKinley.
Con eso en mente, GitHub hizo algunos esfuerzos para disipar las preocupaciones sobre la forma en que Copilot podría «tomar prestado» el código generado por otros desarrolladores. Por ejemplo, introdujo una función de “detección de duplicaciones”. Está desactivado de forma predeterminada, pero una vez activado, Copilot bloqueará las sugerencias de finalización de código de más de 150 caracteres que coincidan con el código disponible públicamente. Y en agosto pasado, GitHub presentó una nueva función de referencia de código (aún en versión beta), que permite a los desarrolladores seguir las rutas de navegación y ver de dónde proviene un fragmento de código sugerido; armados con esta información, pueden seguir la letra de la ley tal como está. se refiere a requisitos de licencia y atribución, e incluso utilizar toda la biblioteca de la que se tomó el fragmento de código.
Pero es difícil evaluar la magnitud del problema sobre el que los desarrolladores han expresado su preocupación: GitHub ha dicho anteriormente que su función de detección de duplicaciones se activaría «menos del 1%» de las veces cuando se activara. Incluso entonces, generalmente ocurre cuando hay un archivo casi vacío con poco contexto local para ejecutar, por lo que en esos casos, es más probable que haga una sugerencia que coincida con el código escrito en otro lugar.
“Existen muchas opiniones: hay más de 100 millones de desarrolladores en nuestra plataforma, «, Dijo McKinley. “Y hay muchas opiniones entre todos los desarrolladores, en términos de lo que les preocupa. Por eso estamos tratando de reaccionar a los comentarios de la comunidad y tomar medidas de manera proactiva que creemos que ayudarán a hacer de Copilot un excelente producto y experiencia para los desarrolladores”.
¿Qué sigue?
El progreso de la Ley de IA de la UE es solo el comienzo; ahora sabemos que definitivamente está sucediendo y de qué forma. Pero aún pasarán al menos un par de años más antes de que las empresas tengan que cumplirlo, de forma similar a cómo las empresas tuvieron que prepararse para el RGPD en el ámbito de la privacidad de datos.
«Creo [technical] Los estándares van a desempeñar un papel importante en todo esto”, dijo McKinley. “Necesitamos pensar en cómo podemos conseguir normas armonizadas que las empresas puedan luego cumplir. Usando el RGPD como ejemplo, existen todo tipo de estándares de privacidad diferentes que la gente diseñó para armonizarlo. Y sabemos que a medida que se implemente la Ley de IA, habrá diferentes intereses, todos tratando de descubrir cómo implementarla. Por eso queremos asegurarnos de dar voz a los desarrolladores y a los desarrolladores de código abierto en esas discusiones”.
Además de eso, hay más regulaciones en el horizonte. El presidente Biden emitió recientemente una orden ejecutiva con miras a establecer estándares en torno a la seguridad de la IA, que da una idea de cómo Europa y Estados Unidos podrían, en última instancia, diferir en lo que respecta a la regulación, incluso si comparten una política similar «basada en el riesgo». acercarse.
«Yo diría que la Ley de IA de la UE es una ‘base de derechos fundamentales’, como cabría esperar en Europa», dijo McKinley. “Y el lado estadounidense es muy ciberseguridad, deepfakes, ese tipo de lente. Pero en muchos sentidos, se unen para centrarse en escenarios riesgosos, y creo que adoptar un enfoque basado en el riesgo es algo de lo que estamos a favor; es la forma correcta de pensar en ello”.
————————————————– —————–
Esta página transcribe artículos de diversas fuentes de dominio público, las ideas expresadas son responsabilidad de sus respectivos autores por lo cual no nos hacemos responsables del uso o la interpretación que se les dé. La información publicada nunca debe sustituir asesoría profesional, médica, legal o psicológica.