OpenAI dice que está desarrollando una útil para permitir a los creadores controlar mejor cómo se utiliza su contenido en el entrenamiento de la IA generativa.
La útil, llamamiento Media Manager, permitirá a los creadores y propietarios de contenido identificar sus trabajos en OpenAI y especificar cómo quieren que esos trabajos se incluyan o excluyan de la investigación y capacitación en IA.
El objetivo es tener la útil implementada para 2025, dice OpenAI, mientras la compañía trabaja con “creadores, propietarios de contenido y reguladores” para alcanzar un standard, tal vez a través del comité directivo de la industria al que se unió recientemente.
«Esto requerirá una investigación de vanguardia en enseñanza obligatorio para construir una útil única de este tipo que nos ayude a identificar texto, imágenes, audio y video protegidos por derechos de autor en múltiples fuentes y reverberar las preferencias de los creadores», escribió OpenAI en una publicación de blog. «Con el tiempo, planeamos introducir opciones y funciones adicionales».
Parecería que Media Manager, cualquiera que sea la forma que adopte, es la respuesta de OpenAI a las crecientes críticas a su enfoque para desarrollar IA, que depende en gran medida de la cuna de datos disponibles públicamente de la web. Más recientemente, ocho destacados periódicos estadounidenses, incluido el Chicago Tribune, demandaron a OpenAI por infracción de propiedad intelectual relacionada con el uso de IA generativa por parte de la empresa, acusando a OpenAI de robar artículos para entrenar modelos de IA generativa que luego comercializaba sin compensar (ni acreditar) las publicaciones originales.
Los modelos de IA generativa, incluidos los de OpenAI (el tipo de modelos que pueden analizar y crear texto, imágenes, videos y más), se entrenan con una enorme cantidad de ejemplos que generalmente provienen de sitios públicos y conjuntos de datos. OpenAI y otros proveedores de IA generativa argumentan que el uso calibrado, la doctrina reglamentario que permite el uso de obras protegidas por derechos de autor para realizar una creación secundaria siempre que sea transformadora, protege su maña de extraer datos públicos y usarlos para el entrenamiento de modelos. Pero no todos están de acuerdo.
De hecho, OpenAI argumentó recientemente que sería inalcanzable crear modelos de IA avíos sin material protegido por derechos de autor.
Pero en un esfuerzo por aplacar a los críticos y defenderse de futuras demandas, OpenAI ha tomado medidas para encontrarse con los creadores de contenido en el medio.
El año pasado, OpenAI permitió a los artistas «optar por no participar» y eliminar su trabajo de los conjuntos de datos que la empresa utiliza para entrenar sus modelos de gestación de imágenes. La compañía todavía permite a los propietarios de sitios web indicar a través del standard robots.txt, que da instrucciones sobre los sitios web a los robots de rastreo web, si el contenido de su sitio se puede extraer para entrenar modelos de IA. Y OpenAI continúa firmando acuerdos de abuso con grandes propietarios de contenido, incluidas organizaciones de telediario, bibliotecas de medios de archivo y sitios de preguntas y respuestas como Stack Overflow.
Sin secuestro, algunos creadores de contenido dicen que OpenAI no ha ido lo suficientemente allá.
Los artistas han descrito el flujo de trabajo de restricción voluntaria de imágenes de OpenAI, que requiere cursar una copia individual de cada imagen para eliminarla contiguo con una descripción, como gravoso. Según se informa, OpenAI paga relativamente poco por la abuso de contenido. Y, como reconoce el propio OpenAI en la publicación del blog del martes, las soluciones actuales de la compañía no abordan escenarios en los que las obras de los creadores se citan, se remezclan o se vuelven a imprimir en plataformas que no controlan.
Más allá de OpenAI, varios terceros están intentando crear herramientas universales de procedencia y restricción voluntaria para la IA generativa.
Startup Spawning AI, cuyos socios incluyen Stability AI y Hugging Face, ofrece una aplicación que identifica y rastrea las direcciones IP de los bots para asediar los intentos de raspado, así como una almohadilla de datos donde los artistas pueden registrar sus obras para no permitir la capacitación por parte de proveedores que eligen respetar las peticiones. Steg.AI e Imatag ayudan a los creadores a establecer la propiedad de sus imágenes aplicando marcas de agua imperceptibles para el ojo humano. Y Nightshade, un plan de la Universidad de Chicago, “envenena” datos de imágenes para volverlos inútiles o perjudiciales para el entrenamiento de modelos de IA.
————————————————– —————–
Esta página transcribe artículos de diversas fuentes de dominio conocido, las ideas expresadas son responsabilidad de sus respectivos autores por lo cual no nos hacemos responsables del uso o la interpretación que se les dé. La información publicada nunca debe sustituir consultorio profesional, médica, reglamentario o psicológica.