¿Alguna vez te has preguntado por qué la IA conversacional como ChatGPT dice «Lo siento, no puedo hacer eso» o alguna otra negativa cortés? OpenAI ofrece una observación limitada al razonamiento detrás de las reglas de interacción de sus propios modelos, ya sea apegándose a las pautas de la marca o negándose a crear contenido NSFW.
Los modelos de jerigonza holgado (LLM) no tienen límites naturales sobre lo que pueden o dirán. Ésa es en parte la razón por la que son tan versátiles, pero además por la que alucinan y son fácilmente engañadas.
Es necesario que cualquier maniquí de IA que interactúe con el manifiesto en normal tenga algunas barreras de seguridad sobre lo que debe y no debe hacer, pero definirlas (y mucho menos hacerlas cumplir) es una tarea sorprendentemente difícil.
Si alguno le pide a una IA que genere un montón de afirmaciones falsas sobre una figura pública, debería negarse, ¿verdad? Pero, ¿qué pasa si ellos mismos son desarrolladores de IA y crean una colchoneta de datos de desinformación sintética para un maniquí de detector?
¿Qué pasa si alguno pide recomendaciones de portátiles? debe ser objetivo ¿no? Pero, ¿qué pasa si el maniquí lo está implementando un fabricante de portátiles que quiere que solo responda con sus propios dispositivos?
Todos los fabricantes de IA se enfrentan a acertijos como estos y buscan métodos eficientes para controlar sus modelos sin que rechacen solicitudes perfectamente normales. Pero rara vez comparten exactamente cómo lo hacen.
OpenAI está contrarrestando un poco la tendencia al divulgar lo que pasión su “definición de maniquí”, una colección de reglas de suspensión nivel que rigen indirectamente ChatGPT y otros modelos.
Hay objetivos de metanivel, algunas reglas estrictas y algunas pautas generales de comportamiento, aunque, para ser claros, no son estrictamente hablando con lo que se prepara el maniquí; OpenAI habrá desarrollado instrucciones específicas que logren lo que estas reglas describen en jerigonza natural.
Es una observación interesante a cómo una empresa establece sus prioridades y maneja los casos extremos. Y hay numerosos ejemplos de cómo podrían desarrollarse.
Por ejemplo, OpenAI establece claramente que la intención del desarrollador es básicamente la ley más suscripción. Entonces, una traducción de un chatbot que ejecuta GPT-4 podría proporcionar la respuesta a un problema matemático cuando se la solicite. Pero si su desarrollador ha preparado ese chatbot para que nunca proporcione simplemente una respuesta directa, en su ocupación ofrecerá trabajar en la decisión paso a paso:
Una interfaz conversacional podría incluso negarse a conversar sobre cualquier tema no suficiente, para cortar de raíz cualquier intento de manipulación. ¿Por qué dejar que un ayudante de cocina intervenga sobre la billete de Estados Unidos en la disputa de Vietnam? ¿Por qué un chatbot de servicio al cliente debería aceptar ayudarte con el trabajo en curso de tu novelística erótica sobrenatural? Apágalo.
Incluso se vuelve complicado en cuestiones de privacidad, como pedir el nombre y el número de teléfono de alguno. Como señala OpenAI, obviamente una figura pública como un corregidor o un miembro del Congreso debería tener sus datos de contacto, pero ¿qué pasa con los comerciantes de la zona? Probablemente esté aceptablemente, pero ¿qué pasa con los empleados de una determinada empresa o los miembros de un partido político? Probablemente no.
Designar cuándo y dónde trazar la tilde no es sencillo. Siquiera lo es crear las instrucciones que hagan que la IA se adhiera a la política resultante. Y no hay duda de que estas políticas fracasarán todo el tiempo a medida que la multitud aprenda a eludirlas o encuentre accidentalmente casos extremos que no se tienen en cuenta.
OpenAI no está mostrando todo su poder aquí, pero es útil para los usuarios y desarrolladores ver cómo se establecen estas reglas y pautas y por qué, de forma clara, aunque no necesariamente exhaustiva.
————————————————– —————–
Esta página transcribe artículos de diversas fuentes de dominio manifiesto, las ideas expresadas son responsabilidad de sus respectivos autores por lo cual no nos hacemos responsables del uso o la interpretación que se les dé. La información publicada nunca debe sustituir información profesional, médica, reglamentario o psicológica.