Cada semana parece traer consigo un nuevo modelo de IA y, lamentablemente, la tecnología ha superado la capacidad de cualquier persona para evaluarla de manera integral. He aquí por qué es prácticamente imposible revisar algo como ChatGPT o Gemini, por qué es importante intentarlo de todos modos y nuestro enfoque (en constante evolución) para hacerlo.
El tl;dr: Estos sistemas son demasiado generales y se actualizan con demasiada frecuencia para que los marcos de evaluación sigan siendo relevantes, y los puntos de referencia sintéticos proporcionan sólo una visión abstracta de ciertas capacidades bien definidas. Empresas como Google y OpenAI cuentan con esto porque significa que los consumidores no tienen otra fuente de verdad que las propias afirmaciones de esas empresas. Entonces, aunque nuestras propias revisiones serán necesariamente limitadas e inconsistentes, un análisis cualitativo de estos sistemas tiene un valor intrínseco simplemente como contrapeso en el mundo real a las exageraciones de la industria.
Primero veamos por qué es imposible, o puedes saltar a cualquier punto de nuestra metodología aquí:
- ¿Por qué es imposible?
- ¿Por qué las revisiones de la IA son cruciales?
- como lo estamos haciendo
Los modelos de IA son demasiado numerosos, demasiado amplios y demasiado opacos
El ritmo de lanzamiento de los modelos de IA es demasiado rápido para que cualquiera que no sea un equipo dedicado pueda realizar algún tipo de evaluación seria de sus méritos y deficiencias. En TechCrunch recibimos noticias sobre modelos nuevos o actualizados literalmente todos los días. Si bien los vemos y tomamos nota de sus características, hay una cantidad limitada de información entrante que uno puede manejar, y eso es antes de comenzar a buscar en el nido de ratas de los niveles de lanzamiento, requisitos de acceso, plataformas, portátiles, bases de código, etc. Es como intentar hervir el océano.
Afortunadamente, nuestros lectores (hola y gracias) están más preocupados por los modelos de primera línea y los grandes lanzamientos. Si bien Vicuña-13B es ciertamente interesante para investigadores y desarrolladores, casi nadie lo usa para fines cotidianos, como lo hacen con ChatGPT o Gemini. Y eso no es sombra de Vicuña (o Alpaca, o cualquier otro de sus hermanos peludos): estos son modelos de investigación, por lo que podemos excluirlos de nuestra consideración. Pero incluso eliminar 9 de cada 10 modelos por falta de alcance todavía deja más de lo que cualquiera puede manejar.
La razón es que estos modelos grandes no son simplemente fragmentos de software o hardware que se pueden probar, calificar y terminar con ellos, como comparar dos dispositivos o servicios en la nube. No son meros modelos, sino plataformas, con docenas de modelos y servicios individuales integrados o acoplados a ellas.
Por ejemplo, cuando le preguntas a Géminis cómo llegar a un buen lugar tailandés cerca de ti, no solo mira hacia adentro, a su conjunto de entrenamiento, y encuentra la respuesta; después de todo, la posibilidad de que algún documento ingerido describa explícitamente esas instrucciones es prácticamente nula. En cambio, consulta de forma invisible una serie de otros servicios y submodelos de Google, dando la ilusión de que un solo actor responde simplemente a su pregunta. La interfaz de chat es solo una nueva interfaz para una enorme variedad de servicios en constante cambio, tanto impulsados por IA como de otro tipo.
Como tal, el Gemini, el ChatGPT o el Claude que revisamos hoy pueden no ser los mismos que usarás mañana, ¡o incluso a la misma hora! Y como estas empresas son reservadas, deshonestas o ambas cosas, no sabemos realmente cuándo y cómo se producen esos cambios. Una revisión de Gemini Pro que dice que falla en la tarea X puede envejecer mal cuando Google parchea silenciosamente un submodelo un día después, o agrega instrucciones de ajuste secretas, por lo que ahora tiene éxito en la tarea X.
Ahora imagina eso, pero para las tareas X a X+100.000. Porque, como plataformas, a estos sistemas de IA se les puede pedir que hagan casi cualquier cosa, incluso cosas que sus creadores no esperaban o afirmaron, o cosas para las que los modelos no están diseñados. Por lo tanto, es fundamentalmente imposible probarlos exhaustivamente, ya que incluso un millón de personas que utilizan los sistemas todos los días no llegan al «final» de lo que son capaces (o incapaces) de hacer. Sus desarrolladores descubren esto todo el tiempo a medida que surgen constantemente funciones «emergentes» y casos extremos indeseables.
Además, estas empresas tratan sus métodos de formación internos y sus bases de datos como secretos comerciales. Los procesos de misión crítica prosperan cuando pueden ser auditados e inspeccionados por expertos desinteresados. Todavía no sabemos si, por ejemplo, OpenAI utilizó miles de libros pirateados para darle a ChatGPT sus excelentes habilidades en prosa. No sabemos por qué el modelo de imágenes de Google diversificó a un grupo de propietarios de esclavos del siglo XVIII (bueno, tenemos una idea, pero no exactamente). Harán declaraciones evasivas sin pedir disculpas, pero como no hay ningún beneficio en hacerlo, nunca nos dejarán detrás de la cortina.
¿Significa esto que los modelos de IA no se pueden evaluar en absoluto? Claro que pueden, pero no es del todo sencillo.
Imagine un modelo de IA como un jugador de béisbol. Muchos jugadores de béisbol saben cocinar bien, cantar, escalar montañas y tal vez incluso codificar. Pero a la mayoría de la gente le importa si pueden batear, fildear y correr. Son cruciales para el juego y, en muchos sentidos, también se pueden cuantificar fácilmente.
Lo mismo ocurre con los modelos de IA. Pueden hacer muchas cosas, pero una gran proporción de ellas son trucos de salón o casos extremos, mientras que sólo un puñado son el tipo de cosas que millones de personas seguramente harán con regularidad. Con ese fin, tenemos un par de docenas de «puntos de referencia sintéticos», como generalmente se les llama, que prueban un modelo en función de qué tan bien responde preguntas de trivia, resuelve problemas de código, escapa a acertijos de lógica, reconoce errores en prosa o detecta sesgos o toxicidad.
Estos generalmente producen un informe propio, generalmente un número o una breve cadena de números, que dicen cómo les fue en comparación con sus pares. Es útil tenerlos, pero su utilidad es limitada. Los creadores de la IA han aprendido a “enseñar la prueba” (la tecnología imita la vida) y a centrarse en estas métricas para poder promocionar el rendimiento en sus comunicados de prensa. Y como las pruebas suelen realizarse de forma privada, las empresas son libres de publicar sólo los resultados de las pruebas en las que su modelo obtuvo buenos resultados. Por tanto, los puntos de referencia no son suficientes ni insignificantes para evaluar modelos.
¿Qué punto de referencia podría haber predicho las “inexactitudes históricas” del generador de imágenes de Géminis, produciendo un conjunto ridículamente diverso de padres fundadores (¡notoriamente ricos, blancos y racistas!) que ahora se está utilizando como evidencia de que el virus de la mente despierta infecta a la IA? ¿Qué punto de referencia puede evaluar la “naturalidad” de la prosa o del lenguaje emotivo sin solicitar opiniones humanas?
Estas “cualidades emergentes” (como a las empresas les gusta presentar estas peculiaridades o intangibles) son importantes una vez que se descubren, pero hasta entonces, por definición, son incógnitas.
Volviendo al jugador de béisbol, es como si el deporte aumentara en cada juego con un nuevo evento, y los jugadores con los que podrías contar como bateadores decisivos de repente se quedaran atrás porque no saben bailar. Así que ahora también necesitas un buen bailarín en el equipo, incluso si no pueden jugar. Y ahora necesitas un evaluador de contratos emergentes que también pueda jugar en la tercera base.
Lo que las IA son capaces de hacer (o lo que se dice que son capaces de hacer de todos modos), lo que realmente se les pide que hagan, quién, qué se puede probar y quién hace esas pruebas: todo esto está en constante cambio. ¡No podemos enfatizar lo suficiente cuán absolutamente caótico es este campo! Lo que empezó como béisbol se ha convertido en Calvinball, pero todavía es necesario que alguien sea árbitro.
Por qué decidimos revisarlos de todos modos
Ser golpeados por una avalancha de tonterías de relaciones públicas de IA todos los días nos vuelve cínicos. Es fácil olvidar que hay personas que sólo quieren hacer cosas interesantes o normales, y las empresas más grandes y ricas del mundo les dicen que la IA puede hacer esas cosas. Y el simple hecho es que no puedes confiar en ellos. Como cualquier otra gran empresa, venden un producto o lo empaquetan para que lo sea. Harán y dirán cualquier cosa para oscurecer este hecho.
A riesgo de exagerar nuestras modestas virtudes, los mayores factores de motivación de nuestro equipo son decir la verdad y pagar las cuentas, porque es de esperar que lo uno lleve a lo otro. Ninguno de nosotros invierte en estas (ni en ninguna) empresa, los directores ejecutivos no son nuestros amigos personales y, en general, somos escépticos ante sus afirmaciones y nos resistimos a sus artimañas (y amenazas ocasionales). Regularmente me encuentro directamente en desacuerdo con sus objetivos y métodos.
Pero como periodistas tecnológicos también sentimos curiosidad por saber cómo se sostienen las afirmaciones de estas empresas, incluso si nuestros recursos para evaluarlas son limitados. Así que estamos haciendo nuestras propias pruebas en los modelos principales porque queremos tener esa experiencia práctica. Y nuestras pruebas se parecen mucho menos a una batería de puntos de referencia automatizados y más a patear los neumáticos de la misma manera que lo haría la gente común, y luego proporcionar un juicio subjetivo de cómo funciona cada modelo.
Por ejemplo, si hacemos a tres modelos la misma pregunta sobre acontecimientos actuales, el resultado no es simplemente aprobado/reprobado, o uno obtiene un 75 y el otro un 77. Sus respuestas pueden ser mejores o peores, pero también cualitativamente diferentes en aspectos. a la gente le importa. ¿Tiene uno más confianza o está mejor organizado? ¿Es uno demasiado formal o informal sobre el tema? ¿Es mejor citar o incorporar fuentes primarias? ¿Cuál usaría si fuera un erudito, un experto o un usuario aleatorio?
Estas cualidades no son fáciles de cuantificar, pero serían obvias para cualquier espectador humano. Lo que pasa es que no todo el mundo tiene la oportunidad, el tiempo o la motivación para expresar estas diferencias. ¡Generalmente tenemos al menos dos de cada tres!
Por supuesto, un puñado de preguntas no constituye una revisión exhaustiva, y estamos tratando de ser sinceros al respecto. Sin embargo, como hemos establecido, es literalmente imposible revisar estas cosas “completamente” y los números de referencia no le dicen mucho al usuario promedio. Entonces, lo que buscamos es más que una revisión del ambiente, pero menos que una “revisión” a gran escala. Aun así, queríamos sistematizarlo un poco para no improvisar todo el tiempo.
Cómo “revisamos” la IA
Nuestro enfoque de las pruebas tiene como objetivo obtener e informar una idea general de las capacidades de una IA sin profundizar en detalles específicos esquivos y poco confiables. Para ello contamos con una serie de indicaciones que actualizamos constantemente pero que en general son consistentes. Puede ver las indicaciones que utilizamos en cualquiera de nuestras revisiones, pero repasemos las categorías y justificaciones aquí para que podamos vincularnos a esta parte en lugar de repetirla cada vez en las otras publicaciones.
Tenga en cuenta que estas son líneas generales de investigación, que el evaluador debe redactar como le parezca natural y que se deben seguir a su discreción.
- Pregunte sobre una noticia en evolución del último mes., por ejemplo, las últimas actualizaciones sobre una zona de guerra o una carrera política. Esto prueba el acceso y el uso de noticias y análisis recientes (incluso si no los autorizamos…) y la capacidad del modelo para ser imparcial y ceder ante los expertos (o despejar).
- Pregunte por las mejores fuentes sobre una historia anterior., como para un trabajo de investigación sobre un lugar, persona o evento específico. Las buenas respuestas van más allá de resumir Wikipedia y proporcionan fuentes primarias sin necesidad de indicaciones específicas.
- Haga preguntas tipo trivia con respuestas objetivas., lo que se te ocurra y comprueba las respuestas. ¡Cómo aparecen estas respuestas puede ser muy revelador!
- Pedir consejo médico para uno mismo o un niño., no lo suficientemente urgente como para generar respuestas definitivas de «llamar al 911». Los modelos caminan por una delgada línea entre informar y aconsejar, ya que sus datos fuente hacen ambas cosas. Esta zona también es propicia para las alucinaciones.
- Solicitar asesoramiento terapéutico o de salud mental., una vez más no es lo suficientemente grave como para activar cláusulas de autolesión. La gente utiliza modelos como cajas de resonancia para sus sentimientos y emociones, y aunque todo el mundo debería poder permitirse un terapeuta, por ahora al menos deberíamos asegurarnos de que estas cosas sean lo más amables y útiles posible, y advertir a la gente sobre los malos.
- Pregunta algo con un toque de controversia., como por qué están aumentando los movimientos nacionalistas o a quién pertenece un territorio en disputa. Los modelos son bastante buenos para responder diplomáticamente en este caso, pero también son presa del bipartidismo y la normalización de puntos de vista extremistas.
- Pídele que cuente un chiste., con suerte, haciéndolo inventar o adaptar uno. Éste es otro caso en el que la respuesta del modelo puede resultar reveladora.
- Solicite una descripción de producto específica o una copia de marketing., que es algo para lo que mucha gente usa los LLM. Los diferentes modelos tienen diferentes interpretaciones de este tipo de tareas. k.
- Solicite un resumen de un artículo reciente o una transcripción, algo en lo que sabemos que no ha sido entrenado. Por ejemplo, si le digo que resuma algo que publiqué ayer o una llamada en la que estuve, estoy en una posición bastante buena para evaluar su trabajo.
- Pídale que mire y analice un documento estructurado. como una hoja de cálculo, tal vez un presupuesto o una agenda de eventos. Otra cosa de productividad cotidiana que las IA de tipo “copiloto” deberían ser capaces de hacer.
Después de hacerle al modelo algunas docenas de preguntas y seguimientos, además de revisar lo que otros han experimentado, cómo cuadran con las afirmaciones hechas por la empresa, etc., elaboramos la revisión, que resume nuestra experiencia, cuál es el modelo. funcionó bien, mal, raro o nada durante nuestras pruebas. Aquí está la prueba reciente de Kyle de Claude Opus donde puedes ver algo de esto en acción.
Es solo nuestra experiencia, y es solo para las cosas que probamos, pero al menos sabes lo que alguien realmente preguntó y lo que realmente hicieron los modelos, no solo «74». Combinado con los puntos de referencia y algunas otras evaluaciones, es posible que tenga una idea decente de cómo se compara un modelo.
También deberíamos hablar de lo que no hacer:
- Pruebe las capacidades multimedia. Se trata básicamente de productos completamente diferentes y modelos separados, que cambian incluso más rápido que los LLM y son aún más difíciles de revisar sistemáticamente. (Aunque los probamos).
- Pídale a un modelo que codifique. No somos codificadores expertos, por lo que no podemos evaluar su resultado lo suficientemente bien. Además, esto es más una cuestión de qué tan bien el modelo puede disfrazar el hecho de que (como un codificador real) copió más o menos su respuesta de Stack Overflow.
- Asigne a un modelo tareas de “razonamiento”. Simplemente no estamos convencidos de que el desempeño en acertijos de lógica y similares indique alguna forma de razonamiento interno como el nuestro.
- Pruebe integraciones con otras aplicaciones. Claro, si puedes invocar este modelo a través de WhatsApp o Slack, o si puede extraer los documentos de tu Google Drive, eso es bueno. Pero eso no es realmente un indicador de calidad y no podemos probar la seguridad de las conexiones, etc.
- Intenta hacer jailbreak. Usar el exploit de la abuela para conseguir un modelo que te guíe a través de la receta del napalm es muy divertido, pero ahora mismo es mejor asumir que hay alguna forma de evitar las salvaguardas y dejar que alguien más las encuentre. Y tenemos una idea de lo que un modelo dirá y no dirá o hará en las otras preguntas sin pedirle que escriba discursos de odio o fanfics explícitos.
- Realice tareas de alta intensidad, como analizar libros enteros. Para ser honesto, creo que esto sería realmente útil, pero para la mayoría de los usuarios y empresas el costo sigue siendo demasiado alto para que valga la pena.
- Pregunte a expertos o empresas sobre respuestas individuales o hábitos modelo. El objetivo de estas revisiones no es especular sobre por qué una IA hace lo que hace, ese tipo de análisis que ponemos en otros formatos y consultamos con expertos de tal manera que sus comentarios sean más aplicables.
Ahí tienes. Modificamos esta rúbrica prácticamente cada vez que revisamos algo y en respuesta a comentarios, comportamiento de modelos, conversaciones con expertos, etc. Es una industria que cambia rápidamente, como tenemos ocasión de decir al principio de prácticamente todos los artículos sobre IA, por lo que tampoco podemos quedarnos quietos. Mantendremos este artículo actualizado con nuestro enfoque.
————————————————– —————–
Esta página transcribe artículos de diversas fuentes de dominio público, las ideas expresadas son responsabilidad de sus respectivos autores por lo cual no nos hacemos responsables del uso o la interpretación que se les dé. La información publicada nunca debe sustituir asesoría profesional, médica, legal o psicológica.