Las IA son fácilmente superando el SAT, derrotando a grandes maestros de ajedrez y depurando código como si nadie. Pero si comparas una IA con algunos estudiantes de secundaria en el concurso de ortografía, quedará eliminada más rápido de lo que puedes asegurar difusión.
A pesar de todos los avances que hemos conocido en la IA, todavía no puede deletrear. Si pides a generadores de texto a imagen como DALL-E que creen un menú para un restaurante mexicano, es posible que detectes algunos platos apetitosos como “taao”, “burto” y “enchida” en medio de un mar de otras tonterías.
Y si adecuadamente ChatGPT podría escribir sus artículos por usted, es cómicamente incompetente cuando le pide que proponga una palabra de 10 literatura sin las literatura «A» o «E» (me dijo, «pasamontañas»). Mientras tanto, cuando un amigo intentó usar la IA de Instagram para suscitar una calcomanía que decía «nueva publicación», creó un representación que parecía asegurar poco que no podemos repetir en TechCrunch, un sitio web allegado.
«Los generadores de imágenes tienden a funcionar mucho mejor en artefactos como automóviles y rostros de personas, y menos en cosas más pequeñas como dedos y escritura», dijo Asmelash Teka Hadgu, cofundador de Lesan y miembro del Instituto DAIR.
La tecnología subyacente detrás de los generadores de imágenes y texto es diferente, pero entreambos tipos de modelos tienen problemas similares con detalles como la ortografía. Los generadores de imágenes generalmente utilizan modelos de difusión, que reconstruyen una imagen a partir del ruido. Cuando se alcahuetería de generadores de texto, puede parecer que los modelos de lengua grandes (LLM) leen y responden a sus indicaciones como un cerebro humano, pero en ingenuidad utilizan matemáticas complejas para hacer coincidir el patrón de la indicación con uno en su espacio subyacente. dejándolo continuar el patrón con una respuesta.
«Los modelos de difusión, el posterior tipo de algoritmos utilizados para la reproducción de imágenes, están reconstruyendo una entrada determinada», dijo Hagdu a TechCrunch. «Podemos contraer que las escrituras en una imagen son una parte muy, muy pequeña, por lo que el magneto de imágenes aprende los patrones que cubren más de estos píxeles».
Los algoritmos están incentivados a deleitar poco que se parece a lo que se ve en sus datos de entrenamiento, pero no conocen de forma nativa las reglas que damos por sentado: que «hola» no se escribe «heeelllooo» y que las manos humanas generalmente tienen cinco dedos.
«Incluso el año pasado, todos estos modelos eran efectivamente malos con los dedos, y ese es exactamente el mismo problema que el texto», dijo Matthew Guzdial, investigador de inteligencia industrial y profesor asistente en la Universidad de Alberta. “Se están volviendo muy buenos en eso a nivel almacén, así que si miras una mano con seis o siete dedos, podrías asegurar: ‘Oh, vaya, eso parece un dedo’. De modo similar, con el texto generado, se podría asegurar que parece una ‘H’ y otro que parece una ‘P’, pero son muy malos para disponer todo esto en conjunto”.
Los ingenieros pueden mejorar estos problemas aumentando sus conjuntos de datos con modelos de entrenamiento diseñados específicamente para enseñar a la IA cómo deberían encontrarse las manos. Pero los expertos no prevén que estos problemas ortográficos se resuelvan tan rápido.
“Puedes imaginarte hacer poco similar: si simplemente creamos un montón de texto, pueden entrenar un maniquí para que intente explorar lo que es bueno y lo que es malo, y eso podría mejorar un poco las cosas. Pero desafortunadamente, el idioma inglés es efectivamente complicado”, dijo Guzdial a TechCrunch. Y la cuestión se vuelve aún más compleja cuando se considera cuántos idiomas diferentes tiene que instruirse la IA para trabajar.
A algunos modelos, como Adobe Firefly, se les enseña a simplemente no suscitar texto en inmutable. Si ingresa poco simple como «menú en un restaurante» o «cartel publicitario con un anuncio», obtendrá una imagen de un papel en blanco sobre una mesa o un cartel blanco en la carretera. Pero si incluye suficientes detalles en su mensaje, estas barreras son fáciles de sortear.
«Puedes pensar en ello casi como si estuvieran jugando Whac-A-Mole, como, ‘Está adecuadamente, mucha multitud se está quejando de nuestras manos; agregaremos poco nuevo simplemente dirigiendo las manos al sucesivo maniquí’, y así y así sucesivamente”, dijo Guzdial. “Pero el texto es mucho más difícil. Adecuado a esto, ni siquiera ChatGPT puede deletrear”.
En Reddit, YouTube y X, algunas personas han subido videos que muestran cómo ChatGPT defecto en la ortografía en arte ASCII, una de las primeras formas de arte de Internet que utiliza caracteres de texto para crear imágenes. En un video fresco, que fue llamado «el alucinación rápido de un héroe de ingeniería», cualquiera intenta minuciosamente dirigir a ChatGPT a través de la creación de arte ASCII que dice «Honda». Al final lo logran, pero no sin pruebas y tribulaciones odiseas.
«Una hipótesis que tengo es que no tenían mucho arte ASCII en su formación», dijo Hagdu. «Esa es la explicación más simple».
Pero en el fondo, los LLM simplemente no entienden qué son las literatura, incluso si pueden escribir sonetos en segundos.
“Los LLM se basan en esta inmueble transformadora, que en ingenuidad no lee texto. Lo que sucede cuando ingresas un mensaje es que se traduce en una codificación”, dijo Guzdial. «Cuando ve la palabra «el», tiene esta codificación de lo que significa «el», pero no sabe acerca de ‘T’, ‘H’, ‘E'».
Es por eso que cuando le pides a ChatGPT que produzca una nómina de palabras de ocho literatura sin una «O» o una «S», es incorrecta aproximadamente la porción de las veces. En ingenuidad, no sabe qué es una “O” o una “S” (aunque probablemente podría citarle la historia de la verso en Wikipedia).
Aunque estas imágenes DALL-E de malos menús de restaurantes son divertidas, las deficiencias de la IA son avíos cuando se alcahuetería de identificar información errónea. Cuando intentamos ver si una imagen dudosa es verdadero o generada por IA, podemos instruirse mucho mirando señales de tráfico, camisetas con texto, páginas de libros o cualquier cosa donde una dependencia de literatura aleatorias pueda traicionar la síntesis de una imagen. orígenes. Y antaño de que estos modelos mejoraran en la fabricación de manos, un sexto (o séptimo u octavo) dedo igualmente podría ser un indicio.
Pero, dice Guzdial, si miramos lo suficientemente de cerca, no son sólo los dedos y la ortografía lo que la IA se equivoca.
«Estos modelos plantean estos pequeños problemas locales todo el tiempo; lo que pasa es que estamos particularmente adecuadamente preparados para explorar algunos de ellos», afirmó.
Para una persona promedio, por ejemplo, una imagen de una tienda de música generada por IA podría ser fácilmente probable. Pero cualquiera que sepa un poco de música podría ver la misma imagen y notar que algunas de las guitarras tienen siete cuerdas, o que las teclas blancas y negras de un piano están espaciadas incorrectamente.
Aunque estos modelos de IA están mejorando a un ritmo intranquilizante, es probable que estas herramientas todavía encuentren problemas como este, que limitan la capacidad de la tecnología.
«Este es un progreso concreto, no hay duda al respecto», dijo Hagdu. «Pero el tipo de publicidad que está recibiendo esta tecnología es simplemente una excentricidad».
————————————————– —————–
Esta página transcribe artículos de diversas fuentes de dominio conocido, las ideas expresadas son responsabilidad de sus respectivos autores por lo cual no nos hacemos responsables del uso o la interpretación que se les dé. La información publicada nunca debe sustituir consultoría profesional, médica, legítimo o psicológica.