xAI de Elon Musk lanzó su maniquí de idioma ancho Grok como “código descubierto” durante el fin de semana. El multimillonario claramente retraso enredar a su empresa con su rival OpenAI, que, a pesar de su nombre, no es particularmente descubierto. Pero, ¿la publicación del código de poco como Grok verdaderamente contribuye a la comunidad de expansión de IA? Si y no.
Grok es un chatbot entrenado por xAI para desempeñar el mismo rol vagamente definido que poco como ChatGPT o Claude: le preguntas, él rebate. A este LLM, sin confiscación, se le dio un tono atrevido y entrada adicional a los datos de Twitter como una forma de diferenciarlo del resto.
Como siempre, estos sistemas son casi imposibles de evaluar, pero el consenso normal parece ser que son competitivos con los modelos de tamaño mediano de última vivientes como el GPT-3.5. (Si decide que esto es impresionante hexaedro el corto plazo de expansión o decepcionante hexaedro el presupuesto y la ampulosidad que rodea a xAI, depende totalmente de usted).
En cualquier caso, Grok es un LLM actual y utilitario de tamaño y capacidad significativos, y cuanto más entrada tenga la comunidad de desarrolladores a las entrañas de tales cosas, mejor. El problema está en precisar “descubierto” de una forma que haga más que permitir que una empresa (o un multimillonario) reclame autoridad recatado.
Esta no es la primera vez que se cuestionan o se abusa de los términos “descubierto” y “código descubierto” en el mundo de la IA. Y no estamos hablando sólo de una réplica técnica, como designar una deshonestidad de uso que no sea tan abierta como otra (Grok es Apache 2.0, si se lo pregunta).
Para nacer, los modelos de IA se diferencian de otros software en lo que respecta a hacerlos de “código descubierto”.
Si está creando, digamos, un procesador de textos, es relativamente sencillo hacerlo de código descubierto: publica todo su código públicamente y deja que la comunidad proponga mejoras o cree su propia traducción. Parte de lo que hace que el código descubierto sea valioso es que cada aspecto de la aplicación es innovador o se atribuye a su creador innovador; esta transparencia y cumplimiento de la atribución correcta no es solo un subproducto, sino que es fundamental para el concepto mismo de tolerancia.
Con la IA, esto podría decirse que no es posible en completo, porque la forma en que se crean los modelos de educación maquinal implica un proceso en gran medida incognoscible mediante el cual una enorme cantidad de datos de entrenamiento se destila en una representación estadística compleja cuya estructura ningún ser humano verdaderamente dirige, o incluso comprende. . Este proceso no se puede inspeccionar, auditar y mejorar como lo hace el código tradicional, por lo que, si acertadamente todavía tiene un valencia inmenso en un sentido, en existencia nunca puede ser descubierto. (La comunidad de estándares ni siquiera ha definido qué será lo descubierto en este contexto, pero lo está discutiendo activamente).
Eso no ha impedido que los desarrolladores y las empresas de IA diseñen y reclamen sus modelos como “abiertos”, un término que ha perdido gran parte de su significado en este contexto. Algunos llaman a su maniquí «descubierto» si hay una interfaz o API pública. Algunos lo llaman «descubierto» si publican un documento que describe el proceso de expansión.
Podría decirse que lo más cercano que puede estar un maniquí de IA al “código descubierto” es cuando sus desarrolladores lanzan su mancuerna, es sostener, los atributos exactos de los innumerables nodos de sus redes neuronales, que realizan operaciones matemáticas vectoriales en orden preciso para completar el patrón iniciado por la entrada de un usufructuario. Pero incluso los modelos de “pesos abiertos” como LLaMa-2 excluyen otros datos importantes, como el conjunto de datos y el proceso de entrenamiento, que serían necesarios para recrearlos desde cero. (Algunos proyectos van más allá, por supuesto).
Todo esto sin siquiera mencionar el hecho de que se necesitan millones de dólares en medios informáticos y de ingeniería para crear o replicar estos modelos, lo que restringe efectivamente quién puede crearlos y replicarlos a empresas con medios considerables.
Entonces, ¿dónde se ubica el extensión de Grok de xAI en este espectro?
Como maniquí de pesos abiertos, está sagaz para que cualquiera pueda descargarlo, usarlo, modificarlo, ajustarlo o destilarlo. ¡Eso es bueno! Parece estar entre los modelos más grandes a los que cualquiera puede consentir independientemente de esta forma, en términos de parámetros (314 mil millones), lo que les da a los ingenieros curiosos mucho con qué trabajar si quieren probar cómo funciona luego de varias modificaciones.
Sin confiscación, el tamaño del maniquí presenta serios inconvenientes. Necesitará cientos de gigabytes de RAM de suscripción velocidad para usarlo en esta forma sin formato. Si aún no posee, digamos, una docena de Nvidia H100 en una plataforma de inferencia de IA de seis cifras, no se moleste en hacer clic en ese enlace de descarga.
Y aunque se puede sostener que Grok es competitivo con otros modelos modernos, igualmente es mucho, mucho más ancho que ellos, lo que significa que requiere más medios para conseguir lo mismo. Siempre existe una dependencia de tamaño, eficiencia y otras métricas, y sigue siendo valiosa, pero es más materia prima que producto final. Siquiera está claro si esta es la última y mejor traducción de Grok, como la traducción claramente ajustada a la que algunos tienen entrada a través de X.
En normal, es bueno imprimir estos datos, pero no cambia las reglas del gozne como algunos esperaban.
Igualmente es difícil no preguntarse por qué Musk está haciendo esto. ¿Su incipiente empresa de inteligencia sintético está verdaderamente dedicada al expansión de código descubierto? ¿O es simplemente pústula en el ojo de OpenAI, con el que Musk actualmente está persiguiendo una disputa a nivel multimillonario?
Si verdaderamente se dedican al expansión de código descubierto, este será el primero de muchos lanzamientos y, con suerte, tendrán en cuenta los comentarios de la comunidad, publicarán otra información crucial, caracterizarán el proceso de datos de capacitación y explicarán con más detalle su enfoque. Si no es así, y esto sólo se hace para que Musk pueda señalarlo en argumentos en orientación, sigue siendo valioso, pero no es poco en lo que nadie en el mundo de la IA confiará o a lo que prestará mucha atención luego de los próximos meses mientras juega. el maniquí.
————————————————– —————–
Esta página transcribe artículos de diversas fuentes de dominio manifiesto, las ideas expresadas son responsabilidad de sus respectivos autores por lo cual no nos hacemos responsables del uso o la interpretación que se les dé. La información publicada nunca debe sustituir información profesional, médica, legítimo o psicológica.