Si quisieras elevar el perfil de tu importante empresa de tecnología y tuvieras 10 millones de dólares para utilizarse, ¿cómo los gastarías? ¿En un anuncio del Super Bowl? ¿Un patrocinio de F1?
Tú podría gastarlo entrenando un maniquí de IA generativa. Si correctamente no son marketing en el sentido tradicional, los modelos generativos captan la atención y cada vez más canalizan alrededor de los productos y servicios básicos de los proveedores.
Vea DBRX de Databricks, un nuevo maniquí de IA generativa anunciado hoy similar a la serie GPT de OpenAI y Gemini de Google. Disponibles en GitHub y en la plataforma de crecimiento de IA Hugging Face para investigación y uso comercial, las versiones almohadilla (DBRX Saco) y ajustadas (DBRX Instruct) de DBRX se pueden ejecutar y ajustar con datos públicos, personalizados o de otro modo propietarios.
«DBRX fue capacitado para ser útil y proporcionar información sobre una amplia variedad de temas», dijo a TechCrunch Naveen Rao, vicepresidente de IA generativa en Databricks, en una entrevista. «DBRX ha sido optimizado y preciso para el uso del idioma inglés, pero es capaz de conversar y traducir a una amplia variedad de idiomas, como francés, castellano y tudesco».
Databricks describe DBRX como «código hendido» en una raya similar a los modelos de «código hendido» como Meta’s Vehemencia 2 y los modelos de la startup de IA Mistral. (Es objeto de un intenso debate si estos modelos positivamente cumplen con la definición de código hendido).
Databricks dice que gastó aproximadamente $10 millones y dos meses entrenando a DBRX, que afirma (citando un comunicado de prensa) «supera[s] todos los modelos de código hendido existentes en puntos de remisión standard”.
Pero, y aquí está el problema del marketing, es excepcionalmente difícil usar DBRX a menos que sea cliente de Databricks.
Esto se debe a que, para ejecutar DBRX en la configuración standard, necesita un servidor o PC con al menos cuatro GPU Nvidia H100 (o cualquier otra configuración de GPU que sume aproximadamente de 320 GB de memoria). Un solo H100 cuesta miles de dólares, posiblemente más. Esto podría ser un cambio insignificante para la empresa promedio, pero para muchos desarrolladores y emprendedores, está fuera de su capacidad.
Es posible ejecutar el maniquí en una abundancia de terceros, pero los requisitos de hardware siguen siendo conveniente elevados; por ejemplo, solo hay un tipo de instancia en Google Cloud que incorpora chips H100. Otras nubes pueden costar menos, pero en términos generales, ejecutar modelos enormes como este no es de poco valor hoy en día.
Y para despuntar, hay documento pequeña. Databricks dice que las empresas con más de 700 millones de usuarios activos enfrentarán «ciertas restricciones» comparables a las de Meta para Vehemencia 2, y que todos los usuarios tendrán que aceptar términos que garanticen que usan DBRX «responsablemente». (Databricks no había ofrecido voluntariamente los detalles específicos de esos términos al momento de la publicación).
Databricks presenta su producto Mosaic AI Foundation Model como la posibilidad administrada para estos obstáculos, que encima de ejecutar DBRX y otros modelos proporciona una pila de entrenamiento para ajustar DBRX en datos personalizados. Los clientes pueden encajar DBRX de forma privada utilizando la ofrecimiento Model Serving de Databricks, sugirió Rao, o pueden trabajar con Databricks para implementar DBRX en el hardware de su votación.
Rao añadió:
“Estamos enfocados en hacer de la plataforma Databricks la mejor opción para la creación de modelos personalizados, por lo que, en última instancia, el beneficio para Databricks es más usuarios en nuestra plataforma. DBRX es una demostración de nuestra plataforma de preentrenamiento y ajuste, la mejor de su clase, que los clientes pueden utilizar para construir sus propios modelos desde cero. Es una modo ligera para que los clientes comiencen a utilizar las herramientas de inteligencia sintético generativa de Databricks Mosaic AI. Y DBRX tiene una gran capacidad desde el primer momento y se puede ajustar para obtener un rendimiento excelente en tareas específicas con una mejor caudal que los modelos grandes y cerrados”.
Databricks afirma que DBRX se ejecuta hasta 2 veces más rápido que Vehemencia 2, en parte gracias a su construcción mixta de expertos (MoE). MoE, que DBRX comparte con los modelos más nuevos de Mistral y el recientemente anunciado Gemini 1.5 Pro de Google, básicamente divide las tareas de procesamiento de datos en múltiples subtareas y luego delega estas subtareas a modelos «expertos» más pequeños y especializados.
La mayoría de los modelos del MoE tienen ocho expertos. DBRX tiene 16, lo que, según Databricks, alivio la calidad.
Sin bloqueo, la calidad es relativa.
Si correctamente Databricks afirma que DBRX supera a los modelos Vehemencia 2 y Mistral en ciertos puntos de remisión de comprensión de jerga, programación, matemáticas y dialéctica, DBRX no alcanza posiblemente el maniquí líder de IA generativa, GPT-4 de OpenAI, en la mayoría de las áreas fuera de casos de uso especializados como la programación de bases de datos. reproducción del jerga.
Rao admite que DBRX igualmente tiene otras limitaciones, a conocer, que, como todos los demás modelos de IA generativa, puede ser víctima de respuestas «alucinantes» a las consultas a pesar del trabajo de Databricks en pruebas de seguridad y formación de equipos rojos. Conveniente a que el maniquí simplemente fue entrenado para asociar palabras o frases con ciertos conceptos, si esas asociaciones no son totalmente precisas, sus respuestas no siempre lo serán.
Por otra parte, DBRX no es multimodal, a diferencia de algunos modelos emblemáticos de IA generativa más recientes, incluido Gemini. (Sólo puede procesar y crear texto, no imágenes). Y no sabemos exactamente qué fuentes de datos se utilizaron para entrenarlo; Rao solo revelaría que no se utilizaron datos de clientes de Databricks en el entrenamiento de DBRX.
«Entrenamos a DBRX con un gran conjunto de datos de una amplia viso de fuentes», añadió. «Utilizamos conjuntos de datos abiertos que la comunidad conoce, ama y utiliza todos los días».
Le pregunté a Rao si alguno de los conjuntos de datos de entrenamiento de DBRX tenía derechos de autor o atrevimiento, o si mostraba signos obvios de sesgo (por ejemplo, prejuicios raciales), pero no respondió directamente y solo dijo: «Hemos tenido cuidado con los datos utilizados, y realizó ejercicios de equipo rojo para mejorar las debilidades del maniquí”. Los modelos de IA generativa tienen una tendencia a regurgitar datos de entrenamiento, una preocupación importante para los usuarios comerciales de modelos entrenados con datos sin atrevimiento, con derechos de autor o muy claramente sesgados. En el peor de los casos, un legatario podría terminar en problemas éticos y legales por incorporar sin querer trabajo sesgado o que infringe la propiedad intelectual de un maniquí en sus proyectos.
Algunas empresas que entrenan y lanzan modelos de IA generativa ofrecen pólizas que cubren los honorarios legales derivados de una posible infracción. Databricks no lo hace en este momento; Rao dice que la compañía está “explorando escenarios” bajo los cuales podría hacerlo.
Teniendo en cuenta este y otros aspectos en los que DBRX no da en el blanco, el maniquí parece difícil de entregar para cualquiera que no sean clientes actuales o potenciales de Databricks. Los rivales de Databricks en IA generativa, incluido OpenAI, ofrecen tecnologías igualmente atractivas, si no más, a precios muy competitivos. Y muchos modelos de IA generativa se acercan más a la definición comúnmente entendida de código hendido que DBRX.
Rao promete que Databricks continuará perfeccionando DBRX y lanzando nuevas versiones mientras el equipo de I+D de Mosaic Labs de la compañía, el equipo detrás de DBRX, investiga nuevas vías de IA generativa.
«DBRX está impulsando el espacio de modelos de código hendido y desafiando que los modelos futuros se construyan de modo aún más capaz», dijo. «Lanzaremos variantes a medida que apliquemos técnicas para mejorar la calidad de la producción en términos de confiabilidad, seguridad y sesgo… Vemos el maniquí hendido como una plataforma en la que nuestros clientes pueden desarrollar capacidades personalizadas con nuestras herramientas».
A resolver por la situación flagrante de DBRX en relación con sus pares, queda un camino excepcionalmente dispendioso por delante.
Esta historia se corrigió para señalar que el maniquí tardó dos meses en entrenarse y se eliminó una remisión incorrecta a Vehemencia 2 en el párrafo decimocuarto. Lamentamos los errores.
————————————————– —————–
Esta página transcribe artículos de diversas fuentes de dominio notorio, las ideas expresadas son responsabilidad de sus respectivos autores por lo cual no nos hacemos responsables del uso o la interpretación que se les dé. La información publicada nunca debe sustituir información profesional, médica, constitucional o psicológica.