Google está tratando de causar sensación con Gemini, su conjunto insignia de modelos, aplicaciones y servicios de IA generativa.
Entonces, ¿qué es Géminis? ¿Cómo puedes utilizarlo? ¿Y cómo se compara con la competencia?
Para que sea más obvio mantenerse al día con los últimos desarrollos de Gemini, hemos detallado esta experiencia prontuario, que mantendremos actualizada a medida que se publiquen nuevos modelos, funciones y parte de Gemini sobre los planes de Google para Gemini.
¿Qué es Géminis?
Gemini es la grupo de modelos GenAI de próxima gestación prometida desde hace mucho tiempo por Google, desarrollada por los laboratorios de investigación de inteligencia fabricado de Google, DeepMind y Google Research. Viene en tres sabores:
- Géminis Extremistael maniquí Géminis con más prestaciones.
- Géminis Proun maniquí Géminis “fútil”.
- Géminis Nanoun maniquí “destilado” más pequeño que se ejecuta en dispositivos móviles como el Pixel 8 Pro.
Todos los modelos Gemini fueron entrenados para ser “nativamente multimodales”; en otras palabras, capaces de trabajar y utilizar más que solo palabras. Fueron entrenados previamente y ajustados en una variedad de audio, imágenes y videos, un gran conjunto de bases de código y texto en diferentes idiomas.
Esto diferencia a Gemini de modelos como el LaMDA de Google, que se entrenó exclusivamente con datos de texto. LaMDA no puede comprender ni originar carencia más que texto (por ejemplo, ensayos, borradores de correo electrónico), pero ese no es el caso de los modelos Gemini.
¿Cuál es la diferencia entre las aplicaciones Gemini y los modelos Gemini?
Google, demostrando una vez más que carece de tacto para la marca, no dejó claro desde el principio que Gemini es independiente y distinta de las aplicaciones Gemini en la web y en dispositivos móviles (anteriormente Bard). Las aplicaciones Gemini son simplemente una interfaz a través de la cual se puede consentir a ciertos modelos Gemini; considérelo como un cliente para GenAI de Google.
Por cierto, las aplicaciones y modelos de Gemini incluso son totalmente independientes de Imagen 2, el maniquí de conversión de texto a imagen de Google que está apto en algunas de las herramientas y entornos de explicación de la empresa.
¿Qué puede hacer Géminis?
Adecuado a que los modelos Gemini son multimodales, en teoría pueden realizar una variedad de tareas multimodales, desde transcribir voz hasta subtitular imágenes y videos hasta originar obras de arte. Algunas de estas capacidades ya han llegado a la etapa de producto (más sobre esto más delante), y Google promete todas ellas, y más, en algún momento en un futuro no muy porvenir.
Por supuesto, es un poco difícil creerle la palabra a la empresa.
Google no cumplió con creces con el extensión llamativo de Bard. Y más recientemente causó revuelo con un video que pretendía mostrar las capacidades de Géminis y que resultó acontecer sido muy manipulado y era más o menos aspiracional.
Aún así, suponiendo que Google sea más o menos sincero con sus afirmaciones, esto es lo que los diferentes niveles de Gemini podrán hacer una vez que alcancen su mayor potencial:
Géminis Extremista
Google dice que Gemini Extremista, gracias a su multimodalidad, puede estar de moda para ayudar con cosas como tareas de física, resolver problemas paso a paso en una hoja de trabajo y señalar posibles errores en respuestas ya completadas.
Gemini Extremista incluso se puede aplicar a tareas como identificar artículos científicos relevantes para un problema particular, dice Google: extraer información de esos artículos y «renovar» un descriptivo de uno generando las fórmulas necesarias para distraer el descriptivo con datos más recientes. .
Gemini Extremista técnicamente admite la gestación de imágenes, como se mencionó anteriormente. Pero esa capacidad aún no ha llegado a la interpretación productiva del maniquí, tal vez porque el mecanismo es más complicado que la forma en que aplicaciones como ChatGPT generan imágenes. En espacio de destinar mensajes a un alternador de imágenes (como DALL-E 3, en el caso de ChatGPT), Gemini genera imágenes «de forma nativa», sin un paso intermedio.
Gemini Extremista está apto como API a través de Vertex AI, la plataforma de explicación de IA totalmente administrada de Google, y AI Studio, la útil web de Google para desarrolladores de aplicaciones y plataformas. Asimismo impulsa las aplicaciones Gemini, pero no de forma gratuita. El entrada a Gemini Extremista a través de lo que Google apasionamiento Gemini Advanced requiere suscribirse al Plan Premium Google One AI, con un precio de 20 dólares al mes.
El plan AI Premium incluso conecta Gemini con su cuenta más amplia de Google Workspace: piense en correos electrónicos en Gmail, documentos en Docs, presentaciones en Sheets y grabaciones de Google Meet. Esto es útil, por ejemplo, para resumir correos electrónicos o hacer que Gemini capture notas durante una videollamada.
Géminis Pro
Google dice que Gemini Pro es una restablecimiento con respecto a LaMDA en sus capacidades de razonamiento, planificación y comprensión.
Un estudio independiente realizado por investigadores de Carnegie Mellon y BerriAI encontró que la interpretación original de Gemini Pro era de hecho mejor que el GPT-3.5 de OpenAI en el manejo de cadenas de razonamiento más largas y complejas. Pero el estudio incluso encontró que, como todos los modelos de estilo grandes, esta interpretación de Gemini Pro tenía problemas particularmente con problemas matemáticos que involucraban varios dígitos, y los usuarios encontraron ejemplos de mal razonamiento y errores obvios.
Sin retención, Google prometió soluciones, y la primera llegó en forma de Gemini 1.5 Pro.
Diseñado para ser un reemplazo directo, Gemini 1.5 Pro ha mejorado en varias áreas en comparación con su predecesor, quizás lo más significativo es la cantidad de datos que puede procesar. Gemini 1.5 Pro puede acoger ~700.000 palabras o ~30.000 líneas de código: 35 veces la cantidad que Gemini 1.0 Pro puede manejar. Y, entregado que el maniquí es multimodal, no se limita al texto. Gemini 1.5 Pro puede analizar hasta 11 horas de audio o una hora de vídeo en una variedad de idiomas diferentes, aunque lentamente (por ejemplo, agenciárselas una número en un vídeo de una hora requiere de 30 segundos a un minuto de procesamiento).
Gemini 1.5 Pro entró en interpretación preliminar pública en Vertex AI en abril.
Un punto final adicional, Gemini Pro Vision, puede procesar texto y imágenes, incluidas fotos y videos, y texto de salida siguiendo las líneas del maniquí GPT-4 con Vision de OpenAI.
Interiormente de Vertex AI, los desarrolladores pueden personalizar Gemini Pro para contextos y casos de uso específicos mediante un proceso de ajuste o «conexión a tierra». Gemini Pro incluso se puede conectar a API externas de terceros para realizar acciones particulares.
En AI Studio, existen flujos de trabajo para crear mensajes de chat estructurados utilizando Gemini Pro. Los desarrolladores tienen entrada a los puntos finales Gemini Pro y Gemini Pro Vision, y pueden ajustar la temperatura del maniquí para controlar el rango creativo de salida y proporcionar ejemplos para dar instrucciones de tono y estilo, y incluso ajustar las configuraciones de seguridad.
Géminis Nano
Gemini Nano es una interpretación mucho más pequeña de los modelos Gemini Pro y Extremista, y es lo suficientemente eficaz como para ejecutarse directamente en (algunos) teléfonos en espacio de destinar la tarea a un servidor en algún espacio. Hasta ahora, impulsa un par de funciones en Pixel 8 Pro, Pixel 8 y Samsung Galaxy S24, incluido Resumir en Impresor y Respuesta inteligente en Gboard.
La aplicación Recorder, que permite a los usuarios presionar un pulsador para morder y transcribir audio, incluye un recopilación desarrollado por Gemini de sus conversaciones, entrevistas, presentaciones y otros fragmentos grabados. Los usuarios obtienen estos resúmenes incluso si no tienen una señal o conexión Wi-Fi apto y, en un aviso a la privacidad, no salen datos de su teléfono en el proceso.
Gemini Nano incluso está en Gboard, la aplicación de teclado de Google. Allí, activa una función emplazamiento Respuesta inteligente, que ayuda a sugerir lo sucesivo que querrás afirmar cuando tengas una conversación en una aplicación de correo. Inicialmente, la función solo funciona con WhatsApp, pero llegará a más aplicaciones con el tiempo, dice Google.
Y en la aplicación Google Messages en dispositivos compatibles, Nano habilita Magic Compose, que puede crear mensajes en estilos como «emocionado», «formal» y «eglógico».
¿Es Gemini mejor que el GPT-4 de OpenAI?
Google ha promocionado varias veces la superioridad de Gemini en los puntos de narración, afirmando que Gemini Extremista supera los resultados actuales del estado del arte en «30 de los 32 puntos de narración académicos ampliamente utilizados en la investigación y el explicación de grandes modelos de estilo». Mientras tanto, la compañía dice que Gemini 1.5 Pro es más capaz de realizar tareas como resumir contenido, originar ideas y escribir que Gemini Extremista en algunos escenarios; Es de suponer que esto cambiará con el extensión del próximo maniquí Extremista.
Pero dejando de flanco la cuestión de si los puntos de narración en realidad indican un maniquí mejor, los puntajes que señala Google parecen ser sólo marginalmente mejores que los modelos correspondientes de OpenAI. Y, como se mencionó anteriormente, algunas de las primeras impresiones no han sido muy buenas, ya que los usuarios y académicos señalaron que la interpretación susodicho de Gemini Pro tiende a equivocarse en los datos básicos, tiene problemas con las traducciones y ofrece sugerencias de codificación deficientes.
¿Cuánto cuesta Géminis?
Gemini 1.5 Pro se puede usar de forma gratuita en las aplicaciones Gemini y, por ahora, en AI Studio y Vertex AI.
Sin retención, una vez que Gemini 1.5 Pro salga de la audiencia previa en Vertex, el maniquí costará $0.0025 por carácter, mientras que la salida costará $0.00005 por carácter. Los clientes de Vertex pagan por 1.000 caracteres (entre 140 y 250 palabras) y, en el caso de modelos como Gemini Pro Vision, por imagen (0,0025 dólares).
Supongamos que un artículo de 500 palabras contiene 2000 caracteres. Resumir ese artículo con Gemini 1.5 Pro costaría $5. Mientras tanto, originar un artículo de una extensión similar costaría 0,1 dólares.
El precio Extremista aún no se ha anunciado.
¿Dónde puedes probar Géminis?
Géminis Pro
El espacio más obvio para probar Gemini Pro es en las aplicaciones Gemini. Pro y Extremista responden consultas en varios idiomas.
Asimismo se puede consentir a Gemini Pro y Extremista en interpretación preliminar en Vertex AI a través de una API. La API es de uso gratis “internamente de límites” por el momento y es compatible con ciertas regiones, incluida Europa, así como funciones como funcionalidad de chat y filtrado.
En otros lugares, Gemini Pro y Extremista se pueden encontrar en AI Studio. Al utilizar el servicio, los desarrolladores pueden iterar indicaciones y chatbots basados en Gemini y luego obtener claves API para usarlas en sus aplicaciones, o exportar el código a un IDE con más funciones.
Code Assist (anteriormente Duet AI for Developers), el conjunto de herramientas de colaboración impulsadas por IA de Google para completar y originar código, utiliza modelos Gemini. Los desarrolladores pueden realizar cambios «a gran escalera» en las bases de código, por ejemplo, actualizando dependencias entre archivos y revisando grandes fragmentos de código.
Google incorporó modelos Gemini a sus herramientas de explicación para la plataforma de explicación móvil Chrome y Firebase, y a sus herramientas de creación y papeleo de bases de datos. Y ha arrojado nuevos productos de seguridad respaldados por Gemini, como Gemini in Threat Intelligence, un componente de la plataforma de ciberseguridad Mandiant de Google que puede analizar grandes porciones de código potencialmente desconfiado y permitir a los usuarios realizar búsquedas en estilo natural de amenazas en curso o indicadores de compromiso.
————————————————– —————–
Esta página transcribe artículos de diversas fuentes de dominio divulgado, las ideas expresadas son responsabilidad de sus respectivos autores por lo cual no nos hacemos responsables del uso o la interpretación que se les dé. La información publicada nunca debe sustituir consultorio profesional, médica, admitido o psicológica.