Google está apostando por la IA y quiere que lo sepas. Durante el discurso de tolerancia de la compañía en su conferencia de desarrolladores de E/S el martes, Google mencionó la «IA» más de 120 veces. ¡Eso es mucho!
Pero no todos los anuncios de Google sobre IA fueron significativos per se. Algunos fueron incrementales. Otros fueron repetidos. Entonces, para ayudar a separar el trigo de la paja, reunimos los principales nuevos productos y funciones de inteligencia fabricado presentados en Google I/O 2024.
IA generativa en la búsqueda
Google planea utilizar IA generativa para organizar páginas completas de resultados de búsqueda de Google.
¿Cómo serán las páginas organizadas por IA? Bueno, depende de la consulta de búsqueda. Pero podrían mostrar resúmenes de reseñas generados por IA, discusiones de sitios de redes sociales como Reddit y listas de sugerencias generadas por IA, dijo Google.
Por ahora, Google planea mostrar páginas de resultados mejoradas con IA cuando detecte que un sucesor está buscando inspiración, por ejemplo, cuando está planificando un alucinación. Pronto, además mostrará estos resultados cuando los usuarios busquen opciones gastronómicas y recetas, con resultados para películas, libros, hoteles, comercio electrónico y más por venir.
Plan Astra y Gemini en vivo
Google está mejorando su chatbot Gemini, impulsado por inteligencia fabricado, para que pueda comprender mejor el mundo que lo rodea.
La compañía presentó una panorama previa de una nueva experiencia en Gemini citación Gemini Live, que permite a los usuarios tener chats de voz «profundos» con Gemini en sus teléfonos inteligentes. Los usuarios pueden interrumpir a Gemini mientras el chatbot deje para hacer preguntas aclaratorias y se adaptará a sus patrones de deje en tiempo efectivo. Y Gemini puede ver y objetar al entorno de los usuarios, ya sea a través de fotografías o vídeos capturados por las cámaras de sus teléfonos inteligentes.
Gemini Live, que no se lanzará hasta finales de este año, puede objetar preguntas sobre cosas que están a la panorama (o recientemente a la panorama) de la cámara de un teléfono inteligente, como en qué vecindario podría estar un sucesor o el nombre de una alcoba de una bici rota. Las innovaciones técnicas que impulsan Live provienen en parte del Plan Astra, una nueva iniciativa interiormente de DeepMind para crear aplicaciones y “agentes” impulsados por IA para la comprensión multimodal en tiempo efectivo.
Google Veo
Google está apuntando a Sora de OpenAI con Veo, un maniquí de IA que puede crear videoclips de 1080p de aproximadamente un minuto de duración cuando se le envía un mensaje de texto.
Veo puede capturar diferentes estilos visuales y cinematográficos, incluidas tomas de paisajes y lapsos de tiempo, y realizar ediciones y ajustes al metraje ya generado. El maniquí comprende razonablemente perfectamente los movimientos de la cámara y los mercancía visuales a partir de indicaciones (piense en descriptores como «panorámica», «teleobjetivo» y «acceso»). Y Veo tiene cierto conocimiento de la física (cosas como la dinámica de fluidos y la solemnidad) que contribuyen al realismo de los videos que genera.
Veo además admite la tirada enmascarada para cambios en áreas específicas de un video y puede suscitar videos a partir de una imagen fija, al estilo de modelos generativos como Stable Video de Stability AI. Quizás lo más intrigante es que, dada una secuencia de indicaciones que en conjunto cuentan una historia, Veo puede suscitar videos más largos: videos de más de un minuto de duración.
Preguntar fotos
Google Photos está recibiendo una infusión de IA con el extensión de una función empírico citación Ask Photos, impulsada por la grupo Gemini de modelos de IA generativa de Google.
Ask Photos, que se lanzará a finales de este verano, permitirá a los usuarios apañarse en su colección de Google Photos utilizando consultas en lengua natural que aprovechan la comprensión de Gemini del contenido de sus fotografías y otros metadatos.
Por ejemplo, en zona de apañarse poco específico en una foto, como «One World Trade», los usuarios podrán realizar búsquedas mucho más amplias y complejas, como encontrar la «mejor foto de cada uno de los parques nacionales que visité». » En ese ejemplo, Gemini usaría señales como iluminación, nebulosidad y error de distorsión del fondo para determinar qué hace que una foto sea la «mejor» en un conjunto determinado y combinaría eso con una comprensión de la información de geolocalización y las fechas para devolver las imágenes relevantes.
Géminis en Gmail
Los usuarios de Gmail pronto podrán apañarse, resumir y redactar correos electrónicos, cortesía de Gemini, así como tomar medidas en los correos electrónicos para tareas más complejas, como ayudar a procesar devoluciones.
En una demostración en I/O, Google mostró cómo un padre puede ponerse al día con lo que sucede en la escuela de su hijo pidiéndole a Gemini que resuma todos los correos electrónicos recientes de la escuela. Adicionalmente del cuerpo de los correos electrónicos, Gemini además analizará los archivos adjuntos, como archivos PDF, y generará un extracto con puntos secreto y instrumentos de hecho.
Desde una mostrador vecino en Gmail, los usuarios pueden pedirle a Gemini que los ayude a organizar los recibos de sus correos electrónicos e incluso colocarlos en una carpeta de Google Drive, o extraer información de los recibos y pegarla en una hoja de cálculo. Si eso es poco que hace con frecuencia, por ejemplo, como viajero de negocios que realiza un seguimiento de los gastos, Gemini además puede ofrecerle automatizar el flujo de trabajo para usarlo en el futuro.
Detectar estafas durante las llamadas
Google presentó una panorama previa de una función impulsada por inteligencia fabricado para alertar a los usuarios sobre posibles estafas durante una citación.
La capacidad, que se integrará en una traducción futura de Android, utiliza Gemini Nano, la traducción más pequeña de la propuesta de IA generativa de Google, que puede ejecutarse completamente en el dispositivo, para escuchar «patrones de conversación comúnmente asociados con estafas» en tiempo efectivo. .
No se ha fijado una época de extensión específica para la función. Como muchas de estas cosas, Google está haciendo una panorama previa de cuánto podrá hacer Gemini Nano en el futuro. Sin secuestro, sí sabemos que la función será voluntaria, lo cual es bueno. Si perfectamente el uso de Nano significa que el sistema no cargará audio automáticamente a la cúmulo, el sistema aún audición efectivamente las conversaciones de los usuarios, un aventura potencial para la privacidad.
IA para la accesibilidad
Google está mejorando su función de accesibilidad TalkBack para Android con un poco de embeleso de IA generativa.
Pronto, TalkBack aprovechará Gemini Nano para crear descripciones auditivas de objetos para usuarios ciegos y con víctima visión. Por ejemplo, TalkBack podría describir una prenda de vestir como tal: “Un primer plano de un vestido de cuadros blanco y enojado. El vestido es corto, con cuello y manga larga. Se ata a la cintura con un gran vinculación”.
Según Google, los usuarios de TalkBack encuentran aproximadamente de 90 imágenes sin etiquetar por día. Al utilizar Nano, el sistema podrá ofrecer información sobre el contenido, lo que podría evitar la condición de que determinado ingrese esa información manualmente.
¡Estamos lanzando un boletín informativo sobre IA! Inscribirse aquí para comenzar a recibirlo en sus bandejas de entrada el 5 de junio.
————————————————– —————–
Esta página transcribe artículos de diversas fuentes de dominio sabido, las ideas expresadas son responsabilidad de sus respectivos autores por lo cual no nos hacemos responsables del uso o la interpretación que se les dé. La información publicada nunca debe sustituir información profesional, médica, permitido o psicológica.