Firefly, la clan de modelos de IA generativa de Adobe, no tiene la mejor reputación entre los creativos.
El maniquí de concepción de imágenes de Firefly en particular ha sido ridiculizado por ser decepcionante y defectuoso en comparación con Midjourney, DALL-E 3 de OpenAI y otros rivales, con una tendencia a distorsionar las extremidades y los paisajes y perder los matices en las indicaciones. Pero Adobe está tratando de endeorar el barco con su maniquí de tercera concepción, Firefly Image 3, arrojado esta semana durante la conferencia Max London de la compañía.
El maniquí, ahora acondicionado en Photoshop (beta) y la aplicación web Firefly de Adobe, produce imágenes más «realistas» que su predecesor (Imagen 2) y su predecesor (Imagen 1) gracias a la capacidad de comprender indicaciones y escenas más largas y complejas. así como capacidades mejoradas de iluminación y concepción de texto. Debería representar con decano precisión cosas como tipografía, iconografía, imágenes rasterizadas y arte derecho, dice Adobe, y es «significativamente» más hábil para representar multitudes densas y personas con «características detalladas» y «una variedad de estados de talante y expresiones».
Por si sirve de poco, en mis breves pruebas no científicas, Imagen 3 hace Parece ser un paso delante con respecto a la Imagen 2.
Yo mismo no pude probar la Imagen 3. Pero Adobe PR envió algunos resultados y mensajes del maniquí, y logré ejecutar esos mismos mensajes a través de la Imagen 2 en la web para obtener muestras con las que comparar los resultados de la Imagen 3. (Tenga en cuenta que los resultados de la Imagen 3 podrían suceder sido seleccionados cuidadosamente).
Observe la iluminación en esta foto de la Imagen 3 en comparación con la que está debajo, de la Imagen 2:
La salida de la Imagen 3 parece más detallada y realista a mis luceros, con sombras y contraste que están en gran medida ausentes en la muestra de la Imagen 2.
Aquí hay un conjunto de imágenes que muestran la comprensión de la campo de la Imagen 3 en repertorio:
Tenga en cuenta que la muestra de la Imagen 2 es harto básica en comparación con el resultado de la Imagen 3 en términos de nivel de detalle y vehemencia común. Hay confusión con el sujeto en la camisa de la muestra de la Imagen 3 (cerca de del radio de la cintura), pero la pose es más compleja que la del sujeto de la Imagen 2. (Y la ropa de la Imagen 2 igualmente está un poco fuera de espacio).
Sin duda, algunas de las mejoras de la Imagen 3 se pueden atribuir a un conjunto de datos de entrenamiento más alto y diverso.
Al igual que la Imagen 2 y la Imagen 1, la Imagen 3 está entrenada para cargas en Adobe Stock, la biblioteca multimedia rescatado de derechos de autor de Adobe, anejo con contenido de dominio manifiesto y con atrevimiento cuyos derechos de autor han expirado. Adobe Stock crece todo el tiempo y, en consecuencia, igualmente lo hace el conjunto de datos de entrenamiento acondicionado.
En un esfuerzo por evitar demandas y posicionarse como una alternativa más “ética” a los proveedores de IA generativa que entrenan con imágenes indiscriminadamente (por ejemplo, OpenAI, Midjourney), Adobe tiene un software para avalar a los contribuyentes de Adobe Stock por el conjunto de datos de entrenamiento. (Sin bloqueo, notaremos que los términos del software son harto opacos). De forma controvertida, Adobe igualmente entrena modelos de Firefly en imágenes generadas por IA, lo que algunos consideran una forma de lavado de datos.
Un referencia nuevo de Bloomberg reveló que las imágenes generadas por IA en Adobe Stock no están excluidas de los datos de entrenamiento de los modelos de concepción de imágenes de Firefly, una perspectiva preocupante considerando que esas imágenes podrían contener material regurgitado con derechos de autor. Adobe ha defendido la actos, afirmando que las imágenes generadas por IA constituyen sólo una pequeña parte de sus datos de entrenamiento y pasan por un proceso de moderación para respaldar que no representen marcas comerciales, personajes reconocibles o nombres de artistas de relato.
Por supuesto, ni los datos de capacitación diversos y de origen más «ético» ni los filtros de contenido y otras salvaguardas garantizan una experiencia perfectamente rescatado de fallas: vea a los usuarios generando personas volteando el pájaro con la Imagen 2. La verdadera prueba de la Imagen 3 vendrá una vez que la comunidad obtenga sus manos sobre él.
Nuevas funciones impulsadas por IA
Image 3 potencia varias características nuevas en Photoshop más allá de la conversión de texto a imagen mejorada.
Un nuevo «motor de estilo» en la Imagen 3, anejo con una nueva opción de estilización cibernética, permite al maniquí gestar una variedad más amplia de colores, fondos y poses de los sujetos. Se alimentan de Imagen de relato, una opción que permite a los usuarios condicionar el maniquí a una imagen con cuyos colores o tono desean que se alinee su contenido generado en el futuro.
Tres nuevas herramientas generativas (Originar fondo, Originar similar y Mejorar detalles) aprovechan Imagen 3 para realizar ediciones de precisión en las imágenes. Originar fondo (autodescriptivo) reemplaza un fondo con uno generado que se combina con la imagen existente, mientras que Originar similar ofrece variaciones en una parte seleccionada de una foto (una persona o un objeto, por ejemplo). En cuanto a Mejorar detalle, “afina” las imágenes para mejorar la legitimidad y la claridad.
Si estas características le suenan familiares, es porque han estado en interpretación beta en la aplicación web Firefly durante al menos un mes (y Midjourney durante mucho más tiempo). Esto marca su estreno en Photoshop, en interpretación beta.
Hablando de la aplicación web, Adobe no descuida esta ruta alternativa en torno a sus herramientas de inteligencia fabricado.
Coincidiendo con el impulso de la Imagen 3, la aplicación web Firefly recibirá Relato de estructura y Relato de estilo, que Adobe presenta como nuevas formas de «avanzar en el control creativo». (Ambas fueron anunciadas en marzo, pero ahora están ampliamente disponibles). Con Structure Reference, los usuarios pueden gestar nuevas imágenes que coincidan con la “estructura” de una imagen de relato, por ejemplo, una tino delantero de un automóvil de carreras. La relato de estilo es esencialmente una transferencia de estilo con otro nombre, que preserva el contenido de una imagen (por ejemplo, elefantes en el safari africano) mientras imita el estilo (por ejemplo, un proyecto a lapicero) de una imagen de destino.
Aquí está la relato de estructura en entusiasmo:
Y relato de estilo:
Le pregunté a Adobe si, con todas las actualizaciones, el precio de concepción de imágenes de Firefly cambiaría. Actualmente, el plan premium más saldo de Firefly cuesta $ 4,99 por mes, lo que socava la competencia como Midjourney ($ 10 por mes) y OpenAI (que ofrece DALL-E 3 detrás de una suscripción ChatGPT Plus de $ 20 por mes).
Adobe dijo que sus niveles actuales permanecerán vigentes por ahora, anejo con su sistema de crédito generativo. Todavía dijo que su política de indemnización, que establece que Adobe pagará las reclamaciones de derechos de autor relacionadas con las obras generadas en Firefly, siquiera cambiará, ni su enfoque para marcar el contenido generado por IA. Las credenciales de contenido (metadatos para identificar medios generados por IA) seguirán adjuntándose automáticamente a todas las generaciones de imágenes de Firefly en la web y en Photoshop, ya sea que se generen desde cero o se editen parcialmente mediante funciones generativas.
————————————————– —————–
Esta página transcribe artículos de diversas fuentes de dominio manifiesto, las ideas expresadas son responsabilidad de sus respectivos autores por lo cual no nos hacemos responsables del uso o la interpretación que se les dé. La información publicada nunca debe sustituir información profesional, médica, justo o psicológica.