OpenAI cautivó al mundo de la tecnología hace unos meses con un maniquí de IA generativa, Sora, que convierte descripciones de escenas en videos originales, sin exigencia de cámaras ni equipos de filmación. Pero hasta ahora Sora ha estado muy cerca, y la firma parece estar apuntando a creativos aceptablemente financiados, como directores de Hollywood, no necesariamente a aficionados o vendedores de poca monta.
Alex Mashrabov, exjefe de IA generativa de Snap, percibió una oportunidad. Entonces lanzó Higgsfield AI, una plataforma de creación y publicación de videos basada en inteligencia fabricado diseñada para aplicaciones más personalizadas y adaptadas.
Impulsada por un maniquí personalizado de texto a video, la primera aplicación de Higgsfield, Diffuse, puede ocasionar videos desde cero o tomar una selfie y ocasionar un clip protagonizado por esa persona.
«Nuestro conocido objetivo son creadores de todo tipo», dijo Mashrabov a TechCrunch en una entrevista, «desde usuarios habituales que quieren crear contenido divertido con sus amigos hasta creadores de contenido social que buscan probar un nuevo formato de contenido y especialistas en marketing de redes sociales que quieren su marca». para destacar.»
Mashrabov llegó a Snap a través de AI Factory, su startup preliminar, que Snap adquirió en 2020 por 166 millones de dólares. Mientras estuvo en Snap, Mashrabov ayudó a crear productos como enseres AR y filtros para Snapchat, incluidos Cameos, así como el controvertido chatbot MyAI de Snapchat.
Higgsfield, que Mashrabov colanzó hace varios meses con Yerzat Dulat, un investigador de inteligencia fabricado especializado en videos generativos, ofrece un conjunto seleccionado de clips pregenerados, una aparejo para cargar medios de narración (es asegurar, imágenes y videos) y un editor rápido que permite Los usuarios describen los personajes, acciones y escenas que desean representar. Con Diffuse, los usuarios pueden insertarse directamente en una imagen generada por IA o hacer que su imagen digital imite cosas, como movimientos de bailete, capturados en otros videos.
«Nuestro maniquí admite movimientos y expresiones muy realistas», dijo Mashrabov. «Somos pioneros en ‘modelos mundiales’ para consumidores, lo que nos permitirá crear la mejor reproducción y publicación de video de su clase con un gran nivel de control».
Higgsfield no es la única startup de video generativo que se enfrenta a OpenAI. Runway fue uno de los primeros en presentarse a imagen y sus herramientas continúan mejorando. Incluso está Haiper, que cuenta con el respaldo de dos alumnos de DeepMind y más de 13 millones de dólares en efectivo de peligro.
Mashrabov sostiene que Diffuse se destacará gracias a su táctica de salida al mercado centrada en los dispositivos móviles y las redes sociales.
«Al priorizar las aplicaciones de iOS y Android en área de los flujos de trabajo de escritorio, permitimos a los creadores crear contenido atractivo para las redes sociales en cualquier momento y en cualquier área», dijo Mashrabov. «De hecho, al desarrollar dispositivos móviles, podemos priorizar la facilidad de uso y las funciones amigables para el consumidor desde el primer día».
Higgsfield igualmente está funcionando magro. Mashrabov dice que los modelos generativos que sustentan la plataforma fueron desarrollados por un equipo de 16 personas en menos de nueve meses y entrenados en un corro de 32 GPU (32 GPU pueden parecer mucho, pero considerando que OpenAI usa decenas de miles, no lo es). en existencia). Y Higgsfield sólo ha recaudado 8 millones de dólares hasta la plazo, la maduro parte de los cuales provino de un fresco tramo de financiación auténtico liderado por Menlo Ventures.
Para mantenerse un paso por delante de sus rivales, Higgsfield planea destinar el capital auténtico a la construcción de un editor de video mejorado que permitirá a los usuarios modificar personajes y objetos en videos, y a entrenar modelos de reproducción de video más potentes específicamente para casos de uso de redes sociales. De hecho, Mashrabov considera que las redes sociales (y el marketing en redes sociales) son el principal hornacina de Higgsfield para ocasionar capital.
Si aceptablemente Diffuse es actualmente de uso tirado, Mashrabov imagina un futuro en el que los especialistas en marketing paguen algún tipo de tarifa o suscripción por funciones premium, o por campañas de convexidad o a gran escalera.
«Creemos que Higgsfield desbloquea un nivel increíble de realismo y casos de uso de producción de contenido para los especialistas en marketing de redes sociales», dijo. “Constantemente escuchamos a los CMO y directores creativos asegurar que necesitan optimizar los presupuestos de producción de contenido y acortar los plazos sin dejar de ofrecer contenido impactante. Por eso creemos que las soluciones de inteligencia fabricado generativa de video serán una opción fundamental para ayudarlos a lograrlo”.
Por supuesto, Higgsfield no es inmune a los desafíos más amplios que enfrentan las nuevas empresas de IA generativa.
Está aceptablemente establecido que los modelos de IA generativa como el que impulsa Diffuse pueden «regurgitar» datos de entrenamiento. ¿Por qué es eso problemático? Bueno, si los modelos fueran entrenados en contenido protegido por derechos de autor sin permiso o sin algún tipo de acuerdo de atrevimiento actual, los usuarios de esos modelos podrían ocasionar sin saberlo un trabajo que infrinja los derechos de autor, exponiéndolos a demandas.
Mashrabov no reveló la fuente de los datos de entrenamiento de Higgsfield (parágrafo de asegurar que provienen de «múltiples lugares disponibles públicamente») y siquiera dijo si Higgsfield retendría los datos de los usuarios para entrenar modelos futuros, lo que podría no sentar aceptablemente a sus clientes. algunos clientes comerciales. Señaló que los usuarios de Diffuse pueden solicitar que se eliminen sus datos en cualquier momento a través de la aplicación.
Las plataformas de “clonación” digital como Higgsfield igualmente son propicias para el extralimitación, como lo ha demostrado la proliferación de deepfakes en las redes sociales en los últimos meses.
De forma similar, Higgsfield podría proveer el robo de contenido de los creadores. Por ejemplo, sólo es necesario subir un vídeo de la coreografía de cualquiera para ocasionar un vídeo de ellos mismos interpretando esa misma coreografía.
Le pregunté a Mashrabov qué salvaguardas o protecciones podría estar usando Higgsfield para intentar avisar el extralimitación y, aunque no entró en detalles, afirmó que la plataforma emplea una combinación de moderación manual y automatizada.
«Hemos decidido implementar gradualmente el producto y probarlo primero en mercados selectos, para poder monitorear dónde existe el potencial de extralimitación y cambiar el producto según sea necesario», agregó Mashrabov.
Tendremos que esperar y ver qué tan aceptablemente funciona en la experiencia.
————————————————– —————–
Esta página transcribe artículos de diversas fuentes de dominio conocido, las ideas expresadas son responsabilidad de sus respectivos autores por lo cual no nos hacemos responsables del uso o la interpretación que se les dé. La información publicada nunca debe sustituir consultoría profesional, médica, admitido o psicológica.