Las encuestas se han utilizado para obtener información sobre las poblaciones, los productos y la opinión pública desde tiempos inmemoriales. Y si aceptablemente las metodologías pueden tener cambiado a lo dadivoso de los milenios, una cosa se ha mantenido constante: la menester de parentela, mucha parentela.
Pero, ¿qué pasa si no puedes encontrar suficientes personas para crear un camarilla de muestra lo suficientemente alto como para difundir resultados significativos? ¿O qué pasaría si pudiera encontrar suficientes personas, pero las restricciones presupuestarias limitan la cantidad de personas que puede encontrar y interviuvar?
Aquí es donde Fairgen quiere ayudar. La startup israelí lanzó hoy una plataforma que utiliza «IA estadística» para difundir datos sintéticos que, según afirma, son tan buenos como los reales. La compañía además está anunciando una nueva cobranza de fondos de 5,5 millones de dólares de Maverick Ventures Israel, The Creator Fund, Tal Ventures, Ignia y un puñado de inversores ángeles, lo que eleva el total de efectivo recaudado desde su inicio a 8 millones de dólares.
“Datos falsos”
Los datos pueden ser el alma de la IA, pero además han sido la piedra angular de la investigación de mercado desde siempre. Entonces, cuando los dos mundos chocan, como ocurre en el mundo de Fairgen, la menester de datos de calidad se vuelve un poco más pronunciada.
Fundada en Tel Aviv, Israel, en 2021, Fairgen se centró anteriormente en asaltar los prejuicios en la IA. Pero a finales de 2022, la empresa pasó a un nuevo producto, Fairboost, que ahora está lanzando en traducción beta.
Fairboost promete “impulsar” un conjunto de datos más pequeño hasta tres veces, permitiendo información más granular sobre nichos que de otro modo serían demasiado difíciles o costosos de alcanzar. Con esto, las empresas pueden entrenar un maniquí de estudios obligatorio profundo para cada conjunto de datos que cargan en la plataforma Fairgen, con patrones estadísticos de estudios de IA en los diferentes segmentos de la sondeo.
El concepto de “datos sintéticos” (datos creados artificialmente y no a partir de eventos del mundo efectivo) no es novedoso. Sus raíces se remontan a los primeros días de la informática, cuando se utilizaba para probar software y algoritmos y disimular procesos. Pero los datos sintéticos, tal como los entendemos hoy, han cobrado vida propia, particularmente con la venida del estudios obligatorio, donde se utilizan cada vez más para entrenar modelos. Podemos asaltar tanto los problemas de escasez de datos como los problemas de privacidad de los datos mediante el uso de datos generados artificialmente que no contienen información confidencial.
Fairgen es la última startup en poner a prueba datos sintéticos y tiene como objetivo principal la investigación de mercado. Vale la pena señalar que Fairgen no produce datos de la carencia ni arroja millones de encuestas históricas en un crisol impulsado por IA: los investigadores de mercado deben realizar una sondeo para una pequeña muestra de su mercado objetivo y, a partir de ahí, Fairgen establece patrones para ampliar la muestra. La compañía dice que puede certificar al menos un aumento del doble con respecto a la muestra flamante, pero en promedio, puede alcanzar un aumento del triple.
De esta guisa, Fairgen podría establecer que alguno de un camarilla de tiempo y/o nivel de ingresos en particular está más inclinado a reponer una pregunta de una guisa determinada. O combine cualquier número de puntos de datos para extrapolarlos del conjunto de datos flamante. Básicamente se proxenetismo de difundir lo que el cofundador y director ejecutante de Fairgen, Samuel Cohen, dice que son «segmentos de datos más sólidos y sólidos, con un último ganancia de error».
«La principal comprensión fue que las personas se están volviendo cada vez más diversas: las marcas deben adaptarse a eso y comprender sus segmentos de clientes», explicó Cohen a TechCrunch. “Los segmentos son muy diferentes: la Reproducción Z piensa de guisa diferente a las personas mayores. Y para poder tener esta comprensión del mercado a nivel de segmento, cuesta mucho parné, requiere mucho tiempo y posibles operativos. Y ahí es donde me di cuenta de que estaba el punto doloroso. Sabíamos que los datos sintéticos tenían un papel que desempeñar allí”.
Una crítica obvia –una con la que la compañía admite tener tenido que litigar– es que todo esto suena como un tropel enorme para tener que salir al campo, interviuvar a personas reales y resumir opiniones reales.
Seguramente cualquier camarilla subrepresentado debería preocuparse de que sus voces reales estén siendo reemplazadas por, bueno, ¿voces falsas?
«Cada uno de los clientes con los que hablamos en el espacio de investigación tiene grandes puntos ciegos: audiencias totalmente difíciles de alcanzar», dijo a TechCrunch el dirigente de crecimiento de Fairgen, Fernando Zatz. “En existencia, no venden proyectos porque no hay suficiente parentela acondicionado, especialmente en un mundo cada vez más diverso donde hay mucha segmentación del mercado. A veces no pueden ir a países específicos; no pueden entrar en datos demográficos específicos, por lo que en existencia pierden proyectos porque no pueden alcanzar sus cuotas. Tienen un número exiguo [of respondents]y si no alcanzan ese número, no venden los conocimientos».
Fairgen no es la única empresa que aplica la IA generativa al campo de la investigación de mercado. El año pasado, Qualtrics dijo que estaba invirtiendo 500 millones de dólares en cuatro abriles para arrostrar la IA generativa a su plataforma, aunque con un enfoque sustancial en la investigación cualitativa. Sin incautación, es una prueba más de que los datos sintéticos están aquí y llegaron para quedarse.
Pero validar los resultados desempeñará un papel importante a la hora de convencer a la parentela de que se proxenetismo de poco efectivo y no de una medida de reducción de costes que producirá resultados subóptimos. Fairgen hace esto comparando un aumento de muestra «efectivo» con un aumento de muestra «sintético»: toma una pequeña muestra del conjunto de datos, la extrapola y la coloca al costado de la existencia.
“Con cada cliente que registramos, hacemos exactamente el mismo tipo de prueba”, dijo Cohen.
Estadísticamente hablando
Cohen tiene una arte en ciencias estadísticas de la Universidad de Oxford y un doctorado en estudios obligatorio de la UCL de Londres, parte del cual implicó un período de nueve meses como comprobado investigador en Meta.
Uno de los cofundadores de la compañía es el presidente Benny Schnaider, quien anteriormente estuvo en el espacio del software empresarial, con cuatro expectativas a su nombre: Ravello a Oracle por 500 millones de dólares en 2016; Qumranet a Red Hat por 107 millones de dólares en 2008; P-Cube a Cisco por 200 millones de dólares en 2004; y Pentacom a Cisco por 118 dólares en 2000.
Y luego está Emmanuel Candès, profesor de estadística e ingeniería eléctrica en la Universidad de Stanford, que se desempeña como asesor comprobado principal de Fairgen.
Esta columna vertebral empresarial y matemática es un importante punto de saldo para una empresa que intenta convencer al mundo de que los datos falsos pueden ser tan buenos como los datos reales, si se aplican correctamente. Así es además como pueden explicar claramente los umbrales y limitaciones de su tecnología: qué tan grandes deben ser las muestras para alcanzar los impulsos óptimos.
Según Cohen, lo ideal es que necesiten al menos 300 encuestados reales para una sondeo y, a partir de ahí, Fairboost puede aumentar el tamaño de un segmento que no constituya más del 15% de la sondeo más amplia.
«Por debajo del 15%, podemos certificar un aumento promedio de 3 veces luego de validarlo con cientos de pruebas paralelas», dijo Cohen. “Estadísticamente, las ganancias son menos dramáticas por encima del 15%. Los datos ya presentan buenos niveles de confianza, y nuestros encuestados sintéticos sólo pueden potencialmente igualarlos o aportar un aumento insignificante. Desde el punto de perspicacia empresarial, siquiera hay ningún problema por encima del 15%: las marcas ya pueden cultivarse de estos grupos; sólo están estancados en el nivel de hornacina”.
El ejecutor no LLM
Vale la pena señalar que Fairgen no utiliza grandes modelos de jerga (LLM) y su plataforma no genera respuestas en «inglés simple» al estilo ChatGPT. La razón de esto es que un LLM utilizará conocimientos de muchas otras fuentes de datos fuera de los parámetros del estudio, lo que aumenta las posibilidades de introducir sesgos que son incompatibles con la investigación cuantitativa.
Fairgen tiene que ver con modelos estadísticos y datos tabulares, y su entrenamiento se fundamento nada más en los datos contenidos en el conjunto de datos cargado. Eso permite efectivamente a los investigadores de mercado difundir encuestados nuevos y sintéticos extrapolando de segmentos adyacentes en la sondeo.
«No utilizamos ningún LLM por una razón muy simple, que es que si tuviéramos que capacitarnos previamente en muchos [other] Encuestas, simplemente transmitiría información errónea”, dijo Cohen. “Porque habría casos en los que se aprendería poco en otra sondeo, y no queremos eso. Se proxenetismo de confiabilidad”.
En términos de maniquí de negocio, Fairgen se vende como SaaS, y las empresas cargan sus encuestas en cualquier formato estructurado (.CSV o .SAV) a la plataforma basada en la abundancia de Fairgen. Según Cohen, se necesitan hasta 20 minutos para entrenar el maniquí con los datos de la sondeo que se le proporcionan, dependiendo de la cantidad de preguntas. Luego, el sucesor selecciona un «segmento» (un subconjunto de encuestados que comparten ciertas características), por ejemplo, «Reproducción Z que trabaja en la industria x», y luego Fairgen entrega un nuevo archivo estructurado de guisa idéntica al archivo de capacitación flamante, con exactamente las mismas preguntas. , solo filas nuevas.
Fairgen está siendo utilizado por BVA y la firma francesa de encuestas e investigación de mercado IFOP, que ya han integrado la tecnología de la startup en sus servicios. IFOP, que es un poco como Gallup en los EE. UU., está utilizando Fairgen para fines de encuestas en las elecciones europeas, aunque Cohen cree que podría terminar usándose además para las elecciones estadounidenses de finales de este año.
“IFOP es básicamente nuestro sello de aprobación, porque existe desde hace unos 100 abriles”, dijo Cohen. “Validaron la tecnología y fueron nuestro socio de diseño flamante. Asimismo estamos probando o ya nos estamos integrando con algunas de las empresas de investigación de mercado más grandes del mundo, de las que todavía no puedo cuchichear”.
————————————————– —————–
Esta página transcribe artículos de diversas fuentes de dominio sabido, las ideas expresadas son responsabilidad de sus respectivos autores por lo cual no nos hacemos responsables del uso o la interpretación que se les dé. La información publicada nunca debe sustituir consultoría profesional, médica, procesal o psicológica.