Nvidia ha adquirido la firma de datos sintéticos Gretel para nueve cifras, según dos personas con conocimiento directo del acuerdo.
El precio de adquisición excede la valoración más reciente de Gretel de $ 320 millones, dicen las fuentes, aunque los términos exactos de la compra siguen siendo desconocidos. Gretel y su equipo de aproximadamente 80 empleados serán doblados en NVIDIA, donde su tecnología se implementará como parte del creciente conjunto de servicios de IA generativos de IA basados en la nube y los gigantes de Chip.
La adquisición se produce cuando Nvidia ha implementado herramientas de generación de datos sintéticos, para que los desarrolladores puedan capacitar a sus propios modelos de IA y ajustarlos para aplicaciones específicas. En teoría, los datos sintéticos podrían crear un suministro casi infinito de datos de capacitación de IA y ayudar a resolver el problema de la escasez de datos que se ha avanzado sobre la industria de la IA desde que ChatGPT se convirtió en la corriente principal en 2022, aunque los expertos, según los expertos, el uso de datos sintéticos en IA generativa viene con sus propios riesgos.
Un portavoz de Nvidia declinó hacer comentarios.
Gretel fue fundada en 2019 por Alex Watson, John Myers y Ali Golshan, quien también se desempeña como CEO. La startup ofrece una plataforma de datos sintéticos y un conjunto de API para los desarrolladores que desean construir modelos de IA generativos, pero no tienen acceso a suficientes datos de capacitación o tienen preocupaciones de privacidad en torno al uso de datos de personas reales. Gretel no construye y licencia sus propios modelos de IA frontera, sino modelos de código abierto existentes para agregar características diferenciales de privacidad y seguridad, luego los empaquetan para venderlos para venderlos. La compañía recaudó más de $ 67 millones en fondos de capital de riesgo antes de la adquisición, según Pitchbook.
Un portavoz de Gretel también declinó hacer comentarios.
A diferencia de los datos generados por humanos o del mundo real, los datos sintéticos son generados por computadora y diseñados para imitar datos del mundo real. Los proponentes dicen que esto hace que la generación de datos sea necesaria para construir modelos de IA más escalables, menos laborales y más accesibles para desarrolladores de IA más pequeños o menos recursos. La protección de la privacidad es otro punto de venta clave de datos sintéticos, lo que lo convierte en una opción atractiva para proveedores de atención médica, bancos y agencias gubernamentales.
NVIDIA ya ha estado ofreciendo herramientas de datos sintéticos para desarrolladores durante años. En 2022 lanzó Omniverse Replicator, que brinda a los desarrolladores la capacidad de generar datos 3D sintéticos personalizados, físicamente precisos y sintéticos para entrenar redes neuronales. En junio pasado, Nvidia comenzó a implementar una familia de modelos de IA abiertos que generan datos de entrenamiento sintético para que los desarrolladores los usen en la construcción o ajuste de LLMS. Llamados Nemotron-4 340b, estos mini modelos pueden ser utilizados por los desarrolladores para aumentar los datos sintéticos para sus propios LLM en “atención médica, finanzas, fabricación, venta minorista y todas las demás industrias”.
Durante su presentación principal en la Conferencia Anual de Desarrolladores de Nvidia este martes, el cofundador y director ejecutivo de NVIDIA, Jensen Huang, habló sobre los desafíos que enfrenta la industria para escalar rápidamente la IA de una manera rentable.
“Hay tres problemas en los que nos centramos”, dijo. “Uno, ¿cómo resuelve el problema de los datos? ¿Cómo y dónde crea los datos necesarios para entrenar la AI? Dos, ¿cuál es la arquitectura del modelo? Y luego tres, ¿cuáles son las leyes de escala?” Huang continuó describiendo cómo la compañía ahora está utilizando la generación de datos sintéticos en sus plataformas de robótica.