Si todos comenzamos a optar de nuestras publicaciones que se utilizan para modelos de entrenamiento, ¿no reduce eso la influencia de nuestra voz y perspectivas únicas en esos modelos? Cada vez más, los modelos serán la principal ventana de todos al resto del mundo. Parece que las personas que menos se preocupan por estas cosas serán las que tengan más datos que terminen entrenando el comportamiento predeterminado de los modelos.
—La influencer de datos
Honestamente, es frustrante para mí que los usuarios de Internet se vean obligados a optar por no participar en inteligencia artificial entrenamiento como el valor predeterminado. ¿No sería bueno si el consentimiento afirmativo fuera la norma para las empresas generativas de IA mientras Raspe la web ¿Y cualquier otro repositor de datos que puedan encontrar para construir modelos fronterizos cada vez más grandes?
Pero, desafortunadamente, ese no es el caso. Compañías como Opadai y Google argumentar que si Acceso de uso justo A todos estos datos se les quitaron, entonces ninguna de esta tecnología sería posible. Por ahora, los usuarios que no quieren contribuir a los modelos generativos están atascados con un pantano de procesos de exclusión en diferentes sitios web y plataformas de redes sociales.
Incluso si la burbuja actual que rodea la IA generativa aparece, al igual que la burbuja de dotcom Lo hizo después de unos años, los modelos que impulsan todas estas nuevas herramientas de IA no se extinguirán. Por lo tanto, los fantasmas de las publicaciones de su foro de nicho y los hilos de redes sociales que abogan por convicciones fuertemente sostenidas vivirán dentro de las herramientas de software. Tienes razón en que optar por no participar significa no incluir activamente en una pieza de cultura potencialmente duradera.
Para abordar su pregunta directa y de manera realista, estos procesos de exclusión son básicamente inútiles en su estado actual. Los que optan por no participar en este momento todavía influyen en el modelo. Supongamos que complete un formulario para un sitio de redes sociales para no usar o vender sus datos para la capacitación de IA. Incluso si esa plataforma respeta esa solicitud, hay innumerables startups en Silicon Valley con jóvenes de 19 años que no lo pensarán dos veces antes de raspar los datos publicados en esa plataforma, incluso si no se supone técnicamente. Como regla general, puede suponer que cualquier cosa que haya publicado en línea probablemente haya llegado a múltiples modelos generativos.
Ok, pero digamos que podría bloquear sus datos de manera realista de estos sistemas o exigir que se elimine después del hecho, hacerlo disminuiría su voz o impacto en el Herramientas AI? He estado pensando en esta pregunta durante unos días, y todavía estoy desgarrado.
Por un lado, su información singular es solo una contribución infinitesimalmente pequeña a la inmensidad del conjunto de datos, por lo que su voz, como figura o autor no pública, probablemente no está empujando el modelo de una forma u otra.
Desde esta perspectiva, sus datos son solo otro ladrillo en la pared de un edificio de 1,000 pisos. Y vale la pena recordar que la recopilación de datos es solo el primer paso para crear un modelo de IA. Los investigadores pasan meses ajustando el software para obtener los resultados que desean, a veces dependiendo trabajadores de baja salarios para etiquetar conjuntos de datos y medir la calidad de salida para el refinamiento. Estos pasos pueden abstragar más datos y disminuir su impacto individual.
En el extremo opuesto, ¿qué pasa si comparamos esto con la votación en una elección? Millones de votos se emiten en las elecciones presidenciales estadounidenses, sin embargo, la mayoría de los ciudadanos y defensores de la democracia insisten en que cada voto es importante, con un estribillo constante de “hacer que su voz se escuche”. No es una metáfora perfecta, pero ¿qué pasa si vimos que nuestros datos tienen un impacto similar? Un pequeño susurro entre la cacofonía del ruido, pero aún impactante en la salida del modelo AI.
No estoy completamente convencido de este argumento, pero tampoco creo que esta perspectiva sea desestimada directamente. Especialmente para los expertos en la materia, sus conocimientos distintos y su forma de abordar la información son exclusivamente valiosos para los investigadores de la IA. Meta no habría pasado por la molestia de usar Todos esos libros En su nuevo modelo de IA si algún datos antiguos haría el truco.
Mirando hacia el futuro, el verdadero impacto que sus datos podrían tener en estos modelos probablemente sea inspirar Datos “sintéticos”. A medida que las empresas que hacen que los sistemas de IA generativos se queden sin información de calidad para raspar, entrarán en su era de Ouroboros; Comenzarán a usar IA generativa para replicar datos humanos que luego volverán a alimentar al sistema para entrenar el próximo modelo de IA para replicar mejor las respuestas humanas. Mientras exista una IA generativa, solo recuerde que usted, como humano, siempre será una pequeña parte de la máquina, ya sea que desee ser o no.