Web siempre ha sido un loco. Durante mucho tiempo, las compañías tecnológicas han extraído en silencio el contenido de los sitios internet públicos para ejecutar pruebas en motores de búsqueda, modelos de IA de energía y algoritmos de trenes. Sin embargo, a partir del aspecto de las cosas, la cultura de “mirar hacia otro lado” podría estar llegando a su fin.
En una demanda reciente que podría cambiar la relación de AI con la internet, Reddit ha presentado cargos contra Anthrope, una compañía de tecnología detrás del Claude AI Chatbot, para capacitar en la vasta colección de publicaciones de usuarios de Reddit sin consentimiento. Según la presentación, Anthrope cosechó datos de las conversaciones de Reddit y los usó para hacer que Claude sea más valioso, conversacional y conocedor.
¿Por qué la indignación repentina contra las compañías de IA raspando sitios internet públicos?
El raspado no es nuevo; Las apuestas acaban de cambiar. Reddit se está preparando para una IPO (oferta pública inicial) y está monetizando fuertemente el acceso a su API (interfaz de programación de aplicaciones). En otras palabras, Reddit ya no ve su contenido como gratuito sino como un producto premium. Esos archivos de argumentos, memes y consejos ahora se consideran propiedad intelectual con un precio.
Las compañías tecnológicas, por otro lado, han desarrollado modelos de negocio pensando que la internet abierta period un buffet gratuito. Modelos como Claude requieren mucho texto para aprender el lenguaje humano y los métodos de conversación. Reddit, con sus publicaciones Frank, Varias y impulsadas por la comunidad, es una de las plataformas más ricas para acumular información.
El problema de raspado de datos
El raspado siempre ha sido un área gris authorized. Los tribunales a veces han dado veredictos a su favor, especialmente para la investigación, el periodismo o la inteligencia competitiva, pero esos casos son muy diferentes de los modelos AI de mil millones de dólares desarrollados en grandes conjuntos de datos. ¿Por qué? Porque los datos raspados son el cerebro detrás de todo el producto AI.
Reddit alegó que la Ley no se trataba solo de recopilar conocimiento público, sino también de reutilizar la información de su comunidad para capacitar a una IA comercial, sin crédito o recompensa.
Una cosa es que, si Reddit gana, podría establecer un precedente que requiere que los desarrolladores de IA celebren acuerdos de licencia con plataformas antes de utilizar sus datos para la capacitación. Eso podría cambiar el radar de la economía de IA casi de la noche a la mañana, particularmente para empresas más pequeñas que no pueden pagar por conjuntos de datos masivos.
Si Anthrope gana, el veredicto podría volver a enfatizar la thought de que “público” en realidad significa “juego justo”, ofreciendo a las compañías de IA RED free of charge para raspar y entrenar sin buscar permiso, al menos hasta que intervengan las nuevas leyes.
¿Quién posee las conversaciones que ves en línea?
Existe esta arruga que va más allá de Reddit y Anthrope. Reddit en sí mismo no escribe las publicaciones; Son los usuarios.
Eso significa que sus peroratas sobre cómo ChatGPT cayó e interrumpió su trabajo, su guía detallada para ser un escritor técnico fantástico, o sus historias de relación sinceras podrían terminar siendo materia prima para un sistema de IA sin que usted lo sepa. Reddit tiene estos Términos de servicio que le otorgan amplios derechos sobre el contenido del usuario, pero esos acuerdos nunca fueron escritos con la capacitación de IA a gran escala en mente.
Esto plantea una pregunta más profunda: en la period de la IA generativa, ¿requerimos un nuevo tipo de consentimiento para el contenido generado por el usuario? Y si es así, ¿quién lo hace cumplir? ¿Son las plataformas, los usuarios o los legisladores?
Implicaciones más amplias
Si bien el titular cube “Reddit vs. Anthrope”, la batalla authorized también es una lucha sustituta para la industria de la IA en basic. Si Reddit termina ganando, es possible que haya una ola de demandas similares contra Operai, Google y otras compañías de IA que probablemente hayan capacitado modelos en fuentes públicas similares.
En ese mundo, las compañías de IA podrían ser presionadas para celebrar acuerdos de licencia, reducir los acuerdos de intercambio de ingresos o desarrollar modelos en conjuntos de datos más pequeños y licenciados, arrastrar la innovación, pero dar a los propietarios de contenido más apalancamiento.
Por otro lado, si gane antrópico, asegúrese de una carrera armamentista de IA. Con la autoridad authorized para raspar información pública, los desarrolladores de IA pueden acelerar la recopilación de datos a un ritmo que nunca hemos visto, antes de que cualquier nueva ley pueda advertirlas.
Ética, ley y el futuro de IA
Estamos en el precipicio de una nueva frontera donde las regulaciones para la propiedad de datos, los derechos de autor y la capacitación de IA están en debate.
Esta demanda no determinará quién paga a quién; También ayudará a definir los límites de cómo aprende la IA. ¿Web seguirá siendo un campo de entrenamiento abierto, o se convertirá en un área segura donde cada conjunto de datos viene con un contrato?
Una cosa es segura: el período silencioso de rasparse en la oscuridad ha terminado. En adelante, cada conjunto de datos puede venir con un precio, y cada publicación podría ser parte de una pelea más grande sobre el futuro del conocimiento.