Home Ciencia y Tecnología Cómo se aplica la ley de derechos de autor de EE. UU....

Cómo se aplica la ley de derechos de autor de EE. UU. A la capacitación de LLM

45
0

Andrea Bartz, Charles Graeber y Kirk Wallace Johnson v. Anthrope PBC, recuperado el 25 de junio de 2025 es parte de Serie PDF authorized de Hackernoon. Puedes saltar a cualquier parte de esta presentación aquí. Esta es la Parte 4 de 10.

ANÁLISIS

La Sección 107 de la Ley de derechos de autor identifica cuatro factores para determinar si un uso dado de un trabajo con derechos de autor es un uso justo:

[T]El uso justo de un trabajo con derechos de autor. . . Para fines como críticas, comentarios, informes de noticias, enseñanza (incluidas múltiples copias para uso en el aula), becas o investigación, no es una infracción de los derechos de autor. Al determinar si el uso hecho de un trabajo en cualquier caso specific es un uso justo, los factores a considerar incluirán –

(1) el propósito y el carácter del uso, incluido si dicho uso es de naturaleza comercial o es para fines educativos sin fines de lucro;

(2) la naturaleza del trabajo con derechos de autor;

(3) la cantidad y sustancialidad de la porción utilizada en relación con el trabajo con derechos de autor en su conjunto; y

(4) El efecto del uso en el mercado potencial o el valor del trabajo con derechos de autor.

Estos factores presuponen un “uso”. Entonces, en el umbral, un tribunal debe decidir si un “derechos de autor [work] se ha utilizado de múltiples maneras “, luego evalúe cada uno. Warhol, 598 US en 533. Los usos no activan” la intención subjetiva del usuario “sino en” una consulta objetiva sobre lo que se hizo, es decir, lo que el usuario D[id] con el trabajo authentic “. Id. En 544–45. e incorporó a aquellos directamente a su motor de búsqueda: el uso exclusivo de las miniaturas es como “puntero[s]”A las imágenes en sí. 508 F.3d 1146, 1157, 1160, 1165 (ninth Cir. 2007). A veces, la copia implica muchos usos: en los casos de Google Books, Google Toma prestado de las bibliotecas, se realizan a la imprenta a los bibliotecas de los libros para imprimir diferentes y las diferentes copias en diferentes herramientas en diferentes herramientas, uno de los cuales se realizó a la información” sobre los libros “. Up the Impress Books si se pierde.

Nuestros partidos debaten una decisión instructiva. En American Geophysical Union v. Texaco Inc., los empleados de Texaco usaron artículos científicos en una biblioteca central, usaron copias de ellas en bibliotecas de escritorio private y usaron copias seleccionadas nuevamente en el laboratorio científico, el primer uso pagado, el segundo infractor y el tercer lugar plausiblemente justo, pero de hecho, una ocurrencia rara. 802 F. Supp. 1, 4–5, 14 (SDNY 1992) (juez Pierre Leval), aff’d, 60 F.3d 913, 918–19, 926 (second Cir. 1994).

Aquí, nuestras fiestas concursan qué uso o usos están en cuestión. Anthrope sostiene que copió los libros de los autores solo para un uso: solo para entrenar LLM. Por el contrario, los autores sostienen que lo hizo para al menos dos usos: primero para construir una vasta biblioteca central de contenido potencialmente útil, y segundo para entrenar LLM específicos utilizando conjuntos de cambio y subconjuntos de ese contenido, con el tiempo seleccionando los trabajos más bien organizados y bien expresados ​​para la capacitación. Los autores también se quejan de que el cambio de formato de impresión a digital fue una infracción no resumida como un uso justo (Opp. 15, 25). Sin embargo, los autores no alegan que las salidas de LLM que infringen sus obras llegaron a los usuarios del servicio Claude orientado al público. Este pedido aborda cada uno de los cuatro factores a su vez, señalando cómo se aplica cada una de las copias de capacitación y a las copias de la biblioteca compradas y pirateadas. Concluye con un análisis integrado.

1. El propósito y el carácter del uso.

Para un uso dado en cuestión, el primer issue aborda “el propósito y el carácter de TH[at] Uso, incluido si [it] es de naturaleza comercial o es para fines educativos sin fines de lucro “. 17 USC § 107 (1).

A. Las copias utilizadas para entrenar LLM específicas.

Todos están de acuerdo en que un uso en cuestión fue capacitar a LLM para recibir entradas de texto y devolver salidas de texto. Más específicamente, Anthrope utilizó copias de los trabajos con derechos de autor de los autores para mapear iterativamente las relaciones estadísticas entre cada fragmento de texto y cada secuencia de fragmentos de texto para que un LLM completado pudiera recibir nuevas entradas de texto y devolver nuevas salidas de texto como si fuera un indicador de lectura humana y respuestas de escritura. Los autores argumentan, y esta orden da por sentado, que dicha capacitación implicaba “Memoriz[ing]”Obras de” Compress[ing]”Copias de esas obras en el LLM (Opp. 16-17; ver Opp. Experto Zhao ¶ 74). Los LLM” memorizar[d] Mucho, como mucho “(Opp. Exh. 35 en -029109). Independientemente, el” propósito y el carácter “de usar obras para entrenar LLMS fue transformador: espectacularmente así. Para repetir y ser claros: los autores no alegan que cualquier salida de LLM proporcionada a los usuarios infringe los autores. Ninguna salida infractora llegó a los usuarios. Pero ese no es este caso.

En cambio, los autores desafían solo las entradas, no las salidas, de estos LLM. Señalan los LLM totalmente capacitados y el servicio Claude solo para arrojar luz sobre cómo la capacitación misma usa copias de sus obras y las formas en que el servicio Claude podría usarse para producir otros trabajos que competirían con sus obras. Este orden hace lo mismo. Los argumentos de los autores de que el uso de la capacitación no es transformador no es disponible.

Primero, los autores argumentan que el uso de trabajos para entrenar a los LLM subyacentes de Claude period como usar obras para entrenar a cualquier persona para leer y escribir, por lo que los autores deberían poder excluir antrópico de este uso (Opp. 16). Pero los autores no pueden excluir correctamente a nadie de usar sus obras para capacitar o aprender como tales. Todos también leen textos, luego escriben nuevos textos. Es posible que necesiten pagar por obtener un mensaje de texto en primera instancia. Pero para hacer que cualquiera pague específicamente por el uso de un libro cada vez que lo lea, cada vez que lo recuerdan de memoria, cada vez que luego se basan en él al escribir cosas nuevas de nuevas maneras sería impensable. Durante siglos, hemos leído y releer libros. Hemos admirado, memorizado e internalizado sus temas de barrido, sus puntos sustantivos y sus soluciones estilísticas para los problemas de escritura recurrentes.

En segundo lugar, hasta ese último punto, los autores argumentan que la capacitación tenía la intención de memorizar los elementos creativos de sus obras, no solo los no protegibles de sus obras (Opp. 17). Pero este es el mismo argumento. Una vez más, los LLM de Anthrope no se han reproducido al público los elementos creativos de un trabajo dado, ni siquiera el estilo expresivo identificable de un autor (suponiendo argumento de que estos son incluso con derechos de autor). Sí, Claude ha generado gramática, composición y estilo que el LLM subyacente se destiló de miles de obras. Pero si alguien leyera todos los clásicos modernos debido a su expresión excepcional, memorizarlos y luego emular una combinación de su mejor escritura, ¿violaría eso la Ley de Derechos de Autor? Por supuesto que no. Los derechos de autor no se extienden al “método[s] de operación, concepto[s], [or] principio[s]”” Ilustrado[ ] o encarnado en [a] trabajar.” 17 USC § 102 (b); Elementos);

Tercero, los autores luego argumentan que las computadoras no deberían poder hacer lo que la gente hace.

Los autores citan una decisión que parece decir lo mismo (Opp. 16-17). Pero el juez allí enfatizó dos veces mientras discutía el “propósito y el carácter” del uso de que lo que estaba entrenado “no period una IA generativa (IA que escribe nuevo contenido en sí)”. Más bien, lo que fue capacitado, utilizando un sistema propietario para encontrar opiniones de la corte en respuesta a un tema authorized determinado, fue una herramienta de IA en competencia para encontrar opiniones de la corte en respuesta a un tema authorized determinado. Eso no fue transformador. Thomson Reuters entran. Centro GmbH v. Ross Intell. Inc., 765 F. Supp. 3d 382, ​​398 (D. Del. 2025) (Juez Stephanos Bibas), apelación expedida, No. 25-8018 (3d Cir. 14 de abril de 2025).

Un mejor análogo a nuestros hechos sería una herramienta de IA capacitada, utilizando opiniones de la corte y informes, artículos de revisión de leyes y similares, para recibir indicaciones legales y responder con nuevas escrituras legales. Y, en hechos como esos, un tribunal diferente salió hacia el otro lado. Encontró un uso justo. White v. W. Pub. Corp., 29 F. Supp. 3d 396, 400 (SDNY 2014) (juez Jed Rakoff).

El último uso se mantuvo lo suficientemente “ortogonal” para cualquier cosa que cualquier propietario de derechos de autor con razón pudiera esperar controlar. Ver Warhol, 598 US en 538–40. Por lo tanto, podría liberarse para que el copista use, “Promotear[ing] El progreso de la ciencia y las artes, sin disminuir el incentivo para crear “. Id.

En resumen, el propósito y el carácter del uso de trabajos con derechos de autor para entrenar LLM para generar un nuevo texto fue esencialmente transformador. Al igual que cualquier lector que aspirara a ser escritor, los LLM de Anthrope entrenaron sobre trabajos para no correr por delante y replicarlos o suplantarlos, sino para girar una esquina dura y crear algo diferente. Si este proceso de capacitación requirió razonablemente hacer copias dentro del LLM o de otra manera, esas copias se dedicaron a un uso transformador.

El primer issue favorece el uso justo para las copias de entrenamiento. Pero ese no es el único uso en cuestión.



Acerca de la serie PDF Authorized Hackernoon: le traemos las presentaciones de casos técnicos y perspicaces de dominio público más importantes.

Este caso judicial recuperado el 25 de junio de 2025 de Storage.courtlistener.com, es parte del dominio público. Los documentos creados por la corte son obras del gobierno federal y bajo la ley de derechos de autor, se colocan automáticamente en el dominio público y pueden compartirse sin restricción authorized.

fuente