"Descargar con torrents desde un portátil de la empresa no es buena idea": Meta descargó 81,7 TB de libros con copyright para su IA
Hace unos días veíamos que Meta entrenó a su chatbot usando libros con copyright sacados de una web de descargas y que fue con el visto bueno de Mark Zuckerberg. Documentos recientemente desclasificados en el caso Kadrey vs. Meta revelan que la empresa habría utilizado obras protegidas por derechos de autor... Y hoy se han descubierto nuevas informaciones más concretas al respecto. El proceso legal Kadrey contra Meta acusa a la empresa de redes sociales de haber utilizado obras protegidas por los derechos de autor para entrenar sus modelos de inteligencia artificial. Y ahora se ha podido saber que lo hacían desde BitTorrent. Incluso, como recoge Xataka, Nikolay Bashlykov, uno de los responsables de llevar a cabo esta recolección de datos, llegó a bromear con sus compañeros (en abril de 2023) que "descargar con torrents desde un portátil de la empresa no parece buena idea" recordando que la empresa debería tener cuidado con la IP desde la que descargaban los datos. La enorme cantidad de datos El mes pasado, Meta admitió haber descargado mediante torrent un controvertido conjunto de datos de gran tamaño conocido como LibGen, que incluye decenas de millones de libros con derechos de autoría. Pero los detalles en torno a los torrents eran confusos hasta ayer, cuando los correos electrónicos sin redactar de Meta se hicieron públicos por primera vez. La nueva evidencia mostró que Meta transfirió "al menos 81,7 terabytes de datos a través de múltiples bibliotecas paralelas a través del sitio Anna's Archive, incluidos al menos 35,7 terabytes de datos de Z-Library y LibGen", según la presentación judicial de los autores. En Genbeta GPT-4 ofrece abiertamente contenido protegido por copyright. Otras IA disimulan mucho mejor: las conclusiones de este estudio Y "Meta también había descargado previamente 80,6 terabytes de datos de LibGen". "La magnitud del esquema ilegal de descarga de torrents de Meta es asombrosa", afirmaron los autores en su presentación, insistiendo en que "actos de piratería de datos mucho más pequeños (apenas el 0,008 por ciento de la cantidad de obras protegidas por derechos de autor que descargó ilegalmente Meta) han dado lugar a que los jueces remitan la conducta a la oficina del fiscal de Estados Unidos para una investigación penal", como recoge Arstechnica. "Meta actuó como una sanguijuela" Como recoge el documento, hecho público, sobre este caso legal, el representante corporativo de Meta admitió que la empresa no solo descargó el archivo creado ilegalmente conjunto de datos conocido como LibGen, sino que también lo cargó vía torrent. Esta información se puede leer en las páginas 4 y 5. "En otras palabras, al descargar LibGen y los cientos/miles de programas pirateados con derechos de autor, obras que contiene para su uso en el entrenamiento de LLaMA, Meta actuó como una “sanguijuela”, como se le conoce a un descargador de este tipo", como describe el documento. Cabe decir que, como recoge Xataka, Meta ha presentado una moción para desestimar esas acusaciones indicando que no había evidencias de que ningún libro fuera descargado por empleados de Meta a través de Torrent o que fueran distribuidos luego por Meta. Qué es LibGen Como ya habíamos visto el pasado mes, en documentos presentados ante el Tribunal de Distrito de Estados Unidos para el Distrito Norte de California, el demandante reiteró el testimonio de Meta de fines del año pasado, revelando que Zuckerberg aprobó el uso de un conjunto de datos conocido como LibGen para el entrenamiento relacionado con LLaMA. LibGen es considerado un "agregador de enlaces" que ofrece una amplia gama de publicaciones académicas con derechos de autor. De acuerdo con Aibase, "a pesar de enfrentar demandas y órdenes judiciales por violación de derechos de autor, el sitio continúa ofreciendo obras de importantes editoriales como Cengage Learning y McGraw Hill". En Genbeta OpenAI transcribió más de un millón de horas de vídeos de YouTube para entrenar GPT-4 esquivando su política de uso, según NYT Ya desde Genbeta explicamos que Library Genesis, conocida popularmente como 'LibGen', es un motor de búsqueda que facilita el acceso gratuito a libros, artículos científicos y otros contenidos protegidos por derechos de autor. Aunque su acceso ha sido bloqueado en varios países y se ha enfrentado a múltiples demandas judiciales, LibGen sigue operando mediante dominios alternativos, a imagen y semejanza de Sci-Hub o Z-Library. Ya en el año 2023 un grupo de destacados escritores, encabezado por el guionista y novelista Michael Chabon (premio Pulitzer 2001) y por el dramaturgo David Henry Hwang, presentaron sendas demandas en los juzgados de San Francisco contra dos gigantes de la tecnología, OpenAI y Meta. ¿El motivo? Que consideran que sus libros han sido usados —sin autorización, claro está— para ent
!["Descargar con torrents desde un portátil de la empresa no es buena idea": Meta descargó 81,7 TB de libros con copyright para su IA](https://i.blogs.es/94fa68/1366_2000-1-/840_560.jpeg)
Hace unos días veíamos que Meta entrenó a su chatbot usando libros con copyright sacados de una web de descargas y que fue con el visto bueno de Mark Zuckerberg. Documentos recientemente desclasificados en el caso Kadrey vs. Meta revelan que la empresa habría utilizado obras protegidas por derechos de autor... Y hoy se han descubierto nuevas informaciones más concretas al respecto.
El proceso legal Kadrey contra Meta acusa a la empresa de redes sociales de haber utilizado obras protegidas por los derechos de autor para entrenar sus modelos de inteligencia artificial. Y ahora se ha podido saber que lo hacían desde BitTorrent.
Incluso, como recoge Xataka, Nikolay Bashlykov, uno de los responsables de llevar a cabo esta recolección de datos, llegó a bromear con sus compañeros (en abril de 2023) que "descargar con torrents desde un portátil de la empresa no parece buena idea" recordando que la empresa debería tener cuidado con la IP desde la que descargaban los datos.
La enorme cantidad de datos
El mes pasado, Meta admitió haber descargado mediante torrent un controvertido conjunto de datos de gran tamaño conocido como LibGen, que incluye decenas de millones de libros con derechos de autoría. Pero los detalles en torno a los torrents eran confusos hasta ayer, cuando los correos electrónicos sin redactar de Meta se hicieron públicos por primera vez.
La nueva evidencia mostró que Meta transfirió "al menos 81,7 terabytes de datos a través de múltiples bibliotecas paralelas a través del sitio Anna's Archive, incluidos al menos 35,7 terabytes de datos de Z-Library y LibGen", según la presentación judicial de los autores.
Y "Meta también había descargado previamente 80,6 terabytes de datos de LibGen". "La magnitud del esquema ilegal de descarga de torrents de Meta es asombrosa", afirmaron los autores en su presentación, insistiendo en que "actos de piratería de datos mucho más pequeños (apenas el 0,008 por ciento de la cantidad de obras protegidas por derechos de autor que descargó ilegalmente Meta) han dado lugar a que los jueces remitan la conducta a la oficina del fiscal de Estados Unidos para una investigación penal", como recoge Arstechnica.
"Meta actuó como una sanguijuela"
Como recoge el documento, hecho público, sobre este caso legal, el representante corporativo de Meta admitió que la empresa no solo descargó el archivo creado ilegalmente conjunto de datos conocido como LibGen, sino que también lo cargó vía torrent. Esta información se puede leer en las páginas 4 y 5.
"En otras palabras, al descargar LibGen y los cientos/miles de programas pirateados con derechos de autor, obras que contiene para su uso en el entrenamiento de LLaMA, Meta actuó como una “sanguijuela”, como se le conoce a un descargador de este tipo", como describe el documento.
Cabe decir que, como recoge Xataka, Meta ha presentado una moción para desestimar esas acusaciones indicando que no había evidencias de que ningún libro fuera descargado por empleados de Meta a través de Torrent o que fueran distribuidos luego por Meta.
Qué es LibGen
Como ya habíamos visto el pasado mes, en documentos presentados ante el Tribunal de Distrito de Estados Unidos para el Distrito Norte de California, el demandante reiteró el testimonio de Meta de fines del año pasado, revelando que Zuckerberg aprobó el uso de un conjunto de datos conocido como LibGen para el entrenamiento relacionado con LLaMA. LibGen es considerado un "agregador de enlaces" que ofrece una amplia gama de publicaciones académicas con derechos de autor.
De acuerdo con Aibase, "a pesar de enfrentar demandas y órdenes judiciales por violación de derechos de autor, el sitio continúa ofreciendo obras de importantes editoriales como Cengage Learning y McGraw Hill".
Ya desde Genbeta explicamos que Library Genesis, conocida popularmente como 'LibGen', es un motor de búsqueda que facilita el acceso gratuito a libros, artículos científicos y otros contenidos protegidos por derechos de autor. Aunque su acceso ha sido bloqueado en varios países y se ha enfrentado a múltiples demandas judiciales, LibGen sigue operando mediante dominios alternativos, a imagen y semejanza de Sci-Hub o Z-Library.
Ya en el año 2023 un grupo de destacados escritores, encabezado por el guionista y novelista Michael Chabon (premio Pulitzer 2001) y por el dramaturgo David Henry Hwang, presentaron sendas demandas en los juzgados de San Francisco contra dos gigantes de la tecnología, OpenAI y Meta. ¿El motivo? Que consideran que sus libros han sido usados —sin autorización, claro está— para entrenar los modelos de lenguaje desarrollados por ambas compañías (ChatGPT y LLaMa 2, respectivamente).
Imagen | Genbeta
Vía | Xataka
-
La noticia
"Descargar con torrents desde un portátil de la empresa no es buena idea": Meta descargó 81,7 TB de libros con copyright para su IA
fue publicada originalmente en
Genbeta
por
Bárbara Bécares
.