Archivo de Internet

Archivo de Internet
Servidores del sitio espejo de la Bibliotheca Alexandrina
Servidores del sitio espejo guardado en la Bibliotheca Alexandrina
Creación 1996
Fundadores Ver el tablero
Forma jurídica Organización sin ánimo de lucro
Eslogan Acceso universal a todo el conocimiento
La oficina central 300 Funston Avenue, Richmond District , San Francisco , California , EE. UU.
 
Dirección Julien masanes
Actividad Archivado y preservación web
Productos Archivo de arte de portada ( d )
Socios Biblioteca Pública Digital de América
Eficaz 200
Sitio web archive.org
Cifra de negocio 14.000.000 dólares estadounidenses (2015)

Internet Archive (o IA ) es una organización sin fines de lucro dedicada al archivo web que también actúa como una biblioteca digital . Estos archivos electrónicos se componen de instantáneas (copias de páginas tomadas en diferentes momentos) de páginas web, software, películas, libros y grabaciones de audio.

Para garantizar la estabilidad y seguridad de los datos archivados, se mantiene un sitio espejo en funcionamiento en la Bibliotheca Alexandrina en Egipto . AI pone sus colecciones a disposición de investigadores, historiadores y académicos de forma gratuita. Ubicada en el distrito de Richmond , al sur del Presidio de San Francisco , es miembro de la American Library Association y está oficialmente reconocida como biblioteca por el estado de California .

El rastreador web utilizado por IA es Heritrix , software gratuito . El software gratuito de escaneo de libros es Scribe.

Historia

Internet Archive fue fundado en 1996 por Brewster Kahle . Debido a sus objetivos, la preservación del conocimiento humano y la accesibilidad de las colecciones para todos, los fundadores de IA comparan este proyecto con el anterior de la Biblioteca de Alejandría .

Servicios de archivo de Internet

Wayback Machine

La Wayback Machine es la parte instantánea de la Web desarrollada por el Archivo de Internet . Wayback Machine fue creado por Brewster Kahle para almacenar e indexar cualquier cosa en la web. La Wayback Machine se actualiza con contenido de Alexa . Este servicio permite a los usuarios ver versiones archivadas de páginas web a lo largo del tiempo: es el "índice tridimensional".

Las instantáneas están disponibles de seis a doce meses después de la captura. La frecuencia de las instantáneas varía, no se registran todas las actualizaciones del sitio web y se pueden observar intervalos de varias semanas.

En 2006, Wayback Machine contenía casi dos petabytes de datos. El volumen está creciendo a una tasa de 20  terabytes por mes, un aumento de dos tercios de los doce terabytes por mes que fue la tasa de crecimiento en 2003. Este crecimiento es mayor que la cantidad de texto contenida en las bibliotecas más importantes de la world. world, incluida la Biblioteca del Congreso . En 2009, Wayback Machine contenía casi tres petabytes de datos y su aumento fue de 100 terabytes por mes. Los datos se archivan en sistemas fabricados por Capricorne Technologies, racks Petabox.

El nombre "  Wayback Machine  " se refiere a episodios de The Rocky and Bullwinkle Show , donde el Sr. Peabody, un perro profesor y su asistente Sherman (una mascota humana), usan una máquina del tiempo llamada "WABAC Machine" para describir eventos históricos famosos.

En 2015, Rusia habría bloqueado por error todo el sitio de Wayback Machine .

Archive-It

Los usuarios que deseen archivar de forma permanente e inmediata sus datos pueden utilizar, mediante suscripción, el servicio Archive-It  (en) IA. Los datos recopilados son indexados periódicamente por Wayback Machine . Endiciembre 2007, este servicio había creado más de 230 millones de URL para 466 colecciones públicas, incluidas agencias gubernamentales, universidades e instituciones culturales.

Ejemplo de organizaciones o instituciones que participan en Archive-It:

Colecciones

Además de los archivos web, los servicios de Internet Archive mantienen grandes colecciones de medios digitales que son de dominio público o tienen licencia para su redistribución, como las licencias Creative Commons . Los medios se organizan en colecciones por tipología (imágenes en movimiento, sonido, texto, etc.) y en subcolecciones según distintos criterios. Cada colección principal incluye una subcolección comunitaria , donde se pueden archivar las contribuciones del público en general.

Sus colecciones incluyen (desde 14 de noviembre de 2007):

Imágenes de video

Además de los largometrajes, la colección de videos de Internet Archive incluye noticias, cómics clásicos , propaganda a favor y en contra de la guerra, y más material efímero de los Archivos Prelinger, como comerciales, películas educativas e industriales y colecciones de películas de aficionados.

Ejemplos de colección:

  • Brickfilms ( enlace directo ): agrupa películas animadas filmadas con ladrillos de Lego , algunas de las cuales son versiones de las películas.
  • Elección 2004  : es un espacio público, no partidista, dedicado a compartir material de video relacionado con las Elecciones Presidenciales de los Estados Unidos de 2004 .
  • Noticias independientes: incluye subcolecciones como el concurso World At War de Internet Archive de 2001 . Entre los más descargados se encuentran los videos hechos por testigos presenciales del terremoto del Océano Índico en 2004. El Archivo de Televisión del 11 de septiembre contiene videos de todas las principales cadenas de televisión del mundo relacionados con los ataques del 11 de septiembre de 2001 .

Ejemplo de película francesa:

Sonidos

La colección de audio se compone de música, audiolibros, transmisiones de noticias, programas de radio antiguos y una amplia variedad de otros archivos de audio. La subcolección Live Music Archive incluye 40.000 grabaciones de conciertos de artistas independientes, así como de artistas y conjuntos musicales más establecidos con reglas menos estrictas sobre la grabación de conciertos como Grateful Dead .

Textos

Esta colección reúne textos del Proyecto Gutenberg , textos de varias bibliotecas de todo el mundo, así como una colección de documentos y notas de ARPANET . Con más de 7 millones de libros, Internet Archive es la segunda biblioteca de libros digitales de acceso abierto más grande del mundo después de Google Books. Todos los documentos digitalizados y puestos en línea por los usuarios de Internet o las instituciones se oerizan y convierten en archivos EPUB para lectores electrónicos o MOBI para Kindle y disfrutan de un archivo permanente en muchos servidores de todo el mundo (California, Egipto, China, Países Bajos). Medias, etc. ).

La Biblioteca Sainte-Geneviève es la primera biblioteca francesa que participa en el proyecto demarzo 2010. En Francia, la École des Ponts ParisTech (desdeAgosto 2012), el Instituto Nacional de Investigaciones Agropecuarias (desde enero 2015), Sciences Po Paris (desde junio 2015), la Biblioteca Sanitaria Interuniversitaria (desde enero 2018), la Biblioteca Universitaria de Lenguas y Civilizaciones (desde septiembre de 2019) y las Bibliotecas de la École normale supérieure (desde diciembre de 2020) también participan.

Biblioteca gratuita

Internet Archive es miembro de Open Content Alliance  (en) y opera la Open Library donde más de 200,000 libros digitalizados en el dominio público están disponibles en línea e imprimibles. El sistema de escaneo de libros Scribe sirve para este propósito.

Durante la pandemia de coronavirus, Internet Archive pone a disposición de los estadounidenses libros con derechos de autor para que puedan estudiar durante el encierro. Varias editoriales no están de acuerdo y el Archivo de Internet está retirando el acceso a los libros en cuestión en16 de junio de 2020. A pesar de todo, los editores están demandando al sitio y está programada una prueba para 2021.

Controversias

Sitio web de Scientology

A finales de 2002, Internet Archive borró varios sitios críticos de Scientology identificados por Wayback Machine. El mensaje de error indica que fue el resultado de una "solicitud del propietario del sitio". Más tarde se aclaró que los abogados de la Iglesia de la Cienciología habían exigido la eliminación, sin ningún motivo legal, y que los propietarios de estos sitios no querían que se eliminaran sus páginas.

Archivos de Internet como prueba

Litigio civil en los Estados Unidos Telewizja Polska

En octubre de 2004, en un caso llamado "  Telewizja Polska SA contra Echostar Satellite  ", un abogado intenta utilizar los archivos de Wayback Machine como fuente de evidencia admisible, probablemente por primera vez.

Telewizja Polska es el proveedor de TVP Polonia y EchoStar que opera Dish Network . Antes del juicio, EchoStar dijo que tenía la intención de usar instantáneas de Wayback Machine como evidencia del contenido pasado del sitio de Telewizja Polska. Telewizja Polska presentó una moción in limine  (in) para eliminar las tomas de los justificantes de rumores y fuentes no autenticadas, pero el juez Arlander Keys rechazó las afirmaciones de Telewizja Polska y se negó a excluir las pruebas en el juicio. Sin embargo, en el momento del juicio, el juez del Tribunal de Distrito Ronald Guzmán en primera instancia anuló las conclusiones del juez Keys y concluyó que ni el Archivo de Internet ni las páginas subyacentes (es decir, el sitio de Telewizja Polska) no eran admisibles como prueba. El juez Guzmán dictaminó que imprimir una página web no era prueba de autenticación de la información.

Defensores de la atención médica, Inc.

En 2003, Healthcare Advocates, Inc. fue acusado de una demanda por infracción de marca registrada. La acusación intentó utilizar material de Internet archivado accesible a través del Archivo de Internet. Después de perder esta demanda, la compañía intentó demandar a Internet Archive por violar la DMCA y la Ley de Abuso y Fraude Informático . Argumentaron que, dado que instalaron un archivo robots.txt en su sitio web, el robot de IA debería haberlo evitado. La primera denuncia se presentó el26 de junio de 2003y agregaron el archivo robots.txt, el 8 de julio de 2003, las páginas que se retirarán retroactivamente. El juicio se resolvió extrajudicialmente.

Robots.txt se utiliza como parte del Estándar de exclusión de robots , un estándar voluntario que IA aplica y que prohíbe a los robots indexar ciertas páginas marcadas por el creador como fuera de los límites. Como resultado, la IA ha eliminado varios sitios web que ahora son inaccesibles a través de Wayback Machine. A veces, esto se debe a que un nuevo propietario colocó un archivo robots.txt que prohíbe la indexación del sitio. Los administradores dicen que están trabajando en un sistema que permitirá el acceso a archivos anteriores y excluirá los elementos creados después de agregar el archivo.

En 2006, IA aplicó la regla Robots.txt de forma retroactiva. Si un sitio bloquea IA, como Healthcare Advocates, también se eliminan todas las páginas previamente archivadas de ese dominio. En el caso de sitios bloqueados, solo se archiva el archivo robots.txt. Esta práctica parece ser perjudicial para los investigadores que acceden a la información disponible en el pasado.

Sin embargo, IA también afirma que “a veces el propietario de un sitio web nos contacta directamente y nos pide que dejemos de indexar o archivar un sitio. Cumplimos con estas solicitudes. También explicaron que "Internet Archive no está interesado en preservar o proporcionar acceso a sitios web u otro material de Internet propiedad de personas que no querrían que se archivara su material" .

Ley de Patentes

La Oficina de Patentes de los Estados Unidos y, sujeto a que se cumplan requisitos adicionales (por ejemplo, proporcionar una declaración oficial del archivero), la Oficina de Patentes Europea aceptará una fecha del Archivo de Internet como prueba de la publicación de una página web. Estas fechas se utilizan para determinar si una página web está disponible antes, por ejemplo, de la fecha de presentación de una solicitud de patente.

Derechos de autor

Muerte digna

En noviembre de 2005, la descarga gratuita de los conciertos de Grateful Dead ha sido eliminada del sitio. John Perry Barlow identificó a Bob Weir , Mickey Hart y Bill Kreutzmann como los instigadores de este cambio. La30 de noviembre, una publicación en el foro de Brewster Kahle resumió lo que parece ser el compromiso alcanzado entre los miembros de la banda. Los conciertos en vivo se pueden descargar o escuchar, y las grabaciones estarán disponibles solo para escuchar. Desde entonces se han añadido conciertos.

Concha de Suzanne

La 12 de diciembre de 2005, la activista Suzanne Shell  (en) reclamó la suma de 100.000  dólares por el archivo de su sitio “profane-justice.org” entre 1999 y 2004. El20 de enero de 2006, The Internet Archive presentó una acción de sentencia declarativa en el Distrito del Norte de California, solicitando al tribunal que determinara que IA no infringió los derechos de autor de Shell.

Shell respondió y presentó otra queja contra IA por archivar su sitio, alegando violación de sus términos de servicio. La13 de febrero de 2007, un juez de distrito de Colorado desestimó todos los reclamos excepto el incumplimiento de contrato.

La 25 de abril de 2007, IA y Shell han anunciado conjuntamente la solución de su disputa. IA dijo: “Internet Archive no tiene interés en poner información en la Wayback Machine de las personas que no quieren ver su contenido web archivado. Reconocemos que M me Shell tiene derechos de autor válidos y aplicables en su sitio y lamentamos que el registro de su sitio en Wayback Machine haya dado lugar a este litigio. Estamos felices de tener este caso detrás de nosotros. " Shell dijo: " Respeto el objetivo y el valor histórico del Archivo de Internet. Nunca tuve la intención de interferir con este objetivo ni causar ningún daño. "

Situación de los derechos de autor en Europa

En Europa, Wayback Machine a veces puede violar las leyes de derechos de autor. Solo el creador puede decidir dónde se publica o reproduce su contenido, las páginas deben eliminarse de los archivos a petición del creador.

Competidores

En Europa, European Internet Archive es un competidor.

Notas y referencias

  1. "  https://projects.propublica.org/nonprofits/organizations/943242767  "
  2. Internet Archive en la nueva biblioteca de Alejandría .
  3. (in) Internet Archive officiellement a library , 2 de mayo de 2007
  4. (en) Scribe Software
  5. Judy Tong, “  Partido responsable - Brewster Kahle; Una biblioteca de la Web, en la Web  ” , The New York Times ,8 de septiembre de 2002
  6. (en) Una biblioteca tan grande como el mundo - Heather Green, BusinessWeek , 28 de febrero de 2002
  7. "  The Wayback Machine, una víctima del bloqueo excesivo de Rusia  " , ZDNet (consultado el 30 de junio de 2015 )
  8. (en) La preservación de la Web un grupo a la vez - Stefanie Olsen, CNET , 1 st de mayo de de 2006
  9. La memoria de la Web está en Archive.org, que enumera unos 65 millones de sitios - Le Monde , 14 de noviembre de 2007
  10. Mathieu Andro, Emmanuelle Asselin, Marc Maisonneuve (2012), Bibliotecas digitales: software y plataformas , París, ADBS.
  11. https://archive.org/details/bibliothequesaintegenevieve
  12. https://archive.org/details/ecole-des-ponts
  13. https://archive.org/details/inra
  14. https://archive.org/details/sciencespo
  15. https://archive.org/details/bibliothequeinteruniversitairedesante
  16. https://archive.org/details/bulac?tab=about
  17. https://archive.org/details/bibliotheques-ecole-normale-superieure-images?tab=about
  18. (en) Internet Archive afirma el progreso contra la iniciativa de bibliotecas de Google - Antone Gonsalves, InformationWeek , 20 de diciembre de 2006
  19. (in) The Open Library hace su debut en línea - Chronicle of Higher Education , The Wired Campus , 9 de julio de 2007
  20. (en) Stefanie Olsen, código abierto Un rival del proyecto del libro de Google - CNET , 26 de octubre de 2005
  21. (en) María Bustillos, "  Los editores están tomando el Internet para Corte  " ,10 de septiembre de 2020.
  22. (in) Net archive silencia al crítico de Scientology - Lisa M. Bowman, CNET 24 de septiembre de 2002
  23. (in) Exclusiones de Wayback Machine - 23 de septiembre de 2002
  24. (en) Sherman, configure Wayback Machine for Scientology [{} archiveurl Archive] en WebCite the22 de julio de 2018 - Ernest Miller, 24 de septiembre
  25. (in) Instantáneas de la página web de Internet Archive mantenidas como evidencia admisible - Lauren Gelman, Paquete 2 (3) 17 de noviembre de 2004
  26. (in) Proving Web History: How to use the Internet Archive - Beryl A. Howell, Journal of Internet Law 3-9 , febrero de 2006 [PDF]
  27. (en) Sitio web de Jessica Dye demandado por controvertido viaje al pasado de Internet , EContent , 28 (11): 8-9, 2005
  28. (in) Internet Archive acuerda la demanda por Wayback Machine - Eric Bangeman, Ars Technica , 31 de agosto de 2006
  29. (en) Ira de Deadheads puestos en la represión Web - Jeff Leeds y Jesse Fox Mayshark, International Herald Tribune , 1 st de diciembre de de 2005
  30. (en) Buena Nueva y el año Apología: GD en el Archivo de Internet - Brewster Kahle y Matt Vernon, Música en archivo El foro, 1 st de diciembre de de 2005
  31. (en) Archivo de Internet v. Shell - Lewis T. Babcock, Acción civil No. 06cv01726LTBCBS, 13 de febrero de 2007 [PDF]
  32. (in) Mujer de Colorado demanda para mantener a los rastreadores web en contratos - Thomas Claburn, InformationWeek , 16 de marzo de 2007
  33. (en) "  Archivo de Internet v. Suzanne Shell  ” ( ArchivoWikiwixArchive.isGoogle • ¿Qué hacer? ) - Martin Samson, a través de Phillips Nizer LLP
  34. (in) Internet Archive and Suzanne Shell Settle Dewsuit , 25 de abril de 2007
  35. (de) The Wayback Machine und Google Cache - eine Verletzung deutschen Urheberrechts? , Martin Bahr, 14 de enero de 2002, Internet-Zeitschrift für Rechtsinformatik und Informationsrecht: JurPC
  36. https://www.nextinpact.com/lebrief/46192/european-internet-archive-se-lance

Ver también

Bibliografía

  • (en) S. Aya, WYArms, L. Walle, B. Kot, R. Mitchell y P. Dmitriev, "Una biblioteca de investigación basada en las colecciones históricas de Internet Archive", revista D-Lib , 12 (2) , 4, 2006
  • (en) S. Hackett, B. Parmanto y X. Zeng, “Accesibilidad de los sitios web de Internet a través del tiempo”, en ACM SIGACCESS Accesibilidad y Computación n o  77-78, ACM, 2004, págs.  32-39
  • (en) E. Jaffe, E. y S. Kirkpatrick, “Arquitectura del archivo de Internet”, en Actas de SYSTOR 2009: Conferencia de sistemas experimentales israelíes , ACM, 2009, p.  11
  • (en) B. Kahle, The Internet Archive , 2012
  • (en) C. McKay, De efímero a perdurable: el archivo de Internet y su función en la preservación de los medios digitales , las tecnologías de la información y las bibliotecas, 23 (1), 3, 2004
  • (en) T. Schwarz, M. Baker, S. Bassi, B. Baumgart, W. Flagg, C. van Ingen, ... y M. Shah, "Investigaciones de fallos de disco en el archivo de Internet", en Work-in -Sesión de progreso , Conferencia NASA / IEEE sobre tecnologías y sistemas de almacenamiento masivo (MSST2006), 2006

enlaces externos