Archiwizacja Webu w Europie – narodowe archiwa Sieci

Bartłomiej Konopa

Abstrakt

Archiwizacja Webu, czyli działania mające na celu gromadzenie i zachowanie zasobów Sieci, prowadzona jest już od prawie 25 lat. Przez ten czas powstało wiele projektów realizujących to zadanie, a także parę organizacji, takich jak np. International Internet Preservation Consortium, które wspierają jego realizowanie. W artykule zaprezentowano rozwój działań w tym zakresie, a następnie omówiono wnioski z analizy funkcjonowania wybranych europejskich archiwów Sieci o charakterze narodowym, przeprowadzonej w oparciu o publicznie dostępne materiały ich dotyczące. Analiza ta miała na celu zbadanie, w jaki sposób obecnie archiwizowany jest Web w tej części świata. Rozpatrzone zostały trzy główne zagadnienia: gromadzenie, opisywanie i udostępnianie zasobów dawnego WWW. Pierwsze z nich obejmuje zakres archiwizacji, a więc określenie tego, jakie materiały jej podlegają, a także wykorzystywanych w tym celu strategii, z których wynika ukształtowanie zbiorów. Drugie dotyczy stosowanych metadanych i innych elementów służących przekazaniu informacji na temat tego, co zostało w jej trakcie zgromadzone. Ostatni element analizy obejmuje zakres udostępniania zasobów archiwalnego WWW, występujące ograniczenia i ich przyczyny, a także wykorzystywane do tego narzędzia. W trakcie badań zainteresowano się również używanym przez poszczególne projekty oprogramowaniem. Uzyskane wyniki pozwalają stwierdzić, że model archiwum Sieci został wypracowany, a działalność analizowanych inicjatyw w Europie jest do siebie bardzo zbliżona.

 

WEB archiving in Europe – National WEB Archives

Abstract

Web archiving, that is activities aimed at collecting and preserving Web resources, has been carried out for almost 25 years. During this time, many projects have been created to fulfill that task, as well as several organizations, such as the International Internet Preservation Consortium, that support it implementation. The article presents the development of activities in this area, and then presents the conclusions of the analysis of the functioning of selected European national Web archives, based on publicly available materials concerning them. This analysis was intended to examine how the Web is currently archived in this part of the world. Three main issues were considered: gathering, describing and access to the resources of the former WWW. The first of them covers the scope of archiving, namely determining what materials are subject to it, as well as the gathering strategies used for this purpose, which shape the archival collections. The second concerns the metadata and other elements used to convey information about what was collected during that process. The last element of the analysis includes the scope of access to archival WWW resources, existing restrictions and their causes, as well as the tools used for this. During the research, the author also became interested in the software used in individual projects. The obtained results show that the model of Web archive has been developed and the activities of the analyzed initiatives in Europe are very similar.

Słowa kluczowe: archiwizacja Webu, archiwa Webu, archiwa cyfrowe, witryny Internetowe, badania nad Internetem / Web archiving, Web archives, digital archives, websites, Internet studies
References

Bibliografia

A Research Infrastructure for the Study of Archived Web Materials, About RESAW, http://resaw.eu/about/ [dostęp: 8.06.2020].

A Research Infrastructure for the Study of Archived Web Materials, Participants, http://resaw.eu/participants/ [dostęp: 8.06.2020].

Act on Legal Deposit of Published Material § 2(3), tłumaczenie ustawy nr 1439 z 22 grudnia 2004, wersja nieautoryzowana, http://www.kb.dk/en/kb/service/pligtaflevering-ISSN/lov.html [dostęp: 8.06.2020].

AlSum A., Weigle M.C., Nelson M.L., Sompel H. Van de, Profiling web archive coverage for top-level domain and content language, „International Journal on Digital Libraries” 2014, t. 14, nr 3–4, s. 149, https://link.springer.com/article/10.1007%2Fs00799-014-0118-y [dostęp: 7.06.2020].

Apache Lucene, Apache Solr, https://lucene.apache.org/solr/ [dostęp: 9.06.2020].

Archive-It, Archive-It Blog – About us, https://archive-it.org/blog/learn-more/ [dostęp: 7.06.2020].

Archive-It, National Library of Ireland, https://archive-it.org/home/nli [dostęp: 9.06.2020].

Arquivo.pt, Access to archived content, https://sobre.arquivo.pt/en/help/access-to-archived-contents/[dostęp: 8.06.2020].

Arquivo.pt, Colaborative Collections, https://sobre.arquivo.pt/en/collaborate/colaborative-collections/[dostęp: 8.06.2020].

Arquivo.pt, Crawling and archiving Web content, https://sobre.arquivo.pt/en/crawling-and-archiving-web-content/ [dostęp: 8.06.2020].

Aubry S., Web Archives as a New Library Service: the Experience of the National Library of France, „LIBER Quarterly” 2010, t. 20, nr 2, s. 179–199, https://www.liberquarterly.eu/articles/10.18352/lq.7987/ [dostęp: 7.06.2020].

Biblioteca Nacional de España, Collections, http://www.bne.es/en/Colecciones/ArchivoWeb/Subcolecciones/selectivas.html [dostęp: 8.06.2020].

Biblioteca Nacional de España, History of the collection, http://www.bne.es/en/Colecciones/ArchivoWeb/Historia/index.html [dostęp: 7.06.2020].

Biblioteca Nacional de España, Technical details, http://www.bne.es/en/Colecciones/ArchivoWeb/InfoTecnica/index.html [dostęp: 8.06.2020].

Bibliothèque nationale de France, Archives de l’internet, https://www.bnf.fr/fr/archives-de-linternet [dostęp: 8.06.2020].

Big UK Domain Data for the Arts and Humanities, Aims and objectives, https://buddah.projects.history.ac.uk/about/aims-and-objectives/ [dostęp: 8.06.2020].

British Library, Collection guides. UK Web Archive, https://www.bl.uk/collection-guides/uk-web-archive [dostęp: 8.06.2020].

Costea M.D., Report on the Scholarly Use of Web Archives, Aarhus 2018, http://netlab.dk/wp-content/uploads/2018/02/Costea_Report_on_the_Scholarly_Use_of_Web_Archives.pdf [dostęp: 7.06.2020].

Croatian Web Archive, Arhivi, knjižnice, muzeji, https://haw.nsk.hr/en/publikacija/1109/ [dostęp: 8.06.2020].

Croatian Web Archive, Browse by subject, https://haw.nsk.hr/en/browse-by-subject/ [dostęp: 8.06.2020].

Croatian Web Archive, Flood in Croatia, https://haw.nsk.hr/en/thematic-collections/12/flood-in-croatia-2014 [dostęp: 8.06.2020].

Croatian Web Archive, For publishers, https://haw.nsk.hr/en/for-publishers/ [dostęp: 8.06.2020].

Departamento de Cultura y Política Lingüística, Ondaerenet,http://www.ondarenet.kultura.ejgv.euskadi.eus:8085/ondarenet/ [dostęp: 8.06.2020].

Eesti Rahvusraamatukogu, Veebisaidid, https://www.nlib.ee/veebisaidid [dostęp: 8.06.2020].

Farag M.M., Lee S., Fox E.A., Focused crawler for events, „International Journal on Digital Libraries” 2018, t. 19, nr. 1, s. 3–19, https://link.springer.com/article/10.1007/s00799-016- 0207-1 [dostęp: 7.06.2020].

Geereart F., Soyez S., The first steps towards a Belgian web archive: a federal strategy (materiały z konferencji IIPC Web Archiving Conference 2019, Zagrzeb, 6–7 czerwca 2019), http://netpreserve.org/ga2019/wp-content/uploads/2019/07/IIPCWAC2019-FRIEDEL_ GEERAERT__SEBASTIEN_SOYEZ-The_first_steps_towards_a_Belgian_web_archive-a_federal_strategy.pdf [dostęp: 9.06.2020).

GitHub, Heritrix wiki, https://github.com/internetarchive/heritrix3/wiki [dostęp: 8.06.2020].

GitHub, OpenWayback wiki, https://github.com/iipc/openwayback/wiki [dostęp: 8.06.2020].

Gomez D., Miranda J., Costa M., A survey on web archiving initiatives, [w:] Research and Advanced Technology for Digital Libraries. International Conference on Theory and Practice of Digital Libraries, TPDL 2011, Berlin, Germany, September 26–28, 2011. Proceedings, oprac. i red. S. Gradmann, F. Borri, C. Meghini, H. Schuldt, Berlin 2011, s. 410–413, https://link.springer.com/chapter/10.1007/978-3-642-24469-8_41 [dostęp: 7.06.2020].

Holub K., Rudomino I., A decade of web archiving in the National and University Library in Zagreb (materiały z konferencji IFLA WLIC 2015, Kapsztad (RPA), 11–20 sierpnia 2015), s. 1–12, http://library.ifla.org/1092/1/090-holub-en.pdf [dostęp: 7.06.2020].

International Internet Preservation Consortium, About IIPC, http://netpreserve.org/about-us/ [dostęp: 8.06.2020].

International Internet Preservation Consortium, IIPC members, http://netpreserve.org/about-us/ members/ [dostęp: 8.06.2020].

ISO/DTR 14873 Information and documentation — Statistics and Quality Indicators for Web Archiving, 2012, s. 9, http://netpreserve.org/resources/IIPC_project-SO_TR_14873__E__2012-10-02_DRAFT.pdf [dostęp: 8.06.2020].

Keskitalo E.P., Web Archiving in Finland. Memorandum for the members of the CDNL, 2010, s. 10, http://www.doria.fi/bitstream/handle/10024/67051/webarchivingfinland_cdnl.pdf [dostęp: 8.06.2020].

Kłębczyk F., Archiwizacja zasobów Internetu – kierunki i wyzwania, „Archiwista Polski” 2012, nr 3(67), s. 105–112.

Koninklijke Bibliotheek, Legal issues, https://www.kb.nl/en/organisation/research-expertise/long-term-usability-of-digital-resources/web-archiving/legal-issues [dostęp: 8.06.2020].

Koninklijke Bibliotheek, Web archiving, https://www.kb.nl/en/organisation/research-expertise/long-term-usability-of-digital-resources/web-archiving [dostęp: 27.11.2018].

Laboratorium Cyfrowe Humanistyki UW, Toruńskie Konfrontacje Archiwalne i problemy archiwizacji Webu, https://lach.edu.pl/blog/2017/12/11/torunskie-konfrontacje-archiwalne-problemy-archiwizacji-webu/ [dostęp: 7.06.2020].

Library of Congress, Digital Collections, https://www.loc.gov/collections/?fa=original-format:archived+web+site [dostęp: 7.06.2020].

National Library of Ireland, Irish Domain Web Archive, https://www.nli.ie/en/irish-domain-web-archive.aspx [dostęp: 8.06.2020].

National Library of Ireland, Remembering 1916, Recording 2016, https://www.nli.ie/GetAttachment.aspx?id=f3f10f40-6626-4692-aa51-8d7187827235 [dostęp: 8.06.2020].

National Library of Ireland, Web Archive Collections, https://www.nli.ie/en/udlist/web-archive-collections.aspx [dostęp 8.06.2020].

National Library of Ireland’s catalogue, Dublin.ie, http://catalogue.nli.ie/Record/vtls000659084 [dostęp: 8.06.2020].

Netarkivet, FAQ, http://netarkivet.dk/in-english/faq/#anchor8 [dostęp: 8.06.2020].

NetLab, Mission, http://www.netlab.dk/netlab/mission/ [dostęp: 8.06.2020].

Rosa A., Human trace on the Internet – the issue of archiving the Web from the point of view of anthropology-oriented archival science, „Archiwa – Kancelarie – Zbiory” 2015, t. 6(8), s. 193–205, https://apcz.umk.pl/czasopisma/index.php/AKZ/article/view/AKZ.2015.006 [dostęp: 7.06.2020].

SBForge, NetarchiveSuite, https://sbforge.org/display/NAS/NetarchiveSuite [dostęp: 9.06.2020].

Schostag S., Fønss-Jørgensen E., Webarchiving: Legal Deposit of Internet in Denmark. A Curatorial Perspective, „Microform & Digitization Review” 2012, t. 41, nr 3–4, s. 110–120, https://www.degruyter.com/view/journals/mfir/41/3-4/article-p110.xml [dostęp: 7.06.2020].

Sobczak A., Internet jako globalne archiwum społeczne – rozważania na temat roli Internetu w dokumentowaniu dziejów ludzkości, [w:] Nowa archiwistyka – archiwa i archiwistyka w poźno-nowoczesnym kontekście kulturowym, Toruńskie Konfrontacje Archiwalne, t. 4, oprac. i red. W. Chorążyczewski, W. Piasek, A. Rosa, Toruń 2014, s. 237–247.

SourceForge, NutchWAX, http://archive-access.sourceforge.net/projects/nutchwax/index.html [dostęp: 9.06.2020].

The SAGE Handbook of Web History, oprac. i red. N. Brügger, I. Milligan, Thousand Oaks 2018.

The Web Archive of Catalonia, Mission and objectives, https://www.padicat.cat/en/about-us/what-padicat/mission-and-objectives [dostęp: 8.06.2020].

The Web Archive of Catalonia, Monographics, https://www.padicat.cat/en/search-and-discover/monographics [dostęp: 8.06.2020].

The Web as History: Using Web Archives to Understand the Past and the Present, oprac. i red. N. Brügger, R. Schroeder, Londyn 2017, https://www.jstor.org/stable/j.ctt1mtz55k [dostęp: 7.06.2020].

UK Web Archive, About SHINE, https://www.webarchive.org.uk/shine [dostęp: 8.06.2020].

UK Web Archive, Caribbean Communities in the UK, https://www.webarchive.org.uk/en/ukwa/collection/2131 [dostęp: 8.06.2020].

UK Web Archive, Frequently asked questions, https://www.webarchive.org.uk/en/ukwa/info/faq [dostęp: 8.06.2020].

UK Web Archive, Topics and Themes, https://www.webarchive.org.uk/en/ukwa/collection [dostęp: 8.02.2020].

Vernalte F.P., Maciá S.M., Capturing the Basque Web (materiały z konferencji LIDA 2009, Dubrownik i Zadar (Chorwacja), 25–29 maja 2009), s. 8–9, http://eprints.rclis.org/13164/1/EN_Lida_paper_Ondarenet_APA.pdf [dostęp: 25.11.2018].

Web Archiving, oprac. i red. J. Masanès, Berlin–Heidelberg 2006.

Web Curator Tool Documentation, Read the Docs, https://webcuratortool.readthedocs.io/en/latest/[dostęp: 9.06.2020].

webArch CKC UW, Pracownia archiwizacji Webu CKC UW, https://webarch.uw.edu.pl/pracownia/[dostęp: 8.06.2020].

Wikipedia, Internet Memory Foundation, https://en.wikipedia.org/wiki/Internet_Memory_Foundation [dostęp: 8.06.2020].

Wikipedia, List of Web archiving initiatives, https://en.wikipedia.org/wiki/List_of_Web_archiving_initiatives [dostęp: 7.06.2020].

Wikipedia, World Wide Web a Internet, https://pl.wikipedia.org/wiki/World_Wide_Web#World_Wide_Web_a_Internet [dostęp: 7.06.2020].

Wilkowski M., Jak korzystać w Wayback Machine, https://wilkowski.org/waybackmachine [dostęp: 8.06.2020].

Wilkowski M., Oddolne archiwizacje Internetu jako działania społeczne, „Archiwa – Kancelarie – Zbiory” 2015, t. 6(8), s. 207–220, https://apcz.umk.pl/czasopisma/index.php/AKZ/article/view/AKZ.2015.007 [dostęp: 7.06.2020].

Woźniak W., Archiwizacja Internetu – próba podsumowania dotychczasowych prac i ustaleń, „Archiwa – Kancelarie – Zbiory” 2015, t. 10(12), s. 75–98, https://apcz.umk.pl/czasopisma/index.php/AKZ/article/view/AKZ.2019.004 [dostęp: 7.06.2020].