The National Archives of the Netherlands and archiving government websites

Antal Posthumus

Abstrakt

Archiwum Narodowe Holandii i archiwizacja rządowych stron internetowych

Archiwum narodowe Holandii, jako stała agencja rządowa i archiwum rządu centralnego (ministerstw i ich agencji), ma prawny obowiązek zabezpieczania akt rządowych. Rola archiwum nie polega na aktywnym tworzeniu kolekcji zarchiwizowanych stron internetowych poprzez ich samodzielne wybieranie i gromadzenie. Różni się tym od innych narodowych archiwów, bibliotek i innych (między-)narodowych instytucji dziedzictwa zajmujących się archiwizacją stron internetowych. Archiwum w swoich działaniach skupia się na doradzaniu twórcom dokumentacji – ministerstwom i ich agencjom – w kwestiach tworzenia i przekazywania rejestrów rządowych w formie zarchiwizowanych, publicznych stron internetowych. Jednym z przykładów tego typu wsparcia było wydanie w 2018 r. dobrze przyjętych wytycznych dotyczących archiwizacji stron internetowych. Zostały one także wykorzystane jako część wymagań europejskiego przetargu publicznego w 2021 r., dotyczącego utworzenia centralnej platformy mającej pozyskać około 1500 publicznych stron internetowych rządu centralnego Holandii. W artykule zostaną również przedstawione nasze doświadczenia i spostrzeżenia dotyczące integracji procesów pozyskiwania, przechowywania, zarządzania, zabezpieczania i zapewnienia dostępu do zarchiwizowanych publicznych stron internetowych holenderskiego rządu centralnego z istniejącą infrastrukturą oraz zarządzaniem danymi w repozytorium cyfrowym Archiwum narodowego Holandii (w skrócie w-depot).

ABSTRACT

The national Archives of the netherlands, as a permanent government agency and official archive for the central government (ministries and their agencies), has the legal duty, laid down in the Archiefwet, to secure the future of government records. Within this context, our role does not involve actively forming a collection of archived websites through selecting and harvesting these ourselves. This is a key difference between us and other national archives, national libraries and other (inter-)national heritage institutions. guidelines and a central platform for archiving government websites. Such a mandate requires an environment in which the processes, in relation to one another, can take place in a controlled manner. A significant part of making it happen was the effort we’ve put (and continue to do so) into advising the producers of records – ministries and their agencies – as to how they should create, and eventually transfer, archived public websites that are a specific form of government records. One example of the type of support we offer was a very well received set of guidelines on archiving websites that we issued in 2018. Those guidelines were also used as part of the requirements in a public European tender (2021). The objective of the tender: implementation of a central harvesting platform to harvest approximately 1500 public websites of the Central government. This article will also present our experiences and insights into integrating the processes of ingestion, storage, management and preservation of and providing access to archived public websites of the Dutch Central government into the existing infrastructure and workflows of our trusted digital repository (e-depot in short).

 

Słowa kluczowe: wytyczne archiwizacji rządowych stron internetowych, karta walidacji WARC, rozporządzenie o ochronie danych osobowych, prawo do publikacji, archiwizacja przez projektowanie, wytyczne archiwizacji stron internetowych, implementacja pywb (Python Wayback), ingest, przechowywanie i udostępnianie plików WARC, Centralna Platforma archiwizująca strony internetowe rządu Holandiiguidelines on archiving government websites, WARC validation factsheet, The General Data Protection Regulation, publication rights, archiving by design, web archiving guidance, pywb (Python Wayback) implementation, ingestion, preservation and access of WARCfiles, Central Platform for archiving websites for the Dutch Central Government, Centralna Platforma archiwizująca strony internetowe rządu Holandii
References

Archive-It Help Center. Known Web Archiving Challenges, https://support.archive-it.org/hc/en-us/articles/209637043-Known-Web-Archiving-Challenges, accessed 3 October 2022.

Bibliothéque Nationale de France. “The WARC File Format (ISO 28500) – Information, Maintenan- ce, Drafts”, http://bibnum.bnf.fr/WARC/, accessed 3 October 2022.

Dictionary of Archives Terminology. Born Digital, https://dictionary.archivists.org/entry/born-digital.html, accessed 3 October 2022.

Digital Preservation Coalition. New Report: Archiving the Dynamic Web Benefits from Server-Side Archiving, https://www.dpconline.org/news/server-side-archiving, accessed 3 October 2022.

Geemente Amsterdam. Vergoeding Aanvragen Voor de Eigen Bijdrage Kinderopvang, https://www.amsterdam.nl/veelgevraagd/?productid=%7BE63FD3B0-5875-4A03-9082-7DA97B0AFC- 2C%7D, accessed 3 October 2022.

Iipc.github.io. The WARC Format 1.1, https://iipc.github.io/warc-specifications/specifications/ warc-format/warc-1.1/, accessed 3 October 2022.

Informatiehuishouding.nl. Modeltoets AVG En Publicatierechten Voor Archivering Overheid-swebsites Door ICT Recht, https://www.informatiehuishouding.nl/Producten+%26+publicaties/instrumenten/2019/12/13/modeltoets-avg-en-publicatierechten-kopie, accessed 3 October 2022.

International Internet Preservation Constortium. Support for Transitioning to Pywb, https://net-preserve.org/projects/pywb, accessed 3 October 2022.

Kennisnetwerk Informatie en Archief. Voortgangsbericht Richtlijn Archiveren Overheidswebsites, https://kia.pleio.nl/groups/view/1997dd74-cb58-420c-9056-85d1194729b9/kennisplatfor-m-webarchivering/discussion/view/f63dd32d-8a3d-436f-9329-6aa3b8d2b8d8/voortgangsbe-richt-richtlijn-archiveren-overheidswebsites, accessed 3 October 2022.

Ministerie van Algemene Zaken. MH17: Nederland En Australië Stellen Rusland Aansprakelijk – Nieuwsbericht – Rijksoverheid.nl, https://www.rijksoverheid.nl/onderwerpen/neerhalen-vlucht-mh17/nieuws/2018/05/25/mh17-nederland-en-australie-stellen-rusland-aansprake-lijk, accessed 3 October 2022.

Ministerie van Onderwijs, Cultuur en Wetenschap. Websitearchivering – Rijksprogramma Voor Duurzaam Digitale Informatiehuishouding, https://www.informatiehuishouding.nl/onder-werpen/websitearchivering, accessed 3 October 2022.

Nationaal Archief. Richtlijn Archiveren Overheidswebsites, https://www.nationaalarchief.nl/archiveren/kennisbank/Richtlijn-Archiveren-Overheidswebsites, accessed 3 October 2022.

OCLC. Web Archiving Metadata Working Group, https://www.oclc.org/research/areas/research-collections/wam.html, accessed 3 October 2022.

Open Preservation Foundation. WARC Validation Tool Experiences, https://openpreservation.org/blogs/warc-validation-tool-experiences/, accessed 3 October 2022.

Pywb.readthedocs.io. Webrecorder Pywb Documentation!, https://pywb.readthedocs.io/en/latest/, accessed 3 October 2022.

Webrecorder, Announcing WACZ Format 1.0., https://webrecorder.net/2021/01/18/wacz-format-1-0.html, accessed 3 October 2022.

Wikipedia. Minimum Viable Product, https://en.wikipedia.org/wiki/Minimum_viable_product, accessed 3 October 2022.