Transkribus im Archiv – Ein polnisch-deutsches Projekt zur Handschriftentexterkennung an historischen Dokumenten

Dirk Alvermann,

Paweł Gut

Abstrakt

Transkribus in the archives – a Polish-German project of reading historical documents

Even 10 years ago, the idea that historical manuscripts, regardless of time of creation and origin, could be „read“ and searched using automated processes seemed unrealistic. However, thanks to modern machine learning methods and the use of artificial intelligence, it is now possible. Following the development of Transkribus platform (http://transkribus.eu/), a tool has become available that allows free open access to this technology. Handwriting recognition permits automatic conversion of large numbers of historical manuscripts into fully legible texts. This development will influence and change the work of archives over the next several years, especially with regard to how their collections are made accessible digitally. Using the example of a Polish-German cooperation project, the article presents the use of handwriting recognition technology in the context of an archival digitisation project and discusses the technical requirements, technological work input and results of using Transkribus in an archive.

Transkribus w archiwum – polsko-niemiecki projekt odczytania dokumentów historycznych

Jeszcze 10 lat temu pomysł, że rękopisy historyczne, niezależnie od czasu i pochodzenia, można „czytać” i przeszukiwać za pomocą zautomatyzowanych procesów, wydawał się nierealny. Dzięki nowoczesnym metodom uczenia się maszynowego i wykorzystaniu sztucznej inteligencji jest to obecnie możliwe. Wraz z rozwojem platformy Transkribus (http://transkribus.eu/) dostępne jest narzędzie, które pozwala na otwarty dostęp do tej technologii. Rozpoznawanie pisma ręcznego umożliwia automatyczną konwersję dużej liczby rękopisów historycznych na w pełni czytelne teksty. Ten rozwój wpłynie i zmieni pracę archiwów w perspektywie kilkunastu lat, zwłaszcza sposób cyfrowego udostępniania ich zbiorów. Na przykładzie polsko-niemieckiego projektu współpracy, w artykule przedstawiono wykorzystanie technologii rozpoznawania pisma ręcznego w kontekście projektu digitalizacji archiwalnej oraz omówiono wymagania techniczne, wkład prac technologicznych i rezultaty wykorzystania Transkribusa w archiwum.

Słowa kluczowe: handwriting recognition, Transkribus, documents, digitalization, Pomerania, Polish-German cooperation, rozpoznawanie pisma ręcznego, dokumenty, digitalizacja, Pomorze, współpraca polsko-niemiecka
References

Quelle

Archiwum Państwowe w Szczecinie

65/78/0 Archiwum Państwowe w Szczecinie (Staatsarchiv Stettin) [1500] 1831–1945 [1971], Sig. 65/78/0/1.1/38, 65/78/0/2/1116, 65/78/0/3.1/1120, 65/78/0/3.1/1122, 65/78/0/3.1/1132, 65/78/0/3.1/1135, 65/78/0/3.1/1136, 65/78/0/3.1/1141, 65/78/0/3.1/1142, 65/78/0/3.47/1544.

65/198/0 Akta miasta Gryfice (Magistrat Greifenberg) 1501–1944, Sig. 65/198/0/1/1.

Web-Seite

Christian-Albrechts-Universität zu Kiel, Das Klosterregister und Klosterbuch für Pommern, https://www.histsem.uni-kiel.de/de/das-institut-1/abteilungen/regionalgeschichte-mit-schwerpunkt-schleswig-holstein/projekte/pommersches-klosterbuch [abgerufen am 28.6.2021].

De Gruyter, Digitalisierungsprojekte des Staatsarchivs Zürich mit Einsatz von Machine-Learning- Verfahren, https://www.degruyter.com/document/doi/10.1515/abitech-2020-2018/html [abgerufen am 5.7.2021].

Die Digitale Bibliothek Mecklenburg-Vorpommern, Regesten zu den Urkunden der pommerschen Kirchen und Klöster - Regesty dokumentów kościołów i klasztorów pomorskich, https://www.digitale-bibliothek-mv.de/viewer/toc/PPNAPSzczecinie_65_78_0_3_1/ [abgerufen am 5.7.2021].

Gemeente Amsterdam, Vreemdelingenkaarten, https://www.amsterdam.nl/stadsarchief/nieuws/vreemdelingenkaarten/ [abgerufen am 28.06.2021].

Österreichische Nationalbibliothek, Austrian Books Online, https://www.onb.ac.at/digitaler- lesesaal/austrian-books-online-abo [abgerufen am 24.6.2021].

READ COOP, Öffentliche AI-Modelle in Transkribus, https://readcoop.eu/transkribus/public-models/ [(abgerufen am 5.7.2021]) [aufgerufen am 24.6.2021].

READ COOP, So exportieren Sie Dokumente aus Transkribus, https://readcoop.eu/transkribus/howto/how-to-export-documents-from-transkribus/ [aufgerufen 24.6.2021].

READ COOP, Verwendung vorhandener Transkriptionen zum Trainieren eines HTR-Modells mit dem TextToImage-Tool, https://readcoop.eu/transkribus/howto/how-to-use-existing-transcriptions-to-train-a-handwritten-text-recognition-model/ [aufgerufen am 24.6.2021].

READ COOP, Wie man Dokumente mit Transkribus transkribiert – Einführung, https://readcoop.eu/transkribus/howto/how-to-transcribe-documents-with-transkribus-introduction/ [(zuletzt aufgerufen am 24.6.2021]).

READ COOP, Wie man mit Tabellen in Transkribus arbeitet, https://readcoop.eu/transkribus/howto/how-to-work-with-tables-in-transkribus/ [aufgerufen 24.6.2021].

READ-COOP, https://readcoop.eu/ [aufgerufen am 24.6.2021].

Rechtsprechung im Ostseeraum, https://rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de/ [abgerufen am 5.7.2021].

Search Finnish Court Records. Search and browse district court records from 1810 to 1870, https://tuomiokirjat.narc.fi/en [abgerufen am 28.6.2021].

Semantic Computing Research Group (SeCo), Handwritten Text Recognition in the Archives, https://seco.cs.aalto.fi/events/2018/2018-10-23-heldig-summit/presentations/06-kallio.pdf [abgerufen am 28.6.2021].

Transkribus, Amsterdam notarial deeds, https://transkribus.eu/r/notarial/ [(abgerufen am 28.6.2021]).

Zoeken in transcripties, www.zoekintranscripties.nl und den Vortrag von L. Keyser auf YouTube, 02 Transkribus in practise – Transkribus User Conference 02/2020, https://www.youtube.com/watch?v=xQPcJHGn8cM&t=866s [abgerufen am 28.6.2021].

Literatur

Diestelkamp A., Das Staatsarchiv Stettin seit dem Weltkrieg, „Monatsblätter der Gesellschaft für pommersche Gesichte und Alterthumskunde“ Jg. 52 (1938), Nr 4, S. 71–82.

Hoogeweg H., Die Stifter und Klöster der Provinz Pommern, Bd. 1–2, Stettin 1924–1925.

Hoogeweg H., Verzeichnis der Stifter und Klöster Niedersachsens vor der Reformation, umfassend die Provinz Hannover, die Herzogtümer Braunschweig und Oldenburg, die Fürstentümer Lippe- Detmold und Schaumburg-Lippe, die Freien Städte Bremen und Hamburg und Hessisch-Schaumburg, Hannover 1908.

Kahle P., Colutto S., Hackl G., Mühlberger G., Transkribus – a Service Platform for Transcription, Recognition and Retrieval of Historical Documents, https://www.researchgate.net/publication/322780398_Transkribus_-_A_Service_Platform_for_Transcription_Recognition_and_Retrieval_of_Historical_Documents [aufgerufen am 24.6.2021].

Mühlberger G., Archiv 4.0 oder warum die automatisierte Texterkennung alles verändern wird, w: Massenakten – Massendaten. Rationalisierung und Automatisierung im Archiv. 87. Deutscher Archivtag 2017 in Wolfsburg (Tagungsdokumentationen zum Deutschen Archivtag, Bd. 22) Hrsg. Von K. Deecke, E. Grothe, Fulda 2018, 145–156.

Mühlberger G., Seaward L., Terras M. et al., Transforming scholarship in the archives through handwritten text recognition. Transkribus as a case study, „Journal of Documentation” 75/5 (2019), S. 954–976, hier S. 957f.

Mühlberger G., Terbul T., Handschriftenerkennung für historische Schriften. Die Transkribus Plattform, „b.i.t. online. Bibliothek. Information. Technologie“ Jg. 21 (2018) Nr. 3, S. 218–222.

Pommersches Urkundenbuch, Bd. 1 Abt. 1, 786–1253. Bearbeitet und herausgegeben von R. Klempin, Stettin 1868.

Rabus A., Trainig generic models for Handwritten Text Recognition using Transkribus: Oppotunities and pitfalls, https://www.academia.edu/49356690/Training_generic_models_for_Handwritten_Text_
Recognition_using_Transkribus_Opportunities_and_pitfalls [zuletzt abgerufen am 25.6.2021].

Strauß T., Weidemann M., Labahn R., Recognition and Enrichment of Archival Documents. D7.11. Language Models. Improving transcriptions by external language resource, 2017, https://readcoop.eu/wp-content/uploads/2017/12/D7.11_final.pdf [(zuletzt abgerufen am 25.6.2021]).

Szukała M., Archiwum Państwowe w Szczecinie w latach 1914–1945. Ludzie i działalność, Szczecin 2019.