Het handschriftherkenningsmodel van REPUBLIC is nu te gebruiken door iedereen!
Voor het automatisch ontcijferen van de zeventiende en achttiende-eeuwse handgeschreven net-resoluties (besluiten) van de Staten-Generaal maakt REPUBLIC gebruik van Handwritten Text Recognition (HTR) via het populaire platform Transkribus. Maar de computer kan deze teksten niet zomaar lezen. Eerst transcribeer je op de traditionele manier handmatig een doorsnede van het materiaal. Het HTR-model dat met die transcripties wordt getraind, pas je daarna toe op nog ongetranscribeerde documenten. De prestaties van het model worden uitgedrukt in het percentage Character Error Rate (CER), dat de afwijking uitdrukt tussen de correcte, handmatig gemaakte transcriptie en de transcriptie die het model maakt.
In REPUBLIC hebben we al verschillende modellen getraind, die steeds beter presteerden. Met gepaste trots stellen we nu ons meest recente model, Republic_7, via Transkribus open voor iedereen. Het model heeft een CER-percentage van slechts 2,99%. Dat betekent dat het 97 van de 100 karakters goed herkent. Uiteraard werkt dit model het beste op de resoluties zelf, maar we verwachten dat het ook goed uit de voeten kan met andere handgeschreven teksten uit de zeventiende en achttiende eeuw. Daarnaast kan het zeker als een goede basis dienen voor verdere training van een eigen model.
Met behulp van de vele vrijwilligers die ons helpen de automatische transcripties te corrigeren, verwachten we de prestaties van het HTR-model de komende jaren nog verder te verbeteren.
Maakt u gebruik van het model, citeer het dan als:
Project REPUBLIC. (2021). Transkribus Public Model HTR+ ID 23967: Republic_7. Huygens Institute for the History of the Netherlands and National Archives: Amsterdam/The Hague.
Aan het maken van de ground truth die de basis vormt van het model werkten mee: Michael Baars, Esther van Gelder, Michel van Gent, Jesse Hollestelle, Ger Ruigrok, Ronald Sluijter en Marja Swüste.