Republic

Werkwijze

REPUBLIC zal toegang bieden tot de afbeeldingen, teksten en annotatielagen van meer dan een half miljoen pagina’s met handgeschreven en gedrukte politieke informatie. Daarbij gaan historische expertise, machine learning en publieksparticipatie hand in hand. Lees hier hoe we dat doen.

1. Digitalisering bronnen Nationaal Archief

Het archief van de Staten-Generaal bevindt zich in het Nationaal Archief in Den Haag. Het is een enorm archief, 1200 meter plank. Daarvan vormen de resoluties het hart. Niemand weet precies om hoeveel besluiten het in totaal gaat, maar we schatten dat het er ongeveer een miljoen zijn, gebundeld in honderden lijvige boekdelen. Al die resolutieboeken zijn inmiddels door het Nationaal Archief gescand.

2. Automatische tekstherkenning

De resoluties van de Staten-Generaal zijn allemaal handgeschreven (1576-1796) en voor een deel ook gedrukt (1703-1796). Om de resoluties toegankelijk te maken voor onderzoek moeten ze omgezet worden naar machineleesbare tekst. Dit doen we met de beste tools voor Handwritten Text Recognition (HTR) en Optical Character Recognition (OCR).

Voor het handgeschreven deel gebeurt dit via het platform Transkribus. De HTR-software wordt specifiek getraind op de resoluties door eerst met de hand ongeveer duizend pagina’s transcripties te maken en die als trainings- en evaluatiemateriaal te ‘voeden’ aan de software. Het model dat daaruit resulteert, laten we vervolgens automatische transcripties maken van het de overige handgeschreven resoluties.

Voor de herkenning (OCR) van de gedrukte resoluties gebruiken we de open source software Tesseract, en trainen dat specifiek op de resolutieteksten om tot een hoge graad van correctheid te komen.

3. Controle door vrijwilligers in Vele Handen

De computer kan al veel, maar moet nog steeds leren. De automatisch gegenereerde teksten die de tool Transkribus levert, worden in eerste instantie allemaal handmatig gecontroleerd. Dit doen we samen met een grote groep vrijwilligers van het crowdsourcingplatform Vele Handen: experts op het gebied van paleografie en online ontsluiting van historische bronnen die om uiteenlopende redenen hun expertise en tijd delen om deze monsterklus te klaren. Alle verbeteringen worden weer aan Transkribus gevoed en dit levert steeds weer betere resultaten op. Totdat de computer het alleen kan (dat wil zeggen, wanneer 98% van de handgeschreven teksten correct herkend wordt). We schatten dat we daarvoor 50.000 scans door de crowd moeten laten corrigeren.

4. Structuur & indexering

Om alle besluiten van de Staten Generaal nog beter toegankelijk te maken brengen we structuur aan in deze massa gegevens. Wie worden er in de besluiten genoemd, over welke plaatsen en instellingen gaan ze, en waar gingen ze eigenlijk over (de zogenaamde named entities)? Dat doen we door de tekst te verdelen in logische elementen zoals zittingsdagen, datums, presentielijsten, en resoluties. Daardoor is het makkelijker de entiteiten aan de stukken tekst koppelen en ze zo van meer context te voorzien. Bovendien maken we gebruik van de indexen die in de tijd zelf al werden gemaakt. We streven ernaar de toegangen onder te brengen in een samenhangend raamwerk en zo de combinatie van plaatsen, personen, instellingen en onderwerpen zo inzichtelijk mogelijk te maken. We hebben berekend dat er tussen de twee en drie miljoen van dit soort structurele elementen zijn, en de behandelde onderwerpen zijn ook legio.

5. Data-opslag en online publicatie

Alle transcriptieteksten die van de scans zijn afgeleid, worden netjes opgeslagen en beheerd in een text repository. Ook de tussenresultaten van die verschillende stappen worden opgeslagen, zodat iedere versie van iedere tekst beschikbaar blijft voor wie dat nodig heeft. Deze Text Repository kan op verschillende manieren worden gevuld (door databeheerders of door automatisch periodiek opvragen van nieuw materiaal bij andere systemen) en kan voor verschillende doeleinden en doelgroepen worden ingezet. Zo kunnen teksten worden opgevraagd en opgeslagen door REPUBLIC-medewerkers, door de wetenschappelijke staf van het HuC, maar ook door andere geïnteresseerde onderzoekers, die over het ruwe materiaal willen kunnen beschikken.

Op eenzelfde manier worden de originele scans opgeslagen en voor hergebruik opengesteld in een image repository, volgende de IIIF-standaarden (International Image Interoperability Framework).

Tenslotte werken we aan de publieke online omgeving, waarmee onderzoekers en andere geïnteresseerden het materiaal kunnen exploreren, doorzoeken en analyseren. Deze omgeving toont de scans, de teksten, beschrijvende metadata, samenvattende statistieken en de gevonden named entities, in nauwe onderlinge samenhang.

Faciliteren van grootschalig onderzoek naar politiek en politieke cultuur

Pas als alle resoluties uit de periode 1576-1796 digitaal toegankelijk zijn gemaakt, in een zelfde formaat en ontwerp, kunnen we beginnen met grootschalig en vernieuwend historisch onderzoek op het gebied van politiek en politieke cultuur in dit tijdvak. Denk daarbij aan:

  • Vragen met betrekking tot vroegmoderne institutionele vernieuwing, politieke reconstructie, ‘regime change’, netwerkvorming, politiek taalgebruik en representatie.
  • Onderzoek naar de relatieve positie en de rijkdom van de provincies, de concurrentie tussen leger en vloot, het belang van de verschillende kolonies en de behandeling van verschillende religieuze groepen.
  • Ontwikkelingen op de lange termijn, zoals de veranderingen in de behandeling van verzoekschriften of de schommelingen in de interactie met andere staten.
  • Het bestuderen van de scheidslijn tussen formele en informele politiek, governance, de ontwikkeling van politiek ceremonieel of het achterhalen van het politieke bedrijf achter de schermen.
  • Serieel onderzoek naar de presentie in vergaderingen en commissies, of naar zaken als economisch en militair beleid.