Het project REPUBLIC (Resolutions Published in a Computational Environment) heeft als doel de besluiten (resoluties) van de Staten-Generaal van de Republiek der Verenigde Nederlanden digitaal toegankelijk te maken. Het Prototype Achttiende Eeuw is een mijlpaal in die ontsluiting. Met dit prototype wordt halverwege de looptijd van REPUBLIC een deel van de projectdoelstelling gerealiseerd.
Het Prototype
- bestrijkt de gedrukte resoluties uit de periode 1703-1796, dus bijna de gehele achttiende eeuw. De resoluties van vóór 1703 zijn alleen in handgeschreven vorm beschikbaar als complete reeks. In 1796 hielden de Staten-Generaal op te bestaan. In deze fase van het project hebben we ons beperkt tot de gedrukte resoluties, omdat we reeds konden beschikken over resultaten van onze gedrukte-tekstherkenning (OCR). Voor de handschriftherkenning (HTR), die we gebruiken voor de oudere resoluties, is meer tijd nodig.
- omvat de ordinaris (‘gewone’) resoluties . Hiernaast bestaan er voor deze periode ook secrete (geheime) resoluties, die echter niet voor verspreiding waren en dus niet werden gedrukt. Deze zijn in het prototype nog niet ontsloten. De resolutieregisters zijn chronologisch geordend en omvatten doorgaans een kalenderjaar. De Staten-Generaal vergaderden vrijwel elke dag, met uitzondering van zondagen en officiële feestdagen, tenzij er dwingende redenen waren ook dan een vergadering in te lassen.
- bevat beperkte ontsluiting en zoekmogelijkheden. Het corpus is ontsloten op zittingsdagen (dat wil zeggen de zittingen van de Staten-Generaal), datum, resoluties en presentielijsten, waarin de deelnemende gedeputeerden en de vigerende voorzitter (president in het achttiende-eeuwse taalgebruik) voorkomen. Voor een nadere uitleg zie de uitleg over de bron. Dit zijn ook de toegangen waarop het corpus doorzoekbaar is.
- biedt toegang tot de digitale facsimile’s (scans) van tekstpagina’s van de boekdelen waarin de resoluties zijn verzameld, met daarnaast de herkende tekst. De ontsloten tekstindelingen zijn aangegeven in de herkende tekst en op de facsimile’s.
- bevat tekst herkend met OCR en vanwege de omvang van het corpus niet handmatig gecorrigeerd. Hoewel de kwaliteit van de OCR acceptabel is (zeker wanneer afgezet tegen die van vergelijkbare tekstcorpora), bevat de tekst nog meer fouten dan digitaal gecreëerde of handmatig verbeterde tekst. Automatisch herkennen van oud-Nederlandse tekst is lastiger dan herkennen van moderne tekst door afwijkingen in letters (met name de lange s die erg op een f lijkt) en in spelling. Vooral namen van personen worden relatief vaak verhaspeld door de OCR. Bij het zoeken in dit prototype is het verstandig om rekening te houden met deze eigenaardigheden. We werken continu aan verbetering van de OCR, ook na de publicatie van het prototype; naar verwachting zal de kwaliteit van de tekst in de toekomst daarom verder verbeteren.
- heeft beperkte zoekmogelijkheden, die de stand van zaken van de ontsluiting in het project reflecteren. De gedrukte resoluties zijn nu ontsloten op de (logische) structuur van de tekst:
- zittingsdagen (session), met datum (date)
- presentielijsten (attendance list), en daarbinnen gedeputeerden (delegate) en voorzitter (president)
- resoluties (resolution)
- bevat zoekfacetten in de zoekinterface, die het mogelijk maken de resoluties op deze metadata te doorzoeken.
De gedrukte delen bestaan uit resoluties en een index die is bedoeld om de tekst toegankelijk te maken.
- De lopende tekst van de resoluties is doorzoekbaar op inhoud. Voor aanwijzingen voor het gebruik van de tekstuele zoekmogelijkheden zie hier.
- de indices zijn wel gedigitaliseerd en ge-ocrd, maar nog niet verder toegankelijk gemaakt.
Het prototype geeft een momentopname van het REPUBLIC-project. In het project gaan we verder met de ontsluiting van zowel de gedrukte als de handgeschreven resoluties. Voorlopig zal het prototype niet worden geactualiseerd met deze betere ontsluiting, maar mogelijk wel met betere versies van de data.
Verdere ontwikkeling van REPUBLIC
De publicatie van de volledige webeditie van REPUBLIC is voorzien aan het eind van het project, dat loopt tot maart 2024. Voordat het zover is moet er nog veel gebeuren. Zo werken we aan de volgende zaken:
- Ontsluiting van de gedrukte tekst wordt verbeterd doordat de door de toenmalige griffie gemaakte indices toegankelijk worden gemaakt en gekoppeld aan de tekst.
- Ontsluiting van personen, geografische namen, instellingen en mogelijk andere entiteiten die voorkomen in de resoluties.
- Ontsluiting van de manuscriptdelen van de resoluties, dat wil zeggen alle resoluties van 1576 tot 1703 en de secrete resoluties van daarna. Hiervoor wordt in het crowdsourcingsproject van REPUBLIC, Goetgevonden!, door vrijwilligers gewerkt aan de verbetering van de handschriftherkenning. Voor meer informatie of om zelf mee te helpen, zie hier.
- Uitbreiden van de ontsluiting zoals die is ontwikkeld voor het prototype naar het herkende handgeschreven materiaal. Het (ambitieuze) doel is te komen tot een zo uniform mogelijke ontsluiting voor het gehele corpus.
- Op basis van een analyse van het formulaïsche taalgebruik van de resoluties proberen we grip te krijgen op de logische indeling van de tekst. We kunnen binnen de tekst al zittingsdagen en daarbinnen presentielijsten en afzonderlijke resoluties onderscheiden, maar we proberen dit verder te verfijnen tot op het niveau van de opbouw van de resoluties: wat is de opening, wat is het besluit en wat wordt er besproken?
- Voor de data wordt een passende gebruikersapplicatie gemaakt. Voor visualisatie en presentatie van de teksten en de afbeeldingen zal deze hoogstwaarschijnlijk geënt zijn op de in het prototype gepubliceerde applicatie. De nog te ontsluiten data zijn echter zo uitgebreid dat voor zoek- en navigatiemogelijkheden aparte uitbreidingen nodig zijn naast en bovenop de visualisatie van de teksten en afbeeldingen.
In de loop van het project zullen wanneer mogelijk previews en testversies worden gepubliceerd.