Historical texts are a crucial source for research in historical linguistics and digital humanities. Linguistic enrichment (also known as annotation), such as assigning a modern Dutch lemma and a part of speech tag, facilitates searching through and analysing large volumes of written text.
During this workshop, we introduce GaLAHaD and LAnCeLoT, two powerful tools developed by the Institute for the Dutch Language for the automatic enrichment and manual refinement of linguistic annotation in historical corpora.
- GaLAHaD (Generating Linguistic Annotations for Historical Dutch) provides a flexible environment for automatic enrichment and the evaluation of enrichment tools. Users can automatically add part-of-speech tags and lemmas, inspect the results, and analyze the performance of various tools using a given gold standard.
- LAnCeLoT (Linguistic Annotation Corpus Laundry Tool) enables researchers to manually correct and refine enrichments, such as those from GaLAHaD, which is essential for high-quality corpus analysis.
After a brief introduction, both tools will be demonstrated with a hands-on example. In a joint hands-on session, we will walk through the process of automatic enrichment and correction of a historical dataset.
In addition to presenting our enrichment tools, we are pleased to welcome Prof. Dr. Alexandra Simonenko and Dr. Yiming Liangb. They will introduce the CAUSALITY project, an ERC-funded project at Ghent University that investigates the mechanisms behind language change through simulations and historical treebanks. To do so, they will build a large treebank for historical Dutch with the help of GaLAHaD, which will provide morphological parsing, which in turn will be enriched with syntactic Penn-style information.
Furthermore, Eleanor Smith (Vrije Universiteit Amsterdam) will introduce Task 3.1 of SSHOC-NL, which supports researchers in using and evaluating enrichment tools like GaLAHaD in a conscious, methodologically sound manner.
📅 Date: April 9, 2025, 13:45–17:00 (reception from 13:15; closing drinks until 18:30)
📍 Location: Leiden, Lipsius Building, Room LIPS 1.30
Registration:
Nederlandstalige versie
Historische teksten vormen een belangrijke bron voor onderzoek in de historische taalkunde en digital humanities. Taalkundige verrijking (annotatie), zoals het toekennen van een modern Nederlands lemma en een woordsoort, vergemakkelijkt het doorzoeken en analyseren van deze teksten, zonder dat spellingvariatie een hindernis vormt.
Tijdens deze workshop introduceren we GaLAHaD en LAnCeLoT, twee krachtige tools ontwikkeld door het Instituut voor de Nederlandse Taal voor het automatisch verrijken en manueel verbeteren van taalkundige annotatie in historische corpora.
- GaLAHaD (Generating Linguistic Annotations for Historical Dutch) biedt een flexibele omgeving voor automatische verrijking en evaluatie. Gebruikers kunnen automatisch woordsoort en lemma laten toevoegen door de machine en daarna de resultaten inspecteren, en de prestaties van verschillende tools analyseren aan de hand van een opgegeven gouden standaard.
- LAnCeLoT (Linguistic Annotation Corpus Laundry Tool) stelt onderzoekers in staat om verrijkingen handmatig te corrigeren en te verfijnen, wat essentieel is voor hoogwaardige corpusanalyse.
Na een korte introductie worden beide tools toegelicht aan de hand van een hands-on voorbeeld. We doorlopen samen het proces van automatische verrijking en correctie van een historische dataset.
Bovenop het voorstellen van onze verrijkingstools hebben we ook het genoegen om prof. dr. Alexandra Simonenko en dr. Yiming Liang (Universiteit Gent) aan het woord te laten. Zij zullen het CAUSALITY-project toelichten, een ERC-project aan de Universiteit Gent dat de mechanismen achter taalverandering onderzoekt via simulaties en historische treebanks. Daarvoor zal er een grote treebank voor historisch Nederlands gebouwd worden met hulp van GaLAHaD die voor een deel van de morfologische annotatie zal zorgen die vervolgens met een syntactisch Penn-stijl laagje zal verrijkt worden.
Daarnaast zal Eleanor Smith (Vrije Universiteit Amsterdam) Taak 3.1 van het SSHOC-NL introduceren, die onderzoekers ondersteunt in het gebruiken en evalueren van verrijkingstools zoals GaLAHaD op een bewuste, methodologisch doordachte manier.
📅Datum: 9 april 2025, 13:45-17:00 uur (ontvangst vanaf 13:15 uur ; afsluitend een borrel tot 18:30 uur)
📍 Locatie: Leiden, Lipsius-gebouw, lokaal LIPS 1.30
Inschrijven: