Op 20 september was NOTaS op bezoek bij het Nationaal Archief in Den Haag alwaar een interessant programma was voorbereid door onze contactpersoon en voormalig NOTaS-bestuurslid Remco van Veenendaal. Remco trad zelf op als dagvoorzitter en dat was hem prima toevertrouwd.
De opkomst was goed. Er waren zo’n 30 deelnemers waaronder veel vertegenwoordigers van het Nationaal Archief, het NIOD en de burelen van de Tweede Kamer. De Kamerleden zelf hadden iets anders te doen: het was tenslotte Prinsjesdag.
De opkomst vanuit NOTaS zelf was helaas beperkt en daar was wellicht het juist op deze Prinsjesdag verstoorde treinverkeer naar Den Haag debet aan.
Taaltechnologie
De eerste presentatie was van Suzan Verberne. Dit was een heel helder en leerzaam verhaal (misschien is college een beter woord) over de verschillende aspecten die een rol spelen bij de (automatische) classificatie van documenten, dus ook archiefstukken. Suzan ging uitgebreid in op het trainen van classificatoren en de toepassing daarvan op nieuw materiaal. Ze liet onderandere zien wat er goed en fout ging, hoeveel materiaal je gegeven de context nodig hebt en en hoe je het moet aanpakken om de technologie goed te kunnen gebruiken. Al-met-al een boeiende lezing!
Dat zulke technologie bij het NA behoefte bestaat bleek wel uit de presentatie van Remco die na de koffiepauze volgde. Daarin liet hij de raakvlakken met TST vanuit het NA zien en hoe de verschillende presentaties van vandaag daarin pasten. Meer in detail ging hij in op specifieke behoeften van uit het NA aan TST waarbij hij refereerde aan handschriftherkenning en e-Discovery voor e-mails.
Pitches
Hierna volgden drie kortere presentaties van NOTaS-deelnemers.
Dennis de Vries van Gridline BV vertelde over het product Woordenlijstbeheer waarin terminologie centraal staat. Dit sloot mooi aan bij Suzans presentatie. Want deze toepassing stelt documentalisten in staat om lijsten van documentlabels en thesauri te beheren.
Het volgende verhaal was van Arjan van Hessen van Telecats. Hij ging in op de ontsluiting van audiomateriaal, meer in het bijzonder van de plenaire debatten in de Tweede Kamer waarvoor het Nationaal Archief de archiveringsplicht heeft. Voor die ontsluitiing wordt het zgn "forced alignment" gebruikt: een vorm van spraakherkenning waarbij de bekende tekst (nl. de door mensen gemaakte transcripties) opgelijnd wordt met de audio van de video-opnamen van de debatten. Van ieder woord is nu bekend wanneer het door wie werd uitgesproken en dus kan daar op gezocht worden. Maar omdat goed te kunnen doen, is wel veel meer nodig dan wat er nu gebeurt. Iets waar de aanwezige ambtenaren van de "Dienst Verslaglegging en Redactie" het helemaal mee eens waren.
Joop den Uyl als stem voor het Nationaal Archief
De laatste presentatie was van Esther Judd van Readspeaker en dat was een echte uitsmijter: het beter en sneller kunnen ontwikkelen van "voorleesstemmen" met behulp van "statistische parametriche spraaksynthese" (SPSS) waarvoor Deep Learning wordt gebruikt. "
Tijdens de lunch is volop nagepraat en zijn er tussen verschillende aanwezigen afspraken gemaakt om een en ander verder uit te werken. Voor wie daarna niet verzadigd was met informatie, was er in de naastgelegen zaal de gelegenheid om een aansluitende bijeenkomst bij te wonen over Linked Open Data.
Verslag namens het Nationaal Archief
Een vergelijkbaar verslag met de link naar de verschillende presentaties, staat op de website van het Nationaal Archief.
Deelnemersvergadering
Vanwege de lage opkomst van NOTaS-deelnemers had het weinig zin de geplande deelnemersvergadering door te laten gaan. Dat was jammer voor de penningmeester die speciaal voor deze gelegenheid zijn eigen Miljoenennota had meegenomen. Of iets bescheidener: de NOTaS-jaarrekening over 2015. Wie wil weten wat daarin staat, kan zich daarvoor alsnog bij hem melden.