Op 15 december 2017 was NOTaS op bezoek bij DANS. Heel NOTaS? Nee, een kleine delegatie van drie personen hield moedig stand tegen andere verleidingen en meldde zich om 10 uur op de Anna van Saksenlaan. De ontvangst was allerhartelijkst en ons klein getal stond een plezierige en inhoudelijk boeiende bijeenkomst bepaald niet in de weg.
Welkom
Directeur Peter Doorn van DANS beet het spits af met een inleiding over wat DANS doet en dat is bepaald indrukwekkend. De kern wordt gevormd door:
- het EASY-systeem (een self-deposit-systeem met Dublin Core metadata),
- DATAVerse (voor gevanceerde opslag en toegankelijkheid van data),
- NARCIS (met inmiddels 1,5 M publicatiegegevens en metadata van 165 K datasets).
Nieuwe samenwerking speelt zich af met Elsevier dat zijn data in Mendelay beschikbaar stelt. Daarnaast wordt ook software opgeslagen in een samenwerkingsverband met Inria, en wordt er met de Brill het Research Data Journal for the Humanities and Social Sciences uitgegeven. Ook wordt er nu ingezet op de European Open Science Cloud (EOSC) waar publicaties, data, software, onderzoek en innovatie samenkomen.
Peter sloot zijn presentatie af met een kort exposé over de gevolgen van de nieuwe Europese wetgeving op het gebied van bescherming van persoonsgegevens (AVG ofwel GDPR). DANS is bezig met een beslisboom en bijbehorende vragenlijst waarmee een onderzoeker de juiste data-tag aan zijn/haar data kan hangen.
LOD
Hierna volgde een presentatie van Reinier van de Valk en Vyacheslav Tykhonov over Linked Open Data. Reinier vertelde ons over de principes erachter waarbij termen als URI’s, RDF, triplestores, GraphQLen SPARQL ons om de oren vlogen. Na deze mooie inleiding liet Vyacheslav ons zien hoe DANS met Linked Open Data experimenteert op het gebied van metadata-verrijking.
De metadata van EASY en NARCIS worden naar RDF triples geconverteerd waarbij Timbuctoo (ontwikkeld binnen CLARIAH) een centrale rol speelt.
De gemaakte triples moeten echter voor een deel nog wel door de betrokken onderzoeker gecheckt en gecorrigeerd worden en dat is nog best een klus. Prachtige visualisaties van het huidige LOD netwerk zijn overigens te zien op http://lod-cloud.net.
Hoover maar eens over de knopenwolk, zoom in en verbaas je.
Oral History
Als laatste nam Ilona von Stein ons mee naar de AV-collecties voor Oral History. Bij DANS staan er 2734 datasets in 68 collecties, samen 5% van alle datasets bij DANS. Deze collecties zijn ook interessant voor gebruikers buiten de wetenschap, zoals archieven (m.b.v. het OAI-PMH-protocol) en Veteranen-organisaties. Ilona liet ons zien hoe zorgvuldig deze data aan het DANS-repertoire worden toegevoegd omdat het om persoonsgevoelig materiaal gaat. Toegang tot de data geschiedt door verspreiding van de metadata aan 17 grote repositories en de toegang tot de onderliggende AV-data (voor zover toegestaan) via streaming met Springfield WebTV. Om de toegankelijkheid te vergroten heeft DANS met externe partners een systeem opgezet om de beschikbare video-opnames via automatische oplijning en transcriptie te ondertitelen. DANS is met de partners van http://oralhistory.eu op zoek naar subsidiëring van verdere projecten.
DANS en CLARIN
Na en deels ook tijdens deze presentaties vonden geanimeerde discussies plaats over de relatie tussen DANS en CLARIN datacenters, de toename van datasets bij DANS en het aantal open access datasets, hoe er in verschillende disciplines tegen open access wordt aangekeken, hoe bedrijven gebruik kunnen maken van deze dataverzamelingen, wat er nodig is om de data geschikt te maken voor taal- en spraaktechnologische toepassingen, enzovoorts.
Daarna was er een voortreffelijke lunch waarbij de discussies in klein comité gewoon doorgingen tot we om een uur of een echt moesten stoppen.
Henk van den Heuvel & Oele Koornwinder