Welke relevante best practices voor het delen van data en werken met rekenmodellen en AI zijn we tegengekomen in de praktijk en wetenschap? Kunnen we daar relevante herbruikbare elementen in terugvinden?

European data spaces

Als voorbeeld voor wat je moet realiseren om het delen van data en functionaliteit mogelijk te maken is het goed verder te kijken naar European data spaces. Deze komen voort uit de Europese Data Strategie. Prof Boris Otto van Fraunhofer heeft op Youtube een korte presentatie staan over de succesfactoren van een data space. Daarin komen concepten terug die op basis van de workshop uitkomsten en het investeringsvoorstel DTFL heel herkenbaar zijn:

Data soevereiniteit

Je wilt als aanbieder helder kunnen vastleggen voor welke doeleinden je data wel en niet gebruikt mag worden door degenen waarmee je samenwerkt in een dataspace (hier kan je ook digital twin lezen). Wanneer je modellen beschouwt als data producerende modellen is dat dus voor modellen niet anders, je wilt goed vastleggen wie ze mag gebruiken en waarvoor omdat je als maker weet waarvoor ze gevalideerd zijn.

Data provenance

Je wilt kunnen aantonen hoe je data tot stand is gekomen, en als iemand anders jouw data heeft gebruikt wil je kunnen zien hoe hij dat gedaan heeft. Je wilt dus een logboek kunnen inzien van de bewerkingsstappen die dat bepaalde uitkomst data geleid heeft.

Semantische interoperabiliteit

Wanneer niet duidelijk is wat de betekenis van data is en vooral als die betekenis niet is afgestemd tussen partijen is het vrijwel onmogelijk om samen te werken. Dat geldt natuurlijk ook voor input en output van modellen.

Bevragen bij de bron

Ga geen kopieën rondpompen maar bevraag de data bij de authentieke bron. De gebruiker neemt af bij de maker van de data. Toegepast op een (data producerend)model, neemt de gebruiker resultaten af bij de aanbieder van het model. Dit maakt het eenvoudiger om data soevereiniteit en semantische interoperabiliteit te regelen doordat je met een enkele authentieke bron meer controle hebt.

Architectuur

Zorg voor een architectuur waarmee de technische interoperabiliteit (vindbaarheid van functionaliteit en data, beveiliging, leggen van connecties) goed geregeld is en voor alle deelnemers aan een data space(lees ook DTFL) toegankelijk is.

Governance

Zorg voor intrinsieke motivatie om mee te doen en de dataspace(DTFL) als geheel tot een succes te maken. Twee voorbeelden:

  • Quid pro quo: je mag alleen meedoen (data en functionaliteit halen) als je zelf ook data en/of functionaliteit aanbiedt.
  • Maak iedereen eigenaar, zorg voor een regeling waarbij alle deelnemers mede eigenaar van een dataspace zijn en daarmee ook kunnen delen in de eventuele opbrengsten die een dataspace oplevert.

Zorg ook dat de financiering in balans is met de belangen van de deelnemers. Dus als publieke en private partijen deelnemen, financieren ze de gezamenlijk dataspace in een publiek private samenwerking waarin beide kanten evenredig meebetalen.

Zorg ervoor dat de toegang tot een dataspace zo laagdrempelig als mogelijk is. Zorg er voor dat ook het MKB er eenvoudig gebruik van kan maken. Stimuleer daarnaast als overheid dataspaces door het gebruik van de dataspaces zelf als ook de bijbehorende standaarden te vereisen in openbare aanbestedingen.

Verdere verkenning van European dataspaces lijkt heel relevant voor DTFL.

 

Open subsurface data universe

In de olie en gaswereld is er al een digital twin infrastructuur die het uitwisselen van data en modellen mogelijk maakt. Deze heet Open Subsurface Data Universe (OSDU). Dit is een initiatief gesteund door meerdere oliemaatschappijen en kent een bestaande open source software infrastructuur die het mogelijk maakt voor olie en gasbedrijven om o.a. modellen en data te delen met hun toeleveranciers. Daar spelen veel van dezelfde aspecten die ook spelen bij de European dataspaces. OSDU is niet één enkele data space waar iedereen modellen inzet, maar de infrastructuur die het mogelijk maakt om je eigen digital twin op te zetten met alleen de partners die jij erbij wil betrekken.

Herbruikbare opensource software voor DTFL infrastructuur

Wat dit initiatief met name interessant maakt is de open source software die beschikbaar is en die een groot momentum en financiering achter zich heeft van de olie en gas industrie.

Een nadere verkenning of deze software toepasbaar is voor het delen van modellen en data in DTFL lijkt zinvol. Daarnaast kan deze software en de opzet op zijn minst inspiratie bieden voor de architectuur van de DTFL.

 Brede Catalogus

OSDU kent een brede catalogus met zaken die deelnemers kunnen afnemen te weten:

  • Training
  • Modellen
  • Data
  • Advies
  • Applicaties
  • Platforms (Hosting voor je eigen OSDU platform)

Het gaat dus duidelijk verder dan het delen van data en modellen, ook diensten worden gedeeld. Het is interessant om te bekijken in hoeverre in de DTFL context er behoefte is aan ondersteuning van het opzetten van eigen platforms voor digitale tweelingen.

 

Nederlandse AI Coalitie (NLAIC) werkgroep datadelen

De Nederlandse AI coalitie kent meerdere werkgroepen, welke uiteenvallen in toepassingsgebieden en bouwstenen. Binnen de bouwstenen zit de werkgroep datadelen van de NLAIC het dichtst bij de doelen die we met AI en data delen hebben voor de DTFL.

Programma AiNed

Actieplan om werkzaamheden van de werkgroep datadelen binnen AiNed (grote investeringsplan uit herstelfonds/groeifonds?) uit te voeren. Belangrijk daarbij is het realiseren van dataspaces op basis van internationale best practices. Het ontwikkelen van een trust systeem en het activeren van de community(onder aandacht brengen van en kennis delen over best practices AI data sharing). Onderwerpen om naar te kijken zijn daarbij AI dataspaces, Semantiek, Privacy Enhancing Technologies (PET). Input van marktpartijen wordt als belangrijk gezien, de aansluiting met de praktijk moet behouden worden. In 2025 moet alles overgedragen zijn aan de markt.

Data Spaces

De ambitie is er om tenminste 10 federated AI dataspaces op te zetten op basis van de federated dataspaces IDSA(international dataspaces) aanpak.

Gebruiksvoorwaarden en voorbeeld overeenkomsten

Binnen de werkgroep wordt kennis gedeeld over hoe je trainigsdata t.b.v. AI kan delen. Interessante leerpunten zitten in voorbeeld samenwerkingsovereenkomsten en gebruiksovereenkomsten. Hierin wordt vastgelegd hoe je omgaat met rechten plichten, privacy, voorwaarden aan gebruik, geheimhouding, etcetera.

Trustframeworks

Het opzetten van een organisatorische en technische infrastructuur waarmee je vertrouwen tussen data delende partijen kan regelen wordt in de werkgroep besproken. Hoe kan je er voor zorgen dat partijen die data (en bij extensie modellen) delen elkaar kunnen vertrouwen. Dat ze zeker weten met de juiste partij van doen te hebben en dat deze partij alleen dat met data (en modellen) mag doen waartoe hij het recht heeft gekregen.

 

Initiatieven in de wetenschappelijke wereld

Binnen de wetenschappelijke wereld zijn er al meerdere initiatieven in ontwikkeling of reeds ontwikkeld die als doel hebben om het gemakkelijk en veilig delen van data en modellen tussen belanghebbenden te faciliteren. De nadruk van deze initiatieven ligt weliswaar voornamelijk op data, maar gezien modellen ook gewoon uit data bestaan kunnen deze objecten eveneens via deze platformen gedeeld worden.

Internationaal is er veel ontwikkeling gaande in het opzetten van platformen om veilig data mee te kunnen delen, maar ook binnen Nederland lopen er meerdere initiatieven. Hierna volgt een kleine selectie van een drietal prominente infrastructuren op dit vlak.

SURF

SURF is een digitaal platform voor Nederlandse onderwijs- en onderzoeksinstellingen om kennis, diensten, en data onderling te delen. Welke vorm dit aanneemt wordt grotendeels door de leden zelf bepaald, wie tevens gezamenlijk de eigenaar van SURF zijn. Vaak wordt een dienst echter niet zelf ontwikkeld, maar worden bestaande en bewezen oplossingen in het platform opgenomen. De leden zijn verdeeld over zes sectoren, van MBO tot UMC, en hebben ieder een vertegenwoordiger die hun belangen binnen SURF behartigt.

Afhankelijk van de eisen biedt SURF verschillende mogelijkheden om data te delen. Voor simpele dataopslag en het veilig delen met individuen raadt SURF de SURFdrive aan---een dienst gebouwd op de NextCloud architectuur. Voor onderzoeksteams die veel opslagcapaciteit nodig hebben en data gecontroleerd willen delen met andere instellingen, het bedrijfsleven, of internationale partners biedt SURF de Research Drive.

Amsterdam Data Exchange

De Amsterdam Data Exchange (AMdEX) is een platform in ontwikkeling met als doel om data op een veilige manier te delen met andere belanghebbenden. De partij die de data en/of modellen deelt kan hierbij heel precies aangeven aan welke partijen zij de toegang hiertoe verlenen, en gedurende welke periode deze toegang geldt. Dit geeft een hoge mate van controle over het gehele proces.

De AMdEX is een samenwerking tussen verschillende commerciële en wetenschappelijke partijen, waaronder de Universiteit van Amsterdam, SURF, en AMS-IX, en wordt deels gefinancierd vanuit de EU. Lopende projecten binnen AMdEX zijn onder andere de Research Data Exchange (RDX), wat het delen van modellen en data tussen onderzoeksinstituten faciliteert, en het Omgevingsregister, waarin data over kunstwerken (bruggen, viaducten, enz.) met anderen gedeeld kan worden.

Dutch Tech centre for Life Sciences

De Dutch Tech centre for Life Sciences (DTL) is een platform om kennis, data, en diensten binnen de wereld van de biowetenschappen te delen en te ontsluiten. Sinds de oprichting in 2014 is de DTL uitgegroeid tot een samenwerkingsverband tussen ruim 50 commerciële en publieke partners, waaronder universiteiten en ziekenhuizen, en is het tegenwoordig één van de voorlopers op het gebied van technologische samenwerking.

Het overkoepelende doel van de DTL is het faciliteren van multidisciplinair onderzoek op zowel landelijk als internationaal vlak. Om dit te bewerkstelligen biedt het platform verschillende diensten aan, waaronder de technologische faciliteiten en middelen om data en modellen te verwerken, te analyseren, te bewaren, en te delen. Ook biedt de DTL speciale scholing en expertise aan om een efficiënt gebruik van hun infrastructuur te bevorderen.

 

Tags: AI, Onderzoek