Mijn kijk op (zorg)data

Meer data en tooling, maar valkuilen blijven...

Door omvang en complexiteit van beschikbare data en tooling neemt het aantal valkuilen toe maar zijn deze minder zichtbaar. Inmiddels zijn we ruim dertig jaar verder, worden via alle mogelijke apparaten data over zo’n beetje alles verzameld en is de omvang ervan vrijwel niet meer te vast te stellen. Ook de mogelijkheden om zeer grote hoeveelheden data te combineren, analyseren en visualiseren zijn enorm toegenomen. Met alle gebruikersvriendelijke applicaties en tooling voor data analytics, data warehousing, business intelligence (BI), etc, zijn bovengenoemde basale valkuilen niet verdwenen maar wel minder zichtbaar geworden; vaak is voor de gebruiker niet transparant hoe in de data onderliggend aan een BI-dashboard of de uitkomsten van een algoritme is omgegaan met ontbrekende gegevens (missing data); en of/hoe rekening gehouden met sterk gecorreleerde gegevens (multicollineariteit) en andere artefacten, met de context van dataelementen die iets zeggen over (mogelijke) causaliteit; en natuurlijk het risico op bias door onevenredige vertegenwoordiging van bepaalde groepen in de data – zie de vele voorbeelden van problemen die hiervan het gevolg zijn (Toeslagenaffaire, Antifraudeprogramma SyRi, CAS predictive policing).

Voor sommige onderwerpen luisteren deze vraagstukken mogelijk wat minder nauw - bijvoorbeeld als het gaat om het doelgroepgericht adverteren voor commerciële doeleinden. Voor het onderbouwen van klinische besluitvorming, zowel in de spreekkamer (samen beslissen, decision support systems) als voor beslutvorming voor beleid en bestuur (opstellen van klinische richtlijnen, pakketbesluiten, toelating van geneesmiddelen, medische hulpmiddelen en (andere) digitale innovaties), blijft zorgvuldig gebruik van data echter essentieel. Transparantie van de hele data-keten (provenance), van het gebruikte ontwerp (op basis van een Randomized Clinical Trial (RCT) of op basis van Real World Data (RWD)), van toegepaste analysetechnieken en van bestaande of ontwikkelde algoritmen is van essentieel belang om de gepresenteerde informatie op waarde te kunnen schatten.

Databeschikbaarheid en (her)gebruik van data

Het belang van goede databeschikbaarheid – om routinematig vastgelegde gegevens alsook data uit wetenschappelijk onderzoek te kunnen uitwisselen en hergebruiken – wordt tegenwoordig breed onderschreven. Hiermee is ook een aantal nieuwe data-vraagstukken opgedoken, o.a. van eigenaarschap, houderschap en zeggenschap t.a.v. data, interoperabiliteit en eenheid van taal om data te kunnen uitwisselen of combineren, methoden en voorzieningen voor identificatie en data-koppeling, om data van dezelfde entiteiten (patiënten, zorgverleners, zorgorganisaties) in verschillende databronnen te identificeren en te kunnen samenvoegen; en standaarden, methoden en voorzieningen voor databoekhouden en meta-datering om data (liefst machine-readable) vindbaar en opvraagbaar te maken.

In essentie is er nauwelijks verschil in data die gebruikt worden voor wetenschappelijk onderzoek en data die gebruikt worden voor andere domeinen (bedrijfsvoering, kwaliteit en veiligheid, datagedreven werken, etc). Wel is de context anders, en worden verschillende eisen gesteld aan wie wat met data mag en waar data aan moeten voldoen vanwege wet- en regelgeving. Maar de gesegmenteerde inrichting van datagovernance en datamanagement voor verschillende domeinen, zoals nu vaak het geval is, leidt tot een versnipperd datalandschap, belemmert goede databeschikbaarheid, zowel binnen de eigen organisatie als tussen organisaties en landelijk/internationaal, is inefficiënt en dus onwenselijk. Een heldere visie op de rol van data voor zorg, beleid en wetenschap, een goede datastrategie, en een geïntegreerde inrichting van data governance en datamanagement binnen zorgorganisaties is daarom ook van groot belang voor goed gebruik data, om met minder kosten data beter te kunnen uitwisselen en (her)gebruiken voor datagedreven werken, alsook voor beleid, kwaliteit, onderzoek en innovatie.