Kwetsbare ouderen:
ook ontbrekende gegevens veelbetekenend voor een voorspelmodel
Het klinkt raar, maar data-analist Kai van de Poll studeerde grotendeels af op feiten die er niet zijn. Ze gebruikte verschillende statistische technieken om ontbrekende data in elektronische patiëntendossiers van het JBZ te schatten. Naast een interessante filosofische paradox (hoe trek je conclusies op basis van iets dat er niet is?) levert het waardevolle nieuwe inzichten op, vertelt de onderzoekster. Haar onderzoek werd begeleid door Henri van Dalen (researchverpleegkundige en verplegingswetenschapper in het JBZ) en prof. dr. Esther de Vries (bijzonder hoogleraar Tilburg University en coördinator Data Science JBZ). Het onderzoek is onderdeel van het promotieonderzoek van Van Dalen, een samenwerking tussen het JBZ en Tilburg University (Tranzo). Hij doet dit onder begeleiding van prof. dr. De Vries, prof. dr. Marcel van Assen (hoogleraar Tilburg University, Departement Methoden en Technieken Van Onderzoek) en dr. Angèle Kerckhoffs (internist en geriater JBZ). Zijn onderzoek moet op termijn leiden tot een computermodel dat op basis van data uit het elektronisch patiëntendossier kan voorspellen welke ouderen een grotere kans hebben om kwetsbaar te zijn. Een status die niet altijd aan de buitenkant is te zien.
"Om de juiste gegevens uit die gigantische vijver vol ‘ruwe data’ te vissen, is heel wat voorbereiding nodig"
Voor haar masterstudie Artificial Intelligence aan de Nijmeegse Radboud Universiteit dook Kai van de Poll diep in de (gepseudonimiseerde) patiëntengegevens van duizenden 70-plussers met behulp van het programma CTcue. Het ging specifiek om de bloedwaarden van deze groep ouderen. JBZ-wetenschappers doen al langer op verschillende terreinen onderzoek naar deze groep. Door de vergrijzing wordt het aantal kwetsbare ouderen binnen de ziekenhuizen almaar groter. Geen wonder dat universiteiten, ziekenhuizen en andere kenniscentra naar nieuwe mogelijkheden zoeken om kwetsbaarheid sneller en beter te herkennen.
Kai van de Poll onderzocht of de datastructuur van elektronische patiëntendossiers geschikt is om patronen te ontdekken in de wel en niet-ingevulde waarden binnen alle bloedwaardendata. En zo ja, of hiermee ook de informatie van ontbrekende waarden gebruikt kan worden in het onderzoek naar een voorspellend model voor de kans op kwetsbaarheid.
Ruwe data
‘Om de juiste informatie uit die vijver met ‘ruwe data’ te verkrijgen, is heel wat voorbereiding nodig’, schetst Van de Poll de beginsituatie van haar onderzoek. Voordat de ontbrekende waarden geschat konden worden, werd onder meer gezocht naar onjuistheden. Van de Poll: ‘Er waren per ongeluk urinewaarden tussen de labwaarden terechtgekomen bij de export uit CTcue. Dat kan de onderzoeksuitkomsten ernstig beïnvloeden. Het is belangrijk om foute waarden als dusdanig te herkennen, zodat je een ‘schoon’ overzicht overhoudt van correct ingevulde en lege vakjes. Maar, er zijn ook extreme waarden die wel degelijk correct zijn en daarom erg waardevol. Sterk afwijkende bloedwaarden kunnen immers iets zeggen over iemands kwetsbaarheid. Het was een hele puzzel om correcte en foutieve extreme uitslagen te ontwarren. Die puzzel hebben we opgelost door kennis uit het medisch domein te combineren met de inzichten die we verkregen uit de data.’
Missende data
Na de voorbereidingsfase kwam het moment dat de bloedwaarden van 70-plussers in detail bekeken konden worden. Wat haal je dan uit de data? ‘Kwetsbaarheid is niet te meten in iemands bloed’, stelt Kai van de Poll, ‘Het programma CTcue achterhaalt welke bloedwaarden volgens het dossier bekend zijn. Bij een patiënt met een longziekte zijn bijvoorbeeld de bloedwaardevakjes a, b en f vaker ingevuld. Iemand anders heeft een nierziekte, waarvoor de vakjes b, c, d en e vaker zijn ingevuld. In de loop der jaren zijn mogelijk steeds meer vakjes ingevuld. Maar er zijn ook lege, niet ingevulde bloedwaarden. Door het invullen van de lege vakjes of het aanmaken van nieuwe variabelen die aangeven dat een vakje leeg is en leeg moet blijven, is de dataset te gebruiken voor het maken van een voorspelmodel.’ Het blijkt mogelijk om ontbrekende data, oftewel de lege vakjes, voor een groot deel ingevuld te krijgen. Daarvoor werden verschillende statistische (imputatie) technieken gebruikt. Een computerprogramma ‘leert’ wat de samenhang is tussen ingevulde en lege vakjes. Kai van de Poll: ‘Zo maken we bepaalde patronen zichtbaar. Bij een hoge waarde in vakje X hoort namelijk ook een hoge waarde in vakje Y, bijvoorbeeld omdat we weten dat X en Y een hoge correlatie hebben. Op basis van alle patronen kunnen we de missende data grotendeels invullen.’
Maar daarnaast zijn missende data op zichzelf ook al veelzeggend, aldus Van de Poll: ‘Er was blijkbaar voor de arts geen reden om voor die specifieke waarden een bloedtest aan te vragen. Ook die informatie is bruikbaar.’
Betrouwbaar én hanteerbaar
De afgestudeerde data-analiste ziet haar werk als een goede basis voor toekomstig onderzoek. Niet alleen voor deze dataset, die volgens haar uit te bouwen is door nog andere laboratoriumdata zoals urinewaarden mee te nemen, maar ook bij andere studies gebaseerd op data uit het elektronisch patiëntendossier. ‘Naar mijn idee is het gelukt om het datagerichte perspectief goed te combineren met het medisch perspectief. Je moet die werelden samenbrengen. Als je wilt dat zorgprofessionals vertrouwen krijgen in een voorspelmodel, dan moeten we ervoor zorgen dat ze het proces goed begrijpen en weten dat elk onderdeel van de methode medisch-biologisch is onderbouwd. ’
Henri van Dalen werkt de komende jaren verder aan zijn promotieonderzoek om het voorspelmodel voor kwetsbaarheid bij 70-plussers uit te werken tot een tool voor de zorgpraktijk. Hierbij worden de resultaten van Van de Polls afstudeeronderzoek ook gebruikt.