Waterschap Rijn en IJssel heeft de ambitie om zich te ontwikkelen tot een datagedreven organisatie. Daarvoor is het van belang dat het gegevensbeheer goed georganiseerd is en dat de data zelf van voldoende kwaliteit zijn.
Download hier de pdf van dit artikel
Geschreven door Bram de Vlieger, Djurra Scharff, Emiel Huizinga, Kristan Margry, Judith Janssen (waterschap Rijn en IJssel)
Een groot deel van de kerntaken van waterschappen is gekoppeld aan een locatie, zoals de ligging van assets als stuwen, en gemalen en watergangen en dijken. De geo-kernregistraties vormen dan ook al jaren een belangrijke basis voor interne processen als modellering, vergunningverlening en beheer en onderhoud. Het belang van deze geodata zal alleen maar verder gaan toenemen.
De ontwikkelingen op het vlak van ICT gaan razendsnel. Nieuwe slimme technieken om data in te winnen, analyseren of visualiseren worden in rap tempo geïntroduceerd. Databronnen kunnen steeds beter aan elkaar worden gekoppeld.
De maatschappij verandert door deze ontwikkelingen ook, doordat er nieuwe manieren van werken ontstaan. Denk aan precisielandbouw met gebruik van satellietdata, maar ook het digitaal zakendoen met de overheid. De burger verwacht bovendien dat overheden beschikken over juiste en actuele informatie, zorgvuldig omgaan met gegevens, transparant zijn en snel kunnen schakelen. Innovatie en het op orde hebben van de basis gaan hand in hand. Met een robuuste basis kan het waterschap meebewegen met de ontwikkelingen en de behoeften van inwoners, bedrijven, landbouw en samenwerkingspartners.
Het belang van goede data
Waterschap Rijn en IJssel (WRIJ) heeft de ambitie om zich te ontwikkelen tot een datagedreven, slagvaardige en doelgroepgerichte organisatie. De plannen voor de digitale transformatie heeft het waterschap in 2018 vastgelegd in een i-strategie [1]. In deze visie wordt het waterschap steeds meer een producent van 'waterinformatie'. Dat vraagt iets van de organisatie. Als het waterschap zorgt dat goede kwaliteit data de juiste mensen op de juiste plek en tijd bereiken, kunnen mooie dingen worden bereikt.
Zo zijn de data van het waterschap een belangrijke pijler in de Omgevingswet en de bijbehorende integrale en transparante aanpak van de fysieke omgeving. En ook voor externe partners kunnen data van het waterschap meerwaarde hebben, bijvoorbeeld als het gaat om het terugwinnen van grondstoffen uit afvalwater door meer zicht te krijgen op elke druppel in de afvalwaterketen. Ook dan vallen of staan valide conclusies met goede data.
Datakwaliteit is dus een belangrijke bouwsteen in het datagedreven werken. Goede kwaliteit levert niet alleen meerwaarde op, data van slechte kwaliteit vormen ook een risico. Denk bijvoorbeeld aan vertraging omdat een hydroloog eerst fouten uit de data moet filteren voordat deze gebruikt kan worden om te modelleren. Of aan extra kosten, omdat het aantal vierkante meter te maaien gras te laag wordt ingeschat. Als door incomplete of onjuiste gegevens bijvoorbeeld verkeerde beslissingen worden genomen bij calamiteiten kunnen de gevolgen nog groter zijn.
Dit is overigens niet alleen voor het waterschap zelf van belang. Een deel van de data van het waterschap dient namelijk openbaar te zijn, waarmee ook het risico van fouten door anderen op basis van deze data latent aanwezig is. De noodzaak van goede datakwaliteit wordt steeds sterker gevoeld, maar daarbij speelt altijd de vraag: hoe goed is goed genoeg? En hoe meet je dat? De afgelopen twee jaar heeft waterschap Rijn en IJssel de nodige stappen gezet om hier invulling aan te geven voor de geo-kernregistraties.
Organisatie van geo-gegevensbeheer Sinds 2016 is het beheer van de geo-kernregistraties binnen het waterschap gecentraliseerd bij het geo-team. Het geo-team is verantwoordelijk voor het ‘hoe’ van de hele dataketen: van inwinning, opslag en mutaties, tot ontsluiting en gebruik. De coördinator van het team heeft de rol van proceseigenaar en zorgt voor de juiste afspraken en afstemming over techniek en gegevensbeheer. Het gegevenseigendom ligt bij de primaire processen, die verantwoordelijk zijn voor het ‘wat’ van de data. De functioneel gegevensbeheerders hebben daarin de rol van gedelegeerd gegevenseigenaar en bepalen met de interne gebruikers welke gegevens tot de kernregistratie moeten behoren en aan welke eisen data moet voldoen. Zij vormen de verbindende schakel tussen de gebruikers in de primaire processen en het geo-team. Er is de afgelopen jaren gewerkt aan een centraal gegevenswoordenboek voor de geo-data. Dit gegevenswoordenboek heeft een belangrijke rol gekregen in het gegevensbeheer. Naast informatie over gegevensdefinities, gegevenseigendom en invulafspraken, bevat het woordenboek ook de ‘waarheid’ over zaken als aanlevering, ontsluiting en inwinning. Vooral gezien de constant veranderende informatiebehoefte is het belangrijk dat er één bron is waarin die behoefte en basisafspraken worden vastgelegd en bijgewerkt. Dit vormt dan het uitganspunt bij andere processen. Zo geeft het woordenboek helderheid over welke gegevens bij projecten moeten worden aangeleverd en zijn veel van de datakwaliteitseisen gebaseerd op afspraken in het woordenboek. In 2019 is het geo-team aangevuld met de rol van datakwaliteitsanalist, om het sturen op datakwaliteit naar een hoger niveau te tillen. Het onderwerp datakwaliteit is bij Rijn en IJssel inmiddels stevig op de agenda gezet. In 2020 zijn de eerste gestructureerde en deels geautomatiseerde kwaliteitscontroles ingericht voor de geo-data van waterkeringen en watersystemen. |
Meer grip op datakwaliteit
Het waterschap wil op een structurele wijze blijven werken aan het monitoren, verbeteren en borgen van de datakwaliteit van de geodata. Door het datakwaliteitsmanagement als een cyclus te organiseren, kan er doorlopend worden bijgestuurd op de kwaliteit van de data (zie afbeelding 1). Deze aanpak is gebaseerd op de Data quality improvement lifecycle van het data management body of knowledge (DMBOK) [2] en het datakwaliteitraamwerk dat is gemaakt in het kader van de Omgevingswet [3].
Datakwaliteitsmanagement gaat verder dan alleen het opsporen van fouten en problemen: het gaat om het geheel van het opstellen van kwaliteitseisen, het meten en monitoren van kwaliteit door de hele dataketen, het verdelen van rollen en verantwoordelijkheden en het verbeteren van kwaliteit aan de voorkant (fouten voorkomen) en achterkant (fouten oplossen).
Door continu een vinger aan de pols te houden, komt er meer grip op datakwaliteit en kunnen er gerichte, bewuste en transparante keuzes worden gemaakt. Zo kan er worden besloten om bepaalde verbeteracties uit te voeren, of dat juist niet te doen. Door het monitoren van datakwaliteit kunnen structurele problemen worden geïdentificeerd, waarna nieuwe problemen kunnen worden voorkomen. En bij nieuwe ontwikkelingen of een achteruitgang in kwaliteit, kan snel actie worden ondernomen. Met deze aanpak wil het waterschap de komende jaren verdere stappen maken in het verbeteren van de datakwaliteit.
Meten en monitoren in de hele dataketen
Voordat begonnen kon worden met het monitoren en verbeteren van datakwaliteit, moest er eerst meer zicht komen op de vraag: wanneer is de kwaliteit goed? Datakwaliteit gaat over de mate waarin een dataset geschikt is voor het beoogde gebruik, dus de eisen en wensen van de gebruikers stonden centraal bij het bepalen van de kwaliteitseisen. De focus lag in de eerste fase op het inventariseren van deze datakwaliteitseisen en het verkrijgen van inzicht in de huidige stand van zaken: de fouten en problemen in de data.
Inmiddels zijn de kwaliteitseisen voor de belangrijkste datasets van de programma’s waterkeringen en watersystemen van het waterschap bepaald. De ambitie is om dit in de toekomst ook voor andere datasets en programma’s te gaan inventariseren.
Het beheer van de kwaliteitseisen en -controles is een dynamisch proces omdat er regelmatig wijzigingen plaatsvinden in de kernregistraties, bijvoorbeeld wanneer er iets verandert in de informatiebehoefte of het datamodel. Het geo-team en functioneel gegevensbeheerders werken daarom nauw samen om ervoor te zorgen dat datagebruik, techniek, databeheer en controles goed op elkaar blijven afgestemd.
Het meten en monitoren van datakwaliteit gebeurt op verschillende manieren en momenten, omdat elke controlemethode en elk controlemoment andere zaken aan het licht kan brengen.
1. Maandelijkse monitoringscontroles
De belangrijkste datakwaliteitscontroles zijn de maandelijkse geautomatiseerde controles. Deze worden uitgevoerd met behulp van de Data reviewer-tooling van ArcGIS, waar nodig aangevuld met maatwerkanalyses en scripts. De resultaten van de controles komen terecht in een monitoringsdashboard, waarmee zowel de actuele stand van zaken als de ontwikkeling door de tijd goed in de gaten gehouden kan worden (zie afbeelding 3). Met behulp van het dashboard kan bijvoorbeeld per dataset inzichtelijk worden gemaakt hoe de kwaliteitsscore zich ontwikkelt, welke fouten een hoge prioriteit hebben en eenvoudig op te lossen zijn en of een bepaalde controle ineens veel meer of minder resultaten geeft.
Deze monitoringscontroles geven met name inzicht in kwaliteitsaspecten, zoals logische consistentie, vullingsgraad van verplichte velden en thematische nauwkeurigheid. Omdat de controles direct op reeds bestaande data worden uitgevoerd, geven ze bijvoorbeeld minder inzicht in de vraag of alle objecten die in assetdata staan vermeld ook daadwerkelijk werkelijk buiten aanwezig zijn en vice versa.
2. Eenmalige of periodieke analyses
Aanvullend op de maandelijkse controles worden er ook eenmalige of periodieke analyses uitgevoerd. Het gaat hierbij om complexere analyses die te groot zijn om maandelijks uit te voeren, of om analyses waarbij niet alle resultaten per se ‘fout’ of relevant zijn, zoals vaak het geval is bij vergelijksanalyses met een andere referentiebron (basisregistratie grootschalige topografie (BGT), luchtfoto, etc.). Dit soort analyses kunnen bijvoorbeeld inzicht geven in missende of overcomplete objecten of onjuiste classificaties.
3. Steekproeven
Voor de data van waterkeringen is het waterschap gestart met een jaarlijkse steekproef. Met behulp van een app wordt op drie locaties een steekproef uitgevoerd waarbij de data gecontroleerd worden op aan- en afwezigheid van objecten, de juistheid van beschrijvende gegevens en een correcte ligging of afbakening (zie afbeelding 4).
4. Controle van metingen
Het grootste deel van de metingen van waterlopen en kunstwerken wordt uitgevoerd door externe meetbureaus. Zij gebruiken daarvoor een meetsysteem waarin op voorhand al bepaalde bewerkingen worden afgeschermd of afgedwongen. Daarnaast is er een meetprotocol waarin instructies en kwaliteitseisen zijn opgenomen. De binnenkomende metingen worden op dit moment nog handmatig gecontroleerd, maar er wordt gewerkt aan een automatische datakwaliteitscontrolestap waarmee ontbrekende gegevens, onlogische waarden en geometrische problemen opgespoord worden voordat de data in de centrale productiedatabase worden opgenomen.
5. Controle na mutaties
Het waterschap voert sinds kort tussentijdse kwaliteitscontroles uit op gemuteerde gegevens, zodat kleine foutjes tijdig hersteld kunnen worden. Gegevensbeheerders kunnen met behulp van de Data Reviewer-tooling van ArcGIS een controle uitvoeren op de gegevens die ze zelf recent hebben aangepast. Wanneer er regelmatig resultaten naar boven komen die eigenlijk niet ‘fout’ zijn, dan kan dat betekenen dat een controle of kwaliteitseis en achterliggende afspraken herzien moeten worden. Deze tussentijdse controles dragen op die manier ook bij aan een betere afstemming in de dataketen.
6. Terugmeldingen door gebruikers
Aan de ontsluitings- en gebruikskant is er een steeds grotere, meer diverse en veeleisende groep gebruikers, mede door de komst van het interne Geo Informatie Portaal (GIP) en het WRIJ Open Data Portaal. Via apps, viewers en dashboards komen zo steeds meer collega’s in aanraking met de data en dus ook met tekortkomingen daarin. Zaken als verkeerde stuwtypes of ontbrekende duikers kunnen worden gemeld via het terugmeldingensysteem. De gemelde issues worden vervolgens centraal opgepakt en doorgezet naar de juiste personen. Het terugmeldingensysteem dient op deze manier als een extra monitoringshulpmiddel op het gebied van datakwaliteit.
Stap voor stap de datakwaliteit verbeteren en borgen
Met behulp van de periodieke en deels geautomatiseerde kwaliteitschecks en het monitoringsdashboard komt er steeds meer grip op de kwaliteit van de geodata. In plaats van een grote en kostbare eenmalige inspanning om datakwaliteit te verbeteren, kiest WRIJ er nu voor om doorlopend gerichte en risicogestuurde data-verbeteracties te plannen. Dit leidt ertoe dat soms ambities naar beneden moeten worden bijgesteld, maar dat gebeurt dan wel op een bewuste wijze.
De functioneel gegevensbeheerders hebben als gegevenseigenaar de taak om te bepalen of er datakwaliteitsproblemen moeten worden aangepakt. Er zijn verschillende soorten verbeteracties mogelijk. Zo vraagt het vullen van ontbrekende waarden in het profiel van een watergang om een heel andere inspanning dan een kleine geometrische wijziging in de vlakken van de bekleding van de keringen. In het algemeen zijn er drie opties:
1. Generieke verbeteractie
Wanneer het mogelijk is om bepaalde fouten te bundelen en op dezelfde wijze aan te pakken, dan kan daar een generieke oplossing voor worden opgezet. Het kan dan bijvoorbeeld gaan om gebundelde meetopdrachten of standaardberekeningen voor profielen van kleine watergangen. De aanpak van dit soort verbeteracties wordt vastgelegd, zodat die in de toekomst eventueel opnieuw kan worden toegepast.
2. Maatwerkverbeteractie
Bij sommige verbeteracties gaat het niet alleen om dataverbeteringen. Er zitten ook allerlei vragen aan vast voor andere processen bij het waterschap. Wanneer er bijvoorbeeld via een analyse wordt geconstateerd dat een duiker nog niet in de dataset is opgenomen, dan betekent dat niet alleen dat de gegevens van die duiker aan de database moeten worden toegevoegd. Er moet ook nagekeken worden of de duiker wel vergund is en of er gehandhaafd moet worden. Bij dit soort specialistische verbeteracties is er vaak samenwerking nodig tussen diverse businessunits.
3. Standaardwerkwijze
In sommige gevallen kunnen fouten worden opgelost door het toepassen van de standaardafspraken uit het gegevenswoordenboek en muteerprotocol. Dat is bijvoorbeeld het geval bij het vullen van coderingen en kleine geometrische wijzigingen.
Wanneer er wordt gekozen om een bepaalde dataverbetering uit te voeren, dan is het bijna altijd zinvol om te onderzoeken wat de oorzaak, de ‘root cause’, is van het probleem en of het mogelijk en noodzakelijk is om fouten aan de voorkant af te vangen. Via procesafspraken en technische restricties kunnen veel nieuwe problemen worden voorkomen. Daarvoor zijn al diverse hulpmiddelen beschikbaar. Voor het inwin- en beheerproces wordt bijvoorbeeld gebruik gemaakt van een standaard opleverdossier en een meet- en muteerprotocol. Daarnaast worden in de database en het databeheerprogramma GEONIS Blaeu al diverse zaken technisch afgevangen.
Toekomst
In de komende jaren wil het waterschap verder werken aan de datakwaliteit door stap voor stap de data aan de achterkant te verbeteren en aan de voorkant de kwaliteit in het proces en de techniek te borgen. De focus ligt daarbij op het bieden van inzicht in bestaande problemen en het efficiënt en doelmatig oplossen hiervan. Ook is er aandacht voor het aanleveringsproces voor gegevens (hierbij speelt het gegevenswoordenboek een belangrijke rol) en het verbeteren van de digitale instrumenten om de dataketen te ondersteunen en minder foutgevoelig te maken.
Het wordt een flinke klus om de datakwaliteit naar het gewenste niveau te brengen. Datakwaliteit is een veelzijdig vraagstuk, waarin een organisatie graag goede afwegingen wil maken tussen kosten en baten. Dat begint met inzicht en het gesprek met de gebruikers van de data. Inzicht maakt het mogelijk om beter op de datakwaliteit te sturen. Door het datakwaliteitsmanagement als continu en deels geautomatiseerd proces in te richten, wordt goede datakwaliteit routine, groeit het vertrouwen en worden de risico’s en kosten door lage kwaliteit data verkleind.
REFERENTIES
1. Waterschap Rijn en IJssel (2018). Vaak Bu’j te bang. I-strategie Waterschap Rijn en IJssel 2018-2021.
2. DAMA International (2017). DAMA-DMBOK. Data management body of knowledge. Basking Ridge: Technics Publications.
3. Greefhorst, D. (2018). Gegevenskwaliteit in de Omgevingswet – Een raamwerk voor gegevens en informatieproducten.