secundair logo knw 1

In dit artikel wordt met voorbeelden van twee waterschappen getoond welke bijdrage datavalidatie levert aan het genereren van goede data. Op elke stap in de inwinningsketen van de metingen kunnen fouten ontstaan, veroorzaakt door de mens, door automatisering of ook door slakken.

Download hier de pdf van dit artikel

Geschreven door Hugo Hagedooren, Nicole Jungermann (HKV), Elmer Benjamin (waterschap Zuiderzeeland), Inke Leunk (Hoogheemraadschap de Stichtse Rijnlanden)

Waterschappen meten steeds meer aan waterkwantiteit. Deze meetdata worden gebruikt voor modelstudies, rapportages, data science en het publiceren van gegevens. Het gaat om bijvoorbeeld waterhoogtes, kruinstanden, openingspercentages, toerentallen, in-bedrijf-standen en gemeten debieten. Bij de meeste waterschappen komen er van de diverse sensoren in verschillende tijdstappen waardes het informatiesysteem binnen.

Dit resulteert al snel in een dataset die groeit met een paar miljoen waarden per maand. Zonder datavalidatie is niet te zeggen welke waardes in de dataset missen en welke waardes betrouwbaar, twijfelachtig of onbetrouwbaar zijn. Datavalidatie controleert het hele proces, tussen de meting en de eindgebruiker van de data. Goede validatie maakt de informatie van metingen toepasbaar.  

In het afgelopen decennium heeft adviesbureau HKV gewerkt aan validatie van oppervlaktewatermetingen van Hoogheemraadschap de Stichtse Rijnlanden (HDSR) en waterschap Zuiderzeeland (ZZL). Op basis van de bevindingen bij deze waterschappen, laat dit artikel zien wat er allemaal mis kan gaan en waarom het zo essentieel is om metingen te valideren.

Praktijkvoorbeeld: waterbalans
Een praktijkvoorbeeld van datavalidatie: voor het opstellen van een waterbalans is de informatiebehoefte het verzamelen van dagdebieten gedurende de afgelopen drie jaar over alle kunstwerken tussen de verschillende peilgebieden waarin het beheergebied is verdeeld.

Met het huidige meetnet zijn er op een aantal plekken debieten gemeten, maar moeten op 31 locaties de debieten met debietformules worden afgeleid uit de meetreeksen. Op deze 31 locaties zijn 92 meetreeksen beschikbaar waaruit debieten kunnen worden berekend. Deze dataset bestaat uit meer dan 9 miljoen kwartierwaarden van verschillende parameters. Gedurende de drie jaar zijn er storingen, onderhoud en ijkingen geweest. Hierdoor bevat de dataset gaten en onbetrouwbare waarden. Daarnaast zijn er altijd fouten mogelijk in de meetopstelling, informatieoverdracht, bronsystemen en de berekening van de debieten.

Al deze potentiele problemen resulteren erin dat de hydrologen geen betrouwbare waterbalans kunnen opstellen. Er is geen inzicht in betrouwbaarheid en volledigheid van de debieten. Door de basisreeksen te valideren kunnen significant betrouwbaardere dagdebieten worden aangeleverd.

Wat is datavalidatie?
Validatie is het testen op de aanwezigheid van een getal en verificatie is het toetsen hoe plausibel een waarde is. In het waterbeheer worden deze twee begrippen vaak samengenomen en valt ook het markeren, becommentariëren, aanvullen en corrigeren van waarden onder validatie [1]. Bij ZZL en HDSR is het proces rondom datavalidatie nog breder en omvat het ook de periodieke ijking van debietformules en de controle op structurele fouten in meetopstellingen, configuratie van het Water Informatie Systeem (WIS) en functioneren van de telemetriesystemen.

In de literatuur wordt onderscheid gemaakt tussen primaire en secundaire validatie. De primaire validatie bevat controles, zoals het toetsten op ontbrekende waardes, overschrijden van validatiegrenzen en het controleren van de levendigheid (minimale verandering van de gemeten waarden per tijdstap) van een meetreeks. Deze processen zijn relatief gemakkelijk te automatiseren. De secundaire validatie omvat het leggen van complexere verbanden tussen reeksen en locaties waarvoor meer hydrologische kennis nodig is. Bij deze stap worden verbanden gelegd met andere parameters, meetpunten en data uit andere bronnen zoals meteorologische gegevens. Zowel primaire als secundaire validatie is nodig om een volledig beeld van de kwaliteit van de gegevens te krijgen.

De weg van meting tot eindgebruiker
Een meetwaarde doorloopt acht stappen voordat deze kan worden gebruikt door de eindgebruiker. Hieronder worden deze stappen beschreven en wordt aan de hand van voorbeelden toegelicht welke fouten kunnen worden ontdekt door datavalidatie.

1. Informatiebehoefte en inrichting meetnet
De eerste vragen die een organisatie zich moet stellen zijn: wat meten we op dit moment? Wat is de kwaliteit van deze metingen? Wie zijn de gebruikers van de data? Willen we de data en rapportages waarin gebruik gemaakt wordt van de data publiceren richting externe partijen? Kunnen we met deze meetpunten en kwaliteit van de metingen voorzien in onze informatiebehoefte?

Dit is meteen het uitgangspunt van de datavalidatie. Met het beantwoorden van deze vragen kan een basiskwaliteit (ambitie) worden vastgesteld en bepaald worden welke gegevens in het Water Informatie Systeem (WIS) horen en gevalideerd moeten worden. Met de inventarisatie van de kwaliteit en kwantiteit van de data die nu aanwezig zijn en het einddoel kan een werkplan worden gemaakt.

Worden de juiste parameters gemeten en de juiste locaties gevalideerd? Vaak zijn er meer gegevens beschikbaar in het bronsysteem dan nodig voor de informatiebehoefte. Ook zijn er vaak meerdere parameters van belang. Het is dus belangrijk om een keuze te maken welke gegevens in het WIS moeten staan en gevalideerd moeten worden. Twee voorbeelden hiervan zijn:

• Uit een inventarisatie blijkt dat voor de debietberekening bij de gemalen krooshekpeilen in plaats van de polderpeilen worden gebruikt. Dit betekent dat de krooshekpeilen in het WIS moeten staan én gevalideerd moeten worden.

• Op steeds meer locaties wordt afwisselend soms op bovenpeil en soms op benedenpeil gestuurd. Voor een goede analyse van de gegevens en de prestatie van het kunstwerk is het niet alleen van belang om de stuurpeilen zelf te meten, maar moet ook bekend zijn welke sturing op een bepaald moment actief was voor de aansturing van het kunstwerk. Ook dit moet dus opgeslagen en gevalideerd worden.

2. Meetopstelling
De eerste plek waar fouten kunnen ontstaan is bij de meetopstelling zelf. Dit zijn fouten als:

• foutieve ijking van een kunstwerk of een storing;
• droogval;
• vervuiling van de sensor;
• verstopping.

Meldingen over deze fouten, storingen en onderhoudswerkzaamheden worden door de buitendienstmedewerkers veelal in een onderhoudslogboek vastgelegd. Met dit logboek is het mogelijk om later ‘gek gedrag’ in de data te verklaren.

In afbeelding 1 is een voorbeeld te zien van twee sensoren die de waterstand in hetzelfde peilvak meten. De metingen zouden daarom op elkaar moeten lijken. Dit is ook het geval tot 7 november 2017, maar na een storing ontstaat een afwijking tussen de twee meetreeksen. Doordat deze afwijking is ontdekt tijdens de datavalidatie zijn de sensoren geijkt en kon de afwijking van sensor 1 worden gecorrigeerd in de meetreeks in het WIS.

Datav1

Afbeelding 1. Na storing gaat de meting (rode lijn) afwijken van een andere meetreeks in hetzelfde peilvak (blauwe lijn)

Er kunnen ook meetfouten ontstaan door droogval. Dit is te herkennen aan een constante, lage gemeten waterstand, zoals te zien in afbeelding 2. Droogval kan verschillende oorzaken hebben:

  1. De waterloop kan fysiek droogvallen, waardoor er geen waterstand meer is. Afbeelding 2 is hier een voorbeeld van. In deze afbeelding 2 is duidelijk te zien dat de waterstand een minimale waarde bereikt.

  2. De sensor kan te hoog hangen, waardoor de sensor zelf droogvalt en de waterstand niet meer gemeten wordt. Door deze periode te markeren in het WIS is het duidelijk dat dit gedeelte van de meetreeks niet representatief is voor de waterstand op deze locatie.

Datav2

Afbeelding 2. Waterloop valt af en toe droog

Door vervuiling ontstaan soms ook verkeerde metingen. De sensor kan bijvoorbeeld in de modder hangen. Afbeelding 3 geeft een voorbeeld uit juni 2019. Door slakken op de sensor is de meting verstoord, terug te zien in een te grote variatie in waterstand. 

Datav3

Afbeelding 3. Vervuiling van de sensor

In afbeelding 4 is een voorbeeld te zien van verstopping van een inlaat. In dit voorbeeld staat de schuif van de inlaat open, maar toch zakt het peil benedenstrooms helemaal onderuit. In de bovenste grafiek daalt de waterstand, terwijl het openingspercentage van de inlaat 80% is (onderste grafiek). Bij controle blijkt dat de  inlaat verstopt is. De schuif stond dus wel open, maar er kwam geen water doorheen. 

Datav4

Afbeelding 4. Verstopte duiker veroorzaakt uitzakkend peil

3. Vreemd gedrag: correcte meting maar onbetrouwbare data
Het komt ook voor dat de metingen wel correct zijn, in de zin dat de sensor meet wat er gebeurt, maar dat de data niet bruikbaar zijn voor verdere toepassingen. Deze data moet in het WIS gemarkeerd of verwijderd worden. Een aantal voorbeelden:

• foutieve ijking van een kunstwerk of een storing;
• onderhoud kunstwerken;
• verkeerde opslag van gegevens;
• afgeleide effecten.

In onderstaand voorbeeld zijn de twee waterstanden normaal gesproken nagenoeg gelijk. Op 28 mei is gestart met onderhoud. Er is een damwand geplaatst, waardoor de ene sensor in een afgesloten kom hangt. Vervolgens is de kom eerst drooggezet en later is het peil in de kom opgezet. De meting klopt wel, maar de waterstand is niet representatief voor de hele watergang. 

Datav5

Afbeelding 5. Vreemd gedrag door plaatsing damwand

De sturing van de stuwstand kan vreemd zijn door een fout in de oppervlaktewatermeting. In afbeelding 6 klopt de waterstandsmeting niet door vervuiling met slakjes op de sensor. Omdat de locatie stuurt op deze meting, gaat de stuw de hele tijd op en neer. De gemeten stuwstand is dus wel correct, maar de variatie is ongewenst. Dit ongewenste gedrag kan gecorrigeerd worden als het door validatie van de metingen duidelijk is geworden dat er iets niet goed gaat.

Datav6

Afbeelding 6. Sturing van de stuw beïnvloed foute waterstand door vervuiling sensor

4. Fout tussen meting en inlezen in WIS
De metingen worden vanaf de meetopstelling naar een bronsysteem gestuurd. Vanuit dit bronsysteem worden de metingen ingelezen in het WIS. In dit proces kunnen dingen fout gaan:

- Door communicatiestoringen ontstaan gaten in de meetreeksen of worden reeksen verkeerd geregistreerd.

- Koppeling tussen de reeks in het bronsysteem en de reeks in het WIS. Een reeks met openingspercentages (eenheid %) kan bijvoorbeeld worden ingelezen als kruinhoogte (eenheid m NAP) of het bovenpeil en benedenpeil omgedraaid doordat de koppeling tussen de sensor en het WIS verkeerd is.

- Fouten bij het omzetten van een reeks met een wisselend meetinterval (non-equidistante reeks) naar een reeks met een vast meetinterval (equidistante reeksen). Bij deze bewerking worden een variërend aantal metingen per tijdsinterval omgezet naar één waarde per vast tijdsinterval. In afbeelding 7 is een voorbeeld te zien waarbij de meetwaarden verkeerd worden omgezet in kwartierwaarden (rode lijn). In dit geval ontstaat er een blokkerige reeks doordat de meetwaarden bij het middelen worden afgerond op hele centimeters. Hierdoor is deze reeks veel blokkeriger dan de reeks die wordt gemeten door een nabijgelegen sensor in hetzelfde peilvak (blauwe lijn).

Datav7

Afbeelding 7. Blokkerige reeks door fout in het bronsysteem

5. Automatische toetsing door WIS
Bij het inlezen in het WIS worden metingen automatisch getoetst op een aantal validatiecriteria. Dit is de start van de primaire validatie. Validatiecriteria die bij de waterschappen ZZL en HDSR worden gebruikt zijn:

- Toetsen op overschrijding/onderschrijding van de validatiegrenzen (zachte en harde grenzen);
- Toetsen op levendigheid (aantal achtereenvolgende metingen met zelfde waarde);
- Snelheid van veranderingen in de meetreeks;
- Kleine gaten (bijvoorbeeld kleiner dan 3 uur) automatisch lineair interpoleren.

Ook bij de automatische validatie kunnen metingen ten onrechte worden af- of goedgekeurd, bijvoorbeeld omdat de validatiegrenzen niet kloppen. Er kunnen verschillende validatiegrenzen aangehouden worden voor de winter en de zomer. De dagen waarop de zomer- en winterpeilen worden ingesteld kunnen in de praktijk echter wat schuiven in de tijd. Deze verschuiving kan per jaar en per peilvak verschillen.

Een voorbeeld van hoe dit mis kan gaan is te zien in afbeelding 8. Vanaf 1 november gaan de zachte validatiegrenzen voor de winterperiode in, terwijl in de praktijk het peil pas op 14 januari naar het winterpeil gaat. Hierdoor zijn alle meetwaarden tussen 1 november en 14 januari twijfelachtig in het WIS.

De vraag is of dit onterecht is of niet. Enerzijds wordt de waterstand terecht gevlagd omdat volgens het beleid al lang op winterpeilen gestuurd had moeten worden, anderzijds is het onterecht omdat dit een bewuste keuze van de waterbeheerders is geweest (droogtebestrijding). Er is dus duidelijk sprake van een afwijkende situatie.

Datav8

Afbeelding 8. Voorbeeld later naar winterpeil dan in peilbesluit

6. Primaire validatie - gebiedskennis en visuele controle
De primaire validatie bestaat naast de validatiestappen uit paragraaf 5 uit een visuele controle van de individuele meetreeksen. Hierbij worden de twijfelachtige waarden (automatisch gemarkeerd door het WIS) beoordeeld met de kennis van degene die de primaire validatie uitvoert.

Bij waterschap Zuiderzeeland zijn dit gebiedsbeheerders die met gebiedskennis (weeromstandigheden, sturing kunstwerken en onderhoudswerkzaamheden) kunnen bepalen of een waarde betrouwbaar, onbetrouwbaar of twijfelachtig is. Door regelmatig alle twijfelachtige waarden langs te lopen, kan de gebiedsbeheerder de meeste twijfelachtige waarden verklaren. De statusverandering en opmerkingen bij aanpassingen worden in het WIS bijgehouden zodat deze kennis bewaard blijft.

De secundaire validatie wordt bij ZZL uitgevoerd door de hydrologen.
Bij HDSR is ervoor gekozen om de visuele beoordeling per meetpunt te laten uitvoeren door dezelfde persoon die de secundaire validatie uitvoert. Bij vreemde metingen wordt overlegd met de rayonmedewerker of gebiedsbeheerder die kennis heeft van het gebied en bijbehorende kunstwerken.

In onderstaand voorbeeld is te zien dat de relatie tussen het debiet van de pomp en het bovenpeil in de loop van het voorjaar en de zomer geleidelijk verandert. Een gelijke hoeveelheid water geeft tot 3 juli een steeds grotere stijging van de waterstand. Na 3 juli is de variatie in de gemeten waterstand ineens veel kleiner. Dit komt door begroeiing van de waterloop, die op 3 juli gemaaid wordt. Dit soort gedrag kan worden opgespoord door een visuele controle van de meetreeksen uit te voeren.

Datav9

Afbeelding 9. Effect van maaien op de gemeten waterstand

7. Secundaire validatie - hydrologische en statistische kennis
Bij de secundaire validatie bij de waterschappen ZZL en HDSR worden de meetreeksen gevalideerd door verbanden te leggen tussen kunstwerken, tussen verschillende meetreeksen en te vergelijken met andere gegevens (zoals meteorologische gegevens, onderhoudslogboek en peilbesluit). Hierbij wordt niet alleen naar waarden gekeken die gemarkeerd zijn bij de automatische toetsing en de visuele controle, maar wordt ook gecontroleerd of de gehele meetreeks overeenkomt met andere meetreeksen en data. De laatste stap in de secundaire validatie is het opvullen (waar mogelijk) van de gaten en onbetrouwbare waarden in de reeksen met correcte waarden.

In afbeelding 10 worden de metingen van twee sensoren in dezelfde waterloop vergeleken. De ene sensor staat vlak bij het afvoergemaal en de andere achterin het gebied. In de winter zijn de waterstanden gelijk, maar in de loop van het voorjaar/zomer lopen deze steeds meer uit elkaar. Dit komt doordat er een aantal haakse bochten in de waterloop zit.

In combinatie met begroeiing en vuil stagneert hierdoor de afvoer en ontstaat er verschil in waterstand. Vooral tijdens flinke buien stijgt de waterstand achterin het gebied sterk omdat het water niet meer goed afgevoerd kan worden, terwijl het water bij het gemaal meteen wordt afgevoerd en de waterstand juist daalt.

Datav10

Afbeelding 10. Waterstanden lopen uit elkaar door begroeiing en haakse bochten in de watergang

8. Afgeleide reeksen
Een deel van de gevalideerde reeksen wordt gebruikt om andere reeksen te berekenen. Dit zijn vaak afvoerreeksen die worden berekend via een debietformule.

De waarden in de afgeleide reeksen worden niet gevalideerd omdat de bronreeksen (waterhoogtes, kruinstanden en in-bedrijf-standen) al gevalideerd zijn. Wel wordt de debietformule gevalideerd en kan worden opgegeven waaraan de bronreeksen moeten voldoen (bijv. betrouwbaarheid) om een debiet te mogen berekenen. Daarnaast wordt gekeken of de afgeleide reeks hydrologisch klopt met de bronreeksen en het watersysteem. Aandachtspunten hierbij zijn stuwen in verdronken toestand, fouten in eenheden en debietformules die alleen geldig zijn binnen een bepaald bereik.

Afbeeldingen 11 en 12 laten het effect zien van een structurele afwijking in de waterhoogte bovenstrooms van een stuw op het cumulatieve debiet. Door de afwijking wordt de overstortende straal 5 cm groter of kleiner. Dit kan een groot effect hebben op het berekende debiet, wanneer de overstortende straal tot de macht 2 of 3 in de debietformule zit. In afbeelding 11 wordt het berekende debiet getoond bij een afwijking van +/- 5cm in de bovenstroomse waterstand. Afbeelding 12 toont het cumulatieve debiet dat wordt berekend op basis van de waterstanden. Een relatief kleine afwijking kan dus leiden tot een groot oplopend verschil in de waterbalans (cumulatieve debiet).

Datav11

Afbeelding 11. Debiet bij afwijking in overstortende straal

Datav12

Afbeelding 12. Effect fout in waterstand op cumulatieve afgeleide debiet bij een stuw

Resultaat van datavalidatie
Datavalidatie beschrijft het proces bij een waterschap om aan de informatieplicht te kunnen voldoen en ervoor te zorgen dat de ingewonnen data betrouwbaar en correct zijn. De informatieplicht richting burgers en belanghebbenden wordt steeds belangrijker. Het is daarom van groot belang voor waterschappen om betrouwbare en correcte data te hebben om te kunnen rapporteren. Datavalidatie wordt dus steeds belangrijker. Het opsporen en juist duiden van fouten in de meting wordt cruciaal om de dataset bruikbaar en betrouwbaar te houden.

Er liggen grote kansen in het toenemend aantal meetpunten bij waterschappen (bij HDSR bestaat een lineaire trend van 500 meetpunten in 2000 naar 1500 in 2015) en de daarmee beschikbare data. Hierdoor kunnen (hydrologische) analyses en (automatische) ‘data science’-algoritmen worden ontwikkeld die nieuwe inzichten bieden in het watersysteem.

Een toename van het aantal meetpunten betekent ook een toename in de kans op diverse soorten fouten (aan de opstelling, bij de inwinning, bij het inlezen en processen van de data, ect). De tijd die nodig is om deze fouten op te sporen en te corrigeren neemt daarbij ook sterk toe. 

REFERENTIES
1. Versteeg, R. en Graaff, B. de (2009). Validatieplan waterkwantiteitsmetingen. HKV Lijn in Water. STOWA-rapport 2009-20.

 

Typ je reactie...
Je bent niet ingelogd
Of reageer als gast
Loading comment... The comment will be refreshed after 00:00.

Laat je reactie achter en start de discussie...

(advertentie)

Laatste reacties op onze artikelen

Weer een geval van: de gevolgen proberen te gaan bestrijden en de oorzaak niet aanpakken. Zo blijft het werk in de wereld. En de vervuiling. 
Beste Carel, in de podcast kun je vinden op Spotify en  Apple Podcasts. Je kunt hem ook online beluisteren via de link in het bericht
Mooi! Jammer dat ik de serie niet terugvind als ik zoek in de NRC Podcast app.
Geachte redactie, ik ben verheugd dat eindelijk het besef is dat het klepelbeleid nu ter discussie is gesteld. Ik heb bij waterschap Hollandse delta al jaren als bestuurslid aangedrongen om het klepelen alleen als noodzaak te gebruiken. Ook heb ik div gesprekken gehad met SBB mbt klepelen in de duinen van Ouddorp waarbij de structuur volledig werd vernield. Dit jaar is eindelijk door beherende organisatie alleen maar gemaaid en wel in oktober waar mi de hele natuur in dit duingebied mee is geholpen. Het waterschap heeft nu ook bepaald dat klepelbeleid op de schop moet en in de toekomst alleen maar met maaibeleid mag worden uitgevoerd. Dus goed resultaat waar ik blij mee ben. Dit is natuurbehoud zoals het moet.
@JWBoehmerSommige desinformatie is te simplistisch om op te reageren. Zelfs citeren van een nieuwsbericht blijkt lastig (aanpak van dijken is lang niet altijd verhogen). Instabiliteit en kans op zettingsvloeiing worden ook aangepakt. Daarmee wordt ook de invloed van zee en maan beperkt, maar dan wel op basis van logische en bewezen relaties ipv dubieuze, onwaarschijnlijke en onbewezen hypotheses. Oei, toch gereageerd. Dom van me. Ik kan dit beter negeren.