Het modelleren van energielabels

Energieverbruik wordt nu geschat op basis van voorbeeldwoningen. Machine Leraning op open data blijkt dit veel beter te kunnen voorspellen. Sanne Hettinga, PhD candidate aan de Vrije Universiteit Amsterdam deed hier onderzoek naar. Je leest erover in deze casus.

foto_sanne_contentWPAI

 

Om de energietransitie te versnellen en in goede banen te leiden werkt de overheid aan Regionale Energie Strategieën (RES). Zo’n regionale strategie valt of staat met een goede inschatting van de kwaliteit van de lokale leefomgeving en bespaarpotentie. Het door de EU gedefinieerde energielabel van woningen daarin een belangrijke component. Dit label geeft inzicht in de kwaliteit van de isolatie van woningen en de installaties in de woningen. Echter, van slechts éénderde van alle woningen is een energielabel beschikbaar. Voor de overige woningvoorraad wordt een voorlopig label gebruikt dat op basis van voorbeeldwoningen (internationaal bekend als TABULA) wordt ingeschat. Dit model is nooit goed gevalideerd. Validatie van deze data, en het gebruik van machine learning om de nauwkeurigheid van het voorlopig label te verbeteren, is een belangrijke stap naar een betere inschatting van lokale bespaarpotentie en dus betere strategie keuze. Sanne Hettinga, PhD candidate aan de Vrije Universiteit Amsterdam, vertelt over de resultaten van haar onderzoek in deze casus.

 

De uitdaging

Geografische data spelen een steeds grotere rol in de energietransitie. Een voorbeeld hiervan zijn de Regionale Energie Strategieën (RES), waar kaarten worden aangeboden met een voor alle regio’s eenduidige set basisgegevens over energiegebruik, -productie en -infrastructuur. De gegevens kunnen vervolgens door regio’s worden aangevuld of gecombineerd met eigen ruimtelijke data om tot een RES te komen.

Het succes van de RES valt of staat met een goede inschatting van de lokale omgeving en bespaarpotentie. Bijvoorbeeld: als in een RES wordt uitgegaan van een label F woning die in werkelijkheid een label B woning is, is de gerealiseerde besparing veel lager dan verwacht. Bovendien is het lastig in de communicatie met individuele woningeigenaren als hen verteld wordt dat hun woning groot bespaarpotentieel heeft, terwijl zij al veel maatregelen hebben getroffen om de prestatie te verbeteren. Bij een woningvoorraad van 7,5 miljoen woningen kunnen vele kleine afwijkingen en communicatie ergenissen grote gevolgen hebben.

Het energieverbruik van burgers of bedrijven is echter privacy gevoelige data. Er zijn vooralsnog dus geen goede gegevens beschikbaar van de energieprestaties van alle woningen. Eénderde van alle woningen heeft wel een gecertificeerd energielabel. De overige woningvoorraad heeft een voorlopig label gekregen op basis van voorbeeldwoningen (internationaal bekend als TABULA). Dit model is nooit goed gevalideerd. Validatie van deze data en het onderzoeken van AI toepassingen om de nauwkeurigheid van het voorlopig label te verbeteren zijn een belangrijke stap naar een betere inschatting van lokale bespaarpotentie en dus betere strategie keuze.

 

De aanpak

De eerste stap is het bepalen van de nauwkeurigheid van het huidige voorlopige energielabel, of het label zoals bepaald met de TABULA voorbeeldwoningen. Dit dient dan als vergelijking voor de nauwkeurigheid van de nieuwe methoden.

Wanneer we volgens de bestaande methode de TABULA voorbeeld woningen toepassen op de woningen die al een gecertificeerd energielabel hebben (éénderde van de woningvoorraad), blijkt dat de voorbeeld woningen voor slechts 26% een correcte voorspelling is. Dit getal was zodanig laag dat we ook nog gekeken hebben naar een zogeheten “majority rules” vergelijking. Dit houdt in dat nieuwe modellen beter moet presteren dan wanneer het meest voorkomende label in de validatiedata toegekend zou worden aan alle panden. In Figuur 1 is de distributie van labels gevisualiseerd, waarbij label C ongeveer 33% van de gevallen voorkomt. Ons uitgangspunt om te bepalen of onze aanpak de kwaliteit van de voorspelde energielabels verbeterd is dus de 33% van “majority rules”.

 

Figuur 1: de frequentie dat een energielabel voorkomt in de database met gecertificeerde energie labels.

 

Vervolgens zijn we open data gaan verzamelen die inzicht kunnen geven in het energieverbruik van woningen. Denk hierbij aan 3D gebouwinformatie om zo de oppervlakte van de schil in kaart te brengen. Ook het aantal muren dat niet vastzit aan een ander gebouw kunnen in kaart gebracht worden door te kijken naar het aantal buren dat een gebouw heeft (twee-onder-een-kap heeft één buur, rijtjeshuizen hebben er 2). Verder wordt er bijvoorbeeld gekeken naar het bouwjaar van de woning. Gezien alleen gebruik gemaakt kan worden van open data, moeten deze proxy’s gebruikt worden voor isolatiegraad en energieverbruik van een woning.

Ten slotte moet een geschikt machine learning algoritme gekozen worden om de energie labels zo nauwkeurig mogelijk te bepalen. Hierbij zijn een aantal algoritmes getest, met verschillende parameters. Er is bijvoorbeeld gekeken naar “random forest regressors” en “classifiers”, maar ook naar “linear regressors” en “gradient boosting” technieken. Voor al deze technieken zijn er optimalisaties die kunnen worden gedaan om het algoritme af te stemmen op een specifiek vraagstuk en om de rekentijd en rekenkracht te controleren. Hierbij wordt 80% van de data gebruikt om de mogelijkheden van de algoritmes te testen en optimaliseren. De optimalisaties zijn vervolgens getest op 10% van de data, en de laatste 10% is gebruikt om het algoritme te valideren (hierbij wordt er niet meer gewerkt aan het getrainde en geoptimaliseerde data, maar wordt een objectieve validatie van het model uitgevoerd).

 

De resultaten

Het best presterende algoritme in deze studie (technisch: een random forest regressor met 128 estimators en een diepte van 32) kon het energielabel met een nauwkeurigheid van 72% nauwkeurigheid voorspellen. Dit is een duidelijke verbetering ten opzichte van onze baseline van 33% “majority rules” en zeker een verbetering ten opzichte van de 26% van de voorlopige energielabels. Positief is ook dat de nauwkeurigheid niet uitkomt boven de nauwkeurigheid van de trainingsdata (86%) (Als een model beter presteert dan de trainingsdata is er iets misgegaan. Er is dan sprake van schijnnauwkeurigheid, waardoor het model niet meer te vertrouwen zou zijn).

Dit experiment laat zien dat de energietransitie zeker baat heeft bij het gebruik maken van AI om meer inzicht te krijgen in de huidige situatie. Wanneer meer data beschikbaar komt of voor onderzoeksdoeleinden gebruikt mag worden, kan de kwaliteit van deze modellen verder verbeterd worden. En als de data verbeteren, zullen de plannen voor de energietransitie zelf ook verbeteren.

De inzet van AI blijkt daarmee bij het modelleren van energie labels een grote bijdrage te kunnen leveren aan de kwaliteit van ontbrekende data.

 

Bronnen

 

 

Houd mij op de hoogte