BCDC lähdössä lassoamaan satunnaismetsiin

”Meidän BCDC Energian tutkijoiden yhteistyö Advisory Boardimme (AB) jäsenten kanssa tuottaa erinomaista hedelmää. Erityisen tiivistä yhteistyö on Carunan ja Porvoon Energian kanssa. Molempien yhtiöiden kanssa olemme toteuttaneet ratkaisuja, joiden avulla BCDC saa käyttöönsä ainutlaatuisia sähkön kulutukseen liittyviä aineistoja.

Carunan asiakaskunnalle toteutimme laajan asiakaskyselyn toukokuussa 2018. Kyselyn erityisenä kiinnostuksen kohteena oli oman sähkön pientuotannon yleistymisen kannusteet ja esteet. Kysely lähetettiin 10 670 asiakkaalle ja saimme 1 554 vastausta. Palautusprosentti 14.6 on näissä yhteyksissä jopa hieman tavanomaista parempi.

Kiinnitimme kyselyn toteutukseen erityistä huomiota. Carunan asiakaskunnassa aurinkosähkön pientuottajia on varsin paljon ja poimimmekin kaikki tiedossa olleet. Identifioimme näitä pientuottajia 1 328 ja saimme heiltä 467 vastausta. Koska olemme kiinnostuneita pientuotannon vaikutuksista omaan kulutukseen, tarvitsimme myös verrokkiryhmän. Ryhmä valittiin huolellisesti kaltaistettujen parien menetelmällä. Luokittelimme pientuottajat asuinpaikan mukaan ja poimimme asiakasrekisteristä kultakin paikkakunnalta kymmenkertaisen määrän samanlaisissa kiinteistöissä asuvia kotitalouksia. Postitimme kaltaistetuille pareille  9 342 kyselyä ja saimme 1 078 vastausta prosentilla 11.5. (ks. kuvat 1, 2). Kyselyn avulla saimme monia mielenkiintoisia tuloksia. Näistä kerromme enemmän Energiaviraston Uusiutuvan energian päivässä 22. tammikuuta.

bcdc energia, aurinkosähkö, porvoon energia, rauli svento, oulun yliopisto, caruna
Kuva 1. Aurinkosähkö-kyselyyn vastanneiden alueellinen jakauma. Kuva: Teemu Meriläinen.
bcdc energia, aurinkosähkö, porvoon energia, rauli svento, oulun yliopisto, caruna
Kuva 2. Aurinkosähkö-kyselyyn vastanneiden aurinkosähkön pientuottajien alueellinen jakauma. Kuva: Teemu Meriläinen.

Tässä tarinan 12. osassa keskityn pohdimaan edellä mainitun tutkimuskysymyksemme ratkaisemista. Eli kuinka todentaa pientuotantonsa vaikutukset sähkön kulutukseensa? Toteutuuko myös pientuotannon suhteen energiatehokkuuden parantamiseen usein liittyvä rekyyli eli takaisku, ja vähemmän kuluttavia laitteita käytetäänkin enemmän – ne kun ovat energiatehokkaita? Vastauksen löytämiseksi kysyimme kuluttajilta lupaa saada heidän tuntikohtaiset sähkön mittaustiedot hankkeemme käyttöön. Lupaa kysyessämme laadimme vastaajille myös GDPR-tietosuojan mukaisen tietosuojailmoituksen.

Sähkön kulutuksen Big Dataa

Saimme 1 232 vastaajalta luvan käyttää heidän sähkön mittaustietojaan vuosilta 2014–2017. Joukossa on 368 aurinkopaneelit omistavaa taloutta. Näistä kotitalouksista lähes kaikki sallivat tietonsa yhdistettävän myös Tilastokeskuksen rekisteriaineistoihin. Tiedämme aurinkopaneeleiden koon ja sijainnin, ja näin ollen tulemme yhdistämään aineistoon myös Ilmatieteen laitoksen säämuuttujia ja energiasääennusteita. Kun aineisto on huolellisesti puhdistettu ja täydennetty, on se kansainvälisesti ainutlaatuinen kokonaisuus.

Valmiissa aineistossa tulee siis olemaan pientuottajien ja verrokkiryhmän tuotanto- ja kulutustietoja, joiden avulla haluamme tutkia kysymystä oman pientuotannon vaikutuksesta kulutukseen. Valitsemalla perinteiset menetelmät istutamme aineistoon tilastollisia paneelimalleja, sekä niin kutsuttuja Difference-in-Difference -malleja, joista jälkimmäisissä malleissa lasketaan vertailtavien ryhmien kulutusten muutoksia ja verrataan niitä keskenään. Epäilemättä tulemme näillä perinteisillä malleilla vertailun avaamaan.

Mutta, mutta – asetelmaan liittyy vakava pulma. Aurinkopaneelin hankkineet kotitaloudet eivät ole valikoituneet aineistoomme satunnaistamisella. Varsinaista satunnaistettua koeasetelmaa ei ole mahdollista toteuttaa niin, että satunnaisotannalla valitaan ensin sovittu määrä kotitalouksia, ja mahdollistetaan heille tämän jälkeen paneelihankinta. Koska tämä ei ole mahdollista, on meidänkin käytettävä juuri käytössämme olevia kotitalouksia. Paneelihankinnan taustalla voi kuitenkin olla joitain meille tuntemattomia tekijöitä, jotka jo sellaisenaan ohjaavat heidän sähkön kulutustaan. He voivat esimerkiksi haluta pienentää omaa hiilijalanjälkeään ja olisivat tämän vuoksi joka tapauksessa muuttaneet sähkön kulutustottumuksiaan. Tällaista ongelmaa kutsutaan tutkimusmaailmassa valikoitumisongelmaksi ja se aiheuttaa tuloksiin valikoitumisharhan (engl. self-selection bias), jos se jätetään analyyseissä huomioimatta.

Tekoäly avuksi

Tekoäly ja koneoppiminen ovat oivallinen apu tämän potentiaalisen harhan vaikutusten minimoimisessa. Ennustamiseen käytetään usein koneoppimisen malleja. Ennusteen tekemistä varten aineisto jaetaan kolmeen osaan, joita käytetään mallin opettamiseen, testaamiseen sekä validointiin ja ennustamiseen. Opetusosion aineistosta malliin syötetään suuri joukko mahdollisia selittäjiä, jonka perusteella mallin annetaan etsiä ennustamiseen potentiaalisesti parhaiten soveltuvat. Yli-identifioinnin välttämiseksi – varmistamiseksi, ettei selittäjiä valita liikaa – mallia ”rankaistaan” jokaisesta valitusta lisäselittäjästä ja tavoitteena on minimoida tämä tappio. Aineistossamme on havaintoja paneelitalouksista ajanjaksolta ennen paneelien hankintaa, ja käytämmekin tätä aikaperiodia kunkin kotitalouden kulutustottumusten mallin opettamiseen. Luomme sen jälkeen näillä selitysmalleilla ennusteen siitä, minkälaiseksi talouksien kulutus olisi muodostunut, mikäli paneeleja ei olisi hankittu. Samaa ennustetta käytämme uutena vertailukohtana paneeleiden asentamisen jälkeisen kulutuksen tarkastelussa ja näin minimoimme valikoitumisharhan vaikutukset tuloksiimme. On tärkeää onnistua lassoamaan tuohon opetettuun malliin vain ja ainoastaan oikeat muuttujat. Siksi näitä malleja kutsutaankin Least Absolute Shrinkage and Selection Operator eli LASSO-malleiksi

Tekoälyä voidaan käyttää luokiteltaessa aineistoa erilaisiin ryhmiin. Voimme esimerkiksi yrittää löytää koko aineiston yli tekijöitä, joiden perusteella aurinkopaneeleita hankkineet taloudet erottautuvat, ja käyttää tätä tietoa apuna vertailukohdan muodostamisessa. Tämän tyyppisiä koneoppimiseen pohjautuvia malleja kutsutaan päätöspuu-malleiksi. Myös näiden mallien päämääränä on tuottaa hyviä ja uskottavia ennusteita. Päätöspuussa tutkittava ilmiö luokitellaan eri ryhmiin ja kunkin ryhmän eli ”oksan” varresta edetään uusiin luokkiin, jolloin lopulta näkyviin saadaan eri tekijöiden vaikutukset ryhmien muotoutumiseen. Kun olemme tehneet useita tällaisia puumalleja, ja käyttäneet niiden tulosten enemmistöpäätöstä jatkoanalyysin pohjana, olemme muodostaneet satunnaismetsän.

Näihin satunnaismetsiin lähdemme siis lassoamaan. Olen puhunut!”

 

– Tutkimusjohtaja Rauli Svento 19.12.2018