Monday, May 7, 2007

Tilastollisen testaamisen menetelmistä ja ongelmista

Rungon tälle blogille muodostaa edellisen tapaan Aronsonin kirja, mutta esitän myös omia kommenttejani yrittäen kertoa, missä näin teen.

Tilastollisen testauksen perusajatus on, että testaus ei koskaan osoita jotain tiettyä mallia oikeaksi, mutta se voi osoittaa suurella varmuudella, että joku oletus on väärä tai parhaimmillaan, että historia on toistuvasti noudattanut tietyllä tarkkuudella jonkun mallin ennusteita. Jos tämä tarkkuus on hyvä suhteessa ennusteiden merkitykseen, antaa aineisto vahvaa tukea sille, että malli on testatuilta piirteiltään todellisuudenkaltainen ja käyttökelpoinen.

Kun testauksen kohteena ovat hyvin määritellyt sijoitusstrategiat, olivat ne sitten ta-pohjaisia tai fundamentteihin perustuvia, on ensimmäinen kysymys, voidaanko menetelmän katsoa toimivan paremmin kuin joku vertailukohta, kuten indeksisijoittaminen tai riskitön korko. Tällöin pyritään testaamisessa tutkimaan, voidaanko osoittaa valitulla varmuudella vääräksi ns. nollahypoteesi, jonka mukaan malli ei ole tuotoltaan vertailukohtaa parempi. Ellei tämä onnistu, katsotaan, että menetelmän hyödyllisyydestä ei ole todisteita. Jos menetelmä läpäisee tämän ensimmäisen testin, on perusteita ryhtyä arvioimaan, onko menetelmän lisätuotto niin suuri, että sen käyttöä voidaan pitää perusteltuna.

Testauksen ensimmäisen vaiheen perusideana on laskea todennäköisyys, että saavutetaan vähintään testattavan menetelmän tasoinen tuotto käytettäessä vertailukohteena olevaa menetelmää (nollahypoteesia). Tämä edellyttää sen arvioimista, kuinka paljon tuotot vaihtelevat satunnaisten ilmiöiden vaikutuksesta. Vaihteluiden suuruus joudutaan päättelemään historiatiedoista, mikä voi tapahtua joko muodostamalla suoraan historiatietojen perusteella vertailussa käytettävä tuottojen todennäköisyysjakauma tai käyttämällä jotain sopivaksi arvioitua jakaumaluokkaa, jolloin jakauman parametrit määritetään historiatiedoista. Kokemus on osoittanut, että esimerkiksi päivittäiset kurssimuutokset eivät noudata normaalijakaumaa, vaan suuret poikkeamat ovat yleisempiä kuin normaalijakaumassa, jonka hajonta on sama. Täten esimerkiksi normaalijakauma ei yleensä sovi testaamiseen, vaan tarvitaan jakaumaa, jolla on "paksummat hännät".

Aronson kuvailee kaksi menetelmää luoda todennäköisyysjakauma suoraan historiatiedoista ja käyttää niitä kirjassa esiteltävissä testeissä. Kumpikin näistä menetelmistä perustuu oletukseen, että peräkkäisten jaksojen (päivien) muutoksia voidaan pitää riippumattomina. Suorat tilastolliset analyysit ovat osoittaneet, että peräkkäisten päivien muutoksien väliset korrelaatiot ovat hyvin heikot, joten virhe ei tältä osin ole suuri. Vielä olennaisempaa on, että korreloimattomuus kaikilla jaksoilla voidaan ottaa nollahypoteesin ominaisuudeksi, joten tehty oletus ei vääristä nollahypoteesille laskettua hajontaa. Kun testattavat menetelmät perustuvat kuitenkin poikkeuksetta joidenkin korrelaatioiden hyväksikäyttöön, on oletettavissa, että saatujen tulosten hajonta kasvaisi, jos testausaineisto voitaisiin saada sisältämään vastaavia mutta vaikutuksen suunnan osalta satunnaisia korrelaatioita. Täten on todennäköistä, että nollahypoteesi tulee hylätyksi ainakin hieman liian herkästi eli on liian suuri mahdollisuus todeta, että joku menetelmistä on hyödyllinen silloinkin, kun kaikki ovat kyvyttömiä antamaan odotusarvoisesti lisätuottoa. Tätä viimeisintä näkökohtaa ei Aronson näyttäisi tuovan kirjassaan esille.

Suoraan historia-aineistosta muodostetulla todennäköisyysjakaumalla on myös heikkoutensa, kun testataan pieniä todennäköisyyksiä, sillä historia-aineistosta saadaan aina hyvin harvoja esimerkkejä jakauman äärimmäisestä hännästä ja jakaumalla on myös aina joku äärimmäinen raja, jota aineiston perusteella ei ylitetä. Mahdolliset tulevaisuudet sisältävät aina myös sellaisia muutoksia, joiden kaltaisia ei koko historia-aineistossa esiinny. Tällaiset tapahtumat ovat luonnollisesti epätodennäköisiä, mutta niillä voi olla huomattava vaikutus testauksen tuloksiin jos yksittäiset poikkeukselliset tapahtumat voivat vaikuttaa merkittävästi koko testausjakson tuottoon. Muodoltaan perusteltu jatkuva jakauma voisi tällöin antaa luotettavampia tuloksia kuin suoraan historiatiedoista muodostettu diskreetti jakauma. Jos yhden jakson muutoksen todellisen jakauman hännät ovat erityisen paksut siinä mitassa, että ne kasvattavat jakauman hajonnan hyvin suureksi, antaa äärellisestä historia-aineistosta generoitu jakauma pahoin vääriä tuloksia. Tällaisten epävarmuustekijöiden vaikutuksia voi tutkia vertailemalla erilaisia mallijakaumia. Tähän ongelmaan Aronson ei kiinnitä huomiota.

Erityisen paljon huomiota saa Aronsonin kirjassa ongelma, joka syntyy käytettäessä samaa historiatietoa parhaitten menetelmien valitsemiseen suuresta joukosta mahdollisia menetelmiä (ns. data mining) sekä näin löydettyjen menetelmien tehokkuuden testaamiseen. On selvää, että satunnaisten tekijöiden vaikutuksesta löytyy monien samanarvoisten menetelmien joukosta aina joku, jonka tuotto on selvästi keskimääräistä parempi. Täten on joko perustettava valinta eri aineistoon kuin testaus tai arvioitava, kuinka suuri vaikutus on parhaan menetelmän valinnalla. Kun aineisto on rajallista, löytyy aidosti hyvä menetelmä sitä varmemmin, mitä suurempaa aineistoa käytetään, joten tältä kannalta kannattaa käyttää koko aineistoa molempiin tarkoituksiin, vaikka se vaikeuttaakin testaamista.

Kun yksittäisten menetelmien tuottojen todennäköisyysjakauma on tiedossa, on suhteellisen helppo määrittää jakauma kuvaamaan parhaan menetelmän valinnan tuottamaa jakaumaa, jolloin merkitsevyystesti voidaan tehdä tämän jakauman perusteella. Menettelyn ongelmana on kuitenkin se, että testattavien menetelmien määrän ollessa suuri, kasvaa tuotto, joka miltei väistämättä saadaan valitsemalla arvottomistakin menetelmistä sattumalta paras. Se kasvaa niin suureksi, että jo pienempäänkin oltaisiin tyytyväisiä, jos se tiedettäisiin todelliseksi eikä valinnan harhaksi. Täten aidosti hyödylliset menetelmät saattavat hukkua sattumalta hyviä tuloksia antavien joukkoon, eikä voida tietää, onko sellaisia testattavassa joukossa vai ei. Koska ongelma kasvaa menetelmien lukumäärän kasvaessa, voidaan tätä ongelmaa lieventää rajaamalla testattavaa joukkoa jollain perusteella, joka on täysin riippumaton testauksessa käytettävästä aineistosta. Valinta ei siis saa perustua aikaisempaan samasta aineistosta saatuun tietoon.

Testaamiseen liittyy myös tarkastelujaksoa koskeva vakava dilemma. Tilastolliselta kannalta testi on sitä tehokkaampi, mitä pitempää jaksoa tarkastellaan. Pitkää jaksoa tarvitaan myös, jotta siihen sisältyisi mahdollisimman monipuolisesti erilaisia markkinatilanteita. Pitkän tarkastelujakson olennaisena ongelmana on kuitenkin se, että markkinoiden muutoksista osa on pysyviä. Esimerkiksi siirtyminen meklareiden kautta tapahtuneesta pörssisalin lattialla tehdystä kaupankäynnistä nykyiseen online-kauppaan on aivan varmasti muuttanut paljon. Siten on syytä epäillä, että kauemmasta historiasta saadut tiedot eivät paranna tulosten merkitsevyyttä tilastolakien mukaisesti, vaan päinvastoin heikentävät sitä tuomalla aineistoon nykyisyydestä ja tulevaisuudesta poikkeavaa materiaalia. Jakson valintaan liittyvään dilemmaan ei Aronson mielestäni kiinnitä riittävästi huomiota, vaikka hän sen olemassa oon tuokin esille.

Aronsonin kirja kuvailee testaamista kohtalaisen yksityiskohtaisesti, ei kuitenkaan niin yksityiskohtaisesti, että vain sen perusteella olisi mahdollista rakentaa vahvoja testejä ilman muualta hankittuja välineitä tai osaamista. Monet käytännön testaamisen kannalta olennaiset näkökohdat tuodaan hyvin esille, mutta kuten edellä olen todennut, on tärkeitä näkökohtia jäänyt myös vajavaisen esityksen varaan.

2 comments:

Ketkunperä said...

Mitä mieltä arvon nimimerkki on seuraavasta testiasetelmasta:

Pohjoismainen long-short joka perustuu momentumiin. Testin osakkeet valitaan 6 kuukauden kurssihistorian perusteella ja osakkeita pidetään 3 kuukautta. Data otetaan jatkossa esim. Investimesta erikseen Pohjoismaiden suurista sekä Suomen, Ruotsin ja Tanskan keskisuurista yhtiöistä.
Kultakin listalta valitan 10-20% osakkeista long ja short kohteiksi siten että osakkeita tulee kumpaankin puoliskoon mieluiten 15, mutta jossain lyhyessä listassa voitaneen tyytyä 10 osakkeeseen.

Rinnalle tulee vielä joistain osakeryhmistä (OMXH ja OMX-big) erikseen salkku, jonka osakkeet valitaan 3, 6 ja 9 kuukauden kurssihistorian keskiarvon mukaan ja tulos lasketaan 1, 3 ja 6 kuukauden ylläpidon jälkeen. Varsinainen testikohde on myös tässä 3 kuukauden salkku.

Täytyy muista testin varsin käytännöllinen tiedonintressi.
Minulla ei ole kovinkaan suurta intohimoa tietää miten koko pohjoismaisten osakkeiden joukko käyttäytyy jaettuna kymmeneen yhtä suureen osaan, vaan mielenkiintoni kohteena on 10-15 osakkeen joukko, joka on valittu momentum perustein. Ts. kiinnostuksen kohteena on joku sopiva (hankkimismielessä järkevä) osajoukko. Se voisi olla koko pohjoismaiden pörssin ääripäät, mutta niiden tiedä olevan pieniä ja volatiilejä yhtiöitä, joita en halua ainakaan myydä lyhyeksi. Ja kovin erilainen long ja short koostumus ei takaa markkinaneutraalia salkkua.

Pekka Pirilä said...

Jos testi tehdään vain yhdelle parametrivalinnalle - siis esimerkiksi vain 6 kk historiatietoihin perustuen valituille osakkeille ja vain 3 kk pitoajalle ja jos nämä parametrit sekä valittujen osakkeiden lukumäärät perustuvat muihin argumentteihin kuin kohdemarkkinoilta aiemmin saatuihin tuloksiin, ei hommaan liity periaatteellisia ongelmia, mutta tietenkin on vielä tehtävä loppuosa analyysista oikein.

Jos käytetään 3 valintahistorian kestoa ja 3 ylläpitojakson pituutta, päästään valitsemaan 9 vaihtoehdosta. Tällöin on jo paljon vaikeampi sanoa, kuinka hyvä tulos pitää parhaasta vaihtoehdosta saada, jotta parhaan valinnasta tuleva bias ei sotkisi tulosta. Tämäkään ei ole ongelma, jos kaikkien vaihtoehtojen yhdistelmäkin antaa positiivisen tuloksen. Joka tapauksessa, on se parametriyhdistelmä todennäköisimmin paras, joka tuottaa testissä parhaan tuoton odotusarvon. Tämän havainnon tilastollinen merkitsevyys vain heikkenee vaihtoehtojen lukumäärän kasvaessa.

Määritettäessä menetelmän antamien tulosten hajontaa, eivät ainakaan ylläpitojaksot saa mennä päällekkäin. Seurantajaksojenkin päällekkäisyys tai yhden tapauksen ylläpitojakson siirtyminen toisen valintajaksoksi saattaa sotkea hajonnan laskemista jonkin verran, mutta tuskin kovin pahoin. Esimerkiksi 3 kk yhden jakson päättyessä esiintyvä hetkellinen kurssihäiriö heijastuu kyllä tuloksiin monella eri tavoin ja voi yksinään sotkea niitä.

On vielä syytä tutkia, ovatko tulokset herkkiä joidenkin poikkeustilanteiden vaikutukselle. Täten on hyvä laskea laskut sekä koko tarkastelujaksolta että ilman joitain valikoituja erikoisuuksia, kuten kevään 2000 kuplaa tai ainakin osaa viimeismmästä 4 vuoden nousujaksosta. Jos johtopäätökset muuttuvat aineistoa rajattaessa, ei niitä voi pitää luotettavina.

Tässä nyt muutamia heti mieleen tulleita ongelmia. Jos tulokset ovat hyvin selvät, eivät nämä ongelmat sotke asiaa. Jos ne taas ovat marginaaliset, voivat tällaiset lisätekijät muuttaa ne täysin merkityksettömiksi.