Het wel en (vooral) wee van academisch onderzoek

Nu ik mijn onderwijs klaar heb, de meeste conferenties achter de rug heb, verhuisd ben, een auto heb, en de verbouwing loopt, heb ik ineens heel veel tijd om aan mijn onderzoek te besteden. Geweldig, daarvoor ben ik hier, en om lekker in mijn data te spitten vind ik heerlijk. Maar academisch onderzoek is heel erg onzeker, en dat levert niet altijd de uitkomsten op die je wilt. Een kleine beschrijving van de activiteiten van de afgelopen weken.

Nieuwe dataset aanmaken

Ik ga hier niet precies uitleggen wat ik aan het doen ben, dat zou 1) saai zijn, 2) ingewikkeld zijn, en 3) onhandig zijn: mochten anderen op hetzelfde werkveld bezig zijn zou ze dat zomaar ideeen kunnen opleveren. Dus ik geef hier een algemene beschrijving van een situatie die ik helemaal niet bestudeer, maar hopelijk wel duidelijk is:

De afgelopen weken ben ik bezig geweest met het aanmaken van een nieuwe dataset voor een bestaand project. Mijn initiele dataset was geaggregeerd, en nu moest ik een dataset op een lager niveau aanmaken. De bron van die data is weer een relationele dataset, wat betekent dat ik bijvoorbeeld te maken heb met winkel x, klant y, vestiging z, in week t, waarbij een klant meerdere vestigingen bezoekt van meerdere winkels (disclaimer: ik doe geen onderzoek naar winkels of koopgedrag).

Mijn eerste, geaggregeerde dataset (bijvoorbeeld, op niveau ‘winkel’) heb ik al een hele tijd geleden gemaakt, en daarbij heb ik niet eerst de variabelen voor alle lagere niveaus (bijvoorbeeld, ‘klant’) gemaakt. Dat was destijds niet nodig. De analyse die volgde hebben we op hoofdniveau (‘winkel’) gedaan, en dat werkte prima. Maar nu zitten we in een reviewproces van het onderzoeksmanuscript, en krijgen we vragen hoe de lagere niveaus (‘klant’ en ‘vestiging’) zich gedragen. En dus moet ik nu de databases voor de lagere niveaus maken.

Omdat de originele dataset een dump van een website is geweest, zit de ruwe data nogal lastig in elkaar, en alles zit in verschillende tabellen opgeslagen. Bij aggregeerde data is dat niet zo’n punt. Daar zou ik bijvoorbeeld voor mijn ‘winkel’-database het aantal vestigingen en het aantal klanten tellen, en daarmee zou ik dan klaar zijn. Bij die lagere niveaus zijn de variabelen een stuk lastiger. Bijvoorbeeld, voor de database ‘klant’ moet ik uitvinden hoe vaak klant y naar vestiging z van winkel x is geweest. Dat zijn condities die het aanmaken van zo’n variabele een stuk lastiger maken. Variabelen als ‘is klant y eerder naar vestiging z geweest van winkel x of is dit de eerste keer’ zijn lastig te bouwen. En van dat soort variabelen had ik een hele lijst… en dat kostte ontzettend veel tijd.

Methode bestuderen en programmeren

Nu is er een specifieke manier van analyseren als je zo’n dataset hebt waarbij de niveaus verstrengeld zijn (bijvoorbeeld, bij winkel x horen vestigingen z, bij vestigingen z horen klanten y). Als je alleen de lagere niveaus zou analyseren zonder de boomstructuur in ogenschouw te nemen die erboven zit, ben je fout bezig (de observaties zijn dan niet onafhankelijk), en krijg je onbetrouwbare resultaten. De specifieke analysemethode is nieuw voor me, en die methodiek moest ik eerst nader bestuderen.

De volgende stap is dan het schrijven van programmeercode. En natuurlijk hebben ze hier op Penn State een andere versie van de software die ik gebruikte in Tilburg, waardoor mijn oude programmeercodes niet meteen werkten. Argh… de IT helpdesk, hulp van een collega, internet, en een dag priegelen verder… en ik had het spul aan de gang. Eindelijk.

En dan resultaten

Nu is onze theorie opgebouwd rond het hoofdniveau (we verklaren dus als het ware de resultaten van de winkels, bijvoorbeeld ‘een grotere parkeerplaats verhoogt de omzet van winkels’). Het is interessant om na te gaan of de theorie ook werkt op een lager niveau (bijvoorbeeld, ‘een grotere parkeerplaats verhoogt het bedrag van klanten uitgeven’). Wat blijkt, ja, inderdaad, een deel van de variabelen werkt ook op lager niveau. Dat is inzichtelijk, maar daar had ik die nieuwe variabelen niet voor nodig.

Het is ook interessant om te kijken wat het effect is van die andere, nieuwe variabelen die specifiek over klanten gaan, op het lagere analyseniveau (bijvoorbeeld, ‘een klant die voor het eerst in die vestiging komt geeft meer uit’. Dat was de eigenlijke reden van die hele data-exercitie. En wat blijkt nu… na weken van databases maken blijkt dat GEEN van die nieuwe variabelen wat doet… En dan ook Helemaal Niets. Tsja. Academisch onderzoek is echt soms twee stappen vooruit, drie stappen terug.

Terug naar de tekentafel, dus. En blijven lachen…!