Archief - Welk regressiemodel te gebruiken?

tapisplain · 26 apr 2014

Dag iedereen,

Een vriend en ikzelf willen onderzoeken of veranderingen in de politieke ideologie van regeringscoalities een invloed uitoefenen op de effectieve belastingdruk waaraan bedrijven onderhevig zijn. We willen dit doen voor een tiental landen

We zijn helaas niet meteen de grootste connaisseurs wat statistiek betreft en hebben bijgevolg moeilijkheden om het correcte regressiemodel te identificeren. Wij vroegen ons af of er hier statistici (of gewoon liefhebbers van de kunst van statistiek) aanwezig zijn die ons een idee zouden kunnen geven van welk regressiemodel hier geschikt zou zijn.

De belangrijkste kenmerken van het onderzoek zijn de volgende:

De effectieve belastingdruk wordt gemeten op individueel bedrijfsniveau.
Het onderzoek beslaat een periode van een tiental jaar (Voor elk bedrijf wordt de belastingdruk elk jaar opnieuw gemeten).
Het onderzoek beslaat meerdere landen.
De politieke ideologie wordt per land, per jaar uitgedrukt als een score tussen 0(links) en 10(rechts).
In de regressie willen we controleren voor variabelen zoals grootte en kapitaalstructuur.

Een reeds uitgevoerd, gelijkaardig onderzoek voor 1 land maakte gebruik van Pooled OLS.
Wij geraken er echter niet aan uit in welke mate het betrekken van meerdere landen (met weliswaar elk hun eigen score voor politieke ideologie) de keuze van het correcte regressiemodel beïnvloedt.

Alle hulp is welkom en wordt enorm gewaardeerd

.

Vriendelijke groeten,
Jean-Mike

NoblesseOblige · 26 apr 2014

Pooled OLS met country dummies?

MrMr · 26 apr 2014

Dag tapisplein,

Ik ben statisticus en kan je misschien wel wat verderhelpen

Dus belastingdruk is je afhankelijke variabele, en is deze herhaald gemeten (met 10 metingen per bedrijf)?

In dit geval is “klassieke” regressie (gebaseerd op OLS) zeker niet geschikt. De reden hiervoor is dat je bij OLS regressie aanneemt dat alle Y_i’s (afhankelijke variabelen in je model) uncorrelated zijn. Dit is in jouw geval duidelijk niet het geval: de belastingdruk van bedrijf X op jaar 1 is (allicht) sterk voorspellend voor de belastingdruk van bedrijf X op jaar 2, jaar 3 etc. Als je OLS toepast op gecorreleerde data zijn de estimates van de fixed effects/regressiecoefficienten nog wel unbiased, maar de standaardfouten van de estimates zijn niet meer correct (en dus ook niet meer je conclusies m.b.t. significantie van voorspellers)

Wat je nodig hebt is een zgn. Linear Mixed effect Model (aangenomen dat je afhankelijke variabele continue is en ongeveer normaal verdeeld is; indien niet kan je generalized linear mixed effects gebruiken). Een LMM is (wat gesimplificeerd gezegd) een regressiemodel dat correlatie die ontstaat ten gevolge van clustering (bvb clustering in de tijd die ontstaat omdat je herhaalde metingen binnen een bedrijf hebt) ‘in rekening brengt’ zodat je correcte estimates en standard errors krijgt.
In jouw geval krijg je dan een model met Y = een vector van verschillende metingen van belastingdruk, en als fixed effects (=regressiecoefficienten) tijd/meting (1 tot 10; linear of gecodeerd met dummies, afhankelijk van de patronen in je data), land (gecodeerd met dummies), grootte, en kapitaalstructuur. Een mixed effect model bestaat uit zowel fixed effects als random effects (random effects zijn cluster-specifieke waarden, google even ‘random effect in mixed models’ want is niet 1-2-3 uit te leggen), in jouw model zou je bvb zowel intercept als tijd als random effect kunnen meenemen (eventueel ook land)

Mixed-effect modellen kan je bvb. fitten in SAS (proc mixed) of R (library lme4). De theorie/wiskunde achter LMM is vele malen ingewikkelder dan deze rond OLS regressie, maar los daarvan is ook de praktische toepassing van LMM veel lastiger (bvb. hoe bepaal je of een random effect al dat niet nodig is je model? Welke associatiestructuur ga je gebruiken voor de herhaalde metingen, etc)? Goede ref is het boek van Verbeke & Molenberghs (2000). Linear mixed models for longitudinal data. Springer-Verlag

Succes ermee,

Groeten,
MrMr

tapisplain · 27 apr 2014

NoblesseOblige zei:
Pooled OLS met country dummies?

MrMr zei:
tekst

Allebei enorm bedankt voor jullie reactie!

Ik ge me focussen op de uitleg van MrMr en me eens wat verdiepen in dat zgn. Linear Mixed effect Model.

cege · 27 apr 2014

Dat is wiskundig allemaal niet zo simpel om je daar snel even in te verdiepen... Ga toch maar eens vragen wat de bedoeling juist is (bij de begeleider).

Pooled OLs, fixed effects, random effects etc. Bij elke keuze zijn er veel veronderstellingen die gemaakt worden. Zijn deze niet correct, is je regressie niet een beetje inaccuraat maar complete gibberish. Gibberish, zodat je coefficienten geschat kunnen worden als -0.1 terwijl ze vb 2.3 kunnen zijn. In verband met die paneldata, dat zou ik als beginner proberen te vermijden. Dat implementeer je niet eventjes op 1-2-3, zeker als er sterke autocorrelatie is (wat wsch het geval is). Idem met allerlei variaties op het klassieke OLS geval, GMM,

Ik zou proberen om first difference te nemen en daarna iets pooled te doen. Zal niet accuraat zijn, maar je zal niet compleet fout zijn.

Als je fixed effect of random effect doet en het is niet gepast, kun je veel harder fout slaan dan gewoon iets simpel en niet volledig correct te zijn!

Archief - Welk regressiemodel te gebruiken?

tapisplain

Legacy Member

NoblesseOblige

Legacy Member

MrMr

Legacy Member

tapisplain

Legacy Member

cege

Legacy Member