Registreer FAQ Berichten van vandaag


Ga terug   Scholieren.com forum / School & Studie / Huiswerkvragen: Exacte vakken
Reageren
 
Topictools Zoek in deze topic
Oud 22-11-2009, 12:06
Verwijderd
Hallo,

Voor mijn scriptie voer ik een logistische regressie uit. Ik heb één dichotome afhankelijke variabele en 11 onafhankelijke variabelen. Nu zijn er van die 11 onafhankelijke variabelen 2 variabelen (laat ik ze voor het gemak X en Y noemen) die wat rare waarden geven (hoge betascores). Als ik een logistische regressie doe met alleen variabele X, dan krijg ik een Nagelkerke R square van 0.6. Als ik een logistische regressie doe met alleen variabele Y, dan krijg ik een Nagelkerke R square van 0.8.

Ik weet nu even niet zo goed wat ik met deze variabelen aan moet... de VIF waarden van beide variabelen zijn 2.2 en 2.6 en de tolerance level ligt rond de .385. Is het verstandiger om deze variabelen niet mee te nemen in de logistische regressie? En hoe moet het dan met mijn hypotheses (ik ben er namelijk vrij zeker van dat deze twee variabelen wel invloed hebben op de afhankelijke variabele).

Ik hoop dat er iemand is die mij hiermee kan helpen!
Met citaat reageren
Advertentie
Oud 23-11-2009, 12:18
Gast877564
Hoe raar zijn die beta-waarden in verhouding tot de andere schattingen? In logistische regressie is de interpretatie van coëfficienten namelijk niet zo eenvoudig als in lineaire regressie, waardoor je de coëfficienten van verschillende variabelen niet zo eenvoudig kunt vergelijken. Als oorzaak zou ik in eerste instantie denken aan de codering van de variabelen X en Y, hoe is deze? In veel gevallen ligt hier namelijk het probleem bij opvallende waarden.

Als ik verder kijk naar de statistieken die je noemt, denk ik dat multicollineariteit niet zo'n grote rol speelt. Wat mij wel opvalt is dat je erg hoge waarden voor je Nagelkerke R kwadraat vind, mijn ervaring is dat die met echte data veelal een stuk lager zijn.
Met citaat reageren
Oud 23-11-2009, 14:30
Verwijderd
De betawaarden zijn 4 en 5. Variabele X staat voor 'perceived value' en is als volgt gecodeerd: 1 = helemaal mee oneens en 5 = helemaal mee eens. Variabele Y staat voor de mening van familieleden/vrienden en is als volgt gecodeerd: 1 = mijn familieleden/vrienden waren erg kritisch en 5 = mijn familieleden/vrienden steunden mij.

Als ik deze twee variabelen niet mee neem in mijn model, dan heb ik een Nagelkerke r square van 6.4. Als ik ze wel meeneem, dan krijg ik ineens een Nagelkerke r square van 9.2. Dat is wel raar toch!?
Met citaat reageren
Oud 23-11-2009, 16:35
Gast877564
Dat zijn niet echt waarden die ik schokkend zou noemen, zoals ik al zei kun je over de grootte van de variabelen weinig zeggen doordat de interpretatie in logistische regressie anders is. De codering van je variabelen lijkt me ook in orde. Het zou kunnen dat je van bepaalde waarden heel veel observaties hebt waardoor je dergelijke getallen krijgt, maar dat is dan een eigenschap van de data die je hebt en dat moet je dus ook meenemen in je model. Dat je Nagelkerke R kwadraat zo hoog wordt komt door de sterke verklarende kracht van die variabelen, iets wat je ook al aangaf te verwachten in je hypotheses.
Met citaat reageren
Oud 23-11-2009, 21:07
Verwijderd
Het is idd wel zo dat bij perceived value de 'participants' deze variabele bijna altijd een 5 hebben gegeven en de non-participants** een 1. Bij de mening van familieleden/vrienden is dit precies hetzelfde. Zou dat er mee te maken kunnen hebben? Blijf dat hele Nagelkerke verhaal toch wel vaag vinden .

** heb een binary logistic regression gedaan met participant/non-participant als afhankelijke variabele
Met citaat reageren
Oud 23-11-2009, 21:40
Gast877564
Dat is dan de oorzaak van de uitkomsten. Mensen die hoog scoren op je onafhankelijke X en Y variable hebben een grote kans om een 1 te krijgen in je afhankelijke variabele, wat zich uit in de hoge positieve coëfficienten voor deze variabelen. Dat verklaart ook meteen de hoge voorspellende waarde van deze variabelen, aangezien je de groepen in je afhankelijke variable (wel/niet participant) duidelijk kunt onderscheiden aan de hand van de variabelen X en Y, omdat ze hier duidelijk verschillende antwoorden geven. Daarom vind je ook die hoge R kwadraat, die dit fenomeen bevestigd.

Wat is er verder nog onduidelijk aan de R kwadraat? Ben je bekend met de interpretatie van deze coëfficient? Kijk anders hier eens: http://en.wikipedia.org/wiki/Coeffic..._determination
Met citaat reageren
Oud 24-11-2009, 08:48
Verwijderd
Ja, ik heb me wel even ingelezen over de r square. Hoe dichter bij 1, des te beter toch? Wat ik dus alleen raar vind is dat variabele X een r square heeft van 0.6 en variabele Y van 0.8. Volgens mijn statistiekboek gaan dan de alarmbellen van multicollineariteit rinkelen, omdat een r square van 0.8 toch wel erg hoog is. Dus vandaar dat ik het toch wat raar vind en er niet helemaal gerust op ben .

Weet je of er behalve de VIF waarden en tolerance level nog meer testen zijn die controleren op multicollineariteit? Want variabele X en Y correleren in een correlatiematrix wel met elkaar, maar de VIF waarden en tolerance levels zijn niet heel hoog.

Thanks voor je hulp so far btw!
Met citaat reageren
Oud 24-11-2009, 11:02
Gast877564
Klopt wat betreft die R kwadraat! Wat betreft multicollineariteit: ik denk dat er inderdaad sprake is van enige multicollineariteit tussen X en Y. Dat hoeft niet erg te zijn als de standard errors niet te groot worden, maar het kan meespelen in je resultaat. Er zijn niet echt andere testen, in de meeste gevallen geven softwarepakketten wel een error als de matrix met afhankelijke variabelen niet de juiste vorm heeft, wat in jouw geval niet gebeurt is aangezien je wel uitkomsten vind.

Wat je nog zou kunnen doen is van elke afhankelijke variabele zijn gemiddelde afhalen en daarop een regressie uitvoeren. Als ik het me goed herinner heeft dit geen effect op je geschatte parameters, maar stabiliseer je de variabelen wel een beetje. Als je er echt niet gerust op bent, zul je toch een van de variabelen X of Y uit je model moeten laten om multicollineariteit uit te sluiten.
Met citaat reageren
Oud 24-11-2009, 12:43
Verwijderd
De hoogste standaarderror is 1.3. Wat bedoel je precies met het gemiddelde afhalen van elke onafhankelijke (neem aan dat je die bedoelt toch?) variabele? Hoe doe ik dat?!
Met citaat reageren
Oud 24-11-2009, 14:16
Gast877564
Je kunt dit doen door van elke onafhankelijke variabele het gemiddelde uit te reken en dan middels het menu transform een nieuwe variabele te defineren die gelijk is aan de variabele minus het gemiddelde.
Met citaat reageren
Oud 24-11-2009, 16:29
Verwijderd
Citaat:
Je kunt dit doen door van elke onafhankelijke variabele het gemiddelde uit te reken en dan middels het menu transform een nieuwe variabele te defineren die gelijk is aan de variabele minus het gemiddelde.
Oke, duidelijk . Thanks! Mochten er nog wat onduidelijkheden zijn, dan meld ik me weer .
Met citaat reageren
Advertentie
Reageren


Regels voor berichten
Je mag geen nieuwe topics starten
Je mag niet reageren op berichten
Je mag geen bijlagen versturen
Je mag niet je berichten bewerken

BB code is Aan
Smileys zijn Aan
[IMG]-code is Aan
HTML-code is Uit

Spring naar

Soortgelijke topics
Forum Topic Reacties Laatste bericht
Onzin De Speld - waarderingstopic
Bob the Bear
204 19-12-2015 11:52
Psychologie Het-Grote-Lucht-Je-Hart-Topic #111
Little_lady
492 26-10-2007 21:27


Alle tijden zijn GMT +1. Het is nu 08:19.