R Glm Vorhersage Binär Optionen


Generalisierte Linearmodelle Siehe Hilfe (glm) für andere Modellierungsoptionen. Siehe Hilfe (Familie) für andere zulässige Link-Funktionen für jede Familie. Hier werden drei Subtypen von generalisierten linearen Modellen behandelt: logistische Regression, Poisson-Regression und Überlebensanalyse. Logistische Regression Logistische Regression ist nützlich, wenn Sie ein binäres Ergebnis aus einer Reihe von kontinuierlichen Prädiktorvariablen vorhersagen. Es wird häufig wegen diskriminierender Funktionsanalyse wegen seiner weniger restriktiven Annahmen bevorzugt. Logistische Regression, wobei F ein binärer Faktor ist und x1-x3 sind kontinuierliche prädiktoren passen lt-glm (F x1x2x3, datamydata, familybinomial ()) summary (fit) display results confint (fit) 95 cI für die koeffizienten exp (coef (fit) ) Exponentierte Koeffizienten exp (confint (fit)) 95 CI für exponentierte Koeffizienten prognostizieren (fit, typequotresponsequot) vorhergesagte Werte Residuen (fit, typequotdeviancequot) Residuen x, data mydata) wird die bedingte Dichteplot des binären Ergebnisses F auf dem kontinuierlichen x anzeigen Variable. Poisson Regression Poisson Regression ist nützlich bei der Vorhersage einer Outcome-Variable, die Zählungen aus einer Reihe von kontinuierlichen Prädiktor-Variablen. Poisson Regression wo Zählung ist ein Zähler und x1-x3 sind kontinuierliche Prädiktoren passen lt-glm (count x1x2x3, datamydata, familypoisson ()) Zusammenfassung (fit) Anzeige Ergebnisse Wenn Sie eine Überdispergierung haben (siehe, wenn Restabweichung ist viel größer als Freiheitsgrade ), Können Sie quasipoisson () anstelle von poisson () verwenden. Überlebensanalyse Die Überlebensanalyse (auch Ereignisverlaufsanalyse oder Zuverlässigkeitsanalyse genannt) umfasst eine Reihe von Techniken zur Modellierung der Zeit zu einem Ereignis. Die Daten können richtig zensiert werden - das Ereignis ist möglicherweise nicht bis zum Ende der Studie aufgetreten oder wir haben möglicherweise unvollständige Informationen über eine Beobachtung, aber wissen, dass bis zu einer bestimmten Zeit das Ereignis nicht aufgetreten ist (z. B. der Teilnehmer fiel aus der Studie in der Woche 10 war aber damals lebendig). Während generalisierte lineare Modelle typischerweise unter Verwendung der glm () - Funktion analysiert werden, wird die Überlebensanalyse typischerweise unter Verwendung von Funktionen aus dem Überlebenspaket durchgeführt. Das Überlebenspaket kann ein und zwei Stichprobenprobleme, parametrische beschleunigte Fehlermodelle und das Cox-Proportional-Gefahren-Modell behandeln. Daten werden typischerweise in die Formatstartzeit eingegeben. Zeit stoppen Und Status (1event aufgetreten, 0event nicht aufgetreten). Alternativ können die Daten im Format Zeit bis Ereignis und Status (1event aufgetreten, 0event nicht auftreten). Ein Status0 zeigt an, dass die Beobachtung richtig cencored ist. Die Daten werden vor der weiteren Analyse über die Surv () - Funktion in ein Surv-Objekt gebündelt. Survfit () wird verwendet, um eine Überlebensverteilung für eine oder mehrere Gruppen abzuschätzen. Survdiff () Tests für Unterschiede in den Überlebensverteilungen zwischen zwei oder mehr Gruppen. Coxph () modelliert die Gefahrenfunktion auf einer Reihe von Prädiktorvariablen. Mayo Clinic Lungenkrebs Datenbibliothek (Überleben) Erfahren Sie mehr über die Datensatz-Hilfe (Lunge) Erstellen eines Surv-Objekts survobj lt - mit (Lunge, Surv (Zeit, Status)) Überlebensverteilung der Gesamtprobe Kaplan-Meier Schätzer fit0 lt-survfit (Survobj 1, datalung) Zusammenfassung (fit0) plot (fit0, xlabquotSurvival Zeit in Daysquot, ylabquot Survivingquot, yscale100, mainquotSurvival Distribution (Gesamt) quot) Vergleichen Sie die Überlebensverteilungen von Männern und Frauen fit1 lt-survfit (survobj plot the survival distributions by Sex-Plot (fit1, xlabquotSurvival Zeit in Daysquot, ylabquot Survivingquot, yscale100, colc (quotredquot, quotbluequot), mainquotSurvival Distributionen nach Genderquot) Legende (quottoprightquot, titlequotGenderquot, c (quotMalequot, quotFemalequot), fillc (quotredquot, quotbluequot)) Test für Unterschied Zwischen männlichen und weiblichen Überlebenskurven (Logger-Test) survdd (survobj prognostizieren männlichen Überleben aus dem Alter und medizinischen Scores MaleMod lt-coxph (survobj ageph. ecogph. karnopat. karno, datalung, subsetsex1) Ergebnisse anzeigen MaleMod bewerten die proportionale Gefahren Annahme cox. zph (MaleMod) Siehe Thomas Lumleys R News Artikel über das Überlebenspaket für weitere Informationen. Weitere gute Quellen sind Mai Zhous Use R Software zu tun Survival-Analyse und Simulation und M. J. Crawleys Kapitel über Survival-Analyse. die Methode, um bei der Montage des Modells verwendet werden. Die Standardmethode glm. fit verwendet iterativ neugewählte kleinste Quadrate (IWLS): das alternative model. frame gibt den Modellrahmen zurück und passt nicht. Die vom Benutzer bereitgestellten Anpassungsfunktionen können entweder als Funktion oder als Zeichenfolge mit einer Funktion versehen werden, mit einer Funktion, die die gleichen Argumente wie glm. fit annimmt. Wenn sie als Zeichenfolge angegeben wird, wird sie innerhalb des Statistik-Namensraums nachgeschlagen. Für glm Logische Werte, die angeben, ob der in dem Anpassungsprozess verwendete Antwortvektor und die Modellmatrix als Komponenten des zurückgegebenen Wertes zurückgegeben werden sollen. Für glm. fit. X ist eine Designmatrix der Dimension n p. Und y ist ein Vektor der Beobachtungen der Länge n. Eine optionale Liste. Siehe die contrasts. arg von model. matrix. default. Für glm Argumente, die verwendet werden sollen, um das Standardkontrollargument zu bilden, wenn es nicht direkt geliefert wird. Für gewichte Weitere Argumente an oder von anderen Methoden weitergegeben. Ein typischer Prädiktor hat die Formantwort-Terme, wobei die Antwort der (numerische) Antwortvektor ist und die Terme eine Reihe von Terme sind, die einen linearen Prädiktor für die Antwort spezifiziert. Für binomiale und quasibinomiale Familien kann die Antwort auch als Faktor angegeben werden (wenn die erste Ebene den Ausfall und alle anderen Erfolge bezeichnet) oder als zweispaltige Matrix mit den Spalten, die die Anzahl der Erfolge und Ausfälle geben. Eine Begriffe Spezifikation der Form erste Sekunde zeigt alle Begriffe in erster zusammen mit allen Begriffen in der zweiten mit jedem Duplikat entfernt. Eine Spezifikation der Form zuerst: zweitens die Menge der Begriffe, die erhalten werden, indem man die Wechselwirkungen aller Ausdrücke zuerst mit allen Ausdrücken in der Sekunde erhält. Die Spezifikation zeigt zuerst das Kreuz der ersten und zweiten. Dies ist die gleiche wie erste zweite erste: zweite. Die Begriffe in der Formel werden neu geordnet, so dass die Haupteffekte zuerst kommen, gefolgt von den Interaktionen, alle zweiter Ordnung, alle dritter Ordnung und so weiter: um diesen Pass ein Begriffe Objekt als Formel zu vermeiden. Nicht-NULL-Gewichte können verwendet werden, um anzuzeigen, dass verschiedene Beobachtungen unterschiedliche Dispersionen aufweisen (wobei die Werte in Gewichten umgekehrt proportional zu den Dispersionen sind) oder äquivalent, wenn die Elemente der Gewichte positive ganze Zahlen sind. Dass jede Antwort yi der Mittelwert von wi Einheit-Gewicht Beobachtungen ist. Für ein Binomial GLM werden vorgewichte verwendet, um die Anzahl der Versuche zu geben, wenn die Antwort der Anteil der Erfolge ist: sie würden selten für ein Poisson GLM verwendet werden. Glm. fit ist die Workhorse-Funktion: Es wird normalerweise nicht direkt genannt, sondern kann effizienter sein, wo der Response-Vektor, die Design-Matrix und die Familie bereits berechnet wurden. Wenn mehr als ein Etastart Start und mustart wird angegeben, die erste in der liste wird verwendet. Es ist oft ratsam, Ausgangswerte für eine Quasi-Familie zu liefern, und auch für Familien mit ungewöhnlichen Links wie Gauß (Log). Alle Gewichte. Teilmenge. Versetzen Etastart und mustart werden in gleicher Weise ausgewertet wie Variablen in der Formel. Das ist zuerst in den Daten und dann in der Umgebung der Formel. Für den Hintergrund der Warnmeldungen über lsquofitted Wahrscheinlichkeiten numerisch 0 oder 1 Vorkommen für Binomial GLMs, siehe Venables amp Ripley (2002, S. 197ndash8). Glm gibt ein Objekt der Klasse zurück, das von glm erbt, das von der Klasse lm erbt. Siehe später in diesem Abschnitt. Wenn eine Nicht-Standardmethode verwendet wird, wird das Objekt auch von der Klasse (falls vorhanden) erben, die von dieser Funktion zurückgegeben wird. Die Funktionszusammenfassung (d. h. summary. glm) kann verwendet werden, um eine Zusammenfassung der Ergebnisse und die Funktion anova (d. h. anova. glm) zu erhalten oder zu drucken, um eine Analyse der Varianztabelle zu erzeugen. Der generische Accessor funktioniert Koeffizienten. Auswirkungen. Fit. values ​​und residuals können verwendet werden, um verschiedene nützliche Eigenschaften des Wertes zu extrahieren, der von glm zurückgegeben wird. Gewichte extrahiert einen Vektor von Gewichten, eine für jeden Fall in der Passform (nach der Teilung und na.). Ein Objekt der Klasse glm ist eine Liste mit mindestens den folgenden Komponenten: bis zu einer konstanten, minus zweimal der maximierten Log-Likelihood. Wo sinnvoll, wird die Konstante so gewählt, dass ein gesättigtes Modell Abweichung Null hat. Eine Version von Akaikes An Information Criterion. Minus zweimal die maximierte Log-Likelihood plus zweimal die Anzahl der Parameter, berechnet durch die aic-Komponente der Familie. Bei Binomial - und Poison-Familien ist die Dispersion auf eins fixiert und die Anzahl der Parameter ist die Anzahl der Koeffizienten. Bei Gauß-, Gamma - und Invers-Gauß-Familien wird die Dispersion aus der Restabweichung geschätzt, und die Anzahl der Parameter ist die Anzahl der Koeffizienten plus eins. Für eine Gaußfamilie wird die MLE der Dispersion verwendet, also ist dies ein gültiger Wert von AIC, aber für Gamma und inverse Gaussian Familien ist es nicht. Für Familien, die durch Quasi-Wahrscheinlichkeit erfüllt sind, ist der Wert NA. Die Abweichung für das Nullmodell, vergleichbar mit Abweichung. Das Nullmodell umfasst den Offset und einen Intercept, wenn es eine im Modell gibt. Beachten Sie, dass dies nicht korrekt ist, wenn die Link-Funktion von den Daten abhängt, außer durch das passende Mittel: Geben Sie einen Null-Offset an, um eine korrekte Berechnung zu erzwingen. Die Anzahl der Iterungen von IWLS. (Wo relevant) Informationen, die von model. frame auf die spezielle Behandlung von NA s zurückgegeben werden. Darüber hinaus haben nicht leere passt die Komponenten qr. R und Effekte in Bezug auf die endgültige gewichtete lineare Passung. Objekte der Klasse glm sind normalerweise von Klasse c (glm, lm). Das ist von der Klasse lm erbt. Und gut entworfene Methoden für Klasse lm werden auf das gewichtete lineare Modell bei der endgültigen Iteration von IWLS angewendet. Allerdings ist Vorsicht geboten, da Extraktorfunktionen für Klasse glm wie Reste und Gewichte nicht nur die Komponente der Passform mit dem gleichen Namen auswählen. Wenn ein Binomial-Glm-Modell durch eine zweispaltige Antwort spezifiziert wurde, sind die Gewichte, die von früheren Gewichten zurückgegeben werden, die Gesamtzahl der Fälle (die durch die gelieferten Fallgewichte berücksichtigt werden) und die Komponente y des Ergebnisses ist der Anteil der Erfolge. Anpassungsfunktionen Die Argumentmethode dient zwei Zwecken. Einer ist, dass der Modellrahmen ohne Anpassung neu erstellt werden kann. Die andere ist, dass die Standard-Anpassungsfunktion glm. fit durch eine Funktion ersetzt werden kann, die die gleichen Argumente annimmt und einen anderen passenden Algorithmus verwendet. Wenn glm. fit als Zeichenfolge geliefert wird, wird es verwendet, um nach einer Funktion dieses Namens zu suchen, beginnend im Stats-Namespace. Die Klasse des Objekts, die von dem Monteur zurückgegeben wird (falls vorhanden) wird der von glm zurückgegebenen Klasse vorangestellt. Die ursprüngliche R-Implementierung von glm wurde von Simon Davies geschrieben, der für Ross Ihaka an der Universität von Auckland arbeitet, aber seitdem umfangreich von Mitgliedern des R Core Teams neu geschrieben wurde. Das Design wurde von der S-Funktion des gleichen Namens inspiriert, die in Hastie amp Pregibon (1992) beschrieben wurde. Referenzen Dobson, A. J. (1990) Eine Einführung in generalisierte Linearmodelle. London: Chapman und Hall. Hastie, T. J. und Pregibon, D. (1992) Generalisierte lineare Modelle. Kapitel 6 der statistischen Modelle in S eds J. M. Chambers und T. J. Hastie, Wadsworth amp BrooksCole. McCullagh P. und Nelder, J. A. (1989) Generalisierte Linearmodelle. London: Chapman und Hall. Venables, W. N. und Ripley, B. D. (2002) Moderne Angewandte Statistik mit S. New York: Springer. Lm für nicht-generalisierte lineare Modelle (die SAS nennt GLMs, für lsquogeneralrsquo lineare Modelle). Loglin und loglm (Paket MASS) für die Montage von log-linearen Modellen (die binomial und Poisson GLMs sind) zu Kontingenztabellen. Bigglm im Paket biglm für einen alternativen Weg, um GLMs an große Datensätze anzupassen (vor allem jene mit vielen Fällen).Generalisierte Linearmodelle in R, Teil 1: Berechnung der vorhergesagten Wahrscheinlichkeit in der Binärlogistik Regression von David Lillis, Ph. D. Ordinary Least Squares Regression bietet lineare Modelle von kontinuierlichen Variablen. Allerdings sind viele Daten von Interesse für Statistiker und Forscher nicht kontinuierlich und so müssen andere Methoden verwendet werden, um nützliche prädiktive Modelle zu schaffen. Der Befehl glm () dient dazu, generalisierte lineare Modelle (Regressionen) auf binären Ergebnisdaten, Zähldaten, Wahrscheinlichkeitsdaten, Proportionsdaten und viele andere Datentypen durchzuführen. In diesem Blog-Post erforschen wir die Verwendung von Rs glm () - Befehl auf einem solchen Datentyp. Schauen wir uns ein einfaches Beispiel an, wo wir binäre Daten modellieren. Im mtcars-Datensatz gibt die Variable vs an, ob ein Auto einen V-Motor oder einen geraden Motor hat. Wir wollen ein Modell erstellen, das uns hilft, die Wahrscheinlichkeit eines Fahrzeugs mit einem V-Motor oder einem geraden Motor mit einem Gewicht von 2100 lbs und einer Motorverdrängung von 180 Kubikzoll vorherzusagen. Zuerst passen wir das Modell: Wir verwenden die glm () - Funktion, enthalten die Variablen in der üblichen Weise und geben eine Binomialfehlerverteilung wie folgt an: Wir sehen aus den Schätzungen der Koeffizienten, die das Gewicht beeinflusst, positiv, während die Verschiebung a hat Leicht negativen Effekt. Die Modellausgabe unterscheidet sich etwas von der eines gewöhnlichen Kleinste-Quadrate-Modells. Ich werde die Ausgabe im nächsten Artikel ausführlicher erklären, aber jetzt können wir unsere Berechnungen fortsetzen. Denken Sie daran, unser Ziel ist es, eine vorhergesagte Wahrscheinlichkeit eines V-Motors zu berechnen, für bestimmte Werte der Prädiktoren: ein Gewicht von 2100 lbs und eine Motorverdrängung von 180 Kubikzoll. Um dies zu tun, erstellen wir einen Datenrahmen namens newdata, in dem wir die gewünschten Werte für unsere Vorhersage enthalten. Nun verwenden wir die Vorhersage () - Funktion, um die vorhergesagte Wahrscheinlichkeit zu berechnen. Wir schließen das Argument type8221response8221 ein, um unsere Vorhersage zu erhalten. Die vorhergesagte Wahrscheinlichkeit beträgt 0,24. Das war nicht so schwer In unserem nächsten Artikel. Ich werde mehr über die Ausgabe erfahren, die wir aus der glm () - Funktion bekommen haben. Über den Autor: David Lillis hat R an viele Forscher und Statistiker gelehrt. Seine Firma, Sigma Statistics und Research Limited. Bietet sowohl Online-Instruktion als auch face-to-face-Workshops auf R, und Codierung Dienstleistungen in R. David hält eine Doktorarbeit in angewandten Statistiken. Willst du Rs GLM-Funktion lernen In diesem sechsstündigen Workshop. Youll lernen, wie man glm () verwendet, um logistische probit Regressionen, poisson negative Binomial Regressionen und Gamma Regressionen zu spezifizieren .. und enthalten die Optionen für jeden einzelnen. Verwandte PostsAs können gesehen werden, jede der ersten fünf Wahlen hat eine zugehörige Varianzfunktion (für Binomial die Binomialvarianz m (1 m)) und eine oder mehrere Auswahl von Link-Funktionen (für Binomial die Logit-, Probit - oder komplementäre Log - Log). Solange du den Standardlink wünschst, musst du nur den Familiennamen angeben. Wenn du einen alternativen Link wünschst, musst du ein Link-Argument hinzufügen. Zum Beispiel, um probits zu verwenden Sie die letzte Familie auf der Liste, quasi. Ist es möglich, passende benutzerdefinierte Modelle durch maximale Quasi-Wahrscheinlichkeit zuzulassen. 5.2 Logistische Regression Wir werden die passenden Logistik-Regressionsmodelle anhand der nachstehend aufgeführten Verhütungs-Gebrauchsdaten veranschaulichen: Die Daten sind aus dem Datenbestandteil der Website für meinen generalisierten linearen Modellkurs verfügbar. Besuchen Sie data. princeton. eduwws509datasets, um eine kurze Beschreibung zu lesen und folgen Sie dem Link zu cuse. dat. Natürlich können die Daten direkt von R heruntergeladen werden: Ich habe den Header-Parameter als TRUE angegeben. Denn sonst wäre es nicht offensichtlich gewesen, dass die erste Zeile in der Datei die Variablennamen hat. Es sind keine Zeilennamen angegeben, so dass die Zeilen von 1 bis 16 nummeriert werden. Drucken Sie die Cuse, um sicherzustellen, dass Sie die Daten in Ordnung erhalten haben. Dann machen Sie es zu Ihrem Standard-Dataset: Lassen Sie uns zuerst versuchen, ein einfaches additives Modell, wo Verhütungsmittel Verwendung von Alter, Bildung und willMore: Es gibt ein paar Dinge zu erklären, hier. Zuerst heißt die Funktion glm und ich habe ihren Wert einem Objekt namens lrfit (für logistische Regression passen) zugewiesen. Das erste Argument der Funktion ist eine Modellformel, die die Antwort und den linearen Prädiktor definiert. Bei Binomendaten kann die Antwort entweder ein Vektor oder eine Matrix mit zwei Spalten sein. Wenn die Antwort ein Vektor ist, kann sie numerisch mit 0 für den Ausfall und 1 für den Erfolg oder ein Faktor mit der ersten Ebene, die quotfailurequot und alle anderen repräsentiert quotsuccessquot. In diesen Fällen erzeugt R einen Vektor von denen, um die Binomial-Nenner darzustellen. Alternativ kann die Antwort eine Matrix sein, bei der die erste Spalte die Anzahl der quotsuccessesquot ist und die zweite Spalte die Anzahl der quotfailuresquot ist. In diesem Fall fügt R die beiden Spalten zusammen, um den korrekten Binomial-Nenner zu erzeugen. Weil der letztere Ansatz eindeutig der richtige für uns ist, habe ich die Funktion cbind verwendet, um eine Matrix zu erstellen, indem ich die Spaltenvektoren, die die Zahlen enthalten, mit und nicht mit Empfängnisverhütung verbindet. Nach dem speziellen Symbol, das die Antwort von den Prädiktoren trennt, haben wir eine Standard-Wilkinson-Rogers-Modellformel. In diesem Fall sind wir spezifiziert Haupteffekte von Alter, Bildung und will mehr. Weil alle drei Prädiktoren kategorische Variablen sind, werden sie automatisch als Faktoren behandelt, wie man durch die Inspektion der Ergebnisse sehen kann: Erinnern Sie sich, dass R die Ebenen eines Faktors in alphabetischer Reihenfolge sortiert. Weil das Alter. Ähnlich ist hoch die Referenzzelle für Bildung, denn hoch kommt vor Niedrig. Endlich hat R nicht die Basis für die Wünsche gehabt. Wenn Sie über diese Entscheidungen unglücklich sind, können Sie (1) die Freigabe verwenden, um die Basiskategorie zu ändern, oder (2) definieren Sie Ihre eigenen Indikatorvariablen. Ich werde den letzteren Ansatz verwenden, indem ich Indikatoren für Frauen mit Hochschulbildung und Frauen, die keine Kinder mehr wollen, definieren will: Jetzt versuche das Modell wieder: Die Restabweichung von 29,92 auf 10 d. f Ist sehr wichtig: also brauchen wir ein besseres modell Einer meiner Favoriten führt eine Interaktion zwischen Alter und Wunsch für keine Kinder mehr ein: Beachten Sie, wie R die Interaktionsbedingungen automatisch baute und sogar mit sinnvollen Etiketten für sie auftauchte. Die Modelle Abweichung von 12,63 auf 7 d. f. Ist auf dem konventionellen fünfprozentigen Niveau nicht signifikant, so dass wir keine Beweise gegen dieses Modell haben. Um detailliertere Informationen über diese Passform zu erhalten, probier die Summenfunktion: R folgt der populären Sitte, signifikante Koeffizienten mit einem, zwei oder drei Sternen zu markieren, abhängig von ihren p-Werten. Versuche (lrfit). Sie erhalten die gleichen Parzellen wie in einem linearen Modell, aber an ein verallgemeinertes lineares Modell angepasst, zum Beispiel sind die verbleibenden Residuen Abweichungsreste (die Quadratwurzel des Beitrags einer Beobachtung zur Abweichung mit demselben Vorzeichen wie der Rohrest). Die Funktionen, die verwendet werden können, um Ergebnisse aus der Passage zu extrahieren, sind Reste oder Reste. Für die abweichenden Restmengen. Für die angepassten Werte (geschätzte Wahrscheinlichkeiten) vorherzusagen. Für die linearen Prädiktoren (geschätzte logits) coef oder Koeffizienten. Für die Koeffizienten und Abweichung. Für die Abweichung. Einige dieser Funktionen haben zum Beispiel optionale Argumente, können Sie z. B. fünf verschiedene Arten von Residuen, die als "quadratisch" bezeichnet werden, quittieren (quittiert), quotworkingquot (die arbeitsabhängige Variable im IRLS-Algorithmus - linearer Prädiktor) und quotalialquot ( Eine Matrix von Arbeitsresten, die durch Weglassen jedes Terms im Modell gebildet werden). Sie spezifizieren diejenige, die Sie mit dem Typargument verwenden möchten, z. B. residuals (lrfit, typequotpearsonquot). 5.3 Aktualisieren von Modellen Wenn Sie ein Modell modifizieren möchten, können Sie die spezielle Funktionsaktualisierung verwenden. Zum Beispiel, um das Alter zu fallen: noMehr Interaktion in unserem Modell könnte man verwenden Das erste Argument ist das Ergebnis einer Passung, und die zweite eine aktualisierende Formel. Der Platzhalter trennt die Antwort von den Prädiktoren und dem Punkt. Bezieht sich auf die rechte Seite der ursprünglichen Formel, also hier wir einfach das Alter entfernen: nein. Alternativ kann man eine neue Formel als zweites Argument geben. Die Update-Funktion kann verwendet werden, um das gleiche Modell an verschiedene Datasets anzupassen, wobei die Argumentdaten verwendet werden, um einen neuen Datenrahmen anzugeben. Ein weiteres nützliches Argument ist Teilmenge. Um das Modell an eine andere Teilprobe anzupassen. Diese Funktion arbeitet mit linearen Modellen sowie generalisierten Linearmodellen. Wenn Sie planen, eine Reihe von Modellen passen Sie die Anova-Funktion nützlich finden. Angesichts einer Reihe von verschachtelten Modellen, wird es die Änderung der Abweichung zwischen ihnen zu berechnen. Versuchen Hinzufügen der Interaktion hat die Abweichung um 17.288 auf Kosten von 3 d. f. reduziert Wenn das Argument anova ein einzelnes Modell ist, zeigt die Funktion die Änderung der Abweichung an, die durch Hinzufügen jedes der Begriffe in der in der Modellformel aufgeführten Reihenfolge erhalten wird, genau wie bei linearen Modellen. Da es sich hierbei um so viele Modelle handelt, wie es in der Formel Begriffe gibt, kann die Funktion eine Weile dauern, bis ihre Berechnungen abgeschlossen sind. Mit der anova-Funktion können Sie einen optionalen Test angeben. Die üblichen Entscheidungen sind F für lineare Modelle und Chisq für generalisierte lineare Modelle. Hinzufügen des Parameters testquotChisqquot fügt neben den Abweichungen p-Werte hinzu. In unserem Fall können wir sehen, dass alle Begriffe bei der Einführung in das Modell sehr wichtig waren. 5.4 Modellauswahl Ein sehr leistungsfähiges Werkzeug in R ist eine Funktion für die schrittweise Regression, die drei bemerkenswerte Merkmale hat: Es funktioniert mit generalisierten linearen Modellen, so dass es schrittweise logistische Regression oder schrittweise Poisson Regression, Es versteht über hierarchische Modelle, so wird es Nur erwägen Hinzufügen von Interaktionen nur nach der Einbeziehung der entsprechenden Haupteffekte in den Modellen, und es versteht Begriffe mit mehr als einem Freiheitsgrad, so dass es zusammenbleiben Dummy-Variablen, die die Auswirkungen eines Faktors. Die grundlegende Idee der Prozedur ist zu starten Von einem gegebenen Modell (das könnte auch das Nullmodell sein) und eine Reihe von Schritten durch entweder das Löschen eines Begriffs bereits im Modell oder das Hinzufügen eines Begriffs aus einer Liste der Kandidaten für die Aufnahme, den so genannten Umfang der Suche und definiert, von Kurs, nach einer Modellformel. Die Auswahl der Bedingungen für die Löschung oder Einbeziehung basiert auf dem Akaikes-Informationskriterium (AIC). R definiert AIC als ndash2 Maximale Log-Likelihood 2 Anzahl von Parametern (S-Plus definiert es als Abweichung minus zweimal die Anzahl der Parameter im Modell. Die beiden Definitionen unterscheiden sich um eine Konstante, so dass Unterschiede in AIC die gleichen in den beiden sind Umgebungen.) Die Prozedur stoppt, wenn das AIC-Kriterium nicht verbessert werden kann. In R all diese Arbeit ist durch den Aufruf ein paar Funktionen, add1 und drop1 getan. Die erwägen, einen Begriff aus einem Modell hinzuzufügen oder zu fallen. Diese Funktionen können bei der Modellauswahl sehr nützlich sein, und beide akzeptieren ein Testargument wie Anova. Betrachten Sie zuerst drop1. Für unser logistisches Regressionsmodell, natürlich können wir keine dieser Begriffe fallen lassen. Beachten Sie, dass R in Erwägung gezogen wird, den Haupteffekt der Bildung und des Alters zu verlassen, indem Sie keine Interaktion mehr haben, aber nicht die Haupteffekte des Alters untersucht haben oder nicht mehr wollen, denn man würde diese Haupteffekte nicht unter Beibehaltung der Interaktion fallen lassen. Die Schwesterfunktion add1 erfordert einen Bereich, um die zu berücksichtigenden Zusatzbegriffe zu definieren. In unserem Beispiel werden wir alle möglichen Zwei-Faktor-Wechselwirkungen betrachten: Wir sehen, dass keine der fehlenden Zwei-Faktor-Wechselwirkungen bei sich auf dem konventionellen Fünf-Prozent-Niveau von Bedeutung sind. (Allerdings sind sie zufällig signifikant.) Beachten Sie, dass das Modell mit dem Alter durch Bildung Interaktion hat eine niedrigere AIC als unser Start-Modell. Die Schrittfunktion wird eine automatische Suche durchführen. Hier lassen wir es in einem durch alle Zwei-Faktor-Wechselwirkungen definierten Bereich suchen: Die Schritt-Funktion erzeugt eine detaillierte Trace-Ausgabe, die wir unterdrückt haben. Das zurückgegebene Objekt enthält jedoch eine Anova-Komponente, die die Suche zusammenfasst: Wie Sie sehen können, hat die automatisierte Prozedur eins nach dem anderen alle drei verbleibenden Zwei-Faktor-Wechselwirkungen eingeführt, um eine endgültige AIC von 99,9 zu ergeben. Dies ist ein Beispiel, bei dem AIC, bei dem eine Abweichungsverbesserung von nur 2 pro Parameter erforderlich ist, zu einer Überfüllung der Daten geführt haben könnte. Einige Analysten bevorzugen eine höhere Strafe pro Parameter. Insbesondere unter Verwendung von log (n) anstelle von 2 als Multiplikator ergibt sich BIC, das Bayesian Information Criterion. In unserem Beispielprotokoll (1607) 7.38 würden wir also eine Abweichungsreduktion von 7,38 pro Zusatzparameter erfordern. Die Schritt-Funktion akzeptiert k als Argument mit Standard 2. Sie können überprüfen, dass die Angabe von klog (1607) zu einem viel einfacheren Modell führt nicht nur keine neuen Interaktionen eingeführt, sondern die Haupteffekte der Bildung fallen gelassen (auch wenn es signifikant ist ). Kopie 2017 Germaacuten Rodriacuteguez, Princeton Universität

Comments

Popular posts from this blog

How To Trade Binär Optionen Profitabel

Tsinvesting Forex E Opzioni Binarie Demo

Pivot Punkte Forex Pdf Strategie