RANKTEST: Stata-Modul, um den Rang einer Matrix mit dem Kleibergen-Paap rk-Statistik-Ranktest zu testen, implementiert den Kleibergen-Paap (2006) rk-Test für den Rang einer Matrix. Tests des Ranges einer Matrix haben viele praktische Anwendungen. Zum Beispiel ist in der Ökonometrie die Voraussetzung für die Identifizierung die Rangbedingung, die besagt, dass eine bestimmte Matrix von voller Spalte Rang sein muss. Ein weiteres Beispiel aus Ökonometrie betrifft die Kointegration in Vektor-autoregressiven (VAR) - Modellen der Johansen-Trace-Test ist ein Test eines Ranges einer bestimmten Matrix. Der traditionelle Test des Ranges einer Matrix für den Standard (stationären) Fall ist der Anderson (1951) kanonische Korrelations-Test. Wenn wir eine Liste von Variablen als Y und eine Sekunde als Z bezeichnen, so berechnen wir die quadratischen kanonischen Korrelationen zwischen Y und Z, die LM-Form des Anderson-Tests, wobei die Nullhypothese ist, dass die Matrix der Korrelationen oder Regressionsparameter B zwischen Y und Z hat Rang (B) r, ist N mal die Summe der r1 größten quadratischen kanonischen Korrelationen. Eine große Teststatistik und Ablehnung der Null zeigt an, dass die Matrix mindestens r1 hat. Die Cragg-Donald (1993) Statistik ist ein eng verwandter Wald-Test für den Rang einer Matrix. Sowohl die Anderson - als auch die Cragg-Donald-Tests erfordern die Annahme, dass die Kovarianzmatrix eine Kronecker-Form hat, wenn dies nicht der Fall ist, z. B. Wenn Störungen heteroskedastisch oder autokorreliert sind, sind die Teststatistiken nicht mehr gültig. Die Kleibergen-Paap (2006) rk-Statistik ist eine Verallgemeinerung des Anderson-Kanonischen Korrelations-Rang-Tests auf den Fall einer Nicht-Kronecker-Kovarianzmatrix. Die Umsetzung in ranktest berechnet rk Statistiken, die robust sind, um verschiedene Formen der Heteroskedastizität, Autokorrelation und Clustering. Wenn Sie Probleme beim Herunterladen einer Datei haben, überprüfen Sie, ob Sie die richtige Anwendung haben, um sie zuerst anzuzeigen. Bei weiteren Problemen lesen Sie die IDEAS-Hilfeseite. Beachten Sie, dass diese Dateien nicht auf der IDEAS-Website sind. Bitte sei geduldig, da die Dateien groß sein können. Wenn Sie eine Korrektur anfordern, bitte erwähnen Sie diese Elemente Handle: RePEc: boc: bocode: s456865. Siehe allgemeine Informationen zur Korrektur von Material in RePEc. Für technische Fragen zu diesem Artikel, oder um seine Autoren, Titel, Abstract, bibliographischen oder Download-Informationen zu korrigieren, wenden Sie sich an: (Christopher F Baum) Wenn Sie diesen Artikel verfasst haben und noch nicht bei RePEc registriert sind, empfehlen wir Ihnen, dies zu tun . Dies ermöglicht es, Ihr Profil mit diesem Element zu verknüpfen. Es erlaubt Ihnen auch, potenzielle Zitate zu diesem Artikel zu akzeptieren, dass wir unsicher sind. Wenn Referenzen ganz fehlen, können Sie sie mit diesem Formular hinzufügen. Wenn die vollständigen Referenzen ein Element auflisten, das in RePEc vorhanden ist, aber das System nicht mit ihm verknüpft ist, können Sie mit diesem Formular helfen. Wenn Sie von fehlenden Gegenständen wissen, die dieses zitieren, können Sie uns helfen, diese Links zu erstellen, indem wir die relevanten Referenzen in der gleichen Weise wie oben für jedes verweisende Element hinzufügen. Wenn Sie ein registrierter Autor dieses Artikels sind, können Sie auch die Registerkarte Zitate in Ihrem Profil überprüfen, da es einige Zitate gibt, die auf Bestätigung warten. Bitte beachten Sie, dass Korrekturen einige Wochen dauern können, um durch die verschiedenen RePEc-Dienste zu filtern. Weitere Dienstleistungen Folge-Serie, Zeitschriften, Autoren amp mehr Neue Papiere per E-Mail Abonnieren Sie neue Ergänzungen zu RePEc Autorenregistrierung Öffentliche Profile für Wirtschaftsforscher Verschiedene Rankings der Forschung in der Wirtschaft amp verwandte Felder Wer war ein Student von wem, mit RePEc RePEc Biblio Kuratierte Artikel amp Papiere zu verschiedenen ökonomischen Themen Hochladen Sie Ihr Papier auf RePEc aufgeführt werden und IDEAS EconAcademics Blog Aggregator für Wirtschaftsforschung Plagiate Fälle von Plagiaten in Wirtschaftswissenschaften Job Market Papers RePEc Arbeitspapier Serie gewidmet, um den Job-Markt Fantasy League Vortäuschen Sie sind an der Spitze einer Wirtschaft Abteilung Services aus der StL Fed Daten, Forschung, Apps vergrössern mehr von der St. Louis FedNOTICE: Die IDRE Statistische Beratungsgruppe wird die Website auf das WordPress CMS im Februar migrieren, um die Wartung und die Erstellung neuer Inhalte zu erleichtern. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht mehr gepflegt werden. Wir werden versuchen, Umleitungen zu pflegen, damit die alten URLs weiterhin so gut funktionieren wie möglich. Willkommen beim Institut für Digitale Forschung und Bildung Hilfe der Stat Consulting Group durch ein Geschenk Statistical Computing Seminare Überlebensanalyse mit Stata Das Stata-Programm, auf dem das Seminar basiert. Die UISsmall-Datei für das Seminar. Ziel dieses Seminars ist es, eine kurze Einführung in das Thema der Überlebensanalyse zu geben. Wir verwenden eine kleinere und leicht modifizierte Version des UIS-Datensatzes aus dem Buch Applied Survival Analysis von Hosmer und Lemeshow. Wir ermutigen alle, die daran interessiert sind, die Überlebensanalyse zu lesen, um diesen Text zu lesen, da es eine sehr gute und gründliche Einführung in das Thema ist. Überlebensanalyse ist nur ein weiterer Name für die Zeit bis zur Ereignisanalyse. Der Begriff Überlebensanalyse wird überwiegend in biomedizinischen Wissenschaften verwendet, wo es darum geht, die Todeszeit entweder von Patienten oder von Versuchstieren zu beobachten. Die Zeit für die Ereignisanalyse wurde auch in den Sozialwissenschaften weit verbreitet, wo es darum geht, Zeit für Ereignisse wie Arbeitsveränderungen, Ehe, Geburt von Kindern und so weiter zu analysieren. Die Ingenieurwissenschaften haben auch zur Entwicklung der Überlebensanalyse beigetragen, die in diesem Bereich als Zuverlässigkeitsanalyse oder Ausfallzeitanalyse bezeichnet wird, da der Schwerpunkt bei der Modellierung der Zeit liegt, die es braucht, um Maschinen oder elektronische Bauteile zu brechen. Die Entwicklungen aus diesen vielfältigen Bereichen wurden zum größten Teil in den Bereich der Überlebensanalyse konsolidiert. Für mehr Hintergrund verweisen wir auf die hervorragende Diskussion in Kapitel 1 der Event History Analysis von Paul Allison. Es gibt bestimmte Aspekte von Überlebensanalyse-Daten wie Zensur und Nicht-Normalität, die große Schwierigkeiten beim Versuch, die Daten mit traditionellen statistischen Modellen wie mehrfache lineare Regression zu analysieren, erzeugen. Der Nicht-Normalitäts-Aspekt der Daten verletzt die Normalitätsannahme des am häufigsten verwendeten statistischen Modells wie Regression oder ANOVA usw. Eine zensierte Beobachtung wird als Beobachtung mit unvollständigen Informationen definiert. Es gibt vier verschiedene Arten von Zensuren möglich: richtige Trunkierung, linke Trunkierung, richtige Zensur und linke Zensur. Wir werden uns aus einer Reihe von Gründen ausschließlich auf die richtige Zensur konzentrieren. Die meisten Daten, die in Analysen verwendet werden, haben nur eine richtige Zensur. Darüber hinaus ist die richtige Zensur am leichtesten von allen vier Zensurarten verständlich und wenn ein Forscher das Konzept der richtigen Zensur gründlich verstehen kann, wird es viel einfacher, die anderen drei Typen zu verstehen. Wenn eine Beobachtung richtig zensiert ist, bedeutet dies, dass die Informationen unvollständig sind, weil das Thema kein Ereignis während der Zeit hatte, in der das Thema Teil der Studie war. Der Punkt der Überlebensanalyse ist, die Themen im Laufe der Zeit zu verfolgen und zu beobachten, zu welchem Zeitpunkt sie das Ereignis von Interesse erleben. Es kommt oft vor, dass die Studie nicht genug Zeit spannt, um das Ereignis für alle Themen in der Studie zu beobachten. Dies könnte auf eine Reihe von Gründen zurückzuführen sein. Vielleicht fallen Themen aus der Studie aus Gründen, die nicht mit der Studie in Verbindung stehen (d. h. Patienten, die sich in einen anderen Bereich bewegen und keine Weiterleitungsadresse hinterlassen). Das gemeinsame Merkmal all dieser Beispiele ist, dass, wenn das Thema in der Lage gewesen wäre, in der Studie zu bleiben, dann wäre es möglich gewesen, die Zeit des Ereignisses schließlich zu beobachten. Es ist wichtig, den Unterschied zwischen Kalenderzeit und Zeit in der Studie zu verstehen. Es ist sehr häufig für die Fächer, die Studie kontinuierlich über die Dauer der Studie zu betreten. Diese Situation spiegelt sich in der ersten Grafik, wo wir die gestaffelte Eintragung von vier Fächern sehen können. Rote Punkte bezeichnen Intervalle, in denen das Ereignis aufgetreten ist, während Intervalle ohne rote Punkte Zensur bedeuten. Es würde scheinen, dass das Thema 4 nach nur einer kurzen Zeit (getroffen von einem Bus, sehr tragisch), und das Thema 3 nicht erlebte ein Ereignis, wenn die Studie beendet wurde, aber wenn die Studie war länger gegangen (hatte mehr Finanzierung) Wir hätten die Zeit gewusst, in der dieses Thema eine Veranstaltung erlebt hätte. Das andere wichtige Konzept in der Überlebensanalyse ist die Hazard Rate. Von der Betrachtung der Daten mit der diskreten Zeit (Zeit, die in großen Intervallen wie Monat, Jahren oder sogar Jahrzehnten gemessen wird) können wir eine intuitive Vorstellung von der Hazard Rate erhalten. Für die diskrete Zeit ist die Gefährdungsrate die Wahrscheinlichkeit, dass eine Person ein Ereignis zum Zeitpunkt t erleben wird, während diese Person gefährdet ist, ein Ereignis zu haben. So ist die Hazard Rate wirklich nur die unbeobachtete Rate, bei der Ereignisse auftreten. Wenn die Hazard Rate über die Zeit konstant ist und es gleich 1,5 war, würde dies bedeuten, dass man erwarten würde, dass 1,5 Ereignisse in einem Zeitintervall auftreten, das eine Einheit lang ist. Darüber hinaus, wenn eine Person hatte eine Hazard Rate von 1,2 zum Zeitpunkt t und eine zweite Person hatte eine Hazard Rate von 2,4 zum Zeitpunkt t dann wäre es richtig zu sagen, dass die zweiten Personen Risiko eines Ereignisses wäre zweimal größer zum Zeitpunkt t . Es ist wichtig zu erkennen, dass die Hazard Rate eine nicht beobachtete Variable ist, aber es kontrolliert sowohl das Vorkommen als auch das Timing der Ereignisse. Es ist die fundamentale abhängige Variable in der Überlebensanalyse. Ein weiterer wichtiger Aspekt der Gefahrenfunktion ist, zu verstehen, wie die Form der Gefahrenfunktion die anderen interessanten Variablen wie die Überlebensfunktion beeinflussen wird. Die erste Grafik unten zeigt eine Gefahrenfunktion mit einer Badewanneform. Diese Grafik zeigt die Gefährdungsfunktion für das Überleben von Organtransplantationspatienten. Zur Zeit gleich Null haben sie die Transplantation und da dies eine sehr gefährliche Operation ist, haben sie eine sehr hohe Gefahr (eine große Chance zum Sterben). Die ersten 10 Tage nach der Operation sind auch sehr gefährlich mit einer hohen Chance des Patienten sterben, aber die Gefahr ist weniger als während der tatsächlichen Operation und damit die Gefahr ist Abnahme in dieser Zeit. Wenn der Patient am 10. Tag überlebt hat, dann sind sie in sehr guter Form und haben in den folgenden 6 Monaten eine sehr geringe Chance zu sterben. Nach 6 Monaten beginnen die Patienten eine Verschlechterung zu erleben und die Chancen des Sterbens steigen wieder an und damit beginnt die Gefährdungsfunktion zu steigen. Nach einem Jahr sind fast alle Patienten tot und damit die sehr hohe Gefährdungsfunktion, die weiter zunehmen wird. Die Gefährdungsfunktion mag nicht wie eine aufregende Variable zu modellieren, aber andere Indikatoren von Interesse, wie die Überlebensfunktion, werden aus der Hazard Rate abgeleitet. Sobald wir die Hazard Rate modelliert haben, können wir diese anderen Funktionen von Interesse leicht erhalten. Zusammenfassend ist es wichtig, den Begriff der Gefahrenfunktion zu verstehen und die Form der Gefahrenfunktion zu verstehen. Ein Beispiel für eine Gefährdungsfunktion für Herztransplantationspatienten. Wir sind in der Regel nicht in der Lage, die Gefahrenfunktion zu erzeugen, stattdessen schauen wir uns die kumulative Gefahrenkurve an. Das Ziel der UIS-Daten ist es, die Zeit bis zur Rückkehr zum Drogenkonsum für Patienten, die in zwei verschiedenen Wohnbehandlungsprogrammen eingeschrieben sind, zu modellieren, die sich in der Länge unterscheiden (behandeln Sie 0 ist das kurze Programm und behandeln Sie 1 ist das lange Programm). Die Patienten wurden zufällig zwei verschiedenen Standorten zugeordnet (Standort 0 ist Standort A und Standort 1 ist Standort B). Das Variable Alter zeigt das Alter bei der Immatrikulation an, Herco zeigt in den vergangenen drei Monaten den Heroin - oder Kokain-Gebrauch an (Herco 1 bezeichnet Heroin - und Kokaingebrauch, Herco 2 bezeichnet entweder Heroin oder Kokain und Herco 3 bedeutet weder Heroin noch Kokain) und ndrugtx zeigt an Anzahl der bisherigen Arzneimittelbehandlungen. Die Variablen Zeit enthält die Zeit bis zur Rückkehr zum Drogenkonsum und die Zensorvariable gibt an, ob das Subjekt dem Drogenkonsum zurückkehrt (Zensor 1 zeigt Rückkehr zum Drogenkonsum und Zensor 0 ansonsten). Schauen wir uns die ersten 10 Beobachtungen des UIS-Datensatzes an. Beachten Sie, dass Thema 5 zensiert wird und kein Ereignis während der Studie erlebt hat. Beachten Sie auch, dass die Codierung für den Zensor eher kontraintuitiv ist, da der Wert 1 ein Ereignis anzeigt und 0 die Zensur anzeigt. Es wäre vielleicht besser, diese Variable quoteventquot aufzurufen. In jeder Datenanalyse ist es immer eine gute Idee, eine univariate Analyse durchzuführen, bevor wir zu komplizierteren Modellen gehen. In der Überlebensanalyse empfiehlt es sich, die Kaplan-Meier-Kurven für alle kategorischen Prädiktoren zu betrachten. Dies gibt einen Einblick in die Form der Überlebensfunktion für jede Gruppe und gibt eine Vorstellung davon, ob die Gruppen proportional sind (d. h. die Überlebensfunktionen sind ungefähr parallel). Wir betrachten auch die Tests der Gleichheit über die Schichten, um zu erforschen, ob der Prädiktor in das endgültige Modell aufgenommen werden soll oder nicht. Für die kategorischen Variablen verwenden wir den Log-Rank-Test der Gleichheit über die Schichten, die ein nicht-parametrischer Test ist. Für die kontinuierlichen Variablen verwenden wir eine univariate Cox-Proportional-Hazard-Regression, die ein semi-parametrisches Modell ist. Wir werden in Erwägung ziehen, den Prädiktor einzuschließen, wenn der Test einen p-Wert von 0,2 - 0,25 oder weniger hat. Wir verwenden dieses Eliminationsschema, weil alle Prädiktoren im Datensatz Variablen sind, die für das Modell relevant sein könnten. Wenn der Prädiktor einen p-Wert größer als 0,25 in einer univariaten Analyse hat, ist es höchst unwahrscheinlich, dass er alles zu einem Modell beitragen wird, das andere Prädiktoren enthält. Der Log-Rank-Test der Gleichheit über die Schichten für die Prädiktor-Behandlung hat einen p-Wert von 0,0091, so behandeln wird ein potenzieller Kandidat für das endgültige Modell enthalten sein. Aus dem Graphen sehen wir, dass die Überlebensfunktion für jede Behandlungsgruppe nicht perfekt parallel, sondern getrennt ist, außer am Anfang und am Ende. Die Überlappung am Ende sollte nicht zu viel Sorge verursachen, weil sie nur von wenigen zensierten Fächern aus einer Probe mit 628 Probanden bestimmt wird. Im Allgemeinen stellt der Log-Rank-Test den Schwerpunkt auf Unterschiede in den Kurven bei größeren Zeitwerten dar. Aus diesem Grund erhalten wir einen so kleinen p-Wert, obwohl die beiden Überlebenskurven für die Zeit weniger als 100 Tage sehr eng beieinander liegen. Der Log-Rank-Test der Gleichheit über die Schichten für die Prädiktor-Stelle hat einen p-Wert von 0,1240, so wird die Stelle als potentieller Kandidat für das endgültige Modell aufgenommen, da dieser p-Wert noch kleiner ist als unser Cut-off von 0,2. Aus dem Graphen sehen wir, dass die Überlebenskurven nicht allzu parallel sind und dass es zwei Perioden gibt (0, 100 und 200, 300), wo die Kurven sehr eng beieinander liegen. Dies würde den ziemlich hohen p-Wert aus dem Log-Rank-Test erklären. Der Log-Rank-Test der Gleichheit über die Schichten für das Prädiktor-Herco hat einen p-Wert von 0.1473, so wird herco als potentieller Kandidat für das endgültige Modell aufgenommen. Aus der Grafik sehen wir, dass die drei Gruppen nicht parallel sind und dass sich vor allem die Gruppen herco 1 und herco 3 für den Großteil des Graphen überlappen. Dieser Mangel an Parallelität könnte ein Problem darstellen, wenn wir diesen Prädiktor in das Cox-Proportional-Hazard-Modell einschließen, da eine der Annahmen die Proportionalität der Prädiktoren ist. Es ist nicht möglich, eine Kaplan-Meier-Kurve für die kontinuierlichen Prädiktoren zu berechnen, da es für jede Ebene des Prädiktors eine Kurve geben würde und ein kontinuierlicher Prädiktor einfach zu viele verschiedene Ebenen hat. Stattdessen betrachten wir das Cox-Proportional-Hazard-Modell mit einem einzigen kontinuierlichen Prädiktor. Leider ist es nicht möglich, bei der Verwendung des Befehls stcox eine Handlung zu erstellen. Stattdessen betrachten wir den Chi-Quadrat-Test für ndrugtx, der einen p-Wert von 0,0003 hat, also ist ndrugtx ein potentieller Kandidat für das endgültige Modell, da der p-Wert kleiner als unser Cut-off-Wert von 0,2 ist. Wir geben die Option nohr an, um anzuzeigen, dass wir das Hazard-Verhältnis nicht sehen wollen, sondern wir wollen die Koeffizienten betrachten. In diesem Modell hat der Chi-Quadrat-Test des Alters auch einen p-Wert von weniger als 0,2 und so ist es ein potentieller Kandidat für das endgültige Modell. Für unser Modellbau werden wir zunächst das Modell betrachten, das alle Prädiktoren mit einem p-Wert von weniger als 0,2 - 0,25 in den univariaten Analysen einbezieht, die in dieser speziellen Analyse bedeutet, dass wir jeden Prädiktor in unserem Modell einbeziehen werden. Das kategorische Prädiktor-Herco hat drei Ebenen und deshalb werden wir diesen Prädiktor mit Dummy-Variablen mit der Gruppe herco 1 als Referenzgruppe einschließen. Wir können diese Dummy-Variablen on the fly erstellen, indem wir den Befehl xi mit stcox verwenden. Das Prädiktor-Herco ist eindeutig nicht signifikant und wir werden es aus dem endgültigen Modell fallen lassen. Die Prädiktor-Seite ist auch nicht signifikant, aber aus vorheriger Forschung wissen wir, dass dies eine sehr wichtige Variable im endgültigen Modell ist und daher werden wir nicht beseitigen Website aus dem Modell. Also, das letzte Modell der Haupteffekte sind: Alter. Ndrugtx Behandeln und site. Als nächstes müssen wir Interaktionen berücksichtigen. Wir haben keine Vorkenntnisse über spezifische Interaktionen, die wir einbeziehen müssen, so dass wir alle möglichen Interaktionen berücksichtigen werden. Da unser Modell eher klein ist, ist dies überschaubar, aber die ideale Situation ist, wenn alle Modellbau, einschließlich Interaktionen, Theorie angetrieben werden. Die Wechselwirkungsdauer des Alters mit ndrugtx ist nicht signifikant und wird nicht in das Modell aufgenommen. Das Interaktionsalter und die Behandlung sind nicht signifikant und werden nicht in das Modell aufgenommen. Das Interaktionsalter und der Standort sind signifikant und werden in das Modell aufgenommen. Das Interaktions-Medikament und die Behandlung ist nicht signifikant und wird nicht im Modell enthalten sein. Das Interaktions-Medikament und die Website ist nicht signifikant und wird nicht in das Modell aufgenommen werden. Die Interaktion behandeln und site ist nicht signifikant und wird nicht in das Modell aufgenommen werden. Das letzte Modell inklusive Interaktion. Jetzt können wir sehen, warum es wichtig war, die Website in unser Modell aufzunehmen, da die vorherige Forschung vorgeschlagen hatte, weil sich herausstellt, dass diese Website an der einzigen signifikanten Interaktion im Modell beteiligt ist. Wir können das Modell mit der Interaktion mit dem Modell vergleichen, ohne die Interaktion mit dem Befehl lrtest, da die Modelle verschachtelt sind. Die signifikante lrtest zeigt an, dass wir die Nullhypothese ablehnen, dass die beiden Modelle den Daten gleich gut entsprechen und zu dem Schluss kommen, dass das größere Modell mit der Interaktion den Daten besser entspricht als das kleinere Modell, das die Interaktion nicht beinhaltet. Das endgültige Modell und die Interpretation der Gefahrenquoten. Von der Betrachtung der Gefahrenquoten (auch als relative Risiken bezeichnet) zeigt das Modell an, dass die Rate des Rückfalls um 3,7 erhöht wird, wenn die Anzahl der vorherigen Arzneimittelbehandlung (ndrugtx) um eine Einheit ansteigt und alle anderen Variablen konstant gehalten werden. Wenn die Behandlungslänge von kurz nach lang verändert wird, während alle anderen Variablen konstant gehalten werden, sinkt die Rückfallrate um (100 - 76,5) 23,5. Wenn die Behandlung von der Stelle A zur Baustelle B bewegt wird und das Alter gleich Null ist und alle anderen Variablen konstant gehalten werden, sinkt die Rückfallrate um (100 - 28,8) 71,2. Diese Ergebnisse basieren alle auf der Ausgabe mit Hazard Ratios. Um die Variablen zu diskutieren, die an einem Interaktionstermin beteiligt sind, wie Alter und Standort in unserem Modell, müssen wir die Rohkoeffizienten verwenden und hier sind sie unten nur zur Bequemlichkeit aufgeführt. Vergleicht man 2 Fächer innerhalb der Stelle A (Standort 0), eine Erhöhung des Alters von 5 Jahren, während alle anderen Variablen konstant gehalten werden, ergibt sich eine Hazard Ratio gleich exp (-0.033695) .84497351. So wird die Rate des Rückfalls um (100 - 84,5) 15,5 mit einer Zunahme von 5 Jahren im Alter verringert. Beim Vergleich von 2 Probanden innerhalb der Website B ergibt sich eine Erhöhung des Alters von 5 Jahren bei gleichzeitiger Beibehaltung aller anderen Variablen, ein Hazard Ratio gleich exp (-0.033695 0.033775) 1.0004. So bleibt die Rate des Rückfalls für die Fächer am Standort B seit 1.0004 ziemlich flach, wenn so nahe bei 1. Eine der Hauptannahmen des Cox-Proportional-Hazard-Modells ist die Proportionalität. Es gibt mehrere Methoden, um zu überprüfen, dass ein Modell die Annahme der Verhältnismäßigkeit erfüllt und für weitere Informationen zu diesem Thema verweisen wir auf unsere FAQ Tests der Proportionalität in SAS, Stata, SPLUS und R. Wir werden die Proportionalität durch Einbeziehung zeitabhängiger Kovariaten in der Modell mit dem tvc und den texp Optionen im Befehl stcox. Zeitabhängige Kovariaten sind Wechselwirkungen der Prädiktoren und der Zeit. In dieser Analyse wählen wir die Interaktionen mit log (time), weil dies die häufigste Funktion der Zeit in zeitabhängigen Kovariaten verwendet wird, aber jede Funktion der Zeit verwendet werden könnte. Wenn ein zeitabhängiges Kovariat signifikant ist, deutet dies auf eine Verletzung der Proportionalitätsannahme für diesen spezifischen Prädiktor hin. Die Schlussfolgerung ist, dass alle zeitabhängigen Variablen weder gemeinsam noch individuell so signifikant sind, dass sie die Annahme einer proportionalen Gefährdung unterstützen. Eine weitere Methode, die Proportionalitätsannahme zu testen, ist die Verwendung der Schoenfeld - und skalierten Schoenfeld-Residuen, die zuerst durch den Befehl stcox gespeichert werden müssen. Im stphtest-Befehl testen wir die Proportionalität des Modells als Ganzes und mit der Detail-Option erhalten wir einen Test der Proportionalität für jeden Prädiktor. Mit der Plot-Option können wir auch einen Graphen der skalierten Schoenfeld-Annahme erhalten. Wenn die Tests in der Tabelle keine Bedeutung haben (p-Werte über 0,05), dann können wir die Proportionalität nicht ablehnen und wir gehen davon aus, dass wir keine Verletzung der Proportionalannahme haben. Eine horizontale Linie in den Graphen ist ein weiterer Hinweis darauf, dass es keine Verletzung der Proportionalitätsannahme gibt. Der Stphplot-Befehl verwendet Log-Log-Plots, um die Proportionalität zu testen, und wenn die Zeilen in diesen Parzellen parallel sind, dann haben wir noch weitere Hinweise darauf, dass die Prädiktoren die Proportionalitätsannahme nicht verletzen. Die prädiktorische Behandlung kann eine nähere Untersuchung rechtfertigen, da sie einen signifikanten Test hat und die Kurve in der Grafik nicht ganz horizontal ist. Der Graph aus dem Befehl stphplot hat nicht ganz parallele Kurven. Allerdings entscheiden wir uns, im Modell unverändert zu behandeln, basierend auf vorheriger Forschung. Wenn einer der Prädiktoren nicht proportional war, gibt es verschiedene Lösungen zu berücksichtigen. Eine Lösung besteht darin, die zeitabhängige Variable für die nichtproportionalen Prädiktoren einzuschließen. Eine andere Lösung besteht darin, auf dem nichtproportionalen Prädiktor zu schichten. Das folgende ist ein Beispiel für die Schichtung auf dem Prädiktor behandeln. Beachten Sie, dass die Behandlung nicht mehr in der Modell-Anweisung enthalten ist, sondern es ist in der Schicht-Anweisung angegeben. Die Parameter-Schätzungen sind fast die gleichen für jede Ebene der Behandlung, die weiter anzeigt, dass die Behandlung wirklich proportional ist. Wenn die Behandlung wirklich die Annahme der Verhältnismäßigkeit verletze, würden wir erwarten, dass sich die Schätzungen unterscheiden. Die Schätzungen sind auch sehr ähnlich zu den Schätzungen, die aus dem Modell erhalten wurden, einschließlich Behandlung als Prädiktor. Jedes kovariate Muster hat eine andere Überlebensfunktion. Die Standardüberlebensfunktion ist für das Kovariate-Muster, bei dem jeder Prädiktor gleich Null gesetzt wird. Allerdings ist für viele Prädiktoren dieser Wert nicht sinnvoll, da dieser Wert außerhalb der Daten wie dem Alter 0 liegt. Es wäre viel nützlicher, ein exaktes Kovariate-Muster anzugeben und eine Überlebensfunktion für Subjekte mit dem spezifischen Kovariate-Muster zu erzeugen. Im folgenden Beispiel wollen wir die Überlebensfunktion für ein Thema, das 30 Jahre alt ist (Alter 30), hat 5 vorherige medikamentöse Behandlungen (ndrugtx 5), und ist derzeit immer die lange Behandlung (behandeln 1) an der Stelle A ( Ort 0 und Agesite 300 0). Zuerst geben wir die Baseline-Überlebensfunktion für das Kovariate-Muster aus, wo alle Prädiktoren auf Null gesetzt sind. Dann erhöhen wir die Grundlinienüberlebensfunktion auf die exponentielle zur linearen Kombination der Koeffizienten und die Werte der Kovariaten im kovariate Muster von Interesse. So wäre in diesem besonderen Fall die Linearkombination: -0.0336943300.03645375 - 0.26741131 - 1.2459280 - .03377280. Das Betrachten der Überlebensfunktion für ein kovariate Muster ist manchmal nicht ausreichend. Es ist oft sehr nützlich, einen Graphen zu haben, wo wir die Überlebensfunktionen verschiedener Gruppen vergleichen können. Im folgenden Beispiel erzeugen wir einen Graphen mit den Überlebensfunktionen für die beiden Behandlungsgruppen, in denen alle Probanden 30 Jahre alt sind (Alter 30), 5 vorherige Arzneimittelbehandlungen (ndrugtx 5) und werden derzeit an der Stelle A (Standort) behandelt 0 und agesite 3000). So unterscheiden sich die beiden kovariate Muster nur in ihren Werten für die Behandlung. Wir können die Anpassung des Modells anhand der Cox-Snell-Residuen auswerten. Wenn das Modell die Daten gut passt, dann hat die wahre kumulative Gefährdungsfunktion, die vom Kovariate-Vektor abhängig ist, eine exponentielle Verteilung mit einer Hazardrate von eins. Dies bedeutet, dass man das Modell mit dem Befehl stcox anpasst und die mgale-Option angibt, die die Martingale-Reste erzeugt. Dann verwenden wir den Vorhersagebefehl mit der Option csnell, um die Cox-Snell-Residuen für das Modell zu generieren. Wir setzen die Daten mit dem Befehl stset zurück, der die Variable cs angibt. Die Variable, die die Cox-Snell-Residuen enthält, als die Zeitvariable. Wir verwenden dann den Befehl sts erzeugen, um die Nelson-Aalen kumulative Gefahrenfunktion zu erstellen. Schließlich grafisch wir die Nelson-Aalen kumulative Gefahrenfunktion und die cs-Variable, so dass wir die Gefahrenfunktion mit der diagonalen Linie vergleichen können. Wenn die Gefahrenfunktion der 45-Grad-Linie folgt, dann wissen wir, dass es etwa eine exponentielle Verteilung mit einer Hazard-Rate von einem hat und dass das Modell den Daten gut passt. Wir sehen, dass die Gefährdungsfunktion der 45-Grad-Linie sehr genau folgt, außer für sehr große Zeitwerte. Es ist sehr häufig für Modelle mit zensierten Daten, um einige wackeln bei großen Werten der Zeit haben und es ist nicht etwas, das viel Sorge verursachen sollte. Insgesamt würden wir feststellen, dass das endgültige Modell den Daten sehr gut entspricht. Der Inhalt dieser Website sollte nicht als eine Bestätigung einer bestimmten Website, Buch oder Software-Produkt von der University of California ausgelegt werden.
Comments
Post a Comment