banner

Blog

Nov 10, 2023

Statistische Modelle versus maschinelles Lernen für konkurrierende Risiken: Entwicklung und Validierung prognostischer Modelle

BMC Medical Research Methodology Band 23, Artikelnummer: 51 (2023) Diesen Artikel zitieren

1353 Zugriffe

9 Altmetrisch

Details zu den Metriken

In der Gesundheitsforschung sind mehrere chronische Krankheiten anfällig für konkurrierende Risiken (CRs). Ursprünglich wurden statistische Modelle (SM) entwickelt, um die kumulative Inzidenz eines Ereignisses bei Vorhandensein von CRs abzuschätzen. Da in jüngster Zeit ein wachsendes Interesse an der Anwendung von maschinellem Lernen (ML) zur klinischen Vorhersage besteht, wurden diese Techniken auch auf Modell-CRs ausgeweitet, die Literatur ist jedoch begrenzt. Unser Ziel ist es hier, die mögliche Rolle von ML gegenüber SM für CRs in nicht komplexen Daten (kleine/mittlere Stichprobengröße, niedrigdimensionale Einstellung) zu untersuchen.

Ein Datensatz mit 3826 retrospektiv erfassten Patienten mit Weichteilsarkomen der Extremitäten (eSTS) und neun Prädiktoren wird verwendet, um die modellprädiktive Leistung im Hinblick auf Diskriminierung und Kalibrierung zu bewerten. Zwei SM-Techniken (ursachenspezifisches Cox, Fine-Gray) und drei ML-Techniken werden für CRs in einer einfachen klinischen Umgebung verglichen. Zu den ML-Modellen gehören ein ursprüngliches teilweise logistisches künstliches neuronales Netzwerk für CRs (PLANNCR-Original), ein PLANNCR mit neuartigen Spezifikationen in Bezug auf die Architektur (PLANNCR erweitert) und ein zufälliger Überlebenswald für CRs (RSFCR). Der klinische Endpunkt ist die Zeit in Jahren zwischen der Operation und dem Fortschreiten der Krankheit (interessantes Ereignis) oder dem Tod (konkurrierendes Ereignis). Interessante Zeitpunkte sind 2, 5 und 10 Jahre.

Basierend auf den ursprünglichen eSTS-Daten werden 100 Bootstrapping-Trainingsdatensätze erstellt. Die Leistung der endgültigen Modelle wird anhand von Validierungsdaten (ausgelassene Stichproben) bewertet, indem als Messgrößen der Brier-Score und die Fläche unter der Kurve (AUC) mit CRs verwendet werden. Eine Fehlkalibrierung (absoluter Genauigkeitsfehler) wird ebenfalls geschätzt. Die Ergebnisse zeigen, dass die ML-Modelle in der Lage sind, nach 2, 5 und 10 Jahren eine vergleichbare Leistung mit dem SM zu erreichen, sowohl hinsichtlich des Brier-Scores als auch der AUC (95 %-Konfidenzintervalle überlappen). Allerdings sind die SM häufig besser kalibriert.

Insgesamt sind ML-Techniken weniger praktisch, da sie eine erhebliche Implementierungszeit erfordern (Datenvorverarbeitung, Hyperparameter-Abstimmung, Rechenintensität), wohingegen Regressionsmethoden ohne den zusätzlichen Arbeitsaufwand des Modelltrainings eine gute Leistung erbringen können. Daher sollten diese Techniken für nicht komplexe reale Überlebensdaten nur ergänzend zu SM als explorative Werkzeuge zur Modellleistung angewendet werden. Der Modellkalibrierung muss dringend mehr Aufmerksamkeit geschenkt werden.

Peer-Review-Berichte

Die Überlebensanalyse (auch Time-to-Event-Analyse genannt) wird verwendet, um die Lebensdauer einer bestimmten untersuchten Population abzuschätzen. Überlebensdaten werden häufig rechtszensiert; Die Zeit bis zum Eintritt des Ereignisses wird nicht bei allen Patienten eingehalten, da die Nachbeobachtung vor dem Eintritt des Ereignisses von Interesse unterbrochen wurde oder zeitliche Einschränkungen (Studienabbruch) vorliegen. Bei klinischen Anwendungen von Überlebensdaten treten häufig konkurrierende Risiken (CRs) auf [1,2,3,4]. Bei dieser Art von Daten kann eine Person aus mehreren Gründen scheitern. Eine CR ist ein Ereignis, dessen Eintreten das Eintreten eines Ereignisses von Interesse ausschließt (z. B. kann der Tod das Eintreten eines Krankheitsrückfalls ausschließen) [5, 6]. In der Gesundheitsforschung ist es unwahrscheinlich, dass CRs unabhängig sind, da die Biologie zumindest eine gewisse Abhängigkeit zwischen Ereignissen nahelegt. Bei mehreren chronischen Krankheiten, die auf Alterung und Gebrechlichkeit zurückzuführen sind, wie Krebs, chronische Herzinsuffizienz oder Demenz, sind Studienpopulationen anfällig für CRs [7].

Der beliebteste nichtparametrische Ansatz zur Schätzung des Überlebens bei Vorhandensein richtig zensierter Time-to-Event-Daten ist die Kaplan-Meier-Methodik (KM) [8]. Bei Vorliegen von CRs überschätzt diese Methode jedoch die Wahrscheinlichkeit eines Versagens, was zu einer Überbehandlung der Patienten führen könnte [1, 5, 9]. Es wurden verschiedene statistische Modelle (SM) entwickelt, um die kumulative Inzidenz (absolutes Risiko) eines Ereignisses bei Vorliegen von CRs abzuschätzen, beispielsweise das ursachenspezifische Cox-Modell [10] und das Fine-Gray-Subverteilungsgefahren-Regressionsmodell [ 11]. Ersteres ist eine natürliche Erweiterung des Standard-Cox-Modells für proportionale Gefahren für die CR-Einstellung, bei dem ein Cox-Modell für jede ursachenspezifische Gefahr angewendet wird. Letzteres modelliert die Wirkung von Kovariaten direkt auf die kumulative Inzidenzfunktion (CIF) über die Zeit und berichtet über das Unterverteilungs-Gefahrenverhältnis [9].

Heutzutage besteht ein wachsendes Interesse an der Anwendung von maschinellem Lernen (ML) zur Vorhersage (Diagnose oder Prognose) klinischer Ergebnisse [12, 13], was eine Debatte über den Mehrwert von ML-Techniken gegenüber SM im medizinischen Bereich ausgelöst hat. Kritik wird ML-Vorhersagemodellen zugeschrieben. Obwohl keine Annahmen über die Datenstruktur getroffen werden und Wechselwirkungen zwischen Vorhersagemerkmalen auf natürliche Weise berücksichtigt werden können, neigen sie zu einer Überanpassung der Trainingsdaten und es fehlt ihnen eine umfassende Bewertung der Vorhersagegenauigkeit (d. h. das Fehlen von Kalibrierungskurven) [14, 15]. ]. Andererseits gelten traditionelle Regressionsmethoden als einfach anzuwenden und lassen sich schwerer anpassen. Allerdings gehen sie von bestimmten (in der Regel starken) Annahmen aus, etwa den proportionalen Gefahren im Zeitverlauf für das Cox-Modell, und erfordern eine manuelle Vorspezifikation der Interaktionsterme.

Unter den ML-Techniken sind künstliche neuronale Netze im Gesundheitswesen eine gängige Wahl. Dieser Trend ist relevant für die Erfassung umfangreicher und komplexer Patienteninformationen in elektronischen Gesundheitsakten und den Anstieg der Rechenleistung [16]. Im Laufe der Jahre wurden neuronale Netze und andere ML-Techniken für Überlebensdaten entwickelt. Wang et al. im Jahr 2019 einen umfassenden Überblick über konventionelle und moderne Ansätze für rechtszensierte Time-to-Event-Daten liefern [17]. Die Autoren beschreiben mehrere ML-Techniken und weisen darauf hin, dass neuronale Netze gut geeignet sind, das Überleben vorherzusagen und das Krankheitsrisiko abzuschätzen.

A common approach in the literature is the partial logistic artificial neural network (PLANN) of Biganzoli et al. (1998) [3.0.CO;2-D ." href="/articles/10.1186/s12874-023-01866-z#ref-CR18" id="ref-link-section-d54317150e784"> 18]. Zum Zweck der Implementierung wird die Zeit in diskreten, nicht überlappenden Zeitintervallen angegeben, die als Eingabemerkmal in einem longitudinal transformierten Feed-Forward-Netzwerk mit logistischer Aktivierung und Entropiefehlerfunktion hinzugefügt werden. Die Ausgabeschicht schätzt geglättete diskrete Gefahren für jedes Zeitintervall. PLANN wurde von Lisboa et al. erweitert. (2003) unter einem Bayes'schen Regularisierungsrahmen, der eine automatische Relevanzbestimmung durchführt (PLANN-ARD) [19]. Kürzlich haben Kantidakis et al. Im Jahr 2020 wurden Erweiterungen von PLANN in Bezug auf die Architektur vorgeschlagen, z. B. neue Hyperparameter, neue Aktivierungsfunktionen und Zeitintervallspezifikationen als mehrere Eingabemerkmale [20]. Neben Survival Neural Networks (SNNs) sind Random Survival Forests eine weitere bekannte ML-Technik zur klinischen Vorhersage von Überlebensdaten (RSF, Ishwaran et al. 2008) [21]. RSF adaptiert Breimans Random-Forest-Methode unter Verwendung einer Sammlung von Überlebensbäumen [22].

ML-Ansätze wurden auch für CRs eingesetzt, die Literatur ist jedoch begrenzt. Der PLANNCR-Ansatz wurde von Biganzoli et al. entwickelt. im Jahr 2006 zur gemeinsamen Modellierung diskreter ursachenspezifischer Gefahren [23]. Dies erweitert PLANN durch die Verwendung der Zeit (in diskreten Zeitintervallen) als Eingabemerkmal in einem longitudinal transformierten Netzwerk mit multinomialer Fehlerfunktion und Logistik-Softmax-Aktivierungsfunktionen für die verborgene bzw. die Ausgabeschicht (mehrere Ausgabeknoten). Später stellten Lisboa et al. (2009) implementierten PLANNCR unter einem Bayes'schen Regularisierungsrahmen (PLANNCR-ARD) [24]. Ishwaran et al. erweiterter RSF für CRs (RSFCR) im Jahr 2014, um den CIF konkurrierender Ereignisse abzuschätzen [25].

Für diese Arbeit wird ein Datensatz mit kleiner/mittlerer Stichprobengröße und begrenzter Anzahl prädiktiver Merkmale (niedrigdimensionale Einstellung) analysiert. Dabei handelt es sich um eine retrospektiv gesammelte Kohorte von 3826 Patienten mit hochgradigen Weichteilsarkomen der Extremitäten (eSTS), die mit kurativer Absicht chirurgisch behandelt wurden. Neun Prognosefaktoren werden verwendet, um mehrere klinische Vorhersagemodelle mit CRs für ML-Techniken und SM zu entwickeln und zu validieren. Der klinische Endpunkt der Studie ist definiert als die Zeit in Jahren zwischen der Operation und dem Fortschreiten der Krankheit (als lokales Rezidiv oder Fernmetastasierung; Ereignis von Interesse) von eSTS, bei dem der Tod ein konkurrierendes Ereignis ist. Interessante Zeitpunkte sind 2, 5 und 10 Jahre (der 5-Jahres-Horizont ist von großem klinischem Interesse). Die Analysen wurden in der Programmiersprache R Version 4.1.2 durchgeführt [26].

Die Ziele dieses Manuskripts lassen sich wie folgt zusammenfassen: (i) Untersuchung von Erweiterungen der PLANNCR-Methode (PLANNCR erweitert) für die Entwicklung und Validierung prognostischer klinischer Vorhersagemodelle mit konkurrierenden Ereignissen, (ii) systematische Bewertung der Modellvorhersageleistung für ML-Techniken (PLANNCR Original, PLANNCR Extended, RSFCR) und SM (ursachenspezifisches Cox, Fine-Gray) hinsichtlich Diskriminierung und Kalibrierung, (iii) Untersuchung der potenziellen Rolle von ML im Gegensatz zu herkömmlichen Regressionsmethoden für CRs in nicht komplexen eSTS-Daten (kleine/mittlere Stichprobengröße, niedrige Dimensionseinstellung), (iv) praktischer Nutzen der Methoden zur Vorhersage.

Der Aufsatz ist wie folgt aufgebaut. Im Abschnitt „Methoden“ werden die eSTS-Daten vorgestellt. In weiteren Abschnitten werden grundlegende Konzepte für CRs, die SM- und ML-Techniken, das Modelltraining und die Bewertung der Vorhersageleistung erörtert. Abschnitt „Ergebnisse“ beschreibt PLANNCR erweitert abgestimmt auf zwei Maßnahmen und vergleicht die Vorhersageleistung aller Methoden in Bezug auf Diskriminierung und Kalibrierung. Das Manuskript endet mit einer „Diskussion“ über Erkenntnisse, Grenzen und Zukunftsperspektiven dieser Arbeit.

Dieser Abschnitt ist in mehrere Unterabschnitte unterteilt, in denen dem Leser die für diese Arbeit verwendete Methodik vorgestellt wird. Zunächst werden die klinischen Daten beschrieben. Als nächstes werden die SM- und ML-Techniken besprochen. Es werden zwei bekannte statistische Modelle für CRs verwendet: das ursachenspezifische Cox-Modell [10] und das Fine-Gray-Sub-Distribution-Hazards-Regressionsmodell [11] sowie zwei Erweiterungen beliebter ML-Techniken für CRs: das RSFCR [25] und der PLANNCR [23] in der ursprünglich entwickelten Form oder mit einigen Modifikationen. Anschließend wird dargestellt, wie die Modelle trainiert wurden und welche Leistungsmaße zur Bewertung ihrer Vorhersagefähigkeit verwendet wurden. Weitere technische Details finden Sie im Zusatzmaterial.

Extremitäten-Weichteilsarkome (eSTS) stellen eine Vielzahl histologischer Subtypen mit unterschiedlichen Größen und Schweregraden dar, die Patienten jeder Altersgruppe betreffen. Die Behandlungsprotokolle können je nach Institut und Land unterschiedlich sein. Daher können wichtige Unterschiede im klinischen Verlauf und in der Prognose der Patienten beobachtet werden [27]. Im Laufe der Jahre wurden mehrere prognostische Vorhersagemodelle für das Gesamtüberleben und das Lokalrezidiv entwickelt [28,29,30].

Für dieses Projekt wurde eine retrospektiv gesammelte Kohorte von 3826 Patienten mit eSTS verwendet [29]. Der Datensatz enthielt pseudoanonymisierte Patienten vom Leiden University Medical Center (Leiden, Niederlande), dem Royal Orthopaedic Hospital (Birmingham und Stanmore, Großbritannien), dem Niederländischen Krebsinstitut (Amsterdam, Niederlande), dem Mount Sinai Hospital (Toronto, Kanada). Norwegisches Radium-Krankenhaus (Oslo, Norwegen), Universitätsklinikum Aarhus (Aarhus, Dänemark), Universitätsklinikum Skåne (Lund, Schweden), Medizinische Universität Graz (Graz, Österreich), Royal Marsden Hospital (London, Großbritannien), Daniel den Hoed (Rotterdam). , Niederlande), Radboud University Medical Center (Nijmegen, Niederlande), University Medical Center Groningen (Groningen, Niederlande), Haukeland University Hospital (Bergen, Norwegen), Helios Klinikum Berlin-Buch (Berlin, Deutschland), MedUni Wien ( Wien, Österreich), Allgemeines Krankenhaus Wien (Wien, Österreich). Darüber hinaus wurden eSTS-Patienten aus der randomisierten kontrollierten Studie EORTC 62931 eingeschlossen [31]. Die Daten der Zentren wurden zwischen Januar 2000 und Dezember 2014 gesammelt. Patienten aus der EORTC-Studie wurden zwischen Februar 1995 und Dezember 2003 rekrutiert.

Die Patienten wurden anhand der histologischen Diagnose aus dem Sarkomregister jedes Krankenhauses ausgewählt. Diejenigen, die zunächst ohne Heilabsicht behandelt wurden, zeigten zu Studienbeginn ein lokales Rezidiv oder eine Fernmetastasierung, hatten ein Kaposi-Sarkom oder Rhabdomyosarkom (pädiatrische Form), einen Tumor befanden sich in ihrem Bauch, Thorax, Kopf oder Hals oder wurden mit isolierter schlaffer Perfusion als neoadjuvante Behandlung behandelt von der Sammlung ausgeschlossen.

Der Datensatz enthielt neun Prognosefaktoren. Sieben waren kategorisch; Geschlecht (weiblich oder männlich), Operationsrand (\(R_{0}\) für negativ oder \(R_{1-2}\) für positiv mit Tumorzellen in der eingefärbten Oberfläche des Resektionsrandes), adjuvante Chemotherapie (Nr oder ja), Tumorgrad (II oder III), Tumortiefe im Verhältnis zur umgebenden Faszie (oberflächlich oder tief), Strahlentherapie (nein, neoadjuvant oder adjuvant), histologischer Subtyp (Myxofibrosarkom, Synovialsarkom, malignes fibröses Histiozytom / undifferenziertes pleomorphes Sarkom / (pleomorphe) Weichteilsarkome, nicht anders spezifiziert, Leiomyosarkom, Liposarkom oder andere). Zwei waren durchgehend; Alter zu Studienbeginn (in Jahren) und Tumorgröße anhand des größten bei der pathologischen Untersuchung gemessenen Durchmessers (in Zentimetern).

Die mittlere Nachbeobachtungszeit beträgt 5,98 Jahre, geschätzt durch umgekehrtes Kaplan-Meier (25 %-Quartil: 3,94 Jahre, 75 %-Quartil: 8,80 Jahre, Bereich: 0,01 bis 16,85 Jahre) [8]. Der interessierende Endpunkt ist definiert als die Zeit in Jahren zwischen Operation und Krankheitsprogression (Lokalrezidiv oder Fernmetastasierung) von eSTS, mit dem Tod als konkurrierendem Ereignis; Am Ende der Nachbeobachtung waren 1773 Patienten am Leben/zensiert (46,34 %), 1554 hatten eine Krankheitsprogression (40,62 %) und 499 starben ohne Lokalrezidiv/Fernmetastasierung (13,04 %).

Der Datensatz enthielt insgesamt 3,70 % fehlende Daten für die neun Variablen, mit 2514 vollständigen Fällen (65,71 %). Genauer gesagt fehlten Werte (0,97–11 %) für alle Variablen; 11,00 % für die Tumortiefe (421/3826), 8,21 % für den histologischen Subtyp (314/3826), 7,40 % für den chirurgischen Rand (283/3826), 4,36 % für die adjuvante Chemotherapie (167/3826), 4,05 % für die Tumorgröße ( 155/3826), 3,53 % für das Geschlecht (135/3826), 2,61 % für die Strahlentherapie (100/3826), 1,99 % für den Tumorgrad (76/3826) und 0,97 % für das Alter (37/3826), in absteigender Reihenfolge , jeweils.

Um zu vermeiden, dass Beobachtungen aus nahezu vollständigen Aufzeichnungen verworfen werden, wurde eine einfache Imputation verwendet. Zur Rekonstruktion fehlender Werte wurde der missForest-Algorithmus angewendet, der der umfassendste/genaueste Random-Forest-Algorithmus für fehlende Daten ist [32]. Hierbei handelt es sich um eine nichtparametrische Imputationsmethode, die keine apriorischen Annahmen hinsichtlich der Datenstruktur trifft. Für jede Variable mit fehlenden Informationen wurde ein zufälliger Wald mit 1000 Bäumen (zur Modellstabilität) erstellt und alle möglichen Variablenkombinationen als Antworten getestet. Tabelle 1 enthält Patientendemografien des endgültigen Datensatzes (Demografien des Originaldatensatzes sind in Tabelle S1 der Zusatzdatei 1 aufgeführt).

Typischerweise ist für Überlebensdaten, wenn mehrere Arten von Ereignissen auftreten, ein Modell erforderlich, das den Verlauf für jede der CRs beschreibt. Die beobachtbaren Daten werden durch den Zeitpunkt des Ausfalls T, die Ursache des Ausfalls D (\(D \in 1, \cdots , k\), \(k \ge 1\); hier k = 2) und eine Kovariate dargestellt Vektor \(\mathbf{Z}\). Normalerweise gibt es eine Art von Ereignis, das von Interesse ist (z. B. Fortschreiten der Krankheit als lokales Rezidiv oder Fernmetastasierung), während die anderen Ereignisse das Auftreten verhindern könnten (hier ist das konkurrierende Ereignis der Tod).

Nach Putter et al. (2007) [1] ist ein grundlegendes Konzept bei der Modellierung von CRs die ursachenspezifische Gefahrenfunktion, die die Gefahr eines Ausfalls aufgrund einer bestimmten Ursache bei Vorhandensein von CRs angibt:

Dann kann die kumulative ursachenspezifische Gefahr wie folgt angegeben werden:

und die Überlebensfunktion (Wahrscheinlichkeit, zum Zeitpunkt t aus irgendeinem Grund nicht ausgefallen zu sein) kann geschrieben werden als

Die kumulative Inzidenzfunktion (CIF) der Ursache k ist definiert als \(I_{k}(t) = Prob(T \le t, D = k)\), die Wahrscheinlichkeit eines Ausfalls aufgrund der Ursache k vor dem Zeitpunkt t. Dies kann mit den ursachenspezifischen Gefährdungen verknüpft werden durch den Ausdruck:

Dies wird auch als Unterverteilungsfunktion bezeichnet, da die kumulative Wahrscheinlichkeit eines Ausfalls aufgrund von Ursache k nicht eins erreichen kann und es sich daher nicht um eine ordnungsgemäße Wahrscheinlichkeitsverteilung handelt.

Die Regression ursachenspezifischer Gefahren ist eine Erweiterung des beliebten Cox-Proportional-Hazards-Modells für CRs [10, 33]. Die ursachenspezifische Gefahr der Ursache k eines Subjekts mit dem Kovariatenvektor \(\mathbf{Z}\) wird modelliert als

wobei \(\lambda _{k, 0}(t)\) die ursachenspezifische Gefahr ist und der Vektor \(\varvec{\beta }_{k}\) die Auswirkungen von Kovariaten auf Ursache k darstellt. Patienten, die in einen anderen Staat als k ziehen, werden zum Übergangszeitpunkt zensiert.

Im Jahr 1999 führten Fine und Gray ein Unterverteilungsgefahrenmodell ein, das direkt auf CIF zurückgehen kann [11]:

Beim ursachenspezifischen Cox-Modell nimmt die Risikomenge (Anzahl der gefährdeten Patienten) zu jedem Zeitpunkt ab, an dem eine andere Ursache ausfällt. Andererseits bleiben im Modell von Fine und Gray Personen, die aus einer anderen Ursache scheitern, in der Risikogruppe. Die Gefahren der Unterverteilung werden dann unter der Annahme proportionaler Gefahren modelliert:

Ähnlich wie beim Standard-Cox-Modell wird zur Schätzung der Parameter der Partial-Likelihood-Ansatz verwendet.

Zufällige Überlebenswälder für konkurrierende Risiken (RSFCR) [25] sind eine Erweiterung des von Ishwaran et al. vorgeschlagenen RSF-Frameworks [21, 22] für CRs mit rechtszensierten Daten. im Jahr 2014. Es handelt sich um einen vollständig nichtparametrischen Ensemble-Baum-Ansatz zur Schätzung des CIF für konkurrierende Ereignisse (CIF und ursachenspezifische Gefahrenfunktion hängen zusammen, wie in Gleichung (4) gezeigt). RSFCR kann nichtlineare Effekte und Wechselwirkungen direkt modellieren, um genaue Vorhersagen zu treffen, ohne vorherige Annahmen über die zugrunde liegenden Daten zu treffen.

Der Algorithmus von RSFCR basiert auf rekursiver binärer Partitionierung und fügt Zufälligkeit auf zwei Arten ein: (a) Zeichnen von B-Bootstrap-Stichproben aus den Lerndaten und (b) Erzeugen eines einzelnen CRs-Baums für jede Bootstrap-Stichprobe durch zufällige Auswahl einer Teilmenge von Kandidatenvariablen an jedem Knoten (Bereich des Baums). Eine CR-Aufteilungsregel wird maximiert, um jeden übergeordneten Knoten mithilfe der ausgewählten Variablen in Tochterknoten aufzuteilen. Die Autoren schlagen zwei Aufteilungsregeln vor: entweder eine ereignisspezifische oder eine Kombination ereignisspezifischer Aufteilungsregeln über die k Ereignisse hinweg. Hier wurde die ereignisspezifische Aufteilungsregel angewendet, da der Krankheitsverlauf von großem Interesse war (gewichtete Log-Rank-Aufteilung, technische Details in [25]). Dann wird jeder Baum auf seine volle Größe vergrößert, unter der Bedingung, dass die Endknoten (die Enden jedes Baums) mindestens einen eindeutigen Fall haben sollten. In den Endknoten werden die Methoden Kaplan-Meier [8] und Aalen-Johansen [34] verwendet, um die ereignisfreie Überlebensfunktion bzw. den ursachenspezifischen CIF abzuschätzen. Schließlich werden die Ensembleschätzungen berechnet, indem jeder Schätzer über die B-gewachsenen Bäume gemittelt wird. Weitere technische Details finden Sie in der Zusatzdatei 2.

In 2006, Biganzoli et al. extended the partial logistic artificial neural network to competing risks (PLANNCR) for the joint modelling of discrete cause-specific hazards [3.0.CO;2-D ." href="/articles/10.1186/s12874-023-01866-z#ref-CR18" id="ref-link-section-d54317150e2646"> 18, 23]. PLANNCR ist ein Feed-Forward-Netzwerk, das aus einer Gruppe von Einheiten besteht, die Knoten (oder Neuronen) in jeder Schicht genannt werden. Es verfügt über eine Eingabeschicht, die die Signale aufnimmt und sie nach Anwendung einer Aktivierungsfunktion (auch Transformation genannt) an eine einzelne verborgene Schicht weiterleitet. Eine Aktivierungsfunktion moduliert den Grad der Nichtlinearität, der von den Eingabemerkmalen auf die verborgene Ebene übertragen wird. Verbindungen zwischen den künstlichen Neuronen verschiedener Schichten werden Kanten genannt – jede hat ein Gewicht. Die Gewichte werden durch Training angepasst, indem die Stärke jeder Verbindung erhöht oder verringert wird [35]. Signale werden an die Ausgabeschicht übertragen, die eine geglättete Schätzung diskreter bedingter Ereigniswahrscheinlichkeiten (in mehreren Ausgabeknoten; jeder für ein Ereignis) mit einer anderen Aktivierungsfunktion bereitstellt.

Zum Zwecke der Implementierung werden die Überlebenszeiten in einen Satz disjunkter Intervalle \(l = 1, \cdots , L\) \(A_{l} = (\tau _{l-1}, \tau _{l) diskretisiert }]\), wobei \(0=\tau _{0}<\tau _{1}<\cdots <\tau _{L}\) eine Menge vordefinierter Zeitpunkte (normalerweise Jahre) ist. Für Im \(l^{th}\)-Intervall werden beobachtete Zeiten an einem einzigen Punkt \(\tau _{l}\) gruppiert. Die Daten müssen in ein Längsschnittformat umgewandelt werden, in dem die Zeitvariable (in Intervallen) hinzugefügt wird als Teil der Eingabemerkmale neben den prognostischen Merkmalen. Die Probanden werden für die Anzahl der in den Trainingsdaten beobachteten Intervalle und für alle Zeitintervalle in den Testdaten wiederholt. PLANNCR kann nichtlineare, nicht proportionale und nicht-proportionale Modelle modellieren. additive Effekte zwischen den prognostischen Faktoren auf die ursachenspezifischen Gefahren. Hier wurde, ohne Beschränkung der Allgemeinheit, jedes Subjekt für 1 bis 11 Zeitintervalle wiederholt, die die Jahre seit der Operation bezeichnen. Das letzte Intervall umfasste Überlebenszeiten von mehr als 10 Jahren (nachfolgende Intervalle waren). nicht von Interesse).

Im CRs-Modell hat der Antwortvektor \(R + 1\) Variablen, wobei \(r = 1, \cdots ,R\) die möglichen Ursachen von Interesse sind (hier \(R = 2\)). Sei \(\mathbf {z}_{k} = (\tau _{l}, \mathbf {x}_{k}\)) durch zwei Komponenten definiert: den Kovariatenvektor \(\mathbf {x}_ {k}\) (\(k = 1, 2, \cdots , p\)) und das Zeitintervall \(\tau _{l}\). Die gemeinsame Abhängigkeit der einzelnen ursachenspezifischen Gefahren wird modelliert als:

wobei \(h = 1, \cdots , H\) Knoten in der verborgenen Schicht, \(\varvec{\beta }\) der Vektor der geschätzten Gewichte für die Eingabe-versteckte (\(\beta _{01}, \ cdots , \beta _{0H}, \beta _{1}, \cdots , \beta _{H}\)), versteckte Ausgabeschichten (\(\beta _{0}, \beta _{1}^ {a}, \cdots , \beta _{R}^{a}\)) und \(\alpha _{h}\) die sigmoidförmige (logistische) Aktivierungsfunktion für die verborgene Schicht \(\alpha _{h }(\mathbf{z}_{k}, \varvec{\beta }_{h}) = \frac{\exp (\beta _{0h} + \beta _{h}^T \mathbf {z} _{k})}{1 + \exp (\beta _{0h} + \beta _{h}^T\mathbf {z}_{k})}\).

Die Aktivierungsfunktion für die Ausgabeschicht ist der Softmax, der die diskreten ursachenspezifischen Gefahren bereitstellt:

für \(l = 1, \cdots ,L\) Intervalle und \(r = 1, \cdots ,R\) interessierende Ursachen. Da PLANNCR für jeden CR einen anderen Ausgabeknoten hat (insgesamt 1 + R Ausgabeknoten), handelt es sich um eine Erweiterung standardmäßiger neuronaler Netze für die Mehrfachklassifizierung unter Rückgriff auf die multinomiale Wahrscheinlichkeit. Für den Rest dieser Arbeit wird dies als PLANNCR-Original bezeichnet [23].

Ähnliche Erweiterungen der Spezifikation des PLANNCR werden bereitgestellt wie bei Kantidakis et al. (PLANN erweitert, 2020) [20]. Genauer gesagt ist PLANNCR Extended darauf abgestimmt, zwei neue Aktivierungsfunktionen für die verborgene Schicht zu untersuchen: (1) die gleichgerichtete lineare Einheit (ReLU), eine gemeinsame Aktivierungsfunktion, \(\alpha _{h}(\mathbf {z}_{k} , \varvec{\beta }_{h}) = \max (0, \beta _{0h} + \beta _{h}^T \mathbf {z}_{k})\), oder (2) der hyperbolische Tangens (tanh), \(\alpha _{h}(\mathbf {z}_{k}, \varvec{\beta }_{h}) = \frac{1 - \exp (-2(\ beta _{0h} + \beta _{h}^T \mathbf {z}_{k}))}{1 + \exp (-2(\beta _{0h} + \beta _{h}^T \mathbf{z}_{k}))}\). Jedes Mal wird ein neuronales Netzwerk mit einer dieser Aktivierungsfunktionen für die verborgene Schicht oder mit der Sigmoid-(logistischen) Aktivierungsfunktion (wie im PLANNCR-Original) ausgestattet. Beachten Sie, dass die Aktivierungsfunktion für die Ausgabeschicht unbedingt die Softmax-Funktion ist, um eine geglättete diskrete Gefahrenschätzung zu ermöglichen. Neue Hyperparameter werden in einer hochmodernen R-Bibliothek spezifiziert [36]. Im Gegensatz zu Kantidakis et al. (2020) werden die L nicht überlappenden Intervalle in einer Zeitvariablen (anstelle von L separaten Variablen) angegeben, um die Anzahl der Eingabemerkmale nicht zu erhöhen. Darüber hinaus werden Netzwerke mit zwei versteckten Schichten hier nicht getestet, da die Gefahr einer Überanpassung besteht (kleine bis mittlere Stichprobengröße, geringe Anzahl von Prädiktoren). Weitere technische Details für PLANNCR Original und PLANNCR Extended finden Sie in der Zusatzdatei 2.

Abbildung 1 zeigt, wie das Modelltraining durchgeführt wurde. Basierend auf den ursprünglichen eSTS-Daten wurden 100 Bootstrapping-Trainingsdatensätze mit jeweils 3826 Patienten erstellt (Stichprobe mit Ersatz, \(\ca.) 63,2 % der Originaldaten). Diese Datensätze wurden zufällig in zwei komplementäre Teile aufgeteilt, um die Hyperparameter der ML-Modelle mithilfe der Rastersuche (\(\frac{3}{4}\) zum Trainieren der Modelle und \(\frac{1}{4}\) abzustimmen. um ihre Leistung zu testen, gleiche Teile für alle Methoden). Die Leistung der endgültigen Modelle wurde anhand der Validierungsdaten bewertet, bei denen es sich um die ausgelassenen Proben handelte (unbearbeitet, \(\ungefähr\) 36,8 % der Daten). Out-of-Bag-Fehlerschätzungen sind nahezu identisch mit der N-fachen Kreuzvalidierung [37]. Für die Standardregressionsansätze wurden Modelle für jeden vollständigen Trainingsdatensatz (bestehend aus 3826 Patienten) unter Verwendung der neun Kovariaten erstellt. Ihre Vorhersageleistung wurde anhand des jeweiligen Validierungsdatensatzes bewertet. Komplexe funktionale Formabhängigkeiten (nichtlineare, nichtadditive, zeitabhängige Effekte) wurden nicht untersucht. Alle Analysen wurden in der Programmiersprache R Version 4.1.2 durchgeführt [26]. Pakete, die in den Implementierungs- und Optimierungsparametern für die ML-Techniken verwendet werden, werden in der Zusatzdatei 2 bereitgestellt.

Veranschaulichung des Modelltrainingsansatzes, der 100 Mal wiederholt wurde. Für die ML-Techniken wurden Hyperparameter auf die Trainingsdatensätze abgestimmt. Die endgültige Leistung aller Modelle wurde anhand der Validierungsdatensätze bewertet (Proben wurden weggelassen).

Die Vorhersageleistung der Methoden wurde im Hinblick auf Unterscheidung und Kalibrierung für jeden Validierungsdatensatz bewertet. Es wurden die Area Under the Curve (AUC) und der Brier-Score mit CRs verwendet. Es wurde auch eine Fehlkalibrierung (absoluter Genauigkeitsfehler) geschätzt. Diese Bewertungsmaßnahmen wurden eingesetzt, da sie modellunabhängig sind – sie können auf jedes Modell angewendet werden, um dessen Vorhersageleistung zu bewerten. Andere Maße wie das Akaike Information Criterion (AIC) oder das Bayesian Information Criterion (BIC) wurden nicht ausgewählt, da sie für den Vergleich der verschiedenen hier verwendeten SM- und ML-Techniken nicht (einfach) berechnet werden können.

Nach Blanche et al. [38] stellen wir die dynamische Version der Maßnahmen mit CRs vor (siehe auch [39]). Sei \(\pi _{i}(\cdot ,\cdot )\) ein subjekt-i-spezifischer Vorhersageprozess (\(i = 1, 2, \cdots , n\) unabhängige und identisch verteilte Subjekte) für alle Orientierungspunkte Zeiten s (Zeitpunkte, zu denen Vorhersagen gemacht werden) und Vorhersagehorizont t. Ohne Beschränkung der Allgemeinheit setzen wir \(\pi _{i} (s, t) = 0\) für alle Subjekte i, die zum Zeitpunkt s nicht mehr gefährdet sind, und konzentrieren uns auf die Vorhersage des Ereignisses \(D = 1\) ) (Hauptereignis untersucht). Eine dynamische AUC zu Meilensteinzeiten s für einen Vorhersagehorizont t kann definiert werden als

wobei \(\Delta _{i} (s, t)\) = \(\mathbbm {1}_{s

Die dynamische AUC mit CRs ist ein Maß für die Diskriminierung. Er liegt typischerweise zwischen 0,5 und 1 (je höher, desto besser). Eine gute Vorhersagegenauigkeit wird durch ein Modell erreicht, das in der Regel höhere vorhergesagte Ereignisrisiken für Probanden liefert, die das interessierende Ereignis erleben, im Vergleich zu Probanden, die das interessierende Ereignis nicht erlebt haben.

Ein umfassenderes Maß für die Vorhersagegenauigkeit bei CRs ist der Brier-Score. Der dynamische erwartete Brier-Score kann wie folgt geschrieben werden:

This expression can be expanded based on Graaf et al. 1999 [3.0.CO;2-5 ." href="/articles/10.1186/s12874-023-01866-z#ref-CR41" id="ref-link-section-d54317150e5094">41] in folgender Form

wobei \(H(s) = \{ \mathbf {X}, Y(s), T>s \}\) die Informationen zum Zeitpunkt s sind, die zur Berechnung der Vorhersage von \(\pi (s, t)\) verwendet werden. . Der erste Term in (12) misst die Kalibrierung – wie nahe die Vorhersagen an \(\mathbb{E} [\Delta (s, t) | H(s)]\ sind, dem „wahren“ zugrunde liegenden Risiko des Ereignisses in \ ((s, s+t]\) bei gegebenem H(s). Darüber hinaus hängt der zweite Term von der Unterscheidungsfähigkeit von H(s) ab. Somit ist der Brier-Score ein Maß sowohl für die Kalibrierung als auch für die Unterscheidung. Typischerweise variiert er von 0 bis 0,25 (niedrigere Werte bedeuten einen kleineren Vorhersagefehler).

Wenn zensierte Daten vorhanden sind, ist der Indikator \(\Delta _{i}(s, t)\) für alle Probanden, die ich innerhalb des Intervalls \((s, s+t]\) zensiert habe, unbekannt (kann nicht berechnet werden). Daher Für die Schätzung sowohl der dynamischen AUC als auch des Brier-Scores für CRs muss die Inverse Probability of Censoring Weighting (IPCW)-Technik angewendet werden. Einzelheiten siehe [38]. Hier wurde die Meilensteinzeit auf \(s = 0\) festgelegt. (Basislinie) für alle Analysen, da alle Prognosefaktoren zeitlich fixiert waren.

Zuletzt wurde die Vorhersagefähigkeit der Methoden anhand ihrer Fehlkalibrierung in jedem Validierungsdatensatz bewertet (siehe Abb. 1). Die Modellkalibrierung bezieht sich auf die Übereinstimmung zwischen beobachteten und vorhergesagten Ergebnissen, in diesem Fall auf Übereinstimmung zwischen beobachteten und vorhergesagten kumulativen Inzidenzereigniswahrscheinlichkeiten für eine Ursache \(D = k\) zum Zeitpunkt \(t = t_{0}\) [42, 43 ]. Für jedes SM- und ML-Modell werden die vorhergesagten kumulativen Inzidenzereigniswahrscheinlichkeiten anhand eines Validierungsdatensatzes geschätzt und die Daten werden basierend auf den Quantilen der vorhergesagten Ereigniswahrscheinlichkeiten in \(m = 4\) gleich große Gruppen aufgeteilt. Um etwaige Rechenprobleme zu vermeiden, wurden Quantile anstelle von (zum Beispiel) Dezilen ausgewählt. Anschließend werden die beobachteten kumulativen Inzidenzwahrscheinlichkeiten für jede Gruppe berechnet. Fehlkalibrierung ist definiert als der mittlere quadratische Fehler (MSE) der Differenz zwischen den beobachteten und den vorhergesagten kumulativen Ausfallwahrscheinlichkeiten aus einer bestimmten Ursache \(D = k\) zum Zeithorizont \(t = t_{0}\)

mit \(I_{k}^{(m)}(t_{0})\) und \(\hat{I_{k}}^{(m)}(t_{0})\) die beobachteten und vorhergesagten kumulative Ereigniswahrscheinlichkeit für Gruppe m.

In diesem Abschnitt werden Ergebnisse für die eSTS-Daten vorgestellt. Die folgenden Modelle werden im Hinblick auf die Vorhersageleistung verglichen: (1) Ursachenspezifisches Cox, (2) Feingrau, (3) PLANNCR Original, (4) PLANNCR erweitert, (5) RSFCR. Jedes Modell wird anhand von 100 Validierungsdatensätzen bewertet (siehe Abb. 1). Weitere Ergebnisse zum Vergleich zwischen den Methoden finden Sie in der Zusatzdatei 3.

Die für PLANNCR Original und PLANNCR Extended ausgewählten Hyperparameter sind in Abschnitt 1 der Zusatzdatei 3 aufgeführt. Die wirksamsten Kombinationen werden separat auf der Grundlage des Brier-Scores/AUC nach 5 Jahren angegeben (der 5-Jahres-Horizont war von großem klinischem Interesse).

Für das PLANN-Original wählten beide Leistungsmaße dieselben Werte für die beiden Hyperparameter (Größe und Verfall). Andererseits wurden separate Hyperparameter für PLANNCR ausgewählt, das auf einen 5-D-Raum erweitert wurde (Knotengröße, Abbruchrate, Lernrate, Dynamik, schwache Klassengewichtung). Die technischen Details finden Sie in der Zusatzdatei 2. Von den drei für die verborgene Schicht getesteten Aktivierungsfunktionen („Sigmoid“, „Relu“, „Tanh“) lieferte „Sigmoid“ für beide Brier die beste Leistung bei den Trainingsdaten Punktzahl und AUC. Es wurde ein schwaches Klassengewicht von 1 gewählt (keine Anpassung für Krankheitsprogression oder Tod).

Die Leistung des optimierten erweiterten PLANNCR wurde im Hinblick auf den Krankheitsverlauf (interessierendes Ereignis) verglichen. Die Ergebnisse sind in Tabelle 2 dargestellt. Die erweiterte Abstimmung von PLANNCR mit dem Brier-Score nach 5 Jahren zeigte eine bessere Leistung in Bezug auf den Brier-Score und die Fehlkalibrierung nach 2, 5 oder 10 Jahren. Allerdings zeigte PLANNCR mit erweiterter Optimierung der AUC nach 5 Jahren eine bessere Leistung hinsichtlich der AUC nach 5 und 10 Jahren. Diese Ergebnisse wurden erwartet, da der Brier-Score ein umfassenderes Maß ist, das sowohl Diskriminierung als auch Kalibrierung berücksichtigt. Für den Rest der unten dargestellten Ergebnisse wurden optimale Kombinationen für den Brier-Score nach 5 Jahren für die erweiterte PLANNCR ausgewählt.

In diesem Abschnitt werden die fünf Methoden anhand der 100 Validierungsdatensätze für verschiedene prädiktive Leistungsmaße verglichen: (1) Brier-Scores, (ii) AUC, (iii) Fehlkalibrierung nach 2, 5 bzw. 10 Jahren für das Fortschreiten der Krankheit ( Lokalrezidiv oder Fernmetastasierung). Optimale Hyperparameter und zusätzliche Diagramme für das interessierende Ereignis (Krankheitsfortschritt) und das konkurrierende Ereignis (Tod) sind in den Abschnitten 1 und 2 der Zusatzdatei 3 enthalten.

Abbildung 2 zeigt den Brier-Score (niedrigere Werte besser) und die AUC (höhere Werte besser) 2, 5 und 10 Jahre nach der Operation für alle Methoden hinsichtlich des Krankheitsverlaufs.

Vorhersageleistung des ursachenspezifischen Cox-Modells, des Fine-Gray-Modells, des ursprünglichen PLANNCR, des erweiterten PLANNCR (abgestimmt mit dem Brier-Score nach 5 Jahren und einschließlich der „Sigmoid“-Aktivierungsfunktion für die verborgene Schicht) und RSFCR für das interessierende Ereignis: Krankheit Progression ± 95 % Perzentil-Konfidenzintervalle basierend auf 100 Validierungsdatensätzen. Linkes Feld: Brier-Score, rechtes Feld: AUC 2, 5 und 10 Jahre nach der Operation

Beim zeitabhängigen Brier-Score wies das ursachenspezifische Cox-Modell im Allgemeinen die beste Leistung auf, gefolgt vom Fine-Gray-Modell und RSFCR nach 2 Jahren und dem erweiterten PLANNCR und Fine-Gray nach 5 und 10 Jahren. Das PLANNCR-Original hatte zu diesen Zeitpunkten etwas die schlechteste Leistung. 95 %-Konfidenzintervalle (KI) basierend auf der Perzentilmethode für 100 Validierungsdatensätze unter Verwendung der überlappenden Out-of-Bag-Daten. Der verlängerte PLANNCR hatte nach 2 Jahren ein geringfügig größeres 95 %-KI und nach 10 Jahren einen RSFCR. Bezüglich der AUC nach 2, 5 und 10 Jahren wiesen das ursachenspezifische Cox-Modell und der erweiterte Planncr die beste Leistung auf (sehr nahe beieinander), gefolgt vom Fine-Gray-Modell, dem RSFCR und dem ursprünglichen Planncr in absteigender Reihenfolge der Leistung. Die 95 %-Konfidenzintervalle waren bei beiden Methoden sehr ähnlich, mit Ausnahme des PLANNCR-Originals, das zu allen Zeitpunkten viel größere Intervalle aufwies. Dies bedeutet, dass seine Unterscheidungsfähigkeit (AUC) in den Validierungsdatensätzen nicht konsistent war (schwankte).

Abbildung S1 in der Zusatzdatei 3 zeigt das gleiche Diagramm mit erweitertem PLANNCR und abgestimmter AUC nach 5 Jahren. Die Vorhersagefähigkeit nahm im Hinblick auf den Brier-Score ab, stieg jedoch im Hinblick auf die AUC nach 5 und 10 Jahren leicht an (siehe auch Tabelle 2). Die Abbildungen S3 und S5 in der Zusatzdatei 3 veranschaulichen die Prognosefähigkeit (Brier-Score, AUC) aller Modelle für den Tod (das konkurrierende Ereignis). Der SM (ursachenspezifischer Cox und Fine-Gray) hatte den niedrigsten Brier-Score, gefolgt vom RSFCR. PLANNCR-Modelle zeigten nach 2 Jahren eine schlechtere Leistung und einen größeren KI als die anderen. Das ursprüngliche PLANCR-System wies weiterhin größere Konfidenzintervalle nach 5 und 10 Jahren auf, während das erweiterte PLANNCR-System nach 5 und 10 Jahren engere Konfidenzintervalle aufwies (konsistentere Leistung). Für die AUC wiesen das ursachenspezifische Cox-Modell und der erweiterte PLANNCR die höchsten Werte auf, gefolgt vom Fine-Gray-Modell und dem RSFCR. PLANCR hat ursprünglich die niedrigste Leistung und das größte 95 %-KI.

Die fünf Modelle wurden im Hinblick auf Fehlkalibrierung (Definition im Abschnitt „Prädiktive Leistungsbewertung“) nach 2, 5 und 10 Jahren untersucht. Die Ergebnisse sind in Abb. 3 mit Boxplots dargestellt. Das SM (ursachenspezifisches Cox-Modell, Fine-Gray) wies nach 2 Jahren mit Abstand den geringsten Fehlkalibrierungsfehler für die Krankheitsprogression (Ursache 1) auf. Das SM und dann das PLANNCR-Original hatten nach 5 Jahren die geringste Fehlkalibrierung (das SM und das PLANNCR verlängerten sich nach 10 Jahren). Der erweiterte Planncr hatte den höchsten Fehlkalibrierungsfehler nach 2 Jahren, den zweithöchsten nach 5 Jahren und den niedrigsten nach 10 Jahren (neben dem ursachenspezifischen Cox-Modell für diesen Zeitpunkt). Der RSFCR hatte nach 5 und 10 Jahren die schlechteste Kalibrierung für die kumulative Inzidenz des interessierenden Ereignisses.

Fehlkalibrierung des ursachenspezifischen Cox-Modells, des Fine-Gray-Modells, des ursprünglichen PLANNCR, des erweiterten PLANNCR (abgestimmt mit dem Brier-Score nach 5 Jahren) und des RSFCR nach 2, 5 und 10 Jahren für das interessierende Ereignis: Krankheitsprogression basierend auf 100-Validierung Datensätze. Die Fehlkalibrierung wurde als mittlerer quadratischer Fehler (MSE) zwischen den beobachteten und den vorhergesagten kumulativen Inzidenzereigniswahrscheinlichkeiten (für 4 Gruppen) berechnet.

Das Fehlkalibrierungsdiagramm für PLANNCR Extended Tuned mit AUC nach 5 Jahren ist in der Zusatzdatei 3 (Abb. S2) verfügbar. PLANNCR erweitert ist im Vergleich zu Abb. 3 weniger gut kalibriert. Dieses Ergebnis war zu erwarten, da das Modell in der ergänzenden Abbildung nur auf Diskriminierung abgestimmt war (AUC nach 5 Jahren), während es in Abb. 3 unter Berücksichtigung sowohl der Diskriminierung als auch der Kalibrierung optimiert wurde (Brier-Score nach 5 Jahren). Die Abbildungen S4 und S6 zeigen den Fehlkalibrierungsfehler für alle fünf Methoden für das konkurrierende Ereignis (Tod). Das ursachenspezifische Cox-Modell und das Fine-Gray-Modell wiesen den geringsten Fehlkalibrierungsfehler auf. RSFCR zeigt einen ähnlichen Fehlkalibrierungsfehler für den Tod im Alter von 2 und 5 Jahren und einen etwas schlimmeren Fehler im Alter von 10 Jahren. Die beiden neuronalen Netze wiesen zu jedem Zeitpunkt den höchsten Fehlkalibrierungsfehler auf (im Gegensatz zu den anderen drei Modellen). Eine vorläufige Erklärung für die höhere PLANNCR-Fehlkalibrierung für das konkurrierende Ereignis besteht darin, dass sie aus einer stärkeren Regularisierung der vorhergesagten Todeswahrscheinlichkeiten (für einen bestimmten Zeitpunkt) resultiert, was zu einer geringeren Streuung der Vorhersagen dort führt. Eine Lösung zur Verbesserung der Kalibrierung könnte darin bestehen, die Leistung von PLANNCR (z. B. Brier-Score nach 5 Jahren) für die konkurrierende Veranstaltung anzupassen. Da hier jedoch das Fortschreiten der Krankheit von größtem Interesse war, wurden sowohl der ursprüngliche als auch der erweiterte Planncr auf das Fortschreiten der Krankheit abgestimmt.

Nach unserem besten Wissen ist dies die erste Studie, die SM- mit ML-Techniken für CRs bei Weichteilsarkomen verglich. Insgesamt 3826 retrospektiv erfasste Patienten wurden mit hochgradigem eSTS auf der Grundlage von neun Prognosefaktoren (kleine/mittlere Stichprobengröße, niedrigdimensionale Einstellung) analysiert. Das SM (ursachenspezifisches Cox, Fine-Gray) und das RSFCR verwendeten genaue Zeitpunkte für Ereignisse, während die neuronalen Netze (PLANNCR-Original, PLANNCR-Erweitert) eine Datenaufbereitung in einem langen Format erforderten, bei dem die genauen Zeitpunkte in L-separate Zeiten umgewandelt wurden Intervalle (Jahre). Die fünf Methoden sagten die kumulative Inzidenz von Krankheitsprogression (interessierendes Ereignis) und Tod (konkurrierendes Ereignis) seit dem Datum der Operation voraus.

Die Ergebnisse zeigten, dass die ML-Modelle hinsichtlich des Brier-Scores und der AUC nach 2, 5 und 10 Jahren hinsichtlich Krankheitsprogression und Tod eine ähnliche Leistung wie die SM-Modelle aufweisen (95 %-Konfidenzintervalle überlappten sich). Die Vorhersagefähigkeit von PLANNCR Extended war in der Regel besser als die von RSFCR und PLANNCR Original, insbesondere für AUC. Dies bedeutet, dass PLANNCR Extended in der Lage war, besser zwischen Patientengruppen mit niedrigem und hohem Risiko zu unterscheiden. Dennoch waren die SM häufig besser kalibriert als die drei ML-Techniken. Die Fehlkalibrierung des ursprünglichen und erweiterten PLANNCR war bei der Konkurrenzveranstaltung stärker ausgeprägt. Diese Ergebnisse stimmen mit einer Simulationsstudie unserer Gruppe überein, in der die Vorhersageleistung von SNN (PLANN-Original und Erweiterungen) mit Cox-Modellen für Osteosarkomdaten in einer ähnlich einfachen Umgebung (250 oder 1000 Patienten, fünf Prognosefaktoren) verglichen wurde (44). Daher ist für ML-Methoden dringend mehr Aufmerksamkeit auf die Modellkalibrierung (absolute Vorhersagegenauigkeit) erforderlich.

Für diese Arbeit haben wir die eSTS-Daten 100 Mal mit Ersatz abgetastet (Bootstrapping), um die ML-Modelle zu trainieren. Anschließend wurden die ausgelassenen Stichproben verwendet, um die Leistung aller Modelle intern zu validieren und empirische 95 %-KIs zu erhalten (siehe Abb. 1). Dies kann ein vorteilhafter Ansatz sein, wenn die Stichprobengröße begrenzt ist, da dadurch vermieden wird, dass die Anzahl der Patienten für die Modellentwicklung/-validierung verringert wird. Dies ist jedoch mit Kosten verbunden, da dieser Vorgang mehrmals wiederholt wird und daher rechenintensiv ist. Die Leistung aller Modelle wurde mit zwei zeitabhängigen Maßen bewertet: Brier-Score (Diskriminierung und Kalibrierung) und AUC (Diskriminierung) nach 2, 5 bzw. 10 Jahren. Wir haben die zeitabhängige AUC der Anpassung des Harrell-Konkordanzindex an die CRs-Einstellung vorgezogen [45, 46] – ein globales Leistungsmaß für Diskriminierung –, da letzteres kein geeignetes Maß für die Bewertung der prognostizierten T-Jahres-Risiken ist (siehe [47]).

Für den Vergleich mit ML-Techniken wurden zwei Regressionsmodelle für CRs angewendet; die ursachenspezifische Hazard-Regression Cox und das Fine-Gray. Das ursachenspezifische Cox-Modell könnte für die Beantwortung ätiologischer Fragen besser geeignet sein, während das Fine-Gray für die Abschätzung der klinischen Prognose von Patienten geeignet ist – was hier angestrebt wurde [3, 5, 48]. Dennoch wurden beide SM für einen umfassenderen Ansatz eingesetzt, lieferten ähnliche Ergebnisse und übertrafen die ML-Modelle bei der Kalibrierung. Komplexe funktionale Abhängigkeiten wie nichtlineare und nichtadditive Effekte wurden nicht untersucht, was zeigt, wie effektiv das SM in einfachen Situationen (mit kleiner/mittlerer Stichprobengröße und begrenzter Anzahl von Prädiktoren) sein kann, obwohl es von Additivität der Effekte und Proportionalität von ausgeht Gefahren im Laufe der Zeit. Andererseits können ML-Methoden sehr flexibel sein (keine a priori-Modellierungsannahmen), erfordern jedoch normalerweise (sehr) große Datensätze, um eine geringe Überanpassung ihrer entwickelten klinischen Vorhersagemodelle sicherzustellen (49, 50).

Andere ML-gesteuerte Modelle wurden kürzlich für die Überlebensanalyse mit CRs vorgeschlagen und ihre Prognosefähigkeit mit typischen Benchmarks wie dem ursachenspezifischen Cox, Fine-Gray und RSFCR verglichen. Im Jahr 2017 schlugen Alaa und van der Schaar [51] ein nichtparametrisches Bayesianisches Modell vor, um gemeinsam das Risiko eines Patienten für mehrere konkurrierende unerwünschte Ereignisse zu bewerten. Die ursachenspezifischen Überlebenszeiten des Patienten werden als Funktion der Kovariaten mithilfe tiefer Multitask-Gauß-Prozesse modelliert. Bellot und van der Schaar [52] entwickelten 2018 ein baumbasiertes Bayesianisches Mischungsmodell für CRs. Sie konstruierten ein hierarchisches Bayes'sches Mischungsmodell durch multivariate zufällige Überlebenswälder und bewerteten die Bedeutung von Variablen für jede Ursache. Kürzlich wurde von Nagpal et al. ein tiefes neuronales Netzwerk (mehrere verborgene Schichten) eingesetzt. sogenannte Deep-Survival-Maschinen [53]. Dies ist eine parametrische Methode zum gemeinsamen Erlernen einer gemeinsamen tiefen nichtlinearen Darstellung der Eingabemerkmale. Dieses Netzwerk schätzt die Ereignisverteilung für jede CR separat. Beachten Sie, dass wir für dieses Projekt nur flache neuronale Netze (1 verborgene Schicht) spezifiziert haben, um die übermäßige Gefahr einer Überanpassung in dieser einfachen Umgebung zu vermeiden.

Wenn man sich auf den praktischen Nutzen konzentriert, sind die beiden SM im Vergleich zu den drei untersuchten ML-Techniken im Vorteil. Letztere erfordern eine beträchtliche Implementierungszeit für die Datenvorverarbeitung und die Abstimmung der Parameter und sind rechenintensiver in der Ausführung (hier in Stunden ausgedrückt). Gleichzeitig ist die Modelloptimierung von PLANNCR eine heikle Aufgabe, die robuste numerische Methoden und einen geschickten Einsatz erfordert, da das Netzwerk sonst möglicherweise in suboptimalen Minima in der Fehlerfunktion konvergiert [35]. Von den drei ML-Techniken erforderte PLANNCR Extended aufgrund der größeren Anzahl an Abstimmungsparametern (fünf gegenüber zwei für PLANNCR Original und RSFCR) mehr Zeit und Aufwand für das Training. Im Gegenteil, die ursachenspezifischen Cox- und Fine-Gray-Modelle erfordern keine Hyperparameter-Abstimmung und bieten eine schnelle Implementierung.

Heutzutage wird der Einsatz von ML in manchen Bereichen der Medizin überbewertet, da das Interesse an der Anwendung moderner Techniken zur Erstellung von Vorhersagemodellen gestiegen ist. Daher ist es notwendig, Vorhersagemodelle, die auf künstlicher Intelligenz basieren, vollständig und transparent zu melden, um eine kritische Bewertung, die Reproduzierbarkeit der Modellierungsschritte und -ergebnisse durch ein breiteres Publikum zu ermöglichen und Forschungsverschwendung zu vermeiden [14, 15, 54]. Im Allgemeinen kann ein traditioneller Regressionsansatz im Vergleich zu einem hochmodernen ML-Modell immer noch genauere vorhergesagte Überlebenswahrscheinlichkeiten und prognostische Leistung liefern, insbesondere in nicht komplexen medizinischen Situationen (geringe bis mittlere Stichprobengröße, kleine Anzahl von Prädiktoren). . In diesem Fall sollte die Anwendung von ML-Algorithmen nur zur Erkundung der gesammelten Daten motiviert sein.

In Zukunft könnte es nützlich sein, die Vorhersagefähigkeit des ursachenspezifischen Proportional-Hazard-Cox-Modells mit dem ursprünglichen/erweiterten PLANNCR für zeitabhängige Variablen zu vergleichen. Die erste Methode ermöglicht die Einbeziehung zeitabhängiger Kovariaten in Standardsoftware, und die zweite Methode kann aufgrund der wesentlichen Datentransformation in ein langes Format für jeden Patienten natürlich auch zeitabhängige Kovariaten einbeziehen. Darüber hinaus können Fine-Gray und RSFCR erweitert werden, um dynamische Vorhersagen mit zeitabhängigen Kovariaten für CRs bereitzustellen, indem ein Landmark-Datensatz zu einer Reihe von Landmark-Zeitpunkten \(t_{LM}\) erstellt wird [55]. Zu guter Letzt wäre es interessant, die SM- und ML-Techniken hinsichtlich der Interpretation zu vergleichen. Insgesamt bietet SM eine einfachere Interpretation über ursachenspezifische Hazard-Verhältnisse, während PLANNCR die Form der ursachenspezifischen Hazard-Funktion über Zeit und Kovariaten liefern kann und RSFCR die Variablenbedeutung liefert. Es bedarf weiterer Forschung zu einer gemeinsamen Metrik, um alle Methoden direkt vergleichen zu können.

In diesem Artikel haben wir ML-Alternativen (PLANNCR Original, PLANNCR Extended, RSFCR) zu SM (ursachenspezifisches Cox-Modell, Fine-Gray) diskutiert, um prognostische Modelle für die Überlebensanalyse mit CRs in eSTS-Daten mit kleiner/mittlerer Stichprobengröße und begrenztem Umfang zu erstellen Anzahl der Prädiktoren (einfache Einstellung). Die Methoden wurden im Hinblick auf Unterscheidung und Kalibrierung verglichen. ML-Modelle erreichten 2, 5 oder 10 Jahre nach der Operation eine gleichwertige Leistung in Bezug auf geeignete prädiktive Leistungsmaße (95 %-Konfidenzintervalle überlappten sich), die herkömmlichen Regressionsmodelle waren jedoch im Allgemeinen besser kalibriert. Daher muss der Kalibrierung mehr Aufmerksamkeit gewidmet werden. Moderne ML-gesteuerte Techniken sind weniger praktisch, da sie eine erhebliche Implementierungszeit erfordern (Datenvorverarbeitung, Hyperparameter-Abstimmung, Rechenintensität), wohingegen Regressionsmodelle einfach zu verwenden sind und ohne den zusätzlichen Arbeitsaufwand für das Modelltraining gute Ergebnisse erzielen können. Insgesamt ist eine vollständige und transparente Berichterstattung über alle Methoden erforderlich, um eine kritische Bewertung und Reproduzierbarkeit zu ermöglichen und Forschungsverschwendung zu vermeiden. Unserer Meinung nach sollten ML-Techniken für nicht komplexe reale Daten wie diese nur ergänzend zu SM als explorative Werkzeuge zur Modellleistung eingesetzt werden.

Die für dieses Forschungsprojekt verwendeten klinischen Daten sind vertraulich. Der zur Durchführung dieser Analyse entwickelte R-Code wird im folgenden GitHub-Repository bereitgestellt: https://github.com/GKantidakis/SM-vs-ML-for-CRs. Der Leser findet außerdem eine ZIP-Datei mit R-Codes, die ein umfassendes Beispiel dieser Analyse in öffentlich verfügbaren R-Daten für follikuläres Zelllymphom (Daten „Follic“) darstellt. Die Analysediagramme der „Follic“-Daten (n = 541, p = 4), die die gleichen Methoden innerhalb nicht komplexer Daten veranschaulichen, stützen die Ergebnisse der eSTS-Daten.

Fläche unter der Kurve

Konfidenzintervall

Funktion der kumulativen Inzidenz

Konkurrierende Risiken

Extremitäten-Weichteilsarkome

Inverse Wahrscheinlichkeit der Zensurgewichtung

Kaplan-Meier

Maschinelles Lernen

Mittlere quadratische Fehler

Teillogistisches künstliches neuronales Netzwerk

Teillogistisches künstliches neuronales Netzwerk – automatische Relevanzbestimmung

Teillogistisches künstliches neuronales Netzwerk für konkurrierende Risiken

Teillogistisches künstliches neuronales Netzwerk für konkurrierende Risiken – automatische Relevanzbestimmung

Gleichgerichtete Lineareinheit

Zufällige Überlebenswälder

Zufällige Überlebenswälder für konkurrierende Risiken

Statistische Modelle

Überleben neuronale Netze

Putter H, Fiocco M, Geskus RB. Tutorial zur Biostatistik: konkurrierende Risiken und Mehrstaatenmodelle. Stat Med. 2007;26(11):2389–430. https://doi.org/10.1002/SIM.2712.

Artikel CAS PubMed Google Scholar

Varadhan R, Weiss CO, Segal JB, Wu AW, Scharfstein D, Boyd C. Bewertung der Gesundheitsergebnisse bei Vorhandensein konkurrierender Risiken: Eine Überprüfung statistischer Methoden und klinischer Anwendungen. Medizinische Versorgung. 2010;48(6 SUPPL.):96–105. https://doi.org/10.1097/MLR.0b013e3181d99107.

Artikel Google Scholar

Geskus RB. Datenanalyse mit konkurrierenden Risiken und Zwischenzuständen. 1. Aufl. Boca Raton: Chapman und Hall/CRC; 2015.

Zhang Z, Cortese G, Combescure C, Marshall R, Lim M, et al. Überblick über die Modellvalidierung für ein Überlebensregressionsmodell mit konkurrierenden Risiken unter Verwendung von Melanom-Studiendaten. Ann Transl Med. 2018;6(16):325. https://doi.org/10.21037/atm.2018.07.38.

Artikel PubMed PubMed Central Google Scholar

Austin PC, Lee DS, Fine JP. Einführung in die Analyse von Überlebensdaten bei Vorliegen konkurrierender Risiken. Verkehr. 2016;133(6):601–9. https://doi.org/10.1161/CIRCULATIONAHA.115.017719.

Artikel PubMed PubMed Central Google Scholar

Austin PC, Fine JP. Berücksichtigung konkurrierender Risiken in randomisierten kontrollierten Studien: eine Überprüfung und Empfehlungen für Verbesserungen. Stat Med. 2017;36(8):1203–9. https://doi.org/10.1002/sim.7215.

Artikel PubMed PubMed Central Google Scholar

Koller MT, Raatz H, Steyerberg W, Wolbers M. Konkurrierende Risiken und die klinische Gemeinschaft: Irrelevanz oder Ignoranz? Stat Med. 2012;31(11–12):1089–97. https://doi.org/10.1002/sim.4384.

Artikel PubMed Google Scholar

Kaplan EL, Meier P. Nichtparametrische Schätzung aus unvollständigen Beobachtungen. J Am Stat Assoc. 1958;53(282):457–81. https://doi.org/10.2307/2281868.

Artikel Google Scholar

Zhang Z. Überlebensanalyse bei konkurrierenden Risiken. Ann Transl Med. 2016;5(3). https://doi.org/10.21037/atm.2016.08.62.

Cox DR. Regressionsmodelle und Sterbetabellen. JR Stat Soc Ser B (Methode). 1972;34(2):187–220.http://www.jstor.org/stable/2985181.

Feines JP, graues RJ. Ein proportionales Gefahrenmodell für die Unterverteilung eines konkurrierenden Risikos. J Am Stat Assoc. 1999;94(446):496–509. https://doi.org/10.1080/01621459.1999.10474144.

Artikel Google Scholar

Kourou K, Exarchos TP, Exarchos KP, Karamouzis MV, Fotiadis DI. Anwendungen des maschinellen Lernens in der Krebsprognose und -vorhersage. Comput Struct Biotechnol J. 2015;13:8–17. https://doi.org/10.1016/j.csbj.2014.11.005.

Artikel CAS PubMed Google Scholar

Sidey-Gibbons JAM, Sidey-Gibbons CJ. Maschinelles Lernen in der Medizin: eine praktische Einführung. BMC Med Res Methodol. 2019;19(1):1–18. https://doi.org/10.1186/s12874-019-0681-4.

Artikel Google Scholar

Collins GS, Reitsma JB, Altman DG, Moons KGM. Transparente Berichterstattung über ein multivariables Vorhersagemodell für die individuelle Prognose oder Diagnose (TRIPOD): Das TRIPOD-Statement. BMC Med. 2015;13(1). http://www.biomedcentral.com/1741-7015/13/1. https://doi.org/10.1186/s12916-014-0241-z.

Collins GS, Collins KGM. Berichterstattung über Vorhersagemodelle für künstliche Intelligenz. Lanzette. 2019;393(10181):1577–9. https://doi.org/10.1016/S0140-6736(19)30037-6.

Artikel PubMed Google Scholar

Shahid N, Rappon T, Berta W. Anwendungen künstlicher neuronaler Netze in der organisatorischen Entscheidungsfindung im Gesundheitswesen: Eine Scoping-Überprüfung. Plus eins. 2019;14(2):e0212356. https://doi.org/10.1371/journal.pone.0212356.

Artikel CAS PubMed PubMed Central Google Scholar

Wang P, Li Y, Reddy CK. Maschinelles Lernen zur Überlebensanalyse: Eine Umfrage. ACM Computing Surv. 2019;51(6):1–36. https://doi.org/10.1145/3214306.

Artikel Google Scholar

Biganzoli E, Boracchi P, Mariani L, Marubini E. Feed forward neural networks for the analysis of censored survival data: a partial logistic regression approach. Stat Med. 1998;17(10):1169–86. 3.0.CO;2-D">https://doi.org/10.1002/(SICI)1097-0258(19980530)17:10<1169::AID-SIM796>3.0.CO;2-D.

Lisboa PJG, Wong H, Harris P, Swindell R. Ein bayesianischer neuronaler Netzwerkansatz zur Modellierung zensierter Daten mit einer Anwendung auf die Prognose nach einer Brustkrebsoperation. Artif Intell Med. 2003;28(1):1–25. https://doi.org/10.1016/S0933-3657(03)00033-2.

Artikel CAS PubMed Google Scholar

Kantidakis G, Putter H, Lancia C, de Boer J, Braat AE, Fiocco M. Überlebensvorhersagemodelle seit Lebertransplantation – Vergleiche zwischen Cox-Modellen und maschinellen Lerntechniken. BMC Med Res Methodol. 2020;20(1):1–14. https://doi.org/10.1186/s12874-020-01153-1.

Artikel Google Scholar

Ishwaran H, Kogalur UB, Blackstone EH, Lauer MS. Zufällige Überlebenswälder. Ann Appl Stat. 2008;2(3):841–60. https://doi.org/10.1214/08-AOAS169.

Artikel Google Scholar

Breiman L. Zufällige Wälder. Mach lernen. 2001;45(1):5–32. https://doi.org/10.1023/A:1010933404324.

Artikel Google Scholar

Biganzoli E, Boracchi P, Ambrogi F, Marubini E. Künstliches neuronales Netzwerk zur gemeinsamen Modellierung diskreter ursachenspezifischer Gefahren. Artif Intell Med. 2006;37(2):119–30. https://doi.org/10.1016/j.artmed.2006.01.004.

Artikel PubMed Google Scholar

Lisboa PJG, Etchells TA, Jarman IH, Arsene CTC, Aung MSH, Eleuteri A, et al. Teillogistisches künstliches neuronales Netzwerk für konkurrierende Risiken, reguliert mit automatischer Relevanzbestimmung. IEEE Trans Neural Netw. 2009;20(9):1403–16. https://doi.org/10.1109/TNN.2009.2023654.

Artikel PubMed Google Scholar

Ishwaran H, Gerds TA, Kogalur UB, Moore RD, Gange SJ, Lau BM. Zufällige Überlebenswälder für konkurrierende Risiken. Bio-Statistiken. 2014;15(4):757–73. https://doi.org/10.1093/biostatistics/kxu010.

Artikel PubMed PubMed Central Google Scholar

Team RC. R: Eine Sprache und Umgebung für statistische Berechnungen. R Foundation for Statistical Computing. 2014. http://www.r-project.org/.

Rueten-Budde AJ, van Praag VM, van de Sande MAJ, Fiocco M, Aston W, Bonenkamp H, et al. Externe Validierung und Anpassung eines dynamischen Vorhersagemodells für Patienten mit hochgradigem Weichteilsarkom der Extremitäten. J Surg Oncol. 2021;123(4):1050–6. https://doi.org/10.1002/jso.26337.

Artikel PubMed Google Scholar

Mariani L, Miceli R, Kattan MW, Brennan MF, Colecchia M, Fiore M, et al. Validierung und Anpassung eines Nomogramms zur Vorhersage des Überlebens von Patienten mit Extremitäten-Weichteilsarkomen mithilfe eines Drei-Grade-Systems. Krebs. 2005;103(2):402–408. https://pubmed.ncbi.nlm.nih.gov/15578681/. https://doi.org/10.1002/CNCR.20778.

van Praag VM, Rueten-Budde AJ, Jeys LM, Laitinen M, Pollock R, Aston W, et al. Ein Vorhersagemodell für Behandlungsentscheidungen bei hochgradigen Extremitäten-Weichteilsarkomen: Personalisierte Sarkomversorgung (PERSARC). Eur J Krebs. 2017;83:313–23. https://doi.org/10.1016/j.ejca.2017.06.032.

Artikel PubMed Google Scholar

Callegaro D, Miceli R, Bonvalot S, Ferguson P, Strauss DC, Levy A, et al. Auswirkungen der perioperativen Chemotherapie und Strahlentherapie bei Patienten mit primärem Weichteilsarkom der Extremitäten: Retrospektive Analyse über die wichtigsten histologischen Subtypen und wichtigen Referenzzentren. Eur J Krebs. 2018;105:19–27. https://doi.org/10.1016/j.ejca.2018.09.028.

Artikel PubMed Google Scholar

Woll PJ, Reichardt P, Le Cesne A, Bonvalot S, Azzarelli A, Hoekstra HJ, et al. Adjuvante Chemotherapie mit Doxorubicin, Ifosfamid und Lenograstim bei reseziertem Weichteilsarkom (EORTC 62931): Eine multizentrische, randomisierte, kontrollierte Studie. Lancet Oncol. 2012;13(10):1045–54. https://doi.org/10.1016/S1470-2045(12)70346-7.

Artikel CAS PubMed Google Scholar

Stekhoven DJ, Bühlmann P. Missforest – Nichtparametrische Imputation fehlender Werte für Daten gemischten Typs. Bioinformatik. 2012;28(1):112–8. https://doi.org/10.1093/bioinformatics/btr597.

Artikel CAS PubMed Google Scholar

Holt JD. Konkurrierende Risikoanalysen unter besonderer Berücksichtigung von Matched-Pair-Experimenten. Biometrie. 1978;65(1):159–65. https://doi.org/10.1093/BIOMET/65.1.159.

Artikel Google Scholar

Aalen OO, Johansen S. Eine empirische Übergangsmatrix für inhomogene Markov-Ketten basierend auf zensierten Beobachtungen. Scand J Stat. 1978;5(3):141–150. https://www.jstor.org/stable/4615704.

Bischof CM. Mustererkennung und maschinelles Lernen. New York: Springer; 2006.

Chollet F. keras. R Foundation for Statistical Computing. 2015. https://github.com/keras-team/keras.

Hastie T, Tibshirani R, Friedman J. Die Elemente des statistischen Lernens: Data Mining, Inferenz und Vorhersage. 2. Aufl. Springer-Reihe in Statistik. Springer; 2009. https://doi.org/10.1007/978-0-387-84858-7.

Blanche P, Proust-Lima C, Loubère L, Berr C, Dartigues JF, Jacqmin-Gadda H. Quantifizierung und Vergleich der dynamischen Vorhersagegenauigkeit von Gelenkmodellen für Längsmarker und Zeit bis zum Ereignis bei Zensur und konkurrierenden Risiken. Biometrie. 2015;71(1):102–13. https://doi.org/10.1111/biom.12232.

Artikel PubMed Google Scholar

Schoop R, Beyersmann J, Schumacher M, Binder H. Quantifizierung der Vorhersagegenauigkeit von Time-to-Event-Modellen bei Vorhandensein konkurrierender Risiken. Biom J. 2011;53(1):88–112. https://doi.org/10.1002/bimj.201000073.

Artikel PubMed Google Scholar

Blanche P, Dartigues JF, Jacqmin-Gadda H. Schätzung und Vergleich zeitabhängiger Bereiche unter Betriebskennlinien des Empfängers für zensierte Ereigniszeiten mit konkurrierenden Risiken. Stat Med. 2013;32(30):5381–97. https://doi.org/10.1002/sim.5958.

Artikel PubMed Google Scholar

Graf E, Schmoor C, Sauerbrei W, Schumacher M. Assessment and comparison of prognostic classification schemes for survival data. Stat Med. 1999;18(17-18):2529–2545. http://www.ncbi.nlm.nih.gov/pubmed/10474158. 3.0.CO;2-5">https://doi.org/10.1002/(SICI)1097-0258(19990915/30)18:17/18<2529::AID-SIM274>3.0.CO;2-5.

Steyerberg EW, Vickers AJ, Cook NR, Gerds T, Gonen M, Obuchowski N, et al. Bewertung der Leistung von Vorhersagemodellen: Ein Rahmen für einige traditionelle und neuartige Maßnahmen. Epidemiologie. 2010;21(1):128–138. https://pubmed.ncbi.nlm.nih.gov/20010215/. https://doi.org/10.1097/EDE.0b013e3181c30fb2.

Gerds TA, Andersen PK, Kattan MW. Kalibrierungsdiagramme für Risikovorhersagemodelle bei Vorhandensein konkurrierender Risiken. Stat Med. 2014;33(18):3191–203. https://doi.org/10.1002/sim.6152.

Artikel PubMed Google Scholar

Kantidakis G, Biganzoli E, Putter H, Fiocco M. Eine Simulationsstudie zum Vergleich der Vorhersageleistung überlebensneuronaler Netze mit Cox-Modellen für Daten aus klinischen Studien. Comput Math Methods Med. 2021;2021:1–15. https://doi.org/10.1155/2021/2160322.

Artikel Google Scholar

Wolbers M, Koller MT, Witteman JCM, Steyerberg EW. Prognosemodelle mit konkurrierenden Risikomethoden und Anwendung zur Vorhersage des Koronarrisikos. Epidemiologie. 2009;20(4):555–61. https://doi.org/10.1097/EDE.0b013e3181a39056.

Artikel PubMed Google Scholar

Wolbers M, Blanche P, Koller MT, Witteman JCM, Gerds TA. Konkordanz für Prognosemodelle mit konkurrierenden Risiken. Bio-Statistiken. 2014;15(3):526–39. https://doi.org/10.1093/biostatistics/kxt059.

Artikel PubMed PubMed Central Google Scholar

Blanche P, Kattan MW, Gerds TA. Der C-Index eignet sich nicht für die Bewertung der prognostizierten T-Jahres-Risiken. Bio-Statistiken. 2019;20(2):347–57. https://doi.org/10.1093/biostatistics/kxy006.

Artikel PubMed Google Scholar

Tullio A, Magli A, Moretti E, Valent F. Warum wir uns bei der Überlebensanalyse um die konkurrierende Risikoverzerrung kümmern sollten: Eine Phase-II-Studie zum Toxizitätsprofil der Strahlentherapie bei Prostatakrebs. Rep Pract Oncol Radiother. 2019;24(6):511–519. https://doi.org/10.1016/j.rpor.2019.08.001.

Van Der Ploeg T, Austin PC, Steyerberg EW. Moderne Modellierungstechniken sind datenhungrig: Eine Simulationsstudie zur Vorhersage dichotomer Endpunkte. BMC Med Res Methodol. 2014;14(1):1–13. https://doi.org/10.1186/1471-2288-14-137.

Artikel Google Scholar

Riley RD, Ensor J, Snell KIE, Harrell FE, Martin GP, ​​Reitsma JB, et al. Berechnung der Stichprobengröße, die für die Entwicklung eines klinischen Vorhersagemodells erforderlich ist. BMJ. 2020;368(März):1–12. https://doi.org/10.1136/bmj.m441.

Artikel Google Scholar

Alaa AM, Van Der Schaar M. Tiefgreifende Multitasking-Gauß-Prozesse zur Überlebensanalyse bei konkurrierenden Risiken. Adv Neural Inf Process Syst. 2017;2326–2334. http://medianetlab.ee.ucla.edu/papers/Alaa-Deep-Competing-Risk.pdf.

Bellot A, van der Schaar M. Baumbasiertes Bayesianisches Mischungsmodell für konkurrierende Risiken. Int Conf Artif Intell Stat PMLR 2018. 2018;910–918. http://proceedings.mlr.press/v84/bellot18a/bellot18a.pdf.

Nagpal C, Li X, Dubrawski A. Deep Survival Machines: Vollparametrische Überlebensregression und Repräsentationslernen für zensierte Daten mit konkurrierenden Risiken. IEEE J Biomed Health Inf. 2021;25(8):3163–75. https://doi.org/10.1109/JBHI.2021.3052441.

Artikel Google Scholar

Dhiman P, Ma J, Navarro CA, Speich B, Bullock G, Damen JA, et al. Die Berichterstattung über prognostische klinische Vorhersagemodelle, die auf Methoden des maschinellen Lernens in der Onkologie basieren, muss verbessert werden. J Clin Epidemiol. 2021;138:60–72. https://doi.org/10.1016/j.jclinepi.2021.06.024.

Artikel PubMed PubMed Central Google Scholar

Nicolaie MA, van Houwelingen JC, de Witte TM, Putter H. Dynamische Vorhersage durch Markierung bei konkurrierenden Risiken. Staatliches Med. 2013;32(12):2031–47. https://doi.org/10.1002/sim.5665.

Artikel CAS PubMed Google Scholar

Referenzen herunterladen

Diese Veröffentlichung wurde durch eine Spende von Kom Op Tegen Kanker (Stand up to Cancer), der flämischen Krebsgesellschaft aus Belgien, unterstützt. Die Autoren möchten den Mitgliedern der personalisierten SARcoma Care (PERSARC)-Studiengruppe für die Bereitstellung der in diesem Artikel verwendeten Daten danken.

Ibtissam Acem, Will Aston, Han Bonenkamp, ​​​​Ingrid ME Desar, Peter C Ferguson, Marta Fiocco, Hans Gelderblom, Anthony M Griffin, Dirk J Grünhagen, Rick L Haas, Andrew J Hayes, Lee M Jeys, Johnny Keller, Minna K Laitinen, Andreas Leithner, Katja Maretty-Kongstad, Rob Pollock, Anja Rueten-Budde, Myles Smith, Maria A Smolle, Emelie Styring, Joanna Szkandera, Per-Ulf Tunn, Jos A van der Hage, Robert J van Ginkel, Winan J van Houde, Veroniek van Praag, Michiel van de Sande, Kees Verhoef, Madeleine Willegger, Reinard Windhager, Jay S. Wunder, Olga Zaikova.

Die Arbeit von Georgios Kantidakis als Fellow am EORTC-Hauptsitz wurde durch ein Stipendium der EORTC Soft Tissue and Bone Sarcoma Group und der Abteilung für Medizinische Onkologie des Leiden University Medical Center (LUMC) unterstützt. Die Finanzierungsquellen spielten keine Rolle bei der Gestaltung der Studie und der Sammlung, Analyse und Interpretation von Daten oder der Erstellung des Manuskripts.

Mathematische Institut (MI) Universität Leiden, Niels Bohrweg 1, 2333 CA, Leiden, Niederlande

Georgios Kantidakis und Marta Fiocco

Abteilung für Biomedizinische Datenwissenschaften, Abteilung Medizinische Statistik, Medizinisches Zentrum der Universität Leiden (LUMC), Albinusdreef 2, 2333 ZA, Leiden, Niederlande

George Kantidakis, Hein Putter und Martha Fiocco

Abteilung für Statistik, Hauptsitz der Europäischen Organisation für Krebsforschung und -behandlung (EORTC), Ave E. Mounier 83/11, 1200, Brüssel, Belgien

Georgios Kantidakis und Saskia Lithier

Versuchs- und Datenzentrum, Princess Máxima Center for pediatric Oncology (PMC), Heidelberglaan 25, 3584 CS, Utrecht, Niederlande

Martha Bow

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

MF hat einen Vorschlag zur Abfrage der Daten verfasst. GK und MF konzipierten und gestalteten die Studie. GK führte die statistische Analyse durch. GK, HP, SL und MF interpretierten die Ergebnisse. GK verfasste den Entwurf des Manuskripts und HP, SL und MF überarbeiteten es kritisch. Alle Autoren haben die endgültige Version gelesen und genehmigt.

Korrespondenz mit Georgios Kantidakis.

Die ethische Genehmigung dieser Studie wurde vom institutionellen Prüfungsausschuss der Abteilung für Orthopädie des Leiden University Medical Center aufgehoben, da klinische Daten aus Krankenakten gesammelt und pseudoanonymisiert wurden. Alle Teilnehmer gaben in den Originalstudien eine schriftliche Einverständniserklärung ab. Die Forschung wurde im Einklang mit der Deklaration von Helsinki durchgeführt.

Unzutreffend.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Zusatzdatei 1.

Zusatzdatei 2.

Zusatzdatei 3.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die Originalautor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/. Der Creative Commons Public Domain Dedication-Verzicht (http://creativecommons.org/publicdomain/zero/1.0/) gilt für die in diesem Artikel zur Verfügung gestellten Daten, sofern in einer Quellenangabe für die Daten nichts anderes angegeben ist.

Nachdrucke und Genehmigungen

Kantidakis, G., Putter, H., Litière, S. et al. Statistische Modelle versus maschinelles Lernen für konkurrierende Risiken: Entwicklung und Validierung prognostischer Modelle. BMC Med Res Methodol 23, 51 (2023). https://doi.org/10.1186/s12874-023-01866-z

Zitat herunterladen

Eingegangen: 15. September 2022

Angenommen: 13. Februar 2023

Veröffentlicht: 24. Februar 2023

DOI: https://doi.org/10.1186/s12874-023-01866-z

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

AKTIE