banner

Nachricht

Nov 12, 2023

UnMICST: Deep Learning mit echter Augmentation für eine robuste Segmentierung hochmultiplexter Bilder von menschlichem Gewebe

Kommunikationsbiologie Band 5, Artikelnummer: 1263 (2022) Diesen Artikel zitieren

2494 Zugriffe

1 Zitate

7 Altmetrisch

Details zu den Metriken

Zukünftige Technologien ermöglichen die routinemäßige Erfassung hochmultiplexierter (20–60 Kanäle) Bilder von Säugetiergeweben mit subzellulärer Auflösung für Forschungs- und Diagnosezwecke. Das Extrahieren einzelner Zelldaten aus solchen Bildern erfordert eine genaue Bildsegmentierung, ein anspruchsvolles Problem, das häufig mit Deep Learning gelöst wird. In diesem Artikel berichten wir über zwei Erkenntnisse, die die Bildsegmentierung von Geweben mithilfe einer Reihe von Architekturen für maschinelles Lernen erheblich verbessern. Erstens stellen wir unerwartet fest, dass die Einbeziehung absichtlich defokussierter und gesättigter Bilder in Trainingsdaten die nachfolgende Bildsegmentierung erheblich verbessert. Eine solche reale Augmentation übertrifft die rechnerische Augmentation (Gaußsche Unschärfe). Darüber hinaus finden wir, dass es praktisch ist, die Kernhülle in mehreren Geweben mithilfe eines Antikörpercocktails abzubilden, wodurch Kernumrisse besser identifiziert und die Segmentierung verbessert werden können. Die beiden Ansätze verbessern kumulativ und erheblich die Segmentierung einer Vielzahl von Gewebetypen. Wir spekulieren, dass der Einsatz echter Augmentationen auch in der Bildverarbeitung außerhalb der Mikroskopie Anwendung finden wird.

Die Zelltypen, Basalmembranen und Bindestrukturen, die Gewebe und Tumore organisieren, sind auf Längenskalen vorhanden, die von subzellulären Organellen bis zu ganzen Organen reichen (<0,1 bis >104 µm). Mikroskopie mit Hämatoxylin und Eosin (H&E), ergänzt durch Immunhistochemie1, spielt seit langem eine wichtige Rolle bei der Untersuchung der Gewebearchitektur2,3. Darüber hinaus bleibt die klinische Histopathologie das wichtigste Mittel, um Krankheiten wie Krebs einzustufen und klinisch zu behandeln4. Allerdings liefert die klassische Histologie nicht genügend molekulare Informationen, um Zellsubtypen genau zu identifizieren, Entwicklungsmechanismen zu untersuchen und Krankheitsgene zu charakterisieren. High-Plex-Bildgebung (Ergänzungstabelle 1)5,6,7,8,9 von normalem und erkranktem Gewebe (manchmal auch als räumliche Proteomik bezeichnet) liefert Daten mit subzellulärer Auflösung über die Häufigkeit von 20–60 Antigenen, die zur Identifizierung von Zelltypen ausreichen. Messen Sie Zellzustände (Ruhezustand, Proliferation, Sterben usw.) und befragen Sie Zellsignalwege. High-Plex-Bildgebung zeigt auch die Morphologien und Positionen azellulärer Strukturen, die für die Gewebeintegrität in einer konservierten 3D-Umgebung wesentlich sind. High-Plex-Bildgebungsverfahren unterscheiden sich in Auflösung, Sichtfeld und Multiplizität (Plex), erzeugen aber alle 2D-Bilder von Gewebeschnitten; In der gängigen Praxis sind diese meist 5–10 µm dick.

Wenn gemultiplexte Bilder segmentiert und quantifiziert werden, sind die resultierenden Einzelzelldaten eine natürliche Ergänzung zu Einzelzell-RNA-Sequenzierungsdaten (scRNASeq), die einen dramatischen Einfluss auf unser Verständnis von normalen und erkrankten Zellen und Geweben hatten10,11. Im Gegensatz zur dissoziativen RNASeq bleiben bei der Multiplex-Gewebebildgebung jedoch Morphologie und räumliche Informationen erhalten. Die rechnerische Analyse von High-Plex-Bildgebungsdaten ist jedoch wesentlich schwieriger als die von Bildern kultivierter Zellen, dem Hauptschwerpunkt bisher auf Biologie ausgerichteter Bildverarbeitungssysteme. Insbesondere die Analyse einzelner Zellen von Bilddaten erfordert Segmentierung, eine Computer-Vision-Technik, die einem Bild instanz- oder pixelweise Klassenbezeichnungen zuweist, um es zu unterteilen. Die resultierende Segmentierungsmaske wird dann verwendet, um die Intensitäten verschiedener Marker zu quantifizieren, indem Fluoreszenzsignalintensitäten über jedes durch die Maske identifizierte Objekt (Zelle) oder über eine Form (normalerweise ein Ring) integriert werden, die die Maske umreißt oder auf ihr zentriert ist12. Umfangreiche Arbeit wurde in die Entwicklung von Methoden zur Segmentierung von in Kultur gezüchteten Metazoenzellen gesteckt, aber die Segmentierung von Gewebebildern ist aufgrund der Zelldichte und der unterschiedlichen Morphologien verschiedener Zelltypen eine schwierigere Herausforderung. In jüngster Zeit sind Segmentierungsroutinen, die maschinelles Lernen nutzen, zum Standard geworden, parallel zum weit verbreiteten Einsatz von Convolutional Neural Networks (CNNs) bei der Bilderkennung, Objekterkennung und synthetischen Bilderzeugung13. Architekturen wie ResNet, VGG16 und in jüngerer Zeit UNet und Mask R-CNN14,15 haben aufgrund ihrer Fähigkeit, Millionen von Parametern zu lernen und über Datensätze hinweg zu verallgemeinern, breite Akzeptanz gefunden, was durch hervorragende Leistungen in einer Vielzahl von Segmentierungswettbewerben belegt wird, wie z sowie in Hackathon-Herausforderungen16 unter Verwendung öffentlich verfügbarer Bilddatensätze17,18.

Sowohl in kultivierten Zellen als auch in Geweben ist die Lokalisierung von Kernen ein optimaler Ausgangspunkt für die Segmentierung von Zellen, da die meisten Zelltypen einen Kern haben (Zellen, die Mitose durchlaufen, Muskel- und Leberzellen sowie Osteoklasten sind wichtige Ausnahmen) und Kernfärbungen mit hohem Signal-Hintergrund-Verhältnis Verhältnisse sind weithin verfügbar. Der Kern ist im Allgemeinen recht groß (5–10 µm) im Verhältnis zur Auflösung von Weitfeld-Fluoreszenzmikroskopen (~0,5 µm für ein Objektiv mit numerischer Apertur (NA) von 0,9), sodass er bei mehreren Vergrößerungen leicht zu erkennen ist. Kerne finden sich häufig auch ungefähr in der Mitte einer Zelle. Die Verwendung zusätzlicher Marker während der Bildaufnahme bietet Vorteile. Beispielsweise verwendeten Schüffler et al.19 gemultiplexte IMC-Daten und Watershed-Methoden für die Mehrkanalsegmentierung. Es ist jedoch nicht klar, welche Proteine ​​in verschiedenen Zelltypen und Geweben ausreichend weit verbreitet sind, um bei der Segmentierung nützlich zu sein. Auf Zufallswäldern basierende Methoden wie Ilastik und Weka20,21 nutzen mehrere Kanäle für die klassenweise Pixelklassifizierung über ein Ensemble von Entscheidungsbäumen, um pixelweise Klassenwahrscheinlichkeiten in einem Bild zuzuweisen. Allerdings verfügen Random-Forest-Modelle über eine weitaus geringere Lernkapazität als CNNs, was einen erheblichen Nachteil darstellt. Daher wurde die Möglichkeit, CNNs mit Mehrkanaldaten zur Verbesserung der Kernsegmentierung zu verwenden, noch nicht umfassend untersucht.

Zur Quantifizierung der Leistung von Segmentierungsroutinen werden verschiedenste Metriken verwendet. Diese können grob in Metriken auf Pixel- und Instanzebene unterteilt werden; Ersteres misst Überlappungen in der Form und Position von Segmentierungsmasken auf Pixelebene, während letzteres misst, ob Übereinstimmung bei Vorhandensein oder Fehlen einer Maske besteht. Der Sweeping Intersection over Union (IoU; der Jaccard-Index)16 ist ein Beispiel für eine Leistungsmetrik auf Pixelebene; Sie wird berechnet, indem die Überlappung zwischen einer aus der Ground-Truth-Annotation abgeleiteten Maske und einer vorhergesagten Maske basierend auf dem Verhältnis der Schnittpunkte der Pixel zu ihrer Vereinigung gemessen wird. Je größer die IoU, desto höher die Genauigkeit, mit einem Idealwert von 1 (obwohl dies sehr selten erreicht wird). Der F1-Score ist ein Beispiel für eine Metrik auf Instanzebene, die den gewichteten Durchschnitt der Präzision (wahre positive Ergebnisse, normalisiert auf Vorhersagen) und des Rückrufs (wahre positive Ergebnisse, normalisiert auf Grundwahrheit) verwendet. Ein „Positiv“ wird in diesem Fall üblicherweise als 50-prozentige Überlappung (auf Pixelebene) zwischen einer vorhergesagten Maske und der Grundwahrheit bewertet. Daher besteht erhebliche Meinungsverschiedenheit über die Form der Maske. In diesem Zusammenhang ist es wichtig zu beachten, dass überwachtes Lernen auf der Feststellung einer Grundwahrheit durch menschliche Experten beruht. Wie weiter unten ausführlich beschrieben wird, liegt der gemeldete Grad der Übereinstimmung zwischen menschlichen Experten für Annotationen auf Pixelebene bei der Gewebebildgebung nur bei etwa 0,6 (bei einer IoU von 60 %), was darauf hindeutet, dass Experten selbst nicht in der Lage sind, die genaue Form von Segmentierungsmasken zu bestimmen (und die Zellen, die sie darstellen). Es überrascht nicht, dass die Interobserver-Übereinstimmung wesentlich höher ist (0,7–0,9), wenn sie anhand einer Metrik auf Instanzebene wie dem F1-Score bewertet wird, da es relativ einfach ist, zu entscheiden, ob ein Kern vorhanden ist oder nicht. Wie oben erwähnt, werden Segmentierungsmasken in der High-Plex-Bildgebung häufig verwendet, um die integrierten Intensitäten von Antikörpern gegen Kern-, Zytoplasma- und Zelloberflächenproteine ​​zu berechnen. Dabei kommt es besonders darauf an, die Form der Maske korrekt zu bestimmen. Daher ist die Verwendung strenger Metriken auf Pixelebene wie IoU für die Bewertung der Segmentierungsgenauigkeit bei der Einzelzellanalyse von Multiplex-Gewebebildern von entscheidender Bedeutung.

Die Genauigkeit der Segmentierung durch Menschen und rechnerische Methoden hängt entscheidend von der Qualität der Originalbilder ab. In der Praxis weisen viele Bilder von menschlichem und murinem Gewebe Fokusartefakte (Unschärfe) auf und Bilder einiger Zellen sind gesättigt (mit Intensitäten über dem linearen Bereich der Kamera). Dies gilt insbesondere für die Ganzdia-Bildgebung, bei der bis zu 1000 nacheinander erfasste Bildkacheln verwendet werden, um Mosaikbilder von Proben mit einer Größe von mehreren Quadratzentimetern zu erstellen. Die Bildgebung ganzer Objektträger ist eine diagnostische Notwendigkeit22 und unerlässlich, um eine ausreichende Leistung für eine gründliche räumliche Analyse zu erreichen23. Allerdings beschränken viele neuere Arbeiten, die sich mit der Segmentierung von Gewebebildern befassen, ihre Analyse auf die klarsten Fokusfelder. Dies ist logisch, da es im Rahmen des überwachten Lernens einfacher ist, Trainingsdaten zu erhalten und eine Grundwahrheit zu ermitteln, wenn die Bilder klar sind und die Übereinstimmung zwischen den Beobachtern hoch ist. In der Praxis weisen jedoch alle mikroskopischen Bilder von Gewebeproben Probleme mit der Fokussierung auf: Die Schärfentiefe von Objektivlinsen, die eine hochauflösende Abbildung ermöglichen (Linsen mit hoher NA), ist typischerweise geringer als die Dicke der Probe, sodass Objekte oberhalb und unterhalb der Ebene sichtbar sind Bilder mit optimalem Fokus sind unscharf. Bilder menschlicher Biopsien sind besonders anfällig für Unschärfe und Sättigungsartefakte, da die Gewebeschnitte nicht immer gleichmäßig koplanar mit dem Deckglas sind. Da die meisten Untersuchungen an menschlichem Gewebe im Zusammenhang mit der Diagnose oder Behandlung durchgeführt werden, ist es selten möglich, problematische Proben direkt abzulehnen. Darüber hinaus ist eine erneute Darstellung zuvor analysierter Gewebeschnitte aufgrund des Gewebezerfalls selten möglich. Daher muss die Bildsegmentierung mit realen Daten häufige Bildfehler ausgleichen.

Der gebräuchlichste Weg, Trainingsdaten zu erweitern, um Bildartefakte zu berücksichtigen, ist die rechnerische Augmentation24, bei der Bilder durch zufällige Drehung, Scherung, Spiegelung usw. vorverarbeitet werden. Dadurch soll verhindert werden, dass Algorithmen irrelevante Aspekte eines Bildes, wie etwa die Ausrichtung, lernen . Bisher wurden Fokusartefakte mithilfe der berechneten Gaußschen Unschärfe angegangen, um Trainingsdaten zu erweitern25,26,27. Allerdings ist die Gaußsche Unschärfe nur eine Annäherung an die Unschärfe, die jedem optischen Abbildungssystem mit begrenztem Bandpass (d. h. jedem echten Mikroskop) innewohnt, zuzüglich der Auswirkungen von Brechungsindex-Fehlanpassungen und Lichtstreuung.

In diesem Artikel untersuchen wir Möglichkeiten, die Genauigkeit der Bildsegmentierung durch maschinelle Lernalgorithmen in gemultiplexten Gewebebildern zu maximieren, die häufige Bildartefakte enthalten. Wir generieren eine Reihe von Trainings- und Testdaten mit Ground-Truth-Annotationen durch menschliche Kuration mehrerer normaler Gewebe und Tumoren und verwenden diese Daten, um die Segmentierungsgenauigkeit zu bewerten, die in drei Deep-Learning-Netzwerken erreicht wurde, von denen jedes unabhängig trainiert und bewertet wurde: UNet, Mask R-CNN und Pyramid Scene Parsing Network (PSPNet). Die resultierenden Modelle umfassen eine Familie von Universal Models for Identifying Cells and Segmenting Tissue (UnMICST), in denen jedes Modell auf denselben Trainingsdaten, aber einer anderen Klasse von ML-Netzwerken basiert. Basierend auf unserer Analyse identifizieren wir zwei Möglichkeiten zur Verbesserung der Segmentierungsgenauigkeit für alle drei Netzwerke. Die erste besteht darin, Bilder von Kernhüllenfärbungen (NES) zu Bildern von Kernchromatin hinzuzufügen, die mit DNA-interkalierenden Farbstoffen aufgenommen wurden. Die zweite beinhaltet das Hinzufügen realer Augmentationen, hier definiert als absichtlich defokussierte und übersättigte Bilder (die von denselben Proben gesammelt wurden), zu den Trainingsdaten, um Modelle robuster gegenüber den Arten von Artefakten zu machen, die in echten Gewebebildern vorkommen. Wir stellen fest, dass die Augmentation mit realen Daten die herkömmliche Gaußsche Unschärfe-Augmentation deutlich übertrifft und eine statistisch signifikante Verbesserung der Modellrobustheit bietet. Bei einer Reihe von Gewebetypen sind die Verbesserungen durch das Hinzufügen von NES-Daten und echten Augmentationen kumulativ.

Eine Herausforderung beim überwachten maschinellen Lernen auf Gewebebildern ist der Mangel an ausreichend frei verfügbaren Daten mit Ground-Truth-Kennzeichnung. Erfahrungen mit natürlichen Szenenbildern14 haben gezeigt, dass die Erfassung von Beschriftungen zeitaufwändig und geschwindigkeitsbegrenzend sein kann28. Es ist auch gut belegt, dass Zellen in verschiedenen Gewebetypen Kernmorphologien aufweisen, die erheblich von der in kultivierten Zellen beobachteten Kugel- und Ellipsoidform abweichen29. Der Kernpleomorphismus (Variation der Kerngröße und -form) wird sogar in der Histopathologie zur Einstufung von Krebserkrankungen verwendet30. Um Variationen in der Kernmorphologie zu berücksichtigen, haben wir Trainings-, Validierungs- und Testdatensätze aus sieben verschiedenen gefundenen Gewebe- und Tumortypen (Lungenadenokarzinom, nicht-neoplastisches Dünndarmkarzinom, normale Prostata, Kolonadenokarzinom, Glioblastom, nicht-neoplastischer Eierstock und Mandel) generiert in 12 Kernen von EMIT (Exemplar Microscopy Images of Tissue31, RRID: SCR_021052), einem aus klinischen Abfällen zusammengesetzten Gewebe-Microarray. Die Gewebe enthielten Zellen mit Kernmorphologien, die von Mischungen aus großen und kleinen Zellen, runden und schmalen Zellen bis hin zu dicht und unregelmäßig gepackten und in Clustern organisierten Zellen reichten. Insgesamt wurden etwa 10.400 Kerne von einem menschlichen Experten hinsichtlich der Kernkonturen, -zentren und des Hintergrunds beschriftet. Darüber hinaus beschrifteten zwei menschliche Experten einen zweiten Datensatz aus einem Ganzdiabild eines menschlichen Melanoms32, um den Grad der Übereinstimmung zwischen Beobachtern zu ermitteln und einen Testdatensatz bereitzustellen, der nicht mit den Trainingsdaten übereinstimmte.

Wir haben zwei semantische und einen Instanzsegmentierungsalgorithmus implementiert und anschließend evaluiert, die auf Deep Learning/CNNs basieren (UNet, PSPNet bzw. Mask R-CNN). Die semantische Segmentierung ist ein grobkörniger ML-Ansatz, der Objekte bestimmten trainierten Klassen zuordnet, während die Instanzsegmentierung feinkörnig ist und einzelne Instanzen von Objekten identifiziert. Wir haben jedes dieser Modelle (UnMICST-U, UnMICST-P bzw. UnMICST-M) anhand manuell kuratierter und beschrifteter Daten von sieben verschiedenen Gewebetypen trainiert. Die Modelle wurden nicht kombiniert, sondern unabhängig voneinander getestet, um herauszufinden, welches Netzwerk die beste Leistung aufwies.

Wir haben die Leistung anhand von Metriken auf Pixel- und Instanzebene bewertet, einschließlich des von Caicedo et al.16 beschriebenen Sweeping Intersection Over Union (IoU)-Schwellenwerts, der auf Bildern von Zelllinien basiert und im weit verbreiteten COCO-Datensatz33 implementiert ist. Der IoU (der Jaccard-Index) wird berechnet, indem die Überlappung zwischen der Ground-Truth-Annotation und der Vorhersage anhand eines Verhältnisses der Schnittmenge zur Vereinigung von Pixeln in zwei Masken gemessen wird. Der (IoU)-Schwellenwert wird über einen Wertebereich vom am wenigsten strengen Wert (0,55) bis zum strengsten Wert (0,816) bewertet. Im Gegensatz zu einer standardmäßigen Pixelgenauigkeitsmetrik (der Anteil der Pixel in einem Bild, die korrekt klassifiziert wurden) reagiert IoU nicht auf Klassenungleichgewichte. IoU ist ein besonders relevantes Maß für die Segmentierungsleistung für die Analyse von High-Plex-Bildern. Wenn Masken zur Quantifizierung von Markerintensitäten in anderen Kanälen verwendet werden, geht es uns nicht nur darum, ob an einer bestimmten Stelle ein Kern vorhanden ist oder nicht, sondern auch darum, ob die Masken die richtige Größe und Form haben.

Beispiele für Metriken auf Instanzebene sind True Positives (TP) und True Negatives (TN), die vorhergesagte Objekte danach klassifizieren, ob sie sich um 50 % oder mehr überlappen. Andernfalls werden sie als False Positives (FP) und False Negatives (FN) betrachtet. . Die Häufigkeiten dieser vier Zustände werden zur Berechnung des F1-Scores und der durchschnittlichen Präzision (AP) verwendet. Der F1-Score ist der gewichtete Durchschnitt aus Präzision (wahre positive Ergebnisse, normiert auf Vorhersagen) und Erinnerung (wahre positive Ergebnisse, normiert auf Grundwahrheit), und AP berücksichtigt die Anzahl der echten positiven Ergebnisse, die Gesamtzahl der Grundwahrheiten und Vorhersagen.

Die für diese Methoden erwartete Genauigkeit wurde ermittelt, indem mehrere menschliche Experten denselben Datensatz beschriften und den Grad der Übereinstimmung zwischen Beobachtern bestimmen ließen. Wir haben die Übereinstimmung zwischen Beobachtern anhand des F1-Scores und des umfassenden IoU-Scores anhand von Daten aus Ganzseitenbildern von menschlichen Melanomen beurteilt32. Für einen Satz von ca. 4900 unabhängig kommentierten Kerngrenzen erreichten zwei erfahrene Mikroskopiker einen mittleren F1-Score von 0,78 (Ergänzende Informationen 1) und einen IoU von 60 % bei einem Schwellenwert von 0,6. In der Diskussion vergleichen wir diese Daten mit Werten aus anderen kürzlich veröffentlichten Artikeln und gehen auf die Diskrepanz zwischen F1-Scores und IoU-Werten ein. Wir diskutieren auch, wie diese Werte erhöht werden könnten, um übermenschliche Leistungen zu erzielen24,34.

Um den Einfluss realer und berechneter Erweiterungen auf die Leistung von Segmentierungsmethoden zu untersuchen, haben wir Modelle mit unterschiedlichen Datensätzen trainiert, die sowohl reale als auch berechnete Erweiterungen umfassen, und die Daten dann mit Bildern getestet, die scharf, unscharf oder unscharf aufgenommen wurden Gaußscher Kernel. Wenn die Größe der Datensätze unausgeglichen war, haben wir solche Fälle durch Rotationserweiterungen ergänzt. Wir haben die Segmentierungsgenauigkeit quantitativ anhand der IoU und qualitativ durch visuelle Inspektion der vorhergesagten Masken, die den Bilddaten überlagert sind, bewertet. Eine echte Erweiterung umfasste das Hinzufügen zusätzlicher empirischer und nicht berechneter Trainingsdaten mit den Arten von Unvollkommenheiten, die im Gewebe am häufigsten vorkommen. Dies wurde erreicht, indem die Brennebene 3 µm über und unter der Probe positioniert wurde, was zu defokussierten Bildern führte. Ein zweiter Satz Bilder wurde mit langen Belichtungszeiten aufgenommen, wodurch 70–80 % der Pixel gesättigt waren. Da unscharfe und gesättigte Bilder nacheinander ohne Änderung der Bühnenposition erfasst wurden, war es möglich, denselben Satz an Ground-Truth-Anmerkungen zu verwenden. Für berechnete Augmentationen haben wir einen Gaußschen Kernel mit den fokussierten Bildern gefaltet und dabei eine Reihe von Standardabweichungen verwendet, die ausgewählt wurden, um ein breites Spektrum experimenteller Fälle abzudecken (Abb. 1a). In beiden Szenarien wurden die resultierenden Modelle anhand eines Testsatzes bewertet, der auf die gleiche Weise wie der Trainingssatz erstellt wurde.

ein schematisches Diagramm, das den Ansatz zeigt, der Testbilder an Modellen vergleicht, die mit Gauß-verschwommenen oder defokussierten Bilddaten trainiert wurden. Wahrscheinlichkeitskarten mit höherem Kontrast bedeuten mehr Vertrauen – interessierende Bereiche werden mit roten Pfeilen hervorgehoben. Entsprechende Wahrscheinlichkeitskarten zeigen, dass ein mit defokussierten Bildern trainiertes Modell bei defokussierten Testbildern eine bessere Leistung erbringt als ein Modell mit Gaußscher Unschärfe. Der Maßstabsbalken bezeichnet 20 μm. b Diagramme zeigen, dass die Einbeziehung echter Erweiterungen (rote Kurve) in den Trainingssatz Trainingssätzen mit Gaußscher Unschärfe (gelbe Kurve) und ohne echte Erweiterungen (blaue Kurve) für UnMICST-U, UnMICST-M und UnMICST-P statistisch signifikant überlegen ist . Die Simulation defokussierter Bilder mit Gaußscher Unschärfe ist nur unwesentlich besser, als die Trainingsdaten überhaupt nicht zu erweitern. c Vergleich der Genauigkeit des UnMICST-U-Modells, wenn die Größe des Trainingsdatensatzes konstant gehalten wurde, indem defokussierte Augmentationen (rote Kurve) durch 90- und 180°-Rotationen (blaue Kurve) ersetzt wurden. Fehlerbalken sind der Standardfehler des Mittelwerts.

In einer ersten Reihe von Studien haben wir herausgefunden, dass Modelle, die mit Trainingsdaten erstellt wurden, die mit Gaußscher Unschärfe erweitert wurden, bei Testdaten mit Gaußscher Unschärfe eine gute Leistung erbrachten. Bei der Auswertung anhand von Testdaten mit defokussierten und gesättigten Bildern stellten wir jedoch fest, dass die Vergrößerung der Gaußschen Unschärfe die Genauigkeit im Vergleich zu Basismodellen ohne Vergrößerungen nur geringfügig verbesserte (Abb. 1b). Im Gegensatz dazu erhöhte die Verwendung von Trainingsdaten, ergänzt durch echte Augmentationen, den Anteil der Zellen, die bei einem IoU-Schwellenwert von 0,6 erhalten blieben, um 40–60 %. Bei allen drei Lernrahmen (Modelle UnMICST-U, UnMICST-M und UnMICST-P) wurde eine statistisch signifikante Verbesserung bis zu einem IoU-Grenzwert von 0,8 beobachtet. Um einen ausgewogenen Vergleich durchzuführen, haben wir zwei Trainingsdatensätze mit der gleichen Anzahl an Bildern erstellt. Der erste Satz enthielt die Originaldaten plus berechnete 90- und 180°-Rotationen, und der zweite Satz enthielt Originaldaten plus defokussierte Daten, die von oberhalb und unterhalb der Probe gesammelt wurden. Auch hier stellten wir fest, dass Modelle, die mit realen Erweiterungen trainiert wurden, beim Testen mit defokussierten Testdaten die rotierend erweiterten Modelle deutlich übertrafen (Abb. 1c). Das Training einer der drei verschiedenen Deep-Learning-Architekturen mit echter Augmentation führte zu Modellen, die Modelle mit berechneter Augmentation übertrafen, wobei Testdaten verwendet wurden, die häufig auftretende Artefakte enthielten.

Als wir unser TMA-Panel (die Exemplar Microscopy Images of Tissues and Tumors (EMIT) TMA) färbten, stellten wir fest, dass Antikörper gegen Lamin A und C (Abb. 2a) (die verschiedene Spleißformen des LMNA-Gens sind) etwa nur halb so viele färbten Kerne als Antikörper gegen Lamin B1 (Abb. 2b) oder Lamin B2 (Abb. 2c) (Produkte der LMNB1- und LMNB2-Gene). Die Färbung des Lamin-B-Rezeptors (Abb. 2e) zeigte einen schlechten Bildkontrast. Eine Gesamtgewebeuntersuchung ergab, dass eine Mischung aus Antikörpern gegen Nucleoporin NUP98 (Abb. 2d) und Lamin B2, konjugiert mit demselben Fluorophor (Alexafluor-647), eine Kernhüllenfärbung (NES) für fast alle Kerne in mehreren Geweben erzeugte (Abb. 2f). -H). Wir hielten dies für den optimalen Antikörpercocktail. Allerdings zeigten nur einige Zelltypen, zum Beispiel Epithelien bei kolorektalen Adenokarzinomen, die ringartige Struktur, die für die Kernlamina in kultivierten Epithelzellen charakteristisch ist. Die Kernhülle in Immun- und anderen Zellen weist Falten und Einstülpungen auf35 und unseren Daten zufolge könnte die NES-Färbung unregelmäßig und diffus sein, was die Schwierigkeit, eine allgemein nützliche NES-Färbung im Gewebe zu finden, weiter unterstreicht.

Präsentiert a Lamin A/C, b Lamin B1, c Lamin B2, d NUP98 und e den Lamin B-Rezeptor im gleichen Sichtfeld. Lamin B1 und B2 scheinen ähnliche Kernanteile zu färben, während Lamin A/C weniger Kerne färbt. Die Anfärbung gegen den Lamin-B-Rezeptor war vergleichsweise schwächer. Lamin B2 (f) und NUP98 (g) ergänzen sich und maximieren bei gemeinsamer Verwendung die Anzahl der gefärbten Zellen. h Komposit aus Lamin B2 (lila) und NUP98 (grün). Der Maßstabsbalken gibt 100 μm an.

Der Wert von NES-Bildern für die Modellleistung wurde quantitativ und qualitativ bewertet. Bei Bildern von Adenokarzinomen des Dickdarms, nicht-neoplastischem Dünndarm und Tonsillengewebe stellten wir fest, dass die Hinzufügung von NES-Bildern bei allen drei Lernrahmen zu erheblichen Verbesserungen der Segmentierungsgenauigkeit basierend auf IoU führte; Verbesserungen in anderen Geweben, wie zum Beispiel beim Lungenadenokarzinom, waren bescheidener und sporadischer (Abb. 3a, Lunge). Für die Kernsegmentierung von Fibroblasten in Prostatakrebsgewebe waren die Modelle UnMICST-U und UnMICST-M mit NES-Daten nicht besser als Modelle, die allein auf DNA-Färbung trainiert wurden. Am auffälligsten waren Fälle, in denen NES-Daten die Leistung leicht verringerten (UnMICST-P-Segmentierung bei Prostatafibroblasten und UnMICST-U-Segmentierung bei Glioblastomen). Die Untersuchung der UnMICST-P-Masken ergab, dass die Segmentierung gut getrennter Fibroblastenkerne bereits mit DNA-Bildern allein optimal war (~60 % der Kerne blieben bei einer IoU von 0,6 erhalten), was bedeutet, dass die Hinzufügung von NES-Bildern kaum eine Verbesserung brachte. Bei UnMICST-U-Masken bei Glioblastomen schien das Problem eine atypische NES-Morphologie zu sein, die mit einem hohen Grad an Kernpleomorphismus und dem Vorhandensein von Riesenzellen vereinbar ist, was beides wohlbekannte Merkmale eines hochgradigen Glioblastoms sind36,37. Wir stellen außerdem fest, dass NES-Daten allein der DNA-Färbung als einzige Quelle für Trainingsdaten unterlegen waren und daher in Kombination mit DNA-Bildern verwendet werden sollten (Ergänzende Informationen 2). Daher verbessert das Hinzufügen von NES zu Trainingsdaten allgemein, aber nicht allgemein, die Segmentierungsgenauigkeit.

NES – Färbung der Kernhülle. Bewertung der Hinzufügung von NES als 2. Marker zur DNA hinsichtlich der Segmentierungsgenauigkeit pro Gewebe und pro Modell. a Variable IoU-Diagramme zum Vergleich des reinen DNA-Modells (blaue Kurve) und des DNA + NES-Modells (rote Kurve) über Frameworks hinweg. Das Hinzufügen von NES erhöhte die Genauigkeit für dicht gepackte Kerne wie Dickdarm, Dünndarm, Mandeln und in gewissem Maße auch Lungengewebe. Fehlerbalken sind Standardfehler des Mittelwerts. b Repräsentative Graustufenbilder von mit DNA und NES gefärbten Geweben zum Vergleich ihrer variablen Morphologien, gefolgt von UnMICST-U-Maskenvorhersagen (grün), überlagert mit Ground-Truth-Anmerkungen (lila). In Gewebe mit spärlichen Kernen, wie etwa Fibroblasten aus Prostatagewebe, brachte NES keinen zusätzlichen Nutzen gegenüber der DNA allein. In Geweben, in denen NES nicht den charakteristischen Kernring aufweist, wie beim Glioblastom, wurde die Genauigkeit ebenfalls nicht verbessert. Der Maßstabsbalken bezeichnet 20 μm.

Um festzustellen, ob echte Augmentation und NES während des Modelltrainings kombiniert werden, um eine höhere Segmentierungspräzision im Vergleich zur Verwendung beider Datentypen allein zu erreichen, haben wir Modelle in vier verschiedenen Szenarien trainiert und getestet (unter Verwendung aller drei Lernrahmen; Abb. 4). Wir verwendeten Bilder aus dem Dünndarm, einem Gewebe, das Kerne mit einer großen Vielfalt an Morphologien enthält, und erweiterten die Analyse dann auf andere Gewebetypen (siehe unten). Die Modelle wurden anhand defokussierter DNA-Testdaten ausgewertet, um die Empfindlichkeit des Experiments zu erhöhen. Im ersten Szenario haben wir Basismodelle mithilfe von fokussierten DNA-Bilddaten trainiert und Modelle an unsichtbaren fokussierten DNA-Bildern getestet. Bei Geweben wie dem Dünndarm, deren Segmentierung schwierig ist, weil sie dicht gepackte Kerne enthalten, führte Szenario A zu leicht untersegmentierten Vorhersagen. In Szenario B und allen nachfolgenden Szenarios wurden defokussierte DNA-Bilder in den Testsatz aufgenommen, was zu Konturen führte, die erheblich nicht mit den Ground-Truth-Annotationen übereinstimmten und zu einer stärkeren Untersegmentierung führten. In Bereichen ohne Kerne und mit sehr geringem Kontrast wurden falsch positive Vorhersagen und ungenaue Lokalisierungen der Kernmembran beobachtet (Abb. 4a). Als NES-Bilder in den Trainingssatz einbezogen wurden (Szenario C), stimmten die Kerngrenzen besser mit den Ground-Truth-Anmerkungen überein, obwohl weiterhin falsch-positiv vorhergesagte Kerne vorhanden waren. Die robusteste Leistung über ML-Frameworks und -Gewebe hinweg wurde beobachtet, wenn NES-Bilder und echte Augmentation kombiniert wurden: Genaue Kerngrenzen stimmten im Allgemeinen sowohl in Form als auch in Größe gut mit Ground-Truth-Anmerkungen überein. Beobachtbare Unterschiede bei der Platzierung von Segmentierungsmasken spiegelten sich in Verbesserungen der IoU wider: Für alle drei Deep-Learning-Frameworks, einschließlich NES-Daten und realer Erweiterungen, erhöhte sich der Anteil der erhaltenen Kerne um 50 % bei einem IoU-Schwellenwert von 0,6 (Abb. 4b). Die Genauigkeit von UnMICST-P (blaue Kurve), das allein auf fokussierten DNA-Daten trainiert wurde, war bei allen IoU-Schwellenwerten höher als bei den anderen beiden Basismodellen, was darauf hindeutet, dass UnMICST-P über eine größere Lernkapazität verfügt. UnMICST-P könnte bei Experimenten von Vorteil sein, bei denen sich die Anfärbung der Kernhülle als schwierig oder unmöglich erweist.

NES – Färbung der Kernhülle. a Modelle, die allein mit fokussierten DNA-Daten trainiert wurden, erzeugten Wahrscheinlichkeitskarten, die untersegmentiert waren, insbesondere in dicht gepacktem Gewebe wie dem Dünndarm (Szenario A). Beim Test mit defokussierten Daten waren die Kerngrenzen größtenteils falsch (Szenario B). Durch Hinzufügen von NES wurden die Randformen der Kerne wiederhergestellt (Szenario C). Durch die Kombination von NES und realen Erweiterungen wurden falsch positive Erkennungen reduziert und Kernmasken erzeugt, die den Grundwahrheitsbezeichnungen besser ähneln (Szenario D). Der Maßstabsbalken bezeichnet 20 μm. Die Tabellenlegende zeigt die für die einzelnen Szenarien A–D verwendeten Bedingungen. Der gelbe Pfeil zeigt eine verschwommene Zelle von Interesse an, bei der sich die Genauigkeit mit NES und echter Augmentation verbessert. b Diagramme vergleichen die Genauigkeit, dargestellt als Anzahl der über verschiedene IoU-Schwellenwerte erhaltenen Zellen, mit allen Modellen von UnMICST-U (oben), UnMICST-M (Mitte) und UnMICST-P (unten). In allen Modellen blieben mehr Kerne erhalten, wenn NES und echte Augmentationen während des Trainings zusammen verwendet wurden (gelbe Kurven), verglichen mit der Verwendung von NES ohne echte Augmentationen (rote Kurven) oder DNA allein (blaue Kurven). Fehlerbalken sind der Standardfehler des Mittelwerts.

Um festzustellen, ob sich Verbesserungen der Segmentierung auf mehrere Gewebetypen erstrecken würden, wiederholten wir die oben beschriebene Analyse unter Verwendung von drei Trainings- und Testszenarien sowohl mit scharfen (Abb. 5a) als auch mit defokussierten Bildern (Abb. 5b). Szenario 1 verwendete fokussierte DNA-Bilder für das Training (blaue Balken), Szenario 2 verwendete fokussierte DNA- und NES-Bilder (rote Balken) und Szenario 3 verwendete fokussierte DNA- und NES-Bilder plus echte Augmentation (grüne Balken). Während das Ausmaß der Verbesserung je nach Gewebetyp und Testsatz variierte (Panel a vs. b), stützen die Ergebnisse insgesamt die Schlussfolgerung, dass die Einbeziehung sowohl von NES als auch echter Augmentationen während des Modelltrainings zu einer statistisch signifikanten Verbesserung der Segmentierungsgenauigkeit bei mehreren Gewebetypen führt Modelle. Der Genauigkeitszuwachs war am größten, wenn die Modelle schlecht abschnitten (z. B. in Szenario 1, wo die Modelle anhand defokussierter Dickdarmbilddaten getestet wurden; Abb. 5b, blaue Balken), sodass die Segmentierungsgenauigkeit über alle Gewebe- und Zelltypen hinweg relativ gleichmäßig wurde. Als abschließenden Test haben wir das oben beschriebene gesamte Dia-Melanombild (das in keinen Trainingsdaten enthalten war) noch einmal untersucht und die IoU-, AP- und F1-Scores ausgewertet. Die Daten waren unabhängig von der Metrik konsistent und zeigten, dass alle drei Modelle von der Einbeziehung von Trainingsdaten profitierten, die NES-Bilder und echte Erweiterungen enthielten (Ergänzende Informationen 3). Die Verbesserung der Genauigkeit war jedoch bescheiden und ähnelte dem Lungenadenokarzinom. Wir führen dies auf die Tatsache zurück, dass Melanome wie Lungenadenokarzinome weniger dichte Regionen aufweisen, in denen unsere Basismodelle bereits gute Ergebnisse erzielten.

a Bei allen Gewebetypen außer GBM boten die Hinzufügung von NES (rosa Balken) und die Verwendung echter Augmentationen in Kombination mit NES (grüne Balken) in den Trainingsdaten eine höhere Genauigkeit im Vergleich zur alleinigen Verwendung von DNA (blaue Balken). b Als die Modelle mit defokussierten Daten getestet wurden, zeigten alle Gewebe (einschließlich GBM unerwartet) Vorteile, die sich aus der Verwendung von NES (rosa Balken) in Kombination mit echten Augmentationen (grüne Balken) ergaben. Das Liniendiagramm zeigt die höchste Genauigkeit an, die für jedes Gewebe erreicht wurde, wenn es anhand der Fokusdaten aus Panel (a) getestet wurde.

Um die mit einem repräsentativen UnMICST-Modell erreichbare Gesamtverbesserung zu untersuchen, haben wir UnMICST-U mit und ohne reale oder berechnete Augmentationen und NES-Daten an allen sechs Geweben als Satz getestet, einschließlich scharfer, gesättigter und außerhalb des Fokus liegender Bilder (Ausgleich). jeweils Gesamtmenge an Trainingsdaten). Bei einem IoU von 0,6 wurde für das vollständig trainierte Modell eine 1,7-fache Verbesserung der Genauigkeit beobachtet (dh mit NES-Daten und echten Erweiterungen; Abb. 6a). Die Inspektion von Segmentierungsmasken zeigte auch genauere Konturen für Kerne in einem breiten Formenspektrum. Die allgemeine Verbesserung der Genauigkeit war wesentlich größer als jeder zwischen semantischen und Instanzsegmentierungs-Frameworks beobachtete Unterschied. Daher konzentrierten wir uns bei der weiteren Arbeit auf das am weitesten verbreitete Framework: U-Net.

a Genauigkeitsverbesserung von UnMICST-U-Modellen, die mit und ohne NES (Kernhüllenfärbung) trainiert wurden, im Vergleich zu DNA allein und echte Augmentationen im Vergleich zu berechneter Unschärfe (GB; Gaußsche Unschärfe). Um die Größe des Trainingsdatensatzes auszugleichen, wurden GB durch NES-Daten ersetzt und berechnete 90/180°-Rotationen wurden durch echte Erweiterungen ersetzt. Fehlerbalken sind der Standardfehler des Mittelwerts. b Ein 64-Plex-CyCIF-Bild eines nicht-neoplastischen Dünndarm-TMA-Kerns aus dem EMIT-Datensatz. Das gestrichelte Feld zeigt den interessierenden Bereich für die Panels (d, e) an. c UMAP-Projektion unter Verwendung einzelner Zellfärbungsintensitäten für 14 Markerproteine ​​(siehe Methoden). Die Farbe der Datenpunkte stellt die Intensität von E-Cadherin (oben links) oder CD45 (unten links) über alle segmentierten Kerne dar. Dichtebasiertes Clustering mit HDBSCAN identifizierte unterschiedliche Cluster (jeweils durch eine andere Farbe gekennzeichnet), die entweder für E-Cadherin oder CD45 positiv waren, sowie eine kleine Anzahl doppelt positiver Zellen (blauer gestrichelter Kreis). d Vergrößerter Bereich des gelb gestrichelten Kastens von b, der die Umrisse der Segmentierungsmaske (magenta) über dem DNA-Kanal (grün) zeigt. e Zusammengesetztes Bild von DNA, E-Cadherin und CD45 derselben Region. Kernschwerpunkte aus der Segmentierung, gekennzeichnet durch braune Punkte. Zellen, die sowohl für E-Cadherin als auch für CD45 positiv sind (aus dem blau gestrichelten Kreis in Bild c, sind mit gelben Pfeilen und gelben Punkten markiert. Einschub: vergrößerte Ansicht des umrahmten Bereichs, der überlappende Immun- und Epithelzellen zeigt.

Wir haben auch ein vollständig trainiertes UnMICST-U-Modell auf einem 64-Plex-CyCIF-Bild von nicht-neoplastischem Dünndarmgewebe aus der EMIT-TMA getestet (Abb. 6b). Die Färbungsintensitäten wurden pro Zelle quantifiziert und die Ergebnisse mithilfe der Uniform Manifold Approximination and Projection (UMAP; Abb. 6c) visualisiert. Es wurde festgestellt, dass die Segmentierungsmasken gut platziert sind und kaum Anzeichen einer Unter- oder Übersegmentierung aufweisen (Abb. 6d). Darüber hinaus zeigten 21 % der Zellen mit segmentierten Kernen eine positive Färbung (bestimmt mithilfe eines Gaußschen Mischungsmodells) für den Immunzellmarker CD45 und 53 % eine positive Färbung für den Epithelzellmarker E-Cadherin, während weniger als 3 % positiv waren für beide. Kein bekannter Zelltyp ist tatsächlich sowohl für CD45 als auch für E-Cadherin positiv, und die sehr geringe Häufigkeit dieser doppelt positiven Zellen ist ein Beweis für eine genaue Segmentierung. Als wir einige der 830 doppelt positiven Zellen untersuchten (blauer gestrichelter Kreis in Abb. 6c), fanden wir mehrere Beispiele einer CD3+ T-Zelle (gelbe Pfeilspitzen; hellgelbe Punkte in Abb. 6e), die eng mit oder zwischen den Epithelzellen des Darms verbunden sind Zotten (grüne kiwiartige Struktur sichtbar in Abb. 6e). Dies steht im Einklang mit der bekannten Rolle des Darmepithels bei der Immunhomöostase38. In diesen Fällen beruht die Fähigkeit des Menschen, Immun- und Epithelzellen zu unterscheiden, auf Vorkenntnissen, mehrdimensionalen Intensitätsmerkmalen und subtilen Unterschieden in Form und Textur – allesamt Aspekte des Modelltrainings. Zukünftige Verbesserungen bei der Gewebesegmentierung erfordern daher wahrscheinlich die Entwicklung von CNNs, die in der Lage sind, seltene, aber biologisch interessante räumliche Anordnungen zu klassifizieren, und nicht einfache Erweiterungen der hier beschriebenen Allzweck-Segmentierungsalgorithmen.

Von allen in dieser Arbeit kommentierten und getesteten Gewebetypen war der nicht-neoplastische Eierstock am schwierigsten zu segmentieren (Ergänzende Informationen 4a), und die Hinzufügung von Ovarial-Trainingsdaten zu Modellen, die anhand von Daten aus anderen Geweben trainiert wurden, verringerte die Gesamtgenauigkeit (Ergänzende Informationen 4b). Wir haben zuvor Eierstockkrebs mit noch höherer Auflösung (60×/1,42 NA, abgetastet bei 108 nm Pixelgröße)39 mithilfe optischer Schnitt- und Dekonvolutionsmikroskopie abgebildet; Die Untersuchung dieser Bilder zeigt Kerne mit stark unregelmäßiger Morphologie, schlechtem Bildkontrast und dichter Packung (Ergänzungsinformation 4c) im Gegensatz zum Kolonadenokarzinom (Ergänzungsinformation 4d). Daher sind zusätzliche Forschungsarbeiten, möglicherweise mit unterschiedlichen NES-Antikörpern, erforderlich, um die Leistung bei Eierstock- und anderen schwer zu segmentierenden Geweben zu verbessern. Bis dahin ist Vorsicht geboten, wenn Trainingsdaten aus Geweben mit sehr unterschiedlichen Kernmorphologien kombiniert werden.

Dieser Artikel leistet vier Hauptbeiträge zur wachsenden Literatur zur Segmentierung von Gewebebildern, die ein wesentlicher Schritt bei der Analyse von Einzelzelldaten ist. Erstens berücksichtigt es explizit Trainings- und Testdaten, die die Arten von Fokus- und Intensitätsartefakten enthalten, die häufig in Vollbildbildern anzutreffen sind, insbesondere in Bildern von menschlichem Gewebe, die im Rahmen der klinischen Pflege und Behandlung aufgenommen wurden. Dies steht im Gegensatz zu anderen neueren Arbeiten, die sich auf optimale Sichtfelder konzentrieren. Zweitens zeigt es, dass es oft möglich ist, die Segmentierungsgenauigkeit durch die Einbeziehung zusätzlicher Daten (NES) zur Kernhüllenmorphologie zu erhöhen, und schlägt einen allgemein nützlichen Antikörpercocktail vor. Drittens und am bedeutsamsten zeigt es, dass die Hinzufügung realer Erweiterungen, die defokussierte und gesättigte Bilder umfassen, zu Modelltrainingsdaten die Segmentierungsgenauigkeit erheblich verbessert, während Erweiterungen, die auf Gaußscher Unschärfe basieren, wesentlich weniger Vorteile bringen. Diese Ergebnisse erstrecken sich auf Deep-Learning-Frameworks, die auf Instanzsegmentierung (UnMICST-M) und semantischer Segmentierung (UnMICST-U und UnMICST-P) basieren. Schließlich zeigt die Verwendung neu generierter markierter Trainingsdaten für mehrere Gewebetypen, dass echte Augmentation und NES zusammen die Robustheit und Genauigkeit der Segmentierung über viele Gewebe hinweg verbessern; Diese Verbesserungen sind direkt auf die reale Aufgabe der Segmentierung hochdimensionaler Gewebe- und Tumorbilder anwendbar. Das Ausmaß der Verbesserung, die durch die Einbeziehung von NES-Daten oder eine echte Erweiterung beobachtet wird, ist wesentlich größer als die beobachteten Unterschiede zwischen ML-Frameworks. UnMICST-Modelle stellen daher einen guten Ausgangspunkt für die Bildsegmentierung schnell wachsender Gewebedatenbestände dar. Die bei der Segmentierung gemultiplexter Bilder mithilfe optimierter UnMICST-Modelle verbleibenden Fehler scheinen eine subtile biologische Grundlage zu haben. Um diese offensichtlichen Fehler zu reduzieren, kann die Entwicklung zusätzlicher physiologiebewusster Modelle für maschinelles Lernen erforderlich sein.

Eine der Überraschungen in der aktuellen Arbeit war das scheinbar geringe Maß an Übereinstimmung, das zwei menschliche Experten erzielten, die dieselben Bilddaten kommentierten; Wir haben geschätzt, dass nur 60 % der annotierten Kerne zwischen Annotatoren eine Überlappung von 60 % oder mehr aufwiesen (0,6 IoU-Schwellenwert). Eine schlechte Übereinstimmung ist mit ziemlicher Sicherheit eine Folge unserer Verwendung eines strengen umfassenden IoU-Bewertungskriteriums, das den Anteil der Pixel misst, die sich zwischen zwei Segmentierungsmasken überlappen. Der alternative und weit verbreitete F1-Score, der bestimmt, ob zwei Beobachter (oder ein Beobachter und eine Maschine) sich über das Vorhandensein eines Kerns einig sind, erreicht eine Inter-Beobachter- und automatisierte Segmentierungsgenauigkeit von 0,78, was mit dem höchsten F1-Score vergleichbar ist. Gewebebewertung für Mesmer40, ein weiteres Deep-Learning-Modell, das auf Gewebebilder angewendet wird. Darüber hinaus ähneln unsere Ergebnisse mit IoU-Werten denen, die kürzlich von Kromp et al.17 berichtet wurden (wobei die IoU-Schwellenwerte angepasst wurden, um einen direkten Vergleich zu ermöglichen). Die Autoren von Cellseg41 berichten auch über vergleichbare Segmentierungsgenauigkeiten und weisen auf die Schwierigkeit hin, einen hohen IoU-Wert bei Zellen zu erreichen, die sich in Form und Fokus stark unterscheiden.

Es scheint daher, dass viele Studien ein ähnliches Maß an Übereinstimmung zwischen Beobachtern erreicht haben und dass unsere Ergebnisse kein Ausreißer sind, auch wenn wir problematische Daten einbeziehen. Dies weist auf eine grundlegende Herausforderung für alle Ansätze des überwachten Lernens hin, deren Lösung nicht sofort klar ist. Um die Ursachen der Meinungsverschiedenheiten zwischen Beobachtern in Gewebebildern zu verstehen und qualitativ hochwertigere Trainings- und Testdaten zu erhalten, ist die Erfassung präziser 3D-Daten mit anschließender Anwendung unterschiedlicher Unschärfegrade und Hinzufügung von Intensitätsartefakten erforderlich. Es scheint auch wahrscheinlich, dass praktische Verbesserungen bei der Segmentierung durch die Kombination kürzlich beschriebener Fortschritte erzielt werden können. Beispielsweise verwenden Greenwald et al.40 einen cleveren Community-basierten Ansatz, um viel mehr Trainingsdaten zu erfassen als in der aktuellen Arbeit, Kromp et al.17 kombinieren Gewebebilder mit Ground-Truth-Annotationen, die von kultivierten Zellen erfasst wurden (von einem Team von Studenten im Grundstudium). ), während sich die aktuelle Arbeit auf den Einsatz von NES und echten Erweiterungen konzentriert, um die Robustheit von Segmentierungsalgorithmen allgemein zu verbessern.

Aus Sicht des maschinellen Lernens liegt der Wert des Hinzufügens zusätzlicher Bildkanäle zu Trainingsdaten auf der Hand. Die experimentelle Machbarkeit ist nicht immer so klar. Ein wesentlicher Nachteil besteht darin, dass je mehr Fluoreszenzkanäle für die Segmentierung verwendet werden, desto weniger Kanäle für die Datenerfassung zu anderen Markern zur Verfügung stehen. Glücklicherweise hat die Entwicklung der hochmultiplexierten Bildgebung dies weniger relevant gemacht, da die Erfassung von 20–40 oder mehr Bildkanälen (jeder entspricht einem anderen fluoreszierenden Antikörper) zur Routine geworden ist. Dadurch ist es einfach, zwei Kanäle für die Segmentierung zu reservieren. Das Kosten-Nutzen-Verhältnis der Hinzufügung zusätzlicher Segmentierungsdaten wird beim High-Content-Screening von Zellen in Multiwell-Platten, für das im Allgemeinen kostengünstige Reagenzien unerlässlich sind, anders sein als bei der Gewebebildgebung. In Geweben ändert sich die Morphologie von Kernlaminen je nach Krankheitszustand42, Zelltyp, Aktivierungszustand und zahlreichen anderen biologischen Prozessen. Während dies eine Herausforderung für die Segmentierungsroutinen darstellt, dürfte die Bildgebung von Laminen auch wertvolle biologische Informationen liefern, was ein weiteres Argument für die routinemäßige Erfassung dieser Daten darstellt43. Damit andere auf der aktuellen Arbeit aufbauen können, veröffentlichen wir alle Trainings- und Testbilder, ihre Segmentierungsmasken und Anmerkungen sowie echte Augmentationen für mehrere Gewebetypen (Mandeln, Eierstöcke, Dünndarm und Dickdarm-, Gehirn-, Lungenkrebs). Prostata) über die EMIT-Ressource; Modelle werden als Komponenten der UnMICST-Modellressource veröffentlicht (siehe Informationen zur Datenverfügbarkeit und Codeverfügbarkeit).

Die am schnellsten verallgemeinerbare Erkenntnis aus dieser Arbeit ist, dass die reale Augmentation die mit Gaußschen Kerneln generierte berechnete Augmentation übertrifft. Unschärfe und Bildsättigung sind eine unvermeidliche Folge der begrenzten Bandbreite optischer Systeme, der Dicke der Proben im Verhältnis zur Schärfentiefe, der Lichtstreuung, der Beugung, der Verwendung nicht immersiver Objektivlinsen und der daraus resultierenden Fehlanpassungen der Brechungsindizes und vieler anderer Faktoren andere physikalische Prozesse. Auch die tatsächliche unscharfe Unschärfe unterscheidet sich, wenn sich die Fokusebene oberhalb und unterhalb der Probe befindet. Bereiche für zukünftige Anwendungen echter Erweiterungen könnten inhomogene Lichtquellen und Bühnenjitter sein. Es wird zweifellos nützlich sein, Kernel für eine effektivere computergestützte Erweiterung zu bestimmen, aber das Sammeln realer Erweiterungsdaten stellt in einer realen Umgebung nur eine minimale Belastung dar. Unsere Beobachtung, dass echte Augmentation die berechnete Augmentation übertrifft, kann auch außerhalb des Bereichs der Mikroskopie von allgemeiner Bedeutung sein: Bei jedem Hochleistungskamerasystem sind echte unscharfe Daten zwangsläufig komplizierter als die Gaußsche Unschärfe.

Um Bilder für das Training und Testen von Modellen zu erstellen, wurden menschliche Gewebeproben von mehreren Patienten verwendet, um ein Multigewebe-Mikroarray (HTMA427) zu konstruieren, und zwar unter einem vom Institutional Review Board (IRB) des Brigham and Women's Hospital genehmigten Protokoll für überschüssiges (entsorgtes) Gewebe ( BWH IRB 2018P001627). Aus Geweberegionen wurden ein oder zwei Kerne mit einem Durchmesser von 1,5 mm entnommen, mit dem Ziel, ein oder zwei Beispiele verschiedener gesunder oder Tumortypen zu gewinnen, darunter nicht-neoplastische medizinische Erkrankungen und sekundäres Lymphgewebe wie Mandeln. Die Objektträger wurden mit Reagenzien von Cell Signaling Technologies (Beverly MA, USA) und Abcam (Cambridge UK) gefärbt, wie in Tabelle 1 gezeigt.

Vor der Bildgebung wurden die Objektträger mit 90 % Glycerin und einem Deckglas Nr. 1,5 eingedeckt. Vor der algorithmischen Auswertung wurden die Bilder in drei voneinander unabhängige Teilmengen aufgeteilt und für Training, Validierung und Tests verwendet.

Das gefärbte TMA wurde auf einem INCell 6000-Mikroskop (General Electric Life Sciences) abgebildet, das mit einer 20x/0,75-Objektivlinse (370 nm nominale laterale Auflösung bei 550 nm Wellenlänge) und einer Pixelgröße von 0,325 µm pro Pixel ausgestattet war. Hoechst und Lamin-A647 wurden mit einem 405- bzw. 642-nm-Laser angeregt. Die Emission wurde mit den Filtersätzen DAPI (455/50 nm) und Cy5 (682/60 nm) mit Belichtungszeiten von 60 bzw. 100 ms gesammelt. Bei der Ganzdia-Bildgebung wurden 1215 Kacheln mit einer Überlappung von 8 % erfasst, was für das Zusammenfügen in ASHLAR, einem Zusammenfüge- und Registrierungsalgorithmus der nächsten Generation für große Bilder, empfohlen wird (https://github.com/labsyspharm/ashlar). Um defokussierte Daten zu erzeugen, haben wir Bilder von oberhalb und unterhalb der Brennebene aufgenommen, indem wir die Z-Achse in beide Richtungen um 3 µm variierten. Um gesättigte Bilder der DNA-Färbung zu erzeugen, wurde eine Belichtungszeit von 150 ms verwendet. Diese beiden Arten suboptimaler Daten wurden dann für eine echte Erweiterung während des Modelltrainings verwendet, wie unten beschrieben.

Repräsentative Kerne für Lungenadenokarzinom, nicht-neoplastisches Dünndarmkarzinom, normale Prostata, Kolonadenokarzinom, Glioblastom, nicht-neoplastisches Eierstockkarzinom und Tonsille wurden aus Bildmosaiken extrahiert und um den Faktor 2 heruntergerechnet, um der Pixelgröße der routinemäßig erfassten Bilder zu entsprechen und in MCMICRO31 analysiert. Die Bilder wurden dann auf 256 × 256 Pixel große Kacheln zugeschnitten und fokussierte DNA und NES wurden in Adobe Photoshop importiert, um die menschliche Annotation von Kerngrenzen zu erleichtern. Wir haben Konturen und Hintergrundklassen auf separaten Ebenen beschriftet und dabei nach Bedarf zwischen DNA und NES gewechselt. Um Zeit zu sparen, haben wir vollständige Konturen der Kerne gezeichnet und diese mithilfe der Matlab-Imfill-Operation ausgefüllt, um Kernzentren zu erzeugen. Für Kerne an den Bildrändern, an denen die Konturen unvollständig wären, haben wir die Kernzentren manuell mit Anmerkungen versehen. Wie von Ronneberger et al. (2015) wurde eine vierte Schicht verwendet, um Bereiche zwischen verklumpten Zellen zu markieren. Diese zusätzlichen Anmerkungen ermöglichten es, Modelle, die diese Pixel falsch klassifizierten, gezielt zu bestrafen. Bei der Bildbetrachtung stellten wir fest, dass bestimmte Kernmorphologien häufiger auftraten als andere. Um dieses Ungleichgewicht zu berücksichtigen, haben wir in jedem Bild nur charakteristische Kerne jedes Gewebetyps mit Anmerkungen versehen, um das Auftreten von Kernformen in unseren Trainings-, Validierungs- und Testsätzen auszugleichen. Beispielsweise zeigten Dünndarm- und Dickdarmbilder sowohl runde als auch längliche Kerne, und da die erstere Form bereits in anderen Geweben (z. B. der Lunge) in unserem Datensatz vorhanden war, haben wir die letztere Form nur für Dünndarm- und Dickdarmgewebe mit Anmerkungen versehen. Vollständige Annotationen auf einem zurückgehaltenen Testdatensatz wurden von einem zweiten Annotator validiert und mithilfe des F1-Scores gemessen. Die F1-Score-Bewertung zwischen beiden kommentierten Grundwahrheiten war hoch und zeigte eine hervorragende Übereinstimmung (Ergänzende Informationen 1).

Da alle ursprünglichen, defokussierten und gesättigten DNA-Bilder im selben Bildstapel aufgenommen wurden, war es möglich, einen einzigen registrierten Satz von DNA-Anmerkungen über alle erweiterten Bildkanäle hinweg zu verwenden. Um den Trainingssatz zu erstellen, wurde jedes Bild in 64 × 64-Patches zugeschnitten, normalisiert, um den gesamten Dynamikbereich zu nutzen, und durch 90°-Drehungen, Reflexionen und 20 %-Hochskalierung weiter erweitert. In Übereinstimmung mit dem Trainingssatz umfassen die Validierungs- und Testsätze auch defokussierte und gesättigte Beispiele, wurden jedoch nicht durch Standardtransformationen erweitert. Das Verhältnis der in der Aufteilung des Trainings-, Validierungs- und Testsatzes vorhandenen Datenbeispiele betrug 0,36:0,24:0,4. Für einen fairen Vergleich zwischen den Modellen wurden derselbe Datensatz und die gleiche Aufteilung für die drei in diesem Manuskript beschriebenen Deep-Learning-Frameworks verwendet (Ergänzungstabelle 2).

Um das Modelltraining zu erleichtern, wurden drei verschiedene hochmoderne Architekturen separat trainiert, implementiert und evaluiert. Sie sind, in keiner bestimmten Reihenfolge, UNet, Mask R-CNN und PSPNet und wurden von ihren ursprünglichen Referenzen ohne Änderung ihrer Architektur übernommen. UNet wurde aufgrund seines bisherigen Erfolgs im biomedizinischen Bereich ausgewählt, Mask R-CNN aufgrund seiner Fähigkeit, sowohl Objekterkennung als auch Maskengenerierung durchzuführen, und PSPNet wurde aufgrund seiner Fähigkeit ausgewählt, Bildmerkmale aus mehreren räumlichen Maßstäben zu integrieren. Trainings-, Validierungs- und Testdaten wurden aus 12 Kernen in 7 Geweben und insgesamt 10.359 Kernen in der Zusammensetzung des Dickdarms abgeleitet – 1142; Glioblastom (GBM) – 675; Lunge – 1735; Eierstock – 956; Fibroblast – 922; Dünndarm – 1677; Tonsille – 3252. Um die Konsistenz der Auswertung über alle Segmentierungsalgorithmen hinweg aufrechtzuerhalten, wurde die Segmentierungsgenauigkeit berechnet, indem der Anteil der Zellen in einem durchgehaltenen Testsatz gezählt wurde, die einen umfassenden IoU-Schwellenwert (Intersection over Union) überschritten. Der NES-Kanal wurde als dreidimensionales Array als Eingabe in jede Architektur mit dem DNA-Kanal verkettet.

Ein UNet-Modell14 mit drei Klassen wurde basierend auf der Annotation von Kernzentren, Kernkonturen und Hintergrund trainiert. Das neuronale Netzwerk besteht aus 4 Schichten und 80 Eingabemerkmalen. Das Training wurde mit einer Batch-Größe von 32 mit dem Adam Optimizer und einer Lernrate von 0,00005 mit einer Abklingrate von 0,98 alle 5000 Schritte durchgeführt, bis keine Verbesserung der Genauigkeit mehr zu verzeichnen war oder ~100 Epochen erreicht waren. Zur Verbesserung der Trainingsgeschwindigkeit wurde eine Batch-Normalisierung verwendet. Während des Trainings hatte die unterste Schicht eine Abbruchrate von 0,35 und eine L1-Regularisierung wurde implementiert, um eine Überanpassung44,45 und ein frühes Stoppen zu minimieren. Das Training wurde auf Workstations durchgeführt, die mit NVidia GTX 1080- oder NVidia TitanX-GPUs ausgestattet waren.

Viele Segmentierungsmodelle basieren auf der Mask R-CNN-Architektur15. Mask R-CNN hat bereits bei einer Vielzahl von Segmentierungsaufgaben eine hervorragende Leistung gezeigt. Mask R-CNN beginnt mit der Erkennung von Begrenzungsrahmen von Kernen und führt anschließend eine Segmentierung innerhalb jedes Rahmens durch. Durch diesen Ansatz entfällt die Notwendigkeit eines zwischengeschalteten Wassereinzugsgebiets oder eines gleichwertigen Segmentierungsschritts. Somit berechnet Mask R-CNN direkt eine Segmentierungsmaske, wodurch der Overhead in herkömmlichen Segmentierungspipelines erheblich reduziert wird. Wir haben ein ResNet5046-Backbone-Modell in die UnMICST-M-Implementierung übernommen und die Gewichte mit vorab trainierten Werten aus der COCO-Objektinstanz-Segmentierungsherausforderung33 initialisiert, um die Konvergenzeigenschaften zu verbessern. Für ein effizientes Training haben wir die ursprünglichen Eingabebilder auf 800 × 800 Pixel hochgesampelt und ein Modell für 24 Epochen mit einer Stapelgröße von 8 trainiert. Der Adam-Optimierer mit einem Gewichtsabfall von 0,0001 zur Vermeidung einer Überanpassung wurde mit einem variablen Lernen genutzt Die Rate wurde zunächst auf 0,01 eingestellt und in den Epochen 16 und 22 um den Faktor 0,1 verringert. Das Training wurde auf einem Rechenknotencluster mit 4 NVidia TitanX- oder NVidia Tesla V100-GPUs durchgeführt. Zur Bewertung und zum Vergleich haben wir gemäß der Standardpraxis das Modell mit der höchsten Leistung im Validierungssatz verwendet.

Wir haben ein PSPNet-Modell mit drei Klassen47 trainiert, um Zellkernzentren, Kernkonturen und Hintergrund aus einer Vielzahl von Gewebetypen zu extrahieren. PSPNet ist eines der am häufigsten verwendeten CNNs für die semantische Segmentierung natürlicher Szenenbilder im Bereich Computer Vision. Das Netzwerk verwendet ein sogenanntes Pyramid-Pooling-Modul, dessen Zweck darin besteht, sowohl globale als auch lokale Merkmale zu lernen. Die von PSPNet verwendeten zusätzlichen Kontextinformationen ermöglichten es dem Segmentierungsalgorithmus, realistische Wahrscheinlichkeitskarten mit größerer Zuverlässigkeit zu erstellen. Wir haben ResNet101 als Backbone verwendet. Das Training des Netzwerks wurde mit einer Stapelgröße von 8 und einer Bildgröße von 256 × 256 Pixeln für 15.000 Iterationen oder bis zum Erreichen des Minimalverlustmodells durchgeführt. Während des Trainings wurde eine Standard-Kreuzentropieverlustfunktion verwendet. Der Gradientenabstieg wurde mit dem Adam-Optimierer mit einer Lernrate von 0,0001 und einem Gewichtsabfallparameter von 0,005 über L2-Regularisierung durchgeführt. Für eine schnellere Konvergenz wurde eine Batch-Normalisierung eingesetzt, und in der letzten Netzwerkschicht wurde eine Dropout-Wahrscheinlichkeit von 0,5 verwendet, um eine Überanpassung abzuschwächen. Das Modelltraining wurde auf einem Rechenclusterknoten durchgeführt, der mit NVidia Tesla V100-GPUs ausgestattet war.

Für die in Abb. 6 gezeigte Analyse wurde ein 64-Plex-CyCIF-Bild von nicht-neoplastischem Dünndarmgewebe aus der EMIT-TMA (https://www.synapse.org/#!Synapse:syn22345748/) mit insgesamt gefärbt 45 Antikörper, wie in den Protokollen https://www.protocols.io/view/ffpe-tissue-pre-treatment-before-t-cycif-on-leica-bji2kkge und https://doi.org/10.17504/protocols beschrieben. io.bjiukkew. Die Bilder wurden mithilfe des UnMICST-U-Modells segmentiert, das auf DNA mit NES-Daten und echten Augmentationen trainiert wurde. Die mittleren Fluoreszenzintensitäten über 45 Marker für 27.847 segmentierte Kerne wurden wie in Lit. beschrieben quantifiziert. 31. E-Cadherin-positive und CD45-positive Zellen wurden mithilfe von Gauß-Mischungsmodellen anhand logarithmisch transformierter Daten identifiziert. Für multivariates Clustering logarithmisch transformierte mittlere Intensitäten aller Einzelzellen von 14 ausgewählten Proteinmarkern (E-Cadherin, Pan-Cytokeratin, CD45 CD4, CD3D, CD8, RF3, PML, GLUT1, GAPDH TDP43, OGT, COLL4, ein EPCAM) wurden mit Uniform Manifold Approximation and Projection (UMAP)48 vorverarbeitet und mit Hierarchical Density-Based Spatial Clustering of Applications with Noise (HDBSCAN)49 geclustert. Cluster, die einen hohen Anteil an E-Cadherin und CD45 exprimieren, wurden identifiziert und über ein Falschfarbenbild gelegt, das die Färbung von DNA, E-Cadherin und CD45 zeigt.

Damit andere auf der aktuellen Arbeit aufbauen können, veröffentlichen wir alle Trainings-, Validierungs- und Testbilder, ihre Anmerkungen und echten Augmentationen für mehrere Gewebearten (Mandeln, Eierstöcke, Dünndarm und Dickdarm-, Gehirn-, Lungen- und Prostatakrebs). ) über die EMIT-Ressource; Modelle für Training und Inferenz werden als Komponenten der UnMICST-Modellressource veröffentlicht. Quelldaten für Grafiken in den Hauptabbildungen finden Sie in Supplementary Data 1.xlsx.

Den Code und die Anweisungen zum Trainieren und Implementieren der UnMICST-Modelle finden Sie unter: https://labsyspharm.github.io/UnMICST-info/

Immunologen, A A. Der Nachweis von Pneumokokken-Antigenen in Geweben durch die Verwendung fluoreszierender Antikörper. J. Immunol. 45, 159–170 (1942).

Google Scholar

Albertson, GD Genamplifikation bei Krebs. Trends Genet. 22, 447–455 (2006).

Artikel CAS PubMed Google Scholar

Shlien, A. & Malkin, D. Variationen der Kopienzahl und Krebs. Genommed. 1, 62 (2009).

Artikel PubMed PubMed Central Google Scholar

Amin, MB et al. Das AJCC-Krebsstadiumshandbuch in der 8. Auflage: Wir bauen weiterhin eine Brücke von einem bevölkerungsbasierten zu einem eher „personalisierten“ Ansatz für das Krebsstadium. Ca Krebs J. Clin. 67, 93–99 (2017).

Artikel PubMed Google Scholar

Gerdes, MJ et al. Hochmultiplexierte Einzelzellanalyse von formalinfixiertem, in Paraffin eingebettetem Krebsgewebe. Proz. Natl Acad. Wissenschaft. USA 110, 11982–11987 (2013).

Artikel CAS PubMed PubMed Central Google Scholar

Giesen, C. et al. Hochmultiplexierte Bildgebung von Tumorgeweben mit subzellulärer Auflösung mittels Massenzytometrie. Nat. Methoden 11, 417–422 (2014).

Artikel CAS PubMed Google Scholar

Angelo, M. et al. Multiplex-Ionenstrahl-Bildgebung von menschlichen Brusttumoren. Nat. Med. 20, 436–442 (2014).

Artikel CAS PubMed PubMed Central Google Scholar

Lin, J.-R. et al. Hochmultiplexierte Immunfluoreszenzbildgebung von menschlichen Geweben und Tumoren unter Verwendung von t-CyCIF und herkömmlichen optischen Mikroskopen. eLife 7, e31657 (2018).

Artikel PubMed PubMed Central Google Scholar

Stack, EC, Wang, C., Roman, KA & Hoyt, CC Multiplex-Immunhistochemie, Bildgebung und Quantifizierung: Eine Übersicht mit einer Bewertung der Tyramid-Signalverstärkung, der multispektralen Bildgebung und der Multiplex-Analyse. Methoden 70, 46–58 (2014).

Artikel CAS PubMed Google Scholar

Achim, K. et al. Räumliche Hochdurchsatzkartierung von Einzelzell-RNA-Seq-Daten auf Ursprungsgewebe. Nat. Biotechnologie. 33, 503–509 (2015).

Artikel CAS PubMed Google Scholar

Slyper, M. et al. Eine Einzelzell- und Einzelkern-RNA-Seq-Toolbox für frische und gefrorene menschliche Tumoren. Nat. Med. 26, 792–802 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

McQuin, C. et al. CellProfiler 3.0: Bildverarbeitung der nächsten Generation für die Biologie. PLoS Biol. 16, e2005970 (2018).

Artikel PubMed PubMed Central Google Scholar

LeCun, Y., Bengio, Y. & Hinton, G. Deep Learning. Natur 521, 436–444 (2015).

Artikel CAS PubMed Google Scholar

Ronneberger, O., Fischer, P. & Brox, T. U-Net: Faltungsnetzwerke für die biomedizinische Bildsegmentierung. Internationale Konferenz über medizinische Bildverarbeitung und computergestützte Intervention, 234–241 (2015).

He, K., Gkioxari, G., Dollár, P. & Girshick, R. Mask R-CNN. Tagungsband der IEEE International Conference on Computer Vision, 2961–2969 (2017).

Caicedo, JC et al. Kernsegmentierung bei Bildgebungsexperimenten: Der Data Science Bowl 2018. Nat. Methoden 16, 1247–1253 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Kromp, F. et al. Ein kommentierter Fluoreszenzbilddatensatz zum Trainieren von Kernsegmentierungsmethoden. Wissenschaft. Daten 7, 262 (2020).

Artikel PubMed PubMed Central Google Scholar

Schwendy, M., Unger, RE & Parekh, SH EVICAN – ein ausgewogener Datensatz für die Algorithmenentwicklung bei der Zell- und Kernsegmentierung. Bioinformatik 36, 3863–3870 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Schüffler, PJ et al. Automatische Einzelzellsegmentierung auf hochmultiplexierten Gewebebildern. Zytom. A 87, 936–942 (2015).

Artikel Google Scholar

Arganda-Carreras, I. et al. Trainierbare Weka-Segmentierung: Ein maschinelles Lerntool für die Pixelklassifizierung in der Mikroskopie. Bioinformatik 33, 2424–2426 (2017).

Artikel CAS PubMed Google Scholar

Berg, S. et al. ilastik: Interaktives maschinelles Lernen für die (Bio-)Bildanalyse. Nat. Methoden 16, 1226–1232 (2019).

Artikel CAS PubMed Google Scholar

Aeffner, F. et al. Einführung in die digitale Bildanalyse bei der Ganzdia-Bildgebung: Ein Whitepaper der Digital Pathology Association. J. Pathol. Informieren. 10, 9 (2019).

Artikel PubMed PubMed Central Google Scholar

Lin, J.-R. et al. Multiplexierter 3D-Atlas der Zustandsübergänge und Immuninteraktionen bei Darmkrebs. Vorabdruck bei bioRxiv https://doi.org/10.1101/2021.03.31.437984 (2021).

Krizhevsky, A., Sutskever, I. & Hinton, GE ImageNet-Klassifizierung mit tiefen Faltungs-Neuronalen Netzen. In Advances in Neural Information Processing Systems 25 (Hrsg. Pereira, F., Burges, CJC, Bottou, L. & Weinberger, KQ) 1097–1105 (Curran Associates, Inc., 2012).

Ahmed Raza, SE et al. MIMO-Net: Ein Faltungs-Neuronales Netzwerk mit mehreren Eingängen und mehreren Ausgängen für die Zellsegmentierung in Fluoreszenzmikroskopiebildern. Im Jahr 2017 IEEE 14th International Symposium on Biomedical Imaging (ISBI 2017) 337–340 (IEEE, 2017).

Shorten, C. & Khoshgoftaar, TM Eine Umfrage zur Bilddatenerweiterung für Deep Learning. J. Big Data 6, 60 (2019).

Artikel Google Scholar

Horwath, JP, Zakharov, DN, Mégret, R. & Stach, EA Verstehen wichtiger Merkmale von Deep-Learning-Modellen für die Segmentierung hochauflösender Transmissionselektronenmikroskopiebilder. Npj-Berechnung. Mater. 6, 1–9 (2020).

Artikel Google Scholar

Gurari, D. et al. Wie erhalte ich Segmentierungen für biomedizinische Bilder? Ein Benchmark zur Bewertung der Leistung von Experten, Crowdsourcing-Nichtexperten und Algorithmen. 2015 IEEE Winter Conf. Appl. Berechnen. Vis. (IEEE, 2015).

Skinner, BM & Johnson, EEP Kernmorphologien: Ihre Vielfalt und funktionelle Relevanz. Chromosoma 126, 195–212 (2017).

Artikel PubMed Google Scholar

Dalle, J.-R. et al. Bewertung des Kernpleomorphismus durch selektive Zellkerndetektion. Im IEEE Workshop on Applications of Computer Vision (WACV 2009), 7.–8. Dezember 2009, Snowbird, UT, USA (IEEE Computer Society, 2009).

Schapiro, D. et al. MCMICRO: Eine skalierbare, modulare Bildverarbeitungspipeline für die Multiplex-Gewebebildgebung. Nat. Methoden https://doi.org/10.1038/s41592-021-01308-y (2021).

Nirmal, AJ et al. Die räumliche Landschaft des Fortschreitens und der Immuneditierung beim primären Melanom bei Einzelzellauflösung. Krebsentdeckung. 12, 1518–1541 (2022).

Artikel CAS PubMed PubMed Central Google Scholar

Lin, T.-Y. et al. Microsoft COCO: Gemeinsame Objekte im Kontext. In Computer Vision – ECCV 2014 (Hrsg. Fleet, D., Pajdla, T., Schiele, B. & Tuytelaars, T.) 740–755 (Springer International Publishing, 2014).

Deng, J. et al. ImageNet: Eine umfangreiche hierarchische Bilddatenbank. Im Jahr 2009 IEEE-Konferenz zu Computer Vision und Mustererkennung 248–255 (IEEE, 2009).

Fischer, EG Kernmorphologie und Biologie von Krebszellen. Acta Cytol. 64, 511–519 (2020).

Artikel CAS PubMed Google Scholar

Kros, JM Einstufung von Gliomen: Der Weg von der Bedeutung zum Beweis. J. Neuropathol. Exp. Neurol. 70, 101–109 (2011).

Artikel PubMed Google Scholar

Louis, D., Ohgaki, H., Wiestler, O. & Cavenee, W. WHO-Klassifikation von Tumoren des Zentralnervensystems, Neuro-Oncology, 23, 1231–1251 (2021).

Artikel Google Scholar

Allaire, JM et al. Das Darmepithel: Zentraler Koordinator der Schleimhautimmunität. Trends Immunol. 39, 677–696 (2018).

Artikel CAS PubMed Google Scholar

Färkkilä, A. et al. Das immunogenomische Profiling bestimmt Reaktionen auf die kombinierte PARP- und PD-1-Hemmung bei Eierstockkrebs. Nat. Komm. 11, 1459 (2020).

Artikel PubMed PubMed Central Google Scholar

Greenwald, NF et al. Ganzzellsegmentierung von Gewebebildern mit Leistung auf menschlichem Niveau unter Verwendung umfangreicher Datenannotationen und Deep Learning. Nat. Biotechnol., 40, 555–565 (2022).

Artikel CAS PubMed Google Scholar

Lee, MY et al. CellSeg: eine robuste, vorab trainierte Kernsegmentierungs- und Pixelquantifizierungssoftware für hochmultiplexte Fluoreszenzbilder. BMC Bioinform. 23, 46 (2022).

Artikel Google Scholar

Sakthivel, KM & Sehgal, P. Eine neuartige Rolle von Laminen von genetischen Erkrankungen bis hin zu Krebsbiomarkern. Oncol. Rev. 10, 309 (2016).

PubMed PubMed Central Google Scholar

Bell, ES & Lammerding, J. Ursachen und Folgen von Veränderungen der Kernhülle bei der Tumorprogression. EUR. J. Cell Biol. 95, 449–464 (2016).

Artikel CAS PubMed PubMed Central Google Scholar

Ng, AY-Merkmalsauswahl, L1- vs. L2-Regularisierung und Rotationsinvarianz. In Proceedings of the Twenty-First International Conference on Machine Learning 78 (Association for Computing Machinery, 2004).

Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I. & Salakhutdinov, R. Dropout: Eine einfache Möglichkeit, eine Überanpassung neuronaler Netze zu verhindern. J. Mach. Lernen. Res. 15, 1929–1958 (2014).

Google Scholar

He, K., Zhang, X., Ren, S. & Sun, J. Deep Residual Learning für die Bilderkennung. Im Jahr 2016 IEEE-Konferenz zu Computer Vision und Mustererkennung (CVPR) 770–778 (IEEE, 2016).

Zhao, H., Shi, J., Qi, X., Wang, X. & Jia, J. Pyramid-Szenenanalysenetzwerk. Tagungsband der IEEE-Konferenz zu Computer Vision und Mustererkennung, 2881–2890 (2017).

Becht, E. et al. Dimensionsreduktion zur Visualisierung von Einzelzellendaten mithilfe von UMAP. Nat. Biotechnologie. 37, 38–44 (2019).

Artikel CAS Google Scholar

Campello, RJGB, Moulavi, D. & Sander, J. Dichtebasiertes Clustering basierend auf hierarchischen Dichteschätzungen. In Advances in Knowledge Discovery and Data Mining (Hrsg. Pei, J., Tseng, VS, Cao, L., Motoda, H. & Xu, G.) 160–172 (Springer, 2013).

Referenzen herunterladen

Wir danken Alyce Chen und Madison Tyler für ihre Hilfe bei diesem Manuskript. Die Arbeit wurde durch die NIH-Zuschüsse U54-CA225088 und U2C-CA233262 an PKS und SS sowie durch das Ludwig Cancer Center in Harvard finanziert. ZM wird durch den NCI-Zuschuss R50-CA252138 unterstützt. Wir danken dem Dana-Farber/Harvard Cancer Center (P30-CA06516) für die Nutzung seines Specialized Histopathology Core.

Diese Autoren haben gleichermaßen beigetragen: Clarence Yapp, Edward Novikov.

Labor für Systempharmakologie, Harvard Medical School, Boston, MA, 02115, USA

[PubMed] Clarence Yapp, Edward Novikov, Won-Dong Jang, Tuulia Vallius, Yu-An Chen, Zoltan Maliga, Connor A. Jacobson, Sandro Santagata und Peter K. Sorger

Bild- und Datenanalysekern, Harvard Medical School, Boston, MA, 02115, USA

Clarence Yapp & Marcelo Cicconet

School of Engineering and Applied Sciences, Harvard University, Cambridge, MA, 02138, USA

Edward Novikov, Won-Dong Jang, Donglai Wei & Hanspeter Pfister

Ludwig Center for Cancer Research at Harvard, Harvard Medical School, Boston, MA, 02115, USA

Tuulia Vallius, Sandro Santagata und Peter K. Sorger

Abteilung für Pathologie, Brigham and Women's Hospital, Harvard Medical School, Boston, MA, 02115, USA

Sandro Santagata

Abteilung für Systembiologie, Harvard Medical School, Boston, MA, 02115, USA

Peter K Sorger

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Das Studiendesign wurde von CY, WDJ, EN und PKS konzipiert. Die Bildaufnahme und -anmerkung erfolgte durch CYSS, das die EMIT-TMA-Probe bereitstellte und die Gewebetypen validierte. Die TMA-Färbung wurde von ZM und CAJ durchgeführt. Die Datenanalyse wurde von CY, WDJ, EN durchgeführt, und YACYAC und CY führten die quantitative Analyse einzelner Zellen und die in Abb. 6 dargestellte Analyse durch. Zusätzliche Kodierung erfolgte durch MC. Zusätzliche Experimente wurden von DWPKS durchgeführt. SS und HP überwachten die Studie. Alle Autoren haben an der Erstellung und Bearbeitung des Manuskripts mitgewirkt.

Korrespondenz mit Peter K. Sorger.

PKS ist Mitglied des SAB oder BOD-Mitglieds von Applied Biomath, RareCyte Inc. und Glencoe Software, die eine kommerzielle Version der OMERO-Datenbank vertreibt; PKS ist auch Mitglied der NanoString SAB. In den letzten fünf Jahren erhielt das Sorger-Labor Forschungsgelder von Novartis und Merck. Sorger erklärt, dass keine dieser Beziehungen den Inhalt dieses Manuskripts beeinflusst hat. SS ist Berater für RareCyte Inc. Die anderen Autoren erklären keine konkurrierenden Interessen.

Communications Biology dankt Shan E Ahmed Raza und den anderen, anonymen Gutachtern für ihren Beitrag zum Peer-Review dieser Arbeit. Hauptredakteur: Luke R. Grinham.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht durch gesetzliche Vorschriften zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Yapp, C., Novikov, E., Jang, WD. et al. UnMICST: Deep Learning mit echter Augmentation für eine robuste Segmentierung hochmultiplexter Bilder von menschlichem Gewebe. Commun Biol 5, 1263 (2022). https://doi.org/10.1038/s42003-022-04076-3

Zitat herunterladen

Eingegangen: 01. Juni 2021

Angenommen: 06. Oktober 2022

Veröffentlicht: 18. November 2022

DOI: https://doi.org/10.1038/s42003-022-04076-3

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.

AKTIE