banner

Nachricht

Sep 28, 2023

Ursachenvorhersage für Ausfälle in der Halbleiterindustrie, ein genetischer Algorithmus

Scientific Reports Band 13, Artikelnummer: 4934 (2023) Diesen Artikel zitieren

963 Zugriffe

11 Altmetrisch

Details zu den Metriken

Die Fehleranalyse ist zu einem wichtigen Bestandteil der Gewährleistung einer guten Qualität im Herstellungsprozess elektronischer Komponenten geworden. Die Schlussfolgerungen einer Fehleranalyse können verwendet werden, um die Fehler einer Komponente zu identifizieren und die Mechanismen und Ursachen von Fehlern besser zu verstehen, was die Umsetzung von Abhilfemaßnahmen zur Verbesserung der Qualität und Zuverlässigkeit des Produkts ermöglicht. Ein Fehlermelde-, Analyse- und Korrekturmaßnahmensystem ist eine Methode für Unternehmen, Fehler zu melden, zu klassifizieren und zu bewerten sowie Korrekturmaßnahmen zu planen. Diese Textmerkmalsdatensätze müssen zunächst durch Techniken der Verarbeitung natürlicher Sprache vorverarbeitet und durch Vektorisierungsmethoden in numerische Werte umgewandelt werden, bevor mit dem Prozess der Informationsextraktion und der Erstellung von Vorhersagemodellen begonnen wird, um Fehlerschlussfolgerungen einer bestimmten Fehlerbeschreibung vorherzusagen. Allerdings sind nicht ausschließlich textuelle Informationen für die Erstellung von Vorhersagemodellen nützlich, die für die Fehleranalyse geeignet sind. Die Merkmalsauswahl wurde durch mehrere Variablenauswahlmethoden angegangen. Einige von ihnen wurden nicht für die Verwendung in großen Datensätzen angepasst oder sind schwer abzustimmen, andere sind nicht auf Textdaten anwendbar. Ziel dieses Artikels ist es, ein Vorhersagemodell zu entwickeln, das in der Lage ist, die Fehlerschlussfolgerungen anhand der Unterscheidungsmerkmale der Fehlerbeschreibungen vorherzusagen. Zu diesem Zweck schlagen wir vor, einen genetischen Algorithmus mit Methoden des überwachten Lernens zu kombinieren, um eine optimale Vorhersage der Schlussfolgerungen aus Fehlern im Hinblick auf die diskriminierenden Merkmale von Fehlerbeschreibungen zu ermöglichen. Da wir über einen unausgeglichenen Datensatz verfügen, schlagen wir vor, einen F1-Score als Fitnessfunktion überwachter Klassifizierungsmethoden wie Decision Tree Classifier und Support Vector Machine anzuwenden. Die vorgeschlagenen Algorithmen heißen GA-DT und GA-SVM. Experimente mit Textdatensätzen zur Fehleranalyse zeigen die Wirksamkeit der vorgeschlagenen GA-DT-Methode bei der Erstellung eines besseren Vorhersagemodells für Fehlerschlussfolgerungen im Vergleich zur Verwendung der Informationen der gesamten Textmerkmale oder begrenzter Merkmale, die von einem genetischen Algorithmus auf der Grundlage einer SVM ausgewählt wurden. Quantitative Leistungen wie der BLEU-Score und die Kosinusähnlichkeit werden verwendet, um die Vorhersageleistung der verschiedenen Ansätze zu vergleichen.

Die Entwicklung mikroelektronischer Technologien bietet neue Möglichkeiten, die Wartung von Produktionsanlagen sowohl aus technischer als auch aus betriebswirtschaftlicher Sicht zu verbessern. Um diese Verbesserung in der Produktion festzustellen, ist es notwendig, sich auf einen wichtigen Schritt zu konzentrieren, nämlich die Fehleranalyse. Bei diesem Verfahren handelt es sich um ein technisches Verfahren zur Untersuchung des Versagens von Materialien und Produkten. Es ist wichtig zu verstehen, wie und warum eine Komponente ausfällt, wenn sie ihre beabsichtigte Funktion nicht mehr erfüllt1. Das Hauptziel der Fehleranalyse besteht darin, die zugrunde liegende Ursache des Fehlers zu finden, idealerweise mit dem Ziel, ihn zu beseitigen und Wege zu finden, um zu verhindern, dass er erneut auftritt. Eine objektive Fehleranalyse kann zu einer Reihe guter Ergebnisse führen, z. B. zum Erhalt einer Informationsdatenbank, die sinnvoll genutzt werden kann, um zukünftige Ausfälle zu verhindern, die Qualität zu verbessern und die Lebensdauer von Produkten und Dienstleistungen zu verlängern und die wirtschaftlichen Aspekte optimal zu nutzen2. Um diesen grundlegenden Herausforderungen in unserer digitalen Welt gerecht zu werden, ist es wichtig, eine Informationsdatenbank zur Beschreibung von Fehlern und deren Schlussfolgerungen aufzubauen, um sicherzustellen, dass immer komplexere elektronische Systeme zuverlässig und sicher funktionieren.

Viele Unternehmen nutzen das Failure Reporting, Analysis, and Corrective Action System (FRACAS), um Produktprobleme im Auge zu behalten. Die Hauptaufgaben der FRACAS-Technik sind3: Aufzeichnen und Erfassen von Informationen über Ausfälle und Probleme, Bereitstellung neuer Informationen zur Unterstützung zukünftiger Zuverlässigkeitsanalysen, Bereitstellung von Berichtszusammenfassungen über die Anzahl der Vorfälle sowie Bereitstellung von Fehlerdatensätzen und -metriken zur Messung von Qualitätsparametern. Die Entwicklung einer neuartigen, auf künstlicher Intelligenz (KI) basierenden Technik zur schnellen Bewertung und Entdeckung von Fehlern bei der Entwicklung und Herstellung elektronischer Komponenten und Systeme anhand des von FRACAS erstellten Abschlussberichts ist eine der Hauptschwierigkeiten unserer digitalen Welt. Die Einbindung von KI und multistrukturierten Datenquellen ist entscheidend für den Erfolg der datengesteuerten Wartung. Wenn eine KI-gestützte Technik eingeführt und in eine zuverlässigkeitsorientierte Wartungsanalyse komplexer Produktionssysteme integriert wird, werden Ausfallraten reduziert und die Verfügbarkeit verbessert4.

Text Mining ist eine Technik der künstlichen Intelligenz (KI), die die Verarbeitung natürlicher Sprache (NLP) anwendet, um unstrukturierten Text in Dokumenten und Datenbanken in normalisierte, strukturierte Daten umzuwandeln, die analysiert oder zum Trainieren von Algorithmen für maschinelles Lernen (ML) verwendet werden können5. Text Mining ist auch eine Technik zum Extrahieren von Informationen aus unstrukturierten Dokumenten und zum Identifizieren neuartiger und bisher unbekannter Muster. Der nächste Schritt ist dann die Auswahl von Merkmalen oder Attributen. Dieser Schritt konzentriert sich auf das Löschen von Elementen, die für den Mining-Prozess nicht wichtig sind6. Darüber hinaus bietet dieser Schritt mehrere Vorteile: Reduzierung der Rechenkomplexität; Erhalten Sie weniger Rauschen im Entscheidungsraum und reduzieren Sie die Dimension, um einen konsistenteren und homogeneren Datensatz zu erhalten7.

In unserer Studie verfügen wir über einen Textdatensatz, der aus der Beschreibung der Fehleranalyse und der Fehlerschlussfolgerung für Produkte der Mikroelektroniktechnologie besteht. Unser Ziel ist es, ein Modell zu konstruieren, das in der Lage ist, die Fehlerschlussfolgerungsmerkmale anhand der Fehleranalysebeschreibungsmerkmale vorherzusagen. Allerdings sind nicht alle Textinformationen für die Erstellung eines Vorhersagemodells wertvoll, während die Verwendung einer begrenzten Anzahl von A-priori-Merkmalen schwierig sein kann. Durch die Merkmalsauswahl wird die Dimensionalität reduziert, indem eine Teilmenge der ursprünglichen Eingabetextvariablen ausgewählt wird. Mit anderen Worten: Die Auswahlstrategie für Textvariablen verringert die Dimension von Textmerkmalen, die für ein bestimmtes Phänomen relevant sein können, indem die beste Mindestteilmenge identifiziert wird, ohne die Daten in eine neue Menge umzuwandeln8. Um komplizierte Modelle für Vorhersage- und Klassifizierungsalgorithmen zu erhalten, implementieren wir die Auswahl relevanter Textvariablen und schließen gleichzeitig nicht informative Variablen aus.

Zur Auswahl optimaler Teilmengen von Variablen wurden verschiedene mathematische Techniken verwendet: Algorithmus für sukzessive Projektionen9, Rückwärts-/Vorwärts-Auswahlalgorithmus10, neu gewichtete adaptive Wettbewerbsstichprobe, Bedeutung von Variablen für die Projektion, Eliminierung nicht informativer Variablen11, Intervall-Partial-Kleinste-Quadrate-Regression12, Monte-Carlo- Eliminierung nichtinformativer Variablen13, Partikelschwarmoptimierung und Deep-Learning-Ansatz14, Feature-Learning-Enhanced-Convolutional-Neuronales-Netzwerk (FLE-CNN)15, kompetitives adaptives neugewichtetes Sampling, partielle kleinste Quadrate12 usw. Die meisten dieser Techniken eignen sich jedoch nicht gut für Text Datensätze. Andererseits führt die Anwendung dieser Methoden dazu, dass bei der Analyse viele Informationen verloren gehen.

Der genetische Algorithmus (GA) gehört zu den Forschungstechniken, die das Prinzip der natürlichen Selektion nachahmen. GA führt eine Suche in komplexen, großen und Multimode-Landschaften durch und bietet nahezu optimale Lösungen für die Ziel- oder Fitnessfunktion eines Optimierungsproblems16. Der Aufwand an Rechenzeit ist jedoch hoch, da sich die lange String-Darstellung in einem hochdimensionalen Raum entwickelt, der für Textdaten typisch ist. Ein genetischer Algorithmus ist eine Bottom-up-Strategie, die die Teilmenge der besten Merkmale auf der Grundlage des „Überlebens des Stärkeren“-Prinzips auswählt, wobei jedes Chromosom mit den anderen konkurriert16. Das heißt, die Qualität der Chromosomen wird anhand einer vorgegebenen Fitnessfunktion beurteilt. Die Fitnessfunktion ist wohl der wichtigste Teil einer GA und hat die Aufgabe, die Qualität des Chromosoms in der Population gemäß dem vorgegebenen Optimierungsziel zu messen. Methoden des überwachten Lernens können verwendet werden, um neue Fitnessfunktionen abzuleiten, die Textdaten in einem viel niedrigerdimensionalen Unterraum besser für eine bestimmte Anwendung umwandeln können17. In der Literatur gibt es verschiedene Arten überwachter Methoden. Die bekanntesten sind das Decision Tree Model (DT) und das Support Vector Machine Model (SVM). Es wurde eine Studie durchgeführt, um zu zeigen, dass die Kombination aus genetischem Algorithmus und Support-Vector-Machine-Methode die Textklassifizierungsgenauigkeit des Spam-Datensatzes verbessert18. Eine andere Studie zeigt, dass die Effizienz der Merkmalsauswahl basierend auf Informationsgewinn und genetischem Algorithmus die Dimension des Textvektors reduzieren und die Genauigkeit der Textklassifizierung verbessern kann19. In einem kürzlich erschienenen Artikel wird die auf genetischen Algorithmen orientierte Methode mit latenten semantischen Merkmalen vorgeschlagen, um eine bessere Darstellung von Dokumenten bei der Textklassifizierung zu erreichen20.

Basierend auf all dem oben Gesagten kann man die Motivation für die Kombination von GA- und überwachten Lernmethoden wie folgt zusammenfassen:

Die Kombination von genetischen Algorithmen (GA) und überwachten Lernmethoden ist ein beliebtes Forschungsthema im Bereich maschinelles Lernen und Optimierung. In einer Studie von Fernández et al. (2002) verwendeten die Autoren einen GA, um die Parameter einer Support Vector Machine (SVM) für eine Klassifizierungsaufgabe zu optimieren, und zeigten, dass die Kombination dieser beiden Ansätze zu einer verbesserten Leistung im Vergleich zur alleinigen Verwendung der SVM führte. Eine weitere Studie von Liu et al. (2011) schlugen einen GA-basierten Ansatz für die Merkmalsauswahl in Verbindung mit einem Entscheidungsbaumklassifikator vor und zeigten, dass die Kombination dieser beiden Methoden einzelne Methoden in mehreren Benchmark-Datensätzen übertraf. Neben der Parameteroptimierung wurden GAs auch zur Suche nach der optimalen Netzwerkarchitektur im Deep Learning eingesetzt. Beispielsweise haben Real et al. (2017) schlugen eine Methode namens „Large-Scale Evolution of Image Classifiers“ vor, bei der sie einen GA verwendeten, um die Architektur von Convolutional Neural Networks (CNNs) zu entwickeln, und zeigten, dass die entwickelten Architekturen die manuell entworfenen in CIFAR-10 und CIFAR-10 übertrafen. 100 Bildklassifizierungs-Benchmarks. Diese Studien zeigen das Potenzial der Kombination von GA- und überwachten Lernmethoden zur Leistungsverbesserung in verschiedenen Anwendungen und unterstreichen den Bedarf an weiterer Forschung in diesem Bereich.

Andererseits lassen sich die Forschungslücken und Herausforderungen sowie die Art und Weise, wie wir diese Punkte überwinden, wie folgt zusammenfassen:

Die schwierigsten Probleme in dieser Studie hängen wahrscheinlich mit der Aufgabe zusammen, ein Vorhersagemodell zu entwickeln, das die Fehlerschlussfolgerungen auf der Grundlage der Fehlerbeschreibungen genau vorhersagen kann. Dies ist eine anspruchsvolle Aufgabe, da das Modell die Beziehung zwischen den Eingabemerkmalen und der Zielausgabe lernen muss, was aufgrund des Vorhandenseins verrauschter oder irrelevanter Merkmale, unausgeglichener Klassenverteilungen und nichtlinearer Beziehungen zwischen Merkmalen und Ziel schwierig sein kann .

Die vorgeschlagene Methode begegnet diesen Herausforderungen durch die Kombination eines genetischen Algorithmus mit einem Entscheidungsbaumklassifikator, der als GA-DT bezeichnet wird. Der GA wird verwendet, um nach einer Teilmenge der aussagekräftigsten Merkmale aus den Fehlerbeschreibungen zu suchen, die dann als Eingabe für den Entscheidungsbaumklassifikator verwendet werden. Auf diese Weise trägt der GA dazu bei, das Problem verrauschter oder irrelevanter Merkmale zu überwinden, da er nur die informativsten Merkmale für die Verwendung durch den Klassifikator auswählt. Darüber hinaus ist bekannt, dass Entscheidungsbäume mit unausgeglichenen Klassenverteilungen und nichtlinearen Beziehungen umgehen können, was sie zu einer geeigneten Wahl für diese Aufgabe macht.

Die Wirksamkeit des vorgeschlagenen GA-DT-Modells wird durch Experimente demonstriert, die eine verbesserte Leistung im Vergleich zur Verwendung nur eines Entscheidungsbaumklassifikators oder nur eines genetischen Algorithmus zeigen. Dies unterstreicht den Beitrag der vorgeschlagenen Methode, die die Stärken von GA- und Entscheidungsbaumklassifikatoren kombiniert, um die Genauigkeit des Vorhersagemodells zu verbessern.

Das Hauptziel dieser Studie besteht dann darin, ein fortschrittliches Vorhersagemodell zu entwickeln, das in der Lage ist, Fehlerergebnisse mithilfe der Beschreibung der Fehleranalyse signifikant vorherzusagen. Ein weiteres Ziel besteht darin, das Potenzial der Verwendung einer überwachten Variablenauswahltechnik unter Verwendung eines genetischen Algorithmus zu untersuchen, um informativere und nützlichere Textmerkmale aus dem Textdatensatz zu identifizieren, der eine sehr große Anzahl von Wörtern enthält, und um zu zeigen, ob die Merkmale mit der vorgeschlagenen Methode ausgewählt wurden kann die Leistung von Vorhersagemodellen zwischen Fehlerschlussmerkmalen und Fehleranalysebeschreibungsmerkmalen erheblich verbessern. Wir schlagen eine Methodik vor, die auf der Verknüpfung eines genetischen Algorithmus mit einem überwachten Modell wie dem Entscheidungsbaum oder einer Support-Vektor-Maschine basiert, die anhand des F1-Scores als Fitnessfunktion zur Identifizierung der Unterscheidungsvariablen bewertet wird, die auf die Textdaten der Fehleranalyse angewendet werden. Mit dieser Funktion können Sie die Genauigkeit von Vorhersagemodellen berechnen, die auf unausgeglichene Datensätze angewendet werden. Die vorgeschlagenen Algorithmen heißen GA-SVM und GA-DT.

Dieser Artikel ist wie folgt aufgebaut: Im zweiten Teil stellen wir vor, was Feature Selection ist und die dazugehörigen Algorithmen. Anschließend erläutern wir das Funktionsprinzip bevölkerungsbasierter metaheuristischer Algorithmen. Wir konzentrieren uns insbesondere auf genetische Algorithmen und ihre detaillierte Funktionsweise, die die Auswahl relevanter Merkmale ermöglicht. In diesem Teil dieser Arbeit stellen wir Algorithmen des maschinellen Lernens vor, die zur Berechnung des Fitnesswerts für die metaheuristischen Algorithmen verwendet werden. Wir gehen tief in die Beschreibung überwachter Methoden wie Support Vector Machine (SVM) und Decision Tree (DT) ein. Im dritten Teil stellen wir die Ergebnisse vor, die wir durch die Anwendung unserer Kombination aus Metaheuristik und maschinellen Lernalgorithmen auf die Fehlerschlussfolgerungsmerkmale und die Fehleranalysebeschreibungsmerkmale erhalten haben. Wir zeigen, dass die beobachteten Ergebnisse es uns ermöglichen, das gültigste Modell auszuwählen, nämlich den GA-DT, bestätigt mit den verschiedenen Metriken wie BLEU-Score und Kosinusähnlichkeit bei einer Division von \(70\%\) Trainingssatz und \(30 \%\) Testsatz. Abschließend und nach der Diskussion der Ergebnisse schließen wir mit einer allgemeinen Schlussfolgerung zum Interesse der Kombination von Merkmalsauswahlalgorithmen mit Methoden des maschinellen Lernens, ihrer Fähigkeit und Leistung bei der Dimensionsreduktion und zu den Möglichkeiten der Implementierung anderer Werkzeuge, die zu metaheuristischen Algorithmen gehören die Genauigkeitsraten verbessern.

Das ECOC-Framework (Error-Correcting Output Codes) ist eine grundlegende, aber effektive Methode zur Bewältigung des Mehrklassen-Kategorisierungsproblems, das auf der Einbettung binärer Klassifikatoren basiert, wobei der Klassifikator aus mehreren binären Lernprogrammen wie Support-Vektor-Maschinen (SVMs) besteht. Die ECOC-Modellklassifikatoren ermöglichen die Speicherung von Trainingsdaten, Parameterwerten, A-priori-Wahrscheinlichkeiten und Codierungsmatrizen21. Diese Klassifikatoren zielen darauf ab, Aufgaben wie die Vorhersage von Bezeichnungen oder A-posteriori-Wahrscheinlichkeiten für neue Daten auszuführen. Das ECOC-Modell mit mehreren Klassen, das SVM-Methoden verwendet, besteht aus drei Hauptkomponenten: Kodierungs-, Binärklassifikator-Lern- und Dekodierungsschritten. Beim Kodierungsverfahren wird üblicherweise zunächst eine Kodierungsmatrix für mehrere Klassen ermittelt, wobei jede Zeile der Kodierungsmatrix eine bestimmte Klasse repräsentiert. Anschließend wird eine Gruppe unabhängiger binärer Klassifikatoren basierend auf einer unterschiedlichen Aufteilung der Originaldaten entsprechend jeder Spalte der Codierungsmatrix gebildet. Schließlich werden neue Daten als spezifische Klasse durch das Decodierungsverfahren vorhergesagt, das auf den Ausgaben der gelernten binären Klassifikatoren und der Codierungsmatrix basiert.

Sei \(X=\{x_{j} \}_{j=1}^{n}\) ein Trainingssatz von n Stichproben beobachteter Variablen, wobei ein d-dimensionaler Vektor jede Stichprobe darstellt, und sei C eine unbeobachtete Zufallsvariable, die die Klassenzugehörigkeit von \(x_{j}\) angibt, wobei \(C \in \{c_{1}, \ldots , c_{k}, \ldots , c_{K} \}\) wobei K die Nummer der Klasse angibt. Im SVM-Problem der Klasse \(k^{th}\) wird die Klasse \(c_{k}\) von den übrigen Klassen getrennt. Alle k binären SVM-Klassifikatoren werden zu einem endgültigen Mehrklassen-Klassifikator kombiniert. Das Übrige bedeutet hier, dass alle Datenpunkte aus anderen Klassen als \(c_{k}\) zu einer Klasse \(c_{l}\) zusammengefasst werden. Die optimale Hyperebene, die Datenpunkte aus der Klasse \(c_{k}\) und der kombinierten Klasse \(c_{l}\) trennt, wird mithilfe des Standard-SVM-Ansatzes gefunden. Wir bezeichnen die optimale trennende Hyperebene, die die Klasse \(c_{i}\) und die kombinierte Klasse \(c_{k}\) unterscheidet, als22:

wobei \(w_{k} \in {\mathbb {R}}^{S}\) der Gewichtsvektor ist, b der Bias ist und die Abbildungsfunktion \(\phi \) die Trainingsdaten in einen geeigneten Merkmalsraum projiziert \({\mathbb {R}}^{S}\) um nichtlineare Entscheidungsflächen zu ermöglichen. Die Parameter der Entscheidungsfunktion \(g_{k} (x_{j})\) werden durch die folgende Minimierung23 bestimmt:

unterliegen

wobei der Skalar \(y_{j} \in \{-1,+1\}\) seine Klassenbezeichnung bezeichnet, \(C \in {\mathbb {R}}^{+}\) eine Regularisierungskonstante und \ ( \xi _{j} \) bezeichnen eine Slack-Variable, die eingeführt werden kann, um die Trennbarkeitsbeschränkungen in Gleichung zu lockern. (2).

Die Entscheidungsregel \(f_{k} (x_{j})\), die den Vektor \(x_{j}\) der Klasse \(c_{k}\) zuordnet, gegeben durch:

Die Hauptschwierigkeit bei diesem Ansatz besteht darin, dass die Ausgaben der Klassifikatoren \(f_{k} (x_{j})\) binäre Werte sind. Der übliche Weg, dieses Problem zu lösen, besteht darin, den Vorzeichenoperator in Gleichung zu ignorieren. (4). Nachdem wir alle optimalen Hyperebenen gefunden haben, die durch \(g_{k} (x_{j})\) für \( k \in \{1, \ldots , K \}\) gegeben sind, sagen wir \(x_{j}\ ) ist in der Klasse, die den größten Wert der Entscheidungsfunktion hat und durch 24 gegeben:

Bei diesem Ansatz wird den Daten der Index der größten Komponente der Diskriminanzfunktionen \(g_{k} (x_{j})\) für \( k \in \{1, \ldots , K \}\) zugewiesen Punkt \(x_{j}\). Die Fehlerrate \({\mathcal {R}}^{SVM}\) des SVM-Klassifikators, die definiert ist als:

mit \(x_{j}\), das zur Klasse \(c_{k}\) gehört, geschätzt durch den Methodenklassifikator in der Klasse \(\hat{c_{k}}\) und \(1_{c_{k } \ne \hat{c_{k}}} (x_{j})\) ist die Indikatorfunktion definiert als:

Ein Entscheidungsbaumklassifikator ist ein nichtparametrischer Klassifikator, der keine a priori statistischen Annahmen hinsichtlich der zugrunde liegenden Datenverteilung erfordert. Die Grundstruktur des Entscheidungsbaums besteht jedoch aus einem Wurzelknoten, mehreren internen Knoten und schließlich einer Reihe von Endknoten. Ein Knoten ist eine Teilmenge der Prädiktoren, die zur Bestimmung einer Aufteilung verwendet wird. Ein nicht-terminaler Knoten oder übergeordneter Knoten ist ein Knoten, der weiter in zwei untergeordnete Knoten aufgeteilt ist. Das Wachsen eines Baums besteht aus der Auswahl der optimalen Aufteilungen zur Bestimmung eines Nicht-Endknotens und der Zuordnung jedes Endknotens zu einer Klasse25. Die Daten werden entsprechend dem definierten Klassifizierungsrahmen rekursiv im Entscheidungsbaum unterteilt.

Klassen werden einfach einem Endknoten zugewiesen, indem beobachtet wird, welche Klasse in diesem Bereich des Baums am häufigsten vorkommt. Die Herausforderung besteht also darin, die beste Variable optimal auszuwählen und diese Variable aufzuteilen, um die Reinheit oder Ähnlichkeit zwischen den Antworten zu maximieren. Die Unreinheit eines Elternknotens \(\tau \), bezeichnet als \(i(\tau )\), ist Null, wenn alle Beobachtungen in derselben Klasse sind. Ein Split s wird durch Auswahl des besten Prädiktors und Split-Werts bestimmt, der die höchste Reinheitsreduzierung optimiert26:

wobei \(\tau _{b}\) den untergeordneten Knoten b bezeichnet, \(p(\tau _{b}/ \tau )\) der Anteil der Beobachtungen in \(\tau \), die \( zugeordnet sind \tau _{b}\) und B ist die Anzahl der Zweige nach der Aufteilung. Zwei gängige Verunreinigungsfunktionen sind das Entropiekriterium26:

und das Gini-Index-Kriterium

wobei \( p_{k}\) der Anteil der Beobachtungen in der Klasse \(c_{k}\) mit \( k \in \{1, \ldots , K \}\) ist. Das Beschneiden basiert auf aufeinanderfolgenden Schritten zum Entfernen niedrigerer Äste, die zu verbesserten Klassifizierungsraten führen. Sobald der endgültige Baum durch \(\Delta (s, \tau)\) bestimmt ist, ist es natürlich, seine Vorhersageleistung zu bewerten, indem die beobachtete Klasse mit der vorhergesagten Klasse für die Beobachtung \(x_{j}\) verglichen wird. In einem Endknoten m, der eine Region \(R_{m}\) mit \(n_{m}\) Beobachtungen darstellt, sei

bezeichnen den Anteil der Beobachtungen der Klasse \(c_{k}\) im Endknoten m27. Wir klassifizieren die Beobachtungen im Knoten m in die Klasse

Die Fehlklassifizierungsfehlerrate ist einfach der Anteil der Beobachtungen im Knoten, die nicht Mitglieder der Mehrheitsklasse in diesem Knoten sind.

Genetische Algorithmen (GA) sind eine Art evolutionärer Optimierungsberechnungen, die durch die Arbeit von Holland28 populär wurden. Diese Algorithmen basieren auf dem Konzept der natürlichen Auswahl von Lösungen durch Kopieren seiner Hauptprinzipien. Jede Lösung kann als eine Population betrachtet werden, in der jedes Element in Form eines Chromosoms dargestellt wird, wobei ausgewählte Textmerkmale als Gene positioniert sind28. Die GA-Schritte reproduzieren die verschiedenen evolutionären Vorgänge wie Crossover und Mutation und ermöglichen es, für jede Generation die besten Chromosomen auszuwählen und am Ende ein optimales Chromosom in Bezug auf ein durch eine Fitnessfunktion definiertes Optimierungskriterium zu identifizieren29. Abbildung 1 zeigt die Schritte des informativen Merkmalsauswahlverfahrens mit einem GA30.

Synoptische Darstellung der vorgeschlagenen GA-Methodik.

Der GA kann auf die Datenmatrix \(X=\{x_{j} (y)\}_{j=1}^{n}\) mit \(x_{j }(y) \in {\mathbb {R}}^{d}\) und y ist die Menge der Textmerkmale für den Fehlerbeschreibungsdatensatz. Dieses Verfahren liefert in jedem dieser Fälle ein optimales Chromosom \(z_{0}=[z_{01}\cdots z_{0l} \cdots z_{0L} ] \in {\mathbb {R}}^{L} \) mit \(z_{0l}\) Textmerkmalsform y und L die Anzahl der zur Auswahl ausgewählten Variablen. Das optimale Chromosom ermöglicht die Extraktion einer neuen Unterdatenmatrix \( \{x_{j} (z_{0}) \}_{j=1}^{n}\) unterdimensionierter Daten, auf die wir Methoden anwenden können der Datenanalyse. Die GA-Schritte werden anschließend kurz beschrieben und in den Artikeln 31 und 32 ausführlich beschrieben.

Initialisierung: Die anfänglichen Parameter sind: die Chromosomengröße L (die Anzahl der Gene, die der Anzahl der jeweils auszuwählenden Merkmale entspricht); die Populationsgröße N (die Anzahl der Chromosomen pro Generation); die Anzahl der Eliten \(N_{e}\) (die Chromosomen mit den besten Fitnesswerten in der aktuellen Generation, die garantiert bis zur nächsten Generation überleben); der Anteil des Crossovers \(F_{c}\) (die Anzahl der Chromosomen, die für die Durchführung des Crossovers \(N_{c}\) ausgewählt wurden, so dass \(N_{c} = F_{c} \times (N-N_{e }))\). Die Stoppparameter sind: die maximale Anzahl der Iterationen T und die Toleranz \(\epsilon \) für die Fitnessfunktion. Der erste Schritt einer GA ist die Erstellung der Startpopulation P(0). N-Chromosomen werden durch zufällige Auswahl von L-Variablen aus y generiert (\(L < S\) ist die Größe der Chromosomen):

Die anfängliche Population P(0) der Wellenzahlvariablen wird zufällig aus der Menge der gleichmäßig verteilten Variablen ausgewählt, die über ihren Maximal- und Minimalgrenzen liegen31:

wobei \(z_{i}^{0}\) die anfängliche \(l^{th}\)-Variable der \(i^{th}\)-Population bezeichnet; \(z_{i}^{min}\) und \(z_{i}^{max}\) sind die minimalen und maximalen Grenzen der Entscheidungsvariablen \(l^{th}\); \( U(z_{i}^{min},z_{i}^{max})\) bezeichnet eine einheitliche Zufallsvariable mit einem Bereich über\( [z_{i}^{min},z_{i}^{max }]\). Dann erfolgt die Berechnung über Generationen hinweg. Für jede Generation (t) erhalten wir die Chromosomenpopulation \(\{z_{i(t)} \}_{i=1}^{N}\). Die folgenden Schritte ergeben eine weitere Chromosomenpopulation \(\{ z_{i(t+1)} \}_{i=1}^{N}\).

Bewertung: Jedes Chromosom\(z_{i(t)}\) wird durch eine Fitnessfunktion F(.) bewertet, die einen Wert \(F_{i} = F(z_{i(t)})\) zuweist. Je kleiner der \(F_{i}\)-Wert ist, desto größer ist die Chance, dass das entsprechende Chromosom ausgewählt wird. Die Rolle einer Fitnessfunktion besteht darin, die Qualität des Chromosoms in der Population gemäß dem vorgegebenen Optimierungsziel zu messen32. Da wir ein Vorhersagemodell zwischen dem Fehlerbeschreibungsdatensatz Berechnen Sie den \(F_{1}\)-Score jedes als Fitnessfunktion erstellten Modells, um die Qualitäten unseres erhaltenen Vorhersagemodells zu bewerten. Der \(F_{1}\)-Score dieser überwachten Lernmethoden ist eine der einfachsten Methoden, die als klassische Fitnessfunktion zur Bewertung der Genauigkeit des Vorhersagemodells verwendet werden kann. Die Fitnessfunktion ist wie folgt definiert:

mit

wobei \(F_{1}^{\text {Modell}}\) der\(F_{1}\)-Score ist, der als harmonisches Mittel zwischen Präzision und Rückruf definiert ist; \(P_{r}^{\text {Modell}}\) ist der positive Vorhersagewert (Präzision) und \(R_{c}^{\text {Modell}}\) ist die Empfindlichkeit (Recall) des Vorhersagemodells wie SVM und DT. Diese Funktion (\(F_{1}\) Punktzahl) ist sehr nützlich, wenn es um unausgeglichene Klassenprobleme geht. Dies sind Probleme, wenn eine Klasse den Datensatz dominieren kann. Für jede Fitnessfunktion \(F_{i}\) werden die Werte in aufsteigender Reihenfolge geordnet und die besten \(N_{e}\)-Chromosomen werden basierend auf dieser Reihenfolge ausgewählt. Diese überlebenden Chromosomen werden in der nächsten Population unverändert kopiert.

Auswahl: Dieser Schritt wird zur Auswahl von Eltern aus der Grundgesamtheit für die Kreuzung verwendet und kann auf unterschiedliche Weise implementiert werden: Rang, stochastisch, Rouletterad, stochastische universelle Stichprobenauswahl usw. Wir haben die stochastische universelle Stichprobenauswahl gewählt, da diese Methode nullvoreingenommen ist weist keine Abweichung zwischen der erwarteten Reproduktionsrate und der algorithmischen Abtastfrequenz auf und weist eine minimale Streuung auf33. Die Auswahl erfolgt probabilistisch, sodass die Auswahlwahrscheinlichkeit einer Person proportional zur Fitness der Person ist. Zuerst berechnen wir die Wahrscheinlichkeit \(p_{i}\) der Auswahl des Chromosoms \(z_i\) und die kumulative Wahrscheinlichkeit \(q_{i}\):

Als nächstes generieren wir eine einheitliche Zufallszahl \(r \in [0, \frac{1}{N}]\). Wenn \( r < q_1\), dann wählen wir das erste Chromosom \(z_1\), andernfalls wählen wir das Chromosom \(z_i\) mit \(q_{i-1} < r \le q_i\). Die aufsteigend geordneten \(F_{i}\)-Werte ermöglichen die Auswahl von \(N_{e}\) Chromosomen, die garantiert bis zur nächsten Generation überleben und \(N_{p} = (F_{c} + 1)\times N - 2N_{e}\) Elternchromosomen für den Crossover.

Crossover: In diesem Schritt wird versucht, Gene aus den ausgewählten Chromosomen zu extrahieren und sie zu potenziell überlegenen Kindern zu rekombinieren. Wir haben uns für die einheitliche Frequenzweiche entschieden, da sie in den meisten Fällen gute Ergebnisse liefert. Ein Gen wird zufällig entweder vom ersten oder vom zweiten Elternteil ausgewählt34. Die Crossover-Operation ergibt \(N_{c} = (F_{c} \times N) - N_{e}\) Kinder. Um das einheitliche Crossover zu erklären, werden die Elternchromosomen \(p_{1} [z_{iq} ]\), \( p_{2} [z_{iq} ]\) und die Kinderchromosomen \( o_{1} [z_ {iq} ]\), \( o_{2} [z_{iq} ]\), \( q = 1 \ldots L\) sind Gen-Arrays. Die beliebteste Crossover-Variante zwischen reellen Zahlen ist das Uniform Crossover. Gene, die sich in der q-Position der Kinderchromosomen \( z_i\) befinden, werden wie folgt berechnet35:

\(\alpha \) ist ein Zufallsvektor reeller Zahlen, die gleichmäßig verteilt sind und die gleiche Größe wie \(p_1\), \(p_2\), \(o_1\), \(o_2\) haben, wobei \(\alpha _{ q} \in [0,1]\).

Kinder werden von den Eltern kopiert und ein Crossover wird mit den Gleichungen erhalten. (20) und (21):

Mutation: ist ein genetischer Operator, der die Veränderung des Werts eines Gens verwendet, um die genetische Vielfalt von einer Generation einer Population zur nächsten aufrechtzuerhalten. Wir haben den Gaußschen Operator gewählt, da er für die meisten Fitnessfunktionen die besten Ergebnisse liefert36. Dieser Operator fügt einen Einheits-Gauß-verteilten Zufallswert zu \(N_{p} - 2N_{c}\) Chromosomen hinzu. Die neuen Werte der Gene werden dann auf die nächste ganze Zahl gerundet. Die Standardabweichung dieser Verteilung ist der Parameter, der „Skalierung“ genannt wird und in der ersten Generation gleich eins ist. Dieser Parameter wird jedoch in den nächsten Generationen durch einen anderen Parameter gesteuert, der „schrumpfen“ heißt. Die Standardabweichung bei der t-ten Generation, \(\sigma_{t}\), ist an allen Koordinaten des Elternchromosoms gleich und wird durch die rekursive Formel37 angegeben:

Wobei T die Anzahl der Generationen ist. Ein niedriger Wert von „shrink“ führt zu einer geringfügigen Verringerung der Amplitude der Mutation in den Indizes der Genpositionen.

Die Schritte 1 bis 5 werden wiederholt, bis die maximale Anzahl an Iterationen T erreicht ist oder bis GA konvergiert ist, dh die durchschnittliche relative Änderung des Fitnessfunktionswerts kleiner als die Toleranz \(\epsilon \) ist. Dieses Verfahren ergibt ein optimales Chromosom \(z_{0}\), das von der Fitnessfunktion und den Ausgangswerten abhängt. Mit der vorgeschlagenen Wahl der GA-Schritte haben wir festgestellt, dass unabhängig von den Anfangswerten der Chromosomen das gleiche optimale Chromosom gefunden wird.

Der Bewertungsalgorithmus des BiLingual Evaluation Understudy (BLEU) bewertet die Ähnlichkeit zwischen einem Vorhersagedokument und einer Sammlung von Referenzdokumenten. Zur Beurteilung der Qualität von Dokumentübersetzungs- und Zusammenfassungsmodellen verwenden wir den BLEU-Score. Zur Berechnung des BLEU-Scores werden die N-Gramm-Anzahl, die beschnittene N-Gramm-Anzahl, die modifizierte N-Gramm-Präzisionsbewertung und ein Kürzelwert verwendet38.

Bei Bedarf kürzt die Funktion Countclip für abgeschnittene N-Gramm-Zählungen die Anzahl jedes N-Gramm-Gramms, sodass sie die höchste in einer Referenz für dieses N-Gramm gefundene Anzahl nicht überschreitet. Die Funktion „Clipped Counts“ ist wie folgt definiert:

wobei \(\text {Count}(\text {n-gram})\) die n-Gramm-Anzahl darstellt und \(\text {maxRef}(\text {n-gram})\) das höchste n-Gramm ist Anzahl, die in einem einzigen Referenzdokument für dieses N-Gramm beobachtet wurde. Die aktualisierten N-Gramm-Präzisionswerte werden wie folgt berechnet:

Dabei ist n die Länge von n-gram und \(\text {Predictive Document}\) die Satzmenge in Vorhersagedokumenten, D und \(D^{'}\) sind Vorhersagedokumente. Bei einem n-Gramm-Gewichtsvektor w ergibt sich die BLEU-Score-Formulierung durch38:

Dabei ist N die größte Länge von n-Gramm, \(\bar{p_{n}}\) das geometrische Mittel der modifizierten n-Gramm-Präzision und BP der Kürzelwert, definiert als

Der BLEU-Score wurde als Skalarwert im Bereich [0, 1] zurückgegeben. Ein BLEU-Score nahe Null weist auf eine geringe Ähnlichkeit zwischen dem Vorhersagedokument und den Referenzen hin. Ein BLEU-Score nahe eins weist auf eine starke Ähnlichkeit hin. Wenn das Vorhersagedokument mit einem der Referenzdokumente identisch ist, beträgt die Punktzahl eins.

Die Ähnlichkeit zweier Vektoren in einem inneren Produktraum wird durch Kosinusähnlichkeit gemessen. Es bestimmt, ob zwei Vektoren in die gleiche allgemeine Richtung zeigen, indem es den Kosinus des Winkels zwischen ihnen misst. In der Textanalyse wird es häufig zur Bestimmung der Dokumentähnlichkeit verwendet39. Lassen Sie uns sehen, wie Dokumente in unserem Korpus miteinander in Beziehung stehen. Seien \(t_{1}\) und \(t_{2}\) zwei Vektoren, die die Themenzuordnungen der Dokumente \(d_{1}\) bzw. \(d_{2}\) darstellen, wobei \ (t_{1}^{(k)}\) und \(t_{2}^{(k)}\) sind die Anzahl der Terme in \(d_{1}\) und \(d_{2}\ ), die jeweils mit Subjekt k verbunden sind. Die Kosinusähnlichkeit kann dann verwendet werden, um ein Maß für die Dokumentenähnlichkeit zu berechnen39:

wobei \(\Vert t_{j} \Vert \) die Norm des Vektors \(t_{j}\) bezeichnet. Der Kosinus-Ähnlichkeitswert gibt einen Skalarwert im Bereich [0, 1] an. Eine Kosinusähnlichkeit nahe Null weist auf eine geringe Ähnlichkeit zwischen dem Vorhersagedokument und den Referenzen hin. Eine Kosinusähnlichkeit nahe eins weist auf eine starke Ähnlichkeit hin.

Synoptische Darstellung der vorgeschlagenen GA-Methodik.

In diesem Abschnitt stellen wir die vorgeschlagene Methodik für die Auswahl von Variablen durch den genetischen Algorithmus in Kombination mit dem Entscheidungsbaummodell (GA-DT) oder dem Support-Vektor-Maschinenmodell (GA-SVM) vor, das auf Textdaten angewendet wird. Abbildung 2 zeigt die Schritte der Fehleranalyse-Modellierungsmethodik, indem die besten Textmerkmale mithilfe überwachter Variablenauswahltechniken extrahiert und die Vorhersagemodelle zwischen Fehlerbeschreibung X und Schlussfolgerung des Fehlers Y für diese analysierten Daten dargestellt werden. Diese vorgeschlagene Methodik besteht aus drei Hauptphasen. Zuerst führen wir die Pipeline-Vorverarbeitung der Fehleranalysebeschreibung Die Phase 2 zeigt die Anwendung der Word2Vec-Vektorisierungsmethode auf vorverarbeitete Textdaten, um numerische Daten zu erhalten.

Phase 3 zeigt die Anwendung der GA-Variablenauswahlmethode in Kombination mit maschinenüberwachtem Entscheidungsbaum- oder Support-Vector-Lernen auf vektorisierte vorverarbeitete Daten. Um die Genauigkeit des ausgewählten Vorhersagemodells für diskriminierende Textmerkmale zu quantifizieren, berechnen wir die verschiedenen Metriken wie den BLEU-Score und die Kosinusähnlichkeit. Abschließend vergleichen wir die vorhergesagte Textschlussfolgerung und die ursprüngliche Textschlussfolgerung, um die Ähnlichkeiten zwischen ihnen zu bestätigen.

Alle Datenverarbeitungen wurden mit der MATLAB-R2022b-Umgebung durchgeführt und Skripte sind auf Anfrage erhältlich.

Die Datenbeschreibung und -analyse ist eine wichtige Phase vor der Modellierung. Zur Definition der Parameter eines Modells ist eine genaue Darstellung der Daten erforderlich. Wir verfügen über einen Textdatensatz zur Fehleranalyse der Mikroelektronikproduktion. Der von STMicroelectronics bereitgestellte Originaldatensatz aus den Jahren 2019 bis 2021 besteht aus zwei Teilen: Der erste ist die Beschreibung der Fehleranalyse X (Quelle der Fehleranforderung, Eigenschaften der Proben und Details des Fehlers) und der zweite ist der Datensatz ihrer Schlussfolgerung Y ( Analysefazit, Erfolgsquote und Zykluszeit). Die Tabellen 1 und 2 enthalten eine Liste verschiedener Merkmale von X und Y mit einer kurzen Beschreibung. Diese Daten wurden von einer vertikalen Stapelung der Analyse in eine horizontale Stapelung umgewandelt. Dies bedeutet, dass ihre Beschreibung (Zielsetzung, Kontext usw.) sowie ihre Schlussfolgerung über das Scheitern eine Beobachtung darstellen. Die Transformation reduziert die Datengröße auf 12.300 Beobachtungen und wir behalten 19 vorverarbeitete Features außerhalb des Datums. Nachdem wir mithilfe der in 40 eingeführten Vorverarbeitungspipeline sauber verarbeitete Daten erhalten haben, vektorisieren wir mithilfe von Word2Vec. Die Word2Vec-Einstellungen von Genism werden beibehalten, mit der Ausnahme, dass die Vokabulargröße auf 1000 eingestellt ist und das Mindestwort drei41 beträgt.

Bei der Formalisierung unseres Ansatzes verwenden wir die folgenden Notationen: Es sei \(X= \{x_{ij} \}_{i=1, j=1}^{n, m}\) der Eingaberaum eines gegebenen Datensatzes wobei n die Anzahl der Stichproben und m die Anzahl der Merkmale ist; \(Y = \{y_{ij} \}_{i=1, j=1}^{n, p}\) stellt den Ausgaberaum des Schlussfolgerungsfehlerdatensatzes dar, wobei p die Anzahl der Features ist.

Beispiele für die Vorverarbeitung von Text sind die Eliminierung von Rauschen durch Entfernen von Leerzeichen und Satzzeichen, das Korrigieren von Rechtschreibfehlern, das Löschen doppelter Instanzen, das Konvertieren von Text in Kleinbuchstaben sowie das Entfernen von Stoppwörtern und Wörtern mit weniger als drei Buchstaben. Wir beginnen mit den Phasen der Vorbereitungspipeline:

Entfernen von Symbolen und alphanumerischen Zeichen: Diese Technik entfernt Wörter aus dem Text, die nicht zum Intelligenzmuster oder der Analysestichprobe beitragen, wie z. B. Symbole und gelegentlich alphanumerische Wörter. Es handelt sich lediglich um Stoppwörter und Flexionen, die dazu dienen, die Bedeutung hervorzuheben, weshalb sie entfernt wurden42.

Tokenisierung und Schwellenwert: Beim Tokenisieren wird der Satz mithilfe eines Trennzeichens42 geändert oder in ein Token umgewandelt. Unter Schwellenwert versteht man das Entfernen von Wörtern unterhalb einer bestimmten Länge. In diesem Artikel legen wir den Schwellenwert auf zwei fest.

Stemmatisierung und Lemmatisierung: Dabei handelt es sich um den Prozess der Entfernung von Affixen (Präfixen und Suffixen) aus Textmerkmalen43.

Abkürzung: Abkürzungen sind in FRACAS üblich und müssen daher durch ihre ursprüngliche Bedeutung ersetzt werden. Um diese Herausforderung zu lindern, haben wir ein Abkürzungswörterbuch erstellt.

Eine kritische Phase von GA ist die richtige Wahl seiner Parameter, um die Konvergenz des Algorithmus zur optimalen Lösung sicherzustellen. Die Parameter wurden wie folgt initialisiert: die Anzahl der Eliten \(N_{e} = 2\), der Anteil des Crossovers \(F_{c} = 0,8\), die maximale Anzahl von Iterationen \(T=100\) , die Populationsgröße \(N = 100\) und die Toleranz \(\epsilon =10^{-6}\). Diese Werte wurden für mehrere Implementierungen von GA verwendet, da sie für ähnliche Daten gute Ergebnisse liefern44.

Um die optimalen Werte für L und N zu ermitteln, wurde der GA für verschiedene Chromosomengrößen ausgewertet. Wenn der Algorithmus konvergiert hat (Toleranz \(\epsilon \)) oder wenn er die maximale Anzahl von Iterationen (T) erreicht hat, werden die Werte der Chromosomengröße L, die den maximalen Wert der Fitnessfunktion ergeben, als optimale Werte ausgewählt (Gl . 28):

Die beste Genauigkeit von GA-SVM und GA-DT wurde für verschiedene Chromosomengrößen ermittelt, \(L=3, \ldots, 8\). Die Abbildungen 3 und 4 zeigen die Fitnesswerte der GA-DT- bzw. GA-SVM-Algorithmen. Wir haben herausgefunden, dass \(L = 3\) oder 4 den höchsten Fitnesswert für beide Methoden ergibt. Dies weist darauf hin, dass wir alle vier Fehlerbeschreibungsfunktionen benötigen, um das beste Vorhersagemodell für die Schlussfolgerung der Fehleranalyse zu erstellen.

Werte der GA-DT-Fitnessfunktionen für verschiedene Größen von L-Chromosomen. Der optimale Wert ist der höchste F1-Score.

Werte der GA-SVM-Fitnessfunktionen für verschiedene Größen von L-Chromosomen. Der optimale Wert ist der höchste F1-Score.

Die vorgeschlagene Methodik wurde mit zwei verschiedenen Fitnessfunktionen (SVM und DT) angewendet. Nach der Auswahl der Variablen durch die GA-SVM- und GA-DT-Algorithmen berechneten wir die Genauigkeit (%), um die Leistung eines Vorhersagemodells zu bewerten, den BLEU-Score und die Kosinusähnlichkeit als Metriken, um die Ergebnisse der Vorhersage der Schlussfolgerung zu quantifizieren Versagen.

Genauigkeit ist das intuitivste Leistungsmaß und ist einfach das Verhältnis der korrekt vorhergesagten Dokumente zur Gesamtzahl der Dokumente.

Dabei steht TP für True Positives, TN für True Negatives, FP für False Positives und FN für False Negatives. FP und FN, diese Werte treten auf, wenn die tatsächlichen Dokumente im Widerspruch zu den vorhergesagten Dokumenten stehen. Diese in Tabelle 3 dargestellten Werte (BLEU-Score, Kosinusähnlichkeit und Genauigkeit) bestätigen, dass der GA-DT im Vergleich zu anderen Algorithmen wie GA-DT ein besseres Vorhersagemodell der Textproben zur Vorhersage der Fehlerschlussfolgerung (Merkmale Y) ermöglicht. SVM. Wir können sehen, dass die ersten vier Merkmale von Y eine gute Präzision und gute Werte für den BLEU-Score und die Kosinusähnlichkeit für die GA-DT-Methode liefern, mit Ausnahme des letzten Textmerkmals, das den Abschluss der Analyse darstellt, da es sich bei jeder für diese Variable aufgezeichneten Stichprobe um einen großen Text handelt Absatz. Zu diesem letztgenannten Merkmal können wir sagen, dass die berechneten Metriken (Genauigkeit = 25 %; BLEU = 0,32; Cosinus = 0,30) im Vergleich zu den anderen Studien zu Textdatensätzen sehr gut sind. Man kann auch feststellen, dass die Anwendung der Variablenauswahl durch den genetischen Algorithmus die Genauigkeit des Modells verbessert. Diese Ergebnisse sind in Tabelle 3 aufgeführt.

In Tabelle 4 präsentieren wir einige Beispiele für Ergebnisse, die nach der Anwendung des genetischen Algorithmus mit Entscheidungsbaum (GA-DT) erzielt wurden. Wir zeigen die drei besten Vorhersagen für jedes Textbeispiel für die Schlussfolgerung einer Fehleranalyse an. Anschließend berechnen wir den BLEU-Score, um die Ähnlichkeit zwischen diesen vorhergesagten Stichproben und der ursprünglichen Stichprobe zu quantifizieren. Man kann feststellen, dass die Werte der BLEU-Scores sehr nahe bei eins liegen. Dies weist auf eine starke Ähnlichkeit zwischen den vorhergesagten Proben und den Referenzproben hin.

Wir haben eine Methodik vorgeschlagen, die auf der Verknüpfung eines genetischen Algorithmus mit einigen überwachten Klassifikationsmethoden zur Identifizierung diskriminierender Textmerkmale für die Untersuchung des besten Vorhersagemodells für Fehlerschlussfolgerungen unter Verwendung der Merkmale von Fehlerbeschreibungen basiert.

Die Implementierung eines genetischen Algorithmus mit einem Entscheidungsbaumklassifikator als Fitnessfunktion führte zur Identifizierung einiger interessanter Merkmale. Der BLUE-Score und die Kosinus-Ähnlichkeit werden verwendet, um die Ähnlichkeit zwischen einem Vorhersagedokument und einer Reihe von Referenzdokumenten zu bewerten. Wir haben sehr interessante Werte erhalten, die auf eine starke Ähnlichkeit zwischen den Vorhersagedokumenten und den Referenzen hinweisen. Wir haben auch herausgefunden, dass die Anwendung der Variablenauswahl durch den genetischen Algorithmus die Genauigkeit und die Metriken des durch DT- oder SVM-Methoden erhaltenen Modells verbessert.

Wir haben gezeigt, dass die durch die vorgeschlagene GA-DT-Methode ausgewählten Unterscheidungsmerkmale gemäß der Beschreibung des Fehlerprozesses im Vergleich zum GA-SVM-Modell oder der direkten Anwendung des Entscheidungsbaums oder des Unterstützungsvektors das beste Vorhersagemodell für die Fehlerschlussfolgerung liefern Maschine auf alle Merkmale der Fehlerbeschreibung angewendet (also ohne Vorauswahlverfahren). Perspektivisch arbeiten wir an der Bewältigung der folgenden Herausforderungen: 1) Verbesserung der Leistung des Modells durch Anwendung eines generativen Sequenz-zu-Sequenz-Sprachmodells zur Generierung von Fehlerschlussfolgerungen bei gegebener Fehlerbeschreibung; 2) Schlagen Sie eine Methodik vor, die auf einem genetischen Algorithmus (GA) mit Entscheidungsbaum (DT) basiert, um die wichtigsten Eingabevariablen auszuwählen, die die Schlussfolgerung (Grundursache) einer Fehleranalyse (FA) am besten vorhersagen. Diese Variablen werden dann verwendet, um ein Transformatormodell für die Generierung von Fehlerschlussfolgerungen zu trainieren, z. B. ein GPT2-Transformatormodell usw.

Alle während der Studie generierten oder verwendeten Daten, Modelle und Codes erscheinen im eingereichten Artikel und werden auf Anfrage bereitgestellt, indem Sie Abbas Rammal per E-Mail kontaktieren: [email protected].

Farhat, H. Kapitel 9 – Fehleranalyse. In Farhat, H., Herausgeber, Operation, Maintenance, and Repair of Land-Based Gas Turbines (Elsevier, 2021).

Farshad, M. Kapitel 2 – Fehleruntersuchung von Kunststoffrohren. In Farshad, M., Herausgeber, Plastic Pipe Systems, S. 28–25 (Oxford, 2006).

Blokdyk, G. Failure Reporting Analysis And Corrective Action System A Complete Guide (American Society for Quality Control, West Wisconsin, 2020).

Google Scholar

Adel, M. et al. Frühzeitige Schadenserkennung von Ermüdungsversagen bei RC-Deckplatten unter Radlast-Bewegungstest mittels Bildanalyse mit künstlicher Intelligenz. Ing. Struktur. 246, 1130–1150 (2021).

Artikel Google Scholar

Mikolov, T., Sutskever, I., Chen, K., Corrado, G. & Dean, J. Verteilte Darstellungen von Wörtern und Phrasen und ihre Kompositionalität. In: Ein Überblick und empirischer Vergleich von NLP-Modellen (Natural Language Processing) und eine Einführung in und empirische Anwendung von Autoencoder-Modellen im Marketing (Hrsg. Burges, CJ et al.) (Curran Associates Inc, USA, 2013).

Google Scholar

Nota, G., Postiglione, A., Postiglione, A. & Carvello, R. Text-Mining-Techniken für das Management der vorausschauenden Wartung. Proz. Berechnen. Wissenschaft. 200, 778–792 (2022).

Artikel Google Scholar

Li, S., You, M., Li, D. & Liu, J. Identifizierung von Risikofaktoren für die Sicherheit von Kohlebergwerken durch den Einsatz von Text-Mining- und Bayes'schen Netzwerktechniken. Prozesssicher. Umgebung. Prot. 162, 1067–1081 (2022).

Artikel CAS Google Scholar

Liu, L., Kang, J., Yu, J., & Wang, Z. Eine vergleichende Studie zu unbeaufsichtigten Merkmalsauswahlmethoden für Text-Clustering, 2005. In Papier präsentiert auf der internationalen Konferenz über natürliche Sprachverarbeitung und Wissenstechnik, 30 –31. Oktober 2005.

Galvao, R. et al. Eine Methode zur Variableneliminierung zur Verbesserung der Sparsamkeit von MLR-Modellen mithilfe des Algorithmus für sukzessive Projektionen. Chemom. Intel. Labor. Syst. 92(1), 83–91 (2008).

Artikel CAS Google Scholar

Derksen, S. & Keselman, H. Rückwärts-Vorwärts- und schrittweise automatisierte Teilmengenauswahlalgorithmen: Häufigkeit des Erhaltens von authentischen Variablen und Rauschvariablen. Br. J. Mathe. Stat. Psychol. 45(2), 265–282 (1992).

Artikel Google Scholar

Centner, V. et al. Eliminierung nicht informativer Variablen für die multivariate Kalibrierung. Anal. Chem. 68(21), 3851–3858 (1996).

Artikel CAS PubMed Google Scholar

Mehmood, T., Liland, K., Snipen, L. & Sæbog, S. Ein Überblick über Variablenauswahlmethoden in der partiellen Regression der kleinsten Quadrate. Chemom. Intel. Labor. Syst. 118, 62–69 (2012).

Artikel CAS Google Scholar

Guney, A., Bozdogan, H. & Arslan, O. Robuste Modellauswahl in linearen Regressionsmodellen unter Verwendung der Informationskomplexität. J. Comput. Appl. Mathematik. 398, 1 (2021).

Liu, W., Wang, Z., Zeng, N., Alsaadi, F. & Liu, X. Ein pso-basierter Deep-Learning-Ansatz zur Klassifizierung von Patienten aus Notaufnahmen. Int. J. Mach. Lernen. Cyber. 12, 1939–1948 (2021).

Artikel Google Scholar

Li, H. et al. Ein verallgemeinerter Rahmen für das Feature-Learning, ein verbessertes Faltungs-Neuronales Netzwerk für die pathologie-bildorientierte Krebsdiagnose. Berechnen. Biol. Med. 151, 106265 (2022).

Artikel PubMed Google Scholar

Sivanandam, S. & Deepa, S. Einführung in genetische Algorithmen (Springer, Berlin, Deutschland, 2008).

MATH Google Scholar

Janikow, CZ Ein wissensintensiver genetischer Algorithmus für überwachtes Lernen. Mach. Lernen. 13, 189–228 (1993).

Artikel Google Scholar

Chauhan, A., Agarwal, A. & Sulthana, R. Genetischer Algorithmus und Ensemble-Lernen unterstützten die Textklassifizierung mithilfe von Support-Vektor-Maschinen. In. J. Adv. Berechnen. Wissenschaft. Appl. 12, 1 (2021).

Google Scholar

Lei, S. Eine Methode zur Merkmalsauswahl basierend auf Informationsgewinn und genetischem Algorithmus, 2012. In einem Vortrag gehalten auf der internationalen Konferenz für Informatik und Ingenieurwesen vom 23. bis 25. März 2012.

Uysal, A. & Gunal, S. Textklassifizierung mithilfe genetischer Algorithmen, die sich an latenten semantischen Merkmalen orientieren. Expertensystem. Appl. 41, 5938–5947 (2014).

Artikel Google Scholar

James, G. & Hastie, T. Die Fehlercodierungsmethode und Bilder. J. Comput. Graph. Stat. 41, 377–387 (1998).

MathSciNet Google Scholar

Basu, A., Walters, C. & Shepherd, M. Support Vector Machines for Text Categorization, 2003. in Vortrag gehalten auf der 36. jährlichen Hawaii International Conference, 23.–25. März 2003.

Mayor, S. & Pant, P. Dokumentenklassifizierung mithilfe einer Support-Vektor-Maschine. Int. J. Eng. Wissenschaft. Technol.4 (2012).

Rahman, S., Mutalib, S., Khanafi, N., & Ali, A. Exploring Feature Selection and Support Vector Machine in Text Kategorization, 2013. In Papier präsentiert auf der 16. internationalen Konferenz über Computerwissenschaft und -technik, 3–5 Dezember 2013.

Noormanshah, W., Nohuddin, P. & Zainol, Z. Dokumentenkategorisierung mithilfe des Entscheidungsbaums: Vorstudie. Int. J. Eng. Technol. 7, 437–440 (2018).

Artikel Google Scholar

Aggarwal, C. & Zhai, C. Eine Übersicht über Textklassifizierungsalgorithmen. In Mining Text Data (Hrsg. Aggarwal, C.) (Springer, Boston, MA, 2012).

Kapitel Google Scholar

Suresh, A. & Bharathi, C. Stimmungsklassifizierung mithilfe einer entscheidungsbaumbasierten Merkmalsauswahl. Int. J. Kontrolltheorie Appl. 9, 419–425 (2016).

Google Scholar

Holland, J. Anpassung in natürlichen und künstlichen Systemen: eine einführende Analyse mit Anwendungen in Biologie, Kontrolle und künstlicher Intelligenz (MIT Press, London, England, 1992).

Buchen Sie Google Scholar

Forrest, S. Genetische Algorithmen: Prinzipien der natürlichen Selektion, angewendet auf Berechnungen. Science 261, 872–878 (1993).

Artikel ADS CAS PubMed Google Scholar

Rammal, A., Perrin, E., Vrabie, V., Assaf, R. & Fenniri, H. Auswahl diskriminanter Wellenzahlen im mittleren Infrarot durch Kombination eines naiven Bayes'schen Klassifikators und eines genetischen Algorithmus: Anwendung auf die Bewertung des biologischen Abbaus von Lignozellulose-Biomasse . Mathematik. Biowissenschaften. 289, 153–161 (2017).

Artikel MathSciNet CAS PubMed MATH Google Scholar

Mitchell, M. Genetische Algorithmen: Ein Überblick. Komplexität 1, 31–39 (1995).

Artikel ADS MATH Google Scholar

Yangn, M., Yang, Y. & Su, T. Eine effiziente Fitnessfunktion im genetischen Algorithmus-Klassifikator für die Landnutzungserkennung auf Satellitenbildern. Wissenschaft. Welt J. 1, 1 (2014).

Google Scholar

Ranjini, A. & Zoraida, B. Analyse von Auswahlschemata zur Lösung von Job-Shop-Planungsproblemen mithilfe eines genetischen Algorithmus. Int. J. Res. Ing. 2, 775–779 (2013).

Google Scholar

Picek, S. & Goluba, M. Vergleich eines Crossover-Operators in binär codierten genetischen Algorithmen. WSEAS Trans. Berechnen. 9, 1064–1073 (2010).

Google Scholar

Goncalves, J., Mendes, M. & Resende, M. Ein hybrider genetischer Algorithmus für das Job-Shop-Planungsproblem. EUR. J. Oper. Res. 167, 77–953 (2005).

Artikel MathSciNet MATH Google Scholar

Hinterding, R. Gaußsche Mutation und Selbstanpassung für numerische genetische Algorithmen, 1995. Vortrag gehalten auf der ieee International Conference on Evolutionary Computation (1995).

Deep, K. & Thakury, M. Ein neuer Mutationsoperator für real codierte genetische Algorithmen. Appl. Mathematik. Berechnen. 193, 211–230 (2007).

MathSciNet MATH Google Scholar

Papineni, K., Toubakh, S., Ward, T., & Zhu, W. Bleu: A method for Automatic Evaluation of Machine Translation, 2002. in Vortrag gehalten auf der 17. Jahrestagung der Association for Computational Linguistics, 07–12 Juli 2002.

Gunawan, D., Sembiring, C. & Budiman, M. Die Implementierung der Kosinusähnlichkeit zur Berechnung der Textrelevanz zwischen zwei Dokumenten. J. Phys. Konf. Ser. 978, 1 (2018).

Artikel Google Scholar

Ezukwoke, K., Toubakh, H., Hoayek, A., Batton-Hubert, M., Boucher, . In einem Vortrag gehalten auf der 17. internationalen Konferenz für Automatisierungswissenschaft und -technik, 23.–27. August 2021.

Kamal, M., Barakbah, A. & Mubtadai, N. Temporal Sentiment Analysis for Opinion Mining der ASEAN-Freihandelszone in sozialen Medien, 2016. In Papier präsentiert auf der internationalen Konferenz über Wissensschaffung und intelligentes Computing, S. 15-17 (2016).

Bharti, K. & Singh, P. Hybride Dimensionsreduzierung durch Integration der Merkmalsauswahl mit der Merkmalsextraktionsmethode für die Textclusterung. Expertensystem. Appl. 42, 3105–3114 (2015).

Artikel Google Scholar

Nawangsari, RP, Kusumaningrum, R. & Wibowo, A. Word2vec für die indonesische Stimmungsanalyse in Bezug auf Hotelbewertungen: Eine Bewertungsstudie. Proz. Berechnen. Wissenschaft. 157, 360–366 (2019).

Artikel Google Scholar

Kristiyanti, D. & Wahyudi, M. Funktionsauswahl basierend auf genetischem Algorithmus, Partikelschwarmoptimierung und Hauptkomponentenanalyse für Opinion Mining Cosmetic Product Review, 2017. In Papier präsentiert auf der 5. internationalen Konferenz zu Cyber- und IT-Service-Management, 08– 10. August 2017.

Referenzen herunterladen

Diese Studie wurde von Mines Saint-Etienne in Zusammenarbeit mit dem STMicroelectronics Reliability and Failure Analysis Lab in Grenoble, Frankreich, durchgeführt.

Dieses Projekt wurde mit Unterstützung des europäischen Projekts FA4.0 finanziert.

Ecole des Mines de Saint-Etienne, Mathematik und Wirtschaftsingenieurwesen, Organisation und Umwelttechnik, Henri-FAYOL-Institut, 42023, Saint-Etienne, Frankreich

Abbas Rammal, Kenneth Ezukwoke, Anis Hoayek und Mireille Batton-Hubert

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Alle genannten Autoren haben gleichermaßen zur Erstellung der Arbeit beigetragen. AR hat die Struktur dieses Artikels entworfen und es geschafft, die neuen Algorithmen auszuführen und die Ergebnisse zu interpretieren. AH und MB trugen zur Erläuterung mathematischer Methoden und zur Diskussion der Ergebnisse bei. Er überprüfte den Artikel auch auf Fehler und fügte einige weitere Erklärungen hinzu. Außerdem wurde das Manuskript zur sprachlichen Überprüfung und einigen anderen Erläuterungen überarbeitet. KE war für die Datenerfassung und Illustration verantwortlich. Sie sammelten Daten aus verschiedenen Quellen und prüften deren Zuverlässigkeit. Die Autoren haben die veröffentlichte Version des Manuskripts gelesen und ihr zugestimmt.

Korrespondenz mit Abbas Rammal.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die Originalautor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Rammal, A., Ezukwoke, K., Hoayek, A. et al. Vorhersage der Grundursache für Ausfälle in der Halbleiterindustrie, ein Ansatz aus genetischem Algorithmus und maschinellem Lernen. Sci Rep 13, 4934 (2023). https://doi.org/10.1038/s41598-023-30769-8

Zitat herunterladen

Eingegangen: 05. Oktober 2022

Angenommen: 28. Februar 2023

Veröffentlicht: 27. März 2023

DOI: https://doi.org/10.1038/s41598-023-30769-8

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.

AKTIE