Effektivität und Effizienz durch problemspezifische Abstraktion : ein Beitrag zum maschinellen Lernen von Regeln zur Steuerung von Produktionsnetzwerken der Serienfertigung / Andre Döring. 2009
Content
- Einleitung
- Problemstellung
- Steuerung von Produktionsnetzwerken der Serienfertigung
- Klassifikation des Untersuchungsgegenstandes
- Objekte in einem Produktionsnetzwerk
- Ablauf kooperativer Steuerung in Produktionsnetzwerken
- Anforderungen einer automatisierten Steuerung der Änderungsplanung durch Regeln
- Problem der Entscheidungsfindung
- Formalisierung der Regeln - lokale und globale Entscheidungen
- Regeln für deterministische Änderungsplanungsprozesse
- Regeln für nicht-deterministische Änderungsplanungsprozesse
- Verfahren zur automatisierten Regelsystemerstellung
- Maschinelles Lernen der Regeln
- Maschinelle Lernverfahren zur Produktionssteuerung
- Maschinelles Lernen in komplexen Umgebungen
- Einsatz von Q-Learning
- Übertragung der Q-Learning-Konzepte auf die Problemstellung
- Zusammenfassung der Problembereiche
- Stand der Forschung
- Zustandsreduktionsverfahren für Produktionsnetzwerke der Serienfertigung
- Approximation der Value-Funktion
- Approximation durch Zustandsaggregation
- Anwendung von k-means-Clustering
- Konvergenz von Q-Learning auf einem abstrahierten Zustandsraum
- Q-Learning zum Lernen von Steuerungsregeln in Produktionsnetzwerken
- Durchführung von Training und Generierung von Ausgangsdaten
- Zusammenfassung
- Zu leistende Arbeit
- Konzeption
- Reduktion des Zustandsraumes durch Clustering
- Vorüberlegungen
- Aufbau der Abstraktionsfunktion
- Auswahl relevanter Merkmale für die Zustandsbeschreibung
- Unterscheidungskriterien zur Zustandsabstraktion
- Auswahl der charakteristischen Pläne
- Erlernen charakteristischer Pläne mit k-means-Clustering
- Anforderungen an die Distanzfunktion
- Strukturelle Distanz
- Quantitative Distanz
- Kombinierte Distanzfunktion und Beispiel
- Einfluss der Gewichtungsfaktoren
- Aktualisierung der Clustermittelpunkte
- Auswahl der initialen Clustermittelpunkte
- Trainingsdaten für das Clustering
- Terminierung des Clusterverfahrens
- Zusammenfassung
- Konzeption der Lernfunktion für das Q-Learning
- Planungsverfahren und Varianten im Lernsystem
- Rewardbewertung auf Clusterebene
- Strafkostenarten in der Rewardfunktion
- Grundprinzip bei der Rewardberechnung
- Vorlaufzeiten von Planungsprozessen in der Rewardfunktion
- Bewertung von Restriktionsverletzungen
- Bereitstellungsstrafkosten am Fertigungsobjektknoten
- Parameter der Kostenfunktion
- Vergleichbarkeit der Strafkosten
- Periodenweise Strafkostenfunktion für lokale Planänderungen
- Periodenweise Strafkosten am FOK
- Kumulierte Strafkosten am FOK
- Betriebsmittelstrafkosten am Kapazitätsobjektknoten
- Beschaffungsstrafkosten am Fertigungsobjektknoten
- Strafkosten für unterschiedliche Beschaffungssteuerungen
- Leistungsvereinbarungen im Beschaffungsprozess
- Strafkosten bei Bestellpunktverfahren
- Strafkosten bei Bestellzyklusverfahren
- Übertragung der Konzepte auf die angebotsseitige Koordination
- Koordination zwischen FOK/KOK und FOK/FOK
- Bewertung globaler Beschaffungsprozesse durch lokal berechnete Strafkosten
- Globale Koordination mit mehreren Partnern
- Bewertung eines Endzustandes
- Anmerkung zum Q-Update auf Clusterebene
- Gesamtrewardfunktion
- Konzeption des Trainings, der Lernepisoden und der Regelgenerierung
- Lernepisoden und deren Ausgangsdaten
- Lernschritte am Objektknoten
- Sequenz von Lernepisoden
- Auswahl der Änderungsplanungsverfahren in einer Lernepisode
- Funktionale Einbindung der Lernepisoden in das Training
- Generierung und Verwendung von Regeln
- Regelgenerierung – Von Q-Werten zum Regelsystem
- Partielle Aktualisierung von Regeln
- Steuerung – Vom Zustand zur Regelanwendung
- Konvergenzbetrachtung des Lernverfahrens
- Zusammenfassung Training und Regelanwendung
- Zusammenfassung und Bewertung der Konzeption
- Validierung
- Validierung des Abstraktionsverfahrens
- Szenario zur Validierung der problemspezifischen Abstraktion
- Validierung der Parametereinstellungen
- Effektivität der Clusteranwendung
- Zusammenfassung
- Lernverfahren und Training
- Szenario zur Validierung des Lernverfahrens
- Validierung der Lernfunktion
- Validierung des Trainingsprozesses
- Konvergenz des Verfahrens
- Dauer des Trainings bei variierender Zustandsraumgröße
- Effizienz des Trainingsprozesses
- Lernen im Netzwerk
- Abschließende Diskussion
- Zusammenfassung und Ausblick
- Zusammenfassung
- Reduktion des Zustandsraumes
- Konzeption einer Lernfunktion
- Ausgangsdaten und Trainingskonzept
- Umsetzung
- Grenzen der Arbeit
- Ausblick
- Liste Planungsverfahren und Varianten
- Generieren von Trainingsdaten
- Implementation
