Von Reinforcement Learning (RL) haben viele schon gehört. Aber weißt du was RL genau ist und welche Anwendungsfälle es dafür gibt? In diesem Blogpost erklären wir, was es ist wie RL funktioniert und welche Anwendungsmöglichkeiten es gibt. Du erfährst was RL in der Praxis kann und was nicht. Außerdem zeigen wir dir Beispiele, wie RL praktische Probleme löst. Sprich: Wie RL dein Unternehmen bzw. dein Geschäftsmodell transformieren kann.

Egal, ob du mehr datengetriebene (Geschäfts-)Entscheidungen treffen möchtest oder dich grunsätzlich für Machine Learning interessierst, dieser Artikel versorgt dich mit dem nötigen Grundwissen zum Thema Reinforcement Learning. Grundsätzlich empfehlen wir dir, diesesMulti-Agenten Versteckspiel Training von OpenAI vorher anzusehen. Es illustriert die Vorteile von RL sehr anschaulich.

Kurzes Reinforcement Learning Glossar

Wir verwenden in diesem Artikel ein paar Reinforcement Learning Fachbegriffe. Wenn du noch nicht mit der Materie vertraut bist, gibt’s hier einen kurzen Überblick. Falls das nicht nötig ist, kannst du diesen Abschnitt auch überspringen.

Folgende Begriffsdefinitionens gelten im Kontext von RL:

Agent: Der Agent kann als der Protagonist beim Reinforcement Learning betrachtet werden. Seine Aufgabe besteht darin, Aktionen zu ermitteln, die die Belohnung maximieren. Um diese Entscheidung abzuleiten, beobachtet der Agent den aktuellen Zustand.

Belohnung: Die Belohnung iist das Feedback, das ein Agent bekommt, wenn er sich für eine gute statt eine schlechte Handlung entscheidet, d.h. für eine Aktion die den Agenten seinem Ziel näher bringt.

Umgebung: Ein Agent agiert innerhalb einer Umgebung, die ihm die Problemgrenzen vorgibt. Sie definiert den Aktionsraum und den Zustandsraum.

Interpreter: Bewertet die Umgebung und leitet daraus eine Belohnung ab.

Aktion: Um mit der Umwelt zu interagieren, hat der Agent die Möglichkeit, eine Aktion zu wählen. Die möglichen Aktionen werden im Aktionsraum definiert.

Zustand: Der Zustand beschreibt den Status einer Umgebung und damit, wie sie durch die Aktion eines Agenten beeinflusst wurde. Normalerweise ist der Zustand einer Umgebung nur teilweise beobachtbar.

Episode: Eine Episode besteht aus mehreren Schritten, d.h. sie kann als die Menge der Schritte betrachtet werden, die zum Ende eines Spiels oder eines Terminalzustands führen. Sobald dieser erreicht ist, wird das Spiel zurückgesetzt, damit eine neue Episode beginnen kann.

Was ist Reinforcement Learning?

Reinforcement Learning ist ein Teilbereich des Machine Learnings (ML) und konzentriert sich auf Entscheidungsfindung in einer Umgebung durch das Erhalten von Feedback in Form von Belohnungen oder Strafen. Dieser Ansatz ist besonders nützlich für Probleme, bei denen das gewünschte Ergebnis bekannt ist, aber die Schritte auf dem Weg dorthin unsicher sind. Auch große Zustands- und Aktionsräume sind Indikatoren für Probleme, bei denen RL gut geeignet ist.

Reinforcement Learning im Vergleich mit anderen ML-Ansätzen

Die drei Machine Learning Kategorien: Unsupervised Learning, Supervised Learning und Reinforcement Learning.

Beim Supervised Learning werden gelabelte Daten verwendet, um die Parameter einer Transferfunktion anzupassen und anschließend den Eingabedaten Ausgabewerte zuzuordenen. Beim Unsupervised Learning wird dagegen hauptsächlich ein Muster abgeleitet, das auf Ähnlichkeiten innerhalb eines Datensatzes basiert.

Im Gegensatz dazu zielt Reinforcement Learning auf ein anderes Problemfeld ab und benötigt keine gekennzeichneten Ein- und Ausgabe-Paare. Das Ziel ist es, einen Agenten zu trainieren, der in der Lage ist, eine Umgebung zu beobachten und mit ihr zu interagieren, um ein gewünschtes Ergebnis zu erreichen. Der Agent zielt darauf ab, seinen Entscheidungsprozess zu optimieren, während er Zustandsbeobachtungen und Belohnungen aus der Umgebung erhält. Basierend auf der zuvor gelernten Erfahrung kann der Agent neue Aktionen ableiten und seine Entscheidungsfindung verbessern. Dieser Zyklus aus Beobachtung-Aktion-Belohnung (auch als Schritt bekannt) wiederholt sich, bis eine Episode (eine Sammlung von Schritten) abgeschlossen ist. Dies geschieht in der Regel, wenn eine Zielbelohnung oder das Schrittlimit erreicht wurde. Dann beginnt eine neue Episode von Grund auf neu. Einziger Unterschied ist, dass die vorherige Erfahrung des Agenten gespeichert und für zukünftige Entscheidungsfindung berücksichtigt wird.

Der Agent beobachtet den Zustand der Umgebung und leites Aktionen von seinen Erfahrungen ab. Nachdem die Aktion ausgeführt wurde, gibt die Umgebung eine Belohnung zurück (je nachdem wie vorteilhaft die vorherige Entscheidung war) und einen neuen Eindruck des beobachteten Zustands.

Viele fortgeschrittenen Anwendungen im Bereich des Reinforcement Learnings nutzen ein tiefes neuronales Netzwerk, d.h. Deep Learning (DL), um die Lernfähigkeiten zu verbessern. Diese Variation wird als Deep Reinforcement Learning (DRL) bezeichnet. Zur Vereinfachung halten wir uns hier an die Literatur und verwenden RL als Standardbegriff. Wenn wir also von RL sprechen, schließt das auch DRL ein, da dies eine gängige Vereinfachung ist.

Nachdem wir eine grundlegende Einführung in das Thema gegeben haben: Wo spielt Reinforcement Learning eigentlich eine Rolle?

Maschinen, die Menschen überflügeln

Was haben koreanische Brettspieler und Weltklasse-Segler gemeinsam? Sie wurden von RL besiegt.

Berühmt-berüchtigt: AlphaGo

Das wohl prominenteste Beispiel für das Übertreffen der Menschheit durch RL ist schon ein paar Jahre alt. Lee Sedol, der damals beste Go-Spieler der Welt, nahm 2016 am Google DeepMind Challenge Match teil und vertrat die Menschheit in der Herausforderung, Go gegen einen RL-Agenten zu spielen. Go gilt als das komplexeste Strategiespiel der Welt und war daher eine gute Bühne, um die Stärke von RL bei Entscheidungsfindungen zu demonstrieren. Sein Gegner: AlphaGo, ein Reinforcement Learning Algorithmus, der von Google DeepMind entwickelt wurde.

AlphaGo mit seinem menschlichen Assistenten (links) und Lee Sedol (rechts), der auf den ersten Zug der KI wartet. (Quelle: Screenshot aus dem YouTube-Dokumentarfilm)

Sedol war sich sicher, dass er im Go-Spiel gegen keine KI oder Maschine verlieren würde. Doch sein Vertrauen schwand, als er kurz davor stand, in der ersten Partie besiegt zu werden. Insgesamt spielten Sedol und AlphaGo 5 Matches an 5 verschiedenen Tagen, von denen 4 vom Reinforcement Learning Algorithmus gewonnen wurden. Der preisgekrönte Dokumentarfilm über das Match ist auf YouTube verfügbar und auf jeden Fall sehenswert.

Regatta-Segeln mit RL

Das Emirates Team New Zealand nimmt am America's Cup teil, der seit jeher eine Herausforderung darstellt, die Technologie, Innovation und Segeln miteinander verbindet. Um die Entwürfe neuer Schiffe zu testen, bevor sie gebaut werden, hat das Team einen Simulator entwickelt. Diese Strategie war entscheidend für den Sieg des Teams im Jahr 2017, erforderte aber auch, dass mehrere Teammitglieder vor dem Simulator sitzen und gleichzeitig Manöver mit dem digitalen Zwilling ausführen.

2019 beschloss das Team für Tests rund um die Uhr zu segeln und somit die benötigte Zeit für Design-Iterationen zu verkürzen. Ein von McKinsey entwickelter RL-Agent lernte wie ein Segler auf Weltklasse-Niveau zu segeln, um Tests ohne menschliche Arbeitskraft zu skalieren. Bald übertraf der Agent sogar seine menschlichen Konkurrenten und die Segler lernten Manöver von ihm. Die erlernten Taktiken und die von RL entworfenen Hydrofoils führten zu einem weiteren Sieg des Emirates Team New Zealand im Jahr 2021.

Ist Reinforcement Learning die Zukunft?

Die Zukunft von RL ist ein kontroverses Thema. Die Debatte läuft schon seit ein paar Jahren. Einer der bekanntesten Blog-Beiträge stammt aus dem Jahr 2018. Alex Irpan (ein Software-Ingenieur bei Google) versucht in dem Beitrag zu erklären, warum Deep Reinforcement Learning noch nicht funktioniert.

Das muss man natürlich im Kontext betrachten. Diese Aussage wurde zu einer Zeit geschrieben, als der Hype um Reinforcement Learning enorm war und es als Möglichkeit propagiert wurde, um generelle Künstliche Intelligenz (AGI) in naher Zukunft zu implementieren. Es ist zwar nicht so gekommen, aber seine folgende Aussage ist sicherlich zutreffend für das Jahr 2018:

Immer wenn mich jemand fragt, ob Reinforcement Learning ihr Problem lösen kann, sage ich ihnen, dass es das nicht kann. Ich denke, dass ist zumindest 70% der Zeit zutreffend. (Alex Irpan)

Aber das Gleiche gilt auch für Machine Learning und Data Science. Laut KDnuggets gibt die Mehrheit der Datenwissenschaftler an, dass 80 % der Modelle, die mit der Absicht erstellt werden, eingesetzt zu werden, nie die Produktion erreichen. Aber bedeutet das, dass Machine Learning nicht funktioniert? Nicht wirklich.

Wie immer im Leben kann ein einziges Tool nicht alle Probleme lösen. Stattdessen sollten Unternehmen einen Werkzeugkasten mit verschiedenen ML-Ansätzen haben, um spezifische Anforderungen zu lösen.

Problem vs Lösungsansatz: Was kommt zuerst?

Klar, oft reicht ein traditioneller Algorithmus ohne Lernfähigkeit aus, um bestimmte Aufgaben zu erledigen. Wenn uns Kunden bei Motius fragen, ob man ML zur Lösung eines bestimmten Problems nutzen sollte, ist unsere Antwort: Es ist sehr wahrscheinlich, dass es auch einfacher geht. Oder, dass es mindestens einen besseren Lösungsansatz gibt.

Die Festlegung auf einen Lösungsansatz, bevor das Problem präzise verstanden wurde, ist oft das Resultat eines Hypes um eine spezifische Lösung (zum Beispiel ML). Da entsteht schnell mal die berühmte FOMO (fear of missing out), also die Angst etwas (Wichtiges) zu verpassen. Deshalb versuchen wir uns auf das Problem zu konzentrieren und dann eine potenzielle Lösung zu finden, unter Berücksichtigung verschiedener Ansätze. Manchmal ist ML der richtige Ansatz und manchmal nicht, aber unter keinen Umständen sollte ML/DL/RL nur zum Selbstzweck verwendet werden.

Ist Reinforcement Learning noch relevant?

Obwohl es scheint, als ob der anfängliche Hype um RL vorbei ist, entstehen auch heute noch regelmäßig wertvolle Anwendungsfälle in der Praxis.

Zum Beispiel verwendet Amazon Reinforcement Learning , um die Effizienz seines Lagerbestandsystems um 12% zu erhöhen. Laut den beteiligten Forschern ist das "Modell in der Lage, verlorengegangene Verkäufe, korrelierende Nachfrage, stochastische Lieferzeiten von Anbietern und exogenes Preis-Matching zu handhaben". Um dieses unglaubliche Ergebnis im Bestandsmanagement zu erreichen, generierte Amazon einen Proxy für die Nachfrage nach Produkten in unsicheren Zeiten oder bei fehlendenden Daten.

Irpan behauptet jedoch:

DQN kann viele Atari-Spiele lösen, aber es konzentriert das gesamte Lernen auf ein einziges Ziel - sehr gut in einem Spiel zu werden. Das endgültige Modell wird nicht auf andere Spiele generalisieren, weil es nicht so trainiert wurde. (Alex Irpan)

Das mag 2018 gültig gewesen sein, doch Google DeepMind widerlegte genau das vor wenigen Wochen. Ihr neu veröffentlichtes Paper" Mastering Diverse Domains through World Models" behandelt das Problem der Lösung von Aufgaben in verschiedenen Domänen und erweitert die Stärken im Bereich der Spezialisierung um die Fähigkeit zur Generalisierung. Das Gleiche gilt für ihre Bemühungen sogenannte Generalisten-Agenten zu erforschen. Andereseits: Wie gut funktioniert Supervised Learning mit einem Datensatz aus einer vollständig anderen Domäne ohne Neuschulung?

Das Totschlag-Argument: sogar ChatGPT setzt RL ein. Indem das OpenAI-Team Erkenntnisse basierend auf dem Verhalten der Benutzer nutzt, kann es lernen, die Ausgabequalität des Modells vorherzusagen. Diese Informationen können sie wiederum nutzen, um die Ausgabe des Modells an das anzupassen, was die Benutzer als hochwertige Antwort erachten. Hierfür verwendet OpenAI RL. Der Output des Modells wird mithilfe von Reinforcement Learning from Human Feedback (RLHF) optimiert.

Es gibt viele weitere bekannte Beispiele für funktionierende RL-Ansätze. Außerdem ist es wahrscheinlich, dass es einige Anwendungsfälle gibt, die der Öffentlichkeit gar nicht bekannt sind.

Ist RL relevant für dein Unternehmen?

Was Amazon kann, sollte dein Unertnehmen auch können? Neben logistik- und inventar-reichen Unternehmen können auch viele andere Geschäftsfelder von Reinforcement Learning profitieren. Bevor du aber beurteilen kannst, ob es in deiner Organisation einen geeigneten Anwendungsfall gibt, solltest überprüfen, ob es bestimmte Hindernisse gibt.

Showstopper for Reinforcement Learning

Fehlende Umgebung: Eine Umgebung (meistens eine Simulation) ist typischerweise eine harte Anforderung für RL, obwohl das Offline-Reinforcement-Learning ein neuer Ansatz mit vielversprechenden Vorteilen ist. Auch der Agent muss in der Lage sein, damit zu interagieren, um Einblicke in das Geschehen zu erhalten (Beobachtung des Zustands).

Unklares Ziel: Ist klar definiert, was optimiert werden soll? Alles, was nicht in einer Belohnungsfunktion enthalten ist, wird vernachlässigt. Stelle daher sicher, dass ihr wisst, wie das Ergebnis hinsichtlich unterschiedlicher, relevanter Parameter aussehen sollte.

Das Problem kann nicht als Spiel formuliert werden: Die Absicht eines Reinforcement-Learning-Ansatzes besteht darin, ein bestimmtes Ziel zu erreichen oder zumindest so nah wie möglich an die Zielerreichung zu kommen. Sprich, dein zu lösendes Problem muss an einer Art Punktestand, der maximiert werden sollte, messbar sein.

Die Aufgabe kann leicht mit einem traditionellen Ansatz gelöst werden: Das ist kein Showstopper, aber Ansätze ohne ML sind oft weniger komplex als ML, insbesondere RL-Ansätze. Stelle daher sicher, dass es wirklich notwendig ist, diese zusätzliche Komplexität hinzuzufügen.

RL-Anwendungsfall Assessment

Keine Hindernisse für den Einsatz von Reinforcment Learning vorhanden? Herzlichen Glückwunsch, jetzt kannst du bewerten, ob ihr einen geeigneten Anwendungsfall für RL habt.

Dafür schlagen wir vor, Folgendes zu berücksichtigen:

Hast du einen großen und komplexen Eingabebereich?
Hast du einen großen und komplexen Ausgabebereich?
Ist ein regelbasiertes System nicht fmöglich, da Zusammenhänge nicht sinnvoll dargestellt werden können?
Ist ein kontinuierlicher Lernprozess erforderlich?
Muss sich das System an sich ändernde Bedingungen anpassen?
Gibt es eine klar definierte Simulation?

Wenn du die meisten Fragen mit "Ja!" beantwortet hast, stehen die Chancen gut, dass es sich lohnt, sich weiter mit RL zu befassen.

Wenn es funktioniert, ist Reinforcement Learning ein wirklich starkes Werkzeug. Aber, RL zum Laufen zu bringen, ist nicht trivial. Im Vergleich zu Supervised Learning (das gelabelte Daten erfordert), benötigt Reinforcement Learning eine genau definierte Umgebung und eine genau definierte Belohnungsfunktion. Letzteres ist die größte Herausforderung.

Reinforcement Learning Projekte bei Motius

In den letzten Jahren war Reinforcement Learning ein forschungslastiges Thema. In Zukunft werden immer mehr RL-Ansätze in reale Anwendungen Einzug erhalten. Wir sind fasziniert von den Möglichkeiten, die Reinforcement Learning bietet, und beobachten auch ein wachsendes Interesse bei unseren Kunden.

Es gibt jede Menge spannende Anwendungsfälle für RL: die Nutzung von Verbraucherdaten, die Modellierung interner Anlagen und Prozesse, Flottenmanager für Roboter oder Optimierungen im Bereich der Stromversorgung.

Ein Beispiel für die Optimierung des Stromverbrauchs eines Haushalts mit Reinforcement Learning. Der Benutzer kann oben den aktuellen Zustand beobachten, in der Mitte ausgewählte Aktionen außer Kraft setzen und unten einen Fokusmodus auswählen.

Beispiel zur Optimierung des Stromverbrauchs im Haushalt mithilfe von Reinforcement Learning: Der Benutzer kann den aktuellen Zustand oben beobachten, ausgewählte Aktionen in der Mitte überschreiben und unten einen Fokus-Modus auswählen.

Für uns war klar, Reinforcement Learning ist ein ML-Bereich mit vielen Vorteilen, aber auch Herausforderungen. Deshalb haben wir uns entschieden, früh Zeit zu investieren und daran zu forschen. Schließlich ist Forschung und Entwicklung unser Kerngeschäft. Die derzeitige Kundenstimmung zeigt, dass es die richtige Entscheidung war.

Ressourcensparend RL implementieren

Zusätzlich haben wir unser eigenes RL-MoTool (Motius + Tool) entwickelt. Es verkürzt, die benötigte Zeit, um mit einem RL-Projekt zu beginnen, von Tagen oder Wochen auf wenige Stunden.

Wie das RL-MoTool funktioniert: Das RL-MoTool ermöglicht es uns, schnell und unkompliziert Reinforcement-Learning-Projekte zu starten. Es entstand aus einem internen Forschungsprojekt, bei dem der Code abstrahiert und zu einem wiederverwendbaren Tool kombiniert wurde. Diese Einrichtung vermeidet zeitaufwändige Vorbereitungsarbeiten, während MLOps-Funktionen wie Modellversionierung, Leistungsüberwachung oder sogar die Skalierung der Berechnung auf ein Kubernetes-Cluster bereits integriert sind. Dank unseres RL-MoTools können wir uns direkt mit der Lösung des Problems beschäftigen, anstatt Zeit mit umständlichen Systemeinrichtungen zu verschwenden.

Wir haben RL in einigen Projekten eingesetzt. Zum Beispiel zur Steuerung von Verkehrslichtern und Optimierung von Haushaltsgeräten. Wir haben auch an einem Ansatz gearbeitet, der drahtlose Kommunikation mit Deep Reinforcement Learning optimiert. Unsere Erkenntnisse haben wir kürzlich in einer in einer Fachzeitschrift veröffentlicht.

Bereit, RL zu nutzen?

Die genannten Projekte, sind nur ein paar der vielen Anwendungsmöglichkeiten von RL im Unternehmensumfeld. Die Zukunft von RL ist vielversprechend und wir freuen uns darauf, Probleme mit kreativen KI-Anstätzen zu lösen. Lass uns wissen, ob du hier tiefer eintauchen möchtest. Zusammen können wir die Machbarkeit von RL-Applikationen oder anderen Ansätzen bewerten. Wir unterstützen dich dabei den ROI von RL-basierten Prozessoptimierungen oder Entscheidungen zu beziffern.

Was ist Reinforcement Learning und wie kann es dein Unternehmen transformieren?

Kurzes Reinforcement Learning Glossar

Was ist Reinforcement Learning?

Reinforcement Learning im Vergleich mit anderen ML-Ansätzen

Maschinen, die Menschen überflügeln

Berühmt-berüchtigt: AlphaGo

Regatta-Segeln mit RL

Ist Reinforcement Learning die Zukunft?

Problem vs Lösungsansatz: Was kommt zuerst?

Ist Reinforcement Learning noch relevant?

Ist RL relevant für dein Unternehmen?

Showstopper for Reinforcement Learning

RL-Anwendungsfall Assessment

Reinforcement Learning Projekte bei Motius

Ressourcensparend RL implementieren

Bereit, RL zu nutzen?

Bereit durchzustarten?

Verwandte Themen

Dynamische Sicherheitszonen für AMRs

Kubernetes und Helm: Ein Überblick

5 Dinge, die deine UX vielleicht braucht

Ein kurzer Design Thinking Spaziergang

Rapid Prototyping - ein Hilfsmittel für die Entwicklung von Hardware-Produkten

Suchst du einen
Innovationspartner?

Willst du Teil vom
Motius-Team sein?

Hello. Let's talk!

Motius Newsletter