Reinforcement Learning: Als Maschinen das Denken lernten

Google investiert in eine Vielzahl von Bereichen und Projekten, insbesondere in Bezug auf wegweisende Technologien. Insbesondere im Bereich der künstlichen Intelligenz (KI) hat dieser Internetgigant mit seinem Deepmind-Projekt das ganze Fleisch auf den Grill gelegt. Ihr Hauptziel ist es, Programme mit Hilfe künstlicher Intelligenz weiterzuentwickeln, damit sie in Zukunft komplexe Probleme ohne menschliches Eingreifen lösen können . Die Methode des maschinellen Lernens zur Verstärkung ist ein wesentlicher Beitrag zur Entwicklung der KI.

Index

Was ist Bestärkungslernen?
Wie funktioniert das Lernen zur Stärkung?

Wo und wann wird Verstärkungslernen eingesetzt?

Was ist Bestärkungslernen?

Verstärkungslernen kann wörtlich übersetzt werden als Verstärkungslernen , ein Begriff, der eine Methode im Bereich des maschinellen Lernens oder des maschinellen Lernens beschreibt . Neben überwachtem und unbeaufsichtigtem Lernen ist das verstärkte Lernen die dritte Methode, mit der Algorithmen gelehrt werden, um Entscheidungen für sich selbst zu treffen. Der Schwerpunkt liegt auf der Entwicklung intelligenter Lösungen für komplexe Steuerungsprobleme .

Bei dieser Variante des maschinellen Lernens werden im Gegensatz zum überwachten und unbeaufsichtigten Lernen keine Daten für die Konditionierung benötigt . Bei den beiden anderen Methoden werden die Programme zuerst mit Daten versorgt. Dieser Schritt wird beim Verstärkungslernen vollständig übersprungen: Stattdessen werden die Daten während des Trainings aus Versuch und Irrtum generiert und gleichzeitig markiert. Das Programm führt mehrere Schulungen in einer Simulationsumgebung durch, um das genau entsprechende Ergebnis zu erzielen. Daher werden während des Trainings nur Impulse generiert, die das System unterstützen, anstatt das System mit den richtigen Ergebnissen zu konfrontieren (wie beim überwachten Lernen).

Das gewünschte Ergebnis dieses Trainings ist, dass künstliche Intelligenz ohne menschliches Vorwissen in der Lage ist, sehr komplexe Steuerungsprobleme autonom zu lösen. Im Vergleich zur konventionellen Technik ist diese Methode schneller, effizienter und erzielt im Idealfall sogar das beste erwartete Ergebnis.

In vielen Fällen wird das Lernen des verstärkten Lernens durch Videospiele durchgeführt. Computerspiele sind die perfekte Grundlage, um das verstärkte Lernen zu erforschen und zu verstehen , da sie häufig Simulationsumgebungen, verschiedene Steuerungsoptionen und sogar den Einfluss der Umgebung umfassen. Im Allgemeinen stellen diese Spiele ein Problem dar, das schwer zu lösen ist oder bei dem komplexe Aufgaben in verschiedenen Phasen gelöst werden müssen. Andererseits gibt es in den meisten Spielen Punktesysteme, die den Belohnungssystemen des verstärkenden Lernens sehr nahe kommen .

Führende Forscher auf dem Gebiet der künstlichen Intelligenz betrachten das verstärkte Lernen als eine vielversprechende Methode, um eine starke künstliche Intelligenz (IAF) zu erreichen. Eines Tages wird diese Art von Intelligenz es Maschinen wie Menschen ermöglichen, ihre eigenen rationalen Entscheidungen zu treffen und jede Aufgabe erfolgreich auszuführen. Auf diese Weise kann die Maschine Probleme selbst beobachten, lernen und lösen.

Zusammenfassend

Reinforcement Learning besteht aus maschinellem Lernen durch Interaktion mit der Umgebung und Wiederverwendung des Gelernten zur Lösung komplexer Probleme, ohne dass eine Person Daten manuell eingeben muss.

Wie funktioniert das Lernen zur Stärkung?

Das Reinforcement-Lernen umfasst zahlreiche unabhängige Methoden , mit denen ein Algorithmus oder ein Software- Agent selbst Strategien lernt . Ziel ist es, die in eine Simulationsumgebung integrierten Belohnungen zu maximieren. In dieser Umgebung führt der Computer eine Aktion aus und erhält dann eine Rückmeldung . Der Software- Agent erhält im Voraus keine Informationen darüber, welche der Aktionen vielversprechender ist, und muss selbst festlegen, wie er durch Ausprobieren vorgehen soll.

Vielmehr erhält der Computer zu bestimmten Zeiten Belohnungen , was seine Strategien beeinflusst. Durch diese Ereignisse lernt der Software- Agent , das Ergebnis bestimmter Aktionen in der Simulationsumgebung zu bewerten. All dies bildet die Grundlage, die der Software- Agent benötigt, um langfristige Strategien zu entwickeln und gleichzeitig die Belohnungen zu maximieren.

Um das Verstärkungslernsystem auf diese Weise zu trainieren, wird die Q-Learning- Technik verwendet . Der Name stammt von der Q-Funktion, die den erwarteten Gewinn einer Aktion im Status des Agenten berechnet. Ziel des verstärkten Lernens ist es daher, die bestmögliche Politik zu entwickeln. Der Begriff? Politik? Es bezieht sich auf das vom Software- Agenten gelernte Verhalten , das angibt, welche Maßnahmen in einer bestimmten Verhaltensvariante ( Beobachtung ) der Lernumgebung ( Umgebung ) ergriffen werden sollen .

Die Richtlinie kann in einer Q-Tabelle dargestellt werden . Die Zeilen enthalten alle möglichen Beobachtungen und die Spalten alle möglichen Aktionen. Die resultierenden Zellen werden während des Trainings mit sogenannten ( Wert- ) Werten gefüllt , die die erwartete zukünftige Belohnung darstellen.

Diese Q-Tabelle ist jedoch von begrenztem Nutzen. Die optische Darstellung funktioniert nur in einem kleinen Beobachtungsraum der Aktion. Wenn die Möglichkeiten sehr zahlreich sind, muss der Software- Agent ein neuronales Netzwerk verwenden.

Um Ihre Privatsphäre zu schützen, wird das Video nach dem Klicken hochgeladen.

Wo und wann wird Verstärkungslernen eingesetzt?

Eines der Unternehmen, das diese Methode des maschinellen Lernens bereits einsetzt, ist Google. Zum Beispiel verwendet die Gruppe Verstärkungslernen, um die Klimaanlagen in ihren Rechenzentren zu steuern . Dank künstlicher Intelligenz konnte Google bis zu 40 Prozent der Energie sparen, die zum Kühlen von Servern benötigt wird.

Verstärkungslernen wird auch bei der Steuerung komplexer Systeme wie intelligenter Verkehrssysteme eingesetzt. Auf diese Weise bietet es intelligente Lösungen für die Qualitätskontrolle. Es wird auch in Smart Grids, Robotersteuerung, Fabrikautomation oder Optimierung von Lieferketten in verschiedenen Logistikunternehmen eingesetzt.

Das greifbarste Beispiel für Bestärkungslernen ist jedoch wahrscheinlich der Parkassistent . Künstliche Intelligenz wird hier verwendet, um Objekte zu erkennen und dem Fahrer die beste Richtung zum Parken zu zeigen.

Bevor ein neuer Verstärkungslernalgorithmus funktionieren kann, müssen viele Trainingseinheiten stattfinden, da die Belohnungen teilweise erst später eingehen. In jedem Fall ist das verstärkte Lernen eine Methode des maschinellen Lernens, mit der Sie immer komplexere Probleme lösen und eine Vielzahl von Prozessen steuern können.

Reinforcement Learning: Als Maschinen das Denken lernten

Reinforcement Learning: Als Maschinen das Denken lernten

Was ist Bestärkungslernen?

Wie funktioniert das Lernen zur Stärkung?

Wo und wann wird Verstärkungslernen eingesetzt?

administrator

Leave a Reply Cancel reply