Enrique Villarrubia, Master-Student in Computer Engineering und Promotion

1886 Readings

Juni 13 2022

Reinforcement Learning: Weniger bekannter Bereich des maschinellen Lernens

von Enrique Villarrubia (Master- und Doktorand).

Typischerweise maschinelles Lernen bzw Maschinelles Lernen ist bekannt für überwachtes und unüberwachtes Lernen. Beide benötigen Beobachtungen oder Daten, mit denen sie arbeiten können, um mögliche zugrunde liegende Muster zu untersuchen. Der erste von ihnen lernt anhand von gekennzeichneten Daten, die Ausgabe vorherzusagen (Klassifizierung oder Regression), und der zweite lernt die inhärente Struktur der Daten und hilft uns, sie besser zu verstehen. Aber was ist mit bestärkendem Lernen?

Reinforcement Learning basiert darauf, wie ein Agent lernt, indem er in einer Umgebung interagiert, ohne dass ihm gesagt wird, welche Aktionen er ausführen soll, sondern indem er herausfindet, welche Aktionen zur maximalen Belohnung führen, indem er sie ausprobiert. Die beste Ähnlichkeit mit einem realen Beispiel besteht darin, wie Kinder durch Versuch und Irrtum lernen. Sehen wir es uns anhand eines Beispiels an und wie es sich auf die Grundlagen des bestärkenden Lernens bezieht!

Angenommen, wir spielen das Videospiel Super Mario Bros. Die Umgebung ist das Videospiel selbst, das Bild, das wir auf dem Monitor sehen, ist der aktuelle Zustand, die möglichen Aktionen entsprechen den 4-Wege-Bewegungs- und Sprungtasten und schließlich , die Belohnungen sind positiv, wenn wir einen Woompa besiegen oder das Level abschließen, und negativ, wenn wir eliminiert werden oder wenn die Zeit vergeht, da wir den Agenten ermutigen möchten, sich zu bewegen und durch Erkunden der Umgebung zu lernen. Das folgende Bild zeigt eine Zusammenfassung dieser grundlegenden Elemente des bestärkenden Lernens.

**Abbildung 1**. Grundelemente des Reinforcement Learning im Videospiel Super Mario Bros [1]

In den letzten Jahren war es dank Deep Reinforcement Learning (der Verwendung neuronaler Netze zur Annäherung an jede Komponente des Reinforcement Learning) und Monte-Carlo-Suchbäumen möglich, den Weltmeister des Brettspiels Go zu schlagen, das rechenintensiver ist als Schach, mit dem AlphaGo-Algorithmus [2]. Die Wirkung war so groß, dass sogar Netflix mit der englischen Firma DeepMind, die den Algorithmus entwickelt hat, eine Dokumentation darüber produzierte [3]. Anschließend wurde der Algorithmus weiterentwickelt, um den Einsatz von Expertenwissen von Spielern durch die Generierung von Spielen des Agenten gegen sich selbst (AlphaGo Zero) [4] nicht zu erfordern, angepasst an mehr Spiele wie Schach und Shogi (AlphaZero) [ 5] und schließlich ihre Regeln nicht kennen zu müssen (MuZero) [6]. Darüber hinaus finden wir diese übermenschlichen Leistungen auch in komplexeren Videospielen mit unvollständigen Informationen wie in StarCraft II (AlphaStar) [7]. Dieser Algorithmus verwendet in seinen ersten Iterationen überwachtes Lernen, aber dank Reinforcement Learning schafft er diesen Qualitätssprung, um die Fertigkeitsstufe Großmeister (die höchste im Spiel) zu erreichen und die Weltmeister zu schlagen.

**Abbildung 2.** Darstellung des Spiels von AlphaStar gegen MaNa, einen der besten Spieler der Welt [8]

Und jetzt fragen Sie sich wahrscheinlich, ob Reinforcement Learning nur für Spiele nützlich ist? Nö! Spiele werden für Aufgaben von verwendet Benchmarking und überprüfen Sie, wie gut diese Algorithmen sind, aber derzeit können wir echte Anwendungen finden, wie die Steuerung des brennenden Plasmas in einem Tokamak-Kernfusionsreaktor [9], das Erreichen einer viel besseren Steuerung als bei früheren Systemen, oder viele Anwendungen in der Robotik und anderen Bereichen des Wissens.

Schließlich konzentrieren sich die neuesten Fortschritte im Reinforcement Learning heute auf die Lösung von seq2seq-Problemen (Sequenz für Sequenz) unter Verwendung von Aufmerksamkeitsmechanismen und dem parallelisierbaren Training, das von angeboten wird Transformer (ein neuronales Netzwerkmodell). Im folgenden Bild sehen Sie Gato [10], eine generalistische künstliche Intelligenz, die mit diesen Vorwänden entwickelt wurde und in der Lage ist, Sätze zu vervollständigen, Atari-Spiele zu spielen, Kisten mit einem mechanischen Arm zu stapeln, ein Chatbot zu sein usw., alles mit demselben Modell und ohne die Notwendigkeit, es für jede der Aufgaben neu zu trainieren.

**Abbildung 3.** Cat, ein generalistisches Deep-Reinforcement-Learning-Sequenzmodell [10]

Zusammenfassend lässt sich sagen, dass Reinforcement Learning zwar nicht so berühmt ist wie seine beiden anderen Brüder des maschinellen Lernens, aber wir konnten seine großen Meilensteine und die Nützlichkeit, die es bietet, insbesondere in bestimmten Umgebungen, verifizieren. Abschließend danke, dass Sie diesen Artikel gelesen haben, und ich hoffe, Sie fanden das Thema interessant, das ich liebe.

Verweise.

[1] «Eine Einführung in das Reinforcement Learning». FreeCodeCamp.Org, 31. März 2018, https://www.freecodecamp.org/news/an-introduction-to-reinforcement-learning-4339519de419/

[2] Silber, David, et al. «Das Game of Go mit tiefen neuronalen Netzen und Baumsuche meistern». Naturvol. 529, n.^o 7587, Januar 2016, p. 484-89.https://doi.org/10.1038/nature16961

[3] "AlphaGo-Film". Alpha Go-Film, https://www.alphagomovie.com/

[4] Silber, David, et al. «Das Go-Spiel ohne menschliches Wissen meistern». Naturvol. 550, n.^o 7676, Oktober 2017, p. 354-59. https://doi.org/10.1038/nature24270

[5] Silber, David, et al. "Ein allgemeiner Verstärkungslernalgorithmus, der Schach, Shogi und Selbstspiel beherrscht". Wissenschaftvol. 362, n.^o 6419, Dezember 2018, p. 1140-44.https://doi.org/10.1126/science.aar6404

[6] Schrittwieser, Julian, et al. "Beherrschung von Atari, Go, Schach und Shogi durch Planung mit einem erlernten Modell". Naturvol. 588, n.^o 7839, Dezember 2020, p. 604-09. https://doi.org/10.1038/s41586-020-03051-4

[7] Vinyals, Oriol, et al. "Grandmaster Level in StarCraft II mit Multi-Agent Reinforcement Learning". Naturvol. 575, n.^o 7782, November 2019, p. 350-54. https://doi.org/10.1038/s41586-019-1724-z

[8] AlphaStar: Meistere das StarCraft-Echtzeit-Strategiespiel II. https://www.deepmind.com/blog/alphastar-mastering-the-real-time-strategy-game-starcraft-ii

[9] Degrave, Jonas, et al. «Magnetische Kontrolle von Tokamak-Plasmen durch Deep Reinforcement Learning». Naturvol. 602, n.^o 7897, Februar 2022, p. 414-19. https://doi.org/10.1038/s41586-021-04301-9

[10] Reed, Scott, et al. «Ein Generalist-Agent». arXiv:2205.06175 [cs], Mai 2022. arXiv.org, http://arxiv.org/abs/2205.06175

Cookie	Dauer	Beschreibung
cookielawinfo-checkbox-werbung	1 Jahr	Dieses Cookie wird vom GDPR Cookie Consent Plugin gesetzt und wird verwendet, um die Zustimmung des Benutzers für die Cookies in der Kategorie "Werbung" zu erfassen.
cookielawinfo-checkbox-analyse	11 Monate	Dieses Cookie wird vom GDPR Cookie Consent Plugin gesetzt. Das Cookie wird verwendet, um die Benutzereinwilligung für die Cookies in der Kategorie "Analytics" zu speichern.
cookielawinfo-checkbox-funktional	11 Monate	Das Cookie wird durch GDPR-Cookie-Einwilligung gesetzt, um die Benutzereinwilligung für die Cookies in der Kategorie "Funktional" aufzuzeichnen.
cookielawinfo-checkbox-notwendig	11 Monate	Dieses Cookie wird vom GDPR Cookie Consent Plugin gesetzt. Die Cookies werden verwendet, um die Einwilligung des Benutzers für die Cookies in der Kategorie "Notwendig" zu speichern.
cookielawinfo-checkbox-andere	11 Monate	Dieses Cookie wird vom GDPR Cookie Consent Plugin gesetzt. Das Cookie wird verwendet, um die Benutzereinwilligung für die Cookies in der Kategorie "Sonstige" zu speichern.
cookielawinfo-checkbox-leistung	11 Monate	Dieses Cookie wird vom GDPR Cookie Consent Plugin gesetzt. Das Cookie wird verwendet, um die Benutzereinwilligung für die Cookies in der Kategorie "Leistung" zu speichern.
CookieGesetzInfoZustimmung	1 Jahr	Zeichnet den Status der Standardschaltfläche der entsprechenden Kategorie und den Status von CCPA auf. Es funktioniert nur in Abstimmung mit dem primären Cookie.
viewed_cookie_policy	11 Monate	Das Cookie wird vom GDPR Cookie Consent Plugin gesetzt und wird verwendet, um zu speichern, ob der Benutzer der Verwendung von Cookies zugestimmt hat oder nicht. Es werden keine personenbezogenen Daten gespeichert.

Cookie	Dauer	Beschreibung
_ga	2 Jahre	Das von Google Analytics installierte _ga-Cookie berechnet Besucher-, Sitzungs- und Kampagnendaten und verfolgt auch die Site-Nutzung für den Analysebericht der Site. Das Cookie speichert Informationen anonym und weist eine zufällig generierte Nummer zu, um eindeutige Besucher zu erkennen.
_ga_660H2MJ19C	2 Jahre	Dieses Cookie wird von Google Analytics installiert.
_gat_gtag_UA_199993715_1	1 Minuten	Von Google festgelegt, um Benutzer zu unterscheiden.
_gid	1 Tag	Das von Google Analytics installierte _gid-Cookie speichert Informationen darüber, wie Besucher eine Website nutzen, und erstellt gleichzeitig einen Analysebericht über die Leistung der Website. Einige der gesammelten Daten umfassen die Anzahl der Besucher, ihre Quelle und die Seiten, die sie anonym besuchen.
ZUSTIMMUNG	2 Jahre	YouTube setzt dieses Cookie über eingebettete Youtube-Videos und registriert anonyme statistische Daten.

Cookie	Dauer	Beschreibung
VISITOR_INFO1_LIVE	5 Monate 27 Tage	Ein von YouTube gesetztes Cookie zur Messung der Bandbreite, das bestimmt, ob der Benutzer die neue oder alte Player-Oberfläche erhält.
YSC	Sitzung	YSC-Cookie wird von Youtube gesetzt und wird verwendet, um die Aufrufe von eingebetteten Videos auf Youtube-Seiten zu verfolgen.
yt-remote-verbundene-Geräte	hört niemals	YouTube setzt dieses Cookie, um die Videoeinstellungen des Benutzers zu speichern, der eingebettete YouTube-Videos verwendet.
yt-remote-geräte-id	hört niemals	YouTube setzt dieses Cookie, um die Videoeinstellungen des Benutzers zu speichern, der eingebettete YouTube-Videos verwendet.

Reinforcement Learning: Weniger bekannter Bereich des maschinellen Lernens

von Enrique Villarrubia (Master- und Doktorand).

Prüfungen im Mai – ordentlicher Anruf 2C

Abschließende Zusammenfassung der 3. Ausgabe des Minecraft Programming Workshop

50 voruniversitäre Erasmus-Studierende besuchen das ESI

Direkt von Cadena SER zum Thema KI am ESI

Coral Calero Award für Forschungskarriere und Innovation

Fortbildungskurs für Integriertes Projektmanagement

TFE-Verteidigungen – Februar 2024

Stundenpläne für das 2. Semester

Prüfungen im Januar 2024

XIX FORTE-Anruf

Mehr als eine Million Euro für den Chip UCLM-Stuhl

2024 nationales Ranking der besten IS-Forscher

Konferenz „Technologien für Inklusion“.

COE- und VR-Commerce-Studenten

J. Antonio de la Torre, Doktor der Computertechnik

Neuigkeit

Prüfungen im Mai – anrufen...

Videozusammenfassung – Labore...

Unterzeichnung der Kooperationsvereinbarung...

Kontakt

Reinforcement Learning: Weniger bekannter Bereich des maschinellen Lernens

Reinforcement Learning: Weniger bekannter Bereich des maschinellen Lernens

von Enrique Villarrubia (Master- und Doktorand).

Bewerten Sie diesen Artikel

Neuigkeit

Kontakt