Enrique Villarrubia Bilgisayar Mühendisliği Yüksek Lisans ve Doktora öğrencisi

1877 Okumalar

13 Haziran 2022

Takviyeli öğrenme: daha az bilinen makine öğrenimi alanı

tarafından Enrique Villarrubia (Yüksek lisans ve doktora öğrencisi).

Tipik olarak, makine öğrenimi veya makine öğrenme denetimli ve denetimsiz öğrenme için bilinir. Her ikisinin de olası altta yatan kalıpları keşfetmek için birlikte çalışacak gözlemlere veya verilere sahip olması gerekir. Bunlardan ilki, etiketlenmiş verilerden çıktıyı (sınıflandırma veya regresyon) tahmin etmeyi öğrenir ve ikincisi, verilerin doğal yapısını öğrenir ve onu daha iyi anlamamıza yardımcı olur. Peki ya pekiştirmeli öğrenme?

Takviyeli öğrenme, bir aracının hangi eylemleri gerçekleştireceği söylenmeden bir ortamda etkileşim kurarak nasıl öğrendiğine dayanır, bunun yerine hangi eylemlerin onları deneyerek maksimum ödüle yol açtığını keşfeder. Gerçek bir örneğe en iyi benzerlik, çocukların deneme yanılma yoluyla nasıl öğrendikleridir. Bunu bir örnekle ve pekiştirmeli öğrenmenin temelleriyle nasıl bir ilişkisi olduğunu görelim!

Diyelim ki Super Mario Bros video oyunu oynuyoruz, ortam video oyununun kendisi, monitörde gördüğümüz görüntü mevcut durum, olası eylemler 4 yönlü hareket ve atlama düğmelerine karşılık geliyor ve, Son olarak , bir Woompa'yı yendiğimizde veya seviyeyi tamamladığımızda ödüller olumlu, elendiğimizde veya zaman geçtikçe olumsuz olacaktır, çünkü aracıyı çevreyi keşfederek hareket etmeye ve öğrenmeye teşvik etmek istiyoruz. Aşağıdaki görüntü, pekiştirmeli öğrenmedeki bu temel unsurların bir özetini sunmaktadır.

Super Mario video oyununda pekiştirmeli öğrenmenin temel unsurları — **Şekil 1**. Super Mario Bros video oyununda pekiştirmeli öğrenmenin temel unsurları [1]

Son yıllarda, derin pekiştirmeli öğrenme (pekiştirmeli öğrenmenin herhangi bir bileşenine yaklaşmak için sinir ağlarının kullanılması) ve Monte Carlo arama ağaçları sayesinde, hesaplama açısından daha karmaşık olan masa oyunu Go'nun dünya şampiyonunu yenmek mümkün olmuştur. AlphaGo algoritması [2] ile satranç. Öyle bir etki yaptı ki Netflix bile algoritmayı geliştiren İngiliz şirketi DeepMind ile bu konuda bir belgesel hazırladı [3]. Daha sonra, algoritma, ajanın kendisine karşı oyunlarının oluşturulması yoluyla oyuncuların uzman bilgisinin kullanılmasını gerektirmeyecek şekilde gelişti (AlphaGo Zero) [4], satranç ve shogi gibi daha fazla oyuna uyarlandı (AlphaZero) [ 5] ve son olarak, kurallarını bilmeye gerek duymama (MuZero) [6]. Ayrıca, bu insanüstü performansları, StarCraft II (AlphaStar) [7] gibi kusurlu bilgilere sahip daha karmaşık video oyunlarında da bulabiliriz. Bu algoritma, ilk yinelemelerinde denetimli öğrenmeyi kullanır, ancak takviyeli öğrenme sayesinde, Grandmaster beceri seviyesine (oyundaki en yüksek seviye) ulaşmak ve dünya şampiyonlarını yenmek için kalitede bu sıçramayı başarır.

**Şekil 2.** AlphaStar'ın dünyanın en iyi oyuncularından biri olan MaNa'ya karşı oyununun temsili [8]

Ve şimdi, büyük olasılıkla merak ediyorsunuz ve pekiştirmeli öğrenme sadece oyunlar için mi faydalı? Hayır! Oyunlar görevleri için kullanılır kıyaslama ve bu algoritmaların ne kadar iyi olduğunu kontrol edin, ancak şu anda bir Tokamak nükleer füzyon reaktörü [9] içindeki yanan plazmayı kontrol etmek, önceki sistemlerden çok daha iyi kontrol elde etmek veya robotik ve diğer alanlarda çok sayıda uygulama gibi gerçek uygulamalar bulabiliriz. bilginin.

Son olarak, bugün, pekiştirmeli öğrenmedeki en son gelişmeler, dikkat mekanizmalarının kullanımı ve paralelleştirilebilir eğitim ile seq2seq (sırayla dizi) problemlerini çözmeye odaklanmıştır. transformatörler (bir sinir ağı modeli). Aşağıdaki görselde, bu bahanelerle tasarlanmış, cümle tamamlama, Atari oyunları oynama, mekanik kollu kutuları istifleme, chatbot olma vb. görevlerin her biri için yeniden eğitme ihtiyacı.

Cat, genelci bir derin pekiştirmeli öğrenme dizisi modeli — **Şekil 3.** Cat, genel bir derin pekiştirmeli öğrenme dizisi modeli [10]

Sonuç olarak, pekiştirmeli öğrenme, diğer iki makine öğrenimi kardeşi kadar ünlü olmasa da, büyük kilometre taşlarını ve özellikle belirli ortamlarda sunduğu kullanışlılığı doğrulayabildik. Son olarak, bu makaleyi okuduğunuz için teşekkür ederim ve umarım sevdiğim konuyu ilginç bulmuşsunuzdur.

Referanslar.

[1] «Takviyeli Öğrenmeye Giriş». FreeCodeCamp.Org, 31 Mart 2018, https://www.freecodecamp.org/news/an-introduction-to-reinforcement-learning-4339519de419/

[2] Silver, David, et al. "Derin Sinir Ağları ve Ağaç Arama ile Go Oyununda Ustalaşmak". Tabiat, cilt. 529, n.^o 7587, Ocak 2016, s. 484-89.https://doi.org/10.1038/nature16961

[3] "AlphaGo Filmi". Alfa Git Filmi, https://www.alphagomovie.com/

[4] Silver, David, et al. "İnsan Bilgisi Olmadan Go Oyununda Ustalaşmak". Tabiat, cilt. 550, n.^o 7676, Ekim 2017, s. 354-59. https://doi.org/10.1038/nature24270

[5] Silver, David, et al. "Satrançta, Shogi'de Ustalaşan ve Kendi Kendine Oynama Yoluyla Devam Eden Genel Takviyeli Öğrenme Algoritması". Bilim, cilt. 362, n.^o 6419, Aralık 2018, s. 1140-44.https://doi.org/10.1126/science.aar6404

[6] Schrittwieser, Julian, et al. "Öğrenilmiş Bir Modelle Planlayarak Atari, Go, Satranç ve Shogi'de Ustalaşmak". Tabiat, cilt. 588, n.^o 7839, Aralık 2020, s. 604-09. https://doi.org/10.1038/s41586-020-03051-4

[7] Viniller, Oriol, et al. "Çok Aracılı Takviye Öğrenimi Kullanarak StarCraft II'de Büyük Usta Seviyesi". Tabiat, cilt. 575, n.^o 7782, Kasım 2019, s. 350-54. https://doi.org/10.1038/s41586-019-1724-z

[8] AlphaStar: StarCraft Gerçek Zamanlı Strateji Oyununda Ustalaşmak II. https://www.deepmind.com/blog/alphastar-mastering-the-real-time-strategy-game-starcraft-ii

[9] Degrave, Jonas, et al. "Derin Takviyeli Öğrenme Yoluyla Tokamak Plazmalarının Manyetik Kontrolü". Tabiat, cilt. 602, n.^o 7897, Şubat 2022, s. 414-19. https://doi.org/10.1038/s41586-021-04301-9

[10] Reed, Scott, et al. "Bir Genelci Ajan". arXiv:2205.06175 [cs], Mayıs 2022. arXiv.org, http://arxiv.org/abs/2205.06175

kurabiye	Süre	tanım
cookielawinfo-onay kutusu-reklam	1 yıl	GDPR Çerez İzni eklentisi tarafından belirlenen bu çerez, "Reklam" kategorisindeki çerezler için kullanıcı onayını kaydetmek için kullanılır.
cookielawinfo-kutusunun-analiz		Bu çerez, GDPR Çerez İzni eklentisi tarafından belirlenir. Çerez, "Analytics" kategorisinde çerezler için kullanıcı onayını saklamak için kullanılır.
cookielawinfo-checkbox-fonksiyonel		Çerez, "İşlevsel" kategorisine çerezler için kullanıcı iznini kaydetmek üzere GDPR çerez izni ile ayarlanır.
cookielawinfo-kutusunun-Gerekli		Bu çerez GDPR Cookie Onay eklentisi tarafından ayarlanır. Çerezler, "Gerekli" kategorisindeki çerezlerin kullanıcı onayını saklamak için kullanılır.
cookielawinfo-onay kutusu-diğerleri		Bu çerez, GDPR Çerez İzni eklentisi tarafından belirlenir. Çerez, "Diğer" kategorisinde çerezler için kullanıcı onayını saklamak için kullanılır.
cookielawinfo-kutusunun performanslı		Bu çerez, GDPR Çerez İzni eklentisi tarafından belirlenir. Çerez, "Performans" kategorisinde çerezler için kullanıcı onayını saklamak için kullanılır.
CookieLawInfoRıza	1 yıl	İlgili kategorinin varsayılan düğme durumunu ve CCPA durumunu kaydeder. Yalnızca birincil çerez ile koordineli olarak çalışır.
views_cookie_policy		Çerez, GDPR Çerez Onayı eklentisi tarafından ayarlanır ve kullanıcının çerezlerin kullanılmasına razı olup olmadığını saklamak için kullanılır. Herhangi bir kişisel veri depolamaz.

kurabiye	Süre	tanım
_ga	2 yıl	Google Analytics tarafından yüklenen _ga çerezi, ziyaretçi, oturum ve kampanya verilerini hesaplar ve ayrıca sitenin analiz raporu için site kullanımını takip eder. Çerez, bilgileri anonim olarak saklar ve benzersiz ziyaretçileri tanımak için rastgele oluşturulmuş bir sayı atar.
_ga_660H2MJ19C	2 yıl	Bu çerez, Google Analytics tarafından yüklenir.
_gat_gtag_UA_199993715_1	1 dakika	Kullanıcıları ayırt etmek için Google tarafından ayarlanır.
_gid	1 gün	Google Analytics tarafından yüklenen _gid çerezi, ziyaretçilerin bir web sitesini nasıl kullandığına ilişkin bilgileri depolarken aynı zamanda web sitesinin performansına ilişkin bir analiz raporu oluşturur. Toplanan verilerden bazıları, ziyaretçi sayısını, bunların kaynağını ve anonim olarak ziyaret ettikleri sayfaları içerir.
RAZI OLMAK	2 yıl	YouTube, bu çerezi gömülü youtube videoları aracılığıyla ayarlar ve anonim istatistiksel verileri kaydeder.

kurabiye	Süre	tanım
ZİYARETÇİ_INFO1_CANLI	5 ay 27 gün	Kullanıcının yeni veya eski oynatıcı arayüzünü alıp almayacağını belirleyen bant genişliğini ölçmek için YouTube tarafından ayarlanan bir çerez.
YSC uzantısı	Oturum	YSC çerezi, Youtube tarafından ayarlanır ve Youtube sayfalarındaki gömülü videoların görüntülenmelerini takip etmek için kullanılır.
yt-uzaktan bağlantılı-cihazlar	asla	YouTube, gömülü YouTube videosunu kullanan kullanıcının video tercihlerini saklamak için bu çerezi ayarlar.
yt-uzak-cihaz-kimliği	asla	YouTube, gömülü YouTube videosunu kullanan kullanıcının video tercihlerini saklamak için bu çerezi ayarlar.

Takviyeli öğrenme: daha az bilinen makine öğrenimi alanı

tarafından Enrique Villarrubia (Yüksek lisans ve doktora öğrencisi).

Minecraft Programlama Atölyesi'nin 3. Baskısının son özeti

50 Erasmus üniversite öncesi öğrencisi ESI'yi ziyaret etti

Araştırma Kariyeri ve Yenilik için Coral Calero Ödülü

ESI Kütüphanesi, Jesús Fontecha tarafından önerilen 3+2 kitap

Ulusal üniversite şampiyonasında Eusebio Angulo bronz madalya

Entegre Proje Yönetiminde İleri Eğitim Kursu

TFE Savunmaları – Şubat 2024

2. Dönem Ders Programları

Ocak 2024 Sınavları

XIX FORTE çağrısı

Chip UCLM başkanı için bir milyon avrodan fazla para

En iyi IS araştırmacılarının 2024 ulusal sıralaması

Katılım Teknolojileri Konferansı

COE ve VR Ticaret Öğrencileri

J. Antonio de la Torre, Bilgisayar Mühendisliği Doktoru

Tanıt

İşbirliği anlaşmasının imzalanması...

Cadena SER'den yapay zeka ve...

Uzun'un 3. baskısının son özeti...

İletişim

Takviyeli öğrenme: daha az bilinen makine öğrenimi alanı

Takviyeli öğrenme: daha az bilinen makine öğrenimi alanı

tarafından Enrique Villarrubia (Yüksek lisans ve doktora öğrencisi).

Bu öğeye oy ver

Tanıt

İletişim