{"id":10963,"date":"2022-06-13T10:02:33","date_gmt":"2022-06-13T10:02:33","guid":{"rendered":"https:\/\/esi.uclm.es\/?p=10963"},"modified":"2022-06-13T10:05:35","modified_gmt":"2022-06-13T10:05:35","slug":"aprendizaje-por-refuerzo-area-menos-conocida-del-machine-learning","status":"publish","type":"post","link":"https:\/\/esi.uclm.es\/index.php\/2022\/06\/13\/aprendizaje-por-refuerzo-area-menos-conocida-del-machine-learning\/","title":{"rendered":"Aprendizaje por refuerzo: \u00e1rea menos conocida del machine learning"},"content":{"rendered":"\n<h3 class=\"wp-block-heading\">Por <em>Enrique Villarrubia<\/em> (estudiante de M\u00e1ster y Doctorado).<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Habitualmente, el aprendizaje autom\u00e1tico o <em>machine learning<\/em> es conocido por el aprendizaje supervisado y no supervisado. Ambos necesitan disponer de observaciones o datos para trabajar con el fin de explorar posibles patrones subyacentes. El primero de ellos, a partir de datos etiquetados aprende a predecir la salida (clasificaci\u00f3n o regresi\u00f3n), y el segundo, aprende la estructura inherente de los datos y nos ayuda a entenderlos mejor. Pero, \u00bfy el aprendizaje por refuerzo?<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">El aprendizaje por refuerzo se basa en c\u00f3mo un agente aprende interactuando en un entorno sin indicarle qu\u00e9 acciones debe realizar, sino que debe descubrir qu\u00e9 acciones conducen a la m\u00e1xima recompensa al probarlas. La mejor similitud a un ejemplo real es c\u00f3mo los ni\u00f1os aprenden a trav\u00e9s de prueba y error. \u00a1Ve\u00e1moslo con un ejemplo y c\u00f3mo se relaciona con los elementos b\u00e1sicos del aprendizaje por refuerzo!<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Supongamos que estamos jugando al videojuego de Super Mario Bros. El entorno es el videojuego en s\u00ed, la imagen que estamos viendo en el monitor es el estado actual, las posibles acciones corresponden con los botones de movimiento en las 4 direcciones y saltar, y, por \u00faltimo, las recompensas ser\u00e1n positivas cuando derrotemos a un Woompa o completemos el nivel y negativas cuando nos eliminen o conforme pase el tiempo, ya que queremos incentivar que el agente se mueva y aprenda explorando el entorno. En la siguiente imagen se presenta un resumen de estos elementos b\u00e1sicos en el aprendizaje por refuerzo.<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"800\" height=\"364\" src=\"https:\/\/esi.uclm.es\/assets\/uploads\/2022\/06\/imagen1.png\" alt=\"Elementos b\u00e1sicos del aprendizaje por refuerzo en el videojuego Super Mario \" class=\"wp-image-10953\" srcset=\"https:\/\/esi.uclm.es\/assets\/uploads\/2022\/06\/imagen1.png 800w, https:\/\/esi.uclm.es\/assets\/uploads\/2022\/06\/imagen1-300x137.png 300w, https:\/\/esi.uclm.es\/assets\/uploads\/2022\/06\/imagen1-768x349.png 768w, https:\/\/esi.uclm.es\/assets\/uploads\/2022\/06\/imagen1-600x273.png 600w\" sizes=\"auto, (max-width: 800px) 100vw, 800px\" \/><figcaption><strong>Figura 1<\/strong>. Elementos b\u00e1sicos del aprendizaje por refuerzo en el videojuego Super Mario Bros [1]<\/figcaption><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\">En los \u00faltimos a\u00f1os, gracias al aprendizaje por refuerzo profundo (el empleo de redes neuronales para aproximar cualquier componente del aprendizaje por refuerzo) y a los \u00e1rboles de b\u00fasqueda de Montecarlo, se ha conseguido vencer al campe\u00f3n del mundo del juego de mesa Go, que es m\u00e1s complejo computacionalmente que el ajedrez, con el algoritmo AlphaGo [2]. Tal fue la repercusi\u00f3n que incluso Netflix produjo un documental al respecto con la compa\u00f1\u00eda inglesa DeepMind que desarroll\u00f3 el algoritmo [3]. Posteriormente, el algoritmo fue evolucionando para no requerir del uso de conocimiento experto de jugadores a trav\u00e9s de la generaci\u00f3n de partidas del agente contra s\u00ed mismo (AlphaGo Zero) [4], adaptado a m\u00e1s juegos como el ajedrez y el shogi (AlphaZero) [5] y, por \u00faltimo, a no necesitar conocer las reglas de los mismos (MuZero) [6]. Adem\u00e1s, tambi\u00e9n podemos encontrarnos estos rendimientos sobrehumanos en videojuegos m\u00e1s complejos con informaci\u00f3n imperfecta como en StarCraft II (AlphaStar) [7]. Este algoritmo emplea aprendizaje supervisado en sus primeras iteraciones, pero es gracias al aprendizaje por refuerzo que consigue dar este salto de calidad para conseguir el nivel de habilidad de Gran Maestro (el mayor del juego) y ganar a los campeones del mundo.<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"800\" height=\"450\" src=\"https:\/\/esi.uclm.es\/assets\/uploads\/2022\/06\/imagen2.png\" alt=\"Representaci\u00f3n de la partida de AlphaStar contra MaNa, uno de los mejores jugadores del mundo \" class=\"wp-image-10954\" srcset=\"https:\/\/esi.uclm.es\/assets\/uploads\/2022\/06\/imagen2.png 800w, https:\/\/esi.uclm.es\/assets\/uploads\/2022\/06\/imagen2-300x169.png 300w, https:\/\/esi.uclm.es\/assets\/uploads\/2022\/06\/imagen2-768x432.png 768w, https:\/\/esi.uclm.es\/assets\/uploads\/2022\/06\/imagen2-600x338.png 600w\" sizes=\"auto, (max-width: 800px) 100vw, 800px\" \/><figcaption><strong>Figura 2.<\/strong> Representaci\u00f3n de la partida de AlphaStar contra MaNa, uno de los mejores jugadores del mundo [8]<\/figcaption><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\">Y ahora, muy posiblemente te est\u00e9s preguntado, \u00bfy s\u00f3lo sirve el aprendizaje por refuerzo para juegos? \u00a1No! Los juegos son empleados para tareas de <em>benchmarking<\/em> y comprobar lo buenos que son estos algoritmos, pero actualmente podemos encontrarnos con aplicaciones reales como controlar el plasma ardiente dentro de un reactor de fusi\u00f3n nuclear Tokamak [9], logrando un control mucho mejor que el que se ten\u00eda con los sistemas anteriores, o multitud de aplicaciones en rob\u00f3tica y otros campos del conocimiento.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Finalmente, hoy en d\u00eda, los \u00faltimos avances en el aprendizaje por refuerzo est\u00e1n centrados en resolver problemas seq2seq (secuencia a secuencia) con el empleo de mecanismos de atenci\u00f3n y el entrenamiento paralelizable ofrecido por los <em>transformers<\/em> (un modelo de red neuronal). En la siguiente imagen se puede observar a Gato [10], una inteligencia artificial generalista dise\u00f1ada con estos pretextos capaz de completar frases, jugar a los juegos de Atari, apilar cajas con un brazo mec\u00e1nico, ser un chatbot, etc., todo con el mismo modelo y sin necesidad de volver a entrenarlo para cada una de las tareas.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"478\" src=\"https:\/\/esi.uclm.es\/assets\/uploads\/2022\/06\/imagen3-1024x478.png\" alt=\"Gato, un modelo de secuencia de aprendizaje por refuerzo profundo generalista\" class=\"wp-image-10955\" srcset=\"https:\/\/esi.uclm.es\/assets\/uploads\/2022\/06\/imagen3-1024x478.png 1024w, https:\/\/esi.uclm.es\/assets\/uploads\/2022\/06\/imagen3-300x140.png 300w, https:\/\/esi.uclm.es\/assets\/uploads\/2022\/06\/imagen3-768x358.png 768w, https:\/\/esi.uclm.es\/assets\/uploads\/2022\/06\/imagen3-1536x716.png 1536w, https:\/\/esi.uclm.es\/assets\/uploads\/2022\/06\/imagen3-1300x606.png 1300w, https:\/\/esi.uclm.es\/assets\/uploads\/2022\/06\/imagen3-600x280.png 600w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption><strong>Figura 3.<\/strong> Gato, un modelo de secuencia de aprendizaje por refuerzo profundo generalista [10]<\/figcaption><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">Como conclusi\u00f3n, aunque el aprendizaje por refuerzo no sea tan famoso como sus otros dos hermanos del aprendizaje autom\u00e1tico, hemos podido comprobar sus grandes hitos y la utilidad que presenta sobre todo en determinados entornos. Por \u00faltimo, gracias por leer este art\u00edculo y espero que te haya parecido interesante el tema, el cu\u00e1l a m\u00ed me encanta.<strong><\/strong><\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\"\/>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Referencias.<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">[1] \u00abAn Introduction to Reinforcement Learning\u00bb. <em>FreeCodeCamp.Org<\/em>, 31 de marzo de 2018, <a href=\"https:\/\/www.freecodecamp.org\/news\/an-introduction-to-reinforcement-learning-4339519de419\/\">https:\/\/www.freecodecamp.org\/news\/an-introduction-to-reinforcement-learning-4339519de419\/<\/a><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">[2] Silver, David, et al. \u00abMastering the Game of Go with Deep Neural Networks and Tree Search\u00bb. <em>Nature<\/em>, vol. 529, n.<sup>o<\/sup> 7587, enero de 2016, pp. 484-89.<a href=\"https:\/\/doi.org\/10.1038\/nature16961\">https:\/\/doi.org\/10.1038\/nature16961<\/a><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">[3] \u00abAlphaGo Movie\u00bb. <em>AlphaGo Movie<\/em>, <a href=\"https:\/\/www.alphagomovie.com\/\">https:\/\/www.alphagomovie.com\/<\/a><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">[4] Silver, David, et al. \u00abMastering the Game of Go without Human Knowledge\u00bb. <em>Nature<\/em>, vol. 550, n.<sup>o<\/sup> 7676, octubre de 2017, pp. 354-59. <a href=\"https:\/\/doi.org\/10.1038\/nature24270\">https:\/\/doi.org\/10.1038\/nature24270<\/a><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">[5] Silver, David, et al. \u00abA General Reinforcement Learning Algorithm That Masters Chess, Shogi, and Go through Self-Play\u00bb. <em>Science<\/em>, vol. 362, n.<sup>o<\/sup> 6419, diciembre de 2018, pp. 1140-44.<a href=\"https:\/\/doi.org\/10.1126\/science.aar6404\">https:\/\/doi.org\/10.1126\/science.aar6404<\/a><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">[6] Schrittwieser, Julian, et al. \u00abMastering Atari, Go, Chess and Shogi by Planning with a Learned Model\u00bb. <em>Nature<\/em>, vol. 588, n.<sup>o<\/sup> 7839, diciembre de 2020, pp. 604-09. <a href=\"https:\/\/doi.org\/10.1038\/s41586-020-03051-4\">https:\/\/doi.org\/10.1038\/s41586-020-03051-4<\/a><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">[7] Vinyals, Oriol, et al. \u00abGrandmaster Level in StarCraft II Using Multi-Agent Reinforcement Learning\u00bb. <em>Nature<\/em>, vol. 575, n.<sup>o<\/sup> 7782, noviembre de 2019, pp. 350-54. <a href=\"https:\/\/doi.org\/10.1038\/s41586-019-1724-z\">https:\/\/doi.org\/10.1038\/s41586-019-1724-z<\/a><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">[8] <em>AlphaStar: Mastering the Real-Time Strategy Game StarCraft II<\/em>. <a href=\"https:\/\/www.deepmind.com\/blog\/alphastar-mastering-the-real-time-strategy-game-starcraft-ii\">https:\/\/www.deepmind.com\/blog\/alphastar-mastering-the-real-time-strategy-game-starcraft-ii<\/a><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">[9] Degrave, Jonas, et al. \u00abMagnetic Control of Tokamak Plasmas through Deep Reinforcement Learning\u00bb. <em>Nature<\/em>, vol. 602, n.<sup>o<\/sup> 7897, febrero de 2022, pp. 414-19. <a href=\"https:\/\/doi.org\/10.1038\/s41586-021-04301-9\">https:\/\/doi.org\/10.1038\/s41586-021-04301-9<\/a><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">[10] Reed, Scott, et al. \u00abA Generalist Agent\u00bb. <em>arXiv:2205.06175 [cs]<\/em>, mayo de 2022. <em>arXiv.org<\/em>, <a href=\"http:\/\/arxiv.org\/abs\/2205.06175\">http:\/\/arxiv.org\/abs\/2205.06175<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Por Enrique Villarrubia (estudiante de M\u00e1ster y Doctorado). Habitualmente, el aprendizaje autom\u00e1tico o machine learning es conocido por el aprendizaje supervisado y no supervisado. Ambos necesitan disponer de observaciones o datos para trabajar con el fin de explorar posibles patrones subyacentes. El primero de ellos, [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":10956,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[680],"tags":[],"class_list":["post-10963","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-opinion"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v28.1 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>Aprendizaje por refuerzo: \u00e1rea menos conocida del machine learning - Escuela Superior de Inform\u00e1tica de UCLM<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/esi.uclm.es\/index.php\/2022\/06\/13\/aprendizaje-por-refuerzo-area-menos-conocida-del-machine-learning\/\" \/>\n<meta property=\"og:locale\" content=\"es_ES\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Aprendizaje por refuerzo: \u00e1rea menos conocida del machine learning - Escuela Superior de Inform\u00e1tica de UCLM\" \/>\n<meta property=\"og:description\" content=\"Por Enrique Villarrubia (estudiante de M\u00e1ster y Doctorado). Habitualmente, el aprendizaje autom\u00e1tico o machine learning es conocido por el aprendizaje supervisado y no supervisado. Ambos necesitan disponer de observaciones o datos para trabajar con el fin de explorar posibles patrones subyacentes. El primero de ellos, [&hellip;]\" \/>\n<meta property=\"og:url\" content=\"https:\/\/esi.uclm.es\/index.php\/2022\/06\/13\/aprendizaje-por-refuerzo-area-menos-conocida-del-machine-learning\/\" \/>\n<meta property=\"og:site_name\" content=\"Escuela Superior de Inform\u00e1tica de UCLM\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/www.facebook.com\/Escuela-Superior-de-Informtica-543261809027158\" \/>\n<meta property=\"article:published_time\" content=\"2022-06-13T10:02:33+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2022-06-13T10:05:35+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/esi.uclm.es\/assets\/uploads\/2022\/06\/author_EnriqueV.png\" \/>\n\t<meta property=\"og:image:width\" content=\"344\" \/>\n\t<meta property=\"og:image:height\" content=\"359\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/png\" \/>\n<meta name=\"author\" content=\"esiuclm\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:creator\" content=\"@esiuclm\" \/>\n<meta name=\"twitter:site\" content=\"@esiuclm\" \/>\n<meta name=\"twitter:label1\" content=\"Escrito por\" \/>\n\t<meta name=\"twitter:data1\" content=\"esiuclm\" \/>\n\t<meta name=\"twitter:label2\" content=\"Tiempo de lectura\" \/>\n\t<meta name=\"twitter:data2\" content=\"5 minutos\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\\\/\\\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\\\/\\\/esi.uclm.es\\\/index.php\\\/2022\\\/06\\\/13\\\/aprendizaje-por-refuerzo-area-menos-conocida-del-machine-learning\\\/#article\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/esi.uclm.es\\\/index.php\\\/2022\\\/06\\\/13\\\/aprendizaje-por-refuerzo-area-menos-conocida-del-machine-learning\\\/\"},\"author\":{\"name\":\"esiuclm\",\"@id\":\"https:\\\/\\\/esi.uclm.es\\\/#\\\/schema\\\/person\\\/d9a390095e8beeca5aced92acb17a530\"},\"headline\":\"Aprendizaje por refuerzo: \u00e1rea menos conocida del machine learning\",\"datePublished\":\"2022-06-13T10:02:33+00:00\",\"dateModified\":\"2022-06-13T10:05:35+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\\\/\\\/esi.uclm.es\\\/index.php\\\/2022\\\/06\\\/13\\\/aprendizaje-por-refuerzo-area-menos-conocida-del-machine-learning\\\/\"},\"wordCount\":991,\"commentCount\":0,\"publisher\":{\"@id\":\"https:\\\/\\\/esi.uclm.es\\\/#organization\"},\"image\":{\"@id\":\"https:\\\/\\\/esi.uclm.es\\\/index.php\\\/2022\\\/06\\\/13\\\/aprendizaje-por-refuerzo-area-menos-conocida-del-machine-learning\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/esi.uclm.es\\\/assets\\\/uploads\\\/2022\\\/06\\\/author_EnriqueV.png\",\"articleSection\":[\"Opini\u00f3n\"],\"inLanguage\":\"es\",\"potentialAction\":[{\"@type\":\"CommentAction\",\"name\":\"Comment\",\"target\":[\"https:\\\/\\\/esi.uclm.es\\\/index.php\\\/2022\\\/06\\\/13\\\/aprendizaje-por-refuerzo-area-menos-conocida-del-machine-learning\\\/#respond\"]}]},{\"@type\":\"WebPage\",\"@id\":\"https:\\\/\\\/esi.uclm.es\\\/index.php\\\/2022\\\/06\\\/13\\\/aprendizaje-por-refuerzo-area-menos-conocida-del-machine-learning\\\/\",\"url\":\"https:\\\/\\\/esi.uclm.es\\\/index.php\\\/2022\\\/06\\\/13\\\/aprendizaje-por-refuerzo-area-menos-conocida-del-machine-learning\\\/\",\"name\":\"Aprendizaje por refuerzo: \u00e1rea menos conocida del machine learning - Escuela Superior de Inform\u00e1tica de UCLM\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/esi.uclm.es\\\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\\\/\\\/esi.uclm.es\\\/index.php\\\/2022\\\/06\\\/13\\\/aprendizaje-por-refuerzo-area-menos-conocida-del-machine-learning\\\/#primaryimage\"},\"image\":{\"@id\":\"https:\\\/\\\/esi.uclm.es\\\/index.php\\\/2022\\\/06\\\/13\\\/aprendizaje-por-refuerzo-area-menos-conocida-del-machine-learning\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/esi.uclm.es\\\/assets\\\/uploads\\\/2022\\\/06\\\/author_EnriqueV.png\",\"datePublished\":\"2022-06-13T10:02:33+00:00\",\"dateModified\":\"2022-06-13T10:05:35+00:00\",\"breadcrumb\":{\"@id\":\"https:\\\/\\\/esi.uclm.es\\\/index.php\\\/2022\\\/06\\\/13\\\/aprendizaje-por-refuerzo-area-menos-conocida-del-machine-learning\\\/#breadcrumb\"},\"inLanguage\":\"es\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\\\/\\\/esi.uclm.es\\\/index.php\\\/2022\\\/06\\\/13\\\/aprendizaje-por-refuerzo-area-menos-conocida-del-machine-learning\\\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"es\",\"@id\":\"https:\\\/\\\/esi.uclm.es\\\/index.php\\\/2022\\\/06\\\/13\\\/aprendizaje-por-refuerzo-area-menos-conocida-del-machine-learning\\\/#primaryimage\",\"url\":\"https:\\\/\\\/esi.uclm.es\\\/assets\\\/uploads\\\/2022\\\/06\\\/author_EnriqueV.png\",\"contentUrl\":\"https:\\\/\\\/esi.uclm.es\\\/assets\\\/uploads\\\/2022\\\/06\\\/author_EnriqueV.png\",\"width\":344,\"height\":359,\"caption\":\"Enrique Villarrubia estudiante de M\u00e1ster en Ingenier\u00eda Inform\u00e1tica y Doctorado\"},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\\\/\\\/esi.uclm.es\\\/index.php\\\/2022\\\/06\\\/13\\\/aprendizaje-por-refuerzo-area-menos-conocida-del-machine-learning\\\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Portada\",\"item\":\"https:\\\/\\\/esi.uclm.es\\\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Aprendizaje por refuerzo: \u00e1rea menos conocida del machine learning\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\\\/\\\/esi.uclm.es\\\/#website\",\"url\":\"https:\\\/\\\/esi.uclm.es\\\/\",\"name\":\"Escuela Superior de Inform\u00e1tica de UCLM en Ciudad Real, Castilla-La Mancha\",\"description\":\"La Escuela Superior de Inform\u00e1tica de Ciudad Real (Castilla-La Mancha), Universidad de Castilla-La Mancha es un centro universitario que imparte el ciclo completo de Ingenier\u00eda en Inform\u00e1tica: grado, m\u00e1ster y doctorado.\",\"publisher\":{\"@id\":\"https:\\\/\\\/esi.uclm.es\\\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\\\/\\\/esi.uclm.es\\\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"es\"},{\"@type\":\"Organization\",\"@id\":\"https:\\\/\\\/esi.uclm.es\\\/#organization\",\"name\":\"Escuela Superior de Inform\u00e1tica de UCLM\",\"url\":\"https:\\\/\\\/esi.uclm.es\\\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"es\",\"@id\":\"https:\\\/\\\/esi.uclm.es\\\/#\\\/schema\\\/logo\\\/image\\\/\",\"url\":\"https:\\\/\\\/esi.uclm.es\\\/assets\\\/uploads\\\/2022\\\/03\\\/LogoESI_cabecera-1.png\",\"contentUrl\":\"https:\\\/\\\/esi.uclm.es\\\/assets\\\/uploads\\\/2022\\\/03\\\/LogoESI_cabecera-1.png\",\"width\":460,\"height\":184,\"caption\":\"Escuela Superior de Inform\u00e1tica de UCLM\"},\"image\":{\"@id\":\"https:\\\/\\\/esi.uclm.es\\\/#\\\/schema\\\/logo\\\/image\\\/\"},\"sameAs\":[\"https:\\\/\\\/www.facebook.com\\\/Escuela-Superior-de-Informtica-543261809027158\",\"https:\\\/\\\/x.com\\\/esiuclm\",\"https:\\\/\\\/www.instagram.com\\\/esiuclm\\\/\",\"https:\\\/\\\/www.youtube.com\\\/user\\\/esiuclm\",\"https:\\\/\\\/www.twitch.tv\\\/esiuclm\",\"https:\\\/\\\/www.linkedin.com\\\/company\\\/12656631\\\/admin\\\/\"]},{\"@type\":\"Person\",\"@id\":\"https:\\\/\\\/esi.uclm.es\\\/#\\\/schema\\\/person\\\/d9a390095e8beeca5aced92acb17a530\",\"name\":\"esiuclm\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"es\",\"@id\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/ff32e6f445454691c713484fe154c7002761ecabfa4cfa2fea57c231744892da?s=96&d=mm&r=g\",\"url\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/ff32e6f445454691c713484fe154c7002761ecabfa4cfa2fea57c231744892da?s=96&d=mm&r=g\",\"contentUrl\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/ff32e6f445454691c713484fe154c7002761ecabfa4cfa2fea57c231744892da?s=96&d=mm&r=g\",\"caption\":\"esiuclm\"},\"sameAs\":[\"https:\\\/\\\/esi.uclm.es\"],\"url\":\"https:\\\/\\\/esi.uclm.es\\\/index.php\\\/author\\\/esiadmin\\\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Aprendizaje por refuerzo: \u00e1rea menos conocida del machine learning - Escuela Superior de Inform\u00e1tica de UCLM","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/esi.uclm.es\/index.php\/2022\/06\/13\/aprendizaje-por-refuerzo-area-menos-conocida-del-machine-learning\/","og_locale":"es_ES","og_type":"article","og_title":"Aprendizaje por refuerzo: \u00e1rea menos conocida del machine learning - Escuela Superior de Inform\u00e1tica de UCLM","og_description":"Por Enrique Villarrubia (estudiante de M\u00e1ster y Doctorado). Habitualmente, el aprendizaje autom\u00e1tico o machine learning es conocido por el aprendizaje supervisado y no supervisado. Ambos necesitan disponer de observaciones o datos para trabajar con el fin de explorar posibles patrones subyacentes. El primero de ellos, [&hellip;]","og_url":"https:\/\/esi.uclm.es\/index.php\/2022\/06\/13\/aprendizaje-por-refuerzo-area-menos-conocida-del-machine-learning\/","og_site_name":"Escuela Superior de Inform\u00e1tica de UCLM","article_publisher":"https:\/\/www.facebook.com\/Escuela-Superior-de-Informtica-543261809027158","article_published_time":"2022-06-13T10:02:33+00:00","article_modified_time":"2022-06-13T10:05:35+00:00","og_image":[{"width":344,"height":359,"url":"https:\/\/esi.uclm.es\/assets\/uploads\/2022\/06\/author_EnriqueV.png","type":"image\/png"}],"author":"esiuclm","twitter_card":"summary_large_image","twitter_creator":"@esiuclm","twitter_site":"@esiuclm","twitter_misc":{"Escrito por":"esiuclm","Tiempo de lectura":"5 minutos"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/esi.uclm.es\/index.php\/2022\/06\/13\/aprendizaje-por-refuerzo-area-menos-conocida-del-machine-learning\/#article","isPartOf":{"@id":"https:\/\/esi.uclm.es\/index.php\/2022\/06\/13\/aprendizaje-por-refuerzo-area-menos-conocida-del-machine-learning\/"},"author":{"name":"esiuclm","@id":"https:\/\/esi.uclm.es\/#\/schema\/person\/d9a390095e8beeca5aced92acb17a530"},"headline":"Aprendizaje por refuerzo: \u00e1rea menos conocida del machine learning","datePublished":"2022-06-13T10:02:33+00:00","dateModified":"2022-06-13T10:05:35+00:00","mainEntityOfPage":{"@id":"https:\/\/esi.uclm.es\/index.php\/2022\/06\/13\/aprendizaje-por-refuerzo-area-menos-conocida-del-machine-learning\/"},"wordCount":991,"commentCount":0,"publisher":{"@id":"https:\/\/esi.uclm.es\/#organization"},"image":{"@id":"https:\/\/esi.uclm.es\/index.php\/2022\/06\/13\/aprendizaje-por-refuerzo-area-menos-conocida-del-machine-learning\/#primaryimage"},"thumbnailUrl":"https:\/\/esi.uclm.es\/assets\/uploads\/2022\/06\/author_EnriqueV.png","articleSection":["Opini\u00f3n"],"inLanguage":"es","potentialAction":[{"@type":"CommentAction","name":"Comment","target":["https:\/\/esi.uclm.es\/index.php\/2022\/06\/13\/aprendizaje-por-refuerzo-area-menos-conocida-del-machine-learning\/#respond"]}]},{"@type":"WebPage","@id":"https:\/\/esi.uclm.es\/index.php\/2022\/06\/13\/aprendizaje-por-refuerzo-area-menos-conocida-del-machine-learning\/","url":"https:\/\/esi.uclm.es\/index.php\/2022\/06\/13\/aprendizaje-por-refuerzo-area-menos-conocida-del-machine-learning\/","name":"Aprendizaje por refuerzo: \u00e1rea menos conocida del machine learning - Escuela Superior de Inform\u00e1tica de UCLM","isPartOf":{"@id":"https:\/\/esi.uclm.es\/#website"},"primaryImageOfPage":{"@id":"https:\/\/esi.uclm.es\/index.php\/2022\/06\/13\/aprendizaje-por-refuerzo-area-menos-conocida-del-machine-learning\/#primaryimage"},"image":{"@id":"https:\/\/esi.uclm.es\/index.php\/2022\/06\/13\/aprendizaje-por-refuerzo-area-menos-conocida-del-machine-learning\/#primaryimage"},"thumbnailUrl":"https:\/\/esi.uclm.es\/assets\/uploads\/2022\/06\/author_EnriqueV.png","datePublished":"2022-06-13T10:02:33+00:00","dateModified":"2022-06-13T10:05:35+00:00","breadcrumb":{"@id":"https:\/\/esi.uclm.es\/index.php\/2022\/06\/13\/aprendizaje-por-refuerzo-area-menos-conocida-del-machine-learning\/#breadcrumb"},"inLanguage":"es","potentialAction":[{"@type":"ReadAction","target":["https:\/\/esi.uclm.es\/index.php\/2022\/06\/13\/aprendizaje-por-refuerzo-area-menos-conocida-del-machine-learning\/"]}]},{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/esi.uclm.es\/index.php\/2022\/06\/13\/aprendizaje-por-refuerzo-area-menos-conocida-del-machine-learning\/#primaryimage","url":"https:\/\/esi.uclm.es\/assets\/uploads\/2022\/06\/author_EnriqueV.png","contentUrl":"https:\/\/esi.uclm.es\/assets\/uploads\/2022\/06\/author_EnriqueV.png","width":344,"height":359,"caption":"Enrique Villarrubia estudiante de M\u00e1ster en Ingenier\u00eda Inform\u00e1tica y Doctorado"},{"@type":"BreadcrumbList","@id":"https:\/\/esi.uclm.es\/index.php\/2022\/06\/13\/aprendizaje-por-refuerzo-area-menos-conocida-del-machine-learning\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Portada","item":"https:\/\/esi.uclm.es\/"},{"@type":"ListItem","position":2,"name":"Aprendizaje por refuerzo: \u00e1rea menos conocida del machine learning"}]},{"@type":"WebSite","@id":"https:\/\/esi.uclm.es\/#website","url":"https:\/\/esi.uclm.es\/","name":"Escuela Superior de Inform\u00e1tica de UCLM en Ciudad Real, Castilla-La Mancha","description":"La Escuela Superior de Inform\u00e1tica de Ciudad Real (Castilla-La Mancha), Universidad de Castilla-La Mancha es un centro universitario que imparte el ciclo completo de Ingenier\u00eda en Inform\u00e1tica: grado, m\u00e1ster y doctorado.","publisher":{"@id":"https:\/\/esi.uclm.es\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/esi.uclm.es\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"es"},{"@type":"Organization","@id":"https:\/\/esi.uclm.es\/#organization","name":"Escuela Superior de Inform\u00e1tica de UCLM","url":"https:\/\/esi.uclm.es\/","logo":{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/esi.uclm.es\/#\/schema\/logo\/image\/","url":"https:\/\/esi.uclm.es\/assets\/uploads\/2022\/03\/LogoESI_cabecera-1.png","contentUrl":"https:\/\/esi.uclm.es\/assets\/uploads\/2022\/03\/LogoESI_cabecera-1.png","width":460,"height":184,"caption":"Escuela Superior de Inform\u00e1tica de UCLM"},"image":{"@id":"https:\/\/esi.uclm.es\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.facebook.com\/Escuela-Superior-de-Informtica-543261809027158","https:\/\/x.com\/esiuclm","https:\/\/www.instagram.com\/esiuclm\/","https:\/\/www.youtube.com\/user\/esiuclm","https:\/\/www.twitch.tv\/esiuclm","https:\/\/www.linkedin.com\/company\/12656631\/admin\/"]},{"@type":"Person","@id":"https:\/\/esi.uclm.es\/#\/schema\/person\/d9a390095e8beeca5aced92acb17a530","name":"esiuclm","image":{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/secure.gravatar.com\/avatar\/ff32e6f445454691c713484fe154c7002761ecabfa4cfa2fea57c231744892da?s=96&d=mm&r=g","url":"https:\/\/secure.gravatar.com\/avatar\/ff32e6f445454691c713484fe154c7002761ecabfa4cfa2fea57c231744892da?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/ff32e6f445454691c713484fe154c7002761ecabfa4cfa2fea57c231744892da?s=96&d=mm&r=g","caption":"esiuclm"},"sameAs":["https:\/\/esi.uclm.es"],"url":"https:\/\/esi.uclm.es\/index.php\/author\/esiadmin\/"}]}},"_links":{"self":[{"href":"https:\/\/esi.uclm.es\/index.php\/wp-json\/wp\/v2\/posts\/10963","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/esi.uclm.es\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/esi.uclm.es\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/esi.uclm.es\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/esi.uclm.es\/index.php\/wp-json\/wp\/v2\/comments?post=10963"}],"version-history":[{"count":3,"href":"https:\/\/esi.uclm.es\/index.php\/wp-json\/wp\/v2\/posts\/10963\/revisions"}],"predecessor-version":[{"id":10970,"href":"https:\/\/esi.uclm.es\/index.php\/wp-json\/wp\/v2\/posts\/10963\/revisions\/10970"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/esi.uclm.es\/index.php\/wp-json\/wp\/v2\/media\/10956"}],"wp:attachment":[{"href":"https:\/\/esi.uclm.es\/index.php\/wp-json\/wp\/v2\/media?parent=10963"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/esi.uclm.es\/index.php\/wp-json\/wp\/v2\/categories?post=10963"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/esi.uclm.es\/index.php\/wp-json\/wp\/v2\/tags?post=10963"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}