Show simple item record

dc.contributor.advisorLópez Sotelo, Jesús Alfonsospa
dc.contributor.authorDíaz Latorre, Andrés Stevenspa
dc.coverage.spatialUniversidad Autónoma de Occidente. Calle 25 115-85. Km 2 vía Cali-Jamundíspa
dc.date.accessioned2019-12-11T17:08:14Zspa
dc.date.available2019-12-11T17:08:14Zspa
dc.date.issued2019-09-30spa
dc.identifier.urihttp://red.uao.edu.co//handle/10614/11694spa
dc.descriptionEl aprendizaje por refuerzo o RL – Reinforcement Learning, por sus siglas en inglés, es una rama de la inteligencia artificial que trata sobre un agente que recibe información de un entorno o ambiente en forma de estados y acciones, además de que actúa en el entorno, lo que resulta en un nuevo estado, el agente recibe una recompensa como pago al tomar una acción. Esta recompensa se le asigna al nuevo estado, por lo cual, a medida que el agente tome acciones la recompensa tendrá un valor tanto positivo como negativo. En el proyecto se desarrolló una serie de algoritmos en lenguaje Python para el control de sistemas dinámicos clásicos, utilizando las librerías Gym y Tensorflow. Se utilizó Python porque es uno de los lenguajes de programación más utilizados al ser de código abierto, orientado a objetos y por la facilidad de instalación de paquetes. Los métodos de aprendizaje que se utilizaron en los algoritmos están basados en Q-Learning, Deep Q-Learning y actor – crítico, más conocido como A2C. Además se presenta a modo de guía y con fines educativos el proceso paso a paso para la creación de entornos propios con la librería de Gym además de cómo implementar estos algoritmos en nuestros propios entornos dado a que gran parte de esta temática se encuentra disponible en inglés, incluso en algunas universidades el RL lo suelen resumir con Q-Learning, pero esta rama de inteligencia es más grandespa
dc.description.abstractReinforcement Learning or RL - by its initials in English, is a branch of artificial intelligence that deals with an agent that receives information from an environment or environment in the form of states and actions, in addition to acting in the environment, resulting in a new state, the agent receives a reward as payment when taking an action. This reward is assigned to the new state, therefore, as the agent takes action the reward will have both positive and negative value. In the project a series of algorithms in Python language were used for the control of classic dynamic systems, using the Gym and Tensorflow libraries. Python was used because it is one of the most used programming languages ​​because it is open source, object oriented and because of the ease of installing packages. The learning methods used in the algorithms are available in Q-Learning, Deep Q-Learning and actor - critic, better known as A2C. In addition, a guide mode is presented and for educational purposes the step-by-step process for the creation of our own environments with the gym library as well as how to implement these algorithms in our own environments since much of this theme is available in English, even in some universities the RL usually summarize it with Q-Learning, but this branch of intelligence is largereng
dc.formatapplication/pdfspa
dc.format.extent82 páginasspa
dc.language.isospaspa
dc.publisherUniversidad Autónoma de Occidentespa
dc.rightsDerechos Reservados - Universidad Autónoma de Occidentespa
dc.rights.urihttps://creativecommons.org/licenses/by-nc/4.0/spa
dc.sourceinstname:Universidad Autónoma de Occidentespa
dc.sourcereponame:Repositorio Institucional UAOspa
dc.subjectIngenería Mecatrónicaspa
dc.subjectAlgoritmos (Computadores)spa
dc.subjectAprendizaje automático (Inteligencia artificial)spa
dc.subjectReinforcement learningeng
dc.subjectComputer algorithmseng
dc.subjectMachine learningeng
dc.titleAprendizaje por refuerzo para control de sistemas dinámicosspa
dc.typeTrabajo de grado - Pregradospa
dc.description.notesProyecto de grado (Ingeniero Mecatrónico)-- Universidad Autónoma de Occidente, 2019spa
dc.publisher.programIngeniería Mecatrónicaspa
dc.creator.degreeIngeniero Mecatrónicospa
dc.publisher.departmentDepartamento de Automática y Electrónicaspa
dc.publisher.facultyFacultad de Ingenieríaspa
dc.description.degreelevelPregradospa
dc.description.degreenameIngeniero(a) Mecatrónico(a)spa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccessspa
dc.rights.creativecommonsAtribución-NoComercial 4.0 Internacional (CC BY-NC 4.0)spa
dc.type.coarhttp://purl.org/coar/resource_type/c_7a1fspa
dc.type.contentTextspa
dc.type.driverinfo:eu-repo/semantics/bachelorThesisspa
dc.type.redcolhttps://purl.org/redcol/resource_type/TPspa
oaire.accessrightshttp://purl.org/coar/access_right/c_abf2spa
oaire.versionhttp://purl.org/coar/version/c_970fb48d4fbd8a85spa
dc.type.versioninfo:eu-repo/semantics/publishedVersionspa
dc.source.bibliographiccitationBarto, A. G. Sutton, R. S. Anderson, C. W. (2013). Neuronlike Adaptive Elements That Can Solve Difficult Learning Control Problems. (IEEE Transactions on Systems, Man, and Cybernetics). Recuperado de http://www.derongliu.org/adp/adp-cdrom/Barto1983.pdf Boada, M. J. Boada, B. López, V. (2015). Algoritmo de aprendizaje por refuerzo continúo para el control de un sistema de suspensión semi – activa. Revista: Iberoamericana de Ingeniería Mecánica. Chandra, A. (2018). Perceptron: The Artificial Neuron (An Essential Upgrade To The McCulloch-Pitts Neuron). Recuperado de https://towardsdatascience.com/perceptron-the-artificial-neuron-4d8c70d5cc8d Cuaya, G. (2015). Procesos de decisión de Markov aplicados en la locomoción de robots hexápodos. (Tesis de maestria) Tonantzintla. México. Recuperado de https://inaoe.repositorioinstitucional.mx/jspui/bitstream/1009/588/1/CuayaSG.pdf Covantec. (2014). Ventajas y desventajas. Recuperado de https://entrenamiento-python-basico.readthedocs.io/es/latest/leccion1/ventajas_desventajas.html#ventajas García, E. O. (2015). Aprendizaje por refuerzo mediante transferencia de conocimiento cualitativo. Recuperado de http://ccc.inaoep.mx/~jemc/blog/wp-content/uploads/2016/09/tesisOmar.pdf Github. (s.f). Openai/gym. Recuperado de: https://github.com/openai/gym/wiki/CartPole-v0 Gym.openai. (s.f). Getting Started with Gym. Recuperado de https://gym.openai.com/docs/ Gym. (s.f). CartPole-v0. Recuperado de https://gym.openai.com/envs/Cart-v0/ Gym. (s.f). MountainCar-v0. Recuperado de https://gym.openai.com/envs/MountainCar-v0/ Gym. (s.f). Pendulum-v0. Recuperado de https://gym.openai.com/envs/Pendulum-v0/ Hassabis, D. (2016). AlphaGo: using machine learning to master the ancient game of Go. Recuperado de https://blog.google/technology/ai/alphago-machine-learning-game-go/ Jaderberg, M. Wojciech, M. Czarnecki. Dunning, I. Marris, L. Lever, G. Garcia, A, Beattie, C. Rabinowitz, C. Morcos, A. Ruderman, A. Sonnerat, N. Green, T. Deason, L. Leibo, J. Silver, D. Hassabis, D. Kavukcuoglu, K. Graepel, T. (2019). Human-level performance in 3D multiplayer games with population-based reinforcement learning. Recuperado de https://science.sciencemag.org/content/364/6443/859 Lopez, R. (2015). Q-learning: Aprendizaje automático por refuerzo. Recuperado de https://rubenlopezg.wordpress.com/2015/05/12/q-learning-aprendizaje-automatico-por-refuerzo/ McCulloch, W. Pitts, W .(1943). A logical calculus of the the ideas immanet in nervous activity. Bulletin of mathematical biology, Vol 52, Recuperado de: https://link.springer.com/article/10.1007%2FBF02459570 McDonal, C. (2018). Solving multiarmed bandits: A comparison of epsilon-greedy and Thompson sampling. Recuperado de https://towardsdatascience.com/solving-multiarmed-bandits-a-comparison-of-epsilon-greedy-and-thompson-sampling-d97167ca9a50 Mnih, V. Kavukcuoglu, K. Silver, D. Graves, A. Antonoglou, L. Wierstra, D. Riedmiller, M. (2013). Playing Atari with Deep Reinforcement Learning. Recuperado de https://arxiv.org/pdf/1312.5602.pdf Moor, A. W. (1990). Efficient memory-based Learning for robot control. Recuperado de: https://www.cl.cam.ac.uk/techreports/UCAM-CL-TR-209.pdf Moor, J. (2003). The Turing test: The elusive standard of artificial intelligence. EE.UU: Science & Business Media. Nieto, J. (2018). La Inteligencia Artificial del Huawei P20 Pro, ¿cómo te afecta en el día a día? Recuperado de https://andro4all.com/huawei_ia/como-funciona-inteligencia-artificial-huawei-p20-pro Nº 171: IA Grafos - Aprendizaje por Refuerzo 03 (Activo, Q-Learning). (2017)Recuperado de https://www.youtube.com/watch?v=ZoRMKs8XLSA Ortego, D. (2017).Qué es Tensorflow? Recuperado de https://openwebinars.net/blog/que-es-tensorflow/ Pastor, J. (2017). AlphaGo aplasta al mejor jugador del mundo de Go, la inteligencia artificial es imbatible. Recuperado de https://www.xataka.com/robotica-e-ia/alphago-aplasta-al-mejor-jugador-del-mundo-de-go-la-inteligencia-artificial-es-imbatible Printista, A. M, Errecalde. M. L, Montoya, C. I. (2000). Una implementación paralela del algoritmo Q-Learning basada en un esquema de comunicación con caché. San Luis, Argentina. Recuperado de http://sedici.unlp.edu.ar/bitstream/handle/10915/23363/Documento_completo.pdf?sequence=1 RSTOPUR. Disponible en: https://rstopup.com/es-posible-la-creacion-de-un-nuevo-gimnasio-medio-ambiente-en-openai.html Ruiz, S. Hernández, B. (2014). Procesos de decisión de Markovy microescenarios para navegacióny evasión de colisiones para multitudes. Research in Computing Science. Recuperado de http://www.rcs.cic.ipn.mx/rcs/2014_74/Procesos%20de%20decision%20de%20Markov%20y%20microescenarios%20para%20navegacion%20y%20evasion%20de%20colisiones.pdf Simonini, T. (2018). An intro to Advantage Actor Critic methods: let’s play Sonic the Hedgehog!. Recuperado de https://www.freecodecamp.org/news/an-intro-to-advantage-actor-critic-methods-lets-play-sonic-the-hedgehog-86d6240171d/ Siembro, G. C. (2007) Procesos de decisión de Markov aplicados a la locomoción de robots hexápodos. Recuperado de http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/588 Sutton, R. S. Barto, A. G. (1998). Reinforcement learning: An introduction. Sutton, R. S. Barto, A. G. (1998). Introduction to reinforcement learning. Londres, Inglaterra. Recuperado de http://incompleteideas.net/book/bookdraft2017nov5.pdf Tensorflow. (s.f). An end-to-end open source machine learning platform. Recuperado de https://www.tensorflow.org/ Parra, S. (2013). La emergencia del buen juego en un tablero de damas de 1950 https://www.xatakaciencia.com/computacion/la-emergencia-del-buen-juego-en-un-tablero-de-damas-de-1950 Yoon, C. (s.f). Understanding Actor Critic Methods and A2C. Recuperado de https://towardsdatascience.com/understanding-actor-critic-methods-931b97b6df3fspa


Files in this item

Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record

Derechos Reservados - Universidad Autónoma de Occidente
Except where otherwise noted, this item's license is described as Derechos Reservados - Universidad Autónoma de Occidente