ALGORITMOS DE APRENDIZAJE PARA AGENTES

Descargar notas (pdf)
Descargar software de apoyo (zip)

Introducción
Criterios de evalución
-Correctez
-Convergencia
Algoritmos
-Bandido
-Greedy
-Epsilon Greedy
-Softmax
-Vector de Probabilidad

Introducción

Un Agente es un algoritmo capaz de elegir una de varias opciones de acuerdo a un algoritmo de aprendizaje.

Los agentes pueden aplicarse al comercio electrónico para negociar compra–venta de artículos, en el desarrollo de videojuegos de estrategia que elijan las acciones a realizar en contra del usuario de acuerdo a las condiciones del juego, etc.

Para tomar una decisión, un agente requiere conocer el estado actual del sistema o bien observar los efectos que una acción produce en éste. Esta información se maneja en forma de probabilidades asociadas a cada una de las acciones que pueden ocurrir en el sistema.

Suponiendo que se tiene una máquina tragamonedas con dos palancas y cada palanca una probabilidad asociada de recompensa, se le pide al agente que elija cualquiera de las dos palancas.

Siendo p y q las probabilidades de recompensa de las palancas 1 y 2, la misión del agente es jugar seleccionando la opción óptima que genere las mayores ganancias. El agente no conoce la probabilidad de recompensa que esta asociada a cada palanca y entonces

p(r=1/palanca1) = p y p(r=1/palanca2) = q

suponiendo que p=0.8 y q=0.15 es obvio que la palanca1 entregará mayores ganancias puesto que la probabilidad de recompensa que ofrece es mayor y será esta opción a la que llamaremos óptima. Si se hacen J jugadas con la palanca1 y de las cuales G resultaron ganadoras, entonces la probabilidad promedio en la iteración t será igual a Qt(a1=G1/J1)

Extendiendo el problema a n opciones, la misión del agente es encontrar cual de la acciones producirá la mayor ganancia al final de un ciclo de iteraciones e intentará entonces jugar el mayor numero de veces a dicha acción. La probabilidad de recompensa para la acción i será p(r = 1 / ai) y la ganancia promedio en la iteración t será Qt(ai) = Gi / Ji Debido a que el agente no conoce el mundo, se hará necesario aprender de la observación de los hechos, es decir es posible que el agente permita unas cuantas iteraciones de prueba antes de hacer cálculos para evaluar cual de las acciones es la mejor y con el tiempo intentar elegir la óptima.

En la búsqueda de la elección optima un algoritmo puede ser evaluado en términos de su aprendizaje y convergencia.

(para ver el documento completo de click aquí)

Hosted by www.Geocities.ws

1