DeepMind acaba de publicar un paper que nos adelanta cuál va a ser el futuro de la Inteligencia Artificial

Artículo original en inglés, aquí

Agarraos que vienen curvas. Artículo no apto para todos los públicos.


 

DeepMind acaba de publicar un paper de infarto: PathNet.

https://arxiv.org/pdf/1701.08734.pdf

Potencialmente, describe cómo será la inteligencia artificial generalista.
Desde que los científicos comenzaron a construir y entrenar redes neuronales, el “Transfer Learning” ha sido el principal cuello de botella. La Transferencia del Aprendizaje es la capacidad de una IA para aprender de diferentes tareas y aplicar su conocimiento pre-aprendido a una tarea completamente nueva. Está implícito que con este conocimiento precedente, la IA funcionará mejor y se entrenará más rápido que lo que puedan hacerlo nuevas redes neuronales  en la nueva tarea.
DeepMind está en camino de resolver este cuello de botella con PathNet.

PathNet es una red de redes neuronales, entrenadas usando tanto el “descenso de gradiente estocástico”(SGD) como la técnica de “selección genética”.

PathNet se compone de capas de módulos. Cada módulo es una Red Neural del tipo que sea. Podría ser convolucional, recurrente, feedforward…

pathnet_01

Cada una de esas nueve cajas de la figura de arriba es el PathNet en una iteración diferente. En este caso, PathNet fue entrenado en dos juegos distintos usando un Advantage Actor-critic o A3C. Aunque Pong y Alien parecen muy diferentes al principio, observamos un aprendizaje de transferencia positivo usando PathNet (ver el gráfico de puntuación).

¿Cómo se entrena?

En primer lugar, tenemos que definir los módulos. Sea L el número de capas y N el número máximo de módulos por capa (el paper indica que N es típicamente 3 ó 4). La última capa es densa y no se comparte entre las diferentes tareas. Utilizando A3C, esta última capa representa la función objetivo y de la evaluación.

Después de definir esos módulos, se generan en la red los genotipos P (= caminos/pathways). Debido a la naturaleza asíncrona de A3C, se generan múltiples “trabajadores” para evaluar cada genotipo. Después de T episodios, un trabajador selecciona un par de otros caminos para comparar; si alguno de esos caminos tiene una mejor correlación, lo adopta y continúa el entrenamiento por esa nueva vía/pathway. De no ser así, el trabajador continúa evaluando la aptitud de la vía por la que iba.

Los caminos son entrenados usando el SGD con retro-propagación a través de un único camino a la vez. Esto garantiza un tiempo de formación razonable.

Transferencia de aprendizaje

Después de aprender una tarea, la red fija todos los parámetros en la ruta óptima. Todos los demás parámetros deben reinicializarse, de lo contrario PathNet tendrá un comportamiento no óptimo en una nueva tarea.

Usando A3C, la ruta óptima de la tarea anterior no es modificada por el pase de propagación posterior en el PathNet para una nueva tarea. Esto puede ser visto como una red de seguridad para no borrar los conocimientos adquiridos.

Resultados

pathnet_02

PathNet no funciona bien en cualquier pareja de juegos (las celdas azules indican transferencia negativa). Pero lo importante aquí es que PathNet realmente funciona para algunos tipos de juegos, que ya es un paso inmenso hacia una mejor transferencia del aprendizaje. Por ejemplo, mejora mucho en el James Bond.

Extrapolando

Podemos imaginar que en el futuro, tendremos IAs gigantes entrenadas en miles de tareas y capaces de generalizar. En resumen, Inteligencia Artificial General.

Bonus — Training of PathNet in video

 

Vía: Medium

 

4 comentarios en “DeepMind acaba de publicar un paper que nos adelanta cuál va a ser el futuro de la Inteligencia Artificial

Deja un comentario