Autonome Lernsysteme - vom Algorithmus zur Anwendung

Wir freuen uns ueber Rückfragen, z.B. durch ein eMail an mail@jan-peters.net !!!

Quick Facts

Organizers:	Jan Peters, Abdeslam Boularias, Heni Ben Amor, Gerhard Neumann, Duy Nguyen-Tuong, Marc Deisenroth
Vorbesprechung:	Fr, 26. Okt. 2012, 16:00-18:00, Raum S202-E302
Themenwahl:	Fr., 2. Nov. 2012
Abgabe Seminararbeit:	Fr., 1. Feb. 2013
Blockseminar:	Mo, 18. Feb. 2012, 9:30-18:00, Raum S202-E302
	Di, 19. Feb. 2012, 9:30-18:00, Raum S202-E302
TU-CAN:	20-00-0631-se Autonome Lernende Systeme - Vom Algorithmus zur Anwendung
Credits:	3,0

Einführung

Die Informatik entwickelt sich seit dem Aufkommen des World-Wide-Webs von einer Computerwissenschaft langsam in die Kunst, intelligente Software- und Hardwaresysteme zu erstellen, die aus Daten guten Schluesse ziehen. Die Kerntechnologie der zukuenftigen Informatik ist daher das Maschinelle Lernen. In diesem Seminar beschaeftigen wir uns mit dem spannenden Thema:

Wie können wir Autonome Agenten schaffen, die von ihren eigenen Erfahrungen lernen?

aus der Perspektive des maschinellem Lernens. Es wird eine Vielzahl von Themen in diesem Bereich behandelt und die Betreuung wird durch drei weltbekannte Experten in diesem Bereich stattfinden.

Themengebiete

Das Forschungsgebiet Autonome Lernsysteme ist sehr gross. In diesem Seminar wuerden wir uns besonders auf die folgenden Themen konzentrieren:

Reinforcement Learning
Inverse Reinforcement Learning
Learning physical models of robots
Probabilistic inference for autonomous learning
Search and planning for autonomous systems
Optimization
Partially Observable Markov Decision Problems
Learning in multi-agent systems
Exploration-Exploitation Trade-Off in Bandits
Contextual Bandits
Learning in adversarial systems and games
Learning for control
Probabilistic system identification
Philosophical foundations (e.g., from an AI, Probability / Information / Decision Theory or No-Free-Lunch point of view�) of autonomous learning systems
Applications of Autonomous Learning Systems in Software Agents (e.g., at Google or Yahoo)
Applications in Robot Learning Systems

Diese Liste ist nie vollstaendig weil wir bereit sind, uns auf Interessen von Teilnehmern einzustellen! Studenten mit besonderen eigenen Interessen bitten wir, uns vor der Vorbesprechung Bescheid zu sagen. Literatur wird bei der Vorbesprechung ausgeteilt.

Hier eine Liste von moeglichen Themen!

Vorwissen

Mathematik aus den ersten Semestern, Programmieren in C, Grundlagen den Informatik.

Format

Das Seminar wird als intensives Blockseminar angeboten. Es findet auf drei Termine verteilt statt: einer Vorbesprechung und zwei Seminartagen. Zwischen der Vorbesprechung und dem den zwei Seminartagen fertigen alle Teilnehmenden eine Seminararbeit und einen Seminarvortrag in Abstimmung mit ihren Betreuern an. Der Vortrag wird an den zwei Seminartagen vor dem gesamten Seminar gehalten. Die Termine sind:

Vorbesprechung:	Fr, 26. Okt. 2012	16:00-18:00	Raum S202-E302
Seminartage:	18.-19 Feb. 2013	9:30-18:00	Raum S202-E302

Bitte beachten Sie auch die folgenden Termine:

Themenwahl:	Fr., 2. Nov. 2012
Abgabe Seminararbeit:	Fr. 1. Feb. 2013

Sowohl Seminararbeiten und Seminarvortraege in Englisch werden besonders gefoerdert durch alle drei Betreuer da diese alle im englischsprachigen Ausland promoviert haben.

Themenwahl

Bitte waehlen Sie aus der Liste von moeglichen Themen [link] sich drei Themen aus und schicken bis zum obige Datum eine eMail an mail@jan-peters.net mit Ihrem Themenwunsch in dem Format:

A > B > C	Entspricht ich moechte A lieber als B lieber als C.
A > B, C	Entspricht ich moechte A lieber als B oder C, aber ob B oder C ist dann auch egal.
A >> B > C	Entspricht ich moechte A ist mein Thema und ich goenne es NIEMANDEM. Wenn es sein muss nehme ich B oder C und dabei B lieber als C.

Ein paar Tage spaeter teilen wir Ihnen voraussichtlich Ihr Thema mit. Wenn Ihr Betreuer sich nicht bei Ihnen direkt meldet, setzen Sie sich bitte mit ihm in Kontakt.

Vergebene Themen

Hier sind die Liste der Namen und Themen:

Thesis on Topic	Report on Topic	Name	Advisor
A	H	Florian Kunz	Gerhard Neumann
H	L	Yannick Schroecker	Abdeslam Boularias
L	A	Sabina Kruk	Abdeslam Boularias
Q	S	Matthias Z�llner	Gerhard Neumann
S	T	Karsten Will	Marc Deisenroth
T	W	Achim Stein	Duy Nguyen-Tuong
W	Q	Leonard Swiezinski	Duy Nguyen-Tuong

Bitte nehmen Sie umgehend mit Ihrem Betreuer Kontakt auf falls er es nicht selbst tut. Die Liste der Themen finden Sie HIER!

Seminararbeit

In der Seminararbeit verwenden Sie bitte das folgende NIPS Format [download here]. Uns ist nicht wichtig, wie viele Seiten Sie schreiben, sondern dass Sie eine hohe Qualität in der Arbeit erreichen. Um Qualität zu erreichen, achten Sie bitte auf die folgenden Aspekte bei Ihrer Arbeit:

Structure of Contents / Gliederung
Comprehensibility / Verst�ndlichkeit
Quality of Illustrations / Illustrationsqualit�t
Quality of Bibliography/Qualit�t des Literaturverzeichnisses
Appropriate Citations? Passende Zitierungen?
Extra: Read more papers? Mehr Papiere bearbeitet?
Extra: Own ideas? / Eigene neue Ideen?
Extra: Implemented the Algorithms / Mit Implementierung?
Extra: Arbeit auf Englisch? Paper in English!

Als grobe Richtlinie: 7-10 Seiten im NIPS Format (ohne das Literaturverzeichnis) reichen vollkommen, wenn sie gut geschrieben sind.

Ein paar Tips zum Schreiben von guten Seminararbeiten und Artikeln finden Sie [hier] und [hier].

Bitte senden Sie Ihrem Betreuer bis spätestens zum

December 9, 2012

ein PDF was zumindest den Table Of Contents Ihrer Seminararbeit enthält.

Seminararbeiten

Die folgenden Seminararbeiten wurden eingereicht:

Bib
Kruk, S. (2013). Planning with Multiple Agents, Seminar Thesis, Proceedings of the Autonomous Learning Systems Seminar.
Bib
Kunz, F. (2013). An Introduction to Temporal Difference Learning, Seminar Thesis, Proceedings of the Autonomous Learning Systems Seminar.
Bib
Schroecker, Y. (2013). Planning for Relational Rules, Seminar Thesis, Proceedings of the Autonomous Learning Systems Seminar.
Bib
Stein, A. (2013). Learning Robot Locomotion, Seminar Thesis, Proceedings of the Autonomous Learning Systems Seminar.
Bib
Swiezinski, L. (2013). Lifecycle of a Jeopardy Question Answered by Watson DeepQA, Seminar Thesis, Proceedings of the Autonomous Learning Systems Seminar.
Bib
Will, K. (2013). Autonomous Chess-Playing, Seminar Thesis, Proceedings of the Autonomous Learning Systems Seminar.
Bib
Zoellner, M. (2013). Reinforcement Learning in Games, Seminar Thesis, Proceedings of the Autonomous Learning Systems Seminar.

Seminarvortrag

Bitte bereiten Sie einen Seminarvortrag mit einer Länge von 25 Minuten vor. Diese Dauer ist strikt und darf nicht überschritten werden. Nach dem Seminarvortrag müssen Sie mit 5-10 Minuten Fragen rechnen. Bitte sprechen Sie rechtzeitig vor dem Blockseminar mit Ihrem Betreuer Ihren Vortrag ab bzw schicken Sie ihm die Folien.

Wichtig sind uns bei den Vorträgen besonders:

Structure of Contents / Gliederung
Sufficient Content? Gen�gend Inhalte pr�sentiert?
Good Illustrations: Pictures, Movies, Diagrams?
Eigenes Verst�ndnis/Can the presenter explain all equations on the slides?

Tips zu Vorträgen finden Sie wiederum [hier] und [hier]. Besonders hervorheben möchten wir [diesen Guide hier].

BeobachterIn: Pr�sentationszusammenfassung

Jeder Teilnehmer kommentiert genau eine andere Pr�sentation und fasst diese in ca. 5 Minuten zusammen. Hierbei soll der/die BeobachterIn sowohl hervorheben was wichtig war als auch konstruktive Kritik üben. Das Thema wird nach Abgabe der Seminararbeiten mitgeteilt und die Seminararbeit wird dem/der BeobachterIn rechtzeitig zur Verfuegung gestellt.

Seminar

8:45-8:59	Welcome and Formalities

9:00-9:34	Imitation Learning
25min	Thesis Presentation: Michael Kutschke
5min	Questions of the Audience
5min	Reporter: Sergej Hardock

9:35-10:09	Learning physical Models of Robots
25min	Thesis Presentation: Jochen M�ck
5min	Questions of the Audience
5min	Reporter: Peter Englert

10:10-10:44	Locally Weighted Learning
25min	Thesis Presentation: Peter Englert
5min	Questions of the Audience
5min	Reporter: Dominik Sch�nberger

10:45-11:14	Coffee Break

11:15-11:49	Inverse Reinforcement Learning
25min	Thesis Presentation: Arthur Fischer
5min	Questions of the Audience
5min	Reporter: Michael Kutschke

11:50-12:24	Applications in Robot Helicopter Acrobatics
25min	Thesis Presentation: Sergej Hardock
5min	Questions of the Audience
5min	Reporter: Christoph Dann

12:25-13:59	Lunch Break

14:00-14:34	Extensive Games
25min	Thesis Presentation: Oleg Arenz
5min	Questions of the Audience
5min	Reporter: Thomas Pignede

14:35-15:09	Evolution of Reinforcement Learning in Games or How to Win against Humans with Intelligent Agents
25min	Thesis Presentation: Thomas Pignede
5min	Questions of the Audience
5min	Reporter: Oleg Arenz

15:10-15:44	Algorithms for Fast Gradient Temporal Difference Learning
25min	Thesis Presentation: Christoph Dann
5min	Questions of the Audience
5min	Reporter: Svenja Stark

15:45-16:14	Coffee Break

16:15-16:49	Do Reinforcement Learning Models Explain Neural Learning?
25min	Thesis Presentation: Svenja Stark
5min	Questions of the Audience
5min	Reporter: Jochen M�ck

16:50-17:24	Planning in POMDPs
25min	Thesis Presentation: Dominik Sch�nberger
5min	Questions of the Audience
5min	Reporter: Arthur Fischer

17:25	Conclusion

Betreuer

Fuer dieses Seminar steht eine exzellente Betreuung zur Verfuegung bestehend aus mehreren weltweit anerkannten Experten. Zwei von diesen kommen extra von ausserhalb fuer dieses Seminar.

Professor Jan Peters baut seit dem 1. July 2011 am Fachbereich Informatik der TU Darmstadt das neue Fachgebiet Intelligente Autonome Systeme auf. Einer seiner wichtigsten Forschungsschwerpunkte ist die Entwicklung von neuen Methoden zum maschinellen Lernen in Autonomen Technischen Systemen und Robotern. Fuer Rueckfragen auf Deutsch oder Englisch steht Jan Peters unter mail@jan-peters.net zur Verfuegung. Fuer einen persoenlichen Kontakt ist Jan Peters im Robert-Piloty Gebaeude S2|02 im Raum E314 zu finden.

Dr. Abdeslam Boularias ist ein weltbekannter Forscher im Bereich von Reinforcement Learning (d.h., Lernen durch Versuch und Fehler) und im Apprenticeship Learning (d.h., der Rekonstruktion der Kostenfunktion des Lehrers um ihn optimal nachzuahmen). Abdeslam Boularias hat in Kanada an der bekannten Laval University promoviert und wird extra zu diesem Blockseminar an die TU Darmstadt kommen. Fuer Rueckfragen auf Englisch steht Abdeslam Boularias unter abdeslam.boularias@tuebingen.mpg.de zur Verfuegung.

Dr. Heni Ben Amor beschaeftigt sich mit Imitations- und Interaktionslernen fuer Humanoide Roboter und mit dem Lernen. Promoviert hat Heni Ben Amor an der TU Freiberg aber er hat umfangreiche Erfahrungen in der japanischen Robotik gesammelt durch zahlreiche Aufenthalte an der Osaka University. Fuer Rueckfragen auf Deutsch oder Englisch steht Heni Ben Amor unter amor@ias.tu-darmstadt.de zur Verfuegung.

Dr. Gerhard Neumann forscht im Bereich des Reinforcement Learning zum Erwerb von Motorfaehigkeiten. Promoviert hat Gerhard Neumann an der Technischen Universitaet Graz. Fuer Rueckfragen auf Deutsch oder Englisch steht Gerhard Neumann unter geri@robot-learning.de zur Verfuegung.

Dr. Marc Deisenroth forscht im Bereich des Probabilistischen und Bayesianischen Maschinellen Lernens im Speziellen Anwendungszusammenhang zu Control und Robotik. Hierbei liegen seine Schwerpunkte in der Nutzung von Gaußschen Prozessen im Filtern, fuer Vorwärtsmodelle und zur Regelung. Seine Doktorarbeit fertigte Marc Deisenroth am Max Planck Institut für Biologische Kybernetik und an der Cambridge University an. Danach verbrachte er zwei Jahre als Post-Doc an der University of Washington in Seattle. Für Rückfragen auf Deutsch oder Englisch steht Marc Deisenroth unter marc@ias.tu-darmstadt.de zur Verfügung.

Dr. Duy Nguyen-Tuong did his Ph.D. at the Max Planck Institute for Intelligent Systems including a stay at the University of Southern California. Before doing so, he studied control and automation engineering at the University of Stuttgart and the National University of Singapore. He is now with Bosch Research in Schwieberdingen (Stuttgart), where he works on application of machine learning techniques in automobile and robotics.

Da sowohl Abdeslam Boularias, Heni Ben-Amor, Jan Peters, Marc Deisenroth und Duy Nguyen-Tuong im Ausland studiert bzw. promoviert haben, stehen Sie auch fuer Fragen zum Auslandsstudium zur Verfuegung.