Umeå University's logo

umu.sePublikasjoner
Endre søk
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Model-free learning from demonstration
Umeå universitet, Teknisk-naturvetenskapliga fakulteten, Institutionen för datavetenskap.
Umeå universitet, Teknisk-naturvetenskapliga fakulteten, Institutionen för datavetenskap.
Umeå universitet, Teknisk-naturvetenskapliga fakulteten, Institutionen för datavetenskap.
2010 (engelsk)Inngår i: ICAART 2010 - Proceedings of the international conference on agents and artificial intelligence:  volume 2 / [ed] Joaquim Filipe, Ana LN Fred, Bernadette Sharp, Portugal: INSTICC , 2010, s. 62-71Konferansepaper, Publicerat paper (Fagfellevurdert)
Abstract [en]

A novel robot learning algorithm called Predictive Sequence Learning (PSL) is presented and evaluated. PSL is a model-free prediction algorithm inspired by the dynamic temporal difference algorithm S-Learning. While S-Learning has previously been applied as a reinforcement learning algorithm for robots, PSL is here applied to a Learning from Demonstration problem. The proposed algorithm is evaluated on four tasks using a Khepera II robot. PSL builds a model from demonstrated data which is used to repeat the demonstrated behavior. After training, PSL can control the robot by continually predicting the next action, based on the sequence of passed sensor and motor events. PSL was able to successfully learn and repeat the first three (elementary) tasks, but it was unable to successfully repeat the fourth (composed) behavior. The results indicate that PSL is suitable for learning problems up to a certain complexity, while higher level coordination is required for learning more complex behaviors.

sted, utgiver, år, opplag, sider
Portugal: INSTICC , 2010. s. 62-71
Emneord [en]
Learning from Demonstration, Prediction, Robot Imitation, Motor Control, Model-free Learning
HSV kategori
Forskningsprogram
data- och systemvetenskap
Identifikatorer
URN: urn:nbn:se:umu:diva-31865ISBN: 978-989-674-022-1 (tryckt)OAI: oai:DiVA.org:umu-31865DiVA, id: diva2:297960
Konferanse
ICAART 2010 - The International Conference on Agents and Artificial Intelligence - Agents, Valencia, Spain, January 22-24, 2010
Tilgjengelig fra: 2010-02-25 Laget: 2010-02-19 Sist oppdatert: 2018-06-08bibliografisk kontrollert
Inngår i avhandling
1. Cognition reversed: Robot learning from demonstration
Åpne denne publikasjonen i ny fane eller vindu >>Cognition reversed: Robot learning from demonstration
2009 (engelsk)Licentiatavhandling, med artikler (Annet vitenskapelig)
Abstract [en]

The work presented in this thesis investigates techniques for learning from demonstration (LFD). LFD is a well established approach to robot learning, where a teacher demonstrates a behavior to a robot pupil. This thesis focuses on LFD where a human teacher demonstrates a behavior by controlling the robot via teleoperation. The robot should after demonstration be able to execute the demonstrated behavior under varying conditions.

Several views on representation, recognition and learning of robot behavior are presented and discussed from a cognitive and computational perspective. LFD-related concepts such as behavior, goal, demonstration, and repetition are defined and analyzed, with focus on how bias is introduced by the use of behavior primitives. This analysis results in a formalism where LFD is described as transitions between information spaces. Assuming that the behavior recognition problem is partly solved, ways to deal with remaining ambiguities in the interpretation of a demonstration are proposed.

A total of five algorithms for behavior recognition are proposed and evaluated, including the dynamic temporal difference algorithm Predictive Sequence Learning (PSL). PSL is model-free in the sense that it makes few assumptions of what is to be learned. One strength of PSL is that it can be used for both robot control and recognition of behavior. While many methods for behavior recognition are concerned with identifying invariants within a set of demonstrations, PSL takes a different approach by using purely predictive measures. This may be one way to reduce the need for bias in learning. PSL is, in its current form, subjected to combinatorial explosion as the input space grows, which makes it necessary to introduce some higher level coordination for learning of complex behaviors in real-world robots.

The thesis also gives a broad introduction to computational models of the human brain, where a tight coupling between perception and action plays a central role. With the focus on generation of bias, typical features of existing attempts to explain humans' and other animals' ability to learn are presented and analyzed, from both a neurological and an information theoretic perspective. Based on this analysis, four requirements for implementing general learning ability in robots are proposed. These requirements provide guidance to how a coordinating structure around PSL and similar algorithms should be implemented in a model-free way.

Abstract [sv]

Arbetet som presenteras i den här avhandlingen undersöker tekniker för att lära robotar från demonstrationer (LFD). LFD är en väl etablerad teknik där en lärare visar roboten hur den ska göra. Den här avhandlingen fokuserar på LFD där en människa fjärrstyr roboten, som i sin tur tolkar demonstrationen så att den kan repetera beteendet vid ett senare tillfälle, även då omgivningen förändrats. Flera perspektiv på representation, igenkänning och inlärning av beteende presenteras och diskuteras från ett kognitionsvetenskaplig och datavetenskapligt perspektiv. LFD-relaterade koncept så som beteende, mål, demonstration och repetition definieras och analyseras, med fokus på hur förkunskap kan implementeras genom beteendeprimitiv. Analysen resulterar i en formalism där LFD beskrivs som övergångar mellan informationsrymder. I termer av formalismen föreslås även sätt att hantera tvetydigheter efter att en demonstration tolkats genom igenkänning av beteendeprimitiv.

Fem algoritmer för igenkänning av beteende presenteras och utvärderas, däribland algoritmen Predictive Sequence Learning (PSL). PSL är modellfri i bemärkelsen att den introducerar få antaganden om inlärningssituationen. PSL kan fungera som en algoritm för både kontroll och igenkänning av beteende. Till skillnad från flertalet tekniker för igenkänning av beteende använder PSL inte likheter i beteende mellan demonstrationer. PSL utnyttjar i stället prediktiva mått som kan minska behovet av domänkunskap vid inlärning. Ett problem med algoritmen är dock att den drabbas av kombinatorisk explosion då inputrymden växer vilket gör att någon form av högre koordination behövs för inlärning av komplexa beteenden.

Avhandlingen ger dessutom en introduktion till beräkningsmässiga modeller av hjärnan där en stark koppling mellan perception och handling spelar en central roll. Typiska egenskaper hos dessa modeller presenters och analyseras från ett neurologiskt och informationsteoretiskt perspektiv. Denna analys resulterar i fyra krav för att implementera generell inlärningsförmåga i robotar. Dessa krav ger vägledning till hur en koordinerande struktur för PSL och liknande algoritmer skulle kunna implementeras på ett modellfritt sätt.

sted, utgiver, år, opplag, sider
Umeå: Umeå universitet, Institutionen för datavetenskap, 2009. s. 138
Serie
Report / UMINF, ISSN 0348-0542 ; 09:20
HSV kategori
Forskningsprogram
data- och systemvetenskap
Identifikatorer
urn:nbn:se:umu:diva-32494 (URN)978-91-7264-925-5 (ISBN)
Presentation
2009-12-16, Naturvetarhuset, N300, Umeå Universitet, Umeå, 13:00 (svensk)
Opponent
Veileder
Tilgjengelig fra: 2010-03-15 Laget: 2010-03-14 Sist oppdatert: 2018-06-08bibliografisk kontrollert

Open Access i DiVA

fulltext(585 kB)395 nedlastinger
Filinformasjon
Fil FULLTEXT02.pdfFilstørrelse 585 kBChecksum SHA-512
402b1d3dfddad6696bde639052ee4f8af2c65203011c75181507717e1e261314fe66192e6bafda583cf0e9df1f37bff96b61f884344d9677aa19877ec88afc44
Type fulltextMimetype application/pdf

Andre lenker

Content

Person

Billing, ErikHellström, ThomasJanlert, Lars Erik

Søk i DiVA

Av forfatter/redaktør
Billing, ErikHellström, ThomasJanlert, Lars Erik
Av organisasjonen

Søk utenfor DiVA

GoogleGoogle Scholar
Totalt: 533 nedlastinger
Antall nedlastinger er summen av alle nedlastinger av alle fulltekster. Det kan for eksempel være tidligere versjoner som er ikke lenger tilgjengelige

isbn
urn-nbn

Altmetric

isbn
urn-nbn
Totalt: 2081 treff
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf