Dit model zou volgende structuur hebben:
Sensoren → Perceptie → Model van de wereld → Planning → Actie
Het combineren van reinforcement learning met diepe neurale netwerken is een gebied waar Deepmind tot de absolute wereldtop behoort qua onderzoek. Deze techniek heeft reeds bewezen zeer goed te werken in contexten zoals computerspelletjes (Atari) en bordspellen (Alpha Go) maar als we dit willen toepassen op levensechte problemen zoals robot navigatie dan zijn er obstakels:

- Kan een deep reinforcement learning agent verschillende navigatie taken leren? Kan men met andere woorden navigatie generaliseren?
- Kan een deep reinforcement learning agent efficiënte navigatie toepassen want in essentie gaat het om een brute-force methode?
Kan een reinforcement learning agent leren van echte data ipv gesimuleerde data uit een gecontroleerde omgeving?

De probleemcontext van navigatie is uitdagend en volgende vraagstellingen geven een idee van de complexiteit:
- Waar ben ik?
- Waar ga ik naartoe?
- Waar ben ik gestart?
- Hoe ver is X van Y?
- Wat is het kortste pad van X naar Y?
- Ben ik hier al geweest?
- Hoelang duurt het eer ik op einddoel geraak?
In de eerste pogingen met een traditionele deep RL agent duurde het lang eer men een resultaat verkreeg en was er weinig sprake van intelligent gebruik van geheugen of efficiënt gedrag. Deze traditionele architectuur gebruikte een convolutional neural network om de perceptie van de pixels te verwerken in combinatie met een standaard deep RL agent.
Het onderzoeksteam heeft vervolgens de architectuur aangepast door het gebruik van een LSTM cel in de architectuur en dit 2de baseline model was een verbetering, maar het resultaat was zeker niet aanvaardbaar. Het idee erachter is dat de LSTM cel het netwerk een geheugen unit geeft. In een volgende stap is men tot de eigenaardige conclusie gekomen dat het systeem beter werkt als het zelf de diepte van de input mag voorspellen terwijl men deze in eerste instantie als input had gebruikt voor het 2de baseline model te verbeteren. Tenslotte heeft men nog een 2de LSTM cel toegevoegd en is de snelheid van de agent tevens een input variabele geworden.




Door de 2 LSTM cellen in de architectuur kan men het navigatie concept transfereren naar andere steden in de wereld door enkel 1 LSTM cel te trainen op de nieuwe data. Door transfer learning wordt het model dus inzetbaar in eender welke stad.
Recente reacties