Blogpost

Deepmind @ Deeplearning Summit London

October 24, 2018
12:01 pm
.data, AI, Conferences

Op de deep learning summit conferentie in Londen hebben we enorm genoten van Deepmind. Deepmind haalt regelmatig de media en hun bekendste huzarenstukje is Alpha Go. Deze blogpost gaat over het huidige onderzoek van Raia Hadsell. Zij tracht de limieten van AI navigatie te verleggen door reinforcement learning te combineren met diepe neurale netwerken. Het einddoel is een end to end AI systeem dat puur op basis van zicht complexe navigatie aan kan. Cruciaal is dat de generieke kennis / intelligentie overdraagbaar moet zijn via transfer learning waardoor een generiek navigatie mechanisme gecreëerd wordt. Dit model zou volgende structuur hebben: Sensoren → Perceptie → Model van de wereld → Planning → Actie Het combineren van reinforcement learning met diepe neurale netwerken is een gebied waar Deepmind tot de absolute wereldtop behoort qua onderzoek. Deze techniek heeft reeds bewezen zeer goed te werken in contexten zoals computerspelletjes (Atari) en bordspellen (Alpha Go) maar als we dit willen toepassen op levensechte problemen zoals robot navigatie dan zijn er obstakels:

Kan een deep reinforcement learning agent verschillende navigatie taken leren? Kan men met andere woorden navigatie generaliseren?
Kan een deep reinforcement learning agent efficiënte navigatie toepassen want in essentie gaat het om een brute-force methode?

Kan een reinforcement learning agent leren van echte data ipv gesimuleerde data uit een gecontroleerde omgeving? De probleemcontext van navigatie is uitdagend en volgende vraagstellingen geven een idee van de complexiteit:

Waar ben ik?
Waar ga ik naartoe?
Waar ben ik gestart?
Hoe ver is X van Y?
Wat is het kortste pad van X naar Y?
Ben ik hier al geweest?
Hoelang duurt het eer ik op einddoel geraak?

Het onderzoek heeft tot nu gekeken naar doolhof navigatie waarbij de reinforcement agent het eindpunt moetvinden. Men varieert hierbij door verschillende doolhoven te gebruiken en/of door de start / eind locatie te veranderen.

In de eerste pogingen met een traditionele deep RL agent duurde het lang eer men een resultaat verkreeg en was er weinig sprake van intelligent gebruik van geheugen of efficiënt gedrag. Deze traditionele architectuur gebruikte een convolutional neural network om de perceptie van de pixels te verwerken in combinatie met een standaard deep RL agent. Het onderzoeksteam heeft vervolgens de architectuur aangepast door het gebruik van een LSTM cel in de architectuur en dit 2de baseline model was een verbetering, maar het resultaat was zeker niet aanvaardbaar.

Het idee erachter is dat de LSTM cel het netwerk een geheugen unit geeft. In een volgende stap is men tot de eigenaardige conclusie gekomen dat het systeem beter werkt als het zelf de diepte van de input mag voorspellen terwijl men deze in eerste instantie als input had gebruikt voor het 2de baseline model te verbeteren.

Tenslotte heeft men nog een 2de LSTM cel toegevoegd en is de snelheid van de agent tevens een input variabele geworden.Dit geeft in een groot doolhof volgende indrukwekkende resultaten waarbij het finale model wordt voorgesteld als de blauwe lijn. We zien dat deze architectuur heel snel qua resultaat stijgt in veel minder iteraties dan de vorige architecturen en dit wijst op efficiënt gebruik van geheugen en slim gedrag.

Het resultaat is op zich indrukwekkend, maar is nog steeds zeer research georiënteerd aangezien de doolhoven kunstmatig aangemaakt werden en de testen enkel resultaten tonen op kunstmatige RGB data. De volgende logische stap voor Deepmind was de mapping op echte data en het helpt als je moederbedrijf google heet en een dienst als street view in zijn wapenarsenaal heeft. Dit maakt de context realistisch maar tevens moeilijker omdat de doolhof structuur (die het algoritme niet ziet) complexer wordt.

De RGB afbeeldingen zijn daarnaast veel complexer en hebben meer noise. De deep reinforcement learning agent kreeg in deze street view wereld de courier task opdracht. Hij moet in Londen van plaats naar plaats navigeren op een optimale manier. De beloning stijgt gradueel als hij 400 meter in de buurt komt van het doel. Men heeft Londen gekozen omdat de test te vergelijken is met het befaamde Londense taxichauffeur examen.

Deze test wordt gezien als 1 van de moeilijkste testen in de wereld en de mensen die ervoor slagen studeren jaren erop. Ze moeten het volledige landschap van 25.000 straten met point of interests van buiten kennen. Het resultaat is indrukwekkend want de deep reinforcement learning agent is in staat geheugen efficiënt te gebruiken en een intelligentie te bouwen rond navigatie waarbij de agent in staat is te navigeren in gebieden die nooit gezien zijn.

Aspecten zoals de locatie van rivieren, tunnels, etc en interpretatie van die beelden om daarna slimme keuzes te maken spelen daar een rol in. Door de 2 LSTM cellen in de architectuur kan men het navigatie concept transfereren naar andere steden in de wereld door enkel 1 LSTM cel te trainen op de nieuwe data. Door transfer learning wordt het model dus inzetbaar in eender welke stad.

Dit onderzoek kadert in de strategie van Deepmind waar men krachtige algemene leer algoritmen ontwikkeld die de mens te goede komen. Ze trachten AI uit de narrow AI context te krijgen en het pad richting AGI te openen. Google heeft destijds 500 miljoen dollar betaald voor het bedrijf wat geen product of dienst aanbiedt en dit lijkt de zoveelste slimme overname te worden van de gigant.

Cookie	Duration	Description
__cfruid	session	Cloudflare sets this cookie to identify trusted web traffic.
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie records the user consent for the cookies in the "Advertisement" category.
cookielawinfo-checkbox-analytics	1 year	Set by the GDPR Cookie Consent plugin, this cookie records the user consent for the cookies in the "Analytics" category.
cookielawinfo-checkbox-necessary	1 year	Set by the GDPR Cookie Consent plugin, this cookie records the user consent for the cookies in the "Necessary" category.
cookielawinfo-checkbox-others	1 year	Set by the GDPR Cookie Consent plugin, this cookie stores user consent for cookies in the category "Others".
cookielawinfo-checkbox-preferences	1 year	CookieYes set this cookie to record the user consent for the cookies in the category "Functional".
CookieLawInfoConsent	1 year	CookieYes sets this cookie to record the default button state of the corresponding category and the status of CCPA. It works only in coordination with the primary cookie.
elementor	never	The website's WordPress theme uses this cookie. It allows the website owner to implement or change the website's content in real-time.
viewed_cookie_policy	1 year	The GDPR Cookie Consent plugin sets the cookie to store whether or not the user has consented to use cookies. It does not store any personal data.

Cookie	Duration	Description
_ga	1 year 1 month 4 days	Google Analytics sets this cookie to calculate visitor, session and campaign data and track site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognise unique visitors.
_ga_*	1 year 1 month 4 days	Google Analytics sets this cookie to store and count page views.
_gat_UA-*	1 minute	Google Analytics sets this cookie for user behaviour tracking.
_gid	1 day	Google Analytics sets this cookie to store information on how visitors use a website while also creating an analytics report of the website's performance. Some of the collected data includes the number of visitors, their source, and the pages they visit anonymously.
AnalyticsSyncHistory	1 month	Linkedin set this cookie to store information about the time a sync took place with the lms_analytics cookie.
CONSENT	2 years	YouTube sets this cookie via embedded YouTube videos and registers anonymous statistical data.
ln_or	1 day	Linkedin sets this cookie to registers statistical data on users' behaviour on the website for internal analytics.

Cookie	Duration	Description
_rdt_uuid	3 months	Reddit sets this cookie to build a profile of your interests and show you relevant ads.
bcookie	1 year	LinkedIn sets this cookie from LinkedIn share buttons and ad tags to recognize browser IDs.
bscookie	1 year	LinkedIn sets this cookie to store performed actions on the website.
VISITOR_INFO1_LIVE	5 months 27 days	YouTube sets this cookie to measure bandwidth, determining whether the user gets the new or old player interface.
YSC	session	Youtube sets this cookie to track the views of embedded videos on Youtube pages.
yt-remote-connected-devices	never	YouTube sets this cookie to store the user's video preferences using embedded YouTube videos.
yt-remote-device-id	never	YouTube sets this cookie to store the user's video preferences using embedded YouTube videos.
yt.innertube::nextId	never	YouTube sets this cookie to register a unique ID to store data on what videos from YouTube the user has seen.
yt.innertube::requests	never	YouTube sets this cookie to register a unique ID to store data on what videos from YouTube the user has seen.

Cookie	Duration	Description
li_gc	5 months 27 days	Linkedin set this cookie for storing visitor's consent regarding using cookies for non-essential purposes.
lidc	1 day	LinkedIn sets the lidc cookie to facilitate data center selection.
UserMatchHistory	1 month	LinkedIn sets this cookie for LinkedIn Ads ID syncing.

Blogpost

Deepmind @ Deeplearning Summit London

Join our tribe

Contact