Blogpost

Autoencoders

December 3, 2019
2:03 pm
.data, AI

In deze blogpost wordt een specifieke architectuur van een neuraal netwerk besproken, die verschillende toepassingsmogelijkheden heeft. Een autoencoder is een deep learning techniek die zich in de categorie van unsupervised machine learning bevindt.

Een autoencoder leert hoe men efficiënt informatie kan comprimeren en/of encoderen door middel van het volgende principe: men geeft de architectuur heel veel voorbeelden waarbij zowel de input als de output eenzelfde entiteit is. Het netwerk krijgt als taak om de input te reconstrueren maar wordt verplicht om dat via een bottleneck te doen. Daardoor verplicht men het netwerk de essentiële informatie bij te houden en eventuele overbodige data te laten vallen (en het netwerk bepaalt dat helemaal zelf).

De architectuur bestaat uit 4 delen:

De encoder leert hoe de input moet gereduceerd worden naar een beperkt aantal dimensies.
De bottleneck zorgt dat je op deze plaats in het netwerk een gecomprimeerde versie te pakken hebt van de originele input.
De decoder is verantwoordelijk om op basis van de gecomprimeerde versie de originele input terug te reconstrueren.
De loss function die het netwerk stuurt door te evalueren in welke mate de output op de input lijkt.

Dit unsupervised machine learning algoritme gebruikt gradient descent bij de optimalisatie van de loss function en is vergelijkbaar met een standaard neuraal netwerk.

Dat concept kan in verschillende situaties toegepast worden waarvan er hieronder een aantal besproken worden:

Anomaly detection : Indien de autoencoder geforceerd wordt om de essentie in data vast te leggen, betekent dit dat het is staat is om outliers uit data te halen. Je forceert dus dat het algoritme een bepaalde minimale error rate haalt (het slaagt er amper in om de reconstructie te doen) met geldige entiteiten tijdens de training. De input data bevat dus geen outliers. Vervolgens geeft men het algoritme enkele gekende anomalieën en de reconstructie error zou hoger moeten zijn bij een anomalie dan bij een geldig geval. Vanaf dat moment bestaat een systeem om anomalieën uit nieuwe data te halen (door een reconstructie error threshold te hanteren).
Noise reduction : Noise reduction houdt in dat noise uit een signaal (afbeeldingen, audio, etc…) gefilterd wordt en daarna ook verwijderd wordt. Het idee is hetzelfde als de vorige use case. Men voegt noise toe aan de input en verwacht de originele input (zonder noise) aan de output zijde. Men forceert het netwerk om de essentie vast te leggen omdat het maar een beperkt aantal neuronen heeft in de bottleneck van de architectuur.

Als de architectuur op de standaard manier gebruikt wordt, doet zich een probleem voor dat bij alle modellen die content produceren een probleem vormt. Dat probleem is creativiteit. Men wil een zekere vorm van creativiteit meegeven aan die modellen.

Met andere woorden wil men overweg kunnen met variaties die niet in de training data voorkwamen. Die variaties hoeven niet random te zijn maar situeren zich misschien in een specifieke richting.

Het fundamenteel probleem dat zich vormt, is dat de latent space representation in bovenstaande afbeelding niet doorlopend en continu is (er zitten gaten in de representatie ruimte).

Stel dat een persoon afbeeldingen van de getallen 1 ,2 ,3 ,4 ,5 ,6 ,7 ,8 en 9 zou gebruiken voor de training van een autoencoder en de decoder vervolgens een afbeelding van een cijfer moet genereren. Als men dan bijvoorbeeld de autoencoder limiteert tot 2 neuronen (en dus ook 2 dimensies), dan heeft de autoencoder er alle baat bij om de ruimte optimaal te gebruiken in het kader van reconstructie. In dat geval zal de autoencoder clusters gaan vormen waardoor die gemakkelijke grenzen heeft voor de reconstructie.

In bovenstaande visualisatie ruimte heeft het model geen weet van punt ?. Het ligt ergens tussen 1 en 7 maar het geeft geen idee dat er iets moet gegenereerd worden wat lijkt op een 1 en een 7. Het zit met ruimtes die totaal onbekend zijn.

Om dat probleem te verhelpen is het idee ontstaan van variational autoencoders. De latent space van dit type is continu en heeft die problematiek niet. Het bereikt deze eigenschap door de encoder geen n-dimensionale vector te laten genereren in de bottleneck van het netwerk. In de plaats daarvan, genereert het netwerk 2 vectoren van grootte n:

Een vector van gemiddelden (μ)
Een vector van standaard afwijkingen (σ)

Nu is het aan de decoder om van die distributie beschrijvingen een random sample te nemen bij het genereren. Die manier van genereren zorgt ervoor dat je toch telkens andere variaties in de output krijgt voor eenzelfde input. Men controleert enkel het middelpunt waarrond je sampling gebeurt en je controleert de variatie graad. Het model leert zelf om te gaan met variaties.

Het is wel belangrijk dat de verschillende instantiezones kort bij mekaar liggen en dat er zo weinig mogelijk ruimtes zijn die onbenut blijven tussen de mogelijkheden. Om dat af te dwingen, kan Kullback–Leibler divergence gebruikt worden binnen de loss function. Dat is een maatstaf voor het verschil tussen 2 probabiliteit distributies.

In een ideale situatie zijn de gemiddelden laag (kort bij de oorsprong) en is de standaardafwijking gelijk aan 1 (mooie normaalverdeling). Het netwerk probeert dat zelf dus ook na te streven.

Dat zorgt ervoor dat alle distributies van alle mogelijkheden (1 tot 9) ongeveer gelijk zijn en zich rond de oorsprong gaan situeren. Er gebeurt dus een afstraffing tijdens het leerproces als het algoritme regionen gaat creëren die ver uit mekaar liggen en/of zeer gevarieerd zijn qua distributie.

Als men echter puur naar de Kullback–Leibler divergence kijkt, zou dat resulteren in een latent space waarbij men geen rekening gehouden heeft met ‘gelijkenis vs afstand’. De decoder gaat dus veel moeite hebben om daar betekenisvolle creaties van te maken (zie onderstaande illustratie).

Wanneer men echter de reconstructie error rate combineert met de Kullback–Leibler divergence, dan krijgt men een latent space waarbij gelijkenis (van het cijfer) een rol speelt in de afstand verhoudingen van de representaties in de latent space en waarbij men globaal een dicht bevolkte ruimte krijgt met gelijkaardige zones die kort bij de oorsprong liggen.

De variational autoencoder zorgt dus voor zachte overgangen en geven het model een soort van robuustheid die hieronder wordt voorgesteld met muziek vectoren als voorbeeld. De decoder kan overweg met mengsels van klassieke en rock muziek en reageert hier niet wereldvreemd op terwijl tijdens de training dat genre niet representatief was (men had enkel rock en klassieke muziek voorbeelden).

Conclusie

De autoencoder architectuur kan in vele situaties toegepast worden en onderscheidt zich voornamelijk van andere architecturen omdat het overweg kan met dataverzamelingen die geen mooie balans hebben. Neurale netwerken houden in het algemeen van mooie verhoudingen in de data. Als men wil voorspellen of een foto een hond of een kat bevat, geeft men zo’n netwerk preferabel 50% foto’s van katten en 50% foto’s van honden. Maar in vele situaties heeft men die luxe niet.

Stel dat je fraude wilt achterhalen, dan moet je vaak tot de vaststelling komen dat je bv. slechts 1% van je data fraude zaken betreft. Daarnaast zou er in de 99% van de andere zaken wel fraude kunnen zitten maar je weet het niet met 100%. Het zijn zo’n scenario’s waar je de auto encoder los laat op de 99% van de data en een representatie laat bouwen van non-fraude zaken. Je hoopt dat de auto encoder een representatie van non-fraude vast legt en zo tevens de gekende fraudezaken kan herkennen, maar dat je ook nieuwe inzichten krijgt in andere fraudezaken (waar je niet eens van wist dat ze fraude waren).

Kristof Slechten

Softare Crafter

Kristof Slechten behaalde een master Informatica aan de VUB en is gespecialiseerd in projecten die betrekking hebben op big data & machine learning. Momenteel is Kristof aan de slag bij Imes Dexis waar hij onderzoekstrajecten rond machine learning uitwerkt. Daarnaast werkt Kristof mee aan verschillende interne onderzoeksprojecten rond AI.

Cookie	Duration	Description
__cfruid	session	Cloudflare sets this cookie to identify trusted web traffic.
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie records the user consent for the cookies in the "Advertisement" category.
cookielawinfo-checkbox-analytics	1 year	Set by the GDPR Cookie Consent plugin, this cookie records the user consent for the cookies in the "Analytics" category.
cookielawinfo-checkbox-necessary	1 year	Set by the GDPR Cookie Consent plugin, this cookie records the user consent for the cookies in the "Necessary" category.
cookielawinfo-checkbox-others	1 year	Set by the GDPR Cookie Consent plugin, this cookie stores user consent for cookies in the category "Others".
cookielawinfo-checkbox-preferences	1 year	CookieYes set this cookie to record the user consent for the cookies in the category "Functional".
CookieLawInfoConsent	1 year	CookieYes sets this cookie to record the default button state of the corresponding category and the status of CCPA. It works only in coordination with the primary cookie.
elementor	never	The website's WordPress theme uses this cookie. It allows the website owner to implement or change the website's content in real-time.
viewed_cookie_policy	1 year	The GDPR Cookie Consent plugin sets the cookie to store whether or not the user has consented to use cookies. It does not store any personal data.

Cookie	Duration	Description
_ga	1 year 1 month 4 days	Google Analytics sets this cookie to calculate visitor, session and campaign data and track site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognise unique visitors.
_ga_*	1 year 1 month 4 days	Google Analytics sets this cookie to store and count page views.
_gat_UA-*	1 minute	Google Analytics sets this cookie for user behaviour tracking.
_gid	1 day	Google Analytics sets this cookie to store information on how visitors use a website while also creating an analytics report of the website's performance. Some of the collected data includes the number of visitors, their source, and the pages they visit anonymously.
AnalyticsSyncHistory	1 month	Linkedin set this cookie to store information about the time a sync took place with the lms_analytics cookie.
CONSENT	2 years	YouTube sets this cookie via embedded YouTube videos and registers anonymous statistical data.
ln_or	1 day	Linkedin sets this cookie to registers statistical data on users' behaviour on the website for internal analytics.

Cookie	Duration	Description
_rdt_uuid	3 months	Reddit sets this cookie to build a profile of your interests and show you relevant ads.
bcookie	1 year	LinkedIn sets this cookie from LinkedIn share buttons and ad tags to recognize browser IDs.
bscookie	1 year	LinkedIn sets this cookie to store performed actions on the website.
VISITOR_INFO1_LIVE	5 months 27 days	YouTube sets this cookie to measure bandwidth, determining whether the user gets the new or old player interface.
YSC	session	Youtube sets this cookie to track the views of embedded videos on Youtube pages.
yt-remote-connected-devices	never	YouTube sets this cookie to store the user's video preferences using embedded YouTube videos.
yt-remote-device-id	never	YouTube sets this cookie to store the user's video preferences using embedded YouTube videos.
yt.innertube::nextId	never	YouTube sets this cookie to register a unique ID to store data on what videos from YouTube the user has seen.
yt.innertube::requests	never	YouTube sets this cookie to register a unique ID to store data on what videos from YouTube the user has seen.

Cookie	Duration	Description
li_gc	5 months 27 days	Linkedin set this cookie for storing visitor's consent regarding using cookies for non-essential purposes.
lidc	1 day	LinkedIn sets the lidc cookie to facilitate data center selection.
UserMatchHistory	1 month	LinkedIn sets this cookie for LinkedIn Ads ID syncing.

Blogpost

Autoencoders

Conclusie

Kristof Slechten

Softare Crafter

Join our tribe

Contact