Blogpost

Deep Instinct – Malware detection using deep learning

Tijdens de Deep Learning Summit in Londen hebben we erg veel interessante en technisch sterke talks gezien.

Eén van deze sprekers is me tot op de dag van vandaag bijgebleven. De talk van Dr. Eli David was erg leerrijk. Ik heb zelden zo’n goede spreker gezien. Dr. Eli David is een leidinggevende expert in het veld van computational intelligence en is een echte specialist op het vlak deep learning. Hij publiceerde reeds meer dan 40 papers, die vooral focusten op het vlak van genetische algoritmes en deep learning. Hij geeft ook les over deze onderwerpen en ondersteunt het onderzoek van graduaat studenten in deze onderzoeksvelden. Daarnaast won hij reeds meerdere awards en is hij co-founder van Deep Instinct, een bedrijf dat deep learning toepast op cyber security.

Deep instinct logoDeep Instinct is een bedrijf dat een oplossing op maat aanbiedt aan bedrijven die zich willen beveiligen tegen malware die binnen kan komen via verscheidene kanalen. We herinneren ons allemaal nog wel het WannaCry virus dat voor enorme problemen gezorgd heeft. De kosten die dit met zich mee kan brengen kunnen al snel uitlopen tot honderden miljoenen euro’s. 

De meeste security bedrijven hebben het zeer lastig om met nieuwe malware om te kunnen gaan. Maar nieuwe malware verschilt typisch niet fel van oudere en het zijn vaak subtiele modificaties die voor grote problemen zorgen. Als we denken aan bijvoorbeeld gezichtsherkenning, weten we dat dit vrij goed blijft werken ook al zijn er kleine veranderingen zoals het groeien van een baard e.d.

In principe zou je dus kunnen stellen dat als ze een manier zouden vinden om hun data als input te geven aan een deep learning neuraal netwerk, het probleem vrij eenvoudig op te lossen zou moeten zijn.

jgpeuoavmn7pwbh98ycsHet enige wat ze nodig hebben om dit te laten werken is grote hoeveelheden trainingsdata, GPU’s, deep learning expertise en een deep learning framework. Echter hebben ze nog een zeer belangrijke bijkomende constraint. Indien ze security willen aanbieden moet dit werken op eender welk device: gaande van vaste computers tot laptops, tablets en zelfs smartphones. Bestaande frameworks zijn meestal gemaakt voor onderzoek, om in de cloud te kunnen werken en vereisen vrij veel processor en geheugen capaciteit. Om het nog erger te maken laten deze frameworks het niet toe om sommige stukken (zogenaamde building blocks) aan te passen, om de algoritmes aan te passen en dit is cruciaal voor cyber security.

De uitdagingen zijn dus als volgt: ze kunnen geen convolutional neural networks gebruiken. Ze kunnen geen volledig geconnecteerde netwerken gebruiken en de input kan verschillen van formaat en van grootte.

Deep Instinct heeft dus de grote stukken zitten herschrijven zodat deze binaire files als input nemen en kunnen om gaan met input van verschillende grootte en andere formaten. Het komt er eigenlijk op neer dat ze het hele deep learning framework hebben moeten herschrijven vanaf nul, volledig in C en Cuda.

Het resultaat mag er zijn. Hoewel ze er moeilijk een getal kunnen opplakken, maken ze zich wel sterk dat ze het beter doen dan hun concurrenten. Momenteel kunnen ze zelfs achterhalen van welk land de aanval komt met een accuracy van ongeveer 94.6 procent.