Report 2349

L'intelligence artificielle a été présentée par certains membres de la communauté de la sécurité comme la solution miracle dans la détection des logiciels malveillants. Ses partisans disent qu'il est supérieur à l'antivirus traditionnel, car il peut détecter de nouvelles variantes et des logiciels malveillants inédits, comme les exploits du jour zéro, qui sont le talon d'Achille de l'antivirus. L'un de ses plus grands partisans est la société de sécurité BlackBerry Cylance, qui a misé son modèle commercial sur le moteur d'intelligence artificielle dans son système de détection des terminaux PROTECT, qui [la société dit](https://threatvector.cylance.com/en_us/home /ais-unique-ability-to-stop-tomorrows-threats-today.html) a la capacité de détecter de nouveaux fichiers malveillants deux ans avant même que leurs auteurs ne les créent.

Mais des chercheurs australiens affirment avoir trouvé un moyen de subvertir l'algorithme d'apprentissage automatique dans PROTECT et de le faire étiqueter à tort des logiciels malveillants déjà connus en tant que "goodware". La méthode n'implique pas de modifier le code malveillant, comme le font généralement les pirates pour échapper à la détection. Au lieu de cela, les chercheurs ont développé une méthode de "contournement global" qui fonctionne avec presque tous les logiciels malveillants pour tromper le moteur Cylance. Cela implique simplement de prendre des chaînes d'un fichier non malveillant et de les ajouter à un fichier malveillant, incitant le système à penser que le fichier malveillant est bénin.

Les chaînes bénignes qu'ils ont utilisées provenaient d'un programme de jeu en ligne, qu'ils ont refusé de nommer publiquement afin que Cylance ait une chance de résoudre le problème avant que les pirates ne l'exploitent.

"Pour autant que je sache, il s'agit d'une première attaque mondiale éprouvée contre le mécanisme ML [machine learning] d'une société de sécurité", déclare Adi Ashkenazy, PDG de la société basée à Sydney [Skylight Cyber](https:/ /skylightcyber.com/2019/07/18/cylance-i-kill-you/), qui a mené la recherche avec le CTO Shahar Zini. "Après environ quatre ans de super battage [à propos de l'IA], je pense que c'est un exemple humiliant de la façon dont l'approche fournit une nouvelle surface d'attaque qui n'était pas possible avec les anciens [logiciels antivirus]."

La méthode fonctionne parce que l'algorithme d'apprentissage automatique de Cylance a un biais vers le fichier bénin qui l'amène à ignorer tout code malveillant et les fonctionnalités d'un fichier malveillant s'il voit également des chaînes du fichier bénin attaché à un fichier malveillant, ce qui annule essentiellement la conclusion correcte. le moteur de détection devrait faire autrement. L'astuce fonctionne même si le moteur Cylance a précédemment conclu que le même fichier était malveillant, avant que les chaînes bénignes ne lui soient ajoutées.

Les chercheurs ont testé leur attaque contre le WannaCry ransomware qui a paralysé les hôpitaux et les entreprises du monde entier en 2017, ainsi que le plus récent ransomware Samsam, le populaire L'outil de piratage Mimikatz et des centaines d'autres fichiers malveillants connus, ajoutant les mêmes chaînes bénignes du programme de jeu à chaque fichier malveillant, et dans presque tous les cas, ils ont réussi à tromper le moteur Cylance.

Martijn Grooten, rédacteur en chef de Virus Bulletin, qui effectue des tests et des revues de programmes de détection de logiciels malveillants, a qualifié la recherche de rétro-ingénierie d'impressionnante et techniquement intéressante, mais n'a pas été surpris par les résultats.

"C'est ainsi que fonctionne l'IA. Si vous le faites ressembler à des fichiers bénins, alors vous pouvez le faire", a déclaré Grooten à Motherboard. "Cela montre surtout que vous ne pouvez pas compter sur l'IA seule... L'IA n'est pas une solution miracle... Je soupçonne qu'elle s'améliorera dans ce genre de choses avec le temps."

Un expert en apprentissage automatique auquel Motherboard s'est entretenu est d'accord.

"Habituellement, vous essayez de travailler avec l'apprentissage automatique pour couvrir … des choses qui sont largement inconnues ou que vous ne pouvez pas faire manuellement", a déclaré l'expert, qui a demandé à rester anonyme car son entreprise ne l'autorise pas à parler aux médias. "Et cela fonctionne généralement assez bien, jusqu'à ce que vous ayez des cas particuliers où vous ne pouvez pas simplement faire fonctionner le modèle."

Bien qu'il ne reproche pas à Cylance d'avoir fait une erreur, il reproche à l'entreprise d'avoir fait la promotion de l'IA dans son marketing lorsque le système contient un biais qui sape essentiellement l'IA.

"Leur crime n'est pas d'avoir mal codé l'IA. Leur crime est d'appeler ce qu'ils ont fait IA", a-t-il déclaré à Motherboard.

Cylance se classe environ huit parmi les dix premiers entreprises de sécurité des terminaux, après Symantec, Kaspersky et TrendMicro. Mais l'activité de l'entreprise se développe rapidement ; l'année dernière, il a obtenu un financement de 120 millions de dollars et cette année a été acquise par BlackBerry en un accord de 1,4 milliard de dollars.

PROTECT de Cylance n'est pas le seul produit de sécurité qui utilise l'intelligence artificielle. D'autres entreprises comme Symantec, Crowdstrike et Darktrace l'utilisent également, mais Ashkenazy et Zini n'ont pas testé ces systèmes et il n'est pas clair qu'ils souffriraient du même biais, car ils sont architecturés différemment et ne dépendent pas autant de la machine. apprendre à détecter les fichiers malveillants comme le fait le système Cylance.

"L'un des arguments de vente de [Cylance]... ils disent qu'il ne faut plus courir après les signatures et les mises à jour. Nous entraînons le modèle une fois, et... vous n'aurez pas à réentraîner le modèle avant quelques années. C'est très convaincant , si cela fonctionne réellement », a déclaré Ashkenazy.

Mais pour résoudre le problème que lui et son collègue ont trouvé dans le moteur Cylance, la société devra recycler le système, ce qui pourrait être un "processus coûteux et complexe", a déclaré Ashkenazy.

L'intelligence artificielle présente plusieurs avantages par rapport aux antivirus traditionnels. Dans les systèmes traditionnels, le fournisseur doit analyser chaque nouveau fichier et envoyer de nouvelles signatures ou heuristiques à ses scanners pour le détecter. (Les signatures recherchent des chaînes de code ou des données spécifiques qui sont uniques à un élément de logiciel malveillant ; l'heuristique examine l'activité dans laquelle le code est engagé pour repérer les actions caractéristiques du logiciel malveillant.) Mais, selon Cylance, son moteur ne fonctionne pas. nécessitent une mise à jour à chaque fois que de nouveaux logiciels malveillants ou des variantes de logiciels malveillants existants sont découverts. Les systèmes de détection d'apprentissage automatique sont censés reconnaître non seulement les fichiers et activités malveillants connus, mais également en détecter de nouveaux.

Dans un test mené par SELabs et commandé par Cylance, une version de son logiciel 2015 avait la capacité de détecter des variantes du rançongiciel Cerber et d'autres programmes malveillants qui n'étaient pas apparus dans la nature avant 2016 et 2018.

Pour déterminer si un fichier est malveillant ou bénin, le moteur Cylance examine 4 millions de fonctionnalités ou points de données différents, selon Ryan Permeh, fondateur et scientifique en chef de Cylance. Ceux-ci incluent des éléments tels que la taille du fichier, les éléments structurels présents et l'entropie (le niveau de caractère aléatoire), etc. Les programmeurs de Cylance "entraînent" ensuite le moteur en lui montrant environ un [milliard de fichiers malveillants et bénins](https:// s7d2.scene7.com/is/content/cylance/prod/cylance-web/en-us/resources/knowledge-center/resource-library/data-sheets/AI_ML_DataSheet.pdf) et ajustez le système pour affiner sa détection. Mais pendant la formation, le système examine également les fichiers à la recherche de modèles pour voir comment les variantes de logiciels malveillants évoluent au fil du temps afin d'anticiper à quoi pourraient ressembler les nouveaux logiciels malveillants, essentiellement en « prédisant » ce que les auteurs de logiciels malveillants feront avant qu'ils ne le fassent. Les modèles sont recyclés, dit Permeh, mais seulement environ tous les six mois, et les utilisateurs n'ont qu'à mettre à jour leur logiciel s'ils veulent les dernières fonctionnalités et améliorations de performances.

Mais aucune de ces formations et de ces tests n'a d'importance si l'algorithme a un biais qui l'entraîne également à ignorer ce qu'il apprend de cette autre formation. C'est essentiellement ce que les chercheurs de Skylight Cyber ont découvert.

Ils ont acheté une copie du programme Cylance et l'ont rétro-conçu pour déterminer quelles fonctionnalités ou points de données l'agent examinait pour déterminer si un fichier est bénin ou malveillant et ils ont également étudié comment ces fonctionnalités sont pondérées pour arriver au score le programme donne chaque fichiers.

Le système Cylance analyse chaque fichier en fonction de ces points de données et attribue un score au fichier compris entre -1 000 et 1 000 (-1 000 étant un fichier contenant les fonctionnalités ou les points de données les plus ou les pires malveillants). Les scores sont visibles dans le fichier journal du programme.

Lorsqu'ils ont vu le nombre de fonctionnalités analysées par le programme, les chercheurs ont d'abord craint qu'il ne leur faille des semaines ou des mois pour trouver celles qui avaient le plus de poids dans le processus de décision de l'algorithme. C'est-à-dire jusqu'à ce qu'ils découvrent que Cylance avait également mis en liste blanche certaines familles de fichiers exécutables pour éviter de déclencher des faux positifs sur des logiciels légitimes.

Soupçonnant que l'apprentissage automatique pourrait être biaisé en faveur du code dans ces fichiers sur liste blanche, ils ont extrait des chaînes d'un programme de jeu en ligne que Cylance avait mis sur liste blanche et l'ont joint à des fichiers malveillants. Le moteur Cylance a marqué les fichiers comme étant bénins et a déplacé leurs scores de nombres négatifs élevés à des nombres positifs élevés. Le score de Mimikatz est passé de -799 à 998. WannaCry est passé de -1000 à 545. Les chercheurs l'assimilent à enfiler un masque avec un bec et à avoir un système de reconnaissance faciale qui vous identifie comme un oiseau, ignorant toutes les autres caractéristiques qui vous indiquent. re juste une personne portant un bec artificiel.

Ils ont testé les dix principaux programmes malveillants cités par le Center for Internet Security, puis ont élargi leur test pour inclure 384 fichiers malveillants supplémentaires extraits de référentiels en ligne de logiciels malveillants. Le score moyen avant d'ajouter les chaînes bénignes du programme de jeu sur liste blanche était de -0,92. Après avoir ajouté les cordes, le score moyen était de 0,63. Environ 84% des fichiers ont contourné la détection une fois qu'ils ont ajouté les chaînes de jeu, bien que certains fichiers soient toujours étiquetés comme malveillants, mais avec des scores considérablement modifiés par rapport à avant.

Ils ne se sont pas contentés d'exécuter les fichiers sur le programme Cylance statique - ils ont exécuté les fichiers malveillants sur une machine virtuelle sur laquelle Cylance PROTECT était exécuté, pour voir s'il intercepterait les fichiers malveillants en action. La théorie était que même si le produit était trompé par les chaînes, l'action malveillante du fichier serait toujours détectée par Cylance, mais ce n'était pas le cas.

Ashkenazy a déclaré que l'utilisation de la liste blanche dans un programme d'IA est étrange, mais comprend pourquoi Cylance l'a fait, si son moteur créait de faux positifs sur ces programmes. Le vrai problème, a-t-il dit, était de donner aux programmes de la liste blanche plus de poids dans la notation de l'algorithme, les obligeant à annuler une décision que l'algorithme prendrait normalement si un fichier n'avait pas les chaînes bénignes en annexe. Il a également déclaré que le fait de ne pas utiliser de signatures de sauvegarde ou d'heuristiques pour revérifier la conclusion de l'algorithme, et de s'appuyer sur l'IA à la place, a causé les échecs.

Permeh, qui est également l'architecte du moteur d'apprentissage automatique de Cylance, a déclaré qu'il utilisait également des signatures et des heuristiques codées en dur dans son produit et ne s'appuyait pas entièrement sur l'apprentissage automatique, mais que l'IA prévalait dans la détection.

Il a cependant reconnu à Motherboard le potentiel du type de contournement découvert par les chercheurs.

« D'une manière générale, dans tous ces scénarios d'IA, les modèles sont probabilistes. Lorsque vous en entraînez un, vous apprenez ce qui est bon et ce qui est mauvais... En nous entraînant à ce qui est un bon fichier, nous en apprenons les attributs... [et ] il est tout à fait possible que nous ayons surestimé la qualité de cela », a-t-il déclaré à Motherboard lors d'un appel téléphonique. "L'un des aspects intéressants du fait d'être fondamentalement le premier à adopter une approche axée sur l'IA, c'est que nous apprenons encore. Nous investissons beaucoup dans la recherche défavorable, mais c'est toujours une évolution."

Contrairement à ce qu'a dit Ashkenazy, Permeh ne pense pas qu'il faudra longtemps pour recycler l'algorithme pour résoudre le problème une fois qu'il connaîtra les détails du contournement global. Ashkenazy n'a pas contacté Cylance avant de contacter Motherboard pour divulguer le problème.

Mais Ashkenazy pense que le problème prendra plus de temps à résoudre que ne le pense Permeh.

"Le parti pris envers les jeux et ces fonctionnalités est là pour une raison", a déclaré Ashkenazy. "Ils recevaient des faux positifs pour les jeux, donc se recycler sans sacrifier la précision ou le taux de faux positifs ne peut pas être aussi simple."

En fin de compte, Ashkenzy ne pense pas que Cylance soit en faute pour avoir utilisé l'apprentissage automatique, juste pour l'avoir exagéré et s'y être si fortement appuyé pour la détection.

"Je pense en fait qu'ils ont fait un travail décent en appliquant la technologie actuelle de l'IA à la sécurité", a-t-il déclaré à Motherboard. "Il a juste des défauts inhérents, comme la possibilité d'avoir un biais exploitable qui devient un contournement global avec une solution coûteuse."

Problème 2349

Les chercheurs trompent facilement l'antivirus basé sur l'IA de Cylance en lui faisant croire que les logiciels malveillants sont des « bons logiciels »