Catégories
français pure theory

Les « nouveaux » qui ont façonné les moteurs de recherche modernes 

Tomáš Mikolov

Chercheur en informatique, il fait partie des personnalités les plus marquantes de la nouvelle génération du machine learning. Il est l’auteur principal de l’algorithme Word2vec et l’un des créateurs de FastText. Biographie de Tomáš Mikolov.

Tomáš Mikolov est né en 1982 à Šumperk, en République tchèque. Il obtient en 2012 un doctorat, en informatique, de l’Université de technologie de Brno. Ses travaux portaient déjà sur les réseaux de neurones récurrents (RNNs en anglais).

Il rejoint alors Google dans le cadre d’une visite scientifique de quelques mois. Là bas, il initie le développement de Word2vec. Il s’agit d’une des premières méthodes qui va utiliser des réseaux de neurones pour créer un encodage des textes qui permet de comprendre le contexte dans lequel les mots sont utilisés les uns par rapport aux autres. C’est une révolution pour le traitement de la langue naturelle, et pour les moteurs de recherche.

En 2014, Tomáš Mikolov rejoint Facebook. Il poursuit le développement d’algorithmes de NLP, avec toujours pour but d’obtenir une communication homme-machine la plus naturelle possible.
Il va alors, en collaboration avec d’autres chercheurs, mettre au point FastText. FastText est une bibliothèque pour l’apprentissage des représentations de mots et de classification des phrases. Il s’agit encore une fois d’un modèle permettant d’obtenir des représentations vectorielles pour les mots. Il est plus performant et plus fin dans sa compréhension du contexte que les modèles concurrents, et par ailleurs il « tourne » sur CPU, ce qui permet des gains techniques assez importants.

En 2019, il est l’un des lauréats du prix Neuron pour “découverte scientifique majeure en intelligence artificielle”. Il est récompensé pour ses travaux sur les modèles de la langue.

En mars 2020, Tomáš Mikolov retourne en République tchèque et rejoint l’Institut d’informatique, de robotique et de cybernétique. Il constitue une équipe dont l’objectif est de créer un système pour développer progressivement une intelligence artificielle forte.

Alors que le développement de l’intelligence artificielle est controversé et parfois perçu comme une menace, Tomáš Mikolov croit tout le contraire. Lors de la conférence sur l’IA organisé par GoodAI à Pragues en 2018, il suggère que de ne pas développer l’IA serait plus risqué que de le faire, face aux catastrophes à venir et à la capacité des machines à nous rendre plus intelligents.

En parallèle, chez Google, Jacob Devlin crée l’invention concurrente de FastText, l’algorithme BERT.

Jacob Devlin

Page LinkedIn de Jacob Devlin

Jacob Devlin est un chercheur en intelligence artificielle. Il est l’un des créateurs du modèle de la langue BERT (Bidirectional Encoder Representations from Transformers).

Diplômé de l’Université du Maryland, il a travaillé en tant que chercheur « principal » chez Microsoft Research. Il y a dirigé la délicate transition de l’outil de traduction Microsoft Translate de l’approche un peu ancienne linguiste vers une approche à base de réseaux de neurones.

En 2017 il rejoint Google, où il développe des modèles d’apprentissage puissants, rapides et évolutifs pour la recherche d’information, la réponse automatique aux questions et différentes tâches liées à la compréhension du langage.

Historiquement, les langues sont difficiles à « comprendre » pour les ordinateurs. Ils pouvaient facilement collecter, stocker et lire des entrées de texte mais ne prenaient pas en compte le contexte linguistique. Les travaux de divers chercheurs, dont Tomáš Mikolov ou Jacob Devlin, ont permis d’avancer sur ses sujets, avec notamment des algorithmes construisant des modèles de la langue qui « embarquent » des informations de contexte.

En ce qui le concerne, Jacob Devlin est à l’origine de l’un des plus récent algorithme de Google : BERT. BERT est une chaîne de traitement à base de réseaux de neurones spécifiques : les transformers. Ces derniers sont basés sur une idée forte : le mécanisme d’attention, qui apprend les relations contextuelles entre les mots importants (qui mérite l’attention) dans un texte. Le but de l’algorithme BERT est de générer un modèle de la langue analysée, dans le but de mieux faire comprendre au moteur de recherche le contenu des pages web, mais aussi et surtout le sens des requêtes tapées par les internautes lors de leur interrogation du moteur.

Tomáš Mikolov et Jacob Devlin sont ceux qui façonnent les moteurs de recherche. Ils font partie des (jeunes) chercheurs à l’origine d’un courant de pensée novateur qui a particulièrement modifié les moteurs de recherche modernes.