Catégories
français pure theory

Qui est Gerard Salton ?

Né Gerhard Anton Sahlmann, le 8 mars 1927 à Nuremberg et mort le 29 août 1995, scientifique, professeur et chercheur en informatique. Il est considéré comme un pionnier dans le domaine de la recherche d’information, c’est le “père” de la récupération d’information sur le web. On lui doit le développement du modèle vectoriel pour la recherche d’information et le développement du SMART Information Retrieval System… Présentation de Gerard Salton. 

Contraint de fuir lors de la Seconde Guerre mondiale, il arrive aux Etats-Unis en 1947. Il obtient son diplôme en mathématiques en 1950, puis sa maîtrise en 1952, au Brooklyn College. En 1958, il obtient un doctorat en mathématiques appliquées de l’Université d’Harvard, dans laquelle il sera professeur jusqu’en 1965. Il y dirige le groupe qui est à l’origine du modèle appelé SMART ( System for the Mechanical Analysis and Retrieval of Text) qui est un système de recherche d’information (information retrieval en anglais).

Il rejoint ensuite l’Université Cornell et co-fonde le département d’informatique où il enseignera tout le reste de sa vie. Membre de l’ACM (Association for Computing Machinery), il en devient le rédacteur en chef des communication et du Journal. Il siège à son conseil pendant sept ans.

A l’origine de la discipline appelée “recherche d’information”, Gerard Salton a inventé et structuré une très grande partie de ce qui va servir plus tard aux moteurs de recherche. Il crée l’ensemble des algorithmes dont la mesure de pertinence et le Cosinus de Salton.

Largement utilisé à ce jour, Salton est l’un des premiers à avoir développé ce modèle d’espace vectoriel pour la récupération d’informations. Dans ce modèle, documents et recherches sont représentés sous forme de vecteurs et la similitude entre le document et la requête est donnée par le cosinus entre le vecteur sémantique et le vecteur du document.

Plus l’angle est fermé, plus les vecteurs sont alignés, plus les textes sont identiques. De même, plus l’angle entre le vecteur de la requête (Q) et celui d’un document (D) est petit, plus le document est pertinent pour la requête.

Pour comparer plusieurs pages web et identifier celles qui répond le mieux à une requête d’un internaute, les moteurs de recherche utilisent différents systèmes, dont le Cosinus de Salton.

De plus, dans le domaine du SEO, le Cosinus de Salton joue également un rôle important. Grâce au calcul du degré de similarité entre deux contenus, cette méthode permet de détecter du “duplicate content”. Deux pages web dont le contenu est similaire auront les mêmes données vectorielles et l’angle du cosinus entre eux sera donc égal à 1.

Il est l’auteur de pas moins de 150 articles de recherches, dont plusieurs ont pour sujet la recherche d’information. Nombreux sont les honneurs qu’il reçoit dont les plus prestigieux sont la bourse Guggenheim en 1962, le prix ASIS du meilleur article scientifiques de l’information en 1970, le meilleur livre de sciences de l’information en 1975, le prix du mérite de l’ASIS en 1989. Il est le premier lauréat du prix SIGIR pour ses travaux, jugés exceptionnels, liés à l’étude de la recherche d’information. Ce prix est aujourd’hui nommé… Gerard Salton.

En plus de ces nombreuses contributions scientifiques, Gerard Salton est reconnu pour être un pédagogue dont les étudiants ont à leur tour marqué les années 70 et 80. Parmi eux, Karen Sparck-Jones à qui l’on doit la TF-IDF, mesure de pertinence qui donne un poids aux mots dans un texte pour mieux comprendre de quoi celui-ci parle; Stephen Robertson, qui dans la continuité des travaux de Karen Sparck-Jones, va proposer un modèle plus évolué de la pondération de texte. Et enfin, Amit Singhal, thésard de Gerard Salton, qui après avoir rejoint Google, va entièrement recoder la moitié du moteur de recherche, en prolongement des idées de Gerard Salton.


Quelques publications de Gerard Salton :

Salton Gerard, Automatic Information Organization and Retrieval, McGraw-Hill, New York, 1968.

Salton Gerard, The SMART Retrieval System : Experiments in Automatic Document Processing, Prentice – Hall, Englewood Cliffs, NJ., 1971

Salton, Gerard, Dynamic Information and Library of Processing, Prentice-Hall, Englewood Cliffs, NJ., 1975

Salton, Gerard et Michael J.McGill, Introduction à la récupération moderne de l’information, McGraw-Hill, New York, 1983


Sources :

Gerard Salton, en-academic, https://en-academic.com/dic.nsf/enwiki/282045

Gerard Salton, J.A.N Lee, IEEE Computer Society, https://history.computer.org/pioneers/salton.html

Gerard Salton, Peoplepill, https://peoplepill.com/people/gerard-salton/

Définition du Cosinus de Salton, Définitions SEO, https://www.definitions-seo.com/definition-du-cosinus-de-salton/

Modèle vectoriel, Wikipédia, https://fr.wikipedia.org/wiki/Modèle_vectoriel

SMART Information Retrieval System, Wikipédia, https://en.wikipedia.org/wiki/SMART_Information_Retrieval_System

Gerard Salton Awards, SIGIR, https://sigir.org/awards/gerard-salton-awards/