Catégories
français pure theory

Qui est Karen Spärck Jones ?

Scientifique et chercheuse en informatique, ses travaux se sont portés sur le traitement automatique du langage naturel et la recherche d’information. On lui doit la méthode TF-IDF, mesure de pertinence pondérée, aujourd’hui toujours utilisée dans la plupart des moteurs de recherche. Présentation de Karen Spärck Jones.

Née le 26 août 1935 à Huddersfield au Royaume-Uni, Karen Spärck Jones rejoint en 1953 le Girton College de Cambridge, l’un des collèges de l’Université de Cambridge. Elle y étudie l’histoire et la philosophie dans le département des sciences morales. Elle rencontre Margaret Masterman, responsable de l’unité de recherche linguistique de Cambridge qui lui donnera envie de travailler dans le domaine.

Elle commence donc à travailler pour Margaret Masterman avec pour objectif de programmer un ordinateur pour qu’il comprenne des mots pouvant avoir plusieurs significations et entreprend ainsi de programmer un dictionnaire de synonymes. L’article qu’elle publie en 1964, Synonymy and semantic classification (Synonymie et classification sémantique) est considéré comme un document fondateur et fondamental dans le domaine du traitement du langage naturel.

En 1972, Karen Spärck Jones publie un article dans le Journal of Documentation, A statistical interpretation of term specificity and its application in retrieval« , dans lequel elle donne les bases des moteurs de recherche en combinant statistiques et linguistique. Elle indique de quelle manière les ordinateurs interprètent les relations entre les mots. Ce modèle consiste en une mesure de pertinence pondérée qui donne un poids aux mots dans un texte afin de mieux comprendre de quoi parle le texte. Ce modèle est aujourd’hui utilisé dans la plupart des moteurs de recherche – avec de nombreuses évolutions -, sous le nom de TF-IDF.

En recherche d’information, une fois que des documents sont identifiés comme pouvant répondre à une requête, il faut les classer par ordre de pertinence. L’utilisation de la TF-IDF permet d’établir une description des documents dans un modèle vectoriel.

TF est l’abréviation de “Term Frequency”, ce qui signifie “fréquence du terme”. Il s’agit de déterminer la fréquence d’un mot dans un document.

IDF est l’abréviation de “Inverse Document Frequency”, ce qui signifie “fréquence Inverse de Document”. Il s’agit d’établir si un mot dans un document est rare ou non dans la langue en général, en application de l’idée selon laquelle les mots les plus rares sont toujours plus porteurs de sens.

En associant le facteur TF au facteur IDF, on peut ainsi associer la présence “physique” du mot dans un texte avec le poids de son importance “en général”. La TF-IDF, Il permet ainsi de définir la pertinence d’un mot-clé précis dans un texte.

Pour le référencement, la TF-IDF est utile pour optimiser son contenu. Elle permet de viser un meilleur positionnement dans la SERP pour la recherche de certains mots – même si de nos jours on préfère des évolutions plus performantes qui prennent en compte des formes de cooccurrences, voire des vecteurs de contexte.

A partir de 1974, Karen Spärck Jones travaille au laboratoire d’informatique de l’Université de Cambridge. Dans les années 80, elle s’intéresse aux systèmes de reconnaissance vocale. En 1982, le gouvernement britannique lui demande de travailler sur le programme Alves, initiative visant à encourager la recherche en informatique dans le pays. En 1994, Karen Spärck Jones devient présidente de “Association for Computational Linguistics”, groupe international réunissant des professionnels du domaine. Enfin, elle devient professeur d’informatique et information à l’Université de Cambridge en 1999 avant de prendre sa retraite en 2002.

Spécialiste dans le traitement du langage naturel, défenseur de la place des femmes dans le domaine, Karen Spärck Jones a eu une longueur d’avance sur de nombreux sujets. Elle a reçu de nombreux prix : Prix Gerard Salton de l’ACM SIGIR en 1988, le prix de l’ACL en 2004, le prix Allen Newell de l’ACM /AAAI en 2006 et enfin, la Médaille Lovelace de la British Computer. Microsoft et la British Computer Society décernent le BCS IRSG Karen Spärck Jones Award qui récompense les découvertes dans l’amélioration de la recherche d’information et le traitement du langage naturel.

Ses idées, peu valorisées au départ, sont aujourd’hui mises en place et continuent d’inspirer. Elle est également le mentor d’une génération de chercheurs, hommes et femmes, et lance ce slogan “L’informatique est trop importante pour être laissée aux hommes”.


Un peu de lecture :

Evaluating Natural Language Processing Systems : An Analysis and Review, 1995, Karen Spärck Jones, Julia R.Galliers, Ed.Springer

Book Reviews : Synonymy and Semantic Classification, Svatava Machová, Charles University, Computing Linguistics, Volume 14, Number 4, Décembre 1988


Sources :

Overlooked No More : Karen Spärck Jones, Who Established the Basis for Search Engines, The New York Times, https://www.nytimes.com/2019/01/02/obituaries/karen-sparck-jones-overlooked.html

Computing’s too important to be left to men, Brian Runciman, 03 mai 2009, BCS, https://www.bcs.org/articles-opinion-and-research/computings-too-important-to-be-left-to-men/

Karen Spärck Jones, Computing History, http://www.computinghistory.org.uk/det/45798/Karen-Sp-rck-Jones/

Karen Spärck Jones, Fandom, https://geekfeminism.fandom.com/wiki/Karen_Spärck_Jones

TF-IDF, RYTE WIKI, https://fr.ryte.com/wiki/TF*IDF