BERT, le nouvel algorithme du moteur de recherche Google

Google a annoncé avoir mis à jour ses algorithmes de moteur de recherche grâce au BERT, une nouvelle technique de traitement du langage naturel. Voici de quoi il s'agit

Une nouvelle récente a bouleversé le secteur SEO, ou Search Engine Optimization, dans l'optimisation des moteurs de recherche italiens. Ce sont les techniques utilisées par les experts pour placer des sites Web dans les premières positions du SERP (Page de résultats du moteur de recherche), c'est-à-dire la page de résultats d'un moteur de recherche. Avec plus de 95% du marché de la recherche entre leurs mains, parler de moteurs de recherche, c'est essentiellement Google.

Recherche Google c'est certainement le service le plus connu parmi les nombreux proposés par la société Mountain View. Au fil des ans, Google a publié de nombreuses mises à jour pour l'algorithme qui gère le moteur de recherche. Nous sommes passés d'un algorithme assez simple à un moteur de recherche capable de détecter les différences sémantiques entre un mot et un autre. Et maintenant La recherche Google est prête à aller plus loin. En effet, fin octobre 2019, Google a annoncé qu'il avait mis à jour ses algorithmes introduction "BERT", une nouvelle technique de traitement automatique du langage naturel (NLP) basée sur des réseaux de neurones. Dit en termes très simples, BERT permet à Google de mieux comprendre ce que recherche l'internaute, afin d'offrir une meilleure réponse. Le BERT est appliqué à environ 10% de la recherche actuelle, uniquement en anglais. À l'avenir, il sera également appliqué à d'autres langues et, très probablement, à un pourcentage plus élevé de recherches. Mais le BERT, en réalité, n'est pas seulement une nouveauté pour ceux qui font du SEO. Pour comprendre pourquoi, cependant, nous devons d'abord découvrir comment fonctionne BERT.

Qu'est-ce que Google BERT et comment cela fonctionne

L'acronyme BERT signifie «Représentations des codeurs bidirectionnels des transformateurs». Il s'agit d'une évolution "bidirectionnelle" de la méthode de compréhension du langage "Transformers", qui à son tour est une méthode qui prend en considération non pas les paires de mots simples, mais toute la phrase.

Avant Transformers, les algorithmes d'apprentissage du langage naturel (c'est-à-dire comment les humains parlent réellement) étaient limités à l'analyse des mots en relation avec le précédent et le suivant. Ainsi, par exemple, ils pourraient comprendre la différence entre deux expressions très similaires comme "or blanc" et "or noir": dans le premier cas c'est un métal, dans le second du pétrole. Les transformateurs, en revanche, sont plus complexes car ils approfondissent l'analyse de la phrase ainsi que les paires de mots individuelles. BERT il est encore plus évolué: il fait le même travail que Transformers, mais en lisant la phrase de gauche à droite et de droite à gauche. De cette façon, il peut comprendre que les mots "de" et "à" ont un sens complètement différent dans "travaillent de 9 à 17 en continu" et dans "les miettes pour nourrir les poules".

Le BERT comprend-il vraiment ce que nous disons? Tests GLUE

Dans un article d'avril 2018 écrit par le linguiste en informatique de l'Université de New York, Sam Bowman, en collaboration avec l'Université de Washington et DeepMind (société d'intelligence artificielle détenue par Google), des tests ont été présentés pour évaluer l'efficacité du Algorithmes de traitement du langage Naturlal appelés GLUE (General Language Understanding Evaluation). Les tests pour les humains sont très simples à réaliser, pas pour les machines.

L'un des tests, par exemple, demande si une phrase est vraie sur la base des informations fournies dans une phrase précédente. Si l'ordinateur, après avoir lu que "le président Trump a atterri en Irak pour le début d'une visite de sept jours", comprend que "le président Trump est en visite à l'étranger", alors il passe ce test. Tous les algorithmes NLP testés ont échoué dans les tests GLUE, atteignant un résultat maximum de 69/100 équivalent à l'évaluation D + du système scolaire américain. Puis, moins de six mois plus tard, le BERT est arrivé et a marqué 80,5, ce qui équivaut à un B-. Depuis ce moment, tous ceux qui travaillent sur des algorithmes d'intelligence artificielle appliqués à l'apprentissage automatique et à la PNL ont pris BERT et ont commencé à le développer et à l'affiner davantage et, aujourd'hui, déjà cinq algorithmes "basés sur BERT" dépassent le résultat moyen des humains dans les tests GLUE.

Les ordinateurs ont-ils appris à lire?

À ce stade, on se demande si, en effet, le jour est enfin venu où les ordinateurs ont appris à lire et à comprendre la pensée des humains. Car le doute, légitime, c'est que plutôt que de mieux comprendre BERT ne fait que se moquer du test, grâce à quelques astuces. Pour cette raison, en juillet 2019, deux chercheurs de l'Université nationale Cheng Kung de Taïwan ont soumis le BERT à une autre série de tests très exigeants, appelés "Tâche de compréhension du raisonnement par argument". Ces tests nécessitent la sélection d'une prémisse implicite appropriée (appelée «mandat») qui justifiera une déclaration. Par exemple, pour affirmer que "le tabagisme cause le cancer" (la déclaration) parce que "les études scientifiques ont montré un lien entre le tabagisme et le cancer" (raison), il est nécessaire de supposer que "les études scientifiques sont crédibles" (la mandat) et non pas que "les études scientifiques coûtent cher" (ce qui est également vrai, mais n'a rien à voir dans ce contexte).

Un bon résultat dans ces tests signifie donc qu'il y a (ou du moins il y aura probablement) une bonne compréhension du texte et du contexte. Le résultat moyen d'un humain dans ces tests est de 80, le BERT en a fait 77. Pas mal, mais les chercheurs taïwanais ont réussi à mettre le BERT en grande difficulté, montrant ses limites. En choisissant des mandats contenant le mot «non», le pourcentage de bonnes réponses est tombé à 61%. En affinant le test à la lumière de ces résultats, le Score BERT est tombé à 53, ce qui est plus ou moins le résultat qu'un humain peut avoir en donnant des réponses aléatoires.

14 novembre 2019

Note

Cliquez un nb d’étoiles pour noter

Note moyenne 0 / 5. Nb de votes 0

Aucun vote pour l'instant! Soyez le premier à noter ce post.

fr_FRFrench
fr_FRFrench