Hummingbird
La manière dont un moteur de recherche sélectionne et ordonne les réponses à une requête est critique.
Pour l’utilisateur, il s’agit de savoir s’il obtient bien les bonnes réponses à ses questions, ou si les résultats n’ont pas été manipulés à des fins publicitaires, politiques, ou selon d’autres intentions cachées.
L’annonceur publicitaire souhaite s’assurer de l’optimisation de ses publicités numériques.
Et les entreprises souhaitent découvrir comment optimiser leurs pages Web pour arriver en tête de la liste de réponses. Car d’une manière générale, la plupart des internautes ne consultent que la ou les premières réponses.
À tel point que cela a donné naissance à une industrie : les SEO (optimisateurs de moteurs de recherche), qui facturent leurs services à des entreprises qui souhaitent maximiser leur visibilité dans un moteur de recherche.
Malheureusement, alors même que la transparence est idéale, les moteurs de recherche gardent leurs algorithmes jalousement, car ils estiment qu’ils constituent un secret d’affaire. Tout au plus connait-on leur nom : celui de Google s’appelle Hummingbird. PageRank est la partie de HummingBird en charge du classement des résultats.
En simplifiant, on sait juste que les moteurs de recherche considèrent pour leurs calculs de pertinence le nombre d’hyperliens pointant vers une page Web, et le contenu de la page. Et les résultats sont affectés par des centaines de critères, nommés signaux par Google, comme l’endroit où se situe la personne ayant lancé une requête, ou si un texte est formaté en gras.
RankBrain
En octobre dernier, Greg Corrado, un chercheur scientifique principal de Google, avait affirmé à Bloomberg que RankBrain, le système d’apprentissage automatique dédié au moteur de recherche, était utilisé depuis son lancement il y a quelques mois, sur une large portion des recherches.
Il n’avait décrit le système que dans les termes les plus généraux : RankBrain transforme le langage écrit en vecteurs mathématiques que la machine peut comprendre. Si RankBrain tombe sur un mot ou une phrase avec lequel il n’est pas familier, il essaie de deviner les mots et les phrases qui ont un sens similaire et filtre les résultats.
Il est aussi probablement utilisé pour le classement des réponses, puisque Corrado confie que dans un test interne, quand on demande à des ingénieurs spécialistes de deviner parmi une liste de réponses à une question quelle sera la première donnée par le moteur de recherche, ils devinent correctement dans 70 % des cas, alors que RankBrain trouve la bonne réponse dans 80 % des cas.
Grâce à un article paru cette semaine dans Backchannel sur l’apprentissage automatique (Machine Learning, ML, apprentissage statistique) chez Google, on apprend que l’apprentissage automatique est désormais utilisé sur toutes les demandes qui parviennent au moteur de recherche de l’entreprise.
D’après Jeffrey Dean, une sommité du ML chez Google, sur les centaines de signaux évalués par le moteur de recherche, RankBrain, est le troisième par ordre d’importance. Et il aurait une influence sur le classement des réponses « peut-être pas sur toutes les requêtes, mais dans un grand nombre de requêtes. »
Malheureusement, il ne décrira pas plus en détail RankBrain.
Le moteur de recherche de Google est le plus populaire dans le monde et traite plus de deux mille milliards de requêtes par an.
Le précurseur: Bing
Bing, le moteur de recherche concurrent de Microsoft, utilise l’apprentissage statistique depuis 2005 avec RankNet. Son auteur, Chris Burges, a été honoré l’an dernier par un Test of Time Award, pour son document de recherche de 2005 montrant qu’il était possible d’utiliser les réseaux neuronaux et l’apprentissage automatique pour classer les réponses.
Microsoft a été la première entreprise à utiliser l’apprentissage automatique à l’échelle globale. En 2005, RankNet a été révolutionnaire, parce qu’il était bien plus rapide, et bien plus exact, que le système précédent.