Pour paraître savant, il m’arrive de temps à autre de présenter BaseClip très vaguement : « on fait du web sémantique »… Je me doute bien que dans 99,99% des cas mon interlocuteur ne sait pas ce qui se cache derrière cette phrase, quand bien même il aurait déjà vu ou entendu l’expression.

Logo BaseClip
Mais alors le web sémantique, qu’est-ce que c’est ?
Pour comprendre il faut commencer par s’intéresser à deux concepts de linguistique qui sont mis en opposition : la syntaxe et la sémantique. En somme la syntaxe porte sur la forme des phrases, c’est à dire les caractères et les mots employés, tandis que la sémantique concerne le fond, le sens. Ainsi les deux phrases suivantes ont deux syntaxes différentes mais une seule et même sémantique :
- Chef d’État américain
- Président des États-Unis d’Amérique
Le web tel que nous le connaissons a été inventé par Tim Berner-Lee dans les années 80. Il permet à chacun d’accéder à des ressources au travers d’un réseau informatique. Ces pages web étant écrites dans un langage qui nous est propre, nous en comprenons le sens. Cependant les programmes informatiques ne parlent ni français, ni anglais, ni tout autre langage de communication utilisé par l’Homme. Voici donc l’objectif du web sémantique : permettre à des programmes informatiques d’interpréter la sémantique des pages web.
Alors en quoi le web sémantique va-t-il améliorer notre quotidien ?
Il y a de nombreuses applications possibles au web sémantique, BaseClip en est une. Mais pour mieux en comprendre l’intérêt, prenons l’exemple d’un moteur de recherche. La plupart des moteurs de recherche que nous utilisons aujourd’hui (Google, Yahoo, Live Search…) effectuent leurs recherches sur la syntaxe des pages. Ainsi si vous cherchez « Président des États-Unis d’Amérique » dans Google vous obtiendrez une liste de pages qui contiennent les termes « Président », « Etats-Unis » et « Amérique ».

Résultats pour Président des Etats-Unis d'Amérique dans Google
De la même manière, une recherche sur « Chef d’Etat américain » donnera une liste de pages résultats contenant « Chef », « Etat » et « américain ».

Résultats pour Chef d'Etat américain dans Google
On vient donc d’effectuer 2 requêtes dans Google ayant exactement le même sens, pourtant Google nous a affiché 2 listes de résultats différentes. Si un moteur de recherche sémantique performant voit le jour, il devrait être capable d’afficher une seule liste de résultats pour toutes les recherches de sémantique identique.
Le problème est que pour que de telles applications puissent voir le jour, il faut réécrire le web en utilisant des langages de descriptions sémantique (RDF, OWL, FOAF, etc.). Selon une étude de Gartner parue en 2007 (le fameux Hype Cycle des technologies émergentes, j’aurais sûrement l’occasion d’en reparler sur ce blog), il faudra plus de 10 ans pour que le marché du web sémantique arrive à maturation, c’est à dire que le web ait été suffisamment réécrit avec ces langages.
Mais il y a cependant aujourd’hui 2 types de projets qui portent sur le web sémantique.
Premièrement il y a ceux qui cherchent à structurer le web pour permettre dès aujourd’hui des applications sémantiques : Freebase, Twine, OpenCalais, DBPedia, etc… J’aurai l’occasion de revenir sur ces projets, puisque BaseClip innove dans ce domaine grâce à une technologie d’agrégation sémantique.
De l’autre côté il y a des moteurs de recherche sémantique, qui essayent de traduire les requêtes en langage naturel (principalement l’anglais pour l’instant). Les résultats des recherches proviennent généralement des projets cités ci-dessus. Aujourd’hui j’ai choisi de vous présenter 3 de ces projets.
Google
Peu de gens le savent mais Google a déjà intégré une fonction de recherche sémantique sur la version américaine du site. Sur un nombre très restreint de question comme par exemple : »What is the capital city of France? » (« Quelle est la capitale de la France ?« ), Google affiche la réponse à la question avant la traditionnelle liste de résultats (ici Capital: Paris 48°52′N 2°19.59′E / 48.867, 2.3265).

Recherche "What is the capital city of France?" sur Google US.
Powerset
Cette société acquise par Microsoft pour 100 millions de dollars mi-2008. A mon avis c’est cher payé, mais à l’époque c’était le seul moteur de recherche sémantique à avoir fait parler de lui. Powerset peut également répondre à la question What is the capital city of France? mais bien que comprenant plus de questions que Google, il donne assez rarement directement la réponse, se contentant souvent d’afficher le passage d’un article Wikipedia pouvant la contenir. Notons que Microsoft à déjà intégré cette technologie à son moteur de recherche Live Search (What is the capital city of France?).

Recherche "What is the capital city of France?" sur Powerset
TrueKnowledge
Le challenger. Alors que les 2 précédents projets proviennent de la Silicon Valley, TrueKnowledge a été créé par des anglais de Cambridge. Le service est encore en bêta et vous aurez besoin d’une invitation pour l’utiliser (ça tombe bien j’en ai 20, laissez moi un commentaire avec un email correct dans le champ email si vous souhaitez l’essayer).
Pour moi c’est le service le plus impressionnant, TrueKnowledge comprend un grand nombre de requêtes et reformule votre question à sa manière. Il répond directement aux questions et lorsqu’il ne connaît pas la réponse, il vous propose de lui apprendre. Un moteur de recherche collaboratif et sémantique en un. J’ai essayé « How old is Steve Jobs?« , pas de problème : 53 years, 11 months and 26 days old.

Recherche "What is the capital city of France?" sur TrueKnowledge
Commentaires récents