Archive pour la Catégorie 'Web Sémantique'

Conférence TED de Tim Berners-Lee sur le web sémantique

Une conférence très intéressante de Tim Berners-Lee à propos du web sémantique.

Tim Berners-Lee n’est autre que l’inventeur du web tel que nous le connaissons aujourd’hui. Il a également lancé les bases du web sémantique dès 1994.

Un must-seen si vous souhaitez comprendre les enjeux du web sémantique. Je donnais récemment ma définition de ce concept (Une définition simple du web sémantique), voici ce que dit Tim Berners-Lee :

Nous n’avons pas de données sur le web.
Qu’est-ce que cela veut dire données ? Quelle différence, documents, données ?
Et bien les documents se lisent, ok, vous pouvez plus ou moins les lire et suivre quelques liens, mais c’est tout…
Avec les données votre ordinateur peut faire tout un tas de choses.

Il semble que le gouvernement Obama ait décidé de créer un site pour mettre à disposition les données que possède la Maison Blanche. Tim Berners-Lee espère que cette mise à disposition utilisera les technologies web sémantique proposé par le W3C, son fameux Linked Data, et non pas un site internet de plus comme le World Factbook de la CIA, dont l’information est très complète mais difficile à extraire.

A quand une initiative similaire en France…

Edit : Le très sémantique Nicolas Cynober propose une version sous-titrée de la conférence sur son blog : http://nicolas.cynober.fr/blog/167,tim-berners-lee-raw-data-now-video-fr.html

Une définition simple du web sémantique

Pour paraître savant, il m’arrive de temps à autre de présenter BaseClip très vaguement : « on fait du web sémantique »… Je me doute bien que dans 99,99% des cas mon interlocuteur ne sait pas ce qui se cache derrière cette phrase, quand bien même il aurait déjà vu ou entendu l’expression.

Logo BaseClip

Logo BaseClip

Mais alors le web sémantique, qu’est-ce que c’est ?

Pour comprendre il faut commencer par s’intéresser à deux concepts de linguistique qui sont mis en opposition : la syntaxe et la sémantique. En somme la syntaxe porte sur la forme des phrases, c’est à dire les caractères et les mots employés, tandis que la sémantique concerne le fond, le sens. Ainsi les deux phrases suivantes ont deux syntaxes différentes mais une seule et même sémantique :

  • Chef d’État américain
  • Président des États-Unis d’Amérique

Le web tel que nous le connaissons a été inventé par Tim Berner-Lee dans les années 80. Il permet à chacun d’accéder à des ressources au travers d’un réseau informatique. Ces pages web étant écrites dans un langage qui nous est propre, nous en comprenons le sens. Cependant les programmes informatiques ne parlent ni français, ni anglais, ni tout autre langage de communication utilisé par l’Homme. Voici donc l’objectif du web sémantique : permettre à des programmes informatiques d’interpréter la sémantique des pages web.

Alors en quoi le web sémantique va-t-il améliorer notre quotidien ?

Il y a de nombreuses applications possibles au web sémantique, BaseClip en est une. Mais pour mieux en comprendre l’intérêt, prenons l’exemple d’un moteur de recherche. La plupart des moteurs de recherche que nous utilisons aujourd’hui (Google, Yahoo, Live Search…) effectuent leurs recherches sur la syntaxe des pages. Ainsi si vous cherchez « Président des États-Unis d’Amérique  » dans Google vous obtiendrez une liste de pages qui contiennent les termes « Président  », « Etats-Unis  » et « Amérique  ».

Résultats pour Président des Etats-Unis d'Amérique dans Google

Résultats pour Président des Etats-Unis d'Amérique dans Google

De la même manière, une recherche sur « Chef d’Etat américain » donnera une liste de pages résultats contenant « Chef », « Etat » et « américain ».

Résultats pour Chef d'Etat américain dans Google

Résultats pour Chef d'Etat américain dans Google

On vient donc d’effectuer 2 requêtes dans Google ayant exactement le même sens, pourtant Google nous a affiché 2 listes de résultats différentes. Si un moteur de recherche sémantique performant voit le jour, il devrait être capable d’afficher une seule liste de résultats pour toutes les recherches de sémantique identique.

Le problème est que pour que de telles applications puissent voir le jour, il faut réécrire le web en utilisant des langages de descriptions sémantique (RDF, OWL, FOAF, etc.). Selon une étude de Gartner parue en 2007 (le fameux Hype Cycle des technologies émergentes, j’aurais sûrement l’occasion d’en reparler sur ce blog), il faudra plus de 10 ans pour que le marché du web sémantique arrive à maturation, c’est à dire que le web ait été suffisamment réécrit avec ces langages.

Mais il y a cependant aujourd’hui 2 types de projets qui portent sur le web sémantique.

Premièrement il y a ceux qui cherchent à structurer le web pour permettre dès aujourd’hui des applications sémantiques : Freebase, Twine, OpenCalais, DBPedia, etc… J’aurai l’occasion de revenir sur ces projets, puisque BaseClip innove dans ce domaine grâce à une technologie d’agrégation sémantique.

De l’autre côté il y a des moteurs de recherche sémantique, qui essayent de traduire les requêtes en langage naturel (principalement l’anglais pour l’instant). Les résultats des recherches proviennent généralement des projets cités ci-dessus. Aujourd’hui j’ai choisi de vous présenter 3 de ces projets.

Google

Peu de gens le savent mais Google a déjà intégré une fonction de recherche sémantique sur la version américaine du site. Sur un nombre très restreint de question comme par exemple :  »What is the capital city of France? » (« Quelle est la capitale de la France ?« ), Google affiche la réponse à la question avant la traditionnelle liste de résultats (ici Capital: Paris 48°52′N 2°19.59′E / 48.867, 2.3265).

Recherche "What is the capital city of France?" sur Google US.

Recherche "What is the capital city of France?" sur Google US.

Powerset

Cette société acquise par Microsoft pour 100 millions de dollars mi-2008. A mon avis c’est cher payé, mais à l’époque c’était le seul moteur de recherche sémantique à avoir fait parler de lui. Powerset peut également répondre à la question What is the capital city of France? mais bien que comprenant plus de questions que Google, il donne assez rarement directement la réponse, se contentant souvent d’afficher le passage d’un article Wikipedia pouvant la contenir. Notons que Microsoft à déjà intégré cette technologie à son moteur de recherche Live Search (What is the capital city of France?).

Recherche "What is the capital city of France?" sur Powerset

Recherche "What is the capital city of France?" sur Powerset

TrueKnowledge

Le challenger. Alors que les 2 précédents projets proviennent de la Silicon Valley, TrueKnowledge a été créé par des anglais de Cambridge. Le service est encore en bêta et vous aurez besoin d’une invitation pour l’utiliser (ça tombe bien j’en ai 20, laissez moi un commentaire avec un email correct dans le champ email si vous souhaitez l’essayer).

Pour moi c’est le service le plus impressionnant, TrueKnowledge comprend un grand nombre de requêtes et reformule votre question à sa manière. Il répond directement aux questions et lorsqu’il ne connaît pas la réponse, il vous propose de lui apprendre. Un moteur de recherche collaboratif et sémantique en un. J’ai essayé « How old is Steve Jobs?« , pas de problème : 53 years, 11 months and 26 days old.

Recherche "What is the capital city of France?" sur TrueKnowledge

Recherche "What is the capital city of France?" sur TrueKnowledge