Valiz : Moteur de recherche open-source

Aller au contenu | Aller au menu | Aller à la recherche

Mot clé - contenu

Fil des billets - Fil des commentaires

dimanche, juin 10 2007

Authentifier le contenu

Introduction

J'ai déjà évoqué le potentiel de la recherche universelle puis par secteur (bibliographie, évènement, article,...). À présent, je vais évoquer un autre type de séparation : le niveau de qualification d'un site.

Niveau de qualification

De nos jours, tout le monde peut créer un site. Tout le monde peut acheter un nom de domaine. Cela est du à deux paramètres principaux :

  • Le très faible cout d'un nom de domaine et de l'hébergement grand public
  • Le niveau de connaissances requis : nul (il existe des plate-formes de sites, des CMS,...)

Comme tout le monde peut générer du contenu sur internet, on peut y trouver n'importe quoi. Je peux tout à fait écrire sur ce blog un long article sur les risques dû aux transmissions micro-onde dans l'espace sans pour autant m'y connaitre. Un moteur de recherche ne fera pas la distinction entre un hurluberlu et un chercheur qualifié.
Comme le moteur de recherche ne peut faire la distinction, l'internaute qui posera sa requête au moteur de recherche peut très bien tomber sur un article fantaisiste et baser un mémoire dessus...

Distinguer

Dès lors, comment distinguer une page dont le contenu est issu de personnes qualifiées des pages impertinentes ? De mon point de vue, je vois deux types de pages pertinente :

  1. Celles publiées sur le site d'université, hautes écoles,...
  2. Celles diffusées sur le site personnel d'un passionné. Sans que l'auteur soit qualifié, son travail a de la valeur.

Un bot n'a que peu de chance de faire un bon tri sur ces aspects. Un filtre humain doit être appliqué.
Avec un travail communautaire, nous pourrions recenser les nom de domaine appartenant à des universités, hautes écoles, sites de passionnés, etc...

Autres domaines

Dans le même esprit, nous pourrions filtrer les sites des administrations pour chaque pays. Cela pourrait faciliter le recherche de texte de lois, d'informations sur les brevets, sur les entreprises, etc... sans que des sites amateurs viennent s'y emmêler. Tout ceci augmenterait largement la pertinence de certaines requêtes. Qu'en pensez-vous ?

dimanche, janvier 7 2007

Déterminer le contenu dupliqué et sa source

Le contenu dupliqué est un des gros obstacles aux moteurs de recherche actuellement. Le contenu dupliqué (ou duplicat content en anglais) peut se présenter sous plusieurs formes, voici les principales :

  • Au sein d'un même site, une même page est accessible via plusieurs urls différentes (typiquement avec ou sans www, ou avec la réécriture d'url)
  • Au sein d'un même site, le contenu est présent sur des pages de réponses (forum, wiki,...)
  • Sur des sites différents : contenu plagié
  • Sur des sites différents : contenu dupliqué grâce aux licences à la mode (creative commons et autres GPL), dans ce cas la source est citée.
  • Sur des sites externes : fils rss/atom, mais en général le titre pointe sur la source.

Le défi est donc double : trouver le contenu dupliqué et déterminer le résultat source pour supprimer ou pénaliser le duplicata.
Mais à partir de quelles proportions définir un contenu comme une copie ?
Au sein d'un même site, je pense que l'on peut facilement faire des tests via ValizBot pour vérifier l'accès avec/sans www ou encore si le site exploite l'url rewriting (et dans ce cas ne garder que les url réécrites). De même, il est relativement aisé de détecter si une page est un formulaire de réponse.
Le principal obstacle vient du contenu dupliqué sur plusieurs sites. Comment déterminer l'original ? Si un lien est présent pour citer la source, la chose est à nouveau plus ou moins aisée, mais dans le cas contraire ?

Le débat est ouvert...