Valiz : Moteur de recherche open-source

Aller au contenu | Aller au menu | Aller à la recherche

dimanche, juin 10 2007

Authentifier le contenu

Introduction

J'ai déjà évoqué le potentiel de la recherche universelle puis par secteur (bibliographie, évènement, article,...). À présent, je vais évoquer un autre type de séparation : le niveau de qualification d'un site.

Niveau de qualification

De nos jours, tout le monde peut créer un site. Tout le monde peut acheter un nom de domaine. Cela est du à deux paramètres principaux :

  • Le très faible cout d'un nom de domaine et de l'hébergement grand public
  • Le niveau de connaissances requis : nul (il existe des plate-formes de sites, des CMS,...)

Comme tout le monde peut générer du contenu sur internet, on peut y trouver n'importe quoi. Je peux tout à fait écrire sur ce blog un long article sur les risques dû aux transmissions micro-onde dans l'espace sans pour autant m'y connaitre. Un moteur de recherche ne fera pas la distinction entre un hurluberlu et un chercheur qualifié.
Comme le moteur de recherche ne peut faire la distinction, l'internaute qui posera sa requête au moteur de recherche peut très bien tomber sur un article fantaisiste et baser un mémoire dessus...

Distinguer

Dès lors, comment distinguer une page dont le contenu est issu de personnes qualifiées des pages impertinentes ? De mon point de vue, je vois deux types de pages pertinente :

  1. Celles publiées sur le site d'université, hautes écoles,...
  2. Celles diffusées sur le site personnel d'un passionné. Sans que l'auteur soit qualifié, son travail a de la valeur.

Un bot n'a que peu de chance de faire un bon tri sur ces aspects. Un filtre humain doit être appliqué.
Avec un travail communautaire, nous pourrions recenser les nom de domaine appartenant à des universités, hautes écoles, sites de passionnés, etc...

Autres domaines

Dans le même esprit, nous pourrions filtrer les sites des administrations pour chaque pays. Cela pourrait faciliter le recherche de texte de lois, d'informations sur les brevets, sur les entreprises, etc... sans que des sites amateurs viennent s'y emmêler. Tout ceci augmenterait largement la pertinence de certaines requêtes. Qu'en pensez-vous ?

mercredi, janvier 17 2007

La géolocalisation

Pour bon nombre de requêtes on cherche des résultats proches de sa localité (restaurant, salle, évènement, magasin,....). Évidemment on pourrait chercher en mettant un mot-clef comme la région, la ville ou le département par exemple, mais les sites sont rarement bien étiqueté.

Critères actuellement utilisés

La plupart des moteurs de recherche proposent de restreindre la recherche à une langue ou encore aux sites hébergés dans un pays précis.Détecter la langue d'un site ou d'un internaute (via la valeur renvoyée par le navigateur par exemple) est relativement aisé, et ça marche plutôt bien.
Par contre, restreindre une recherche aux sites hébergés dans un pays n'est pas pertinent. En effet, de moins en moins en moins de particuliers/entreprises utilise un hébergeur à proximité de son magasin ou encore dans le même pays. La mode va aux hébergeurs de grandes tailles qui ont leur propre datacenter là où l'immobilier est bon marché ou simplement où le backbone internet est peu onéreux. Ainsi nombre de sites français sont hébergés en allemagne ou encore aux USA. Bref, bon nombre de sites pertinents seraient recalés avec un tel critère.
Mais alors comment définir :

  • La langue et la localisation de l'utilisateur
  • La langue et la localisation d'un site ou plutôt du service qu'il représente (par exemple un hôtel)

Du côté de l'internaute

Pour cibler l'internaute, deux outils sont à disposition :

  • L'user-agent renvoyé par son navigateur
  • Son IP

Le user-agent des navigateurs les plus utilisés renvoie la langue utilisée par l'utilisateur, donc on peut en déduire la langue qui l'intéresse (évidemment, ce n'est pas infaillible et tous les critères devraient être ajustables par l'internaute).
Le seul critère qui pourrait refléter la localistion de l'internaute est son ip (qu'il faudrait tracer), néanmoins cela demande trop de temps, c'est approximatif et si ça passe par un proxy par exemple, le critère tombe à l'eau. Bref, je ne vois pas de vraie solution pour localiser l'internaute.

Du côté du site

Du côté du site on retrouve également l'IP du serveur (et cette fois on aurait le temps de la tracer), mais comme je l'ai dit précédemment, le résultat peu être totalement trompeur. Bref ce n'est pas un critère fiable.
Pour localiser le service d'un site (dans le cas où la prestation serait matériel comme un hôtel, restaurant, cinéma, musée ou autre évènement), le critère le plus fiable à mon avis serait une adresse trouvée dans le site. Ce serait à ValizBot de la trouver et de l'analyser.

Qu'en pensez-vous ?