Valiz : Moteur de recherche open-source

Aller au contenu | Aller au menu | Aller à la recherche

Mot clé - résultats

Fil des billets - Fil des commentaires

dimanche, juin 10 2007

Authentifier le contenu

Introduction

J'ai déjà évoqué le potentiel de la recherche universelle puis par secteur (bibliographie, évènement, article,...). À présent, je vais évoquer un autre type de séparation : le niveau de qualification d'un site.

Niveau de qualification

De nos jours, tout le monde peut créer un site. Tout le monde peut acheter un nom de domaine. Cela est du à deux paramètres principaux :

  • Le très faible cout d'un nom de domaine et de l'hébergement grand public
  • Le niveau de connaissances requis : nul (il existe des plate-formes de sites, des CMS,...)

Comme tout le monde peut générer du contenu sur internet, on peut y trouver n'importe quoi. Je peux tout à fait écrire sur ce blog un long article sur les risques dû aux transmissions micro-onde dans l'espace sans pour autant m'y connaitre. Un moteur de recherche ne fera pas la distinction entre un hurluberlu et un chercheur qualifié.
Comme le moteur de recherche ne peut faire la distinction, l'internaute qui posera sa requête au moteur de recherche peut très bien tomber sur un article fantaisiste et baser un mémoire dessus...

Distinguer

Dès lors, comment distinguer une page dont le contenu est issu de personnes qualifiées des pages impertinentes ? De mon point de vue, je vois deux types de pages pertinente :

  1. Celles publiées sur le site d'université, hautes écoles,...
  2. Celles diffusées sur le site personnel d'un passionné. Sans que l'auteur soit qualifié, son travail a de la valeur.

Un bot n'a que peu de chance de faire un bon tri sur ces aspects. Un filtre humain doit être appliqué.
Avec un travail communautaire, nous pourrions recenser les nom de domaine appartenant à des universités, hautes écoles, sites de passionnés, etc...

Autres domaines

Dans le même esprit, nous pourrions filtrer les sites des administrations pour chaque pays. Cela pourrait faciliter le recherche de texte de lois, d'informations sur les brevets, sur les entreprises, etc... sans que des sites amateurs viennent s'y emmêler. Tout ceci augmenterait largement la pertinence de certaines requêtes. Qu'en pensez-vous ?

dimanche, janvier 7 2007

Faut-il structurer les résultats en catégorie ?

Cas de figure

Imaginez que vous cherchiez des informations sur un personnage, vous allez logiquement rentrer son nom dans le champ de recherche. Le résultat ne répondra certainement pas à vos attentes car ils contiendront les résultats les plus populaires, de l'actualité ou des interviews par exemple.
Maintenant imaginez que les résultats soient structuré par catégorie :

  • Une ou deux biographie
  • Un CV
  • Une ou deux actualités
  • Des interviews
  • Selon la personnalité : discographie, bibliographie, site de fan, évènements, etc...

Une telle palette de résultats n'a-t'elle pas davantage de chances de correspondre à votre attente ?
Cela signifie que lors de l'indexation, le robot doit étiqueter chaque site en lui attribuant un centre d'intérêt, sa thématique, ses liens avec d'autres sites, etc... qu'en pensez-vous ? Bien sûr, c'est un exemple, ce système pourrait s'étendre à une foule de type de requêtes.

samedi, janvier 6 2007

Lancement du projet Valiz

Bonjour à tous et merci pour votre curiosité,


Si vous êtes ici, c'est que vous vous intéressez au projet Valiz, je vais expliquer dans ce billet pourquoi j'ai lancé l'idée, pourquoi j'espère que Valiz voie le jour, comment sera organisé ce blog et ce que j'espère obtenir.
Vous connaissez tous le principe des moteurs de recherche : trouver rapidement la réponse à une question, des informations sur un sujet ou des sites de qualités traitant de quelque chose en particulier. Pour cela diverses sociétés proposent leurs moteurs de recherche, financés par la publicité intégrée aux résultats et l'une d'entre elle a quasiment le monopole.
Le problème, c'est qu'ils sont dépassés par l'ingéniosité des spammeurs car ils acceptent presque tout dans leurs index et leur algorithme accorde beaucoup d'importance aux critères externes des sites (liens pointant vers le site notamment).
Les objectif de Valiz sont les suivants :

  • Développer un algorithme qui se base uniquement sur la pertinence du contenu en oubliant tout repaire externe
  • Ne répertorier que les pages accessibles en se basant dans un premier temps sur la validation W3C.
  • Faire un moteur 100% open-source : tout le code sera distribué et tout le monde peut y contribuer, un peu comme le projet Nutch
  • À l'inverse de Nutch, le moteur sera un service public avec de nombreuses interface permettant d'exploiter ses résultats
  • Rester totalement libre et gratuit : aucune publicité commerciale, association à but non-lucratif
  • Suivre un développement totalement modulaire pour pouvoir facilement adapter les algorithme ou être intégré dans divers projets

Le but de Valiz n'est pas de concurrencer les moteurs actuels mais de proposer une alternative libre au monopole commercial actuel des moteurs de recherche et surtout des résultats accessibles à tous.

Si vous souhaitez soutenir Valiz, vous pouvez selon votre temps, compétence et motivation :

  • Suivre le développement en alimentant et argumentant votre vision lors des billets sur ce blog ou sur les forums
  • Nous aider en devenant rédacteur/traducteur (si vous avez une orthographe et grammaire correcte et que vous maitrisez au moins le français, le projet aura une documentation complète en français et anglais dans un premier temps puis ouvert à toutes les langues, donc si vous êtes bilingue, n'hésitez pas...)
  • Nous aider au développement, si vous avez des connaissances en (pas besoin d'avoir tout à la fois...) : xHTML, CSS, PHP 5/6, PostgreSQL, cluster, Java, Python, Bash, SOAP, xml, accessibilité,...
  • Nous soutenir financièrement, actuellement l'association n'est pas déclarée mais vous pouvez faire une promesse de don à don(@)valiz.org ou si vous êtes intéressé à fournir des serveurs, bande passante, baie,... on en aura grand besoin.
  • Nous soutenir moralement : un commentaire, un mail ça fait toujours énormément plaisir.


Ce blog contiendra des billets sur l'avancée du projet, sur les débats (choix), etc...