Valiz : Moteur de recherche open-source

Aller au contenu | Aller au menu | Aller à la recherche

dimanche, juin 10 2007

Authentifier le contenu

Introduction

J'ai déjà évoqué le potentiel de la recherche universelle puis par secteur (bibliographie, évènement, article,...). À présent, je vais évoquer un autre type de séparation : le niveau de qualification d'un site.

Niveau de qualification

De nos jours, tout le monde peut créer un site. Tout le monde peut acheter un nom de domaine. Cela est du à deux paramètres principaux :

  • Le très faible cout d'un nom de domaine et de l'hébergement grand public
  • Le niveau de connaissances requis : nul (il existe des plate-formes de sites, des CMS,...)

Comme tout le monde peut générer du contenu sur internet, on peut y trouver n'importe quoi. Je peux tout à fait écrire sur ce blog un long article sur les risques dû aux transmissions micro-onde dans l'espace sans pour autant m'y connaitre. Un moteur de recherche ne fera pas la distinction entre un hurluberlu et un chercheur qualifié.
Comme le moteur de recherche ne peut faire la distinction, l'internaute qui posera sa requête au moteur de recherche peut très bien tomber sur un article fantaisiste et baser un mémoire dessus...

Distinguer

Dès lors, comment distinguer une page dont le contenu est issu de personnes qualifiées des pages impertinentes ? De mon point de vue, je vois deux types de pages pertinente :

  1. Celles publiées sur le site d'université, hautes écoles,...
  2. Celles diffusées sur le site personnel d'un passionné. Sans que l'auteur soit qualifié, son travail a de la valeur.

Un bot n'a que peu de chance de faire un bon tri sur ces aspects. Un filtre humain doit être appliqué.
Avec un travail communautaire, nous pourrions recenser les nom de domaine appartenant à des universités, hautes écoles, sites de passionnés, etc...

Autres domaines

Dans le même esprit, nous pourrions filtrer les sites des administrations pour chaque pays. Cela pourrait faciliter le recherche de texte de lois, d'informations sur les brevets, sur les entreprises, etc... sans que des sites amateurs viennent s'y emmêler. Tout ceci augmenterait largement la pertinence de certaines requêtes. Qu'en pensez-vous ?

dimanche, février 4 2007

Critères d'accessibilité

Le rôle de Valiz

Valiz, en plus d'être un moteur open-source, a un objectif : devenir une référence dans la recherche accessible (où son utilisation et les résultats obtenus sont accessibles par le maximum de personnes possibles).

Les critères d'accessibilités

De l'utilisateur

J'aimerais fournir les résultats en fonction du profil de l'utilisateur. En fonction du navigateur utilisé (texte, oral, braille, normal,...) on peut facilement déduire les handicaps principaux de l'internaute (cela sera évidemment personnalisable) et en fonction de cela, des résultats adaptés pourront être fournis.
Même si l'internaute ne souffre d'aucun handicap, valiz n'indexera pas et ne fournira pas de sites non structurés (pour rester un minimum spécialisé et aussi pour économiser de précieuses ressources).

Des sites

Dans mes premiers billets, je signalais que pour les débuts, je pensais me baser sur une validation via l'API SOAP du W3C puis par la suite faire une analyse complète de l'accessibilité des sites car certains sites valides ne sont pas accessibles et vis-versa.
Je ne sais pas encore si je maintiendrai ce critère, mais dans tous les cas, réfléchissons aux critères d'accessibilité d'un site web :

  • Le contraste (via une analyse des attributs style et des feuilles de styles css)
  • La structure du site (sémantique, navigation par clavier simple (accesskey, tab,...)
  • Attributs alt renseignés (pas seulement alt="")
  • Présence de java-script, de java ou de flash
  • Et encore ... ?

L'accessibilité porte sur énormément de critères, néanmoins il n'est pas envisageable de faire une analyse automatique pour chaque site (même si on ne contrôlait que les bonnes pratiques d'opquast par exemple). Donc quels sont les critères facilement contrôlables et pertinents pour chaque profil d'utilisateur ?

samedi, janvier 27 2007

Quels langages pour Valiz ?

Valiz est un gros projet et comme en prime il est open-source, il doit être parfaitement lisible, récupérable par module ou encore facilement modifiable. Évidemment, il faut aussi qu'il soit portable, etc...
Bref, le choix des langages est primordial. Il faut aussi penser à coder léger et performant.
Donc il faut choisir les langages pour Valizbot, les divers algorithme, le site, la gestion des APIs, etc... le point commun sera les donnée, je pense aux bases du SGBDR PostgreSQL.
Je pensais faire valizbot principalement en python avec une gestion des regex par Perl (comme c'est son point fort). Peut-être Java pour les algorithme ?
Comment voyez-vous Valiz et avec quels langages ?

mercredi, janvier 24 2007

La mise en forme du texte : à ignorer ?

Idéalement, la mise en forme est séparée du contenu avec l'aide des feuilles de styles (css). Cependant avant le xHTML, il était coutume de mettre en page le texte avec du HTML (<b>, <i>, <u>, ...) et certains on gardés (à tort) cette habitude pour générer leur contenu en xHTML.
À mon avis les seuls basiques qui pourraient jouer un rôle dans les résultats seraient <strong> et éventuellement <b>. Cependant je suis d'avis qu'il faut ignorer toutes les balises de formatage en dehors des <h1>, <hx...> car elles sont trop souvent utilisés à tord ou de manière abusive.
Qu'en pensez-vous ?

lundi, janvier 22 2007

Les outils webmasters

Selon vous, quels sont les outils que Valiz devrait offrir aux webmasters ? L'idée serait de pouvoir guider Valizbot sur la fréquence des mises à jour, des pages importantes, etc... Mais également de signaler un changement complet de site (par exemple si toutes les urls changent (url rewriting ou nouveau site) ou si la thématique change, ainsi il deviendrait simple de purger la base de donnée et d'inclure rapidement les nouvelles pages. Car apparemment c'est un des gros soucis des webmasters.
Je pense également à un suivi des sitemaps ou encore à des fonctionnalités poussées permettant d'aller plus loin qu'un sitemaps ou un robots.txt.
Par contre je ne pense pas à des outils de suivi des apparitions dans les requêtes ou encore au positionnement. D'ailleurs les résultats seront probablement limités à 10 résultats (une page et c'est tout). Néanmoins il faudra tout de même étudier une possibilité d'avoir davantage de résultats pour les utilisateurs exigeants, mais je ne pense pas qu'afficher cents page serait utile. Bref, privilégier la qualité à la quantité.
Pour en revenir aux outils, qu'en pensez-vous ?

- page 1 de 3