Authentifier le contenu
Par Reivilo le dimanche, juin 10 2007, 20:06 - Débats - Lien permanent
Introduction
J'ai déjà évoqué le potentiel de la recherche universelle puis par secteur (bibliographie, évènement, article,...). À présent, je vais évoquer un autre type de séparation : le niveau de qualification d'un site.
Niveau de qualification
De nos jours, tout le monde peut créer un site. Tout le monde peut acheter un nom de domaine. Cela est du à deux paramètres principaux :
- Le très faible cout d'un nom de domaine et de l'hébergement grand public
- Le niveau de connaissances requis : nul (il existe des plate-formes de sites, des CMS,...)
Comme tout le monde peut générer du contenu sur internet, on peut y trouver n'importe quoi. Je peux tout à fait écrire sur ce blog un long article sur les risques dû aux transmissions micro-onde dans l'espace sans pour autant m'y connaitre. Un moteur de recherche ne fera pas la distinction entre un hurluberlu et un chercheur qualifié.
Comme le moteur de recherche ne peut faire la distinction, l'internaute qui posera sa requête au moteur de recherche peut très bien tomber sur un article fantaisiste et baser un mémoire dessus...
Distinguer
Dès lors, comment distinguer une page dont le contenu est issu de personnes qualifiées des pages impertinentes ? De mon point de vue, je vois deux types de pages pertinente :
- Celles publiées sur le site d'université, hautes écoles,...
- Celles diffusées sur le site personnel d'un passionné. Sans que l'auteur soit qualifié, son travail a de la valeur.
Un bot n'a que peu de chance de faire un bon tri sur ces aspects. Un filtre humain doit être appliqué.
Avec un travail communautaire, nous pourrions recenser les nom de domaine appartenant à des universités, hautes écoles, sites de passionnés, etc...
Autres domaines
Dans le même esprit, nous pourrions filtrer les sites des administrations pour chaque pays. Cela pourrait faciliter le recherche de texte de lois, d'informations sur les brevets, sur les entreprises, etc... sans que des sites amateurs viennent s'y emmêler. Tout ceci augmenterait largement la pertinence de certaines requêtes. Qu'en pensez-vous ?
Commentaires
Ca me parait une bonne idée.
Si un internaute cherche de l'information sur un projet quelconque, on pourrai même faire un distinguo entre les sites officiels et les non officiels dans le résultat plutôt que présenter les deux dans le même panier.
Hello, je trouve votre projet très intéressant. Il existe déjà un projet similaire : http://fr.wikipedia.org/wiki/Nutch celui-ci est déjà utilisé par pas mal de site de recherche. Ce pourrait être une bonne base de départ ou d'exemple :). Je suis pour ma part interessé pour participer au projet seul bemol mes connaissance en prog sont très limitées ^^. J'ai en revanche une bonne connaissance du monde de la recherche d'information sur internet (gestion d'un site d'aide à la recherche) et pas mal d'idées pour des classements par qualité. A bientôt.
Merci pour ton soutien :) J'ai déjà fait allusion à Nutch dans ce billet : http://www.valiz.org/blog/index.php... c'est évidemment une bonne base. Tes idées sont les bienvenues, si tu le souhaites tu peux les exposer ici, sur le forum "officiel" ou par mail (http://www.reivilo.net/formulaire-d...).
Salut, Le projet m'interresse aussi. Je suis près à participer pour quelques petits bout de codes sans m'engager entierement. Je bosse sur qques gros projets pour le moment.
J'aimerais juste répondre à un article un peu plus bas qui parle des differents languages: Utiliser java pour ce genre d'application est completement idiot. Il est beaucoup plus lent et prend plus de mémoire vive (ca veut dire un moteur de recherche plus lent et des serveurs plus puissant donc plus cher). De plus, je ne vois pas l'utilité d'un code completement portable à partir du moment ou celui-ci ne bougera pas du serveur. Par pas portable, on veut dire que java ne doit pas être recompilé pour fonctionner sur un autre systeme. Dans notre cas, on peut très bien recompiler tout ca, surtout que le code serait open-source. Il faut, selon moi, privilégier le C/C++.
Pour la base de données, PostgreSQL est un bon choix. J'ai utilisé ce système il y a un petit temps et c'est vraiment très performant pour les grosse DB.
Très bonne idée. Par contre, je me demande comment vous comptez séparer les différents type de contenues… !
Il y a une moteur de recherche grand-publique propriétaire, (Exalead pour ne pas le cité), qui a pensé à un système de "zapette" (un menu à gauche qui permet un tris rapide). Ce peut être un chemin à explorer, non ?
Bonjour
je viens de créer le salon de discution Valiz sur Jabber. Il est donc accessible a cet adresse Jabber : valiz@chat.jabberfr.org et egalement avec votre navigateur : http://chat.jabberfr.org/muckl_int/...