<?xml version="1.0" encoding="utf-8"?><?xml-stylesheet title="XSL formatting" type="text/xsl" href="http://www.valiz.org/blog/index.php/feed/rss2/xslt" ?><rss version="2.0"
  xmlns:dc="http://purl.org/dc/elements/1.1/"
  xmlns:wfw="http://wellformedweb.org/CommentAPI/"
  xmlns:content="http://purl.org/rss/1.0/modules/content/">
<channel>
  <title>Valiz : Moteur de recherche open-source - contenu</title>
  <link>http://www.valiz.org/blog/index.php/</link>
  <description>Blog francophone du développement du projet de moteur libre Valiz.</description>
  <language>fr</language>
  <pubDate>Sun, 19 Oct 2008 12:11:06 +0200</pubDate>
  <copyright>Le contenu de ce blog peut être copié à condition de citer la source avec un lien en dur.</copyright>
  <docs>http://blogs.law.harvard.edu/tech/rss</docs>
  <generator>Dotclear</generator>
  
    
  <item>
    <title>Compte-rendu de la discussion jabber du 18 octobre 2008</title>
    <link>http://www.valiz.org/blog/index.php/post/2008/10/19/Compte-rendu-de-la-discussion-jabber-du-18-octobre-2008</link>
    <guid isPermaLink="false">urn:md5:85a1225302828bd552d8e6ed755210a3</guid>
    <pubDate>Sun, 19 Oct 2008 11:56:00 +0200</pubDate>
    <dc:creator>Reivilo</dc:creator>
        <category>Généralités</category>
        <category>accessibilité</category><category>contenu</category><category>contribuer</category><category>index</category><category>jabber</category><category>serveur</category><category>sémantique</category><category>valiz</category><category>W3C</category>    
    <description>    &lt;p&gt;J'ai été invité par le salon &lt;a href=&quot;http://www.valiz.org/blog/index.php/post/2008/10/19/exalead@chat.jabberfr.org&quot; hreflang=&quot;fr&quot;&gt;exalead de JabberFR&lt;/a&gt; à venir discuter de Valiz et plus généralement du principe d'un moteur de recherche open-source. Cela s'est donc déroulé hier, samedi 18 octobre 2008 de 20h30 à 22h30. J'ai décidé d'en faire un compte-rendu ici ce qui permet de faire le point sur l'état du projet mais aussi d'informer les absents.&lt;br /&gt;&lt;/p&gt;

&lt;h2&gt;L'indexation et le contenu&lt;/h2&gt;

&lt;p&gt;Nous avons parlé de la cible de Valiz, le contenu accessible. Indexer uniquement des sites pleinement conformes aux recommandation sur l'accessibilité est illusoire, il y en a trop peu. Mieux vaut se concentrer sur des sites faisant des efforts d'accessibilité.&lt;/p&gt;

&lt;h2&gt;Un moteur modulaire&lt;/h2&gt;

&lt;p&gt;L'intérêt d'un moteur de recherche modulaire a été souligné. Ce lui assure son évolution, lui permet d'évoluer dynamiquement. Cela permet également d'interfacer beaucoup d'outils au travers d'API.&lt;/p&gt;

&lt;h2&gt;BOINC et le calcul distribué&lt;/h2&gt;

&lt;p&gt;Une des faiblesse de Valiz sera sa faible infrastructure hardware comme nos moyens seront forcément limités. Une idée avancée lors de cette discussion était de sous-traiter des calculs à une plate-forme de calcul distribué via &lt;a href=&quot;http://boinc.berkeley.edu/&quot; hreflang=&quot;fr&quot;&gt;BOINC&lt;/a&gt; par exemple. Une partie du travail pourrait ainsi être traité en-dehors des serveurs de Valiz. Il ne s'agirait évidemment pas de calcul en temps réel mais plutôt de traitements de l'index, d'analyse de contenu, etc...&lt;br /&gt;&lt;/p&gt;

&lt;h2&gt;Faire participer les universités&lt;/h2&gt;

&lt;p&gt;Une autre idée qui a été proposé est de soumettre Valiz, ou du moins certains modules aux universités qui ont les moyens de le faire avancer et de mettre des serveurs à disposition. C'est probablement le chemin le plus plausible pour que Valiz devienne réalité.&lt;/p&gt;

&lt;h2&gt;Le site de Valiz&lt;/h2&gt;

&lt;h3&gt;Le blog&lt;/h3&gt;

&lt;p&gt;Plusieurs personnes ont critiqué le blog comme support de discussion pour les débats. Ce n'est pas un support adapté, il devrait plutôt être utilisé pour faire des annonces sur l'avancement du projet. Ce n'est pas faux.&lt;/p&gt;

&lt;h3&gt;La page d'accueil&lt;/h3&gt;

&lt;p&gt;Cette page n'est pas suffisamment compréhensible, elle prête à confusion. Surtout la partie en anglais qui est du pure massacre (issu de Google Translate), il faudrait au minimum que je la réécrive. Je pense plutôt la remplacer par une explication beaucoup plus concise et mettrait en avant le blog et le wiki.&lt;/p&gt;

&lt;h3&gt;Le wiki&lt;/h3&gt;

&lt;p&gt;Beaucoup étaient de l'avis que le wiki était la forme la plus adaptée au projet. Il y en avait déjà un en place, un Dokuwiki. Mais il semblerait qu'il y ait besoin de quelque chose de plus costaud pour notamment y intégrer les discussions. C'est pourquoi je vais remplacer le Dokuwiki par un Mediawiki très prochainement.&lt;/p&gt;

&lt;h2&gt;Structure et cadre du projet&lt;/h2&gt;

&lt;p&gt;J'ai profité de la discussion pour situer le cadre de Valiz. Il s'agit d'un projet bénévole entretenu par des passionnés. Valiz sera un des projets de l'&lt;a href=&quot;http://www.texuma.org&quot; hreflang=&quot;fr&quot;&gt;association Texuma&lt;/a&gt;, une association à but non-lucratif dont l'objectif et de faciliter le développement de projets software ou touchant à internet.&lt;/p&gt;

&lt;h2&gt;Le budget et la publicité&lt;/h2&gt;

&lt;p&gt;Le thème de la publicité a été abordé également. Allons-nous intégrer de la publicité dans les résultats des recherches&amp;nbsp;? Non évidemment. Pourquoi ?&lt;br /&gt;
Proposer de la publicité sur une page souhaitant présenter du contenu accessible dans ses résultats implique que la publicité aboutisse également vers des sites accessibles. Et si le site visé par la publicité était accessible, il figurerait naturellement en bonne place dans les résultats et n'aurait donc pas à payer. Par ailleurs le but de Valiz n'est pas lucratif.&lt;br /&gt;
Évidemment ça ne rend pas les choses simples pour autant, un moteur de recherche a besoin d'importantes ressources hardware (serveurs, baies, bande passante, switchs, routeurs ,spares, etc...) ce qui est extrêmement onéreux. Évidemment une partie du budget pourrait être constituée de dons, mais il faudrait avoir une popularité similaire à Wikipedia pour que ce soit significatif.&lt;br /&gt;
Même si cela reste un point capital, je préfère ne pas trop m'y attarder tant que nous n'avons pas un cahier des charges concret et réaliste.&lt;/p&gt;

&lt;h2&gt;Et maintenant&amp;nbsp;?&lt;/h2&gt;

&lt;p&gt;Vous êtes plus que jamais invité à continuer de débattre. Valiz n'est pas mort et cherche à avoir un maximum de contributeurs pour discuter du cahier des charges. Il n'y a pas besoin de compétences particulières, être un utilisateur d'un moteur de recherche suffit amplement pour dire ce qui nous manque, comment on veut obtenir l'information, ce qui ne va pas avec les résultats, etc... Pour cela je vais mettre en place le wiki sous quelques jours.&lt;br /&gt;
Comme l'expérience était concluante, il n'est pas impossible que de nouvelles discussions de ce type aient lieu, que ce soit sur le salon d'exalead ou ailleurs. L'idéal à moyen terme serait de réunir les personnes intéressées sur un salon dédié permanent.
&lt;a href=&quot;http://chat.jabberfr.org/logs/exalead@chat.jabberfr.org/2008-10-18.html&quot; hreflang=&quot;fr&quot;&gt;Le log complet de la discussion&lt;/a&gt;&lt;/p&gt;</description>
    
    
    
          <comments>http://www.valiz.org/blog/index.php/post/2008/10/19/Compte-rendu-de-la-discussion-jabber-du-18-octobre-2008#comment-form</comments>
      <wfw:comment>http://www.valiz.org/blog/index.php/post/2008/10/19/Compte-rendu-de-la-discussion-jabber-du-18-octobre-2008#comment-form</wfw:comment>
      <wfw:commentRss>http://www.valiz.org/blog/index.php/feed/rss2/comments/18</wfw:commentRss>
      </item>
    
  <item>
    <title>Authentifier le contenu</title>
    <link>http://www.valiz.org/blog/index.php/post/2007/06/10/Authentifier-le-contenu</link>
    <guid isPermaLink="false">urn:md5:270fe670143c237005ab2c7bce803b60</guid>
    <pubDate>Sun, 10 Jun 2007 20:06:00 +0200</pubDate>
    <dc:creator>Reivilo</dc:creator>
        <category>Débats</category>
        <category>cibler</category><category>contenu</category><category>requête</category><category>résultats</category>    
    <description>    &lt;h3&gt;Introduction&lt;/h3&gt;

&lt;p&gt;J'ai déjà évoqué le potentiel de la recherche universelle puis par secteur (bibliographie, évènement, article,...). À présent, je vais évoquer un autre type de séparation&amp;nbsp;: le niveau de qualification d'un site.&lt;/p&gt;

&lt;h3&gt;Niveau de qualification&lt;/h3&gt;

&lt;p&gt;De nos jours, tout le monde peut créer un site. Tout le monde peut acheter un nom de domaine. Cela est du à deux paramètres principaux&amp;nbsp;:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Le très faible cout d'un nom de domaine et de l'hébergement grand public&lt;/li&gt;
&lt;li&gt;Le niveau de connaissances requis&amp;nbsp;: nul (il existe des plate-formes de sites, des CMS,...)&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Comme tout le monde peut générer du contenu sur internet, on peut y trouver n'importe quoi. Je peux tout à fait écrire sur ce blog un long article sur les risques dû aux transmissions micro-onde dans l'espace sans pour autant m'y connaitre. Un moteur de recherche ne fera pas la distinction entre un hurluberlu et un chercheur qualifié.&lt;br /&gt;
Comme le moteur de recherche ne peut faire la distinction, l'internaute qui posera sa requête au moteur de recherche peut très bien tomber sur un article fantaisiste et baser un mémoire dessus...&lt;/p&gt;

&lt;h3&gt;Distinguer&lt;/h3&gt;

&lt;p&gt;Dès lors, comment distinguer une page dont le contenu est issu de personnes qualifiées des pages impertinentes&amp;nbsp;?
De mon point de vue, je vois deux types de pages pertinente&amp;nbsp;:&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;Celles publiées sur le site d'université, hautes écoles,...&lt;/li&gt;
&lt;li&gt;Celles diffusées sur le site personnel d'un passionné. Sans que l'auteur soit qualifié, son travail a de la valeur.&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;Un bot n'a que peu de chance de faire un bon tri sur ces aspects. Un filtre humain doit être appliqué.&lt;br /&gt;
Avec un travail communautaire, nous pourrions recenser les nom de domaine appartenant à des universités, hautes écoles, sites de passionnés, etc...&lt;/p&gt;

&lt;h3&gt;Autres domaines&lt;/h3&gt;

&lt;p&gt;Dans le même esprit, nous pourrions filtrer les sites des administrations pour chaque pays. Cela pourrait faciliter le recherche de texte de lois, d'informations sur les brevets, sur les entreprises, etc... sans que des sites amateurs viennent s'y emmêler. Tout ceci augmenterait largement la pertinence de certaines requêtes. Qu'en pensez-vous&amp;nbsp;?&lt;/p&gt;</description>
    
    
    
          <comments>http://www.valiz.org/blog/index.php/post/2007/06/10/Authentifier-le-contenu#comment-form</comments>
      <wfw:comment>http://www.valiz.org/blog/index.php/post/2007/06/10/Authentifier-le-contenu#comment-form</wfw:comment>
      <wfw:commentRss>http://www.valiz.org/blog/index.php/feed/rss2/comments/17</wfw:commentRss>
      </item>
    
  <item>
    <title>Déterminer le contenu dupliqué et sa source</title>
    <link>http://www.valiz.org/blog/index.php/post/2007/01/07/Determiner-le-contenu-duplique-et-sa-source</link>
    <guid isPermaLink="false">urn:md5:54a4d008fd9af0f936b2db8094cf006a</guid>
    <pubDate>Sun, 07 Jan 2007 14:38:00 +0100</pubDate>
    <dc:creator>Reivilo</dc:creator>
        <category>Débats</category>
        <category>contenu</category><category>dupliqué</category>    
    <description>    &lt;p&gt;Le contenu dupliqué est un des gros obstacles aux moteurs de recherche actuellement. Le contenu dupliqué (ou duplicat content en anglais) peut se présenter sous plusieurs formes, voici les principales&amp;nbsp;:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Au sein d'un même site, une même page est accessible via plusieurs urls différentes (typiquement avec ou sans www, ou avec la réécriture d'url)&lt;/li&gt;
&lt;li&gt;Au sein d'un même site, le contenu est présent sur des pages de réponses (forum, wiki,...)&lt;/li&gt;
&lt;li&gt;Sur des sites différents&amp;nbsp;: contenu plagié&lt;/li&gt;
&lt;li&gt;Sur des sites différents&amp;nbsp;: contenu dupliqué grâce aux licences à la mode (creative commons et autres GPL), dans ce cas la source est citée.&lt;/li&gt;
&lt;li&gt;Sur des sites externes&amp;nbsp;: fils rss/atom, mais en général le titre pointe sur la source.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Le défi est donc double&amp;nbsp;: trouver le contenu dupliqué et déterminer le résultat source pour supprimer ou pénaliser le duplicata.&lt;br /&gt;
Mais à partir de quelles proportions définir un contenu comme une copie ?&lt;br /&gt;
Au sein d'un même site, je pense que l'on peut facilement faire des tests via ValizBot pour vérifier l'accès avec/sans www ou encore si le site exploite l'url rewriting (et dans ce cas ne garder que les url réécrites). De même, il est relativement aisé de détecter si une page est un formulaire de réponse.&lt;br /&gt;
Le principal obstacle vient du contenu dupliqué sur plusieurs sites. Comment déterminer l'original&amp;nbsp;? Si un lien est présent pour citer la source, la chose est à nouveau plus ou moins aisée, mais dans le cas contraire ?&lt;br /&gt;
&lt;br /&gt;
Le débat est ouvert...&lt;/p&gt;</description>
    
    
    
          <comments>http://www.valiz.org/blog/index.php/post/2007/01/07/Determiner-le-contenu-duplique-et-sa-source#comment-form</comments>
      <wfw:comment>http://www.valiz.org/blog/index.php/post/2007/01/07/Determiner-le-contenu-duplique-et-sa-source#comment-form</wfw:comment>
      <wfw:commentRss>http://www.valiz.org/blog/index.php/feed/rss2/comments/3</wfw:commentRss>
      </item>
    
</channel>
</rss>