<?xml version="1.0" encoding="utf-8"?><?xml-stylesheet title="XSL formatting" type="text/xsl" href="http://www.valiz.org/blog/index.php/feed/rss2/xslt" ?><rss version="2.0"
  xmlns:dc="http://purl.org/dc/elements/1.1/"
  xmlns:wfw="http://wellformedweb.org/CommentAPI/"
  xmlns:content="http://purl.org/rss/1.0/modules/content/">
<channel>
  <title>Valiz : Moteur de recherche open-source - index</title>
  <link>http://www.valiz.org/blog/index.php/</link>
  <description>Blog francophone du développement du projet de moteur libre Valiz.</description>
  <language>fr</language>
  <pubDate>Sun, 19 Oct 2008 12:11:06 +0200</pubDate>
  <copyright>Le contenu de ce blog peut être copié à condition de citer la source avec un lien en dur.</copyright>
  <docs>http://blogs.law.harvard.edu/tech/rss</docs>
  <generator>Dotclear</generator>
  
    
  <item>
    <title>Compte-rendu de la discussion jabber du 18 octobre 2008</title>
    <link>http://www.valiz.org/blog/index.php/post/2008/10/19/Compte-rendu-de-la-discussion-jabber-du-18-octobre-2008</link>
    <guid isPermaLink="false">urn:md5:85a1225302828bd552d8e6ed755210a3</guid>
    <pubDate>Sun, 19 Oct 2008 11:56:00 +0200</pubDate>
    <dc:creator>Reivilo</dc:creator>
        <category>Généralités</category>
        <category>accessibilité</category><category>contenu</category><category>contribuer</category><category>index</category><category>jabber</category><category>serveur</category><category>sémantique</category><category>valiz</category><category>W3C</category>    
    <description>    &lt;p&gt;J'ai été invité par le salon &lt;a href=&quot;http://www.valiz.org/blog/index.php/post/2008/10/19/exalead@chat.jabberfr.org&quot; hreflang=&quot;fr&quot;&gt;exalead de JabberFR&lt;/a&gt; à venir discuter de Valiz et plus généralement du principe d'un moteur de recherche open-source. Cela s'est donc déroulé hier, samedi 18 octobre 2008 de 20h30 à 22h30. J'ai décidé d'en faire un compte-rendu ici ce qui permet de faire le point sur l'état du projet mais aussi d'informer les absents.&lt;br /&gt;&lt;/p&gt;

&lt;h2&gt;L'indexation et le contenu&lt;/h2&gt;

&lt;p&gt;Nous avons parlé de la cible de Valiz, le contenu accessible. Indexer uniquement des sites pleinement conformes aux recommandation sur l'accessibilité est illusoire, il y en a trop peu. Mieux vaut se concentrer sur des sites faisant des efforts d'accessibilité.&lt;/p&gt;

&lt;h2&gt;Un moteur modulaire&lt;/h2&gt;

&lt;p&gt;L'intérêt d'un moteur de recherche modulaire a été souligné. Ce lui assure son évolution, lui permet d'évoluer dynamiquement. Cela permet également d'interfacer beaucoup d'outils au travers d'API.&lt;/p&gt;

&lt;h2&gt;BOINC et le calcul distribué&lt;/h2&gt;

&lt;p&gt;Une des faiblesse de Valiz sera sa faible infrastructure hardware comme nos moyens seront forcément limités. Une idée avancée lors de cette discussion était de sous-traiter des calculs à une plate-forme de calcul distribué via &lt;a href=&quot;http://boinc.berkeley.edu/&quot; hreflang=&quot;fr&quot;&gt;BOINC&lt;/a&gt; par exemple. Une partie du travail pourrait ainsi être traité en-dehors des serveurs de Valiz. Il ne s'agirait évidemment pas de calcul en temps réel mais plutôt de traitements de l'index, d'analyse de contenu, etc...&lt;br /&gt;&lt;/p&gt;

&lt;h2&gt;Faire participer les universités&lt;/h2&gt;

&lt;p&gt;Une autre idée qui a été proposé est de soumettre Valiz, ou du moins certains modules aux universités qui ont les moyens de le faire avancer et de mettre des serveurs à disposition. C'est probablement le chemin le plus plausible pour que Valiz devienne réalité.&lt;/p&gt;

&lt;h2&gt;Le site de Valiz&lt;/h2&gt;

&lt;h3&gt;Le blog&lt;/h3&gt;

&lt;p&gt;Plusieurs personnes ont critiqué le blog comme support de discussion pour les débats. Ce n'est pas un support adapté, il devrait plutôt être utilisé pour faire des annonces sur l'avancement du projet. Ce n'est pas faux.&lt;/p&gt;

&lt;h3&gt;La page d'accueil&lt;/h3&gt;

&lt;p&gt;Cette page n'est pas suffisamment compréhensible, elle prête à confusion. Surtout la partie en anglais qui est du pure massacre (issu de Google Translate), il faudrait au minimum que je la réécrive. Je pense plutôt la remplacer par une explication beaucoup plus concise et mettrait en avant le blog et le wiki.&lt;/p&gt;

&lt;h3&gt;Le wiki&lt;/h3&gt;

&lt;p&gt;Beaucoup étaient de l'avis que le wiki était la forme la plus adaptée au projet. Il y en avait déjà un en place, un Dokuwiki. Mais il semblerait qu'il y ait besoin de quelque chose de plus costaud pour notamment y intégrer les discussions. C'est pourquoi je vais remplacer le Dokuwiki par un Mediawiki très prochainement.&lt;/p&gt;

&lt;h2&gt;Structure et cadre du projet&lt;/h2&gt;

&lt;p&gt;J'ai profité de la discussion pour situer le cadre de Valiz. Il s'agit d'un projet bénévole entretenu par des passionnés. Valiz sera un des projets de l'&lt;a href=&quot;http://www.texuma.org&quot; hreflang=&quot;fr&quot;&gt;association Texuma&lt;/a&gt;, une association à but non-lucratif dont l'objectif et de faciliter le développement de projets software ou touchant à internet.&lt;/p&gt;

&lt;h2&gt;Le budget et la publicité&lt;/h2&gt;

&lt;p&gt;Le thème de la publicité a été abordé également. Allons-nous intégrer de la publicité dans les résultats des recherches&amp;nbsp;? Non évidemment. Pourquoi ?&lt;br /&gt;
Proposer de la publicité sur une page souhaitant présenter du contenu accessible dans ses résultats implique que la publicité aboutisse également vers des sites accessibles. Et si le site visé par la publicité était accessible, il figurerait naturellement en bonne place dans les résultats et n'aurait donc pas à payer. Par ailleurs le but de Valiz n'est pas lucratif.&lt;br /&gt;
Évidemment ça ne rend pas les choses simples pour autant, un moteur de recherche a besoin d'importantes ressources hardware (serveurs, baies, bande passante, switchs, routeurs ,spares, etc...) ce qui est extrêmement onéreux. Évidemment une partie du budget pourrait être constituée de dons, mais il faudrait avoir une popularité similaire à Wikipedia pour que ce soit significatif.&lt;br /&gt;
Même si cela reste un point capital, je préfère ne pas trop m'y attarder tant que nous n'avons pas un cahier des charges concret et réaliste.&lt;/p&gt;

&lt;h2&gt;Et maintenant&amp;nbsp;?&lt;/h2&gt;

&lt;p&gt;Vous êtes plus que jamais invité à continuer de débattre. Valiz n'est pas mort et cherche à avoir un maximum de contributeurs pour discuter du cahier des charges. Il n'y a pas besoin de compétences particulières, être un utilisateur d'un moteur de recherche suffit amplement pour dire ce qui nous manque, comment on veut obtenir l'information, ce qui ne va pas avec les résultats, etc... Pour cela je vais mettre en place le wiki sous quelques jours.&lt;br /&gt;
Comme l'expérience était concluante, il n'est pas impossible que de nouvelles discussions de ce type aient lieu, que ce soit sur le salon d'exalead ou ailleurs. L'idéal à moyen terme serait de réunir les personnes intéressées sur un salon dédié permanent.
&lt;a href=&quot;http://chat.jabberfr.org/logs/exalead@chat.jabberfr.org/2008-10-18.html&quot; hreflang=&quot;fr&quot;&gt;Le log complet de la discussion&lt;/a&gt;&lt;/p&gt;</description>
    
    
    
          <comments>http://www.valiz.org/blog/index.php/post/2008/10/19/Compte-rendu-de-la-discussion-jabber-du-18-octobre-2008#comment-form</comments>
      <wfw:comment>http://www.valiz.org/blog/index.php/post/2008/10/19/Compte-rendu-de-la-discussion-jabber-du-18-octobre-2008#comment-form</wfw:comment>
      <wfw:commentRss>http://www.valiz.org/blog/index.php/feed/rss2/comments/18</wfw:commentRss>
      </item>
    
  <item>
    <title>Quelle infrastructure pour le meilleur rapport prix/performance/fiabilité ?</title>
    <link>http://www.valiz.org/blog/index.php/post/2007/01/11/Quelle-infrastructure-pour-le-meilleur-rapport-prix/performance/fiabilite</link>
    <guid isPermaLink="false">urn:md5:7de2ca41ddaee4c4348328598ecad594</guid>
    <pubDate>Thu, 11 Jan 2007 20:21:00 +0100</pubDate>
    <dc:creator>Reivilo</dc:creator>
        <category>Infrastructure</category>
        <category>index</category><category>performance</category><category>requête</category><category>serveur</category><category>SQL</category>    
    <description>    &lt;h2&gt;Catégories de serveurs&lt;/h2&gt;

&lt;p&gt;Dans l'infrastructure de Valiz je vois...&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Les serveurs SQL exploités par ValizBot (liste d'attente, résultats de l'exploration,..)&lt;/li&gt;
&lt;li&gt;Les serveurs pour nourrir ValizBot&lt;/li&gt;
&lt;li&gt;Les serveurs matheux qui traitent les résultats obtenus par ValizBot pour pré-formater les résultats et autres algorithmes&lt;/li&gt;
&lt;li&gt;Les serveurs SQL utilisés pour construire les requêtes&lt;/li&gt;
&lt;li&gt;Les serveurs Web qui assemblent les résultats SQL et/ou issus du cache&lt;/li&gt;
&lt;li&gt;Les serveurs de cache&lt;/li&gt;
&lt;li&gt;Les annexes (serveurs dns, mail, load balancing, monitoring, backup,...)&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Bref, c'est toute une famille à concevoir et il faut surtout que ce soit totalement modulable afin de simplifier l'évolution&amp;nbsp;: agrandissement, changement de mode de fonctionnement, ...&lt;/p&gt;

&lt;h2&gt;On regarde de plus près...&lt;/h2&gt;

&lt;p&gt;À présent que les catégories de serveurs composants l'infrastructure sont définies, examinons le tout de plus près.&lt;/p&gt;

&lt;h3&gt;Serveurs SQL de ValizBot&lt;/h3&gt;

&lt;p&gt;Ces serveurs ne sont sollicités que localement par les serveurs ValizBot pour lui fournir les adresses à explorer, mettre à jour ou à découvrir, il y a d'une part cette liste, mais aussi les résultats des sitemaps, robots.txt et autre, et d'autre part l'index brut&amp;nbsp;: tout ce qui est retenu par ValizBot. Ces bases sont donc énormes mais relativement peu sollicitées.&lt;br /&gt;
Au début, cette catégorie pourrait être réunie sur un gros serveur, mais par la suite elle serait probablement répartie sur un ou plusieurs gros NFS (pour cet usage, du SATA II suffirait) avec un gros serveur maître.&lt;/p&gt;

&lt;h3&gt;Serveurs pour ValizBot&lt;/h3&gt;

&lt;p&gt;Valiz sera conçu de manière à pouvoir disposer de plusieurs ValizBot simultanément sur la toile. La limite concernant le nombre provient principalement de la catégorie précédente. Ces serveurs n'ont pas besoin de beaucoup de puissance.&lt;/p&gt;

&lt;h3&gt;Serveurs matheux&lt;/h3&gt;

&lt;p&gt;Ces serveurs seront en quelque sort le cerveau de Valiz, et un cerveau ça réfléchit vite et avec une bonne mémoire svp&amp;nbsp;! Ils se servent dans le serveur SQL de ValizBot, traitent les données et les renvoies aux serveurs SQL des requêtes après épluchage.&lt;/p&gt;

&lt;h3&gt;Serveurs SQL&lt;/h3&gt;

&lt;p&gt;Là évidemment, plus c'est fort mieux ça, il faudrait également des disques puissants (10 ou 15 krpm), je pense à du SAS/SCSI ou encore à du raptor...
Je pense que pour de bonnes performances il faut exploiter plusieurs serveurs par requête sql (il me semble que Google exploite 1000 nodes par requête). Chaque serveur aurait une petite tranche de l'index (10-50 go) et se chargerait de traiter ses données pour les mettre en commun avec les autres par la suite. Il me semble que pgtool fait cela, je vais encore me documenter. Ces serveurs servent également pour tous les services externes proposés par Valiz.&lt;/p&gt;

&lt;h3&gt;Serveurs Web&lt;/h3&gt;

&lt;p&gt;C'est la face visible de l'infrastructure pour les utilisateurs&amp;nbsp;: le site (interface de recherche et documentation). Ces serveurs mettent en forme les données récupérées et les affiches. Ils exploitent avant tout le cache et sinon envoie et récupère les données des serveurs sql. Si le cache de la requête n'existe pas ils le crée et le place sur les serveurs de cache.&lt;/p&gt;

&lt;h3&gt;Serveurs de cache&lt;/h3&gt;

&lt;p&gt;Comme toutes les autres catégories, il faudra explorer à fond la configuration, mais ça pourrait se résumer à un NFS.&lt;/p&gt;

&lt;h3&gt;Serveurs annexes&lt;/h3&gt;

&lt;p&gt;Ces serveurs ne sont pas des bêtes de puissance, mais sont indispensables au fonctionnement de Valiz.&lt;/p&gt;


&lt;h2&gt;Conclusion&lt;/h2&gt;

&lt;p&gt;C'était une première ébauche simplifiée de l'infrastructure possible de Valiz, les valeurs fondamentales devraient être&amp;nbsp;: fiabilité, performances et évolutivité.&lt;br /&gt;
Bien sûr, tout dépend des moyens à disposition et du succès rencontré.&lt;/p&gt;</description>
    
    
    
          <comments>http://www.valiz.org/blog/index.php/post/2007/01/11/Quelle-infrastructure-pour-le-meilleur-rapport-prix/performance/fiabilite#comment-form</comments>
      <wfw:comment>http://www.valiz.org/blog/index.php/post/2007/01/11/Quelle-infrastructure-pour-le-meilleur-rapport-prix/performance/fiabilite#comment-form</wfw:comment>
      <wfw:commentRss>http://www.valiz.org/blog/index.php/feed/rss2/comments/7</wfw:commentRss>
      </item>
    
  <item>
    <title>Rafraichissement des résultats</title>
    <link>http://www.valiz.org/blog/index.php/post/2007/01/08/Rafraichissement-des-resultats</link>
    <guid isPermaLink="false">urn:md5:ab60e5c2e6dd13d5a2e3fce61510c350</guid>
    <pubDate>Mon, 08 Jan 2007 20:52:00 +0100</pubDate>
    <dc:creator>Reivilo</dc:creator>
        <category>Débats</category>
        <category>cache</category><category>calcul</category><category>flag</category><category>index</category><category>lastmod</category><category>requête</category>    
    <description>    &lt;p&gt;Calculer les résultats pour une requête requiert beaucoup de ressources, il serait suicidaire d'appliquer un calcul en temps réel pour chaque requête. Même les plus grands moteurs ne font pas du calcul instantané (et si plus est la base est de 8 milliards de pages...).&lt;br /&gt;
Comment économiser les ressources tout en restant le plus possible à jour&amp;nbsp;?&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Diminuer l'étendue de la recherche en séparant par thématique et autres flags attribués lors de l'indexation&lt;/li&gt;
&lt;li&gt;Effectuer des calculs de pertinence permanents en arrière-plan&lt;/li&gt;
&lt;li&gt;Générer de manière autonome les requêtes courantes&lt;/li&gt;
&lt;li&gt;Mettre en cache les requêtes effectuées&lt;/li&gt;
&lt;li&gt;Calcul instantané basé sur les requêtes proches en cache&amp;nbsp;?&lt;/li&gt;
&lt;li&gt;etc...&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Mais à quelle fréquence mettre à jour le cache&amp;nbsp;? On pourrait établir des niveaux de popularités/fréquence de nouveautés et ainsi faire des mises à jour toutes les 24/48h voir une fois par semaine. Mais le plus important serait probablement un cache intelligent&amp;nbsp;:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Mise à jour lorsque de nouveaux résultats détectés comme pertinents sont ajoutés ou mis à jour dans l'index&lt;/li&gt;
&lt;li&gt;Requêtes &lt;em&gt;chaudes&lt;/em&gt; (actualité, débats, évènement) où les informations évoluent très rapidement&amp;nbsp;: donc mise à jour très fréquentes&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Un autre domaine à examiner serait la catégorie actualité des résultats, je pense que le plus pertinent serait de se baser sur les flux rss (pour avoir le plus récent sans avoir à aller le chercher avec valizbot) et cette sous-catégorie serait gérée indépendamment du cache ou alors bénéficierait d'un cache séparé (reconstruit selon le même principe).&lt;br /&gt;
Dans la même lancée, nous pourrions nous interroger sur la fréquence de mise à jour par valizbot, la solution la plus simple de se baser sur le couple sitemaps/lastmod, mais ce concept est encore très peu utilisé et souvent de manière incorrecte. Mais ceci fera l'objet d'un autre article...&lt;/p&gt;</description>
    
    
    
          <comments>http://www.valiz.org/blog/index.php/post/2007/01/08/Rafraichissement-des-resultats#comment-form</comments>
      <wfw:comment>http://www.valiz.org/blog/index.php/post/2007/01/08/Rafraichissement-des-resultats#comment-form</wfw:comment>
      <wfw:commentRss>http://www.valiz.org/blog/index.php/feed/rss2/comments/5</wfw:commentRss>
      </item>
    
</channel>
</rss>