<?xml version="1.0" encoding="utf-8"?><?xml-stylesheet title="XSL formatting" type="text/xsl" href="http://www.valiz.org/blog/index.php/feed/rss2/xslt" ?><rss version="2.0"
  xmlns:dc="http://purl.org/dc/elements/1.1/"
  xmlns:wfw="http://wellformedweb.org/CommentAPI/"
  xmlns:content="http://purl.org/rss/1.0/modules/content/">
<channel>
  <title>Valiz : Moteur de recherche open-source - cibler</title>
  <link>http://www.valiz.org/blog/index.php/</link>
  <description>Blog francophone du développement du projet de moteur libre Valiz.</description>
  <language>fr</language>
  <pubDate>Tue, 16 Dec 2008 17:15:57 +0100</pubDate>
  <copyright>Le contenu de ce blog peut être copié à condition de citer la source avec un lien en dur.</copyright>
  <docs>http://blogs.law.harvard.edu/tech/rss</docs>
  <generator>Dotclear</generator>
  
    
  <item>
    <title>Authentifier le contenu</title>
    <link>http://www.valiz.org/blog/index.php/post/2007/06/10/Authentifier-le-contenu</link>
    <guid isPermaLink="false">urn:md5:270fe670143c237005ab2c7bce803b60</guid>
    <pubDate>Sun, 10 Jun 2007 20:06:00 +0200</pubDate>
    <dc:creator>Reivilo</dc:creator>
        <category>Débats</category>
        <category>cibler</category><category>contenu</category><category>requête</category><category>résultats</category>    
    <description>    &lt;h3&gt;Introduction&lt;/h3&gt;

&lt;p&gt;J'ai déjà évoqué le potentiel de la recherche universelle puis par secteur (bibliographie, évènement, article,...). À présent, je vais évoquer un autre type de séparation&amp;nbsp;: le niveau de qualification d'un site.&lt;/p&gt;

&lt;h3&gt;Niveau de qualification&lt;/h3&gt;

&lt;p&gt;De nos jours, tout le monde peut créer un site. Tout le monde peut acheter un nom de domaine. Cela est du à deux paramètres principaux&amp;nbsp;:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Le très faible cout d'un nom de domaine et de l'hébergement grand public&lt;/li&gt;
&lt;li&gt;Le niveau de connaissances requis&amp;nbsp;: nul (il existe des plate-formes de sites, des CMS,...)&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Comme tout le monde peut générer du contenu sur internet, on peut y trouver n'importe quoi. Je peux tout à fait écrire sur ce blog un long article sur les risques dû aux transmissions micro-onde dans l'espace sans pour autant m'y connaitre. Un moteur de recherche ne fera pas la distinction entre un hurluberlu et un chercheur qualifié.&lt;br /&gt;
Comme le moteur de recherche ne peut faire la distinction, l'internaute qui posera sa requête au moteur de recherche peut très bien tomber sur un article fantaisiste et baser un mémoire dessus...&lt;/p&gt;

&lt;h3&gt;Distinguer&lt;/h3&gt;

&lt;p&gt;Dès lors, comment distinguer une page dont le contenu est issu de personnes qualifiées des pages impertinentes&amp;nbsp;?
De mon point de vue, je vois deux types de pages pertinente&amp;nbsp;:&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;Celles publiées sur le site d'université, hautes écoles,...&lt;/li&gt;
&lt;li&gt;Celles diffusées sur le site personnel d'un passionné. Sans que l'auteur soit qualifié, son travail a de la valeur.&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;Un bot n'a que peu de chance de faire un bon tri sur ces aspects. Un filtre humain doit être appliqué.&lt;br /&gt;
Avec un travail communautaire, nous pourrions recenser les nom de domaine appartenant à des universités, hautes écoles, sites de passionnés, etc...&lt;/p&gt;

&lt;h3&gt;Autres domaines&lt;/h3&gt;

&lt;p&gt;Dans le même esprit, nous pourrions filtrer les sites des administrations pour chaque pays. Cela pourrait faciliter le recherche de texte de lois, d'informations sur les brevets, sur les entreprises, etc... sans que des sites amateurs viennent s'y emmêler. Tout ceci augmenterait largement la pertinence de certaines requêtes. Qu'en pensez-vous&amp;nbsp;?&lt;/p&gt;</description>
    
    
    
          <comments>http://www.valiz.org/blog/index.php/post/2007/06/10/Authentifier-le-contenu#comment-form</comments>
      <wfw:comment>http://www.valiz.org/blog/index.php/post/2007/06/10/Authentifier-le-contenu#comment-form</wfw:comment>
      <wfw:commentRss>http://www.valiz.org/blog/index.php/feed/rss2/comments/17</wfw:commentRss>
      </item>
    
  <item>
    <title>La géolocalisation</title>
    <link>http://www.valiz.org/blog/index.php/post/2007/01/17/La-geolocalisation</link>
    <guid isPermaLink="false">urn:md5:9413723152120ec13d65efc6e8011f67</guid>
    <pubDate>Wed, 17 Jan 2007 20:48:00 +0100</pubDate>
    <dc:creator>Reivilo</dc:creator>
        <category>Débats</category>
        <category>cibler</category><category>critères</category><category>langue</category>    
    <description>    &lt;p&gt;Pour bon nombre de requêtes on cherche des résultats proches de sa localité (restaurant, salle, évènement, magasin,....). Évidemment on pourrait chercher en mettant un mot-clef comme la région, la ville ou le département par exemple, mais les sites sont rarement bien étiqueté.&lt;/p&gt;

&lt;h3&gt;Critères actuellement utilisés&lt;/h3&gt;

&lt;p&gt;La plupart des moteurs de recherche proposent de restreindre la recherche à une langue ou encore aux sites hébergés dans un pays précis.Détecter la langue d'un site ou d'un internaute (via la valeur renvoyée par le navigateur par exemple) est relativement aisé,  et ça marche plutôt bien.&lt;br /&gt;
Par contre, restreindre une recherche aux sites hébergés dans un pays n'est pas pertinent. En effet, de moins en moins en moins de particuliers/entreprises utilise un hébergeur à proximité de son magasin ou encore dans le même pays. La mode va aux hébergeurs de grandes tailles qui ont leur propre datacenter là où l'immobilier est bon marché ou simplement où le backbone internet est peu onéreux. Ainsi nombre de sites français sont hébergés en allemagne ou encore aux USA. Bref, bon nombre de sites pertinents seraient recalés avec un tel critère.&lt;br /&gt;
Mais alors comment définir&amp;nbsp;:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;La langue et la localisation de l'utilisateur&lt;/li&gt;
&lt;li&gt;La langue et la localisation d'un site ou plutôt du service qu'il représente (par exemple un hôtel)&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;Du côté de l'internaute&lt;/h3&gt;

&lt;p&gt;Pour cibler l'internaute, deux outils sont à disposition&amp;nbsp;:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;L'user-agent renvoyé par son navigateur&lt;/li&gt;
&lt;li&gt;Son IP&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Le user-agent des navigateurs les plus utilisés renvoie la langue utilisée par l'utilisateur, donc on peut en déduire la langue qui l'intéresse (évidemment, ce n'est pas infaillible et tous les critères devraient être ajustables par l'internaute).&lt;br /&gt;
Le seul critère qui pourrait refléter la localistion de l'internaute est son ip (qu'il faudrait tracer), néanmoins cela demande trop de temps, c'est approximatif et si ça passe par un proxy par exemple, le critère tombe à l'eau. Bref, je ne vois pas de vraie solution pour localiser l'internaute.&lt;/p&gt;

&lt;h3&gt;Du côté du site&lt;/h3&gt;

&lt;p&gt;Du côté du site on retrouve également l'IP du serveur (et cette fois on aurait le temps de la tracer), mais comme je l'ai dit précédemment, le résultat peu être totalement trompeur. Bref ce n'est pas un critère fiable.&lt;br /&gt;
Pour localiser le service d'un site (dans le cas où la prestation serait matériel comme un hôtel, restaurant, cinéma, musée ou autre évènement), le critère le plus fiable à mon avis serait une adresse trouvée dans le site. Ce serait à ValizBot de la trouver et de l'analyser.&lt;br /&gt;
&lt;br /&gt;
Qu'en pensez-vous&amp;nbsp;?&lt;/p&gt;</description>
    
    
    
          <comments>http://www.valiz.org/blog/index.php/post/2007/01/17/La-geolocalisation#comment-form</comments>
      <wfw:comment>http://www.valiz.org/blog/index.php/post/2007/01/17/La-geolocalisation#comment-form</wfw:comment>
      <wfw:commentRss>http://www.valiz.org/blog/index.php/feed/rss2/comments/9</wfw:commentRss>
      </item>
    
</channel>
</rss>