Déterminer le contenu dupliqué et sa source
Par Reivilo le dimanche, janvier 7 2007, 14:38 - Débats - Lien permanent
Le contenu dupliqué est un des gros obstacles aux moteurs de recherche actuellement. Le contenu dupliqué (ou duplicat content en anglais) peut se présenter sous plusieurs formes, voici les principales :
- Au sein d'un même site, une même page est accessible via plusieurs urls différentes (typiquement avec ou sans www, ou avec la réécriture d'url)
- Au sein d'un même site, le contenu est présent sur des pages de réponses (forum, wiki,...)
- Sur des sites différents : contenu plagié
- Sur des sites différents : contenu dupliqué grâce aux licences à la mode (creative commons et autres GPL), dans ce cas la source est citée.
- Sur des sites externes : fils rss/atom, mais en général le titre pointe sur la source.
Le défi est donc double : trouver le contenu dupliqué et déterminer le résultat source pour supprimer ou pénaliser le duplicata.
Mais à partir de quelles proportions définir un contenu comme une copie ?
Au sein d'un même site, je pense que l'on peut facilement faire des tests via ValizBot pour vérifier l'accès avec/sans www ou encore si le site exploite l'url rewriting (et dans ce cas ne garder que les url réécrites). De même, il est relativement aisé de détecter si une page est un formulaire de réponse.
Le principal obstacle vient du contenu dupliqué sur plusieurs sites. Comment déterminer l'original ? Si un lien est présent pour citer la source, la chose est à nouveau plus ou moins aisée, mais dans le cas contraire ?
Le débat est ouvert...
Commentaires