Se passer de Google, Facebook et autres big brothers 2.0 #1 – les moteurs de recherche

Aujourd’hui, le net est occupé en grande partie par les services de grosses entreprises privées. Ceci pose de nombreux problèmes : logiciels privateurs, centralisation des données, pistage permanent, censure, exploration de données, dépendance à des tiers, etc.

Cette série décrit (et critique) des alternatives soit utilisables en auto-hébergement, soit via des services basés sur des logiciels libres. Dans cette première dépêche, nous allons nous intéresser aux moteurs de recherche. Les commentaires sont là pour préciser des oublis ou corriger les éventuelles erreurs.

watching


Recherche

Points d’entrée principaux sur le web, les moteurs de recherche ont un rôle stratégique majeur qui a fait la fortune de Google (*) et qui pose d’énormes problèmes de vie privée.
Malheureusement, les alternatives ont du mal à voir le jour, particulièrement les alternatives libres. Certaines alternatives non libres ont le vent en poupe en ce moment, mais il est impossible de vérifier leur prétendu meilleur respect de la vie privée.

(*) On notera que Google n’est pas dominant dans tous les pays :

  • en Corée Naver a 70% de parts de marché
  • en Chine Baidu a 73% de parts de marché
  • en Russie Yandex a 62% de parts de marché

Vocabulaire

méta-moteur
Un méta-moteur est un moteur de recherche qui agrège le contenu de plusieurs autres moteurs.

Légende

libre propriétaire/privateur décentralisé centralisé
libre propriétaire décentralisé centralisé

Note : les images viennent d’Open Clipart et sont hébergées grâce à LUTIm

Moteurs

Seeks

libre et décentralisé

Seeks est un moteur qui a une feuille de route1 ambitieuse. Il est à la fois un méta-moteur de recherche et un moteur pair à pair. Seeks est en effet capable de partager les résultats de la recherche dans un réseau de nœuds, pour faire de la recherche collaborative. Cette fonctionnalité est cependant en cours de développement et incomplète à l’heure qu’il est.

Seeks est aussi capable d’adapter la recherche en fonction de l’utilisateur : il affinera les réponses selon vos requêtes, sélection de résultats et navigation. Ce profil d’utilisation est stocké localement, sur votre machine.

À noter que le développeur principal n’a plus de temps à y consacrer, le projet était donc en attente de fork. C’est pourquoi @taziden avait lancé un appel sur Twitter au développement d’un successeur Python à Seeks. Asciimoo l’a finalement concrétisé ici : https://github.com/asciimoo/searx

Capture Seeks, nœud public http://www.seeks.fr/

YaCy, le moteur de recherche décentralisé, libre et sans pistage

libre et décentralisé

YaCy est un moteur de recherche libre fonctionnant selon le principe de réseau pair à pair.
Contrairement à Seeks qui a commencé son développement par sa fonctionnalité de méta-moteur, Yacy est développé depuis le début comme un indexeur du web et rentre donc directement en concurrence avec Google, Bing, Yahoo!, etc. Yacy a comme avantage non seulement d’être un logiciel libre, mais également de pouvoir fonctionner soit de manière autonome (pour un Intranet, par exemple), soit en collaboration paire à paire (pour en améliorer les résultats puisque plus de ressources sont disponibles grâce à leur partage).

On notera également que Yacy est exécuté par OpenJDK7 (l’implémentation libre de Java 7) et ne dépend d’aucun serveur web ou système de base de données.

Il est possible d’utiliser Seeks/Searx et Yacy en même temps, c’est expliqué sur la wiki de Yacy.

YaCy capture du site officiel

DuckDuckGo, le moteur de recherche centralisé, non libre et sans pistage

propriétaire

Il s’agit d’un moteur de recherche qui a pour but de préserver la vie privée et de ne stocker aucune information personnelle concernant les utilisateurs (adresses IP et traces numériques comme la signature du navigateur). Ceci est expliqué sur le site don’t track us.

Il ne répond pas aux requêtes en fonction du contexte, comme le font les moteurs de recherche les plus connus (comme expliqué sur le site don’t bubble us).

Il permet aussi d’utiliser directement le moteur de recherche de son choix avec les recherches rapides (appelées recherches bang). Par exemple linuxfr !w recherche le terme LinuxFR dans le moteur de recherche de Wikipedia. LinuxFr a d’ailleurs son propre !bang : !linuxfr

Enfin, il fonctionne toujours en HTTPS et par redirection automatique, si vous venez en HTTP.

Il y a quelques polémiques autour de DDG, à titre de références voici quelques liens, les commentaires sont là pour discuter plus en profondeur :

DuckDuckGo capture

Ixquick/Startpage, le moteur de recherche centralisé, non libre et sans pistage

propriétaire

Ixquick est un méta-moteur de recherche qui annonce ne pas pister les utilisateurs, ni enregistrer les adresses IP. Il utilise les moteurs de recherche de AOL, AlltheWeb, Altavista, Ask, Bing, EntireWeb, Gigablast, Google, Open Directory et Wikipédia.

La même société a créé en parallèle le moteur startpage. Il repose sur les mêmes principes mais n’utilise que Google pour donner ses réponses aux utilisateurs. C’est en quelque sorte le Google sans danger, mais ce n’est pas le moteur idéal, car il est centralisé et repose entièrement sur Google.

Comme Duckduckgo, ixquick et startpage fonctionnent toujours en HTTPS (redirection si vous venez en HTTP).

ixquick

Qwant, moteur de recherche (ou agrégateur) non-libre et sans pistage

propriétaire

Qwant est un très récent moteur de recherche, lancé en 2013, par des Français.

Sa particularité réside dans l’affichage par catégories, lors d’une même recherche (web, actualités, media sociaux, etc.)

Il y a encore peu d’infos sur le fonctionnement de Qwant et certains le soupçonnent d’être essentiellement un méta-moteur d’autres services.

Voici un extrait de sa politique de confidentialité:

La philosophie de Qwant repose sur 2 piliers : Nous ne traçons pas nos utilisateurs, Nous ne filtrons pas le contenu d’Internet.
Nous faisons notre possible pour respecter la vie privée des internautes, tout en garantissant un environnement sécurisé et des résultats pertinents.

Il propose le HTTPS, mais ne l’active pas automatiquement. De plus, il propose un système de compte pour personnaliser ses paramètres et partager diverses choses (notes, etc.), ainsi que de se connecter à des comptes de media sociaux (ce qui soulève quelques questionnement sur la compatibilité avec la politique de confidentialité dans ce cas d’utilisation).

Qwant

Héberger son propre moteur de recherche

libre et centralisé

Tuxicoman nous a parlé il y a quelques mois d’une méthode originale : réaliser son propre agrégateur de moteurs. L’intérêt ici est que vous avez une meilleure maîtrise de ce qui se passe, et vous pouvez anonymiser/supprimer les publicité/enlever les redirections de liens/etc vous même.

Le journal explique cela plus en détails. (voir également ce commentaire posté par Tuxicoman plus bas dans cette dépêche).

capture méta-moteur maison

Répertoires

Un peu tombé en désuétude, les répertoires de recherche sont une autre façon de trouver un site, plus proche de l’annuaire : on cherche un thème et les sites correspondants sont répertoriés, souvent à la main.

dmoz (Open Directory Project)

libre

DMOZ (pour Directory.MOZilla.org) est un projet ouvert de répertoire de sites web (Open Directory Project) qui a commencé en 1998. L’ancienne licence (Open Directory License) était considérée comme non-libre par la FSF, mais depuis 2011 dmoz a placé son contenu sous licence Creative Commons By.

Le projet qui a connu une certaine popularité au début des années 2000 fut exploité par Google jusqu’en 2011. D’autres sites continuent de l’utiliser, un des meilleurs exemples étant Alexa.

Quelques pannes techniques et la faible évolution de son interface semblent avoir découragé certains participants et utilisateurs qui se sont (re)tournés vers un moteur de recherche. Pourtant l’idée d’un répertoire de sites web classés par thèmes reste toujours valable et permet d’éviter les erreurs des moteurs. Le projet est néanmoins toujours ouvert.

dmoz capture wikipedia en

Conclusion

Il est aujourd’hui possible de se passer de Google comme moteur de recherche principal, mais cela peut demander de sacrifier ses habitudes. Des moteurs alternatifs existent avec leur avantages/inconvénients respectifs, mais sans maîtrise sur les serveurs, on ne peut leur faire confiance aveuglément.

Des méta-moteurs donneront souvent de meilleurs résultats que des robots d’indexation (crawlers) maison, au prix (très élevé) d’une dépendance maintenue aux gros moteurs.

Des solutions libres existent, et fonctionnent, mais il y a encore du chemin avant d’arriver à des alternatives entièrement maîtrisées et largement utilisées.

La prochaine dépêche de la série parlera du courrier électronique. Vous êtes invités à venir participer à la rédaction collective pour partager vos connaissances sur le sujet.

 


 

SOURCE & + d’infos @ http://linuxfr.org/news/se-passer-de-google-facebook-et-autres-big-brothers-2-0-1-les-moteurs-de-recherche