Etoiles inactivesEtoiles inactivesEtoiles inactivesEtoiles inactivesEtoiles inactives

collecte googleJ’ai lu les 62 pages du rapport de Douglas Schmidt, professeur à l’université Vanderbilt (Etats-Unis), « Ce que Google collecte ».

Ce document est essentiel, car il permet de comprendre l’étendue de la collecte d’informations de Google. Si je connaissais déjà beaucoup d’éléments, ce travail apporte une assise technique précieuse. L’auteur et son équipe ont fait des tests, ont précisé les modes opératoires et les résultats, ont résumé les faits en graphes et tableaux. Bref, c’est un excellent travail et une référence solide.

La version originale en anglais est disponible à l’adresse :
https://digitalcontentnext.org/wp-content/uploads/2018/08/DCN-Google-Data-Collection-Paper.pdf
La traduction française, publiée initialement sur le Framablog, est due à l’équipe Framalang.

Voici quelques extraits. Tout ce qui suit est tiré du document.

---------------------------------

Google est la plus grosse agence de publicité numérique du monde. Elle fournit aussi le leader des navigateurs web, la première plateforme mobile ainsi que le moteur de recherche le plus utilisé au monde. La plateforme vidéo de Google, ses services de courriel et de cartographie comptent 1 milliard d’utilisateurs mensuels actifs chacun. Google utilise l’immense popularité de ses produits pour collecter des données détaillées sur le comportement des utilisateurs en ligne comme dans la vie réelle, données qu’il utilisera ensuite pour cibler ses utilisateurs avec de la publicité payante. Les revenus de Google augmentent significativement en fonction de la finesse des technologies de ciblage des données.

Google collecte les données utilisateurs de diverses manières. Les plus évidentes sont « actives », celles dans lesquelles l’utilisateur donne directement et consciemment des informations à Google, par exemple en s’inscrivant à des applications très populaires telles que YouTube, Gmail, ou le moteur de recherche. Les voies dites « passives » utilisées par Google pour collecter des données sont plus discrètes, quand une application devient pendant son utilisation l’instrument de la collecte des données, sans que l’utilisateur en soit conscient. On trouve ces méthodes de collecte dans les plateformes (Android, Chrome), les applications (le moteur de recherche, YouTube, Maps), des outils de publication (Google Analytics, AdSense) et de publicité (AdMob, AdWords). L’étendue et l’ampleur de la collecte passive de données de Google ont été en grande partie négligées par les études antérieures sur le sujet. Une liste des études antérieures ou nouvelles sur la collecte de données par Google figure dans l’appendice du présent document.

La Figure 1 (plus haut) : présente une journée dans la vie d’une utilisatrice de Google

collecte google2

Android et Chrome collectent méticuleusement la localisation et les mouvements de l’utilisateur en utilisant une variété de sources, représentées sur la figure ci-contre. Par exemple, un accès à la « localisation approximative » peut être réalisé en utilisant les coordonnées GPS sur un téléphone Android ou avec l’adresse IP sur un ordinateur. La précision de la localisation peut être améliorée (« localisation précise ») avec l’usage des identifiants des antennes cellulaires environnantes ou en scannant les BSSID (’’Basic Service Set IDentifiers’’), identifiants assignés de manière unique aux puces radio des points d’accès Wi-Fi présents aux alentours. Les téléphones Android peuvent aussi utiliser les informations des balises Bluetooth enregistrées dans l’API Proximity Beacon de Google.

Il est difficile pour un utilisateur de téléphone Android de refuser le traçage de sa localisation. Par exemple, sur un appareil Android, même si un utilisateur désactive le Wi-Fi, la localisation est toujours suivie par son signal Wi-Fi. Pour éviter un tel traçage, le scan Wi-Fi doit être explicitement désactivé par une autre action de l’utilisateur

L’omniprésence de points d’accès Wi-Fi a rendu le traçage de localisation assez fréquent. Par exemple, durant une courte promenade de 15 minutes autour d’une résidence, un appareil Android a envoyé neuf requêtes de localisation à Google. Les requêtes contenaient au total environ 100 BSSID de points d’accès Wi-Fi publics et privés.

Google peut vérifier avec un haut degré de confiance si un utilisateur est immobile, s’il marche, court, fait du vélo, ou voyage en train ou en car. Il y parvient grâce au traçage à intervalles de temps réguliers de la localisation d’un utilisateur Android, combiné aux données des capteurs embarqués (comme l’accéléromètre) sur les téléphones mobiles
(…)
Au total, les téléphones Android ont communiqué 11,6 Mo de données par jour (environ 350 Mo par mois) avec les serveurs de Google. En comparaison, l’iPhone n’a envoyé que la moitié de ce volume.
(…)
Google collecte des données de tiers en plus des informations collectées directement à partir de leurs services et applications. Par exemple, en 2014, Google a annoncé qu’il commencerait à suivre les ventes dans les commerces réels en achetant des données sur les transactions par carte bancaire. Ces données couvraient 70 % de toutes les opérations de crédit et de débit aux États-Unis. Elles contenaient le nom de l’individu, ainsi que l’heure, le lieu et le montant de son achat
(…)
Conclusion : Google compte un pourcentage important de la population mondiale parmi ses clients directs, avec de multiples produits en tête de leurs marchés mondiaux et de nombreux produits qui dépassent le milliard d’utilisateurs actifs par mois. Ces produits sont en mesure de recueillir des données sur les utilisateurs au moyen d’une variété de techniques qui peuvent être difficiles à comprendre pour un utilisateur moyen. Une grande partie de la collecte de données de Google a lieu lorsque l’utilisateur n’utilise aucun de ses produits directement. L’ampleur d’une telle collecte est considérable, en particulier sur les appareils mobiles Android. Et bien que ces informations soient généralement recueillies sans identifier un utilisateur unique, Google a la possibilité d’utiliser les données recueillies auprès d’autres sources pour désanonymiser une telle collecte.


---------------------------------

Le dossier est à lire pour être conscient des enjeux…
J'organise des formations sur "comment surfer anonymement."

Jérôme Bondu






Etoiles inactivesEtoiles inactivesEtoiles inactivesEtoiles inactivesEtoiles inactives

le figaro santéJ’ai lu avec beaucoup d’intérêt les articles du Figaro du 4 décembre titrés « Les géants de la technologie se ruent sur la santé ». L’ensemble fait pratiquement une page et demi (pages 22 et 23).

Ce qui m’a donné envie d’en faire une recension est que cet ensemble d’articles est totalement orienté pro-gafam (Google Apple Facebook Amazon Microsoft). Après une première lecture, j’ai été tellement sidéré par l’angle adopté par le journal que j’ai relu les articles en notant les mentions négatives et positives relatives aux Gafam (j'avais la version papier). Cela donne ceci :
- Deux mentions négatives
- Quinze mention positives.
Et voici quelques extraits :

Mentions négatives :
- « Leur ambition est de recueillir un maximum de données de consommateurs et de parfaire leurs connaissances des comportements quotidiens »
- « La méfiance du public envers les Gafa demeure une réalité, à fortiori lorsqu’il s’agit d’un sujet aussi sensible que la santé ».

Maintenant, petit florilège issu des 15 mentions dithyrambiques du journal :
- « Cela peut permettre d’améliorer la santé et le bien être des patients »
- « Cela créé de la valeur pour les médecins »
- « C’est un levier d’économie pour les systèmes de santé »
- « Il n’est plus possible de les considérer comme des Big Brother obnubilés par les données mais comme des alliés indispensable »
- « Dans le management des données, on ne pourra pas se passer des Gafam compte tenu de l’avance dont ils disposent »
- « L’industrie pharmaceutique, qui fonctionnait beaucoup en vase clos, a pris conscience de l’intérêt d’avoir un modèle plus ouvert d’open innovation»
- « C’est une alliance naturelle entre deux mondes »
- « La répartition des rôles se fait naturellement »
- « Le PDG de Sanofi loue la capacité d’analyse des données phénoménale de son partenaire »

On ne peut que s’étonner du manque de recul du journal. Il n’est pas fait mention des multiples problèmes que cette abdication entraîne :
- L’aspiration des données par les GAFAM, la problématique d’avoir nos données de santé stockées sur des serveurs américains donc soumises à la loi américaine du Cloud Act,
- La dépendance informationnelle envers les Etats-Unis,
- La perte du marché colossal que la santé connectée représente,
L’orientation univoque du journal de Dassault est vraiment étonnante. Le Figaro ne fait pas mention du fait que Villani ait identifié la santé comme un secteur où la France a une carte à jouer en matière d’Intelligence Artificielle. Le journal passe sous silence le fait que la France ait centralisé (via l’assurance maladie) les données des malades, et que cela en fait une masse d’informations particulièrement bien exploitables.


Mais peut-être que la source de cet aveuglement se trouve page 5 du même numéro (4 décembre) … Car on y trouve une page entière de publi-reportage écrit (sic) « en collaboration avec Google ». Merci les gars, au moins comme cela c’est clair. Vous auriez pu décaler d’un jour ou deux la publicité et le dossier biaisé. En mettant les deux éléments dans le même numéro vous nous facilitez la tâche.

Pourtant vous savez faire. Ainsi le dossier sur la mobilité paru le 15/16 décembre est, à l’inverse de celui sur la santé, parfaitement équilibré. Il présente les raisons du succès des GAFAM, puis nuance leur position, présente des alternatives, et laisse s’exprimer Guillaume Pepy sur la puissance des applis SNCF en France. On préfère un traitement de ce type …

Jérôme Bondu





Etoiles inactivesEtoiles inactivesEtoiles inactivesEtoiles inactivesEtoiles inactives

loveluckJ’ai lu « Réseaux, libertés et contrôle » de Benjamin Loveluck. C’est un livre très dense, très riche en informations. Ce livre est le résultat de sa thèse de doctorat. Nous ne sommes pas ici dans un travail de vulgarisation.

Voici ci-dessous quelques notes surtout liées aux trois derniers chapitres.

L’auteur décrit finement les origines d’internet et ses principales composantes

- Il rappelle le mouvement cybernétique : science du contrôle et de la communication.
- Il souligne les liens avec le monde militaire : « Internet, comme la cybernétique, est un produit du complexe militaro-scientifique, et les liens n’ont jamais été complètement coupés. La Darpa, l’agence de recherche de la Défense américaine, est toujours une source importante d’innovation et de financement, et les passerelles sont nombreuses. L’une des directrices de la Darpa, Regina Dugan, a par exemple rejoint Google en 2012.»
- Mais il rappelle aussi les racines libertaires, cypherpunk, contreculture américaine, incarnés notamment dans la figure du hacker.
- Il évoque la période qui a vu la privatisation d’internet. Le poids des lobbyies industriels et de la communication ont eu raison de la volonté initiale d’Al Gore de garder internet dans le giron du public (p122).
- Il explique l’échec des portails d’informations (type Yahoo) qui se sont heurtés aux spécificités du web.
- Certains hackers ont pu changer d’orientation. Ainsi Gates, Jobs ou Zuckerberg ont été hackers avant d’être capitaine d’industrie. Il explique que « certains pirates du passé peuvent devenir les dirigeants des monopoles d’aujourd’hui » (136). Et plus loin « les plus fervents techno-libertaires de la période contre-culturelle se sont ainsi mués en techno-libertariens militant pour le marché » (159)

L’auto-organisation et le contrôle d’internet sont au centre de ses réflexions :

- Il pointe les illusions du web « De la même façon, si tout le monde peut s’exprimer sur une page web ou un blog, seule une petite minorité de sites dépassent un seuil de visibilité important. Le web n’est pas un réseau aléatoire, et selon Barabasi ces propriétés nous obligent à réévaluer l’idée générale selon laquelle le web serait intrinsèquement un espace de liberté d’expression, de justice et de démocratie : bien que toutes les opinions puissent être publiées, la « topologie du web ne nous permet de voir qu’une infime des milliards de documents qui la compose » (p216).

Centralisation des réseaux et contrôle algorithmique

Mais ce sont les trois derniers chapitres qui m’ont le plus intéressé. A commencer par le chapitre 10 intitulé « La captation : recentralisation des réseaux et contrôle algorithmique. Le cas Google » Ce chapitre est particulièrement captivant. Voici de nombreux extraits :
- Dans la continuité de ce que l’on a pu lire plus haut, on ne peut humainement trier des milliards de documents. Google a fait un travail de réduction de la complexité. Ce travail de réduction est passé par trois étapes : capitaliser sur les partages (de liens, entre internautes, …), créer des effets de réseau et exploiter les échanges d’utilité (p232). L’analyse structurale des hyperliens permet de mettre à jour un « jugement humain latent » permettant de caractériser les pages indépendamment de leur contenu (p243). Les connaissances des profils des internautes sont dans ce que l’auteur appelle un « second index qui vient compléter l’indexation des pages du web » (p246).
- Google se nourri de l’abondance d’informations sur le web. Plus il y en a, plus l’internaute est perdu, et plus son rôle de porte d’entrée du web est renforcé. Parallèlement, plus les internautes interagissent, plus ses algorithmes ont de quoi se nourrir, et plus son classement peut être pertinent. On retombe ici sur une variation de la « sagesse des foules » (p253).
- Google ne capte pas seulement l’attention des internautes mais aussi leurs intentions. L’auteur évoque dans ce cadre « de forts soupçons de dérives (…) un pouvoir économique démesuré (…) un impérialisme technocratique » (p246). Finalement l’organisation du web est devenue une « googlearchie » (p247).
- D’autres structures sont dans une situation de monopole dans la captation d’information. Si Google est au cœur du « graphe documentaire », Facebook est au cœur du « graphe social » (p256). Les acteurs clés de l’intermédiation à l’ère numérique « s’apparentent ainsi à de nouveaux seigneurs féodaux » (p257).
- La tendance ne va pas s’inverser. Car ces grands acteurs « accomplissent une tâche essentielle de réduction de la complexité informationnelle, ils accentuent une tendance centralisatrice inhérente aux réseaux complexes » (p258).

Le chapitre 11, tout aussi intéressant présente la deuxième tendance qu’il intitule la « dissémination : décentralisation radicale et cryptographie. Du peer-to-peer à Wikileaks ». Cela renvoie aux formes les plus « libertaires voire anarchistes du libéralisme informationnel : le réseau ne doit rien savoir de ce qui transite au travers des nœuds qui le composent » (p260).

Le chapitre 12, présente la troisième tendance « l’auto-institution : un projet d’autonomie par les réseaux. Les logiciels libres et Wikipedia ».

L’ouvrage n’est pas facile à lire, mais est passionnant. Il présente la genèse d’internet et ses évolutions, jusqu’à tracer trois grands systèmes d’organisation et de contrôle : centralisation (Google, Facebook), dissémination (Perr-to-peer, Wikileaks) ou auto-organisation (Logiciels libres, Wikipedia). A nous internautes de faire pencher la balancer vers le système dans lequel nous sommes le plus à l’aise. Maîtrisons internet :-)

Jérôme Bondu





Etoiles inactivesEtoiles inactivesEtoiles inactivesEtoiles inactivesEtoiles inactives

portes ouvertes hiver

Petit coup de gù€ù£e en cette période de noël : Nous avons tous remarqué qu'en hiver par grand froid, les portes de certains magasins restent ouvertes, malgré le chauffage. De même en été quand il faut très chaud et que la climatisation est au maximum. Personnellement je suis sidéré par ces pratiques. C'est un non-sens énergétique en plus d'être un mauvais calcul. Ci-dessus un petit montage avec les portes de Jennyfer, Okaïdi, Jules, Camaieu, Armand ... grandes ouvertes en plein hiver alors que la température est à peine au dessus de zéro ! Signez la pétition sur Change.org

C'est un non-sens énergétique car cela augmente la facture énergétique, et au final augmente la pollution. On peut se demander à combien se monte la facture globale de cette pratique stupide. Car au final, c'est le consommateur qui paye doublement : Sur le prix des produits achetés. Et sur la destruction de notre environnement.

C'est aussi un mauvais calcul commercial :
- Quelqu’un qui entre par hasard n’achètera pas forcément ; alors que quelqu’un qui ouvre lui-même la porte sera plus enclin à acheter.
- En outre, une porte ouverte invite peut-être à entrer, mais invite tout autant à ressortir.
- Enfin, une porte fermée donne un standing certain à un magasin.

Il y a plusieurs solutions :
- Obliger les magasins à fermer leur porte. Ils peuvent poser une affichette : «Poussez, c’est ouvert»
- Ne pas rentrer dans les magasins qui ont des portes ouvertes.
- Fermer nous-mêmes les portes de ces magasins quand en rentrons ou sortons.

Le pire est que je n'ai pas trouvé beaucoup d'articles pour dénoncer cette pratique. Preuve d'une acceptation tacite d'un grand public mi-anesthésié mi-résigné. Bravo en tout cas aux journaux qui en parlent : La Voix du Nord, L'Obs, Télérama, ...

J'ai créé une pétition sur Change.org
N'hésitez pas à la signer et à partager !!
Entre intelligence économique et intelligence écologique, il n'y a que quelques lettres de différence.

Jérôme Bondu





Etoiles inactivesEtoiles inactivesEtoiles inactivesEtoiles inactivesEtoiles inactives


infographie gafam
Je vous recommande de jeter un œil sur cette belle infographie. Je vous en donne un petit extrait, mais elle est longue comme le bras… à l’image de tous les éléments que nos amis les GAFAM collectent.


Elle montre que nous sommes les vrais « vaches à lait » de leur puissance financière. Que le RGPD n’est pas la panacée, dans la mesure où il ne résout qu’une partie des problèmes. Et que l’Europe doit promouvoir des champions qui respectent notre vision du monde.

Mais cette infographie est aussi terriblement incomplète car elle passe sous silence les élements qui sont induits, calculés, estimés par les GAFAM. Ainsi par corrélation, Google ou Apple peuvent estimer votre niveau de vie, votre santé physique ou votre niveau de cholesterol, et autres éléments que vous n'avez pas l'impression de leur donner. L'équation est pourtant simple : si vous déjeuner souvent chez MacDonald votre ordiphone vous localise et renseigne une belle base de données qui peut calculer votre pourcentage de "chance" de développer une maladie cardiovasculaire. Ces éléments là ne figure pas dans l'infographie et -à la limite- cela peut se comprendre. Car par corrélation, c'est en fait tous les éléments de notre vie qu'il faudrait faire figurer... (voir notamment l'article "Savez-vous jusqu'où Facebook peut profiler votre personnalité ?")


Comme le dite l'article : The infographic provided below will help you better understand the various kinds of data you should protect if you want to use the internet as safely as possible.

A voir sur le site Digital Information.

Jérôme Bondu