Passion OSINT : comment tout trouver sur le web ou presque
“Le meilleur endroit pour cacher un corps, c'est la seconde page de résultats Google”
Vous connaissez sans doute ce dicton. Un clin d'œil ironique à une étude assez surprenante qui démontre que 90% environ des clics sur les moteurs de recherche se concentrent sur la première page des résultats. Parce qu’on y trouve tout tout de suite ? Parce qu’on n’a pas envie d’aller plus loin ? Manque de temps, de curiosité ? Pourtant la toile regorge de “rabbit holes” digitaux, terriers dématérialisés qui abritent les lapins blancs d’Alice au pays des merveilles numériques … l'infini des possibles, des découvertes inespérées, avec leur lot de questions et de réflexions. Ainsi l'OSINT aka « Open Source Intelligence », en français « Renseignement de Source Ouverte ». Traduisons : une information accessible à tous. Encore faut-il savoir la détecter.
Tout le monde utilise Google, mais peu l’utilisent bien
Ah Google … l’outil généraliste par excellence. Force est de constater que si tout le monde utilise ou a utilisé Google, peu savent en user correctement, en tout cas de manière efficiente. Un exemple ? Vous cherchez une adresse email ? Vous allez, comme une grande majorité des internautes, opter pour l’une de ces trois solutions :
1- Une recherche classique du genre “Nom + prénom + email” et toutes ses variantes. Pour une adresse pro, certains observeront la structuration des mails dans cette société, pour en déduire un contact spécifique. Relativement efficace mais pas forcément rapide.
2- Une recherche un peu plus réfléchie du genre “Outil pour trouver des adresses emails” ; et là vous tomberez très certainement sur des services comme Hunter.
3- Une recherche avisée grâce aux opérateurs ... ou en utilisant certaines petites ruses. Si vous tapez la requête ci-dessous et que le mail en question a été publié en ligne, vous le trouverez. Simple, efficace, rapide. Encore faut-il connaître l’astuce !
Petite remarque au passage : votre connaissance des opérateurs de recherche date un peu ? Voici deux articles accessibles avec une sélection d’usuels : celui-ci (le blog en entier mérite lecture) ou encore celui-là, un peu plus accessible et grand public.
À titre personnel, j’aime beaucoup ces quelques tours de passe-passe (le terme entre guillemet est évidemment à adapter en fonction de votre recherche) :
Pour traquer des pages spécifiques au sein d'un site web, (ou comment utiliser Google pour rechercher n’importe quel autre site) :
site:reddit.com “social audio”
Une déclinaison que j’aime bien pour les photos (valable aussi pour rechercher des marques …) :
site:facebook.com "image may contain pet food"
Pour trouver des sites similaires :
Related:substack.com
Pour cibler des google docs sur un sujet particulier.
site:docs.google.com "emerging trends"
Sachez qu’il existe un site qui fait office de référence en matière de Google Dorks, il se trouve ici. Ce terme inventé en 2002 par le chercheur en sécurité Johnny Long, désigne des requêtes qui ont pour objectif de révéler des failles de sécurité.
Rien ne remplace un esprit vif et méthodique
Autre point à prendre en compte : il existe des milliers de moteurs de recherche en libre accès. Le rapport 2020 produit par la firme de consulting spécialisée I-Intelligence (plus de 500 pages sur le sujet) ne cartographie qu’une infime partie de ce luxuriant paysage. Rien que sur la partie “moteur de recherche de newsletters”, une bonne trentaine manque à l’appel.
Ne vous méprenez pas : certes faire une veille du secteur constitue une pratique valable, mais le bon chercheur OSINT n’est pas celui qui scrolle tous les outils sur le marché, au risque de s’y noyer. Il doit posséder une rigueur méthodologique, une forte capacité d’analyse, une forme de créativité - on fait souvent référence au terme “hacking”. Eh oui, si vous cherchez comme tout le monde, inévitablement vous trouverez la même chose que les autres. Dans certains cas, cela suffit, mais si vous travaillez sur des secteurs et tendances émergents, vous ne ferez pas mouche.
Illustrons mes propos. Quand je fais des reviews de pitch decks, je me penche en particulier sur la slide concurrence / marché car j’aime comprendre les spécificités de chaque acteur. Très souvent, je creuse un peu et découvre des protagonistes qui n’ont pas été mentionnés. Il convient alors de réaliser son mapping concurrence grâce aux outils OSINT ; là aussi plusieurs façons de faire les choses :
S’il existe un organisme, une association référente sur le secteur, on peut commencer par regarder l’annuaire des sociétés ou faire quelques recherches sur Google. C’est déjà bien, mais ça ne donnera pas nécessairement de visibilité sur les petits nouveaux.
Du côté des outils OSINT, on trouve Startengine, StartupBlink, StartupRanking etc. Je vous le dis clairement : je n’ai jamais trouvé la moindre pépite de cette manière. Certes, il existe d’autres sites plus reputés comme Product Hunt Betalist, Hype Urls, Launching Next mais ce n’est pas mon premier réflexe, surtout si je veux être efficace et rapide. Lorsque je veux mapper un secteur technologique émergent, je vais … sur Twitter !
Et j’effectue une recherche de mots-clés liés au secteur qui m’intéresse sur la bio Twitter / Instagram, grâce à des outils comme Followerwonk ou Searchmybio. D’autant que souvent, lorsqu’une société se crée, très rapidement, parfois même avant qu’elle n’ait été inaugurée, ses fondateurs déposent le handle Twitter pour être sûrs qu’il ne sera pas pris.
Si je connais le site internet de l’entreprise, je vais taper l’URL telle quelle dans le moteur de recherche Twitter ou via son nom. Pour deux raisons : si c’est un acteur émergent (mon sujet de prédilection, signaux faibles, tendances…), je veux savoir qui a partagé le lien, pour déterminer les profils qui s’intéressent au sujet, ils sont peut-être spécialisés et méritent qu’on les scrute. Il existe d’excellents outils pour scraper de la data Twitter comme Twint et d’autres pour mapper les cercles d’influence liés à un compte donné (mon dada). 2ème raison : lister les acteurs d’un marché est récurrent sur Twitter. Si vous en avez repéré un, souvent il sera cité au sein d’une liste et vous pouvez facilement en cerner plusieurs de la sorte. Exemple en tweet ci-dessous :
Deux points importants : si vous repérez quelqu’un qui a déjà publié un mapping, il y a fort à parier que c’est un adepte de la technique. Ajoutez-le à une liste dédiée sur Twitter, car il mettra sans doute sa base à jour et il recommencera. Ainsi Selfdriving.fyi, le site de Michael R. Bock, se présente comme la base de données la plus complète des entreprises travaillant sur les véhicules autonomes et les technologies connexes. Citons également la media investor database publique sur Airtable d’Eric Peckham. Ces initiatives devraient se multiplier grâce au développement des outils low-code / no-code qui facilitent grandement la création et la mise à jour de ces sites.
Autre manière toute personnelle de trouver l’inspiration sur twitter : je tape la requête “who is building" … ce qui fait émerger des personnalités d’entrepreneurs et des start-up fascinantes.
Échanges de passionnés et coups de cœur
J’ai récemment échangé avec Stéfanie Proto, que je suis depuis un moment, et pour cause : c’est une encyclopédie vivante en matière d’OSINT ! Comme elle l’explique sur sa bio Twitter, elle est “obsédée par les moteurs de recherche de niche, les outils de recherche et la découverte de nouvelles façons de trouver des informations en ligne.” Je lui ai notamment demandé quels étaient ses coups de cœur et pourquoi. Elle m’en a indiqué trois :
Usersearch, selon elle un outil génial pour déterminer des noms d'utilisateurs en réalisant des recherches sur plusieurs sites de réseaux sociaux ou de rencontres et des forums.
Camhacker et Insecam, des moteurs de recherche de webcams qui repèrent les caméras de sécurité non protégées en ligne ainsi que de nombreux autres sites.
Pimeyes et Pictriev, qui utilisent la technologie de reconnaissance faciale pour trouver des "visages" similaires.
Je lui ai ensuite demandé quels étaient les moteurs de recherche de niche les plus inhabituels qu’elle a rencontrés. Elle m’en a cité deux :
Lumendatabase, une base de données consultable de plaintes et de demandes de retrait de matériel en ligne … une bonne ressource juridique mais assez hystérique.
Millionshort, très utile car il permet à l'utilisateur de mettre en exergue des sites peu communs et normalement enterrés au milieu de milliers d’autres plus populaires.
Pour ma part, je vais me cantonner à ma veille et quelques sites d’actualité dans le domaine SOCMINT, aka la social media intelligence.
Mes sites de veille OSINT : le subreddit dédié, évidemment. Awesome Open source et We are OSINTcurio.us.
Je vous ai déjà parlé des outils dédiés pour détecter les tendances, j’ajoute quelques outils OSINT pour Reddit : Mostly Harmess vérifie si le site visité a été soumis sur Reddit ; Reddit Metrics suit l’évolution d’un Subreddit ou Wisdom of Reddit.
Je m’intéresse beaucoup aux messageries privées, aux moyens de détecter des groupes sur Telegram, Whatsapp dans certains de mes secteurs de prédilection (start-up / tendances). J’en ai recensé plus d’une dizaine, que je n’ai pas encore suffisamment explorée pour vous en conseiller un en particulier. Si le sujet vous intéresse, cette vidéo devrait vous plaire et vous apporter quelques pistes fort pertinentes.
Buzzglobe permet d’effectuer des recherches via tous les réseaux sociaux. J'ai également créé mon propre moteur de recherche social media : ce n’est pas sorcier, il suffit de construire un moteur personnalisé Google (CSE - custom search engine) dans lequel vous indiquez tous les sites que vous souhaitez suivre et qui vous intéressent. Pour en savoir plus vous pouvez lire cet article.
J’ai récemment découvert StartupLynx qui permet d’identifier des start-up similaires dans le monde entier. Je me suis entretenue avec le fondateur Karl Verger qui m’a expliqué travailler sur ce projet depuis maintenant 2 ans (NB : StartupLynx vient d'ouvrir une version bêta avec 100 000 entreprises, mais devrait bientôt lancer une nouvelle version avec plus de 400 000 entreprises. Son objectif ? Créer LA référence en matière d'intelligence technologique et économique sur la « startupsphere”. Mais sourcer autant de sociétés constitue un sacré défi ; la qualification des résultats implique un moteur d’IA entraîné sur les expériences des utilisateurs et au fil de l'eau en fonction de leurs retours ; l’ensemble repose sur une stack techno Python FastAPI et MongoDB fortement aidée par des techniques NLP / machine learning. Face à une concurrence comme Product hunt, StartupLynx a la particularité de détecter des start-up similaires, déterminer les acteurs qui ont une idée semblable ; le service s’est enrichi avec une présentation des entreprises au travers du temps, qu’elles soient actives ou mortes. Il est toujours intéressant de vérifier si une idée a déjà été lancée mais n'a pas abouti. Une pitch line, le nom d’un site web, quelques mots-clefs suffisent pour se repérer grâce à l’approche d’analyse sémantique de la plateforme.
Alors, passionnément OSINT ? Je l’espère en tout cas ! Je m’arrête là et vous dis à dimanche prochain. D’ici là, restez curieux !
Marie
💎 Snippets, curiosités et autres coups de cœurs
🌟 L’éducation post-covid. Lire ici
👀 Start-up : le temps est venu de penser comme un chameau et pas comme une licorne. Lire ici
📺 Ahrefs, plateforme de « SEO Intelligence », propose 5h de cours en accès libre avec toutes les astuces pour faire de son blog un business profitable. A visualiser ici.
Encore un super article, merci !