Google en profondeur (Astuces et Hacking) – 2sur3

Google en profondeur partie 2

Nous avions vu en première partie quelques petites astuces, des « trucs sympa » qui n’ont pas de lien direct avec le Google Hacking (basé sur la recherche Google).  La recherche avec Google n’est pas un art mais un besoin vital! Pourquoi?? parce que nous sommes tous curieux. certains disent qu’on est curieux à proportion qu’on s’instruit! d’autres diront qu’on est curieux tout court 🙂 la curiosité ne délaisse aucun domaine, cela va de la spécification d’un nouveau langage de programmation, aux paroles d’une chanson quelconque, de la hauteur de la tour Eiffel à la superficie de la Terre, de la signification des couleurs aux vidéos les plus amusantes. Technologie, Santé, Découverte, automobile, sport, finance, religion etc etc… on nous le dit et redit Internet est la plus grande bibliothèque du monde. Mais elle ne sera a votre disposition qu’a condition de savoir comment trouver ces informations.
Nous allons donc expliquer comment le moteur Google fait pour être au top! Et si vous avez un site web comment gagner de la bande passante pour les visiteurs sérieux en évitant les bots « spammeurs »(partie 2). Une grosse astuce en partie 3 à lire absolument pour éviter les limitations imposées par certains forums qui vous incitent pour le consulter à vous enregistrer et fournir vos coordonnées sans même juger du contenu de ce dit forum. Et la 4ème partie celle avec laquelle nous finirons ce deuxième chapitre c’est la recherche de base sur google. Savoir utilisez Google vous permettra de tout trouver, Absolument tout! si tant est que l’information existe. Nous serons a ce stade ainsi prêt pour le chapitre (billet) suivant le Google Hacking et la nous parlerons beaucoup sécurité et Ethical Hacking.

  1. Astuces Google
  2. Le moteur de recherche Google
    1. Pourquoi les Hackers aiment Google.
    2. Fonctionnement et limites de Googlebot
      1. Utilisation de l’attribut rel dans les liens hypertexte
      2. le meta name googlebot, mode d’emploi
      3. fonctionnement des « indicateurs » robots.txt
    3. Comment accéder aux forums sans y avoir accès?
    4. Quelques Règles de Bases de recherches pointues.
  3. Google Hacking, la recherche de vulnérabilités et fichiers inaccessibles.

II. Le Moteur de Recherche

1. Pourquoi les Hackers Aiment Google

Le moteur de recherche Google prend en charge plusieurs opérateurs avancés, qui modifient le résultat de la recherche d’un opérateur à un autre, ces opérateurs peuvent être combinés, offrant alors des possibilités fabuleuses. Grâce à la façon dont Googlebot explore et indexe les sites web, les hackers peuvent faire appelle au Google hacking qui est une technique permettant de trouver les vulnérabilités ou la récupération de données sensibles. Cette technique s’appuie sur les résultats de l’exploration et de l’indexation des sites internet par le robot Googlebot. Nous verrons plus de détails dans le 3ème chapitre de ce dossier.

2. Fonctionnement et Limites de Googlebot

Googlebot est un robot d’indexation (appelé en anglais Web Crawler ou Web Spider), c’est lui qui explore les sites web à la recherche de pages web, fichiers audio, fichiers vidéo, document pdf, document word etc…

Un robot est ce qu’on appelle un « user agent ». C’est une application cliente utilisée avec un protocole réseau particulier et ayant une fonction particulière. ce robot ou « bot » interagit avec les serveurs en présentant leur signature (Googlebot/2.1 (+http://www.google.com/bot.html)-Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) - Googlebot-Image/1.0) afin d’annoncer leur fonction.

Il existe certains bots malveillants appelés les spambots qui ont pour fonction d’explorer les sites web à la recherche de mail qu’ils redistribuent pour de la publicité (ou spam).

Si vous voulez comme résultat un fichier pdf, un opérateur (mot clé) est prévu a cet effet, si vous voulez naviguez dans un répertoire à l’intérieur d’un site web, un autre opérateur le permet! et pour aller plus loin, si votre site a pour URL http://www.monsite.com et bien le moteur de recherche vous permet de trouver tous les sites ayant un lien vers votre site!!! Magique non??

Beaucoup de ces opérateurs sont disponibles en cliquant sur le lien recherche avancée de google, mais sachez que d’autres options sont cachées et c’est celles la qui sont les plus intéressantes notamment pour les personnes en charge de la sécurité et qui souhaitent faire un test dit de « pénétration » (audit) via google, histoire de voir ce qui est accessible et ce qui ne l’est pas!

Car oui l‘utilisation de Google est à double tranchant, d’un point de vue « Ethical hacking« , il est bon d’avoir un maximum de connaissance pour mieux se protéger des attaques qui auraient très simplement pu être évitées par la modification d’une simple ligne d’un fichier de configuration.

Je m’explique par l’exemple, il est très fortement conseillé de mettre à jour la version de votre serveur web Apache vers une nouvelle version d’apache afin d’éviter qu’une faille des anciennes version soit exploitable contre vos données,De même pour le CMS (Gestionnaire de contenu) Joomla dont la version 1.5 permet d’avoir avec quelques modules compromettant l’accès en mode root (mode super utilisateur qui a tous les droit) ou encore les version ancienne de phpmyadmin (qui gère la base de donnée de votre site) permettait d’avoir facilement accès au gestionnaire de base de donnée et changez facilement le contenu du site (ou encore récupérer les informations des visiteurs enregistrés). Certains administrateur oublient de changer le mot de passe qui est donné par défaut. Tout Webmaster devrait avoir un minimum de connaissance sur la sécurité (même si ca n’est pas son boulot).

La recherche Google vous permet d’identifier les mauvais élèves (ce que font les personnes mal intentionnées) Dans votre cas je vous conseil d’utiliser ce type d’analyse approfondie sur votre site web en production afin de faire votre propre audit préliminaire. il existe des méthodes assez faciles de cacher votre version d’Apache ou PHP ne permettant plus a Google (ou encore à un analyseur réseau / sniffer) de renseigner le monde sur ces données et dire « attention untel a cette version XX qui est connu pour avoir une faille au niveau de YY » , certaines méthodes vous permettent de tromper les personnes mal intentionnées en faisant croire que le site est basé sur PHP alors que la page est réellement de l’ASP etc…

Rappelons encore le secret de Googletbot, c’est qu’il indexe tout!! vraiment tout! oui oui même vos photos de familles dans un répertoire du site et qui pourtant n’ont aucun lien sur vos pages!

Les limites de Googlebot quelles sont elles? pour indexer votre site? il n’y en as pas 🙂 TANT QUE VOUS NE LE DITES PAS EXPLICITEMENT.. c’est à vous de définir les régles d’indexation, oui oui, il existe quelques principes qui permet de dire a Google qu’il ne doit pas suivre un lien ou ne doit pas indexé une page ou un repertoire 🙂 la classe 🙂 surtout quand vous avez votre propre blog sur lequel il n’y a pas de modération des commentaires et donc il existe des blog spammeurs qui prennent un malin plaisir a vous bombardé de publicité dans vos commentaire, il suffit de mettre la valeur nofollow à l’attribut rel des liens hypertexte que vous ne voulez pas voir indexé (ou crawlé)

a. l’attribut rel dans les liens hypertexte

c’est un paramètres a rajouter dans vos liens si c’est vous qui faites le site, ou un module / plugin a installer si vous utilisez un CMS.

<a href= »http://www.publicite-spam.com &raquo; rel= »nofollow »>publicité vers un site externe</a>

b. le meta name « googlebot » dans l’entête de votre page web

c’est un méta (une balise) a mettre dans l’entête de vos pages ou à rajouter dans votre template CMS

<meta name= »googlebot » content= »noindex »>
Ne pas indexer Suivre les liens
<meta name= »googlebot » content= »nofollow »>
Indexer Ne pas suivre les liens
<meta name= »googlebot » content= »noindex, nofollow »>
Ne pas indexer Ne pas suivre les liens
<meta name= »googlebot » content= »noarchive »>
Pas de mise en cache
<meta name= »googlebot » content= »nosnippet »>
Ne pas afficher le snippet (code) Pas de mise en cache
<meta name= »googlebot » content= »noodp »>
Ne pas montrer la description ODP (Open Directory Project – Annuaire Web)

c. le fichier robots.txt

Le fichier robots.txt permet d’éviter que des ressources sans intérêt public se retrouvent dans la page de résultats d’un moteur de recherche. Cela permet donc d’alléger la charge sur votre serveur HTTP et de gagner du traffic (n’oubliez pas que les robots d’indexation visite fréquemment votre site et que des robots comme ceux de google sont sur plusieurs machines afin de partager le travail).

Attention le fichier robots.txt n’est qu’une indication ou recommandation et ne sera JAMAIS un élément de sécurité (nous ferons plus tard un billet sur les techniques de sécurisation de vos sites web). En effet les robots ne sont pas tous bienveillants, nous avons évoqué la présence de spambots qui outrepasse cette indication de manière intentionnelle afin de récolter un maximum de courrier électronique.

Comment fonctionne le fichier robots.txt

Le fichier robots.txt se met à la racine de votre site web, il comprend une ligne qui dit que user-agent (robot d’indexation) est visé et une ou plusieurs lignes pour expliciter les exclusions.

le format est le suivant
User-Agent: * ou nom du user-agent
Disallow: répertoire à exclure

Utilisation simple de Robots.txt

  • L’étoile « * » (wildcard ou méta caractère de remplacement) veut dire n’importe quel user agent et le slash (/) représente la racine. si on interdit l’accès à un endroit tous les sous dossiers sont interdit. donc si on interdit l’indexation de la racine c’est comme si on interdisait l’indexation de tout le site

User-Agent: *
Disallow: /

  • Attention si le Disallow ne contient rien la valeur de la règle est nul pour l’agent en question

User-Agent: *
Disallow:

  • Autoriser un seul user-agent par exemple Googlebot :

User-Agent: Googlebot
Disallow :
User-Agent: *
Disallow: /

  • interdire un seul agent par exemple Googlebot :

User-Agent: Googlebot
Disallow: /
User-Agent: *
Disallow:

  • J’exclus pour tous les user_agents l’indexation du contenu des répertoires confidentiel et temp (qui est sous le répertoire autres) ainsi que de la page acorriger.html :

User-Agent: *
Disallow: /confidentiel/
Disallow: /perso/acorriger.html
Disallow: /autres/temp/

Utilisation avancés de robots.txt

  • Les règles sont sensibles à la casse (minuscule majuscule)

User-agent: Googlebot
Disallow: /Private/

Cette règle interdit l’accès au répertoire Private mais autorise l’accès au répertoire private (sous Linux contrairement à Windows les minuscules et majuscules ne sont pas identique)

  • Les commentaires

Tout ce qui se trouve après le caractère Dièse est considéré comme un commentaire et ne sera donc pas interprété comme directive d’une règle
Dans l’exemple suivant je n’interdis l’accès qu’a Googlebot
#User-agent: *
User-agent: Googlebot
Disallow: /

  • La compression de règle

Si une même règle se répète pour plusieurs user-agents on peut les compresser comme suit:

User-agent: grub-client
User-agent: grub
User-agent: looksmart
User-agent: WebZip
User-agent: larbin
User-agent: b2w/0.1
User-agent: Copernic
Disallow: /

  • La directive Crawl-delay (Google ne supporte pas cette directive, contrairement à Microsoft et Yahoo)

Elle renseigne sur le nombre de seconde entre deux requêtes (d’accès/indexation) successives.

User-agent: *
Crawl-delay: 10

  • La Directive Allow

Contrairement à la directive disallow elle permet de faire une exclusion à l’exclusion (super mal dit! je sais) Cette directive n’est pas prise en compte par tous les crawlers, Google lui en prend compte (ce qui est tant mieux vu que l’article se situe sur Google) voila un exemple: j’interdis l’indexation du répertoire perso à Googlebot SAUF pour le fichier astuces.html 🙂

User-agent: Googlebot
Disallow: /perso/
Allow: /perso/astuces.html

  • La Directive Sitemap

Certains crawler supporte cette directive et irons indexer le contenu des pages qui se trouve dans la carte du site (en notant qu’on peut avoir plusieurs carte de site)

Sitemap: http://www.monadresse.com/xml/sitemap1.xml
Sitemap: http://www.monadresse.com/xml/sitemap2.xml

  • L’utilisation des Wildcards ou méta caractères

* remplace n’importe quel mot,
? signifie tout simplement le caractère ?, il est important car il est présent dans les URLs qui passent des variables en GET
$ signifie fin de l’expression

Disallow: /*? #On bloque toutes les URLs contenant un point d'exclamation
Disallow: /$?$ #On bloque toutes les URLS qui finissent par un point d’exclamation
Disallow: /temp*/ #On bloque tous les répertoires dont le nom commence par temp

  • Remarque: Google utilise plusieurs user-agents:

Googlebot (adresse IP 66.249.64.XXX) s’occupe des pages web
Googlebot-Mobile est la version mobile de Google-Bot
Googlebot-Image (adresse IP 66.249.72.xxx) est l’agent qui s’occupe des images

Dites vous donc que si vous désirez interdire l’indexation faites par Google image il faudra préciser le user-agent correspondant

par exemple:

User-agent: Googlebot-Image
Disallow: /images/logo.jpg

Comment obtenir une configuration optimale de votre fichier robots.txt?

Il faut d’abord connaitre les user-agents. La liste des user-agents se trouve ici (ils sont très nombreux), a présent ce qui serait intéressant après tous ce que je viens de vous raconter plus haut c’est d’avoir la liste des user-agents malveillants qu’il faudrait explicitement exclure (Si l’agent en prend compte ça sera tant mieux sinon notez que robots.txt n’est pas la seule initiative pour bloquer les spambots et autres « email-collector », il existe le fichier .htaccess ou encore une règle dans un firewall ou IPS qui interdirait plusieurs connexion via l’adresse IP du bot à bloquer)

Nous y sommes!! voila comment récupérer le fichier robots.txt des sites de wikipedia nous verrons plus loin en détails comment faire cette recherche par soit même mais il suffit de demander une recherche dans les sites ayant pour adresse le terme wikipedia, avec comme type de fichier .txt et dont le nom est robots.txt comme suit:site: »wikipedia.org » filetype:txt robots.txt

Ce qui vous donne ce résultat (cliquez ici) a inclure dans la racine de votre site web, on mettra cette astuce sur le compte de l’inspiration 🙂

3. Comment accéder aux forums sans y avoir accès?

La différence entre le crawling et l’indexation est que le crawl explore votre site alors que l’indexation créer à partir des données du contenu (et des métas) un index. Lorsque vous entreprenez une recherche vous ne la faites pas sur le contenu mais sur l’index (ce qui est bien plus rapide). Bref pour retourner à nos moutons les forums pour se faire connaitre aimerait bien être visiter par un petit crawl de temps à autre histoire de leur faire de la pub 🙂

Et ce que tout le monde trouve bizarre c’est que le résultat de la recherche nous donne parfois le contenu d’un forum mais bizarrement dès qu’on y rentre… l’accès nous est interdit sauf si vous donner votre adresse email pour vous enregistrer sans même savoir si l’info dans le forum est celle que vous recherchez réellement ce qui est génant non? et bien c’est simple, lors de la couverture médiatique d’un événement, on donne un accès spécial aux journalistes, caméramans, présentateurs etc… Pour le forum c’est pareil, pour se faire un peu de pub et une meilleur visibilité il  donne un accès spéciale aux bots, leur permettant de crawlé le site sans avoir à s’inscrire. Alors pourquoi ne pas voir comment obtenir un pass!

La pratique!

Essayons de faire une recherche sur ces termes: inurl: »forum » viewtopic download hack script qui en gros veulent dire que dans l’url il doit y avoir le terme forum, le terme viewtopic permet d’appuyer que c’est bien la présence d’un forum (c’est ce qu’on trouve généralement dans la plupart des URL de forum tel que PHPBB qui est très répandu) et le download hack script c’est une recherche au pif que j’ai fait en supposant que parfois un forum te donne l’accès mais ne te laisse pas téléchargé qu’après t’être inscrit

  • parmi les résultats il y a ce lien

Kongregate Cheats & Hacks • View topic – [Sticky] Useful Links

http://www.kongregatehack.com/forum/viewtopic.php?f=30&t=925

22 Dec 2010 – Kongregate Badge & Highscore Hacking Tool http://forum.kongregatehack.com/viewtopic.php?f=27&t=308 — Support & Download Thread

  • Essayer d’y accéder il vous demandera de vous inscrire! (du moins au moment de l’écriture de l’article il le fait)

Comment faire?

3 méthodes la simple, la un petit plus compliqué et la pro ma préféré et surtout celle qui vous permet de vous en sortir seul:)

1 . La simple consiste tout simplement a consulter la version cache puisque ce site apparemment n’as pas mis dans ces metas une règle explicite pour ne pas faire de mise en cache (oui oui on en a parlé dans la partie 2 paragraphe b).

2. Changer son identité et se faire passer pour un googlebot en utilisant sur firefox le module User Agent Switcher téléchargeable ici, vous pouvez consulter le site http://whatsmyuseragent.com qui vous donnera l’identifiant de votre user-agent mais qui aussi donne une méthode de spoofing d’agent pour Opera et Internet Explorer, pour les utilisateur de Chrome cliquez ici.

Pour changer votre user agent Aller dans le menu Tools/Options de Firefox puis sélectionnez « Default User Agent »
Choisissez « User Agent Switcher » puis « Options« , dans la fenêtre qui s’ouvrira cliquer sur le bouton « New » puis le sous menu a ce bouton « New User Agent« .
Dans la zone de saisi permettant de rajouter votre nouvelle user agent rentrer les informations suivantes:

Description: crawl-66-249-66-1.googlebot.com
User Agent: Googlebot/2.1 (+http://www.googlebot.com/bot.html)

3. La version classe! Dans votre barre d’adresse vous écrivez about:config qui vous permet de toucher à la config de Firefox, si vous avez lu l’article sur XUL cela revient aussi a toucher au fichier prefs.js

Suite à l’avertissement « Attention Danger » comme si c’était la fin du monde, vous faites comme si de rien n’était et vous répondez tout simplement en cliquant sur le bouton « je ferai attention, promis! » si si c’est bien le message qui s’affiche 🙂

et la dans la partie filtre vous rechercher le terme useragent. si vous trouvez la valeur general.useragent.override double cliquez dessus pour l’éditer…

… sinon faites un clique droit et choisissez Nouvelle > Chaine de caractère, Donnez a cette chaine le nom general.useragent.override et la valeur googlebot/2.1 (+http://www.googlebot.com/bot.html) puis valider.


Tester la « valeur de votre user-agent » sur le site http://whatsmyuseragent.com/

et pour vérifier que cela marche reconnecter vous au forum suivant: http://www.kongregatehack.com/forum/viewtopic.php?f=30&t=925

Pour revenir à la l’état vous avez juste a revenir à la fenêtre about:config, filtrer sur le terme useragent aller sur la clé general.useragent.override et faire grace au clique droit une réinitialisation. faites les deux tests précédents pour vous assurer que cela marche. Ceux qui veulent aller plus loin peuvent consulter le fichier prefs.js de votre répertoire firefox pour y voir le contenu de cette valeur

user_pref("general.useragent.override", "googlebot/2.1 (+http://www.googlebot.com/bot.html)");

et par la même occasion voir ce que Firefox cache 🙂

2. Quelques Règles de base dans la recherche

Nous ne parlons pas des opérateurs simples comme le signe « – » avant un mot qui force son absence et un « + » qui force la prise en charge du mot tel qu’il est (avec accent) ou encore les guillemets. Quoi??? si ? ok 🙂 ben j’en parle un peu.

  • 20 règles de base avant de s’investir dans le Google Hack 😉
  1. Google permet de faire la recherche sur le web mais aussi dans les images, vidéos, actualités et les cartes!! par exemple si vous voulez le logo de Google il suffit de faire une recherche sur le mot google dans google image
  2. Google n’utilise pas la Lemmatisation (simplification vers le lemme de base [forme canonique] d’une famille de mot) pour être le plus fidèle possible a votre recherche, par exemple: claviers devient clavier, parlons devient parler, grandes devient grand.
  3. le signe tilde « ~ » permet de donner les synonymes, par exemple la recherche sur le mot ordinateur donne les pages contenant le mot ordinateur par contre la recherche sur le mot ~ordinateur donne les pages contenant le mot ordinateur ou les synonymes tels que PC. intéressant non? 🙂
  4. Google ignore les chaînes de caractères au poids sémantique jugé trop faible (mots vides ou bruit tel que: le, la, les, du, avec, vous, etc…) ou les « mots spécialisés » tel que: « http » et « .com » et les lettres/chiffres d’un seul caractère, qui jouent rarement un rôle intéressant dans les recherches et risquent de ralentir notablement le processus.
  5. le signe (+) est utilisé par défaut par google et n’est pas nécessaire sauf dans le cas d’un terme appartenant à la règle numéro 4
  6. Google ne tient pas compte des minuscules et majuscules
  7. Google ne tient pas compte des accents, cédilles et tildes espagnols.
  8. Le point (.), la virgule (,), les crochets, parenthèses et accolades ([ ] ( ) { }),… et les symboles, comme « @ », « $ », « % », « # », « + », « / », « = », etc. sont considérés comme des séparateur de mot sauf pour les caractères alphanumériques, par exemple: l’école constitue deux mots, « l » et « école », par contre langage_php représente le mot « langage_php ».
  9. les guillemets « … » permet de constituer une expression par exemple lorsque vous voulez savoir si une phrase viens d’un autre site il suffit de copier la phrase et la mettre entre guillemet, essayer de voir une partie de la phrase utilisée dans le 4ème point.
  10. l’utilisation de l’étoile « * » entre les guillemet, l’étoile permet de remplacer n’importe quel groupe de mots, par exemple tester ces deux recherche « je decouvre mon pc » et « je decouvre mon * pc »
  11. le signe «  » permet de dire explicitement qu’on ne veut pas du terme qui suit: par exemple en tapant dans le recherche on écrit Charles, on tombera surement sur l’expression « Charles de Gaulle », si on ne veut pas le mot « Gaulle » il suffit d’écrire Charles -Gaulle.
  12. le signe « + » permet de chercher un mot même s’il est vide (voir 4ème point) et annule la règle 7.
  13. Ecrire « define: » avant un mot permet de donner sa définition, par exemple define:pléonasme.
  14. La recherche Google est limité à 32 mots même si les termes de la recherches sont entre guillemet (exemple).
  15. Le nombre de résultat Google est limité à 1000, une grande controverse règne sur ce sujet, car rien ne prouver qu’il y a une résultat de 2000 pages si seulement 1000 seront afichés, de plus certains pensent que Google gonfle les résultat car une recherche sur le terme « the » donne un résultat supérieur au nombre de page indexées, de plus pour la même recherche, le nombre de résultat n’est pas fixe et change apparemment de manière aléatoire.
  16. intitle: permet de faire une recherche seulement dans le titre par exemple recherchons les pages dont le titre contient l’expression « Google DART » (le nouveau langage de Google)
  17. filetype: permet de spécifié l’extension, par exemple une recherche sur les documents confidentiel serait « confidentiel filetype:doc ».
  18. Allinbody: permet de rechercher dans le contenu de la page web
  19. site: permet de spécifier le site dans lequel se fera la recherche, par exemple si vous désirez de rechercher « ici » (sur ce blog) le langage de programmation XUL il faut écrire XUL site:tutorielsinformatique.wordpress.com.
  20. Une plage peut être précisé en mettant « .. » par exemple voici les pages sur steve jobs ayant un numéro (et ici une date) allant de 1970 à 1980: Steve Jobs 1970..1980. Je précise bien qu’il ne s’agit pas de date mais de plage, par exemple pour avoir tous les Nokia E60 à E80 je recherche: Nokie E 60..80.

Plus d’infos

Ca viendra,  🙂 c’est le dernier chapitre, mais juste histoire de vous expliquer comment cela va se passer. Google à d’autres mots clé (opérateur) simple d’utilisation (je ne pense pas qu’ils rentrent dans les règles de base):

  • site:abc permet de chercher un site internet contenant le mot abc
  • cache:abc.com ira chercher le site abc.com dans le cache de Google
  • intitle:abc permet de chercher un site internet dont le titre contient le mot abc
  • inurl:abc permet de chercher un site internet dont l’url contient le mot abc

Quand on vous donne une voiture de formule 1, le plus important sur un circuit ce n’est pas la voiture mais vous, le conducteur! qu’est ce que vous en ferez! c’est ca que les gens veulent voir! le google hacking est pareil, ce n’est pas les opérateurs mais ce que vous allez rajouter aprés! et ca c’est de l’entrainement, de la recherche, de l’expérience.

Tiens le terme intitle vous permet d’avoir le titre… et alors 🙂 et bien savez vous qu’un répertoire lorsqu’il s’affiche, a comme titre index of suivi du nom de répertoire. Donc si je fait intitle: »index of » je tomberais sur un repertoire. Tien recherchons des cours au format powerpoint sur les réseaux.

on serait donc tenté d’utilisé deux termes intitle et filetype!!

la requête Google sera intitle: »index of » réseaux filetype:ppt on appui sur entré et …. Rien aucun résultat 🙂

j’explique, l’astuce intitle: »index of » dit de son coté refile moi un répertoire et l’opérateur filetype:ppt dit de son coté donne moi les fichiers au format ppt. Je rajoute ce commentaire pour les non informaticiens mais un répertoire n’est pas un fichier d’où le résultat nul. c’est comme si on vous demande de fournir une fiche client (en analogie avec un fichier informatique) et que vous.. vous lui rameniez le casier entier 🙂 ce n’est pas pareil.

La solution c’est de choisir entre intitle: »index of » ou filetype:ppt et personnellement il vaut mieux avoir tout un casier avec toutes les fiches (fichiers) à l’intérieur et peut être même autre chose (et c’est la que vous devez faire attention au  niveau des fichiers que vous mettez dans les répertoires contenant vos site web) qu’avoir une seul fiche. Réessayons avec ce motif:

intitle: »index of » réseaux ppt et la merveille!!! 🙂 des centaines de cours à disposition 🙂

Remarque: Plusieurs personnes utilisent cet astuce pour s’approprier un grand nombre de visiteur sur leur page tout simplement en donnant au titre de la page les termes « index of » ce qui fera ressortir son site dans la page de résultat des « chercheurs de répertoire », ce n’est pas bloquant mais il faut rajouter d’autres terme à la recherche pour filtrer ces sites.

Affaire à suivre, rendez vous dans la troisième et dernière partie de ce dossier…

4 commentaires

  1. Pingback: Google en profondeur (Astuces et Hacking) – 1sur3 « Tutoriels et Astuces Informatique

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s