Hoe kan ik ervoor zorgen dat zoekmachines zoals Google een aantal onderdelen van mijn site niet vinden en weergeven? Ik maakte namelijk een site voor mijn school. Daarop staan de uurroosters van alle klassen en leerkrachten. De leerkrachten kunnen via de site uurroosters raadplegen met een wachtwoord. Maar als je de naam van een collega bij Google intikt, gecombineerd met de naam van de school, vindt Google het uurrrooster, en moet je geen wachtwoord ingeven. Op die manier hebben paswoordbeveiligde pagina’s weinig nut. Hoe kan ik er dus voor zorgen dat Google die uurroosters niet vindt?

Roeland Van Rooy

Om de zoekrobots weg te houden van bepaalde delen van je site, moet je een bestandje met de naam robots.txt in de rootfolder van je site plaatsen (www.mijndomein.be/robots.txt dus).

Wat moet er nu precies in dat bestandje staan? Heel simpel! Je kan twee verschillende commando’s opnemen: ‘user-agent’ en ‘disallow’. Met het eerste bepaal je welke robot buitengesloten moet worden.

We veronderstellen dat je geen uitzonderingen wil maken, dus zet je hier een asterisk (*). Het disallow-commando definieert waar de zoekrobots met hun fikken moeten afblijven. Dat kan een bestand zijn, of een hele map. Zet wel elke map en elk bestand op een aparte regel in het tekstbestand.

Het wordt eenvoudiger met een simpel voorbeeldje. Stel dat je alle robots uit de map ‘uurroosters’ wil houden, en dat ze ook het bestand ‘persoonlijk.htm’ niet mogen indexeren. Open KLADBLOK (START, ALLE PROGRAMMA’S, BUREAU-ACCESSOIRES), en tik de volgende regels in:

User-agent: *
Disallow: /uurroosters/
Disallow: /persoonlijk.htm

Vergeet dus niet dat je in het geval van een volledige map, je de opdrachtregel ook moet afsluiten met een eenvoudige slash (/).
Bewaar het bestand als robots.txt en plaats het zoals gezegd in de rootfolder van je website.

De resultaten zullen nog niet meteen merkbaar zijn, maar de volgende keer dat er een zoekrobot op je website een kijkje komt nemen, gaat hij de beschermde mappen gewoon voorbij.