3. 04.
Robots.txt é um ficheiro de texto que se coloca na directoria principal de uma página web.
Para que serve? Para que os web web spiders e web robots não acedam/pesquisem ficheiros/pastas que normalmente não é visto pelo público.
Aqui no meu blog, já me tinha apercebido que estas aranhas da web tentavam aceder ao robots.txt que eu não tenho! Fiquei sempre confuso. Percebi agora o que procuram..
Um exemplo de um robots.txt (aplicado ao wodpress):

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads
# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
# Internet Archiver Wayback Machine
User-agent: ia_archiver
Disallow: /
# digg mirror
User-agent: duggmirror
Disallow: /
# Does anyone care I love Google Apache htaccess
Sitemap: http://www.askapache.com/sitemap.xml
Este post, vem a propósito do robots.txt do Google.
O Google também tem este ficheiro. Podem ver/pesquisar algumas coisas que normalmente não vêem, como por exemplo alguns motores de busca em versões beta - não muito publicitadas.










João Gonçalves