domingo, 6 de julio de 2014

Robots.txt cumple 20 años: ¿para qué sirve?

El fichero robots.txt es un viejo conocido de los internautas que en más de una ocasión ha conseguido saltar a los medios masivos:

EL MUNDO (2013): “La web de Casa Real también se desvincula de Urdangarin en Google”

EL PAÍS (2011): “El BOE, obligado a impedir el rastreo de los buscadores”

Y pese estos fugaces saltos a la fama, son mayoría aún quienes no tienen clara la función e historia de esos extraños archivos de texto. Hoy queremos aprovechar que el pasado 30 de Junio se cumplieron 20 años desde que los miembros de las listas de correos robots-request@nexor.co.uk y www-talk@info.cern.ch, integradas por especialistas y entusiastas en aspectos técnicos de la World Wide Web, debatieron y consensuaron un documento que sería la base para definir y estandarizar el funcionamiento y el formato del robots.txt.

Este documento es un simple archivo de texto que contiene instrucciones (o, más bien, indicaciones: no son de obligado cumplimiento) para que sean seguidas por los robots (también conocidos como ‘bots’ o ‘crawlers’) que los buscadores usan para recorrer la WWW e indexarla. En 1994, la principal motivación para crear este mecanismo era poder indicar a estos robots (o a algunos de ellos), que se abstuvieran de revisar una determinada página web: si el servidor de la mismo no era lo suficientemente potente, esa revisión podía tirar la web a base de consumir todo el ancho de banda disponible (mucho menor que el de ahora, y aún hoy tenemos problemas con el mismo). Esto significaba mantenerse fuera de los buscadores de la época (como el mítico Altavista): obviamente, a Google aún le faltaban cuatro años para nacer, y el éslogan de “Si no estás en Google no existes” no se aplicaba.

Hoy en día usamos el robots.txt para muchas otras cosas:

  • Discriminar a determinados robots: no todos son de buscadores web, y puede interesarnos bloquear a alguno malicioso.
  • Eliminar contenido duplicado: si indicamos a los buscadores que no indexen dos veces contenidos idénticos de nuestra web, eso repercutirá positivamente en nuestro posicionamiento.
  • Invisibilizar determinadas áreas de nuestra web: podemos impedir que los buscadores indexen todo contenido que se encuentre localizado en determinados directorios del servidor (o bien archivos en concreto), sin que eso suponga tener que borrarlos. Esta fue la razón por la que la Casa Real y el BOE se convirtieron en noticia. Sin embargo, este sistema dista de ser 100% efectivo: puede que una URL no esté rastreada… pero si aparece enlazada en otra que sí lo está, se indexará igualmente y aparecerá en los resultados de búsqueda.
  • Definir sitemaps: los sitemaps son pequeños ficheros de texto que clarifican a los robots de los buscadores la estructura de nuestras webs e indican la periodicidad de nuestras actualizaciones, con el objetivo de optimizar su indexación.

Si te interesa conocer más detalles sobre el uso de este recurso, o ver ejemplos de robots.txt de las principales webs mundiales, sólo hay que recurrir a Google. Si quieres saber cómo invisibilizar URL con total eficacia, también tienes enlace.

Imagen | Wikipedia






from TICbeat http://ift.tt/1vOo9qn