Para qué sirve robots.txt




Started by Victor Perez Acosta, Fundador de VPA Internet. Experto SEO/SEM/SMO
Los archivos robots.txt son un claro ejemplo de cómo pequeños detalles pueden obrar maravillas al momento de optimizar la indexación de nuestros sitios. Este archivo es un pequeño documento de texto –que no puede pesar más de 10k-cuya misión es indicarle a los bots de los buscadores qué páginas de nuestro sitio indexar, y cuáles no. Este archivo debe colocarse en el servidor donde tenemos la página hosteada, pues su misión es “interceptar” todo intento de indexación del sitio.

Un error de concepto común es creer que sólo los buscadores nos pueden indexar. Hay muchos sitios que se dedican a leer y recolectar la información de los sitios que están online, sin necesidad de ser buscadores. Un ejemplo muy concreto son los bots de Alexa. Alexa es un sitio que se dedica a ofrecer información estadísticas de tráfico y términos de búsquedas de todos los sitios webs. Otro bot que nos puede indexar es el de http://www.archive.org, un sitio web que recolecta lecturas periódicas de páginas web constituyendo algo así como un servicio de bookmarking para los usuarios, quienes pueden acceder a las páginas con una mirada histórica de su evolución.

Pero, también hay bots maliciosos que podrían llegar a causarnos muchos problemas, al ser verdaderos spyware y podrían llegar a infectar muchos millones de ordenadores diariamente, a partir de un virus –troyano o spyware- residente en nuestro servidor que ellos mismos instalan. Para evitar que estos bots accedan a nuestro servidor, pues está robots.txt. A partir de instrucciones que volcaremos en este archivo, impediremos que los bots que no nos interesa no accedan a nuestro contenido.

También podemos incluir restricciones de horario –pedir que no nos indexen a determinadas horas, cuando el tráfico en nuestra página es pico, o que nos indexen con cierta frecuencia determinada. Si no estamos muy seguros de esto, lo mejor es no realizar ninguna petición a este respecto.

Las instrucciones que se emplean para elaborar el robots.txt son muy sencillas, básicamente dos: allow –que indica qué directorios pueden ser indexados- y disallow –justamente lo opuesto. Por ejemplo:

User-agent: * # Indica que nos referimos a todos los bots (los user agents)
Disallow: / # con esta instrucción impedimos la indexación de todo nuestro sitio
Disallow: /contactenos # indica a los bots que no indexe la página “contáctenos”

Una forma de entender cómo redactar un archivo robots.txt, y comprender su semántica es ver un ejemplo. Aquí < http://es.wikipedia.org/robots.txt > podemos encontrar el robots.txt de Wikipedia, un ejemplo verdaderamente completo, que puede ser tomado de base para elaborar nuestro propio robots.txt.

Si le ha gustado este post y quiere colocarlo en su sitio, puede hacerlo sin inconvenientes, siempre y cuando cite como fuente a http://www.vpa-internet.com.ar/blog

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s