Robots.txt ayudando a Google a indexarnos

por:

El robots.txt nos permite indicar el contenido que queremos indexar

Una de las cosas que muchas veces se suelen dejar para otro momento y luego al final no se realizan es la configuración del archivo robots.txt un fichero que no está destinado para nosotros o nuestros usuarios, pero sí para los buscadores y siempre nos interesa facilitarles el camino.

¿Cómo indexa un buscador?

Aunque este no es un artículo centrado en la indexación, podemos decir que un buscador, realiza un seguimiento similar al de un usuario. El buscador nos puede visitar, bien porque estamos dados de alta para que nos visite cada cierto tiempo, bien siguiendo un enlace de otra página que le lleva hasta la nuestra.

Una vez que llega a nuestra página, lo normal es que rastree la propia página en la que ha entrado (por ejemplo, este artículo) y alguna más siguiendo los enlaces que encuentra en el artículo actual. Este proceso es complejo y muy costoso en tiempo para el buscador, así que buscan la ayuda de los administradores de páginas para facilitarles el camino.

El fichero robots.txt

spiderRobot

Este es uno de los varios ficheros que deberíamos de utilizar para ayudar al buscador a indexar correctamente nuestra web. En este fichero especificaremos que páginas puede indexar y cuales debe “saltar” y no indexar. Esto evita al buscador entra en páginas que no tiene permisos o con información de baja calidad que no queremos que guarde. También los expertos en SEO dicen que minimizar las páginas erróneas que intenta indexar el buscador con el fichero robots.txt ayuda a posicionarnos mejor en los resultados de las búsquedas.

 

Cuando es muy recomendable usar el archivo robots.txt

Este fichero se debería usar siempre para evitar que el buscador rastree e intente indexar:

  • Secciones, artículos o páginas protegidas por contraseña y que no contienen más que un texto genérico del tipo, “regístrate para ver todo el contenido”.
  • Artículos, noticias o publicaciones erróneas, de baja calidad o que no quieres que aparezcan en los resultados.
  • Secciones de la web que se generan dinámicamente sólo si tienes los permisos correspondientes, como por ejemplo una url para publicar una respuesta en un foro del estilo: miforo.com/diseno/Tema-los-colores-favoritos?reply

¿Cómo escribo mi propio robots.txt?

La escritura de este tipo de ficheros es muy simple:

  1. Se pone que “robot” tiene permitido indexar la web: User-agent: robot   (o usaremos asterisco ‘*’ ) para nombrarlos a todos.
  2. Para ese robot usamos las etiquetas:
    1. Disallow: url    para impedir la indexación de esa url
    2. Allow: url         para pedir la indexación de esa url

 

Un ejemplo bastante completo, es el de la página web de elMundo que podéis visitar desde aquí.

Deja una Respuesta