Ficheros ‘Sitemap’ y ‘robots.txt’

Los motores de búsqueda, aunque no todos, tienen en cuenta las Webs con un mapa del sitio integrado, que contenga una relación de las páginas más importantes del site así como de su frecuencia de actualización, optimizando así el rastreo de un sitio Web.

Lo ideal es generar el fichero sitemap mediante una herramienta generador de sitemap (En Google, sitemap-generator) aunque hoy en día hay muchos hosting que ofrecen este servicio para sus Web o la posibilidad de instalar complementos que lo hagan. Puede resultar más sencillo crearlo en un fichero de texto ‘sitemap.txt’ y después proporcionárselo a Google para sus chequeos e integrarlo en el directorio raíz de tu sitio, cuya estructura sería algo así:

http://www.nombrededominio.com/index.htm

http://www.nombrededominio.com/noticias.htm

http://www.nombrededominio.com/articulos.htm

http://www.nombrededominio.com/descargas/documento.pdf

Una URL por línea, las más importantes de tu sitio Web. Con este archivo trataremos de facilitar el trabajo de los robots de Google y los demás buscadores a la hora de rastrear y actualizar el contenido de nuestra página Web.

El fichero robots.txt es el primer archivo de una página que visitan los motores de búsqueda y se encarga de informar a éstos de qué páginas no deben ser indexadas en sus directorios o, mejor dicho, se encarga de informar sobre qué archivos quiere que se indexen y cuáles no.

Para información acerca de cómo redactar su archivo visite www.robotstxt.org

La ausencia de este archivo en nuestro directorio raíz puede provocar un error a en el momento en que los robots de los buscadores rastreen nuestra Web, pudiendo evitar que se indexen nuestras páginas en sus directorios. Para evitarlo de manera simple, podemos crear un archivo robots.txt en blanco y alojarlo en el directorio raíz de nuestro site, así evitaremos errores.

Desde las herramientas para webmasters de Google podemos hacer un diagnóstico de nuestro archivo robots.txt y obtener información sobre qué URL han ofrecido más dificultades para ser indexadas y cuáles han sido los motivos, para así poder solucionar el problema.

Para excluir todos los robots de algunas partes del sitio deberá incluir el siguiente texto:

User-agent: *
Disallow: /cgi-bin/
Disallow: /misc/sitestats/

Para indicar a los robots rastreadores que no hay restricciones en el contenido deberá incluir: (Tal cual aparece, una barra diagonal tras ‘Disallow:’ podrá restringir todo el contenido)

User-agent: *
Disallow:

Un saludo.
Óscar Peña

1 Estrella2 Estrellas3 Estrellas4 Estrellas5 Estrellas (Aún no ha votado nadie.)
Loading ... Loading ...
Bookmark and Share
 

Responder