Optimización de los archivos Sitemap.xml

Aunque la mayoría de los CMS generan automáticamente el archivo Sitemap.xml, o varios archivos Sitemap dedicados a distintos tipos de contenido, los desarrolladores web deben tener en cuenta las siguientes prácticas recomendadas:

Habilitar el atributo priority para establecer la importancia de cada página
Eliminar las URL no canónicas del sitemap
Eliminar del mapa del sitio todas las páginas con un código de estado HTTP distinto de 200

Índice de contenidos

Cómo afectan los códigos de estado HTTP al SEO

Los códigos de estado HTTP son emitidos por un servidor web en respuesta a la solicitud de un cliente realizada al servidor. Desde el punto de vista del SEO, los sitios web sólo deberían incluir páginas con el código de estado 200 OK, la respuesta estándar para las peticiones HTTP realizadas con éxito. Pero todos sabemos que los cambios ocurren y las páginas internas con código de estado 301 Moved Permanently están destinadas a aparecer.

El código de estado 404 Not Found se genera cuando el servidor no puede encontrar una URL solicitada. puntualiza la agencia publicidad Málaga Andar.. Los enlaces internos rotos deben reducirse al mínimo (si no eliminarse por completo), ya que dañan la experiencia del usuario y afectan negativamente a la clasificación en los motores de búsqueda; los 404 indican a los rastreadores que el sitio web está mal mantenido o codificado. En resumen, todas las páginas 404 no encontradas deben eliminarse del sitio y redirigirse a otro recurso similar.

Aunque el uso de redireccionamientos permanentes (301, 302 o 308) es viable en la mayoría de las situaciones, el proceso óptimo es hacerlos correctamente y mantenerlos a un mínimo razonable en el sitio. Dos de los ejemplos más comunes de uso incorrecto de redirecciones son los bucles y las cadenas de redirecciones, que tienen un impacto negativo en la experiencia del usuario, el crawl budget, la velocidad del sitio y, en consecuencia, en los rankings.

Cómo solucionar un bucle de redireccionamiento

El archivo robots.txt es un archivo de texto que se utiliza para indicar a los motores de búsqueda, mediante reglas de permitir y no permitir, cómo rastrear las páginas del sitio web. A menos que los rastreadores estén causando graves problemas de carga del servidor, los desarrolladores no deben limitar la velocidad de rastreo utilizando el archivo robots.txt.

Los desarrolladores también deben incluir la ubicación del mapa del sitio o de los mapas del sitio asociados al dominio en el archivo robots.txt:

Mapa del sitio: https://www.my-site.com/sitemap.xml

Y aunque los motores de búsqueda no rastrearán ni indexarán el contenido bloqueado mediante una regla de denegación creada en el archivo robots.txt, los motores de búsqueda pueden encontrar contenido denegado en otros lugares de Internet e indexarlo.

En su lugar, debe utilizarse la etiqueta meta robots, mediante el parámetro noindex, que indica a los motores de búsqueda que no indexen la página y no la muestren en los resultados de búsqueda.

Para evitar que los archivos PDF se indexen y se muestren en los resultados de búsqueda, utilice en su lugar la etiqueta X-Robots, editando el archivo .htaccess asociado al dominio.