20 CONSEJOS SOBRE ROBOTS.TXT PARA NO PERDERSE

robottxt

El archivo robots.txt que bloquea los motores de búsqueda del rastreo para ciertas URLs o partes de un sitio, tiene más de 20 años: Se creó el 30 de de junio de de 1994 por  Martijn Koster.

robottxt

 

El  estándar de exclusión de robots fue creado para evitar que los rastreadores consumieran demasiados recursos del servidor y hacer caer un sitio web. Hay que decir que, en 1994, el ancho de banda era muy limitado.

Lista de información, asesoramiento y errores más comunes del robots.txt:

  1. Google descarga el archivo robots.txt, una vez cada 24 horas. A veces se cambia esta frecuencia pero rara vez. Esto significa que si deseas bloquear una URL, es prudente añadirla en el archivo robots.txt al menos 24 horas antes.
  2. Si una URL ha sido indexada por Google, el bloquearla en el archivo robots.txt no va a desindexar, en cualquier caso se mantendrá la URL indexada. Lo único que le indicas a Google es que ya no tiene permiso para rastrear la página. Para anular esa indexación, debes permitir su rastreo y utilizar una etiqueta de robots noindex o una cabecera HTTP X-Robots-Tag o ir a una solicitud de eliminación de URL en Google Webmaster Tools).
  3. En 2008, Google añade nuevas directrices adicionales, como los comodines y $ *, el comando Permitir y declaración de ficheros Sitemaps.
  4. No bloquear las direcciones URL de rastreo que son redirigidas, de lo contrario el motor no puede estar al tanto de esta redirección.
  5. Los comentarios están permitidos (la línea debe comenzar con #) pero son completamente ignorados.
  6. El archivo robots.txt no se utiliza para proteger el acceso a una URL o categoría.
  7. El tamaño máximo de un archivo robots.txt es de 500 Kb si es superior será ignorado por Google.
  8. En algunos casos, Google dice que Google Webmaster se encuentra con problemas de exploración del robots.txt. Google debe obtener un código 200 (el archivo existe y que está disponible) o el código 403 o 404 (el archivo no es accesible, pero el código HTTP devuelto es consistente).
  9. El archivo robots.txt puede ser encontrado en indexados en Google. Para dar de baja el índice, debes utilizar X-Robots-Tag o prohibir el rastreo de archivos y, a continuación eliminar el índice en Google Webmaster Tools.
  10. Directiva del arrastre de retardo es administrado por Bing, pero ignorado por Google (para este último, se debe configurar este ajuste en GSC).
  11. Si está todo el sitio como(Disallow: /), no será nunca rastreado por Google, no olvides quitar esta Directiva antes de publicar tu sitio.
  12. La URL debe siempre comenzar con una barra.
  13. Prestar mucha atención a la orden de las directivas Allow: y Disallow:
  14. El nombre del archivo debe ser llamado robots.txt
  15. Debe haber un archivo robots.txt para cada
  16. Debe haber un archivo robots.txt para cada protocolo (HTTP y HTTPS).
  17. A diferencia de los otros, Google acepta el archivo robots.txt en el protocolo FTP
  18. Este archivo de texto de preferencia debe ser codificado en UTF-8.
  19. Los espacios son opcionales (pero se recomienda para mejorar la legibilidad del archivo).
  20. Sólo 4 directrices son tomadas en cuenta por Google: user-agent , disallow, allow,

 

Tu nueva web de empresa a coste 0!

¿Quieres una nueva web o ecommerce para tu empresa?

Entérate de cómo conseguirla por 0€

*Sólo para empresas y autónomos.