jueves, 18 de septiembre de 2014

Utilizando robots.txt para evitar que los buscadores indexen contenido de tu web

Si tenemos contenido en nuestra web que no deseamos que aparezca en los resultados de búqueda de los buscadores aquí explicamos como:

Creamos un archivo llamado robots.txt

2º  Para saber a que bot viene definida la regla, usamos un * para referirse a todos. Para por ejemplo referirse a Google nada más usariamos googlebot .

    User-agent: *

Para bloquear la indexación de TODA nuestra web:

    User-agent: *
    Disallow: /

Bloquear una carpeta específica:

    User-agent: *
    Disallow: /nombre_carpeta/

Bloquear una carpeta entera menos un archivo:

    User-agent: *
    Disallow: /nombre_carpeta/
    Allow: /nombre_carpeta/web.html


También podemos utilizar comodines para bloquear y desbloquear contenido, por ejemplo, si queremos bloquear que indexe todo el contenido que tenga la palabra 'foto' sería:

    User-agent: *
    Disallow: /*foto


o bien si quisiéramos que bloquease todo el contenido con ciertas extensiones, como podría ser archivos de imágenes podríamos añadir:

    User-agent: *
    Disallow: /*.jpeg$
    Disallow: /*.jpg$
    Disallow: /*.png$
    Disallow: /*.gif$
    Disallow: /*.bmp$


Finalmente subimos el archivo robots.txt generado al directorio raíz de nuestro proyecto web con permisos 644


Espero que con esto se hagan una pequeña idea de la utilidad que puede tener este archivo

No hay comentarios:

Publicar un comentario

Gracias por frikear con nosotros!