En publicaciones anteriores vimos como descargar un sitio web completo por medio de la consola de linux, pero esto puede no gustar a los creadores de un blog, por lo que vamos a tomar una contramedida, dado que en ocasiones puede llegar a usarse con fines maliciosos.

robots

Lo que hay que hacer es crear un archivo que se llame robots.txt, darle solo los accesos a los servicios que necesitemos que pasen como el buscador de google, y después bloquear los que son potencialmente peligrosos y pueden robar el contenido de nuestro sitio o hacer spam, para entender mejor el tema vamos a referirnos a crawlers, rastreadores o arañas cuya función es justamente rastrear el sitio solo que a veces se usan para perjudicar a alguien. Por eso la idea de esta publicación es evitar daños.

Les dejo un archivo de muestra que es recomendable que utilicen en sus sitios y lo coloquen en la carpeta principal o raíz de su sitio web.

Lista recomendada: robots

Deja un comentario