[Previo por Fecha] [Siguiente por Fecha] [Previo por Hilo] [Siguiente por Hilo]
[Hilos de Discusión] [Fecha] [Tema] [Autor]Antonio Tellez Flores, who happens to be smarter than you, thinks:
> Saludos
>
> > necesito prohibir que me hagan descargas masivas de mi html de mi web site.
> > Hay herramientas como el teleport pro y otras mas que descargan la web con todo
> > y figuras...bueno deseo evitar esto.
>
> Puedes utilizar "Robots Exclusion" en tu website para evitar esto. Es
> sencillo, 'unicamente tienes que crear un archivo robots.txt y ponerlo
> en el nivel superior de tu sitio, con esto evitas que puedan hacer
> descargas masivas.
Mmmm...
>
> Un ejemplo que podr'ia servirte es al siguiente:
>
> User-agent: *
> Disallow: /
>
> Puedes ser esto a un nivel mas fino. Hay mas informaci'on al respecto
> en:
>
> http://www.robotstxt.org/wc/robots.html
% info wget
Wgetrc Commands
================
robots = on/off
Specify whether the norobots convention is respected by Wget, "on"
by default. This switch controls both the `/robots.txt' and the
`nofollow' aspect of the spec. *Note Robot Exclusion::, for
more details about this. Be sure you know what you are doing
before turning this off.
Robot Exclusion
===============
If you know what you are doing and really really wish to turn off the
robot exclusion, set the `robots' variable to `off' in your `.wgetrc'.
You can achieve the same effect from the command line using the `-e'
switch, e.g. `wget -e robots=off URL...'.
> Hasta la vista.
Aunque puede ser una solución, muchos programas (aquí solo como ejemplo
wget) tienen la opción o simplemente no respetan `robots.txt` por lo que no
resuelve del todo el problema. :-S