[Previo por Fecha] [Siguiente por Fecha] [Previo por Hilo] [Siguiente por Hilo]
[Hilos de Discusión] [Fecha] [Tema] [Autor]Antonio Tellez Flores, who happens to be smarter than you, thinks: > Saludos > > > necesito prohibir que me hagan descargas masivas de mi html de mi web site. > > Hay herramientas como el teleport pro y otras mas que descargan la web con todo > > y figuras...bueno deseo evitar esto. > > Puedes utilizar "Robots Exclusion" en tu website para evitar esto. Es > sencillo, 'unicamente tienes que crear un archivo robots.txt y ponerlo > en el nivel superior de tu sitio, con esto evitas que puedan hacer > descargas masivas. Mmmm... > > Un ejemplo que podr'ia servirte es al siguiente: > > User-agent: * > Disallow: / > > Puedes ser esto a un nivel mas fino. Hay mas informaci'on al respecto > en: > > http://www.robotstxt.org/wc/robots.html % info wget Wgetrc Commands ================ robots = on/off Specify whether the norobots convention is respected by Wget, "on" by default. This switch controls both the `/robots.txt' and the `nofollow' aspect of the spec. *Note Robot Exclusion::, for more details about this. Be sure you know what you are doing before turning this off. Robot Exclusion =============== If you know what you are doing and really really wish to turn off the robot exclusion, set the `robots' variable to `off' in your `.wgetrc'. You can achieve the same effect from the command line using the `-e' switch, e.g. `wget -e robots=off URL...'. > Hasta la vista. Aunque puede ser una solución, muchos programas (aquí solo como ejemplo wget) tienen la opción o simplemente no respetan `robots.txt` por lo que no resuelve del todo el problema. :-S