nginx 拒绝全部robot
可以在网页的根目录设置robot.txt进行爬虫处理,但是如果要对整个服务器的全部站点进行屏蔽爬虫,如果站点很多,则可以在nginx进行批量处理。
如果服务器采用的Linux+nginx架构,可以在nginx的配置配置如下:
if ($http_user_agent ~* "qihoobot|Baiduspider|Googlebot|Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo! Slurp|Yahoo! Slurp China|YoudaoBot|Sosospider|Sogou spider|Sogou web spider|MSNBot|ia_archiver|Tomato Bot") {
return 403;
}