it-swarm-vi.com

Làm thế nào để phát hiện các bot công cụ tìm kiếm đáng tin cậy trong trang web asp.net?

Cách tốt nhất để phát hiện hoạt động tạo bot (số lần nhấp/lượt truy cập trang), v.v. trên trang web asp.net là gì? Chúng tôi có một trang web nơi chúng tôi theo dõi khách hàng tiềm năng được tạo cho các trang web bên ngoài, chúng tôi theo dõi IP của người dùng tạo khách hàng tiềm năng tuy nhiên chúng tôi đang thấy rất nhiều khách hàng tiềm năng được tạo bởi Google và các bot tìm kiếm khác. Cách tốt nhất để lọc hoạt động này là gì. Tôi đã nghe nói về việc kiểm tra các chuỗi tác nhân người dùng và lọc dựa trên các địa chỉ IP đã biết, cả hai đều có sẵn dưới dạng kết xuất dữ liệu từ nhiều nguồn khác nhau, tôi không chắc cái nào là tốt nhất để sử dụng.

Cảm ơn bạn.

2
user1081

Giống như @Kinopiko đã nói, Bots, esepcialy những người hàng đầu như google hoặc bing để lại một UserAgent rõ ràng.

Tôi không biết mã của bạn trông như thế nào vì vậy tôi không thể cho bạn biết phải làm gì ngoài việc tìm UserAgent trong Asp.Net mà bạn nhìn vào Request.UserAgent trong bất kỳ WebForm, CodeBehind hoặc Trình điều khiển MVC nào.

2
Sruly

Xin lỗi nhưng tôi không biết gì về các trang web asp.net, nhưng bất kỳ công cụ tìm kiếm có uy tín nào cũng sẽ gửi cho bạn một chuỗi tác nhân người dùng cho bạn biết đó là bot và có sẵn trong tệp nhật ký của bạn. Một cách tặng khác là họ tìm kiếm /robots.txt.

Công cụ kiểm tra của tôi trông như thế này (Perl):

sub is_bot
{
  my ($user_agent) = @_;
  if ($user_agent =~
  /msnbot
    |www\.cuil\.com
  |Yahoo!\s+Slurp
  |Googlebot
  |Speedy\sSpider
  |MLBot
  |princeton crawler
  |accelobot
  |crawler\@dotnetdotcom
  |help\.naver\.com
  |GingerCrawler
  |Sosospider
  |www.exabot.com
  |Baiduspider
  |Ask\sJeeves
  |Java\/
  |telehouse\.ru
  |Tagoobot
  |Baypup
  |SimilarPages
  |Spinn3r
  |VoilaBot
  |Yandex
  |Xenu\sLink\sSleuth
  |www\.searchme\.com
  |MJ12bot
  |kilomonkey\.com
  |Mediapartners-Google
  |Sogou\sweb\sspider
  |YoudaoBot
  |seexie\.com
  |Yahoo.*Slurp
  |YahooCacheSystem
  |crawler\@nutch\.biz
  |psbot
  |ia_archiver-web\.archive\.org
  |sbider
  |xrss\.eu
  |scoutjet
    |www\.puritysearch\.net
    |Bing
    |BaiduImagespider
    |baidu\.jp
    |facebookexternalhit
    |ssllabs\.com
    |Python-urllib
    |drupal\.org
    |HTTrack
    |Willow\s+Internet\s+Crawler\s+by\s+Twotrees
  /x) {
  return 1;
  }
  return;
}

Nếu bạn nhìn vào mã nguồn của awstats, bạn sẽ tìm thấy thứ gì đó tốt hơn ở trên.

0
delete