it-swarm-vi.com

Chặn tất cả các công cụ tìm kiếm ngoại trừ những công cụ lớn

Tôi muốn bằng cách nào đó có thể chặn tất cả các công cụ tìm kiếm ngoại trừ Google, Yahoo và Bing (và các trang web liên quan của họ như Google Images) để thu thập dữ liệu trang web của tôi vì chúng tiêu thụ nhiều máy chủ và băng thông nhưng không mang lại lưu lượng truy cập.

Điều này dễ dàng thực hiện hay khó khăn? Sẽ tốt hơn nếu ai đó duy trì một danh sách các công cụ tìm kiếm nhỏ có thể được dán vào tệp robot.txt để chặn chúng.

Ngoài ra, tôi nhận ra rằng tôi không thể chặn các trình thu thập thông tin mà bỏ qua các tệp robots.txt hoặc các trang web để lén lút và thu thập dữ liệu, nhưng đó không phải là điều tôi muốn. Tôi chỉ muốn chặn tất cả các Altavistas, Hotbots, Lycos (những thứ này thậm chí còn tồn tại) và các trình thu thập dữ liệu thử nghiệm của trường đại học không lãng phí thời gian của tôi.

2
Craig

Bạn đã thử những gì cho đến nay?

Sử dụng công cụ quản trị trang web Trình tạo robot.txt Tôi đã thực hiện điều này:

User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /

Nhưng tôi đã không kiểm tra nó.

3
delete

Làm thế nào lớn của một vấn đề là nó thực sự?

Các bot bạn nên quan tâm là các bot không tuân theo các quy tắc và những người giả vờ là khách thường xuyên.

Lưu lượng truy cập Search Engine là hợp pháp và như Dan chỉ ra Google cũng bắt đầu như một dự án đại học nhỏ. Thật không công bằng khi phân biệt đối xử với những kẻ nhỏ bé và có thể không thông minh trong thời gian dài.

Câu trả lời của Kinopiko sẽ hoạt động và các công cụ quản trị trang web của Google sẽ cho phép bạn tạo và kiểm tra robot.txt của bạn (Cấu hình trang web, Truy cập trình thu thập thông tin), nhưng tôi nghĩ rằng nếu lưu lượng truy cập từ các công cụ tìm kiếm chính hãng là vấn đề đối với bạn, thì đó có thể là lưu trữ hiện tại của bạn giải pháp không phải là một thỏa thuận tốt.

3
Sylver

Đối với những quy tắc không tuân theo quy tắc, bạn có thể cố gắng tìm chúng trong nhật ký của mình và sau đó chặn chúng bằng IP.

Nói chung, bạn có thể phát hiện ra một bot bởi thực tế là nó đọc các trang quá nhanh để trở thành con người.

1
Sruly