it-swarm-vi.com

Kiểm soát Lưu trữ Internet ngoài "Không cho phép /"?

Có bất kỳ cơ chế nào để kiểm soát những gì Lưu trữ Internet trên một trang web không? Tôi biết không cho phép tất cả các trang tôi có thể thêm :

User-agent: ia_archiver
Disallow: /
  1. Tôi có thể nói với bot rằng tôi muốn họ thu thập dữ liệu trang web của tôi mỗi tháng một lần hoặc mỗi năm một lần không?

  2. Tôi có một trang web/trang không/không được lưu trữ chính xác vì tài sản không được chọn. Có cách nào để nói với bot Lưu trữ Internet những tài sản mà nó cần nếu nó sẽ lấy trang web không?

13
artlung

Lưu ý : Câu trả lời này ngày càng lỗi thời.

Người đóng góp lớn nhất cho bộ sưu tập web của Internet Archive là Alexa Internet. Tài liệu mà Alexa thu thập cho mục đích của nó đã được tặng cho IA một vài tháng sau đó. Việc thêm quy tắc không được đề cập trong câu hỏi không ảnh hưởng đến những lần thu thập thông tin đó, nhưng Wayback sẽ 'hồi tố' tôn trọng họ (từ chối quyền truy cập, tài liệu vẫn sẽ nằm trong kho lưu trữ - bạn nên loại trừ robot của Alexa nếu bạn thực sự muốn loại bỏ tài liệu của mình của Lưu trữ Internet).

Có thể có những cách để ảnh hưởng đến việc thu thập dữ liệu của Alexa, nhưng tôi không quen với điều đó.

Kể từ khi IA phát triển trình thu thập thông tin riêng (Heritrix), họ đã bắt đầu tự thu thập thông tin, nhưng những người này có xu hướng được nhắm mục tiêu (họ thu thập thông tin bầu cử cho Thư viện Quốc hội và đã thực hiện thu thập thông tin quốc gia cho Pháp và Úc, v.v.). Họ không tham gia vào các loại thu thập thông tin quy mô thế giới bền vững mà Google và Alexa thực hiện. Thu thập dữ liệu lớn nhất của IA là một dự án đặc biệt để thu thập dữ liệu 2 tỷ trang.

Vì các thu thập thông tin này được vận hành theo lịch xuất phát từ các yếu tố cụ thể của dự án, bạn không thể ảnh hưởng đến tần suất họ truy cập trang web của bạn hoặc nếu họ truy cập trang web của bạn.

Cách duy nhất ảnh hưởng trực tiếp đến cách thức và thời điểm IA thu thập dữ liệu trang web của bạn là sử dụng dịch vụ Archive-It của họ. Dịch vụ đó cho phép bạn chỉ định thu thập thông tin tùy chỉnh. Dữ liệu kết quả sẽ (cuối cùng) sẽ được đưa vào bộ sưu tập web của IA. Tuy nhiên, đây là dịch vụ đăng ký trả phí .

8
Kris

Hầu hết các công cụ tìm kiếm đều hỗ trợ chỉ thị "Thu thập thông tin chậm trễ", nhưng tôi không biết nếu IA thực hiện. Bạn có thể thử nó mặc dù:

User-agent: ia_archiver
Crawl-delay: 3600

Điều này sẽ giới hạn độ trễ giữa các yêu cầu ở mức 3600 giây (tức là 1 giờ) hoặc ~ 700 yêu cầu mỗi tháng.

Tôi không nghĩ # 2 là có thể - bot IA lấy tài sản khi nó thấy phù hợp. Nó có thể có giới hạn kích thước tệp để tránh sử dụng quá nhiều bộ nhớ.

2
DisgruntledGoat