it-swarm-vi.com

Ngăn chặn robot lấy nội dung trang web / bài viết

Đây không phải là câu hỏi về người lập chỉ mục, hầu hết trong số họ tuân theo tệp tệp robots.txt .

Nhưng có thể bạn nhận thấy các trường hợp được công khai trong đó Facebook hoặc Skype đã theo dõi URL được đăng bởi người dùng hoặc đã được gửi qua tin nhắn tức thời riêng tư bằng cách sử dụng các nền tảng này. Tôi tin rằng hai người này không (hoặc sẽ sớm không) một mình làm điều này.

Vấn đề là việc họ truy cập URL cụ thể không nhất thiết phải tuân theo robot.txt và họ có thể thực hiện 'sao lưu' văn ​​bản những gì họ thấy. Mặc dù tôi quản lý các trang web khá chuẩn (tổ chức phi lợi nhuận, sở thích, blog), tôi không thích 'công cụ tiếp thị cuối cùng' này (đây là giả định tốt nhất về nó). Do đó, tôi đang nghĩ đến cách thanh lịch để tránh việc đánh hơi/bò đến từ các trang này sau khi họ nhận được liên kết. Cái gì đó như

  • toàn bộ trang không được hiển thị cho đến khi thử nghiệm của con người được thông qua (sau đó cookie được đặt để không còn cần thiết nữa) - OR -

  • trang web có thể truy cập (trang có tất cả các mô-đun, v.v., không có vấn đề gì với tiêu đề bài viết được xuất bản trong đó) nhưng nội dung bài viết chính (com_content) ban đầu trống và được tự động thay thế bằng cách sử dụng Ajax

Bạn có ý tưởng nào để triển khai phòng chống những trình thu thập thông tin này để họ không nhận được bất kỳ/một số nội dung nào trong URL của trang web mà họ đã truy cập không?

5
miroxlav

Không có giải pháp dễ dàng, bởi vì bot có hành vi khác nhau. Tôi sẽ chia chúng thành 4 loại và giải pháp cho mỗi loại:

  1. Trình thu thập dữ liệu hợp pháp (tức là Google) - những trình này thường tôn trọng robot.txt và như bạn đã nói, bạn không quan tâm đến điều đó.

  2. Các mẩu tin lưu niệm hợp pháp (ví dụ: Facebook) - những phần mềm này thường có tác nhân người dùng phù hợp, vì vậy bạn có thể chặn những thứ này dựa trên đó (tác nhân người dùng).

  3. Trình thu thập thông tin không tôn trọng robot.txt - cách dễ nhất là tạo một liên kết vô hình (cho con người) trên trang của bạn, đặt nó rel = nofollow (để không gặp sự cố với trình thu thập thông tin hợp pháp) vào liên kết đó. Liên kết sẽ đi đến một trang, nơi bạn sẽ đăng nhập IP, UA và những thứ tương tự của trình thu thập thông tin. Sau đó, bạn có thể thực hiện kiểm tra đối với nhật ký đó và nếu có kết quả khớp, đơn giản là bạn sẽ không nên nội dung.

  4. Một trong những mẩu tin lưu niệm - tương tự như Facebook, nhưng với tác nhân người dùng giả mạo. Giải pháp khả thi duy nhất là kiểm tra hỗ trợ cookie, nhưng nó không đảm bảo 100% nó sẽ hoạt động. Nó cũng sẽ chặn người dùng đã tắt cookie.

3
Ivo

Một phương pháp sẽ là chặn truy cập từ các trình thu thập thông tin, mặc dù điều này phụ thuộc vào việc có thể xác định chúng.

Bài viết sau đây có một số ví dụ hay về cách tăng cường bảo mật Joomla.

http://docs.j Joomla.org/Htaccess_examples_%28security%29

Một phương pháp là sử dụng thuộc tính HTTP_REFERER để chặn truy cập ví dụ vào hình ảnh trừ khi chúng được tải từ một trang trên trang web của bạn.

Một cách khác là sử dụng thuộc tính HTTP_USER_AGENT để chặn truy cập vào các công cụ cụ thể.

Để xác định các chuỗi HTTP_USER_AGENT bổ sung, bạn sẽ cần kiểm tra nhật ký truy cập của mình hoặc, điều tôi đã làm trong một lần là sửa đổi tiện ích mở rộng Redirect để thêm HTTP_USER_AGENT trong nhận xét.

3
Peter Wiseman

Nếu bạn không muốn nội dung có thể truy cập công khai thì hãy sử dụng ACL của Joomla để hạn chế quyền truy cập, xóa quyền truy cập cho nhóm người dùng (công khai) mặc định. Nếu bạn không làm điều đó hoặc một cái gì đó tương tự, thì nội dung của bạn là công khai, mọi người có thể thấy nó, bot có thể thấy nó.

Nếu bạn không muốn nội dung của mình được xem bởi bất kỳ ai, không xuất bản nó ra thế giới. Nếu bạn xuất bản nó ra thế giới, bạn sẽ không có nhiều tiếng nói trong việc xem ai.

3
Seth Warburton