it-swarm-vi.com

Làm cách nào để định cấu hình robot.txt để cho phép thu thập dữ liệu của trang web ngoại trừ một vài thư mục?

Thiết lập ban đầu hoặc chung nhất cho robot.txt là gì để cho phép các công cụ tìm kiếm đi qua trang web, nhưng có thể hạn chế một vài thư mục?

Có một thiết lập chung nên luôn luôn được sử dụng?

7
Mike

Các công cụ quản trị trang web của Google có Phần gọi là "Truy cập trình thu thập thông tin"

Phần này cho phép bạn rất dễ dàng tạo robot.txt của bạn

Ví dụ: để cho phép mọi thứ ngoại trừ blog một thư mục có tên test, robot.txt của bạn sẽ trông giống như

User-agent: *
Disallow: /Test
Allow: /
3
corymathews

Cấu hình tốt nhất, nếu bạn không có bất kỳ yêu cầu đặc biệt nào, thì không có gì cả. (Mặc dù ít nhất bạn có thể muốn thêm một tệp trống để tránh 404s điền vào nhật ký lỗi của bạn.)

Để chặn thư mục trên trang web, hãy sử dụng mệnh đề 'Không cho phép':

User-agent: *
Disallow: /example/

Ngoài ra còn có một điều khoản 'Cho phép' ghi đè các mệnh đề 'Không cho phép' trước đó. Vì vậy, nếu bạn không cho phép thư mục 'ví dụ', bạn có thể muốn cho phép một thư mục như 'example/foobar'.

Hãy nhớ rằng robot.txt không ngăn chặn bất kỳ ai truy cập vào các trang đó nếu họ muốn, vì vậy nếu một số trang cần giữ bí mật, bạn nên ẩn chúng đằng sau một số loại xác thực (ví dụ: tên người dùng/mật khẩu).

Lệnh khác có khả năng có trong nhiều tệp robot.txt là 'Sơ đồ trang web', chỉ định vị trí của sơ đồ trang XML của bạn nếu bạn có. Đặt nó trên một dòng trên chính nó:

Sitemap: /sitemap.xml

trang web chính thức của robot.txt có nhiều thông tin hơn về các tùy chọn khác nhau. Nhưng nói chung, phần lớn các trang web sẽ cần rất ít cấu hình.

1
DisgruntledGoat

Đây là mọi thứ bạn cần biết về tệp robots.txt

0
Jason