it-swarm-vi.com

Công cụ tốt để thu thập dữ liệu trang web của tôi và giúp tôi tìm liên kết chết và các tệp không liên kết

Tôi có một trang web di sản khá lớn với hàng ngàn tệp PDF đôi khi chiếm trong cơ sở dữ liệu, nhưng thường chỉ là các liên kết trên trang và được lưu trữ trong hầu hết mọi thư mục trên trang.

Tôi đã viết một trình thu thập dữ liệu php để theo dõi tất cả các liên kết trên trang web của mình và sau đó tôi đang so sánh nó với một kết cấu của thư mục, nhưng có điều gì dễ dàng hơn không?

21
MrChrister

Tôi đã sử dụng Xenu's Link Sleuth . Nó hoạt động khá tốt, chỉ cần chắc chắn không để DOS tự!

15
plntxt

Nếu bạn đang sử dụng windows 7, công cụ tốt nhất là Bộ công cụ SEO của IIS7. Nó là miễn phí và bạn có thể tải về miễn phí.

Công cụ sẽ quét bất kỳ trang web nào và cho bạn biết tất cả các liên kết chết ở đâu, trang nào mất nhiều thời gian để tải, trang nào thiếu tiêu đề, tiêu đề trùng lặp, tương tự cho từ khóa và mô tả và trang nào bị hỏng HTML.

6
Ben Hoffman

Hãy thử Công cụ kiểm tra liên kết công cụ nguồn mở của W3C . Bạn có thể sử dụng trực tuyến hoặc cài đặt cục bộ

4
mvark

Có một số sản phẩm từ microsys , đặc biệt là Trình tạo sơ đồ trang web A1Trình phân tích trang web A1 sẽ thu thập dữ liệu trang web của bạn và báo cáo mọi thứ bạn có thể tưởng tượng về nó.

Điều đó bao gồm các liên kết bị hỏng, nhưng cũng là chế độ xem bảng của tất cả các trang của bạn để bạn có thể so sánh các thứ như thẻ <title> và thẻ mô tả meta, liên kết nofollow, meta noindex trên các trang web và rất nhiều bệnh chỉ cần một con mắt sắc bén và một tay nhanh chóng để sửa chữa.

1
Evgeny

Link Examiner là một phần mềm miễn phí thực sự tốt cho nhu cầu của bạn.

1
Dark

Tôi là một fan hâm mộ lớn của linklint để kiểm tra liên kết các trang web tĩnh lớn, nếu bạn có một dòng lệnh unix xung quanh (I ' đã sử dụng trên linux, MacOS và FreeBSD). Xem trang web của họ để được hướng dẫn cài đặt. Sau khi cài đặt, tôi tạo một tệp có tên check.ll và làm:

linklint @check.ll

Đây là tập tin check.ll của tôi trông như thế nào

# linklint
-doc .
-delay 0
-http
-htmlonly
-limit 4000
-net
-Host www.example.com
-timeout 10

Đó là thu thập thông tin của www.example.com và tạo các tệp HTML với các báo cáo được tham chiếu chéo cho những gì bị hỏng, thiếu, v.v.

1
artlung