it-swarm-vi.com

Do các công cụ tìm kiếm thu thập dữ liệu PDF và nếu có thì có bất kỳ quy tắc nào phải tuân theo khi tạo chúng không

Trang web tôi đang làm việc có vài trăm tệp PDF trong đó. Tôi không nghĩ rằng tôi đã từng thấy bất kỳ ai trong số họ quay lại tìm kiếm nhưng có liên kết trực tiếp từ trang web bên ngoài. Chúng cũng có đầy đủ các từ khóa vì chúng là tài liệu sản phẩm.

Có điều gì đặc biệt chúng ta cần làm để khiến Google hoặc các công cụ tìm kiếm khác thu thập dữ liệu không?

Có quy tắc cứng và nhanh nào để tạo tệp PDF để giúp Google thích chúng hơn không? Chẳng hạn, tôi có nên chạy chúng thông qua ghostscript để dọn sạch các thẻ PDF mà Adobe tạo trong quá trình tạo không?

22
Ben Hoffman

Google chắc chắn lập chỉ mục PDF files và bạn chỉ có thể tìm kiếm các tệp PDF bằng cách thêm filetype:pdf vào truy vấn tìm kiếm của bạn ( ví dụ ).

Tôi muốn nói những điều chính cần làm để tối ưu hóa một PDF để nó dễ dàng được lập chỉ mục sẽ là:

  • Đặt cho nó một tên tệp có ý nghĩa
  • Hoàn thành tất cả các thuộc tính siêu dữ liệu của tài liệu (tiêu đề, tác giả, từ khóa, v.v.)
  • Đảm bảo PDF của bạn bao gồm văn bản thực tế và hình ảnh không được quét
  • Đảm bảo bạn có nội dung tốt với việc sử dụng đúng tiêu đề, giống như bạn làm tài liệu HTML

Để biết thêm mẹo hãy đọc Tối ưu hóa PDF Tài liệMười một mẹo để tối ưu hóa tệp PDF cho công cụ tìm kiếm

17
Dan Diplo

Tôi không chắc chắn về các công cụ tìm kiếm khác, nhưng theo như Google có liên quan, quy tắc chính sẽ là không loại trừ chúng thông qua robot.txt

Đây là thông báo ban đầu của họ về hỗ trợ tìm kiếm PDF.

1
intlect

Giống như làm cho một trang web tuân thủ không thể làm tổn thương đến SEO của bạn, làm cho PDF có thể truy cập của bạn không thể bị tổn thương. Trình kiểm tra khả năng truy cập tích hợp của Adobe không hoàn hảo, nhưng ít nhất việc sửa các khu vực đó sẽ giúp bạn bắt đầu.

Tôi có thể dành 5 phút cho mỗi 4 hoặc 5, chủ yếu là các văn bản PDF chúng tôi đưa lên mạng. Thời gian tăng đều tùy thuộc vào số lượng trang và mức độ phức tạp của các trang đó.

Giả sử bạn có Adobe Acrobat Pro để thực hiện chỉnh sửa của mình:

  • Chạy Kiểm tra khả năng truy cập đầy đủ. (Kiểm tra nhanh là khá vô nghĩa với tôi)
  • Cập nhật thông tin meta trong thuộc tính tài liệu (từ khóa, chủ đề, ngôn ngữ, v.v.)
  • Đảm bảo các thẻ được thêm vào
  • Đảm bảo văn bản được gắn thẻ dưới dạng văn bản, hình ảnh dưới dạng hình ảnh, công cụ nền làm nền
  • Tag vô dụng fluff (như trang trí hoặc thiết kế) làm nền
  • Thêm văn bản thay thế tốt cho hình ảnh
  • Đảm bảo theo thứ tự đọc, văn bản được sắp xếp đúng
  • Trong thanh công cụ nội dung, đảm bảo văn bản không bị trùng lặp hoặc bị dịch sai
  • Sử dụng máy quét OCR trên các trang được quét

Để chỉnh sửa nâng cao hơn như bảng và lỗi Adobe thực sự kỳ quặc, chúng tôi sử dụng một plugin có tên CommonLook. CommonLook hoàn thành công việc, nhưng tôi ghét nó nhiều như tôi ghét các công cụ Adobe.

Làm quen với công cụ Touch Up Reading Order, thanh công cụ Tags, thanh công cụ đọc thứ tự và thanh công cụ Content. Công việc của tôi yêu cầu các tài liệu tuân thủ đầy đủ trước khi ra ngoài web, nhưng bất kỳ ai cũng có thể được hưởng lợi từ một số thuộc tính tài liệu và gắn thẻ đơn giản.

1
MrChrister