it-swarm-vi.com

Cấu hình xấu của tiện ích mở rộng Externallogin gây ra sự cố lập chỉ mục công cụ tìm kiếm

Tổng quan ngắn gọn

Trang web Joomla của tôi có một vấn đề kỳ lạ với robot công cụ tìm kiếm. Tôi đã kiểm tra TẤT CẢ những điều tiêu chuẩn mà quản trị viên web có thể làm để đảm bảo rằng đó không phải là vấn đề nhỏ với tệp robot.txt hoặc các tham số tối ưu hóa công cụ tìm kiếm khác. Những người làm CNTT ở trường đại học của tôi không biết chuyện gì đang xảy ra và những người đã cố gắng giúp đỡ trên các diễn đàn của Joomla cũng vậy.

Tôi cũng đã hỏi câu hỏi này trên Pro Webmasters stackexchange. Nhưng tôi bắt đầu nghi ngờ rằng có thể có một số thiết lập ẩn ở đâu đó trong Joomla gây ra vấn đề. Vì vậy, tôi đang hỏi câu hỏi này ở đây để xem nếu có một thiết lập tôi đang thiếu ở đâu đó.

Vấn đề thực tế bắt đầu từ đây.

Trang web được đề cập là: http://gsa.ece.umd.edu/ . Nó chạy bằng Joomla 2.5.x (mới nhất). Trang web đã hoạt động từ khoảng giữa tháng 12 năm 2013 và tôi nhận thấy ngay từ đầu rằng trang web không được lập chỉ mục chính xác trên Google. Cụ thể tôi thấy thông báo sau khi tôi tìm kiếm trang web trên Google:

ECEGSA - University of Maryland

A description for this result is not available because of this site's robots.txt – learn more.

Điều này là vào tháng 12 cho đến khoảng tháng 3, tôi đã sử dụng tệp Joomla robots.txt mặc định đó là:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

Không có gì nên ngăn Google tìm kiếm trang web của tôi. Và khó hiểu hơn nữa, khi tôi truy cập các công cụ Google Webmaster, trong tab "URL bị chặn", khi tôi thử nhiều liên kết trên trang web, tất cả chúng đều hiển thị dưới dạng "Được phép". Sau đó tôi đã thử thêm một sơ đồ trang web, đặt nó vào tệp robot.txt. Điều đó không giúp được gì. Cùng một kết quả tìm kiếm chính xác, cùng một hành vi trong tab "URL bị chặn" trên các công cụ quản trị trang web. Ngoài ra, tab "sơ đồ trang web" cho biết một số liên kết có lỗi "URL bị cướp". Tôi đã thử các liên kết chính xác đó trong "URL bị chặn" và chúng được cho phép!

Sau đó tôi đã cố gắng xóa tệp robots.txt. Không sử dụng. Vấn đề chính xác như nhau.

Dưới đây là một ảnh chụp màn hình ví dụ từ các công cụ Webmaster. Index Status for my website showing no crawl errors and no blocked URLs, in direct contradiction to what the sitemap tab says and what the search result says! FRUSTRATION!

Tại thời điểm này tôi không thể đưa ra một lời giải thích hợp lý về lý do tại sao điều này xảy ra và không ai có thể trong bộ phận CNTT ở đây. Không ai trên diễn đàn Joomla dường như có thể hiểu những gì đang xảy ra.

Có ai biết nếu có một xung đột có thể có trong cấu hình trang web Joomla dựa trên những gì được mô tả ở trên không?

5
lite-whowantstoknow

CẬP NHẬT: Vấn đề đã được giải quyết bằng cách sửa cấu hình tiện ích mở rộng

Tôi đã sử dụng một plugin có tên externallogin để cho phép người dùng của tôi đăng nhập bằng Đại học CAS (Máy chủ xác thực trung tâm). Hóa ra plugin này đang thêm chuyển hướng 303 vào phản hồi Tiêu đề HTTP cho TẤT CẢ các trang của tôi, do lỗi cấu hình.

Do đó, do đó, không có trang nào trong số các trang của tôi được lập chỉ mục chính xác vì Google (a) sẽ phạt 303 chuyển hướng hoặc có thể vì (b) trang mà 303 chuyển hướng trỏ đến ( https: //login.umd. edu / ) có robot.txt không cho phép tất cả các bot.

[~ # ~] sửa [~ # ~]
[.__.] Để khắc phục sự cố này, nếu bạn gặp phải sự cố này, bạn phải sửa cấu hình của plugin như sau:
[.__.] 1. Trong menu tiện ích mở rộng, trong "Đăng nhập bên ngoài>", đi đến cấu hình máy chủ.
[.__.] 2. Trong tab kết nối, cho "Đăng nhập/Đăng xuất tự động", chọn 'Không'. Lỗi xảy ra nếu bạn chọn 'Có' trong bước 2, vì trong trường hợp này, tiện ích mở rộng sẽ tự động thêm chuyển hướng 303 vào tất cả các trang trên trang web của bạn, để kiểm tra xem người dùng đã đăng nhập vào CAS trong phiên trình duyệt hay chưa và nếu vậy nó sẽ tự động đăng nhập bạn vào trang web. Tính năng này sẽ gây ra vấn đề lập chỉ mục công cụ tìm kiếm.

Lời cảm ơn
[.__.] Cảm ơn @ stephen-Ostermiller ( Câu trả lời có liên quan trên Pro Webmasters ) đã hướng dẫn tôi đi đúng hướng bằng cách khiến tôi nhận ra rằng đó là một chuyển hướng 303 được thêm bởi tiện ích mở rộng.

2
lite-whowantstoknow