GIA SƯ PHÙNG ANH – HÀ NỘI

Luyện thi đại học – Gia sư tại nhà – Gia sư tại Hà Nội

Những điều làm Spider mơ hồ và giết chết các Spider


Những điều sau đây sẽ làm cho các spider mơ hồ về website của bạn:

  • URL với 2 tham số động: URL động sẽ làm người đọc khó nhớ và làm cho các spider miễn cưỡng hoặc không crawl.
  • Page có hơn 100 link duy nhất đến các trang trên site.
  • Page được click 3 lần mới đến được từ trang chủ.
  • Page cần các session id hoặc cookies để được điều hướng mới đến được.
  • Page bị chia cắt bởi các frame sẽ cản trở việc crawling và làm lộn xộn đối với viêc xếp hạng.

Những điều sau đây sẽ giết chết các spider:

  • Pages được điều hướng đến bởi các submit button.
  • Pages hiển thị khi được xổ xuống từ các drop box (spider không thể bypass được các javascript)
  • Các tài liệu được tìm thấy trong search box (Spider vẫn chưa đủ thông minh để nhận biết)
  • Tài liệu bị khóa có chủ đích (do sử dụng các robots.txt)
  • Pages cần phải login.
  • Pages cần phải redirect mới thấy được thông tin.
  • Pages load chậm.

Để chắc chắn rằng trang của bạn luôn được các spider crawl hoàn toàn thì cần cung cấp các direct link HTML đến các trang mà cần được crawl.

 

 

One response to “Những điều làm Spider mơ hồ và giết chết các Spider

Gửi phản hồi

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Log Out / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Log Out / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Log Out / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Log Out / Thay đổi )

Connecting to %s

%d bloggers like this: