Back to Question Center
0

Semalt: Làm thế nào để Chặn Dracyar Robots.txt

1 answers:

Tệp Robots.txt là một tệp văn bản điển hình chứa các hướng dẫn về cách trình thu thập dữ liệu web hoặc chương trình nên thu thập dữ liệu trang web. Ứng dụng của họ là hiển nhiên trong công cụ tìm kiếm chương trình được phổ biến trong nhiều trang web tối ưu hóa. Là một phần của Giao thức Loại trừ Rôbôt (REP), tệp robots.txt tạo thành khía cạnh thiết yếu trong việc lập chỉ mục nội dung trang web cũng như cho phép máy chủ xác thực các yêu cầu của người dùng

Julia Vashneva, Quản lý thành công Khách hàng cao cấp Semalt , giải thích rằng liên kết là một khía cạnh của Công cụ Tìm kiếm Tối ưu hóa (SEO), bao gồm việc thu hút lưu lượng truy cập từ các tên miền khác trong phạm vi của bạn. Đối với liên kết "theo dõi" để chuyển liên kết nước ép, cần phải bao gồm tệp robots.txt trên không gian lưu trữ trang web của bạn để hoạt động như một hướng dẫn về cách máy chủ tương tác với trang web của bạn. Từ kho lưu trữ này, các hướng dẫn có mặt bằng cách cho phép hoặc không cho phép một số đại lý người dùng cụ thể hoạt động như thế nào .

Định dạng cơ bản của tệp robots.txt

Tệp robots.txt chứa hai dòng chính:

User-agent: [user-agent name]

Không cho phép: [URL chuỗi không được thu thập thông tin]

Một tệp robots.txt hoàn chỉnh phải chứa hai dòng này. Tuy nhiên, một số trong số họ có thể chứa nhiều dòng của người sử dụng đại lý và chỉ thị. Các lệnh này có thể chứa các khía cạnh như cho phép, không cho phép hoặc thu thập thông tin-sự chậm trễ. Thông thường có một ngắt dòng chia tách mỗi tập lệnh. Mỗi lệnh cho phép hoặc không cho phép được tách ra bằng cách ngắt dòng này, đặc biệt đối với robots.txt với nhiều dòng .

Ví dụ

Ví dụ, tệp robots.txt có thể chứa các mã như:

Người sử dụng: darodar

Disallow: / plugin

Disallow: / API

Không cho phép: / _comments

Trong trường hợp này, đây là tệp chặn robots.txt hạn chế trình thu thập dữ liệu web của Darodar truy cập trang web của bạn. Trong cú pháp ở trên, mã chặn các khía cạnh của trang web như plugin, API và phần nhận xét. Từ kiến ​​thức này, có thể đạt được nhiều lợi ích từ việc thực hiện một tập tin văn bản của robot một cách hiệu quả. Robot..txt có thể thực hiện được nhiều chức năng. Ví dụ, họ có thể sẵn sàng để:

1. Cho phép tất cả nội dung trình thu thập thông tin trên trang web. Ví dụ,

User-agent: *

Không cho phép:

Trong trường hợp này, bất kỳ trình thu thập thông tin web nào cũng được yêu cầu truy cập vào trang web .

2. Chặn nội dung web cụ thể từ một thư mục cụ thể. Ví dụ,

Đại lý người dùng: Googlebot

Disallow: / ví dụ-thư mục con /

Cú pháp này chứa tên tác nhân người dùng Googlebot thuộc về Google. Nó hạn chế bot truy cập vào bất kỳ trang web nào trong chuỗi www.ourexample.com/example-subfolder/.

3. Chặn trình thu thập thông tin web cụ thể từ một trang web cụ thể. Ví dụ,

Người sử dụng: Bingbot

Disallow: /example-subfolder/blocked-page.html

Bing bot người dùng-người sử dụng thuộc về trình thu thập thông tin của Bing. Loại tệp robots.txt này hạn chế trình thu thập thông tin web Bing truy cập một trang cụ thể bằng chuỗi www.ourexample.com/example-subfolder/blocked-page.

Thông tin quan trọng

  • Không phải mọi người dùng tệp robts.txt của bạn. Một số người dùng có thể quyết định bỏ qua nó. Hầu hết các trình thu thập thông tin web như Trojans và phần mềm độc hại
  • .
  • Để tệp Robots.txt hiển thị, cần có trong thư mục trang web cấp cao nhất
  • .
  • Các ký tự "robots.txt" phân biệt chữ hoa chữ thường. Do đó, bạn không nên thay đổi chúng dưới bất kỳ hình thức nào bao gồm cả việc viết hoa một số khía cạnh
  • .
  • "/robots.txt" là miền công cộng. Bất kỳ ai cũng có thể tìm thấy thông tin này bằng cách thêm nó vào nội dung của bất kỳ URL nào. Bạn không nên lập chỉ mục các chi tiết hoặc trang cần thiết mà bạn muốn họ giữ bí mật.
November 29, 2017
Semalt: Làm thế nào để Chặn Dracyar Robots.txt
Reply