Quy tắc làm việc cơ bản của Robots Exclusion Standard (tạo tập tin robot.txt)

Năm 1994, Robots Exclusion Standard được phát triển nhằm cung cấp thêm tính năng hỗ trợ cho các nhà quản lý web có thể ngăn chặn các công cụ tìm kiếm truy cập vào website của bạn lấy đi các thông tin bảo mật. Bằng cách này, bạn có thể đảm bảo được những hình ảnh, thông tin hay video bảo mật bạn lưu trữ trên website không thể tìm thấy trên các công cụ tìm kiếm.

Tao-tao-tin-robot-txt

Tạo tập tin robot.txt chặn các công cụ tìm kiếm

Những quy tắc làm việc của Robots Exclusion Standard

Sẽ không mất quá nhiều thời gian để bạn có thể tìm hiểu những thông tin cơ bản về Robots Exclusion Standard. Đối với Robots Exclusion Standard bạn chỉ cần nắm những quy tắc như sau:

Một tập tin robots.txt bạn có thể tạo được chỉ trong vài giây thông qua công cụ được cài đặt sẵn trong máy là Notepad. Tất cả những gì bạn cần phải làm là mở file Note lên soạn thảo văn bản lưu chúng lại với tên file là robot.txt và tải chúng lên thư mục gốc của tên miền thông qua đường dẫn http://www.yourdomain.com/robots.txt. Lưu ý: bạn cần phải tạo các tập tin robots.txt riêng biệt cho mỗi tên miền phụ và các giao thức khác như https://www.yourdomain.com.

Xem thêm: Có nên mua Text link, chèn link vào phần bình luận và chữ ký

Hai chỉ thị chính của Standard

User-agent – Xác định các công cụ tìm kiếm mà quy tắc được áp dụng như Google, Bing, yahoo…

Disallow – Chặn tất cả các công cụ tìm kiếm vào thu thập thông tin và lập chỉ mục một tập tin, trang hoặc thư mục.

Các lệnh chặn các con bọ vào lấy thông tin website như sau:

Nếu bạn muốn chặn toàn bộ mọi thông tin trong một website bạn sẽ dùng mã lệnh

“User-agent: *

Disallow: /

Ở đây dấu (*) và dấu (/) được xem là ký tự đại diện cho tất các các công cụ tìm kiếm. khi bạn sử dụng lệnh nạy đồng nghĩa với việc bạn đã chặn tất cả các con bộ của các công cụ tìm kiếm vào websitre của bạn.

Và ngược lại, nếu bạn muốn hủy chặn việc truy cập tìm kiếm thông tin từ website bạn sử dụng lệnh như sau:

“User-agent: *

Disallow:

Với việc nhập nội dung như vậy là bạn đã cho phép tất cả các con bọ của tất cả các công cụ tìm kiếm vào website của bạn lấy hết thông tin.

Còn nếu bạn muốn chặn riêng lẻ từng box hay từng page con bạn cũng chỉ cần gõ những lệnh tương tự như trên. Chẳng hạng bạn muốn chặn bot thu thập vào lấy thông tin trong một page con có đường dẫn là http:yourdomain /a-b-c/x-y-z thì bạn chỉ việc copy đường dẫn và dán vào lệnh như bênn dưới.

“User-agent: *

 Disallow: / http:yourdomain /a-b-c/x-y-z

Sau đâu sẽ là những mẫu tập tin (file) robots.txt được nhiều webmater sử dụng nhằm ngăn cản con bọ của các công cụ tìm kiếm vào thu thập thông tin. Bạn cũng có thể sử dụng nó cho website tùy thuộc vào nhu cầu của bạn.

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /search?q=*

Disallow: *?replytocom

Disallow: */attachment/*

Disallow: /images/

Disallow: /forum/

Sitemap: http://yourdomain/sitemap_index.xml

Chỉ đơn giản vậy thôi. Chúc bạn thành công!

Mọi thắc mắc về bài viết bạn có thể để lại ý kiến bên dưới , đào tạo SEO giá rẻ sẽ nhanh chóng trả lời giúp bạn.

Nếu có nhu cầu tìm kiếm một khóa hoc SEO chuyên nghiệp xin liên hệ:

APPNET – Digital Marketing – Tinh Hoa Tiếp Thị Số
Cơ sở 1: Trung tâm Kỹ thuật Điện toán ĐH Bách Khoa TPHCM
Cơ sở 2: 37 Hoa Sứ, P7, Phú Nhuận, TPHCM
Điện thoại: (08) 62 70 30 30
marketing@appnet.edu.vn

Quy tắc làm việc cơ bản của Robots Exclusion Standard (tạo tập tin robot.txt) 4.00/5 (80.00%) 1 vote

Leave a Reply

Be the First to Comment!

Notify of
avatar
wpDiscuz