Trong quá trình điều hành, quản lý website, khi bạn muốn trang của bạn xuất hiện trên trang kết quả tìm kiếm, bạn cần để “bots” truy cập vào những trang quan trọng trên website. File robots.txt dùng để quản lý truy cập của bots này tới trang bạn mong muốn. Và việc tối ưu hóa robots.txt tốt hay không sẽ ảnh hưởng rất nhiều đến việc truy cập của bots. Trong giới hạn bài viết này, chúng ta sẽ đi tìm hiểu tất tần tật về cách tạo file robots.txt.
- Làm Thế Nào Để Tạo File robots.txt Cho WordPress
- Mách Bạn Cách SEO Blogger Chiếm Đỉnh Google
- Cách viết content chuẩn SEO hiệu quả nhất
File robots.txt là gì ?
File robots.txt là một tệp văn bản thuần túy theo tiêu chuẩn lọai trừ robot, gồm nhiều quy tắc, mỗi quy tắc chặn (cho phép) một trình thu thập dữ liệu nhất định truy cập vào một đường dẫn tệp được chỉ định trong trang web đó.
Hiệu quả của file robots.txt là gì ?
File robots.txt tạo ra một bộ chỉ dẫn cho search engine bots. Thực tế cho thấy, trình tìm kiếm sẽ quét site của bạn kể cả khi bạn không cài robots.txt nhưng hiệu quả mang lại sẽ không cao, làm ảnh hưởng đến hiệu năng và tốc độ trải nghiệm người dùng. Vì thế cần tạo file robots.txt một cách tối ưu nhất sẽ là yếu tố quan trọng mang ý nghĩa xếp hạng cho websitte của mình.
Nguyên tắc cơ bản tạo file robots.txt
Thấy tầm quan trọng của file robots.txt, người dùng cần tạo file để làm tăng hiệu quả trang web của mình. Về cơ bản, tạo file robots.txt cần đảm bảo các nguyên tắc sau:
- Định dạng vị trí
- Đặt tên tệp là robots.txt
- Trang web chỉ có một tệp robots.txt
- File robots.txt phải nằm ở thư mục gốc của máy chủ trang web tương ứng, không được đặt tên trong thư mục con. Nếu không chắc chắn về cách truy cập thư mục gốc của web thì liên hệ với nhà cung cấp dịch vụ lưu trữ web.
- File robots.txt có thể áp dụng với miền con
- Nhận xét là bất kỳ nội dung nào sau dấu thăng (#)
Để soạn thảo file robots.txt, bạn có thể sử dụng hầu hết trình soạn thảo văn bản để tạo. Khuyến cáo không nên sử dụng trình xử lý văn bản vì nó thường lưu file dưới định dạng độc quyền và có thể thêm ký tự không mong muốn.
- Cú pháp
- Robots.txt là file văn bản mã hóa UTF-8 (gồm cả ASCII), không được sử dụng bộ ký tự khác
- Mỗi file robot.txt gồm một hoặc nhiều nhóm, mỗi nhóm nhiều quy tắc hoặc chỉ thị, mỗi chỉ thị trên một dòng
- Một nhóm cung cấp các thông tin sau:
+ Đối tượng (người dùng) mà nhóm áp dụng
+ Thư mục hoặc tệp mà người dùng có thể truy cập
+ Thư mục hoặc tệp mà người dùng không thể truy cập
+ Nhóm được xử lý từ trên xuống dưới và một tác nhân người dùng chỉ được khớp với một tập hợp quy tắc, là quy tắc đầu tiên, cụ thể nhất, khớp với tác nhân người dùng nhất định.
+ Giả định mặc định là tác nhân người dùng có thể thu thập dữ liệu của bất kỳ trang hay thư mục không bị chặn nào bởi quy tắc.
+ Phân biệt chữ hoa, chữ thường
Có thể sử dụng các chỉ thị sau trong file robots.txt
- User-agent (tác nhân người dùng), bắt buộc, gồm một hoặc nhiều tác nhân người dùng trong mỗi nhóm. Tên của robot công cụ tìm kiếm (phần mềm thu thập dữ liệu web) được áp dụng quy tắc. Đây là dòng đầu tiên của bất kỳ quy tắc nào. Phần lớn tác nhân người dùng được liệt kê trong cơ sở dữ liệu robot trên web hoặc trong danh sách tác nhân người dùng của Google.
- Disallow (không cho phép), ít nhất một hoặc nhiều mục Disallow hoặc Allow trên mỗi quy tắc thư mục hoặc trang tương ứng với tên miền gốc mà tác nhân người dùng không được thu thập dữ liệu. Nếu là trang đầy đủ thì hiển thị trong trình duyệt; nếu là thư mục phải kết thúc bằng dấu (/), hỗ trộ dấu (*) cho một tiền tố, hậu tố hoặc toàn bộ chuỗi đường dẫn.
- Allow (cho phép), ít nhất một hoặc nhiều mục Disallow hoặc Allow trên mỗi quy tắc. Thư mục hoặc trang tương ứng với tên miền gốc mà tác nhân người dùng đề cập được ơhesp thu thập dữ liệu. Nếu là trang, phải có tên trang đầy đủ như hiển thị trong trình duyệt; nếu là thư mục phải kết thúc bằng dấu (/), hỗ trợ ký tự đại diện (*) cho tiền tố, hậu tốt hoặc toàn bộ chuỗi đường dẫn.
- Sitmap (Sơ đồ trang web), tùy chọn có hoặc không có sở đồ trang web trong mỗi tệp, vị trí của sơ đồ trang web cho trang web này. Phải là URL đủ điều kiện, Google không giả định hoặc kiểm tra các phiên bản thay thế.
Ví dụ: sitemap – http://example.com/sitemap.xml
- Bỏ qua các quy tắc khác
Để tăng khả năng tiếp cận của site lên trình tìm kiếm, việc cần làm là đảm bảo bots của search không bị chặn và đảm bảo quét đúng khu vực cần thiết, đúng các thông tin quan trọng. Qua đó, file robots.txt chuẩn sẽ giúp bots tương tác tốt với site, từ đó thông tin của site sẽ được hiển thị chính xác, đầy đủ hơn, đúng với mục đích, yêu cầu người tạo.
Bạn đang cần giải pháp cho việc tiếp cận site trên trình tìm kiếm thông qua việc tạo file robots.txt hoặc đang cần tư vấn về nó!