1. Robots.txt là gì?
Robots.txt là tệp văn bản chỉ dẫn cho công cụ tìm kiếm của trình duyệt biết những trang nào nên được thu thập dữ liệu và trang nào cần tránh. Mục đích chính khi sử dụng tệp này là để ngăn cản các con bot gửi quá nhiều yêu cầu cùng thời điểm tới website. Nhờ đó mà máy chủ của bạn sẽ tiết kiệm tài nguyên và duy trì được hiệu suất ổn định.
Cấu trúc chính xác của tệp Robots.txt sẽ gồm bốn cú pháp. Trong đó, các cú pháp sẽ đảm nhiệm một chức vụ riêng:
- User-agent: Xác định bot nào sẽ bị ảnh hưởng bởi các quy tắc. Mỗi bot sẽ được đặt một tên riêng.
- Disallow: Ngăn bot tìm kiếm truy cập vào một URL hoặc mộ thư mục cụ thể.
- Allow: Cho phép con bot truy cập vào một URL hoặc thư mục cụ thể.
- Sitemap: Chỉ ra vị trí tệp sitemap.xml, hỗ trợ công cụ tìm kiếm thấy bản dồ cấu trúc trang web.
2. Vai trò quan trọng của Robots.txt trong SEO
Robots.txt nằm trong các hạng mục quan trọng cần tối ưu của Technical SEO, bởi tệp này nắm giữ những vai trò chính yếu sau:
- Tệp Robots.txt giúp tối ưu Crawl Budget: Crawl Budget phụ thuộc vào kích thước trang web, hiệu suất trang và số lượng bacnklinks. Sử dụng Robots.txt sẽ giúp con bot của Google tập trung ngân sách thu thập dữ liệu vào các trang quan trọng.
- Chặn các trang trùng lặp và không được Public: Các trang trùng lặp và không được public có thể bao gồm trang đăng nhập, kết quả tìm kiếm nội bộ. Sử dụng Robots.txt cho những trang này sẽ giúp giảm khối lượng dữ liệu được thu thập, đồng thời tối ưu hóa tài nguyên của website.
- Ẩn các tài nguyên trên trang: Tệp Robots.txt cho phép loại trừ các tài nguyên như tệp PDF, video hoặc hình ảnh khỏi quá trình thu thập dữ liệu. Việc này giúp giữ các tài nguyên nội bộ hoặc giúp trình duyệt tập trung vào các nội dung quan trọng hơn.
3. Cách tạo file Robots.txt cho website WordPress chuẩn SEO
3.1. Sử dụng Plugin hỗ trợ tạo file Robots.txt
Để tạo file Robots.txt cho WordPress, bạn có thể sử dụng các plugin hỗ trợ. Dưới đây, chúng tôi sẽ hướng dẫn cụ thể với từng plugin trong WordPress:
- Sử dụng Plugin Rank Math
Bước 1: Cài đặt và kích hoạt plugin Rank Math từ thư viện plugin WordPress.
Bước 2: Vào Rank Math >> Chọn General Settings >> Chọn tiếp mục Edit Robots.txt.
Bước 3: Tùy chỉnh nội dung tệp Robots.txt trực tiếp trong giao diện của plugin.
Bước 4: Nhấn Save Changes để lưu lại tệp Robots.txt trong WordPress.
- Sử dụng Plugin Yoast SEO
Bước 1: Cài đặt và kích hoặt plugin Yoast SEO trong WordPress.
Bước 2: Truy cập Yoast SEO >> Chọn Công cụ >> Chọn Trình sửa tệp tin.
Bước 3: Nhấn Tạo file robots.txt và chỉnh sửa nội dung trong file Robots.txt. Sau đó nhấn Lưu thay đổi vào robots.txt để hoàn thiện quá trình tạo lập.
- Sử dụng Plugin All in One SEO
Bước 1: Cài đặt và kích hoạt plugin All in One SEO (AIOSEO).
Bước 2: Vào All in One SEO >> Vào Robots.txt Editor >> Nhấn Enable Custom Robots.txt nếu bạn muốn tạo file tùy chỉnh.
Bước 4: Nhập nội dung vào trường thông tin nếu chọn Enable Custom Robots.txt.
- User Agent: Nếu bạn muốn chỉ định trình thu thập dữ liệu của Google, hãy nhập Googlebot. Nếu muốn tạo quy tắc áp dụng chung cho tất cả, hãy nhập (*).
- Directive: Bạn có bốn loại chỉ thị để lựa chọn. Hai loại thông thường là Allow (Cho phép), Block (Chặn). Chỉ thị thứ ba Clean-param (Xóa tham số URL) dùng để chặn những URL có chứa tham số đặc biệt. Chỉ thị cuối Crawl-delay (Độ trễ thu thập dữ liệu) yêu cầu thu thập dữ liệu với tần suất nhất định.
- Value: Nhập đường dẫn thư mục hoặc tên tệp vào trường value.
Bước 5: Nhấn Save Changes để lưu lại.
Lưu ý: Bạn không bắt buộc phải chọn Enable Custom Robots.txt, vì WordPress sẽ mặc định tạo file Robots.txt cho bạn.
3.2. Tạo file Robots.txt bằng cách chỉnh sửa trực tiếp trên hosting
Nếu bạn không muốn sử dụng plugin để thiết lập tệp Robots.txt, bạn hãy tham khảo cách tạo thông qua chỉnh sửa trực tiếp trên hosting dưới đây:
- Chỉnh sửa trực tiếp trên Cpanel
Bước 1: Đăng nhập vào Cpanel của hosting.
Bước 2: Tìm và truy cập vào File Manager.
Bước 3: Vào thu mục public_html để kiểm tra xem file robots.txt đã tồn tại chưa. Nếu chưa, nhấn +File để tạo file mới và đặt tên là robots.txt.
Bước 5: Nhập các chỉ thị và nhấn Save Changes để lưu lại tệp.
- Tạo file thủ công và upload trên FTP Client
Bước 1: Tạo tệp Robots.txt bằng Notepad trên máy tính của bạn, trong đó phải chứa nội dung hoàn chỉnh các chỉ thị.
Bước 2: Mở FTP >> Chọn thư mục public_html >> Chọn file Robots.txt >> Chọn Upload để trình thu thập dữ liệu của Google tự đồng tìm thấy và tuân theo các chỉ thị đã thiết lập.
3.3. Tạo file Robots.txt qua công cụ trực tuyến
Để đơn giản hóa quá trình tạo thủ công file Robots.txt cho WordPress, chúng tôi gợi ý cho bạn một số công cụ trực tuyến đáng tin cậy sau:
- Công cụ txt Generator của SE Ranking
Bước 1: Nhập thông tin cần thiết, bao gồm:
- Action: Hành động chặn hoặc cho phép.
- Path: Thư mục hoặc trang bạn cho phép hoặc chặn truy cập.
- Your sitemap file: URL sitemap của bạn.
Bước 2: Nhấn Generate Robots.txt để tạo file.
Bước 3: Tải xuống file Robots.txt và upload thư mục gốc của website WordPress thông qua các hosting Cpanel hoặc FTP theo cách trên.
- Công cụ Small SEO Tools
Bước 1: Nhập các trường thông tin quan trọng, bao gồm các Search Robots (Tương tụ như các Use Agents), Craw-Delay (không bắt buộc), Restricted Directories (các trang không cho phép truy cập).
Bước 2: Nhấn Create Robots.txt để tạo file.
Bước 3: Tải file về và upload thông qua các hosting web như cách hướng dẫn trên.
3.4. Tham khảo file Robots.txt của đối thủ
Cách làm này đơn giản là bạn tham kiểm tra file Robots.txt của đối thủ. Chi tiết các bước như sau:
Bước 1: Nhập URL trên thanh tìm kiếm. Ví dụ: https://competitorwebsite.com/robots.txt để xem cách đối thủ thiết lập file Robots.txt.
Bước 2: Bạn cần xem cách họ chặn hoặc cho phép công cụ tìm kiếm truy cập các thư mục cụ thể, cấu hình Sitemap để áp dụng phù hợp cho website của bạn.
4. Khắc phục lỗi Robots.txt thường gặp
4.1. Không chứa tệp Robots.txt trong thư mục gốc
Các trình thu thập dữ liệu không thể phát hiện tệp Robots.txt nếu nó nằm không trong thư mục gốc của trang web. Để khắc phục lỗi này, bạn cần di chuyển tệp Robots.txt vào thư mục gốc của trang web. Hơn nữa, trong URL của tệp Robots.txt chỉ nên có một dấu gạch chéo (/) giữa tên miền chính và tên tệp robots.txt.
Ví dụ: https://www.example.com/robots.txt
4.2. Sử dụng lệnh Noindex trong Robots.txt
Thẻ Noindex từng được sử dụng với tệp robots.txt để ngăn lập chỉ mục các trang không mong muốn. Ở thời điểm hiện tại, Google đã loại bỏ quy tắc này, vì tệp Robots.txt được thiết kể để kiém soát quyền thu thập dữ liệu (crawling), không phải để kiểm soát việc lập chỉ mục (indexing).
Nếu tệp Robots.txt của bạn vẫn được gắn thẻ Noindex, chúng tôi khuyến nghị bạn nên thay bằng các thẻ Meta Noindex trong phần <head> của trang HTML để kiểm soát việc lập chỉ mục.
4.3. Chặn JavaScript và CSS
Khi thu thập dữ liệu, Google bot cần phân tíhc và hiểu toàn bộ nội dung, bao gồm cả cấu trúc và cách hiển thị của trang web. Điều nay bao gồm việc tải các tệp CSS và JavaScript.
Để khắc phục lỗi này, bạn cần mở tệp robots.txt và kiểm tra xem có bất kỳ dòng lệnh nào chặn các thư mục CSS hoặc JavaScript không. Sau đó xóa lệnh này đi để cho phép trình thu thập dữ liệu được truy cập toàn bộ trang.
4.4. Không chặn truy cập đến website hoặc trang chưa hoàn thành
Với các phiên bản chưa hoàn thiện của website, bạn cần sử dụng tệp Robots.txt để chặn nội dung bị tìm thấy trước khi sẵn sàng xuất bản. Giải pháp bạn cần tham khảo là sử dụng meta robots noindex cho từng trang chưa hoàn thiện.
5. Cách kiểm tra tệp Robots.txt trên website WordPress
5.1. Truy cập tệp Robots.txt trực tiếp
Bước 1: Mở trình duyệt web và nhập đường dẫn URL của tệp Robots.txt vào thanh địa chỉ theo cú pháp: https://www.yourwebsite.com/robots.txt. Thay yourwebsite.com bằng tên miền thực tế của website bạn.
Bước 2: Enter và xem nội dung tệp.
5.2. Sử dụng Google Search Console kiểm tra tệp Robots.txt
Bước 1: Truy cập vào công cụ Google Search Console và chọn website cần kiểm tra.
Bước 2: Ở thanh menu bên trái, chọn Cài đặt >> Cuộn xuống phần Thu thập thông tin và chọn robots.txt để xem các tệp đã tạo.
Bạn có thể bấm vào từng tệp robots.txt để xem những chỉ thị đã tạo.
6. Kết luận
Qua bài viết trên, chúng tôi mong bạn đã nắm được thông tin cơ bản về cách Robots.txt là gì. Kèm theo đó là cách tạo lập, cũng như cách khắc phục các lỗi thường gặp với tệp Robots.txt. Mong rằng những nội dung kiến thức trên sẽ giúp ích cho công việc làm SEO của bạn.
Nếu bạn đang có nhu cầu về dịch vụ SEO hãy liên hệ ngay với MIC Creative để được tư vấn giải pháp tốt nhất. Chúng tôi tự tin là đối tác Marketing nắm bắt thị trường, thấu hiểu khách hàng, thành thạo công cụ và luôn luôn sáng tạo.
MIC CREATIVE – Your Success, Our Future
- Hotline: 024.8881.6868
- Email: contact@miccreative.vn
- Fanpage: MIC Creative – Truyền thông và Quảng cáo
- Địa chỉ: Tầng 5, 357-359 Nguyễn Khang, Yên Hòa, Cầu Giấy, Hà Nội