Robots.txt là gì? Cách tạo lập và khắc phục lỗi nhanh chóng

Đăng ngày: 27/12/2024

Tệp Robots.txt là bổ trợ quan trọng để quản lý trang web và tối ưu hóa SEO Website. Cụ thể, nó sẽ là đường dẫn cho các con bot tìm kiếm của trình duyệt đi đến chính xác trang web cần thu thập dữ liệu. Vậy bạn đã hiểu hết cách tạo lập và khắc phục lỗi cho tệp này chưa? Hãy cùng MIC Creative tìm hiểu kỹ hơn về chủ đề này trong bài viết dưới đây nhé.

Robots.txt là gì? Cách tạo lập và khắc phục lỗi nhanh chóng

1. Robots.txt là gì?

Robots.txt là tệp văn bản chỉ dẫn cho công cụ tìm kiếm của trình duyệt biết những trang nào nên được thu thập dữ liệu và trang nào cần tránh. Mục đích chính khi sử dụng tệp này là để ngăn cản các con bot gửi quá nhiều yêu cầu cùng thời điểm tới website. Nhờ đó mà máy chủ của bạn sẽ tiết kiệm tài nguyên và duy trì được hiệu suất ổn định.

Cấu trúc chính xác của tệp Robots.txt sẽ gồm bốn cú pháp. Trong đó, các cú pháp sẽ đảm nhiệm một chức vụ riêng:

  • User-agent: Xác định bot nào sẽ bị ảnh hưởng bởi các quy tắc. Mỗi bot sẽ được đặt một tên riêng.
  • Disallow: Ngăn bot tìm kiếm truy cập vào một URL hoặc mộ thư mục cụ thể.
  • Allow: Cho phép con bot truy cập vào một URL hoặc thư mục cụ thể.
  • Sitemap: Chỉ ra vị trí tệp sitemap.xml, hỗ trợ công cụ tìm kiếm thấy bản dồ cấu trúc trang web.
Cú pháp của tệp Robots.txt
Cú pháp của tệp Robots.txt

2. Vai trò quan trọng của Robots.txt trong SEO

Robots.txt nằm trong các hạng mục quan trọng cần tối ưu của Technical SEO, bởi tệp này nắm giữ những vai trò chính yếu sau:

  • Tệp Robots.txt giúp tối ưu Crawl Budget: Crawl Budget phụ thuộc vào kích thước trang web, hiệu suất trang và số lượng bacnklinks. Sử dụng Robots.txt sẽ giúp con bot của Google tập trung ngân sách thu thập dữ liệu vào các trang quan trọng.
  • Chặn các trang trùng lặp và không được Public: Các trang trùng lặp và không được public có thể bao gồm trang đăng nhập, kết quả tìm kiếm nội bộ. Sử dụng Robots.txt cho những trang này sẽ giúp giảm khối lượng dữ liệu được thu thập, đồng thời tối ưu hóa tài nguyên của website.
  • Ẩn các tài nguyên trên trang: Tệp Robots.txt cho phép loại trừ các tài nguyên như tệp PDF, video hoặc hình ảnh khỏi quá trình thu thập dữ liệu. Việc này giúp giữ các tài nguyên nội bộ hoặc giúp trình duyệt tập trung vào các nội dung quan trọng hơn.

3. Cách tạo file Robots.txt cho website WordPress chuẩn SEO

3.1. Sử dụng Plugin hỗ trợ tạo file Robots.txt

Để tạo file Robots.txt cho WordPress, bạn có thể sử dụng các plugin hỗ trợ. Dưới đây, chúng tôi sẽ hướng dẫn cụ thể với từng plugin trong WordPress:

  • Sử dụng Plugin Rank Math

Bước 1: Cài đặt và kích hoạt plugin Rank Math từ thư viện plugin WordPress.

Bước 2: Vào Rank Math >> Chọn General Settings >> Chọn tiếp mục Edit Robots.txt.

Chỉnh sửa tệp Robots.txt trong Rank Math
Chỉnh sửa tệp Robots.txt trong Rank Math

Bước 3: Tùy chỉnh nội dung tệp Robots.txt trực tiếp trong giao diện của plugin.

Nhập nội dung tệp Robots.txt
Nhập nội dung tệp Robots.txt

Bước 4: Nhấn Save Changes để lưu lại tệp Robots.txt trong WordPress.

  • Sử dụng Plugin Yoast SEO

Bước 1: Cài đặt và kích hoặt plugin Yoast SEO trong WordPress.

Bước 2: Truy cập Yoast SEO >> Chọn Công cụ >> Chọn Trình sửa tệp tin.

Tạo tệp Robots.txt bằng plugin Yoast SEO
Tạo tệp Robots.txt bằng plugin Yoast SEO

Bước 3: Nhấn Tạo file robots.txt và chỉnh sửa nội dung trong file Robots.txt. Sau đó nhấn Lưu thay đổi vào robots.txt để hoàn thiện quá trình tạo lập.

Nhập các cú pháp chỉ thị và lưu thay đổi vào tệp Robots.txt
Nhập các cú pháp chỉ thị và lưu thay đổi vào tệp Robots.txt
  • Sử dụng Plugin All in One SEO

Bước 1: Cài đặt và kích hoạt plugin All in One SEO (AIOSEO).

Bước 2: Vào All in One SEO >> Vào Robots.txt Editor >> Nhấn Enable Custom Robots.txt nếu bạn muốn tạo file tùy chỉnh.

Tạo file tùy chỉnh chỉ thị cho tệp Robots.txt
Tạo file tùy chỉnh chỉ thị cho tệp Robots.txt

Bước 4: Nhập nội dung vào trường thông tin nếu chọn Enable Custom Robots.txt.

  • User Agent: Nếu bạn muốn chỉ định trình thu thập dữ liệu của Google, hãy nhập Googlebot. Nếu muốn tạo quy tắc áp dụng chung cho tất cả, hãy nhập (*).
  • Directive: Bạn có bốn loại chỉ thị để lựa chọn. Hai loại thông thường là Allow (Cho phép), Block (Chặn). Chỉ thị thứ ba Clean-param (Xóa tham số URL) dùng để chặn những URL có chứa tham số đặc biệt. Chỉ thị cuối Crawl-delay (Độ trễ thu thập dữ liệu) yêu cầu thu thập dữ liệu với tần suất nhất định.
  • Value: Nhập đường dẫn thư mục hoặc tên tệp vào trường value.
Nhập các nội dung chỉ thị vào các cột
Nhập các nội dung chỉ thị vào các cột

Bước 5: Nhấn Save Changes để lưu lại.

Lưu ý: Bạn không bắt buộc phải chọn Enable Custom Robots.txt, vì WordPress sẽ mặc định tạo file Robots.txt cho bạn.

3.2. Tạo file Robots.txt bằng cách chỉnh sửa trực tiếp trên hosting

Nếu bạn không muốn sử dụng plugin để thiết lập tệp Robots.txt, bạn hãy tham khảo cách tạo thông qua chỉnh sửa trực tiếp trên hosting dưới đây:

  • Chỉnh sửa trực tiếp trên Cpanel

Bước 1: Đăng nhập vào Cpanel của hosting.

Bước 2: Tìm và truy cập vào File Manager.

Bước 3: Vào thu mục public_html để kiểm tra xem file robots.txt đã tồn tại chưa. Nếu chưa, nhấn +File để tạo file mới và đặt tên là robots.txt.

Tạo file tên Robots.txt
Tạo file tên Robots.txt

Bước 5: Nhập các chỉ thị và nhấn Save Changes để lưu lại tệp.

Điền nội dung chỉ thị vào tệp và lưu lại
Điền nội dung chỉ thị vào tệp và lưu lại
  • Tạo file thủ công và upload trên FTP Client

Bước 1: Tạo tệp Robots.txt bằng Notepad trên máy tính của bạn, trong đó phải chứa nội dung hoàn chỉnh các chỉ thị.

Bước 2: Mở FTP >> Chọn thư mục public_html >> Chọn file Robots.txt >> Chọn Upload để trình thu thập dữ liệu của Google tự đồng tìm thấy và tuân theo các chỉ thị đã thiết lập.

Đăng tải trực tiếp lên FTP Client
Đăng tải trực tiếp lên FTP Client

3.3. Tạo file Robots.txt qua công cụ trực tuyến

Để đơn giản hóa quá trình tạo thủ công file Robots.txt cho WordPress, chúng tôi gợi ý cho bạn một số công cụ trực tuyến đáng tin cậy sau:

Bước 1: Nhập thông tin cần thiết, bao gồm:

  • Action: Hành động chặn hoặc cho phép.
  • Path: Thư mục hoặc trang bạn cho phép hoặc chặn truy cập.
  • Your sitemap file: URL sitemap của bạn.

Bước 2: Nhấn Generate Robots.txt để tạo file.

Bước 3: Tải xuống file Robots.txt và upload thư mục gốc của website WordPress thông qua các hosting Cpanel hoặc FTP theo cách trên.

Tạo file Robots.txt bằng công cụ của SE Ranking
Tạo file Robots.txt bằng công cụ của SE Ranking

Bước 1: Nhập các trường thông tin quan trọng, bao gồm các Search Robots (Tương tụ như các Use Agents), Craw-Delay (không bắt buộc), Restricted Directories (các trang không cho phép truy cập).

Bước 2: Nhấn Create Robots.txt để tạo file.

Bước 3: Tải file về và upload thông qua các hosting web như cách hướng dẫn trên.

Sử dụng công cụ Small SEO Tools để tạo file Robots.txt cho WordPress
Sử dụng công cụ Small SEO Tools để tạo file Robots.txt cho WordPress

3.4. Tham khảo file Robots.txt của đối thủ

Cách làm này đơn giản là bạn tham kiểm tra file Robots.txt của đối thủ. Chi tiết các bước như sau:

Bước 1: Nhập URL trên thanh tìm kiếm. Ví dụ: https://competitorwebsite.com/robots.txt để xem cách đối thủ thiết lập file Robots.txt.

Bước 2: Bạn cần xem cách họ chặn hoặc cho phép công cụ tìm kiếm truy cập các thư mục cụ thể, cấu hình Sitemap để áp dụng phù hợp cho website của bạn.

File Robots.txt của một trang web nước ngoài
File Robots.txt của một trang web nước ngoài

4. Khắc phục lỗi Robots.txt thường gặp

4.1. Không chứa tệp Robots.txt trong thư mục gốc

Các trình thu thập dữ liệu không thể phát hiện tệp Robots.txt nếu nó nằm không trong thư mục gốc của trang web. Để khắc phục lỗi này, bạn cần di chuyển tệp Robots.txt vào thư mục gốc của trang web. Hơn nữa, trong URL của tệp Robots.txt chỉ nên có một dấu gạch chéo (/) giữa tên miền chính và tên tệp robots.txt.

Ví dụ: https://www.example.com/robots.txt

4.2. Sử dụng lệnh Noindex trong Robots.txt

Thẻ Noindex từng được sử dụng với tệp robots.txt để ngăn lập chỉ mục các trang không mong muốn. Ở thời điểm hiện tại, Google đã loại bỏ quy tắc này, vì tệp Robots.txt được thiết kể để kiém soát quyền thu thập dữ liệu (crawling), không phải để kiểm soát việc lập chỉ mục (indexing).

Nếu tệp Robots.txt của bạn vẫn được gắn thẻ Noindex, chúng tôi khuyến nghị bạn nên thay bằng các thẻ Meta Noindex trong phần <head> của trang HTML để kiểm soát việc lập chỉ mục.

4.3. Chặn JavaScript và CSS

Khi thu thập dữ liệu, Google bot cần phân tíhc và hiểu toàn bộ nội dung, bao gồm cả cấu trúc và cách hiển thị của trang web. Điều nay bao gồm việc tải các tệp CSS và JavaScript.

Để khắc phục lỗi này, bạn cần mở tệp robots.txt và kiểm tra xem có bất kỳ dòng lệnh nào chặn các thư mục CSS hoặc JavaScript không. Sau đó xóa lệnh này đi để cho phép trình thu thập dữ liệu được truy cập toàn bộ trang.

4.4. Không chặn truy cập đến website hoặc trang chưa hoàn thành

Với các phiên bản chưa hoàn thiện của website, bạn cần sử dụng tệp Robots.txt để chặn nội dung bị tìm thấy trước khi sẵn sàng xuất bản. Giải pháp bạn cần tham khảo là sử dụng meta robots noindex cho từng trang chưa hoàn thiện.

5. Cách kiểm tra tệp Robots.txt trên website WordPress

5.1. Truy cập tệp Robots.txt trực tiếp

Bước 1: Mở trình duyệt web và nhập đường dẫn URL của tệp Robots.txt vào thanh địa chỉ theo cú pháp: https://www.yourwebsite.com/robots.txt. Thay yourwebsite.com bằng tên miền thực tế của website bạn.

Bước 2: Enter và xem nội dung tệp.

Tệp Robots.txt của trang web
Tệp Robots.txt của trang web

5.2. Sử dụng Google Search Console kiểm tra tệp Robots.txt

Bước 1: Truy cập vào công cụ Google Search Console và chọn website cần kiểm tra.

Bước 2: Ở thanh menu bên trái, chọn Cài đặt >> Cuộn xuống phần Thu thập thông tin và chọn robots.txt để xem các tệp đã tạo.

Bạn có thể bấm vào từng tệp robots.txt để xem những chỉ thị đã tạo.

Kiểm tra chi tiết các tệp Robots.txt đã tạo trên Google Search Console
Kiểm tra chi tiết các tệp Robots.txt đã tạo trên Google Search Console

6. Kết luận

Qua bài viết trên, chúng tôi mong bạn đã nắm được thông tin cơ bản về cách Robots.txt là gì. Kèm theo đó là cách tạo lập, cũng như cách khắc phục các lỗi thường gặp với tệp Robots.txt. Mong rằng những nội dung kiến thức trên sẽ giúp ích cho công việc làm SEO của bạn.

Nếu bạn đang có nhu cầu về dịch vụ SEO hãy liên hệ ngay với MIC Creative để được tư vấn giải pháp tốt nhất. Chúng tôi tự tin là đối tác Marketing nắm bắt thị trường, thấu hiểu khách hàng, thành thạo công cụ và luôn luôn sáng tạo.

MIC CREATIVE – Your Success, Our Future

Đánh giá của bạn post

Chia sẻ bài viết:

Facebook
Twitter
LinkedIn
Email

Mỗi ngày, chúng tôi học hỏi một điều mới về Marketing và chia sẻ cho bạn, để ngày mai của bạn trở nên thành công rực rỡ hơn ngày hôm qua.

Picture of MIC Creative

MIC Creative

Xem hồ sơ
Marketing