08/11/2022 | Thương Trần

Khi có một công cụ tìm kiếm thông tin trang web của bạn, điều đầu tiên mà nó tìm kiếm hầu hết là file Robots.txt . File này sẽ nói với công cụ tìm kiếm những gì nên và không nên lập chỉ mục. Tệp robots.txt cho trình thu thập dữ liệu của công cụ tìm kiếm biết có thể truy cập vào những URL nào trên trang web của bạn. Tệp này chủ yếu dùng để ngăn trình thu thập dữ liệu gửi quá nhiều yêu cầu cho trang web & đây không phải là cơ chế để ẩn một trang web khỏi Google. 

Mục đích của file Robots.txt là gì?

Khi có một công cụ tìm kiếm thông tin trang web của bạn, điều đầu tiên mà nó tìm kiếm hầu hết là file Robots.txt . File này sẽ nói với công cụ tìm kiếm những gì nên và không nên lập chỉ mục. Nó cũng có thể chỉ ra vị trí trang web của bạn trên XML Sitemap. Sau đó các công cụ tìm kiếm sẽ gửi “bot”, “robot” hoặc “spider” để thu thập thông tin trang web của bạn theo như hướng dẫn của file Robots.txt (các công cụ tìm kiếm sẽ không gửi nếu file Robot.txt nói với họ là không thể chỉ mục).
Google, Bing hay các công cụ tìm kiếm khác như Excite, Lycos, Alexa… đều có những “bot” riêng của họ. Hầu hết các bot này đều bắt nguồn từ các công cụ tìm kiếm nhưng cũng có một vài trường hợp các trang web sẽ gửi các bot riêng, ví dụ một số trang web sẽ yêu cầu bạn đặt mã để xác minh quyền sở hữu của bạn đối với trang web đó, sau đó họ sẽ gửi bot và để xem bạn có đưa mã của mình vào hay không.

1 luật “bất thành văn” trên internet là Bots của bất kỳ công cụ tìm kiếm nào cũng phải tuân thủ sự điều hướng của File robots.txt. Nếu nội dung trong file chỉ rõ “đừng index tôi” (Disallow) thì lập tức bots sẽ quay đầu và không lập chỉ mục nữa.

Chúng ta có thể tham khảo thêm tại Google.

File robots.txt

File Robots.txt nằm ở đâu?

File Robots.txt thường nằm ở thư mục gốc của bạn, bạn có thể dễ dàng tạo một file trống và đặt tên là Robots.txt, điều này giúp bạn tránh được các lỗi cho trang web đồng thời cho phép tất cả các công cụ tìm kiếm thu thập thông tin về trang web của bạn.

Cách khóa file Robots.txt và các công cụ tìm kiếm

Nếu bạn muốn ngăn chặn các bot từ các công cụ tìm kiếm xâm nhập vào trang web của mình thì có thể sử dụng đoạn code sau:
#Code to not allow any search engines!
User-agent: *
Disallow: /

Bạn cũng có thể ngăn chặn các bot xâm nhập và lấy thông tin của một số file nhất định bằng việc sử dụng đoạn code dưới đây (đoạn code này là để ngăn chặn xâm nhập cho các file cgi-bin, tmp, junk)
# Blocks robots from specific folders / directories
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/

Trong ví dụ trên http://www.yoursitesdomain.com/junk/index.html là đường link bị chặn nhưng http://www.yoursitesdomain.com/index.html và http://www.yoursitesdomain.com/someotherfolder/ sẽ có thể được thu thập thông tin.
Lưu ý: File Robots.txt hoạt động giống như biển báo “không xâm phạm”. Nó cho các bot biết rằng chúng có thể thu thập dữ liệu của trang web hay không chứ nó không thực sự ngăn chặn các bot xâm nhập. Các bot chuẩn và hợp pháp sẽ nghe theo chỉ thị của bạn có cho phép xâm nhập hay không chính vì vậy mà bạn cần sử dụng các công cụ quản trị web cho Bingbot và Googlebot vì họ không nghe theo file Robots.txt, nội dung bên dưới sẽ giúp bạn hiểu rõ hơn.

Cách Sử Dụng File Robots.Txt

Hệ thống Google và Bing

Google và Bing không nghe theo file tiêu chuẩn Robots.txt nên bạn có thể tạo tài khoản quản trị hệ thống Google và Bing và cấu hình các tên miền của mình để có chế độ thu thập dữ liệu thấp hơn.

Bạn có thể xem thêm tài liệu của Google về file Robots.txt https://support.google.com/webmasters/answer/6062608?hl=en&visit_id=1-636252740320275113-2452672579&rd=1, ngoài ra bạn cũng phải sử dụng các công cụ webmaster của Google để thiết lập hầu hết các tham số của Googlebot.

Mình có một lời khuyên dành cho các bạn là các bạn nên cấu hình file Robots.txt để giảm tốc độ thu thập thông tin từ trang web của bạn, đồng thời làm giảm tài nguyên mà nó yêu cầu từ hệ thống, điều này làm cho lưu lượng truy cập trang web của bạn tốt hơn.
Nếu bạn muốn giảm lưu lượng truy cập từ các công cụ như Yandex hoặc Baidu, bạn cần phải cấu hình file .htaccess.

File Robots mặc định của wordpress:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Hoặc Bạn có thể tham khảo code này

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Allow: /wp-admin/images/*
Sitemap: https://Blog.via902.net/sitemap.xml

(thay Blog.via902.net bằng domain của Bạn)

Với những thông tin hướng dẫn các bạn cách sử dụng file robots.txt cũng như mục đích cùa file.  Hi vọng bạn sẽ có thể trang bị thêm thật nhiều kiến thức khác mà chúng tôi đã chia sẻ! Chúc các bạn thành công!

Bạn có thể tìm hiểu thêm các bài viết khác về file Robots.txt bằng các bài viết khác ở chuyên mục này: “Hướng dẫn”

Theo dõi thêm những bài khác của ProxyV6 để có thêm kiến thức nhé!

Bài viết khác

Hướng dẫn tải phần mềm live stream Facebook Fpluslive

Hướng dẫn tải phần mềm live stream Facebook Fpluslive

FPlusLive là một trong những phần mềm live stream Facebook tốt và mang lại lợi ích kinh tế cao nhất trên thị trường. Đặc biệt...
Xem thêm
Hướng dẫn tải phần mềm Telegram TelePlus tiếng Việt trên máy tính

Hướng dẫn tải phần mềm Telegram TelePlus tiếng Việt trên máy tính

Bạn đang tìm kiếm một phần mềm Telegram với giao diện tiếng Việt và nhiều tính năng bổ sung hữu ích? TelePlus chính là giải...
Xem thêm
Hướng dẫn download phần mềm SEO Facebook miễn phí Flus

Hướng dẫn download phần mềm SEO Facebook miễn phí Flus

Trong thời đại số hóa, phần mềm SEO Facebook Flus ra đời như một giải pháp hiệu quả, hỗ trợ quản lý nội dung, tối...
Xem thêm
Hướng dẫn cài đặt phần mềm Facebook Marketing Flus

Hướng dẫn cài đặt phần mềm Facebook Marketing Flus

Trong thời đại số hóa, phần mềm Facebook Marketing Flus là giải pháp lý tưởng cho những ai muốn tự động hóa và nâng cao...
Xem thêm
Cách cài đặt tiện ích Get Cookie cho máy tính

Cách cài đặt tiện ích Get Cookie cho máy tính

Get Cookie là một tiện ích mở rộng trên trình duyệt, giúp người dùng dễ dàng xem, quản lý và xóa cookie – các tệp...
Xem thêm

Buy Private Socks5 & HTTP proxies

Proxies for many purpose such as adsvertising, marketing, data crawl, ...

BUY PROXY V6 V4

Lựa chọn của người biên tập

Croxyproxy Instagram là gì? Cách sử dụng Croxy Proxy Instagram

Croxyproxy Instagram là gì? Cách sử dụng Croxy Proxy Instagram

Nội dungMục đích của file Robots.txt là gì?File Robots.txt nằm ở đâu?Cách khóa file Robots.txt và các…
Xem thêm