Thứ Tư, 7 tháng 8, 2024

Robots.txt là gì? Cấu hình robots.txt chuẩn cho Bogger / Blogspot / WordPress/Website

Robots.txt là gì? Cấu hình robots.txt chuẩn cho Bogger / Blogspot / WordPress/Website

Robots.txt là một tệp văn bản đơn giản có đuôi mở rộng .txt nằm trong thư mục gốc của trang web. Tệp robots.txt cho trình thu thập dữ liệu của công cụ tìm kiếm biết có thể truy cập vào những URL nào trên trang web của bạn. Tệp này chủ yếu dùng để ngăn trình thu thập dữ liệu gửi quá nhiều yêu cầu cho trang web; đây không phải là cơ chế để ẩn một trang web khỏi Google. Để ẩn một trang web khỏi Google, hãy chặn lập chỉ mục bằng noindex.

Tệp robots.txt dùng để làm gì?

Tệp robots.txt chủ yếu dùng để quản lý lưu lượng truy cập của trình thu thập dữ liệu vào trang web của bạn và thường dùng để ẩn tệp khỏi Google, tuỳ thuộc vào loại tệp. Thận trọng: Việc kết hợp nhiều quy tắc thu thập dữ liệu và lập chỉ mục có thể khiến một số quy tắc xung đột với nhau. Hãy tìm hiểu cách kết hợp quy tắc thu thập dữ liệu với quy tắc lập chỉ mục và phân phát.

Lợi ích khi sử dụng robots.txt

Thêm robots.txt là tùy chọn không bắt buộc, thế nhưng nó lại khá cần thiết là vì:

Chặn index các tài nguyên không cần thiết (ví dụ: video, file PDF,...)

Chặn index trang không cần thiết.

Chèn Sitemap

Tối ưu quá trình crawl: Google luôn có một mức thu thập dữ liệu tối đa cho một website trong một khoảng thời gian nhất định. Vì thế, chúng ta cần index trang cần thiết và loại bỏ các trang cần thiết để tiết kiệm cho quá trình crawl này.

File Robots.txt chuẩn SEO nằm ở đâu?

Tệp Robots.txt sẽ luôn nằm ở gốc domain của website. https://www.huongdan.org/robots.txt.

Trong hầu hết các website, bạn có thể truy cập để chỉnh sửa tệp đó trong FTP hoặc bằng cách truy cập File Manager trong hosts CPanel.

Nếu bạn đang sử dụng WordPress, file robots.txt có thể được truy cập trong thư mục public_html của website.

Cấu trúc của file robots.txt . Các từ khóa thường gặp trong robots.txt bao gồm:
User-agent: Chỉ định loại trình thu thập thông tin mà chỉ thị này áp dụng.
Disallow: Chỉ định các URL mà trình thu thập thông tin không được phép truy cập.
Allow: Chỉ định các URL mà trình thu thập thông tin được phép truy cập.
Crawl-delay: Thông số này xác định thời gian (tính bằng giây)  bots phải đợi trước khi chuyển sang phần tiếp theo (cú pháp này ít được sử dụng)
Sitemap: Chỉ định URL của sitemap của trang web.
1. User-Agent
Lệnh user-agent cho phép bạn nhắm mục tiêu các bot hoặc trình thu thập dữ liệu nhất định để chỉ đạo. Ví dụ: nếu bạn chỉ muốn nhắm mục tiêu Bing hoặc Google, đây là lệnh bạn sẽ sử dụng.
Mặc dù có hàng trăm user-agent, dưới đây là ví dụ về một số tùy chọn user-agent phổ biến nhất.
Ký tự đại diện User-agent
Ký tự đại diện User-agent được ghi chú bằng dấu hoa thị (*) và cho phép bạn dễ dàng áp dụng chỉ thị cho tất cả các User-agent tồn tại. Vì vậy, nếu bạn muốn một quy tắc cụ thể áp dụng cho mọi bot, bạn có thể sử dụng User-agent này.
User-agent: *
# Ví dụ 1: Ngăn chặn Googlebot
User-agent: Googlebot
Disallow: /

# Ví dụ 2: Ngăn chặn Googlebot và Adsbot
User-agent: Googlebot
User-agent: Adsbot
Disallow: /

# Ví dụ 3: Chặn tất cả các trình thu thập thông tin trừ Adsbot
User-agent: *
Disallow: /
Disallow
Lệnh Disallow Robots.txt cho phép yêu cầu các công cụ tìm kiếm không thu thập thông tin hoặc truy cập các trang hoặc thư mục nhất định trên một website.
Chặn quyền truy cập vào một thư mục cụ thể
User-agent: *
Disallow: /portfolio
Allow
Lệnh Allow giúp xác định các trang hoặc thư mục nào đó mà bạn muốn bots truy cập và crawl.

Trong ví dụ dưới đây, tôi sẽ thông báo với Googlebot rằng tôi không muốn thu thập thông tin thư mục danh mục portfolio, nhưng tôi muốn một mục danh mục portfolio cụ thể được truy cập và thu thập thông tin:
User-agent: Googlebot
Disallow: /portfolio
Allow: /portfolio/crawlableportfolio
Sitemap 
Khi sử dụng lệnh Sitemap, nó sẽ giúp trình thu thập thông tin của công cụ tìm kiếm thu thập thông tin sơ đồ website bạn dễ dàng hơn.
Cách sử dụng Biểu thức chính quy và ký tự đại diện
Pattern matching là một cách nâng cao hơn để kiểm soát cách bot thu thập dữ liệu website bằng cách sử dụng các ký tự.
Có hai cách diễn đạt phổ biến và được cả Bing và Google sử dụng. Các chỉ thị này đặc biệt hữu ích trên các website thương mại điện tử.
Dấu hoa thị:  * được coi như một ký tự đại diện và có thể đại diện cho bất kỳ chuỗi ký tự nào
Ký hiệu đô la:  $ được sử dụng để chỉ định phần cuối của một URL
Một ví dụ điển hình về việc sử dụng ký tự đại diện * là trong trường hợp bạn muốn ngăn các công cụ tìm kiếm thu thập thông tin các trang có dấu chấm hỏi trong đó.
Đoạn mã dưới đây yêu cầu tất cả các bot bỏ qua việc thu thập dữ liệu bất kỳ URL nào có dấu chấm hỏi trong đó.
User-agent: *
Disallow: /*?

 Một số công thức robots.txt file phổ biến

# Chặn GoogleBot cào website bạn

User-agent: GoogleBot

Disallow: /

# Chặn nhiều user-agent (GoogleBot và Bingbot)

User-agent: GoogleBot

User-agent: Bingbot

Disallow: /

# Chặn tất cả các trình thu thập thông tin

User-agent: *

Disallow: /

# Chặn một miền phụ cụ thể khỏi tất cả các trình thu thập thông tin

Hãy thêm dấu gạch chéo lên phía trước và URL đầy đủ của miền phụ trong quy tắc không cho phép của web. Ví dụ:

User-agent: *

Disallow: /https://page.yourdomain.com/robots.txt

# Chặn một thư mục

Hãy làm theo quy trình tương tự bằng cách thêm dấu gạch chéo lên và tên thư mục của bạn, nhưng sau đó kết thúc bằng một dấu gạch chéo chuyển tiếp khác. Ví dụ:

User-agent: *

Disallow: /images/

Cuối cùng, nếu bạn muốn tất cả các công cụ tìm kiếm thu thập thông tin trên tất cả các trang trên trang web của mình. Bạn có thể tạo quy tắc allow hoặc disallow, nhưng hãy đảm bảo thêm dấu gạch chéo khi sử dụng quy tắc allow. 

# Cho phép tất cả các trình thu thập thông tin

User-agent: *

Allow: /

# Cho phép tất cả các trình thu thập thông tin

User-agent: *

Disallow:

# Chặn quyền truy cập vào một thư mục cụ thể

User-agent: *

Disallow: /portfolio

# Chặn PDF hoặc các loại tệp khác

Nếu bạn không muốn tệp PDF hoặc các loại tệp khác của mình được thu thập thông tin, thì lệnh dưới đây sẽ hữu ích. 

Lệnh chặn đối với tệp PDF:

User-agent: *

Disallow: *.pdf$

Đối với tệp PowerPoint, bạn có thể sử dụng:

User-agent: *

Disallow: *.ppt$

Cho phép tất cả robot truy cập vào mọi thứ:

User-agent: *

Disallow:

Không cho phép tất cả robot truy cập vào mọi thứ:

User-agent: *

Disallow: /

Tất cả các bot của Google không có quyền truy cập

User-agent: googlebot

Disallow: /

Tất cả các bot của Google, ngoại trừ tin tức Googlebot không có quyền truy cập

User-agent: googlebot

Disallow: /

User-agent: googlebot-news

Disallow:

Googlebot và Slurp không có bất kỳ quyền truy cập nào

User-agent: Slurp

User-agent: googlebot

Disallow: /

Tất cả các rô bốt không có quyền truy cập vào hai thư mục

User-agent: *

Disallow: /admin/

Disallow: /private/

Tất cả rô bốt không có quyền truy cập vào một tệp cụ thể

User-agent: *

Disallow: /directory/some-pdf.pdf

Googlebot không có quyền truy cập vào /admin/ và Slurp không có quyền truy cập vào /private/

User-agent: googlebot

Disallow: /admin/

User-agent: Slurp

Disallow: /private/

I. Cấu hình robots.txt chuẩn cho /Blogger/Blogspot

Chỉnh sửa robots.txt cho Blogsopt

Bước 1: Vào trang quản lí blog > Cài đặt.

Bước 2: Kéo xuống dưới và tìm đến Trình thu thập thông tin và lập chỉ mục.

Bật robots.txt tùy chỉnh và nhấp bên dưới để chỉnh sửa.

User-agent: *

Allow: /

User-agent: Googlebot

Allow: /

Allow: /search/label

Disallow: /search

Allow: /search(/)?$

Disallow: *archive.html$

Sitemap: https://www.huongdan.org/atom.xml?redirect=false&start-index=1&max-results=500

Lưu ý Thay https://www.huongdan.org/ thành tên miền của bạn và nếu blog của bạn có hơn 500 bài viết thì đổi 500 thành số lớn hơn

Giải thích về cấu hình này

Đầu tiên là User-agent: *, Cú pháp này cho phép mọi  bot vào thu thập dữ liệu như bot của Google, Bing, ... và xác định các quy tắc được áp dụng bên dưới.

Allow: /, Dòng này nghĩa là cho phép index tất cả các tiền tố url

Mình muốn Google không thu thập vào các trang không cần thiết mà các bot khác vẫn thu thập được, nên mình viết lệnh riêng cho Googlebot bằng cách thêm dòng User-agent: Googlebot

Cho phép Thu thập dữ liệu của trang nhãn: Allow: /search/label/.

Chặn thu thập những trang tìm kiếm có thể không có nội dung (Disallow: /search) nhưng vẫn cho phép thu thập trang bài viết (Allow: /search(/)?$)

Disallow: archive.html$ là chặn thu thập dữ liệu trang web có đuôi archive.html. Mình dùng kí tự ($) để url khớp ở cuối.

Cuối cùng là Sitemap: https... đánh dấu địa chỉ sơ đồ trang web của blog.

II. Tạo Robots.txt cho WordPress / Website của bạn

Nếu đang sử dụng One SEO Pack, Yoast SEO plugin, bạn có thể tạo (và sau đó chỉnh sửa) tệp robots.txt của mình ngay từ giao diện của plugin.

Cách tạo và chỉnh sửa tệp Robots.txt qua FTP

Nếu không sử dụng plugin SEO cung cấp chức năng robots.txt, bạn vẫn có thể tạo và quản lý tfile robots.txt qua SFTP. Trước tiên, hãy sử dụng bất kỳ trình soạn thảo văn bản nào để tạo một tệp trống có tên “robots.txt”:

Tạo File Robots.txt

Sau đó, kết nối với trang web qua SFTP và tải tệp lên thư mục gốc của website. Bạn có thể thực hiện các sửa đổi thêm đối với tệp robots.txt bằng cách chỉnh sửa tệp qua SFTP hoặc tải lên các phiên bản mới của tệp.

 Đặt user-agent Robots.txt của bạn

Bước tiếp theo trong cách tạo tệp robots.txt là đặt user-agent. 

User-agent hay gọi tắt là UA, là một chuỗi nhận diện của trình duyệt web khi gửi yêu cần đến máy chủ web. 

User-agent ở đây tức là trình thu thập thông tin web hoặc công cụ tìm kiếm mà bạn muốn cho phép hoặc chặn. Có ba cách khác nhau để thiết lập user-agent trong tệp robots.txt.

1. Tạo một user-agent

Cú pháp mà bạn sử dụng để đặt user-agent là User-agent. Phần này tôi đã giới thiệu ở trên – phần cú pháp của robots.txt, bạn có thể lưu ảnh trên đó để nghiên cứu nhé.

# Ví dụ về cách đặt user-agent 

User-agent: GoogleBot

2. Tạo nhiều hơn một user-agent

Nếu chúng ta phải thêm nhiều hơn một, hãy làm theo quy trình tương tự như bạn đã làm đối với user-agent GoogleBot trên dòng tiếp theo, nhập tên của user-agent bổ sung. Trong ví dụ này, chúng tôi đã sử dụng Facebot.

# Ví dụ về cách đặt nhiều user-agent

User-agent: GoogleBot

User-agent: Bingbot

3. Đặt Tất cả Trình thu thập thông tin làm User-agent

Để chặn tất cả bot hoặc trình thu thập thông tin, hãy thay thế tên của bot bằng dấu hoa thị (*).

# Ví dụ về cách đặt tất cả trình thu thập thông tin làm user-agent

User-agent: *

Ghi chú: Dấu thăng (#) biểu thị phần đầu của một nhận xét.

Đặt quy tắc cho tệp Robots.txt của bạn

Tệp robots.txt được đọc theo nhóm. Một nhóm sẽ chỉ định user-agent là ai và có một quy tắc hoặc chỉ thị để cho biết tệp hoặc thư mục nào user-agent có thể hoặc không thể truy cập.

Nhắc lại, dưới đây là các lệnh được sử dụng:

1. Disallow

2. Allow

Cả 2 lệnh này đều có chung 3 đặc điểm sau :

Nó cũng bắt đầu bằng dấu gạch chéo (/) theo sau là url toàn trang. 

Bạn sẽ chỉ kết thúc nó bằng một dấu gạch chéo nếu nó đề cập đến một thư mục chứ không phải toàn bộ trang. 

Bạn có thể sử dụng một hoặc nhiều cài đặt cho phép cho mỗi quy tắc.

3. Sơ đồ trang web

Trình thu thập dữ liệu web xử lý các lệnh từ trên xuống dưới. Do đó, hãy thêm Disallow: / bên dưới thông tin user-agent trong mỗi nhóm để chặn các user-agent cụ thể ấy thu thập thông tin trang web của bạn.

9. Tệp Robots.txt dành cho WordPress

Tệp robots.txt bên dưới được tối ưu hóa đặc biệt cho WordPress, giả sử:

Bạn không muốn thu thập thông tin phần quản trị viên.

Bạn không muốn thu thập thông tin các trang kết quả tìm kiếm nội bộ

Bạn không muốn thu thập thông tin thẻ và trang tác giả

Bạn không muốn thu thập thông tin trang 404.

User-agent: *

Disallow: /wp-admin/ #block access to admin section

Disallow: /wp-login.php #block access to admin section

Disallow: /search/ #block access to internal search result pages

Disallow: *?s=* #block access to internal search result pages

Disallow: *?p=* #block access to pages for which permalinks fails

Disallow: *&p=* #block access to pages for which permalinks fails

Disallow: *&preview=* #block access to preview pages

Disallow: /tag/ #block access to tag pages

Disallow: /author/ #block access to author pages

Disallow: /404-error/ #block access to 404 page

Sitemap: https://www.example.com/sitemap_index.xml

 Vậy là bạn đã hiểu Robots.txt là gì? Cấu hình robots.txt chuẩn cho Bogger / Blogspot / WordPress/Website