robots.txt là gì? Hé lộ cách thiết lập file robots.txt ai cũng làm được

Robots.txt là gì? File robot.txt có tác dụng gì? Làm sao để tạo robots.txt chuẩn? Cần lưu ý những gì khi thực hiện? Mời bạn cùng MOMD Group khám phá ngay các thông tin ý nghĩa bằng chia sẻ trong bài viết này.

Đừng quên kết nối với chúng tôi để có được hướng dẫn chi tiết về cách tạo file robots.txt chuẩn nếu như bạn chưa tìm ra phương pháp làm đúng! 

Robots.txt là gì? File robot.txt có tác dụng gì?
Robots.txt là gì? File robot.txt có tác dụng gì?

robots.txt là gì?

John Mueller – người đang trực tiếp làm việc tại Google mới đây cho biết. Google vẫn sẽ lập chỉ mục các trạng bị robots.txt chặn.  Khá nhiều người hiện còn chưa biết tạo robots.txt để làm gì. Nếu bạn cũng nằm trong số đó thì nên đọc ngay các chia sẻ sau đây.

Theo đó, robots.txt là một phần của giao thức loại trừ công cụ tìm kiếm của SEO tìm thấy các nội dung mà bạn muốn ẩn bất. Quay lại vấn đề một chút, hiện nay Google đang tạo ra những con bot để tìm kiếm và sắp xếp lại thứ hạng các website theo một thuật toán và tiêu chí mà nó đã đề ra từ trước. 

Bạn có thể  sử dụng robots.txt bằng cách thêm vào địa chỉ website với mô típ: www.mywebsite.com/robots.txt.

Tuy nhiên, thông tin cập nhật mới nhất từ phía Google cho thấy, hiện nó đã thay đổi một chút về cách hiển thị tệp này. Theo đó, file robots.txt sẽ có dạng:

User- agent: *

Disallow: /

Theo đó, các trang web sử dụng dấu hoa thị(*) sau dòng điền tác nhân người dùng có nghĩa là sẽ cho phép bot  truy cập vào nó để lấy thông tin và dữ liệu.

Ngược lại, khi sử dụng dấu gạch chéo(/) thì đồng nghĩa với việc bạn không cho phép công cụ tìm kiếm của Google lập chỉ mục các nội dung mà mình muốn giấu đi.

Tại sao robots.txt lại quan trọng?

Khá nhiều người hiện nay còn chưa biết file robots.txt chuẩn SEO vì sao lại được nhiều người quan tâm đến thế? Một số thắc mắc không hiểu vì sao sau nhiều ngày tháng xây dựng website và nỗ lực làm nội dung nhưng vẫn không được xếp hạng.

Các nghiên cứu cụ thể cho thấy, có tới 60% nguyên nhân là do tệp robots.txt không được cập nhật đúng cách.

Có nghĩa là tệp robots.txt vẫn ở dạng:

User- agent: *

Disallow: /

Nếu trình bày user agent theo cách kể trên, bạn có muốn Google xếp hạng cũng không được. Bởi chúng ta đang nhầm lẫn và lập trình sai cách khiến website chặn tất cả các trình thu thập dữ liệu tại đây. 

Hơn thế nữa, đối với Google, robots.txt rất quan trọng. Nó giống như một loại ngân sách để thu thập thông tin. Bạn có thể tìm hiểu thêm về csc tuyên bố mới của chủ nhà về robots.txt để hiểu rõ hơn về nhận định này.

Tăng tỷ lệ chuyển đổi, sinh đơn nhanh chóng

Theo đó, Google đã ra thông báo chính thức nói rằng:

“Googlebot được lập trình để trở thành một công dân mẫu mực của website. Nó sẽ thu thập thông tin và đảm bảo không làm ảnh hưởng tới trải nghiệm của người dùng.

Google gọi đây là giới hạn tốc độ thu thập thông tin hay giới hạn tốc độ tìm nạp tối đa cho một website bất kỳ. Nói một cách đơn giản thì đây là đại diện cho số lượng các kết nối song song, đồng thời mà Googlebot có thể dùng để thu thập thông tin trên các trang thuộc website của bạn”.

Với những chia sẻ vừa rồi, bạn hiểu file robot.txt có tác dụng gì  rồi chứ? Sự có mặt của tệp kể trên sẽ giúp bạn giấu đi những nội dung chưa chất lượng. Nhờ thế mà kết quả xếp hạng sẽ được cải thiện đáng kể.

Mặt khác, đây cũng la cách giúp Google bớt đi công đoạn lọc thông tin nên quá trình xác nhận các dữ liệu mới sẽ trở nên nhanh chóng và hiệu quả hơn hẳn. Thực tế Google đã để xuất một tiêu chí liên qua tới robots.txt vào tháng 7/2019. Tuy nhiên, các phương pháp sau đây hiện được đánh giá cao hơn cả.

Hãy sớm đến với chia sẻ tiếp theo để biết cài đặt robots.txt robots.txt là gì và có ý nghĩa như thế nào bạn nhé! 

Cài đặt robots.txt robots.txt
Cài đặt robots.txt robots.txt

Giải mã nội dung cơ bản liên quan đến robots.txt cần nắm chắc

Khi nào không được sử dụng robots.txt? lúc nào thì nên để công cụ tìm kiếm này kiểm tra và thu thập dữ liệu trên website của bạn? Những thông tin sau sẽ giúp bạn sớm hiểu hơn về điều này đấy. Dưới đây là các lệnh phổ biến trong robots.txt mà bạn nên sớm nắm rõ:

    • User- agent: * sẽ báo cho Googlebot biết rằng đây là thông tin cần thu thập trên website.
    • Agent disallow: / lại nhằm mục đích báo với công cụ tìm kiếm của Google rằng không thu thập các thông tin này trên website. User agent disallow sẽ giúp quá trình lọc thông tin mà bạn không muốn chủ nhà thu thập trở nên đơn giản hơn.
    • Disallow: / staging / đây là lệnh để báo rằng các trình thu thập thông tin bỏ qua trang web của bạn.
  • Disallow: / ebooks / * .pdf lại ngầm báo với Google rằng bạn muốn nó bỏ qua các tệp PDF có trên trang của bạn.
  • Disallow: / images / đồng nghĩa với việc bạn báo cho Google bỏ qua tất cả các hình ảnh có trên website của mình.
robots.txt
Giải mã nội dung cơ bản liên quan đến robots.txt cần nắm chắc

Lưu ý:

* – Đây được xem như là một ký tự đại diện đại diện cho bất kỳ chuỗi ký tự nào.

$ – Giá trị này được sử dụng để khớp với phần cuối của URL.

Để tạo robots.txt, bạn có thể sử dụng Yoast cho WordPress vì dễ dùng và tính chính xác cao. Nó đã tích hợp với các tính năng SEO khác trên web nên cũng rất tiện để đánh giá về độ chuẩn SEO onpage.

Một số lưu ý cần nhớ khi tạo robots.txt tùy chỉnh

Trước khi cấu hình robots.txt, bạn nên lưu ý một số vấn đề sau: 

  • Bạn cần định dạng tệp robots.txt của mình một cách chính xác. Tệp này sẽ hoạt động theo quy trình sau:

 Tác nhân người dùng → Không cho phép → Cho phép → Máy chủ → Sơ đồ trang web . Nhờ thế, bot có thể truy cập vào toàn bộ thông tin mà bạn muốn công bố với Google, tránh bỏ sót bất cứ tệp dữ liệu nào.

Một số lưu ý cần nhớ khi tạo robots.txt tùy chỉnh
Một số lưu ý cần nhớ khi tạo robots.txt tùy chỉnh

 

  • Bạn nên chắc chắn rằng các URL bạn muốn để Google truy cập sẽ nằm trong một đoạn riêng. Còn các liên kết bạn muốn giấu đi sẽ nằm ở một đoạn riêng giống như file robots.txt chuẩn SEO được minh họa dưới đây:
file robots.txt chuẩn SEO
File robots.txt chuẩn SEO
  • Đừng quên luôn sử dụng chữ in thường để đặt tên file robots.txt.
  • Không sử dụng bất kỳ ký tự đặc biệt nào khác ngoại trừ * và $. Các ký tự khác đều không được công nhận.
  • Tạo các tệp robots.txt riêng biệt cho các site vệ tinh để chúng có được robots.txt khác nhau, giúp quá trình thu thập thông tin nhanh chóng và hiệu quả hơn.
  • Sử dụng # khi muốn để lại một số nhận xét trong tệp robots.txt của bạn. 
  • Nếu một trang nào đó trong tệp robots.txt không được cho phép truy cập thông tin thì các trang còn lại cũng bị ảnh hưởng.
  • Bạn đừng bao giờ sử dụng robots.txt để che mắt Google khi đó là các thông tin nhạy cảm, vi phạm văn hóa, đạo đức.

Nên ẩn những gì với robots.txt?

Vậy nên hiển thị những nội dung nào? Cần ẩn thông tin gì không  quan trọng và tự nhiên với robots.txt? Bạn nên lưu tâm đến các nội dung sau đây để có thể dùng tệp này ẩn đi cho phù hợp:

  • Các trang thông tin cung cấp nội dung lặp đi lặp lại nhiều lần.
  • Các phân trang.
  • Những trang mô tả sản phẩm.
  • Các trang quản trị.
  • Giỏ hàng.
  • Phần tương tác/trò chuyện với khách hàng.
  • Trang cảm ơn.
  • ….
Nên ẩn những gì với robots.txt?
Nên ẩn những gì với robots.txt?

Một số lỗi thường gặp khi thực hiện robots.txt tùy chỉnh

Bạn hãy đọc kỹ các sai lầm sau đây để tránh tình trạng robots.txt vô tình không được phép truy cập thông tin để lập chỉ mục trên website. Cụ thể các sai lầm thường gặp phải kể tới như:

Thứ nhất, tên tệp chứa chữ in hoa

Khi tệp robots.txt của bạn chứa chữ in hoa thì Google sẽ không nhận ra nó đâu. Vì tên tệp duy nhất là robots.txt chứ không phải Robots.txt hoặc ROBOTS.TXT.

Thứ hai, không đặt tệp robots.txt trong thư mục chính

Bạn cần đặt tên tệp robots.txt trong thư mục chính. Nhờ thế nó mới thu thập dữ liệu được từ website của bạn đúng như mong đợi.

Ví dụ:

Đặt sai: www.mysite.com/tshirts/robots.txt

Đặt đúng: www.mysite.com/robots.txt*

Thứ ba, định dạng tác nhân User- agent không chính xác

Sai:  Disallow: Googlebot

Đúng:  User- agent: Googlebot

Thứ ba, định dạng tác nhân User- agent không chính xác
Thứ ba, định dạng tác nhân User- agent không chính xác

Thứ tư , Đề cập đến nhiều danh mục trong một dòng ‘Không cho phép’

Sai:  Disallow: / css / / cgi-bin / / images /

Đúng: Disallow: / css /

Disallow: / cgi-bin /

Disallow:: / hình ảnh /

Thứ năm, Dòng trống trong ‘Tác nhân người dùng’

Sai: User- agent: 

Đúng: User- agent: *

Thứ sáu,  Phản chiếu các trang web & Url trong Chỉ thị Máy chủ

Bạn hãy cẩn thận khi đề cập đến chỉ thị ‘máy chủ’ để các công cụ tìm kiếm hiểu bạn một cách chính xác:

Sai: User- agent: Googlebot

Disallow: / cgi-bin

Đúng:

User- agent: Googlebot

Disallow: / cgi-bin.

Thứ sáu, Phản chiếu các trang web & Url trong Chỉ thị Máy chủ
Thứ sáu, Phản chiếu các trang web & Url trong Chỉ thị Máy chủ

Thứ bảy, Liệt kê tất cả các tệp trong thư mục

Sai: 

User- agent” *

Disallow: /pajamas/flannel.html

Disallow: /pajamas/corduroy.html

Không cho phép: /pajamas/cashmere.html

Đúng: 

Disallow:: *

Disallow: / pyjamas /

Disallow: / sơ mi /

Thứ tám, Không cho phép hướng dẫn

Thực tế thì hướng dẫn không cho phép là bắt buộc để các bot của công cụ tìm kiếm hiểu được ý định của bạn.

Sai: 

User- agent: Googlebot

Máy chủ: www.mysite.com

Chính xác

User- agent: Googlebot

Disallow:

Máy chủ: www.mysite.com

Thứ 9: Chặn toàn bộ trang web của bạn

Sai: 

User- agent: Googlebot

Disallow: /

Chính xác

User- agent: Googlebot

Disallow:

Thứ 9: Chặn toàn bộ trang web của bạn
Thứ 9: Chặn toàn bộ trang web của bạn

Thứ 10, Sử dụng các Chỉ thị khác nhau trong * Phần

Sai:

User- agent: *

Disallow: / css /

Máy chủ: www.example.com

Chính xác

User- agent: *

Disallow: / css /

Thứ 11, Tiêu đề HTTP sai

Sai:

Loại nội dung: văn bản / html

Chính xác

Nội dung-Loại: văn bản / đơn giản

Thứ 12, Không có Sơ đồ trang web

Bạn hãy nhớ luôn luôn phải đặt các sơ đồ trang web của bạn ở cuối tệp robots.txt.  Nhờ thế Google mới sớm mang đến những cải thiện về thứ hạng như mong đợi.

Sai: 

rô bốt không có sơ đồ trang web

Chính xác: 

rô bốt sửa sơ đồ trang web

Thứ 13, Sử dụng Noindex

Kể từ năm 2019, Google đã thông báo rằng họ sẽ không thừa nhận lệnh noindex được sử dụng trong các tệp robots.txt nữa.

Vì vậy, bạn hãy sử dụng các thẻ meta rô bốt được đề cập dưới đây: 

Thứ 14, Không cho phép một trang trong tệp Robots.Txt, nhưng vẫn liên kết với nó

Khi bạn có một liên kết nội bộ trỏ đến một trang mà bản thân không muốn công cụ tìm kiếm truy cập và thu dữ liệu. Thì Google vẫn sẽ tiếp tục truy vấn thông tin tại đây và xác nhận nó nếu liên kết đó vẫn còn tồn tại.

Do đó, bạn cần xóa liên kết đó để trình thu thập thông tin ngừng thu tập hoàn toàn tại trang đó. Thực tế thì không khó để có thể kiểm tra một trang nào đang được lập chỉ mục trong Google Search Console của bạn. Vì lẽ đó, đừng quên kết nối với MOMD Group để sớm có được các tư vấn và hỗ trợ nhiệt tình hơn nữa.

Vì sao bạn nên chọn MOMD Group?

MOMD Group hiện là một trong những đơn vị chuyên cung cấp dịch vụ SEO trọn gói. Chúng tôi mang tới tư vấn chuyên sâu giúp bạn sớm biết về xu hướng và các thuật toán mới nhất mà Google áp dụng. Điều này giúp quý vị tránh a hiện tượng lãng phí thời gian vô ích, bỏ nhiều công sức nhưng không mang lại kết quả như ý.

Với đội ngũ là những chuyên gia hàng đầu về SEO, MOMD Group còn mở lớp đào tạo SEO chuyên sâu. Chúng tôi mong đợi được chia sẻ các kiến thức giá trị đến cộng đồng. Hi vọng nhờ thế bạn có thêm nhiều kinh nghiệm hay hơn nữa để làm việc hiệu quả, giúp dự án đang triển khai có được khởi sắc như ý.

Rất nhiều quý đối tác/khách hàng cũng như các học viên của MOMD Group đã rút ngắn lộ trình cải thiện thứ hạng website của mình khi kết nối với MOMD Group. Chúng tôi đồng hành cùng bạn suốt chặng đường còn lại và chia sẻ miễn phí nhiều cách làm mới.

Đây cũng là lý do ngày càng nhiều người đến với MOMD Group. Những ưu việt nổi bật sau đây của hệ thống sẽ không làm bạn thất vọng:

  • MOMD Group cung cấp các thông tin chuyên sâu về SEO mang đến cho bạn cách làm mới, hiệu quả.
  • Hơn thế nữa, giáo trình dễ hiểu cùng lối học thực chiến sẽ giúp bạn tránh xa  việc thời gian bỏ công sức nhưng không hiệu quả.
  • Chúng tôi đồng hành để giúp các dự án của bạn có nhiều khởi sắc hơn nữa.

MOMD Group đi theo cách SEO nhân văn, hướng tới phục vụ con người. Vì lẽ đó, không chỉ giúp bạn kiếm được nhiều tiền hơn nữa, chúng tôi còn mang đến những trải nghiệm hào hứng và sự thú vị cho công việc của bạn! 

Ngoài ra, đừng quên khám phá GSA Ranker Là Gì để có thêm các thông tin hay hơn nữa khi SEO web bạn nhé! 

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *