fbpx
19th Ave New York, NY 95822, USA

XML Sitemap LÀ GÌ? Cách lập sơ đồ trang web gọi Bot Google

XML Sitemap còn có tên gọi là sơ đồ trang web. Nơi đây lưu trữ toàn bộ các page của web. Tài liệu này nhằm cung cấp các thông tin cho công cụ tìm kiếm Google để quá trình thu thập dữ liệu nhanh hơn. Đây là yếu tố quan trọng để lập chỉ mục, thăng hạng cho web nhanh hơn.

MOMD Group khuyên bạn nên lập XML Sitemap thật khoa học. Đặc biệt nếu bạn đang sở hữu các site vệ tinh lớn hơn 500 trang. Hãy tuân thủ các nguyên tắc sau đây để sơ đồ trang web chuẩn chỉ, tốt cho quá trình SEO:

  • XML Sitemap cần đảm bảo được cập nhật chính xác với nội dung hiện tại trên web của bạn.
  • Hãy đảm bảo sơ đồ trang web “sạch sẽ”, tức chỉ chứa các URL mà bạn muốn được Google lập chỉ mục.
  • Kiểm tra XML Sitemap trước khi hoàn thiện với robots.txt file để tránh sai sót trước khi báo cáo với Google.
  • Không liệt kê nhiều hơn 50.000 web trong một Sitemap.
  • Đảm bảo kích thước tệp không quá 500MB.
  • Đừng quá căng thẳng, lo lắng hay thấy các thuộc tính như lastmod, priority và changefreq quá rối. 

Các thông tin sau sẽ dần hé lộ để bạn hiểu hơn về XML Sitemap. Vì lẽ đó, đừng bỏ lỡ bất cứ chia sẻ giá trị nào bạn nhé! 

XML Sitemap là gì?

Như đã chia sẻ kể trên, XML Sitemap là một tài liệu đặc biệt. Đúng như tên gọi, nó là một sơ đồ liệt kê các page trên web của bạn. Mục đích nhằm giúp công cụ tìm kiếm Google nhìn vào có thể hiểu trang web của bạn có gì.

Nhờ thế, quá trình thu thập thông tin trở nên nhanh chóng. XML Sitemap đặc biệt hữu ích đối với công cụ tìm kiếm Google và giúp quá trình lập chỉ mục nhanh chóng, tốt hơn cho việc thăng hạng. 

Tuy nhiên, bạn cần phân biệt rõ ràng, XML Sitemap khác với sơ đồ trang thông thường- còn có tên gọi là “HTML sitemaps”. Hiểu đơn giản hơn thì sơ đồ trang thông thường sẽ giúp người dùng hiểu rõ hơn về nội dung trang của bạn. Còn XML Sitemap thì dành cho bot Google.

Lý do nên chú ý xây dựng XML Sitemap chuẩn

Có lẽ không cần phân tích quá nhiều cũng đủ thấy, XML Sitemap là phần bạn xây dựng để dành cho bot Google. Nó sẽ giúp:

  • Google hiểu rõ hơn bạn đang có nội dung gì trên trang web.
  • Dễ dàng sắp xếp trang web của bạn vào nội dung phù hợp.
  • Tiết kiệm thời gian và tài nguyên của Google vì mọi thứ rõ ràng và thân thiện hơn.

Nhờ thế, SEO web có cải thiện tích cực, giúp thứ hạng tăng, bạn dễ tiếp cận với đối tượng mục tiêu hơn để sinh đơn, có lợi nhuận như ý.

XML-Sitemap
Định nghĩa XML Sitemap

XML Sitemap trông như thế nào?

XML Sitemap sử dụng ngôn ngữ máy XML để bot Google hiểu được thông điệp mà bạn muốn truyền tải. Trông nó sẽ có dạng như sau:

<?xml version=”1.0″ encoding=”UTF-8″?>

<urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″>

           <url>

                        <loc>https://www.contentkingapp.com/</loc>

                        <lastmod>2017-06-14T19:55:25+02:00</lastmod>

          </url>

          <url>

                        <loc>https://www.contentkingapp.com/blog/</loc>

                       <lastmod>2016-06-24T10:23:20+02:00</lastmod>

          </url>

</urlset>

Hãy cùng MOMD Group mổ xẻ để xem một XML Sitemap có những thành phần nào bạn nhé. Các chia sẻ sau đây sẽ giúp bạn hiểu ý nghĩa của từng thành tố. Nắm được bản chất của vấn đề mới giúp chúng ta thực hiện đúng ngay từ đầu và tránh những sai lầm khó hiểu.

cau-truc-XML-Sitemap
Cấu trúc XML Sitemap trông như thế nào?

XML Header

XML Header là phần tiêu đề của Sitemap. Nó có dạng như sau:

<?xml version=”1.0″ encoding=”UTF-8″?>

Tiêu đề này biểu thị rằng nội dung được cấu trúc theo phiên bản 1.0 của tiêu chuẩn XML và mô tả mã hóa ký tự. Đây chính là các thông tin mà công cụ tìm kiếm Google cần thu thập từ tệp này.

Definition of the URL set- Định nghĩa của tập hợp URL

Definition of the URL set sẽ chính là phần:

<urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″>

Definition of the URL set “đóng gói” toàn bộ các URL có trên web của bạn. Nó cũng cho bot Google biết quản trị viên đang dùng phiên bản nào của XML Sitemap chuẩn. Phần này được đề cập ở thuộc tính </urlset>

Definition of the individual URLs- Định nghĩa các URL riêng lẻ

Definition of the individual URLs được hiểu là các URL riêng lẻ- Nó chính là phần sau:

<url>

          <loc>https://www.contentkingapp.com/</loc>

          <lastmod>2017-06-14T19:55:25+02:00</lastmod>

</url>

Ở phần này bạn cần lưu ý:

  • Bạn dùng url-tag để định nghĩa những URL lẻ.
  • Individual URLs cần chứa loc-tag (viết tắt của vị trí ).
  •  Giá trị của thẻ này phải là URL đầy đủ của trang, bao gồm cả giao thức (ví dụ: “http: //” ).

Tóm lại, individual URLs sẽ gồm các thuộc tính sau đây:

  • lastmod: ngày nội dung trên URL đó được sửa đổi lần cuối. Bạn lưu ý phần ngày ở định dạng “ ngày giờ W3C ”.
  • priority: Phần này dùng để chỉ mức độ ưu tiên của URL. Nó liên quan đến trang web của riêng bạn trên thang điểm từ 0,0 đến 1,0.
  • changefreq: tần suất nội dung trên URL dự kiến ​​sẽ thay đổi. Phần này có các giá trị tùy chọn bao gồm: hàng giờ, hàng ngày, hàng tuần, hàng tháng, sớm và không bao giờ.
so-do-lien-ket
Vai trò của sơ đồ liên kết trong website

Sơ đồ trang web XML nên đặt ở đâu?

XML Sitemap cũng được đặt ở vị trí như sơ đồ trang web thông thường, tức năm trên URL của chính nó. Thường thì nó sẽ có cấu trúc dạng / sitemap.xml. Bạn nên nhớ quy ước kể trên giúp công cụ tìm kiếm Google sớm nhận được XML Sitemap và hiểu được các nội dung bạn đang trình bày.

Mặt khác, cũng có một số trường hợp chúng ta không thể đặt XML Sitemap ở vị trí kể trên. Lúc này, bạn hãy chọn một vị trí hoặc tệp thích hợp. Miễn sao, bạn tham chiếu vị trí này trong robots.txt của mình thông qua XML Sitemap.

Sitemap: http://www.example.com/alternativelocation/alternativefilename.xml

Giới hạn của XML Sitemap là bao nhiêu?

Khi lập, XML Sitemap, bạn cần nhớ một số lưu ý sau::

  • XML Sitemap không được chứa nhiều hơn 50.000 URL.
  • Kích thước tệp này chỉ giới hạn ở 50MB khi chưa nén.
  • Trong trường hợp XML Sitemap lớn hơn các giới hạn kể trên, bạn cần tách ra thành nhiều XML Sitemap khác. Và đừng quên lập chỉ mục cho sơ đồ trang web XML của mình bạn nhé! 

Chỉ mục Sơ đồ trang web XML là gì?

Như đã đề cập tới ở phần trên, khi hệ thống của bạn vượt qua các giới hạn kể trên, chúng ta cần phân tách ra thành nhiều XML Sitemap. Lúc này, bạn cần nhóm chúng lại với nhau để bot Google hiểu đúng. Và lập chỉ mục chính là cách nhóm các tệp kể trên chuẩn xác.

Chỉ mục này là một tệp XML riêng biệt, nó tham chiếu đến các Sơ đồ trang web XML khác nhau.

Bạn có thể theo dõi sơ đồ dưới đây để hiểu: 

<?xml version=”1.0″ encoding=”UTF-8″?>

<sitemapindex xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″>

              <sitemap>

                                <loc>http://www.example.com/sitemap1.xml.gz</loc>

                                <lastmod>2004-10-01T18:23:17+00:00</lastmod>

              </sitemap>

              <sitemap>

                                <loc>http://www.example.com/sitemap2.xml.gz</loc>

                                <lastmod>2005-01-01</lastmod>

              </sitemap>

</sitemapindex>

Chỉ mục Sơ đồ trang XML này tham chiếu đến hai Sơ đồ trang XML: sitemap1.xml.gz và sitemap2.xml.gz. Bạn hãy cùng MOMD Group  mổ xẻ tập tin này nhé!

chi-muc-so-do-trang-web-xml
Lập chỉ mục sơ đồ trang web XML là gì?

XML Header- Tiêu đề XML

XML Header chính là phần:

<?xml version=”1.0″ encoding=”UTF-8″?>

Cũng giống như chia sẻ kể trên, XML Header sẽ giúp bot Google xác định được nội dung của Sitemap là gì. Ngôn ngữ dùng trong phần này là XML để công cụ tìm kiếm Google có thể hiểu được.

Definition of the Sitemap Index- Định nghĩa về Chỉ mục Sơ đồ trang web

Definition of the Sitemap Index có dạng như dưới đây:

<sitemapindex xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″>

Thay vì urlset, bạn sẽ thấy thuộc tính sitemapindex ở đây. Nó cho thấy sơ đồ của tất cả các phần tử tạo nên trang web của bạn. Phần này cho phép bot Google nhận ra đâu là sơ đồ trang tiêu chuẩn của bạn. Việc lập chỉ mục sơ đồ trang web luôn là yếu tố quyết định giúp website của bạn được Google index nhanh hơn. Điều này luôn được nhắc đến trong nội dung khóa học đào tạo SEO cơ bản đến nâng cao tại MOMD Group.

Cũng giống như urlset, sitemapindex xuất hiện ở phần cuối cùng:

</sitemapindex>

Definition-of- the- Sitemap- Index
Definition of the Sitemap Index là gì?

Definition of the individual sitemaps – Định nghĩa các sơ đồ trang web riêng lẻ

Definition of the individual sitemaps sẽ có hiển thị dạng như sau:

<sitemap>

                <loc>http://www.example.com/sitemap1.xml.gz</loc>

                <lastmod>2004-10-01T18:23:17+00:00</lastmod>

</sitemap>

 Chỉ mục Sơ đồ trang XML nên đặt ở đâu?

Chỉ mộc sơ đồ trang web XML sẽ có dạng: / sitemap_index.xml. Bạn nên đặt sơ đồ trang web này ở chính URL của nó. Tuy nhiên, nếu không tiện thì nên tham chiếu với tệp robots.txt theo dạng:

Sitemap: http://www.example.com/alternativelocation/alternativefilename.xml

Các phương pháp hay nhất cho Sơ đồ trang web XML

Làm XML Sitemap như thế nào mới chuẩn? Sao mới SEO web tốt hơn? Cách nào giúp website nhanh thăng hạng? Đây là câu hỏi mà mọi SEOer đều muốn biết. Bạn đừng quên thực hiện ngay bằng cách sau đây:

Đảm bảo XML Sitemap luôn được cập nhật mới nhất

Bạn hãy luôn đảm bảo rằng mọi thứ từ hình ảnh, nội dung cho tới các thay đổi trên trang web sẽ nhanh chóng được cập nhật ở XML Sitemap. Bên cạnh đó, bạn cần kiểm tra lại các yêu tố như: Image SEO, Content SEO,…trước khi Google Index website của bạn.

Bạn có thể dùng thuộc tính lastmod-tag để các thay đổi trên trang web được cập nhật trong XML Sitemap nhanh chóng.

Đảm bảo XML Sitemap chỉ gồm các URL mà bạn muốn lập chỉ mục 

Để tránh những nhầm lẫn đáng tiếc khiến bot Google bị rối, gây ảnh hưởng tới quá trình thăng hạng, bạn lưu ý chỉ chỉ có những URL bạn muốn Google thu thập dữ liệu nằm trên XML Sitemap.

Điều này có nghĩa là bạn nên loại bỏ tất cả các URL trỏ đến chuyển hướng (ví dụ: mã trạng thái 301) và các trang bị thiếu (ví dụ: mã trạng thái 404). 

url-can-lap-chi-muc
Sitemap XML là tổng hợp các URL cần lập chỉ mục

Cài đặt chính xác vị trí và tên tệp mặc định

Vị trí, tên của tệp cho XML Sitemap(/sitemap.xml) và Chỉ mục Sơ đồ trang XML( /sitemap_index.xml) rất quan trọng. Bởi qua đây công cụ tìm kiếm Google sớm thu thập được dữ liệu của trang web và xếp hạng chúng dễ dàng hơn.

Kiểm tra Sơ đồ trang web XML trong tệp robots.txt

Để tránh hiện tượng đặt sai URL hoặc XML Sitemap hay phần lập chỉ mục cho XML Sitemap, bạn nên kiểm tra các thông tin này trong tệp robots.txt. Thao tác này sẽ giúp chúng ta tránh những sai lầm đáng tiếc khiến mọi công việc hoàn thiện XML Sitemap đều trở nên vô nghĩa.

Đừng ám ảnh về lastmod, ưu tiên và changefreq

Các thuộc tính lastmod, priority và changefreq nhìn có vẻ thật rắc rối, khó hiểu. Vì thế mà nhiều người cảm thấy ngại làm hoặc sợ sai.

Tuy nhiên  những cài đặt này không ảnh hưởng tới XML Sitemap. Tức các thuộc tính kể trên không ảnh hưởng quá nhiều đến quá trình thu thập dữ liệu của bot Google. Vì thế bạn không nên quá căng thẳng, chúng ta thậm chí có thể bỏ qua nếu thấy phức tạp.

Đảm bảo không vượt quá giới hạn khi lập Sơ đồ trang web XML

Bạn cũng nên đảm bảo XML Sitemap của mình không chứa quá 50.000 URL. Đồng thời kích thước tệp không nén dưới 50MB. Nếu nhiều hơn, hãy chia nhỏ các XML Sitemap sau đó nhóm chúng lại bằng lập chỉ mục bạn nhé! 

Câu hỏi thường gặp về Sơ đồ trang web XML

Phần mở rộng .gz có nghĩa là gì?

Phần mở rộng .gz được thêm vào tên tệp khi Sơ đồ trang web XML được nén (thông qua nén gzip). Đây là thao tác cần làm khi bạn có nhiều URL vượt mức cho phép.

Phần kể trên giúp cho tệp được giảm tải, tránh nặng web và giúp tốc độ truy cập nhanh hơn.

Hi vọng các chia sẻ vừa rồi sẽ giúp bạn hiểu hơn về XML Sitemap. Đừng quên kết nối với MOMD Group để có thêm các tư vấn giá trị về SEO web.

Là đơn vị cung cấp dịch vụ SEO web tối ưu hóa với 80% dùng tool, MOMD Group tự tin mang tới giải pháp thông minh giúp bạn tiết kiệm chi phí. Vì thế bạn sẽ thêm khởi sắc hơn nữa khi chọn đồng hành dài lâu với hệ thống đấy! 

Leave a comment