fbpx
19th Ave New York, NY 95822, USA

Thông tin tổng quan về trình thu thập dữ liệu của Google (tác nhân người dùng)

  • Trang chủ
  • Trung tâm Tìm kiếm
  • Tài liệu
  • Hướng dẫn nâng cao về SEO

“Trình thu thập dữ liệu” là tên gọi chung cho mọi chương trình dùng để tự động phát hiện và quét các trang web bằng cách đi theo các đường liên kết từ trang web này đến trang web khác. Trong tiếng Anh, trình thu thập dữ liệu có nhiều tên gọi như crawler, robot hay spider. Trình thu thập dữ liệu chính của Google có tên là Googlebot. Bảng này liệt kê thông tin về các trình thu thập dữ liệu phổ biến của Google mà bạn có thể thấy trong nhật ký liên kết giới thiệu, đồng thời hướng dẫn cách chỉ định những trình thu thập dữ liệu đó trong robots.txt, thẻ meta robots và lệnh HTTP X-Robots-Tag.

Bảng sau đây cho thấy những trình thu thập dữ liệu mà nhiều sản phẩm và dịch vụ của Google sử dụng:

[external_link_head]

  • Mã tác nhân người dùng ở dòng User-agent: trong tệp robots.txt được dùng để liên kết với một loại trình thu thập dữ liệu khi viết quy tắc thu thập dữ liệu cho trang web. Một số trình thu thập dữ liệu có nhiều hơn một mã (như trình bày trong bảng). Bạn cần sử dụng duy nhất một mã trình thu thập dữ liệu cho mỗi quy tắc để quy tắc đó có hiệu lực. Danh sách này tuy không đầy đủ nhưng bao gồm hầu hết các trình thu thập dữ liệu bạn có thể thấy trên trang web của mình.
  • Chuỗi tác nhân người dùng đầy đủ là phần mô tả đầy đủ về trình thu thập dữ liệu. Chuỗi này xuất hiện trong yêu cầu và nhật ký web của bạn.

Trình thu thập dữ liệu

APIs-Google

Mã tác nhân người dùng APIs-Google
Chuỗi tác nhân người dùng đầy đủ APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)

AdSense

Mã tác nhân người dùng Mediapartners-Google
Chuỗi tác nhân người dùng đầy đủ Mediapartners-Google

AdsBot Mobile Web Android

Kiểm tra chất lượng quảng cáo trên trang web cho Android.

Mã tác nhân người dùng AdsBot-Google-Mobile
Chuỗi tác nhân người dùng đầy đủ Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot Mobile Web

Kiểm tra chất lượng quảng cáo trên trang web cho iPhone.

Mã tác nhân người dùng AdsBot-Google-Mobile
Chuỗi tác nhân người dùng đầy đủ Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/0376108573 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

Kiểm tra chất lượng quảng cáo trên trang web cho máy tính.

[external_link offset=1]

Mã tác nhân người dùng AdsBot-Google
Chuỗi tác nhân người dùng đầy đủ AdsBot-Google (+http://www.google.com/adsbot.html)

Googlebot Image

Mã tác nhân người dùng
  • Googlebot-Image
  • Googlebot
Chuỗi tác nhân người dùng đầy đủ Googlebot-Image/1.0

Googlebot News

Mã tác nhân người dùng
  • Googlebot-News
  • Googlebot
Chuỗi tác nhân người dùng đầy đủ Googlebot-News

Googlebot Video

Mã tác nhân người dùng
  • Googlebot-Video
  • Googlebot
Chuỗi tác nhân người dùng đầy đủ Googlebot-Video/1.0

Googlebot Desktop

Mã tác nhân người dùng Googlebot
Chuỗi tác nhân người dùng đầy đủ
  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36
  • Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot Smartphone

Mã tác nhân người dùng Googlebot
Chuỗi tác nhân người dùng đầy đủ Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Mobile AdSense

Mã tác nhân người dùng Mediapartners-Google
Chuỗi tác nhân người dùng đầy đủ (Various mobile device types) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Mobile Apps Android

Kiểm tra chất lượng quảng cáo trên trang cho ứng dụng Android. Tuân theo quy tắc trong tệp robots đối với AdsBot-Google.

Mã tác nhân người dùng AdsBot-Google-Mobile-Apps
Chuỗi tác nhân người dùng đầy đủ AdsBot-Google-Mobile-Apps

Feedfetcher

Mã tác nhân người dùng FeedFetcher-Google
Chuỗi tác nhân người dùng đầy đủ FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Google Read Aloud

Mã tác nhân người dùng Google-Read-Aloud
Chuỗi tác nhân người dùng đầy đủ

Những tác nhân hiện có:

  • Tác nhân cho máy tính:
    Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/0376108573 Safari/537.36 (compatible; Google-Read-Aloud; +https://developers.google.com/search/docs/advanced/crawling/overview-google-crawlers)
  • Tác nhân cho thiết bị di động:
    Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/0376108573 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://developers.google.com/search/docs/advanced/crawling/overview-google-crawlers)

Tác nhân cũ (không dùng nữa):

google-speakr

Duplex trên web

Mã tác nhân người dùng DuplexWeb-Google
Chuỗi tác nhân người dùng đầy đủ Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/0376108573 Mobile Safari/537.36

Google Favicon

Mã tác nhân người dùng Google Favicon
Chuỗi tác nhân người dùng đầy đủ Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/0376108573 Safari/537.36 Google Favicon

Web Light

Mã tác nhân người dùng googleweblight
Chuỗi tác nhân người dùng đầy đủ Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/0376108573 Mobile Safari/535.19

Google StoreBot

Mã tác nhân người dùng Storebot-Google
Chuỗi tác nhân người dùng đầy đủ
  • Tác nhân cho máy tính:

    Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/0376108573 Safari/537.36

  • Tác nhân cho thiết bị di động:

    Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD0376108573; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/0376108573 Mobile Safari/537.36

Tác nhân người dùng trong tệp robots.txt

Trong trường hợp tệp robots.txt ghi nhận nhiều tác nhân người dùng, Google sẽ tuân theo tác nhân cụ thể nhất. Nếu bạn muốn mọi trình thu thập dữ liệu của Google đều có thể thu thập dữ liệu các trang của bạn, thì bạn không cần tệp robots.txt gì hết. Nếu bạn muốn chặn hoặc cho phép mọi trình thu thập dữ liệu của Google truy cập một số nội dung, bạn có thể thực hiện bằng cách chỉ định Googlebot làm tác nhân người dùng. Ví dụ: nếu bạn muốn tất cả các trang của bạn xuất hiện trên Google Tìm kiếm và muốn quảng cáo AdSense xuất hiện trên các trang của mình thì bạn không cần dùng tệp robots.txt. Tương tự như vậy, nếu bạn muốn chặn hoàn toàn một số trang khỏi Google, việc chặn tác nhân người dùng Googlebot cũng sẽ chặn mọi tác nhân người dùng khác của Google.

Tuy nhiên, bạn có thể thiết lập chi tiết hơn nếu muốn kiểm soát cụ thể hơn. Ví dụ: có thể bạn muốn toàn bộ các trang của mình xuất hiện trên Google Tìm kiếm, nhưng lại không muốn Google thu thập dữ liệu hình ảnh trong thư mục cá nhân của bạn. Trong trường hợp này, hãy sử dụng tệp robots.txt để không cho phép tác nhân người dùng Googlebot-Image thu thập dữ liệu của các tệp trong thư mục cá nhân của bạn (nhưng vẫn cho phép Googlebot thu thập dữ liệu của mọi tệp), chẳng hạn như sau:

[external_link offset=2]

 User-agent: Googlebot Disallow: User-agent: Googlebot-Image Disallow: /personal

Trong một ví dụ khác, giả sử bạn muốn có quảng cáo trên tất cả các trang của bạn, nhưng bạn không muốn những trang đó xuất hiện trong Google Tìm kiếm. Trong trường hợp này, bạn cần chặn Googlebot nhưng cho phép tác nhân người dùng Mediapartners-Google, chẳng hạn như sau:

 User-agent: Googlebot Disallow: / User-agent: Mediapartners-Google Disallow:

Có một số trang dùng nhiều thẻ meta robots để chỉ định các lệnh cho nhiều trình thu thập dữ liệu, chẳng hạn như sau:

 <meta name="robots" content="nofollow"> <meta name="googlebot" content="noindex">

Trong trường hợp này, Google sẽ sử dụng tổng hợp các lệnh cấm và Googlebot sẽ tuân theo cả hai lệnh noindexnofollow. Xem thông tin chi tiết hơn về việc kiểm soát cách Google thu thập dữ liệu và lập chỉ mục trang web của bạn.

Except as otherwise noted, the content of this page is licensed under the Creative Commons Attribution 4.0 License, and code samples are licensed under the Apache 2.0 License. For details, see the Google Developers Site Policies. Java is a registered trademark of Oracle and/or its affiliates.

Last updated 0376108573 UTC.

[external_footer]

Leave a comment