在 Web 运营与 SEO 管理中,识别哪些访问是搜索引擎爬虫非常关键。通过分析爬虫的 User-Agent,可以更好地管理 robots.txt 规则、日志分析、缓存策略以及防止伪造爬虫。下面是截至 2025 年常见的主流搜索引擎爬虫的 User-Agent 样式与说明。
各大搜索引擎爬虫 User-Agent 全名单
1. Google 系列爬虫(Googlebot)
标准 Google 爬虫用于抓取网页内容,其 User-Agent 通常为:Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)。
Googlebot 有桌面与移动版本(Desktop / Smartphone),后者的 User-Agent 会带有类似 Mobile Safari 或仿照安卓/iOS 浏览器的标识。
Google 的其它专用抓取器如:Googlebot-Image、Googlebot-Video、Googlebot-News。举例子,Image 爬虫常用 Googlebot-Image/1.0。
特殊工具类爬虫/抓取器包括 AdsBot(广告着陆页质量评估)、Mediapartners-Google(用于 AdSense 内容评估)和 Google-InspectionTool(Search Console 的 URL 检查等)。
2. Bing / Microsoft 系列爬虫(Bingbot)
Bing 的标准爬虫叫做 Bingbot,User-Agent 通常是:Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)。这个是最基础的样式,用于大多数网页抓取任务。
Bing 还有一些变种,如为移动页面或特定内容服务定制的版本,但核心识别标识“bingbot”一般不变。
3. Baidu 百度爬虫(Baiduspider 系列)
Baiduspider 是百度主要的网页抓取机器人,其 User-Agent 为:Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)。
除了网页抓取之外,百度也有图片抓取 Bot(Baiduspider-image)、视频抓取 Bot 等,这些 User-Agent 字符串中会带有 "image" 或 "video" 的标识。
4. Yandex 爬虫
俄罗斯搜索引擎 Yandex 的爬虫通常为 “YandexBot” 或带有 “Yandex” 标识的名称,如 Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)。
5. Yahoo 爬虫(Slurp)
Yahoo 的爬虫被称为 Slurp,其 User-Agent 示例为:Mozilla/5.0 (compatible; Yahoo! Slurp; +http://help.yahoo.com/help/us/ysearch/slurp)。
Yahoo 在某些区域可能还有本地化版本的 “Slurp China” 等标识。
6. DuckDuckGo、其它隐私 /新兴搜索爬虫
DuckDuckGo 的爬虫名为 DuckDuckBot,其 User-Agent 像是 DuckDuckBot/1.0; (+http://duckduckgo.com/duckduckbot.html)。
随着 AI 和新型搜索服务的兴起,还有一些新的抓取器/爬虫出现,例如 GPTBot、ClaudeBot 等,在访问日志中可能出现 “GPTBot” 或 “ClaudeBot” 等用户代理标识。
应用场景与最佳做法
了解这些 User-Agent 不仅是为了观测日志,也是为了控制哪些爬虫能访问、哪些需限速或屏蔽,以及如何在 robots.txt 中正确配置。以下是一些建议:
- 在 robots.txt 中明确声明这些合法搜索引擎爬虫的 User-Agent,让它们能够抓取你希望被抓取的内容,同时避免误屏蔽。
- 对流量大的爬虫可以设置访问频率限制或使用缓存策略,以减少服务器压力。
- 对日志进行分析时,不要仅凭 User-Agent 判断爬虫真实性,因为伪造 User-Agent 很容易。建议结合 IP 地址反向 DNS 验证来确认是合法爬虫。
- 如果你有静态资源(如图片、脚本、样式表等),考虑允许这些爬虫访问这些资源,以便它们正确渲染页面内容。
总结
掌握各大搜索引擎爬虫的 User-Agent 样式,对 SEO 优化、日志分析与站点安全都有重要意义。从 Googlebot、Bingbot、Baiduspider 到 YandexBot、Slurp、DuckDuckBot,以及新兴的 AI 搜索爬虫,识别并正确配置,对提升网站可见性与性能非常有帮助。务必定期更新你掌握的爬虫列表,因为这些 User-Agent 会随着搜索引擎策略与服务变化而更新。