1. 模型概述
SiteMCP 是一款创新的开源工具,它能将任何网站的内容抓取、缓存并转换为一个功能完整的 MCP (Model Context Protocol) 服务器。简单来说,它能把静态的网页内容,变成可以被AI助手(如Claude、Cursor中的AI)直接查询和交互的动态知识库,实现了从“浏览网站”到“对话知识库”的范式转变。
1.1 能力评估
SiteMCP的核心能力是网站内容的自动化提取与结构化服务。它能完成的主要任务包括:
-
整站抓取:自动遍历并抓取目标网站内的大量页面。
-
精准内容提取:通过CSS选择器从复杂的网页布局中精确抓取核心内容(如文章正文),过滤无关的导航栏、广告等。
-
内容转换与伺服:将抓取的纯文本内容转换为符合MCP协议的格式,并启动一个本地服务器,供支持MCP的客户端调用。
-
智能过滤与匹配:使用
micromatch模式,只抓取符合特定路径规则的页面(例如,仅抓取/docs/目录下的所有页面),极大提高效率。
其主要可配置参数如下表所示:
| 参数 | 说明 | 示例 |
|---|---|---|
--concurrency |
并发抓取线程数,影响抓取速度 | --concurrency 8 |
--match / -m |
使用micromatch模式匹配特定页面路径 | -m "/zh-CN/docs/**/*.md" |
--content-selector |
指定CSS选择器以提取页面特定区域 | --content-selector ".article-content" |
--max-length / -l |
设置单页面最大抓取内容长度,避免过长 | -l 12000 |
--tool-name-strategy |
定义生成工具名的策略(domain, subdomain, pathname) | -t subdomain |
--delay |
设置请求延时,避免触发反爬机制 | --delay 1000 |
1.2 技术特点介绍
-
轻量级与易用性:通过一行命令即可开始抓取,无需复杂配置,与功能更复杂的RAG技术相比,其便捷性突出。
-
双重内容识别:结合自动识别(对标准网页结构)和CSS选择器手动指定两种模式,灵活应对各类网站。
-
内置缓存机制:具有磁盘缓存功能,重复抓取相同网站时效率大幅提升。
-
协议标准化:输出为标准MCP服务器,可无缝集成至日益壮大的MCP生态系统。
1.3 应用场景
-
技术文档本地化与离线检索:将Vue.js、React等官方文档抓取为本地知识库,集成到IDE中,实现低延迟、离线的智能问答和代码提示。
-
竞品分析与市场调研:定时抓取竞争对手的产品介绍、定价页面,自动构建结构化数据用于对比分析。
-
个人或团队知识库构建:将多个技术博客、维基页面聚合为统一的、可通过自然语言查询的知识中枢。
-
学术研究:批量抓取论文摘要网站(如arXiv)的特定领域文章,构建专题文献库。
2. 安装与部署方式
2.1 核心环境准备
SiteMCP基于Node.js开发,因此在所有操作系统上,第一步都是安装Node.js (版本建议≥16)。请访问 Node.js官网 下载并安装适合您操作系统的LTS版本。
2.2 Windows系统安装
-
安装Node.js:从官网下载
.msi安装包,默认设置安装即可。 -
打开终端:以管理员身份打开
命令提示符或PowerShell。 -
全局安装SiteMCP:
npm install -g sitemcp
或使用更快的
pnpm:# 如果没有pnpm,先安装pnpm npm install -g pnpm pnpm add -g sitemcp
-
验证安装:安装完成后,运行以下命令,如能显示版本号则成功。
sitemcp --version
2.3 macOS系统安装
-
安装Node.js:可通过官网下载包安装,或使用Homebrew(推荐):
brew install node
-
打开终端:打开
Terminal应用。 -
全局安装SiteMCP:
npm install -g sitemcp
或:
sudo npm install -g sitemcp # 如果需要权限
-
验证安装:同上。
2.4 Linux系统安装
以Ubuntu/Debian为例:
-
安装Node.js:
# 使用NodeSource仓库安装最新LTS版 curl -fsSL https://deb.nodesource.com/setup_lts.x | sudo -E bash - sudo apt-get install -y nodejs
-
全局安装SiteMCP:
sudo npm install -g sitemcp
-
验证安装:同上。
2.5 安装常见问题与修复
| 问题 | 可能原因 | 解决方案 |
|---|---|---|
命令未找到 (sitemcp: command not found) |
Node.js全局模块路径未加入系统PATH。 | 1. 查找npm全局路径:npm config get prefix。2. 将该路径(如 /usr/local/bin)添加到系统的PATH环境变量中。 |
权限错误 (EACCES) |
无权限写入npm的全局安装目录。 | 使用sudo以管理员权限安装,或使用npm官方推荐方式重置全局目录权限。 |
| 网络抓取失败 | 目标网站有反爬或网络不稳定。 | 1. 增加--delay参数,降低请求频率。2. 更换网络环境或配置代理。 |
| 内容抓取为空 | 页面为动态渲染(如SPA),或CSS选择器不匹配。 | 1. 增加--delay等待页面加载。2. 使用浏览器开发者工具检查元素,修正 --content-selector参数。 |
3. 配套客户端
SiteMCP生成的服务器需要支持MCP协议的客户端才能交互。以下是主流免费客户端:
| 客户端名称 | 类型 | 付费情况 | 配置简述 |
|---|---|---|---|
| Claude Desktop | 桌面AI助手 | 免费 | 在claude_desktop_config.json中添加SiteMCP服务器配置。 |
| Cursor | AI驱动的IDE | 免费/付费 | 在编辑器设置或项目级的mcp.json中配置。 |
| VS Code (with MCP扩展) | 代码编辑器 | 免费 | 安装MCP相关扩展,在扩展设置中配置服务器信息。 |
通用配置步骤:
-
在客户端配置文件中找到
mcpServers部分。 -
添加一个指向SiteMCP的配置块,通常以命令行形式调用。例如,为Claude Desktop配置可能是这样的:
{ "mcpServers": { "my-docs": { "command": "npx", "args": [ "sitemcp", "https://example.docs.com", "--match", "/guides/**" ] } } }
-
重启客户端,即可在AI对话中使用新加入的网站知识工具。
4. 案例讲解:将技术文档变为Claude的“记忆”
目标:将 https://tailwindcss.com/docs 的文档抓取下来,并配置到Claude Desktop中,让Claude可以回答关于Tailwind CSS的详细问题。
步骤:
-
抓取网站内容
我们只抓取/docs/路径下的核心文档,并指定内容选择器以提高质量。sitemcp https://tailwindcss.com/docs \ --match "/docs/**" \ --content-selector ".prose" \ --concurrency 5 \ --max-length 15000 \ --tool-name-strategy pathname
-
--match "/docs/**":只抓取/docs/目录下的所有页面。 -
--content-selector ".prose":假设该网站使用.prose类包裹文档正文。 -
--concurrency 5:中等并发,平衡速度与负载。 -
--tool-name-strategy pathname:工具名将包含路径信息,便于区分。
-
-
配置Claude Desktop
找到你的Claude Desktop配置文件(通常在~/Library/Application Support/Claude(macOS)或%APPDATA%\Claude(Windows))。
编辑claude_desktop_config.json,添加如下配置:{ "mcpServers": { "tailwind-docs": { "command": "node", "args": [ "/usr/local/bin/sitemcp", // 替换为你的sitemcp实际路径 "https://tailwindcss.com/docs", "--match", "/docs/**", "--content-selector", ".prose", "--serve-only" // 关键参数:仅启动服务器,不重新抓取 ] } } }
注意:首次配置时,建议先通过命令行完成抓取(步骤1),然后在配置中使用
--serve-only参数直接启动服务器,避免每次启动Claude都重新抓取。 -
使用与验证
-
保存配置并重启Claude Desktop。
-
新建对话,Claude的能力列表中应该会出现新的工具(例如名为
tailwind_docs的工具)。 -
你可以直接提问:“如何使用Tailwind CSS实现一个Flexbox布局?” Claude会调用本地的文档知识库来回答。
-
5. 使用成本与商业价值评估
5.1 使用成本
-
金钱成本:几乎为零。SiteMCP及其配套的典型客户端(如Claude Desktop基础功能)均为开源或免费工具。
-
时间成本:学习曲线平缓。掌握基础抓取命令和客户端配置通常在1小时内即可完成。对于大型网站的抓取可能耗时较长,但属于自动化过程。
-
技术成本:需要基本的命令行操作知识和对目标网站HTML结构的简单了解(用于确定CSS选择器)。
5.2 商业价值与收益
-
效率倍增:将人工查找、阅读文档的时间,压缩为AI秒级问答。对于开发团队,能显著减少因查找信息导致的工作流中断。
-
数据资产化:将外部公开的网站信息(如竞品动态、行业标准)转化为可程序化查询、分析与监控的结构化私有数据资产,支持更智能的商业决策。
-
知识留存与传承:为团队创建定制化的、实时更新的技术知识库,降低新人培训成本,统一技术解答口径。
-
创新场景赋能:为构建更复杂的AI智能体(Agent)提供了稳定、可控的知识来源,是低成本验证AI应用场景的优质“数据燃料”。
总结:SiteMCP是一款以极低成本获取显著效率提升的工具。它巧妙地在“简单易用”和“功能强大”之间找到了平衡,特别适合开发者、技术团队、研究者和内容工作者,用于将海量的公共网络信息转化为唾手可得的私人智慧。随着MCP生态的蓬勃发展,其作为“信息管道”的价值将会进一步凸显。

关注 “悠AI” 更多干货技巧行业动态