125 lines
2.6 KiB
Markdown
125 lines
2.6 KiB
Markdown
# 轻量级监控配置指南
|
||
|
||
> **配置时间:** 2026-03-10
|
||
> **监控类型:** 错误监控、性能监控、可用性监控
|
||
|
||
## 监控服务概览
|
||
|
||
### 1. Sentry - 错误监控与追踪
|
||
|
||
**配置文件:**
|
||
- `sentry.client.config.ts` - 客户端配置
|
||
- `sentry.server.config.ts` - 服务端配置
|
||
|
||
**环境变量:**
|
||
```bash
|
||
NEXT_PUBLIC_SENTRY_DSN=https://your-dsn@sentry.io/project-id
|
||
```
|
||
|
||
**功能:**
|
||
- 实时错误捕获和报告
|
||
- 性能追踪(tracesSampleRate: 1.0)
|
||
- 会话回放(replaysSessionSampleRate: 0.1)
|
||
- 错误时回放(replaysOnErrorSampleRate: 1.0)
|
||
|
||
**访问地址:**
|
||
- Dashboard: https://sentry.io/
|
||
|
||
**配置说明:**
|
||
- 开发环境不发送错误(beforeSend过滤)
|
||
- 生产环境完整监控
|
||
- 所有文本和媒体已脱敏处理
|
||
|
||
### 2. Next.js Analytics - 性能监控
|
||
|
||
**配置:**
|
||
- 已集成到 `src/app/layout.tsx`
|
||
- 使用 `<Analytics />` 组件
|
||
|
||
**功能:**
|
||
- Web Vitals 监控
|
||
- 页面浏览量统计
|
||
- 用户行为分析
|
||
|
||
**访问地址:**
|
||
- Dashboard: https://vercel.com/analytics
|
||
|
||
### 3. UptimeRobot - 可用性监控
|
||
|
||
**监控配置:**
|
||
- 主站点监控: https://www.novalon.cn
|
||
- 健康检查监控: https://www.novalon.cn/api/health
|
||
- 检查间隔: 5分钟
|
||
- 告警通知: 邮箱、手机号
|
||
|
||
**访问地址:**
|
||
- Dashboard: https://uptimerobot.com/dashboard
|
||
|
||
**告警规则:**
|
||
- 站点不可用时立即告警
|
||
- 响应时间 > 5s 时告警
|
||
- SSL证书即将过期时告警
|
||
|
||
## 监控指标
|
||
|
||
### 错误率目标
|
||
- P0 错误: < 0.1%
|
||
- P1 错误: < 1%
|
||
- P2 错误: < 5%
|
||
|
||
### 性能目标
|
||
- 首页加载时间: < 2s
|
||
- 页面交互延迟: < 100ms
|
||
- P95 响应时间: < 500ms
|
||
|
||
### 可用性目标
|
||
- 月度可用性: > 99.9%
|
||
- 年度可用性: > 99.5%
|
||
|
||
## 告警通知
|
||
|
||
### 告警级别
|
||
- **P0 (紧急):** 立即通知(电话 + 短信 + 邮件)
|
||
- **P1 (重要):** 5分钟内通知(短信 + 邮件)
|
||
- **P2 (一般):** 30分钟内通知(邮件)
|
||
|
||
### 告警场景
|
||
- 站点不可用
|
||
- 错误率超过阈值
|
||
- 性能指标下降
|
||
- 安全事件
|
||
|
||
## 监控验证
|
||
|
||
### 日常检查
|
||
1. 每日检查 Sentry 错误报告
|
||
2. 每日检查 UptimeRobot 可用性
|
||
3. 每周检查 Analytics 性能趋势
|
||
|
||
### 上线前检查
|
||
- [ ] Sentry 配置正确
|
||
- [ ] Analytics 数据正常
|
||
- [ ] UptimeRobot 监控已启用
|
||
- [ ] 告警通知已配置
|
||
|
||
## 故障响应
|
||
|
||
### 响应时间
|
||
- P0 故障: 15分钟内响应
|
||
- P1 故障: 30分钟内响应
|
||
- P2 故障: 2小时内响应
|
||
|
||
### 处理流程
|
||
1. 接收告警
|
||
2. 确认问题
|
||
3. 评估影响
|
||
4. 执行修复或回滚
|
||
5. 验证恢复
|
||
6. 复盘分析
|
||
|
||
## 联系人
|
||
|
||
- 技术负责人: [待填写]
|
||
- 运维负责人: [待填写]
|
||
- 监控负责人: [待填写]
|