# 部署运维文档
> 文档编号: GYM-OPS-DEPLOY-001
> 版本: v1.0
> 日期: 2026-03-04
> 作者: 张翔
> 状态: 正式发布
---
## 文档修订历史
| 版本 | 日期 | 作者 | 修订内容 |
| ---- | ---------- | ---- | ------------------ |
| v1.0 | 2026-03-04 | 张翔 | 创建部署运维文档 |
---
## 参考文档
- 《健身房管理系统技术架构设计文档》 GYM-HLD-TECH-001
- 《健身房管理系统响应式编程规范文档》 GYM-STD-REACTIVE-001
- Docker 官方文档
- Docker Compose 官方文档
---
## 一、部署架构
### 1.1 部署拓扑
```mermaid
flowchart TB
subgraph 部署架构拓扑
A[用户层
• 会员小程序
• 教练端App
• 管理后台PC]
B[负载均衡层 Nginx
• 负载均衡
• SSL 终止
• 静态资源
• 限流]
C[应用层 Docker Compose
• gym-manage 应用
• postgres 数据库
• redis 缓存
• rabbitmq 消息队列
• elasticsearch 搜索引擎
• prometheus 监控
• grafana 可视化
• kibana 日志可视化]
D[监控层 Prometheus + Grafana
• 指标采集
• 告警规则
• 可视化仪表板]
end
A --> B
B --> C
C --> D
```
### 1.2 服务器配置
#### 1.2.1 生产环境配置
| 组件 | CPU | 内存 | 磁盘 | 用途 |
|------|------|------|------|
| **应用服务器** | 4 核 | 8GB | 100GB | 运行应用 |
| **数据库服务器** | 8 核 | 16GB | 500GB | PostgreSQL |
| **缓存服务器** | 2 核 | 4GB | 50GB | Redis |
| **消息队列服务器** | 2 核 | 4GB | 100GB | RabbitMQ |
| **搜索服务器** | 4 核 | 8GB | 200GB | Elasticsearch |
| **监控服务器** | 2 核 | 4GB | 50GB | Prometheus + Grafana |
**推荐配置**:
- 初期:应用 + 数据库 + 缓存部署在同一台服务器(8 核 16GB)
- 中期:应用独立部署(4 核 8GB),数据库独立部署(8 核 16GB)
- 长期:各组件独立部署,提高可用性
#### 1.2.2 开发环境配置
| 组件 | CPU | 内存 | 磁盘 | 用途 |
|------|------|------|------|
| **开发服务器** | 4 核 | 8GB | 100GB | 开发测试 |
---
## 二、环境准备
### 2.1 系统要求
#### 2.1.1 操作系统
- **推荐**:Ubuntu 20.04 LTS / 22.04 LTS
- **兼容**:CentOS 7+ / Debian 10+
- **内核版本**:>= 4.15
#### 2.1.2 软件依赖
| 软件 | 版本 | 用途 |
|------|------|------|
| **Docker** | 24.x+ | 容器化部署 |
| **Docker Compose** | 2.20.x+ | 容器编排 |
| **Git** | 2.30+ | 版本控制 |
| **JDK** | 17+ | 运行环境 |
| **Maven** | 3.9.x+ | 项目构建 |
### 2.2 环境安装
#### 2.2.1 安装 Docker
```bash
# Ubuntu/Debian
curl -fsSL https://get.docker.com -o get-docker.sh
sudo sh get-docker.sh
# 启动 Docker 服务
sudo systemctl start docker
sudo systemctl enable docker
# 验证安装
docker --version
docker info
```
#### 2.2.2 安装 Docker Compose
```bash
# 下载 Docker Compose
sudo curl -L "https://github.com/docker/compose/releases/latest/download/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose
# 添加执行权限
sudo chmod +x /usr/local/bin/docker-compose
# 验证安装
docker-compose --version
```
#### 2.2.3 安装 JDK
```bash
# Ubuntu/Debian
sudo apt update
sudo apt install -y openjdk-17-jdk
# 验证安装
java -version
```
#### 2.2.4 安装 Maven
```bash
# 下载 Maven
wget https://dlcdn.apache.org/maven/maven-3/3.9.5/binaries/apache-maven-3.9.5-bin.tar.gz
# 解压
tar -xzf apache-maven-3.9.5-bin.tar.gz
# 移动到 /opt
sudo mv apache-maven-3.9.5 /opt/maven
# 配置环境变量
echo 'export PATH=/opt/maven/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
# 验证安装
mvn -version
```
---
## 三、部署流程
### 3.1 代码部署
#### 3.1.1 克隆代码
```bash
# 克隆代码仓库
git clone
cd gym-manage
# 查看分支
git branch -a
# 切换到生产分支
git checkout production
# 拉取最新代码
git pull origin production
```
#### 3.1.2 配置环境变量
```bash
# 复制环境变量模板
cp .env.example .env
# 编辑环境变量
vim .env
```
**.env 文件示例**:
```bash
# 数据库配置
DB_USERNAME=postgres
DB_PASSWORD=your-strong-password
# Redis 配置
REDIS_PASSWORD=your-strong-password
# RabbitMQ 配置
MQ_USERNAME=admin
MQ_PASSWORD=your-strong-password
# Grafana 配置
GRAFANA_USER=admin
GRAFANA_PASSWORD=your-strong-password
# Spring 配置
SPRING_PROFILES_ACTIVE=prod
# JVM 配置 (响应式编程最佳实践)
JAVA_OPTS=-Xms512m -Xmx1024m -XX:+UseZGC -XX:ZAllocationSpikeTolerance=5 -XX:+UnlockExperimentalVMOptions -XX:+UseTransparentHugePages -XX:+AlwaysPreTouch
```
#### 3.1.3 构建镜像
```bash
# 构建应用镜像
docker-compose build gym-manage
# 查看镜像
docker images | grep gym-manage
```
### 3.2 服务部署
#### 3.2.1 启动所有服务
```bash
# 启动所有服务
docker-compose up -d
# 查看服务状态
docker-compose ps
# 查看日志
docker-compose logs -f gym-manage
```
#### 3.2.2 启动单个服务
```bash
# 启动数据库
docker-compose up -d postgres
# 启动应用
docker-compose up -d gym-manage
# 查看应用日志
docker-compose logs -f gym-manage
```
#### 3.2.3 健康检查
```bash
# 检查应用健康状态
curl http://localhost:8080/actuator/health
# 检查数据库连接
docker-compose exec postgres pg_isready -U postgres
# 检查 Redis 连接
docker-compose exec redis redis-cli ping
# 检查 RabbitMQ 连接
curl http://localhost:15672/api/overview -u admin:admin123
```
### 3.3 数据库初始化
#### 3.3.1 创建数据库
```bash
# 连接到 PostgreSQL
docker-compose exec postgres psql -U postgres
# 创建数据库
CREATE DATABASE gym_manage;
# 创建用户
CREATE USER gym_manage WITH PASSWORD 'your-password';
# 授权
GRANT ALL PRIVILEGES ON DATABASE gym_manage TO gym_manage;
# 退出
\q
```
#### 3.3.2 执行初始化脚本
```bash
# 执行初始化脚本
docker-compose exec -T postgres psql -U postgres -d gym_manage < sql/init.sql
```
---
## 四、更新部署
### 4.1 代码更新
#### 4.1.1 拉取最新代码
```bash
# 拉取最新代码
git pull origin production
# 查看变更
git log --oneline -5
```
#### 4.1.2 重新构建
```bash
# 停止服务
docker-compose down
# 重新构建镜像
docker-compose build gym-manage
# 启动服务
docker-compose up -d
```
### 4.2 滚动更新
#### 4.2.1 零停机更新
```bash
# 启动新实例
docker-compose up -d --scale gym-manage=2
# 等待新实例就绪
sleep 30
# 停止旧实例
docker-compose up -d --scale gym-manage=1
```
### 4.3 回滚部署
#### 4.3.1 快速回滚
```bash
# 回滚到上一个版本
git checkout HEAD~1
# 重新构建
docker-compose build gym-manage
# 启动服务
docker-compose up -d
```
#### 4.3.2 使用 Docker 镜像回滚
```bash
# 查看镜像历史
docker images | grep gym-manage
# 使用上一个镜像
docker-compose up -d --no-deps gym-manage
```
---
## 五、监控运维
### 5.1 监控体系
#### 5.1.1 Prometheus 监控
**访问地址**:http://your-server:9090
**主要功能**:
- 指标采集
- 数据存储
- 告警规则
- 查询接口
#### 5.1.2 Grafana 可视化
**访问地址**:http://your-server:3000
**默认账号**:
- 用户名:admin
- 密码:admin123
**主要功能**:
- 数据可视化
- 仪表板配置
- 告警通知
- 用户管理
#### 5.1.3 Kibana 日志可视化
**访问地址**:http://your-server:5601
**主要功能**:
- 日志查询
- 日志分析
- 可视化图表
- 告警配置
### 5.2 日志管理
#### 5.2.1 应用日志
```bash
# 查看实时日志
docker-compose logs -f gym-manage
# 查看最近 100 行日志
docker-compose logs --tail=100 gym-manage
# 查看特定时间的日志
docker-compose logs --since 2026-01-01T00:00:00 gym-manage
```
#### 5.2.2 日志文件
```bash
# 查看日志文件
tail -f logs/gym-manage.log
# 查看错误日志
grep ERROR logs/gym-manage.log
# 统计错误数量
grep -c ERROR logs/gym-manage.log
```
### 5.3 告警配置
#### 5.3.1 告警规则
**文件位置**:`monitoring/alerts.yml`
**告警类型**:
- 高错误率
- 高响应时间
- 高内存使用率
- 数据库连接池耗尽
- 缓存命中率低
#### 5.3.2 告警通知
**通知方式**:
- 邮件通知
- 钉钉通知
- 企业微信通知
- 短信通知
**配置示例**:
```yaml
alertmanager:
receivers:
- name: 'email'
email_configs:
- to: 'your-email@example.com'
from: 'alertmanager@example.com'
smarthost: 'smtp.example.com:587'
auth_username: 'your-email@example.com'
auth_password: 'your-password'
```
---
## 六、性能优化
### 6.1 应用优化
#### 6.1.1 JVM 参数调优
```bash
# 生产环境推荐参数 (响应式编程最佳实践)
JAVA_OPTS=-Xms1024m -Xmx2048m -XX:+UseZGC -XX:ZAllocationSpikeTolerance=5 -XX:+UnlockExperimentalVMOptions -XX:+UseTransparentHugePages -XX:+AlwaysPreTouch -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/app/logs/heapdump.hprof
```
**参数说明**:
- `-Xms`:初始堆内存大小
- `-Xmx`:最大堆内存大小
- `-XX:+UseZGC`:使用 ZGC 垃圾回收器(响应式编程推荐)
- `-XX:ZAllocationSpikeTolerance`:分配峰值容忍度
- `-XX:+UnlockExperimentalVMOptions`:解锁实验性选项
- `-XX:+UseTransparentHugePages`:使用透明大页
- `-XX:+AlwaysPreTouch`:预分配内存
- `-XX:+HeapDumpOnOutOfMemoryError`:内存溢出时生成堆转储
- `-XX:HeapDumpPath`:堆转储文件路径
**ZGC 优势**:
- 低延迟:GC 暂停时间通常 < 10ms
- 高吞吐量:适合响应式编程的高并发场景
- 大堆支持:支持 TB 级堆内存
- 自适应:自动调整 GC 参数
#### 6.1.2 连接池调优
```yaml
# application-prod.yml (响应式编程最佳实践)
spring:
r2dbc:
pool:
initial-size: 5 # 初始连接数(响应式编程推荐较少连接)
max-size: 20 # 最大连接数(响应式编程推荐较少连接)
max-idle-time: 30m # 最大空闲时间
max-life-time: 1h # 最大生命周期
acquire-timeout: 10s # 获取连接超时时间(响应式编程推荐较长超时)
max-create-connection-time: 30s # 创建连接最大时间
max-validation-time: 5s # 验证连接最大时间
```
**连接池配置说明**:
- 响应式编程使用较少的连接数(5-20)即可支持高并发
- 连接获取超时时间设置为 10s,避免快速失败
- 使用连接池复用,减少连接创建开销
### 6.2 数据库优化
#### 6.2.1 PostgreSQL 配置(响应式编程优化)
```bash
# postgresql.conf (响应式编程最佳实践)
# 内存配置
shared_buffers = 512MB # 共享缓冲区(响应式编程推荐较大值)
effective_cache_size = 2GB # 有效缓存大小
maintenance_work_mem = 128MB # 维护工作内存
work_mem = 32MB # 工作内存(响应式编程推荐较大值)
# WAL 配置
wal_buffers = 64MB # WAL 缓冲区
min_wal_size = 2GB # 最小 WAL 大小
max_wal_size = 8GB # 最大 WAL 大小
checkpoint_completion_target = 0.9 # 检查点完成目标
# 并发配置
max_connections = 200 # 最大连接数(响应式编程推荐较少连接)
max_worker_processes = 8 # 最大工作进程数
max_parallel_workers_per_gather = 4 # 每个查询的最大并行工作进程数
max_parallel_workers = 8 # 最大并行工作进程数
# IO 配置
random_page_cost = 1.1 # 随机页面成本(SSD 优化)
effective_io_concurrency = 300 # 有效 IO 并发数(SSD 优化)
max_io_concurrency = 200 # 最大 IO 并发数
# 查询优化
default_statistics_target = 100 # 默认统计目标
from_collapse_limit = 8 # FROM 子句折叠限制
join_collapse_limit = 8 # JOIN 子句折叠限制
# 日志配置
log_min_duration_statement = 1000 # 记录执行时间超过 1s 的语句
log_line_prefix = '%t [%p]: [%l-1] user=%u,db=%d,app=%a,client=%h ' # 日志前缀
log_checkpoints = on # 记录检查点
log_connections = on # 记录连接
log_disconnections = on # 记录断开连接
log_lock_waits = on # 记录锁等待
```
#### 6.2.2 索引优化
```sql
-- 查看索引使用情况
SELECT schemaname, tablename, attname, n_distinct, correlation
FROM pg_stats
WHERE schemaname = 'public'
ORDER BY correlation DESC;
-- 查看慢查询
SELECT query, mean_exec_time, calls
FROM pg_stat_statements
ORDER BY mean_exec_time DESC
LIMIT 10;
```
### 6.3 缓存优化
#### 6.3.1 Redis 配置
```bash
# redis.conf
maxmemory 2gb
maxmemory-policy allkeys-lru
save 900 1
save 300 10
save 60 10000
```
**参数说明**:
- `maxmemory`:最大内存使用量
- `maxmemory-policy`:内存淘汰策略
- `save`:RDB 持久化策略
---
## 七、故障排查
### 7.1 常见问题
#### 7.1.1 应用启动失败
**症状**:应用无法启动
**排查步骤**:
```bash
# 查看应用日志
docker-compose logs gym-manage
# 检查配置文件
cat application-prod.yml
# 检查环境变量
docker-compose config
# 检查数据库连接
docker-compose exec postgres pg_isready -U postgres
```
**常见原因**:
- 数据库连接失败
- 配置文件错误
- 端口冲突
- 内存不足
#### 7.1.2 数据库连接失败
**症状**:应用无法连接数据库
**排查步骤**:
```bash
# 检查数据库状态
docker-compose ps postgres
# 查看数据库日志
docker-compose logs postgres
# 测试数据库连接
docker-compose exec postgres psql -U postgres -d gym_manage -c "SELECT 1;"
# 检查网络连接
docker-compose exec gym-manage ping postgres
```
**常见原因**:
- 数据库未启动
- 网络不通
- 用户名密码错误
- 数据库不存在
#### 7.1.3 性能下降
**症状**:响应时间变长
**排查步骤**:
```bash
# 查看应用日志
docker-compose logs gym-manage | grep "Slow query"
# 查看数据库慢查询
docker-compose exec postgres psql -U postgres -d gym_manage -c "SELECT * FROM pg_stat_statements ORDER BY mean_exec_time DESC LIMIT 10;"
# 查看系统资源
top
htop
# 查看数据库连接数
docker-compose exec postgres psql -U postgres -d gym_manage -c "SELECT count(*) FROM pg_stat_activity;"
```
**常见原因**:
- 慢查询
- 数据库连接池耗尽
- 缓存命中率低
- 系统资源不足
### 7.2 应急处理
#### 7.2.1 重启服务
```bash
# 重启应用
docker-compose restart gym-manage
# 重启数据库
docker-compose restart postgres
# 重启所有服务
docker-compose restart
```
#### 7.2.2 回滚版本
```bash
# 回滚到上一个版本
git checkout HEAD~1
# 重新构建
docker-compose build gym-manage
# 启动服务
docker-compose up -d
```
#### 7.2.3 扩容
```bash
# 增加应用实例
docker-compose up -d --scale gym-manage=2
# 增加数据库资源
docker-compose up -d --scale postgres=2
```
---
## 八、备份恢复
### 8.1 数据备份
#### 8.1.1 数据库备份
```bash
# 备份数据库
docker-compose exec postgres pg_dump -U postgres gym_manage > backup/gym_manage_$(date +%Y%m%d_%H%M%S).sql
# 压缩备份文件
gzip backup/gym_manage_$(date +%Y%m%d_%H%M%S).sql
```
#### 8.1.2 定时备份
```bash
# 添加 crontab 任务
crontab -e
# 每天凌晨 2 点备份数据库
0 2 * * * docker-compose exec -T postgres pg_dump -U postgres gym_manage > backup/gym_manage_$(date +\%Y\%m\%d_\%H\%M\%S).sql
# 每周日凌晨 3 点清理 7 天前的备份
0 3 * * 0 find backup -name "gym_manage_*.sql" -mtime +7 -delete
```
### 8.2 数据恢复
#### 8.2.1 数据库恢复
```bash
# 停止应用
docker-compose stop gym-manage
# 恢复数据库
docker-compose exec -T postgres psql -U postgres gym_manage < backup/gym_manage_20260101_020000.sql
# 启动应用
docker-compose start gym-manage
```
---
## 九、安全加固
### 9.1 网络安全
#### 9.1.1 防火墙配置
```bash
# 配置防火墙
sudo ufw allow 22/tcp # SSH
sudo ufw allow 80/tcp # HTTP
sudo ufw allow 443/tcp # HTTPS
sudo ufw enable
```
#### 9.1.2 SSL 证书
```bash
# 使用 Let's Encrypt 获取免费 SSL 证书
sudo apt install certbot
sudo certbot certonly --standalone -d your-domain.com
# 配置 Nginx SSL
vim nginx/nginx.conf
```
### 9.2 应用安全
#### 9.2.1 敏感数据加密
```bash
# 配置环境变量
export DB_PASSWORD=$(openssl rand -base64 32)
export REDIS_PASSWORD=$(openssl rand -base64 32)
export MQ_PASSWORD=$(openssl rand -base64 32)
```
#### 9.2.2 权限控制
```yaml
# application-prod.yml
spring:
security:
user:
name: admin
password: ${ADMIN_PASSWORD}
roles: ADMIN
```
---
## 六、监控告警详细配置
### 6.1 Prometheus 监控配置
#### 6.1.1 prometheus.yml 配置
**文件位置**: `monitoring/prometheus.yml`
```yaml
global:
scrape_interval: 15s # 采集间隔
evaluation_interval: 15s # 规则评估间隔
external_labels:
monitor: 'gym-manage'
environment: 'production'
# 告警规则配置
rule_files:
- "alerts.yml"
# 告警管理器配置
alerting:
alertmanagers:
- static_configs:
- targets:
- alertmanager:9093
# 采集配置
scrape_configs:
# Prometheus 自监控
- job_name: 'prometheus'
static_configs:
- targets: ['localhost:9090']
labels:
instance: 'prometheus-server'
# 应用监控
- job_name: 'gym-manage'
metrics_path: '/actuator/prometheus'
static_configs:
- targets: ['gym-manage:8080']
labels:
application: 'gym-manage'
environment: 'production'
scrape_interval: 10s
# Node 导出器
- job_name: 'node-exporter'
static_configs:
- targets: ['node-exporter:9100']
labels:
instance: 'server-node'
# Redis 导出器
- job_name: 'redis-exporter'
static_configs:
- targets: ['redis-exporter:9121']
labels:
instance: 'redis-server'
# PostgreSQL 导出器
- job_name: 'postgres-exporter'
static_configs:
- targets: ['postgres-exporter:9187']
labels:
instance: 'postgres-server'
# RabbitMQ 导出器
- job_name: 'rabbitmq-exporter'
static_configs:
- targets: ['rabbitmq-exporter:9419']
labels:
instance: 'rabbitmq-server'
```
#### 6.1.2 alerts.yml 告警规则
**文件位置**: `monitoring/alerts.yml`
```yaml
groups:
- name: gym-manage-alerts
interval: 30s
rules:
# 应用可用性告警
- alert: ApplicationDown
expr: up{job="gym-manage"} == 0
for: 1m
labels:
severity: critical
annotations:
summary: "应用不可用"
description: "应用 {{ $labels.instance }} 已宕机超过 1 分钟"
# 高错误率告警
- alert: HighErrorRate
expr: sum(rate(http_server_requests_seconds_count{status=~"5..", job="gym-manage"}[5m])) / sum(rate(http_server_requests_seconds_count{job="gym-manage"}[5m])) > 0.05
for: 5m
labels:
severity: warning
annotations:
summary: "高错误率"
description: "应用错误率超过 5% (当前值:{{ $value | humanizePercentage }})"
# 高响应时间告警
- alert: HighResponseTime
expr: histogram_quantile(0.95, sum(rate(http_server_requests_seconds_bucket{job="gym-manage"}[5m])) by (le)) > 1
for: 5m
labels:
severity: warning
annotations:
summary: "高响应时间"
description: "应用 P95 响应时间超过 1 秒 (当前值:{{ $value | humanizeDuration }})"
# 高内存使用率告警
- alert: HighMemoryUsage
expr: (jvm_memory_used_bytes{area="heap", job="gym-manage"} / jvm_memory_max_bytes{area="heap", job="gym-manage"}) > 0.85
for: 5m
labels:
severity: warning
annotations:
summary: "高内存使用率"
description: "JVM 堆内存使用率超过 85% (当前值:{{ $value | humanizePercentage }})"
# OOM 告警
- alert: OutOfMemory
expr: (jvm_memory_used_bytes{area="heap", job="gym-manage"} / jvm_memory_max_bytes{area="heap", job="gym-manage"}) > 0.95
for: 2m
labels:
severity: critical
annotations:
summary: "内存即将耗尽"
description: "JVM 堆内存使用率超过 95% (当前值:{{ $value | humanizePercentage }})"
# 数据库连接池耗尽告警
- alert: DatabaseConnectionPoolExhausted
expr: hikaricp_active_connections{job="gym-manage"} / hikaricp_max_connections{job="gym-manage"} > 0.9
for: 5m
labels:
severity: warning
annotations:
summary: "数据库连接池耗尽"
description: "数据库连接池使用率超过 90% (当前值:{{ $value | humanizePercentage }})"
# Redis 连接失败告警
- alert: RedisConnectionFailed
expr: redis_up{job="redis-exporter"} == 0
for: 1m
labels:
severity: critical
annotations:
summary: "Redis 连接失败"
description: "Redis {{ $labels.instance }} 连接失败"
# PostgreSQL 连接失败告警
- alert: PostgresConnectionFailed
expr: pg_up{job="postgres-exporter"} == 0
for: 1m
labels:
severity: critical
annotations:
summary: "PostgreSQL 连接失败"
description: "PostgreSQL {{ $labels.instance }} 连接失败"
# RabbitMQ 队列堆积告警
- alert: RabbitMQQueueBacklog
expr: rabbitmq_queue_messages{job="rabbitmq-exporter"} > 1000
for: 5m
labels:
severity: warning
annotations:
summary: "消息队列堆积"
description: "队列 {{ $labels.queue }} 消息数量超过 1000 (当前值:{{ $value }})"
# 磁盘空间不足告警
- alert: DiskSpaceLow
expr: (node_filesystem_avail_bytes{mountpoint="/"} / node_filesystem_size_bytes{mountpoint="/"}) < 0.15
for: 5m
labels:
severity: warning
annotations:
summary: "磁盘空间不足"
description: "服务器 {{ $labels.instance }} 根分区磁盘空间不足 15% (当前值:{{ $value | humanizePercentage }})"
# CPU 使用率过高告警
- alert: HighCPUUsage
expr: 100 - (avg by(instance) (rate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 85
for: 10m
labels:
severity: warning
annotations:
summary: "CPU 使用率过高"
description: "服务器 {{ $labels.instance }} CPU 使用率超过 85% (当前值:{{ $value | humanize }}%)"
```
### 6.2 Grafana 仪表板配置
#### 6.2.1 应用监控仪表板
**仪表板 ID**: `gym-manage-overview`
**主要面板**:
1. **应用健康状态**
- 应用在线状态
- 健康检查状态
- 运行时长
2. **流量指标**
- QPS (每秒请求数)
- 并发连接数
- 网络吞吐量
3. **响应时间**
- 平均响应时间
- P95 响应时间
- P99 响应时间
4. **错误率**
- HTTP 5xx 错误率
- HTTP 4xx 错误率
- 业务错误率
5. **JVM 指标**
- 堆内存使用率
- 非堆内存使用率
- GC 次数和时间
- 线程数
6. **数据库连接池**
- 活跃连接数
- 空闲连接数
- 连接池使用率
- 平均获取连接时间
7. **Redis 缓存**
- 缓存命中率
- 缓存键数量
- 内存使用量
- 命令执行时间
8. **消息队列**
- 队列消息数量
- 消息生产速率
- 消息消费速率
- 消息堆积情况
#### 6.2.2 系统监控仪表板
**仪表板 ID**: `system-overview`
**主要面板**:
1. **CPU 指标**
- CPU 使用率
- CPU 负载 (1/5/15 分钟)
- CPU 核心数
2. **内存指标**
- 内存使用率
- 可用内存
- Swap 使用率
3. **磁盘指标**
- 磁盘使用率
- 磁盘 I/O
- 磁盘读写速率
4. **网络指标**
- 网络流量
- 网络连接数
- 网络错误率
### 6.3 告警通知配置
#### 6.3.1 Alertmanager 配置
**文件位置**: `monitoring/alertmanager.yml`
```yaml
global:
# 邮件配置
smtp_smarthost: 'smtp.example.com:587'
smtp_from: 'alertmanager@example.com'
smtp_auth_username: 'alertmanager@example.com'
smtp_auth_password: 'your-password'
# 钉钉配置
dingtalk_configs:
- url: 'https://oapi.dingtalk.com/robot/send?access_token=YOUR_TOKEN'
secret: 'YOUR_SECRET'
send_resolved: true
# 企业微信配置
wechat_configs:
- corp_id: 'YOUR_CORP_ID'
agent_id: 'YOUR_AGENT_ID'
secret: 'YOUR_SECRET'
to_user: '@all'
send_resolved: true
# 模板配置
templates:
- '/etc/alertmanager/templates/*.tmpl'
# 路由配置
route:
receiver: 'default-receiver'
group_by: ['alertname', 'severity']
group_wait: 30s
group_interval: 5m
repeat_interval: 4h
routes:
# 严重告警立即通知
- match:
severity: critical
receiver: 'critical-receiver'
group_wait: 10s
repeat_interval: 1h
# 警告告警延迟通知
- match:
severity: warning
receiver: 'warning-receiver'
group_wait: 5m
repeat_interval: 4h
# 接收器配置
receivers:
- name: 'default-receiver'
email_configs:
- to: 'devops-team@example.com'
send_resolved: true
- name: 'critical-receiver'
email_configs:
- to: 'oncall@example.com'
send_resolved: true
dingtalk_configs:
- send_resolved: true
wechat_configs:
- send_resolved: true
- name: 'warning-receiver'
email_configs:
- to: 'dev-team@example.com'
send_resolved: true
# 抑制规则
inhibit_rules:
# 如果应用宕机,抑制其他告警
- source_match:
alertname: 'ApplicationDown'
target_match:
severity: 'warning'
equal: ['instance']
```
#### 6.3.2 告警升级策略
**升级规则**:
1. **P0 级别 (Critical)**
- 立即通知:钉钉 + 企业微信 + 短信 + 电话
- 15 分钟未响应:升级至技术总监
- 30 分钟未响应:升级至 CTO
2. **P1 级别 (Warning)**
- 立即通知:钉钉 + 企业微信
- 1 小时未响应:升级至部门经理
- 2 小时未响应:升级至技术总监
3. **P2 级别 (Info)**
- 工作时间通知:邮件
- 24 小时未处理:升级为 Warning
#### 6.3.3 告警值班安排
**值班表配置**:
```yaml
# 工作日值班
work_hours:
- Monday to Friday: 09:00-18:00
# 值班人员
on_call_schedule:
- name: "张三"
email: "zhangsan@example.com"
phone: "13800138000"
schedule: "周一,周三"
- name: "李四"
email: "lisi@example.com"
phone: "13900139000"
schedule: "周二,周四"
- name: "王五"
email: "wangwu@example.com"
phone: "13700137000"
schedule: "周五"
# 周末值班
weekend_on_call:
- name: "值班团队"
email: "weekend-team@example.com"
phone: "400-xxx-xxxx"
```
---
## 七、备份恢复详细策略
### 7.1 备份策略
#### 7.1.1 备份类型
**全量备份**:
- 频率:每日凌晨 2 点
- 保留期限:30 天
- 备份内容:完整数据库、配置文件
**增量备份**:
- 频率:每小时
- 保留期限:7 天
- 备份内容:WAL 日志、变更数据
**差异备份**:
- 频率:每 6 小时
- 保留期限:7 天
- 备份内容:自上次全量备份后的变更
#### 7.1.2 备份内容
**数据库备份**:
```bash
# PostgreSQL 全量备份脚本
#!/bin/bash
BACKUP_DIR="/backup/postgres"
DATE=$(date +%Y%m%d_%H%M%S)
DB_NAME="gym_manage"
DB_USER="postgres"
# 创建备份目录
mkdir -p ${BACKUP_DIR}
# 全量备份
pg_dump -U ${DB_USER} -h localhost ${DB_NAME} | gzip > ${BACKUP_DIR}/${DB_NAME}_${DATE}.sql.gz
# 备份 WAL 日志
# 配置 postgresql.conf:
# wal_level = replica
# archive_mode = on
# archive_command = 'cp %p /backup/wal/%f'
# 清理旧备份 (保留 30 天)
find ${BACKUP_DIR} -name "*.sql.gz" -mtime +30 -delete
```
**配置文件备份**:
```bash
# 备份应用配置
#!/bin/bash
BACKUP_DIR="/backup/config"
DATE=$(date +%Y%m%d_%H%M%S)
# 备份配置文件
tar -czf ${BACKUP_DIR}/config_${DATE}.tar.gz application-prod.yml docker-compose.yml nginx/nginx.conf monitoring/prometheus.yml monitoring/alerts.yml
# 备份环境变量
docker-compose exec gym-manage env > ${BACKUP_DIR}/env_${DATE}.txt
```
**数据文件备份**:
```bash
# 备份 Redis 数据
#!/bin/bash
BACKUP_DIR="/backup/redis"
DATE=$(date +%Y%m%d_%H%M%S)
# 触发 RDB 保存
docker-compose exec redis redis-cli BGSAVE
# 等待保存完成
sleep 5
# 复制 RDB 文件
docker cp gym-manage-redis:/data/dump.rdb ${BACKUP_DIR}/dump_${DATE}.rdb
# 备份 Elasticsearch 数据
docker-compose exec elasticsearch elasticsearch-snapshot -repository backup -snapshot gym_manage_${DATE}
```
#### 7.1.3 备份验证
**定期验证**:
- 频率:每周日凌晨 3 点
- 内容:验证备份文件完整性
- 方法:恢复测试
```bash
# 备份验证脚本
#!/bin/bash
BACKUP_DIR="/backup/postgres"
LATEST_BACKUP=$(ls -t ${BACKUP_DIR}/*.sql.gz | head -1)
# 验证备份文件完整性
if gzip -t ${LATEST_BACKUP}; then
echo "备份文件完整: ${LATEST_BACKUP}"
else
echo "备份文件损坏: ${LATEST_BACKUP}"
# 发送告警
curl -X POST "https://alert.example.com/backup-failed"
fi
# 恢复测试 (在测试环境)
# gunzip -c ${LATEST_BACKUP} | psql -U postgres -h test-db gym_manage_test
```
### 7.2 恢复策略
#### 7.2.1 恢复优先级
**P0 - 核心业务恢复** (RTO ≤ 30 分钟):
1. 数据库恢复
2. 应用服务恢复
3. 缓存恢复
**P1 - 重要业务恢复** (RTO ≤ 2 小时):
4. 消息队列恢复
5. 搜索引擎恢复
6. 日志系统恢复
**P2 - 辅助业务恢复** (RTO ≤ 4 小时):
7. 监控系统恢复
8. 报表系统恢复
9. 备份系统恢复
#### 7.2.2 数据库恢复流程
**完整恢复流程**:
```bash
#!/bin/bash
# 数据库恢复脚本
BACKUP_FILE=$1
DB_NAME="gym_manage"
DB_USER="postgres"
echo "开始恢复数据库..."
# 1. 停止应用
echo "停止应用..."
docker-compose stop gym-manage
# 2. 创建临时数据库
echo "创建临时数据库..."
docker-compose exec postgres psql -U postgres -c "CREATE DATABASE ${DB_NAME}_restore;"
# 3. 恢复数据
echo "恢复数据..."
gunzip -c ${BACKUP_FILE} | docker-compose exec -T postgres psql -U postgres ${DB_NAME}_restore
# 4. 验证数据
echo "验证数据..."
docker-compose exec postgres psql -U postgres -d ${DB_NAME}_restore -c "SELECT COUNT(*) FROM members;"
# 5. 备份当前数据库 (如果有)
if docker-compose exec postgres psql -U postgres -lqt | cut -d \| -f 1 | grep -w ${DB_NAME}; then
echo "备份当前数据库..."
docker-compose exec postgres pg_dump -U postgres ${DB_NAME} | gzip > /backup/emergency_${DB_NAME}_$(date +%Y%m%d_%H%M%S).sql.gz
fi
# 6. 删除原数据库
echo "删除原数据库..."
docker-compose exec postgres psql -U postgres -c "DROP DATABASE ${DB_NAME};"
# 7. 重命名恢复的数据库
echo "重命名数据库..."
docker-compose exec postgres psql -U postgres -c "ALTER DATABASE ${DB_NAME}_restore RENAME TO ${DB_NAME};"
# 8. 启动应用
echo "启动应用..."
docker-compose start gym-manage
# 9. 验证应用
echo "验证应用..."
sleep 10
curl -f http://localhost:8080/actuator/health
echo "数据库恢复完成!"
```
#### 7.2.3 应用恢复流程
```bash
#!/bin/bash
# 应用恢复脚本
echo "开始恢复应用..."
# 1. 停止应用
docker-compose stop gym-manage
# 2. 清理旧容器
docker-compose rm -f gym-manage
# 3. 拉取最新镜像
docker-compose pull gym-manage
# 4. 恢复配置
cp backup/application/application-prod.yml.bak ./config/application-prod.yml
# 5. 启动应用
docker-compose up -d gym-manage
# 6. 等待启动
sleep 30
# 7. 健康检查
curl -f http://localhost:8080/actuator/health || exit 1
echo "应用恢复完成!"
```
#### 7.2.4 缓存恢复流程
```bash
#!/bin/bash
# Redis 恢复脚本
echo "开始恢复 Redis..."
# 1. 停止 Redis
docker-compose stop redis
# 2. 清理旧数据
docker-compose run --rm redis rm -rf /data/*
# 3. 恢复 RDB 文件
LATEST_RDB=$(ls -t /backup/redis/dump_*.rdb | head -1)
cp ${LATEST_RDB} docker/redis/data/dump.rdb
# 4. 启动 Redis
docker-compose up -d redis
# 5. 验证
docker-compose exec redis redis-cli PING
echo "Redis 恢复完成!"
```
### 7.3 灾难恢复
#### 7.3.1 灾难恢复场景
**场景 1: 单服务器故障**
- 恢复时间:RTO ≤ 1 小时
- 恢复点:RPO ≤ 15 分钟
- 恢复步骤:
1. 切换到备用服务器
2. 从备份恢复数据
3. 更新 DNS 解析
4. 验证服务可用性
**场景 2: 数据中心故障**
- 恢复时间:RTO ≤ 4 小时
- 恢复点:RPO ≤ 1 小时
- 恢复步骤:
1. 启用异地灾备中心
2. 从异地备份恢复数据
3. 切换流量到灾备中心
4. 验证服务可用性
**场景 3: 数据损坏/丢失**
- 恢复时间:RTO ≤ 2 小时
- 恢复点:RPO ≤ 15 分钟
- 恢复步骤:
1. 确定数据损坏时间点
2. 从损坏前的备份恢复
3. 应用增量备份
4. 验证数据完整性
#### 7.3.2 灾难恢复演练
**演练频率**:
- 桌面推演:每月一次
- 实战演练:每季度一次
- 全链路演练:每半年一次
**演练内容**:
1. 备份恢复验证
2. 故障切换验证
3. 监控告警验证
4. 通讯流程验证
5. 文档更新验证
**演练报告**:
- 演练目标
- 演练过程
- 问题记录
- 改进措施
- 责任人和时间节点
---
## 十、总结
### 10.1 部署要点
1. ✅ 使用 Docker Compose 一键部署
2. ✅ 配置健康检查和自动重启
3. ✅ 完善的监控和告警体系
4. ✅ 定期备份数据
5. ✅ 安全加固和权限控制
### 10.2 运维要点
1. ✅ 定期查看日志和监控
2. ✅ 及时处理告警
3. ✅ 定期备份数据
4. ✅ 定期更新系统和依赖
5. ✅ 定期进行安全审计
### 10.3 持续改进
1. ✅ 性能监控和优化
2. ✅ 故障复盘和改进
3. ✅ 文档更新和维护
4. ✅ 团队培训和知识分享
5. ✅ 自动化运维工具开发