网站首页 > 基础教程 正文
当 Linux 系统上的网站出现 503 Service Unavailable 错误时,通常表示服务器暂时无法处理请求,可能由后端服务崩溃、资源耗尽或配置错误导致。以下是系统化的排查和解决方案:
一、紧急处理(快速恢复服务)
1.检查服务状态
- 确认 Web 服务器是否运行:
- bash
- 复制
- # Nginx systemctl status nginx # Apache systemctl status apache2 # 如果服务停止,尝试重启: systemctl restart nginx
- 检查后端处理器状态(如 PHP-FPM):
- bash
- 复制
- systemctl status php-fpm systemctl restart php-fpm # 重启服务
2.检查端口和进程
- 确认 Web 服务器监听的端口(如 80、443)是否正常:
- bash
- 复制
- ss -tuln | grep ':80\|:443' netstat -tuln | grep -E '(:80|:443)'
- 查看进程是否在运行:
- bash
- 复制
- ps aux | grep -E 'nginx|apache|php-fpm'
二、错误排查
1.查看日志定位问题
- Nginx/Apache 错误日志:
- bash
- 复制
- # Nginx 默认日志路径 tail -f /var/log/nginx/error.log # Apache 默认日志路径 tail -f /var/log/apache2/error.log
- PHP-FPM 日志:
- bash
- 复制
- tail -f /var/log/php-fpm.log
- 常见日志关键词:
- Connection refused:后端服务未启动或端口监听失败。
- Too many open files:文件描述符耗尽。
- upstream timed out:后端响应超时。
2.检查资源限制
- 查看内存和 CPU 使用率:
- bash
- 复制
- top htop free -h
- 调整 PHP-FPM 进程配置(/etc/php-fpm.d/www.conf):
- ini
- 复制
- pm.max_children = 50 # 增加子进程数 pm.start_servers = 10 pm.min_spare_servers = 5 pm.max_spare_servers = 20
- 修改系统文件描述符限制:
- bash
- 复制
- # 临时修改 ulimit -n 65535 # 永久修改(编辑 /etc/security/limits.conf) * soft nofile 65535 * hard nofile 65535
3.检查防火墙和安全组
- 确认防火墙未阻止端口:
- bash
- 复制
- iptables -L -n # 查看规则 ufw status # Ubuntu
- 云服务器需检查安全组规则(如 AWS、阿里云),确保 80/443 端口开放。
三、深入问题分析
1.后端服务崩溃
- PHP-FPM 进程崩溃:
- 检查 PHP 代码是否有内存泄漏或死循环。
- 使用 pm.max_requests 限制进程最大请求数(自动重启):
- ini
- 复制
- pm.max_requests = 500 # 每处理500个请求后重启进程
- 数据库连接失败:
- 检查 MySQL/Redis 是否运行:
- bash
- 复制
- systemctl status mysql
2.负载过高
- 使用 ab 或 wrk 测试并发性能:
- bash
- 复制
- ab -n 1000 -c 100 http://your-site.com/
- 优化方案:
- 启用缓存(如 Redis、OPcache)。
- 使用 CDN 分担静态资源负载。
- 升级服务器配置(CPU、内存)。
3.配置错误
- Nginx 反向代理配置:
- nginx
- 复制
- location ~ \.php$ { fastcgi_pass unix:/run/php/php-fpm.sock; # 检查 socket 路径 fastcgi_param SCRIPT_FILENAME $document_root$fastcgi_script_name; include fastcgi_params; }
- 确认 fastcgi_pass 的 socket 或 IP 地址是否正确。
- 超时设置:
- nginx
- 复制
- proxy_connect_timeout 60; proxy_read_timeout 60; proxy_send_timeout 60;
四、长期预防策略
- 监控与告警
- 使用 Prometheus + Grafana 监控服务器资源。
- 配置日志告警(如 ELK Stack 或 Sentry)。
- 自动扩容
- 云服务器启用自动伸缩组(如 AWS Auto Scaling)。
- 使用 Kubernetes 实现容器化负载均衡。
- 健康检查
- Nginx 配置主动健康检查:
- nginx
- 复制
- upstream backend { server 127.0.0.1:9000 max_fails=3 fail_timeout=30s; check interval=5000 rise=2 fall=3 timeout=1000; }
- 代码优化
- 避免阻塞操作(如同步 IO、长循环)。
- 使用异步任务队列(如 RabbitMQ、Celery)。
五、工具推荐
- 负载测试:wrk, JMeter
- 进程监控:supervisord(管理 PHP-FPM 进程)
- 性能分析:strace(追踪系统调用), perf(CPU 性能分析)
总结:常见解决路径
- 检查服务状态 → 重启服务。
- 查看日志 → 定位到具体错误(如端口冲突、权限问题)。
- 调整资源配置 → 增加进程数、内存、文件描述符。
- 优化代码和架构 → 减少资源占用,提升并发能力。
通过以上步骤,可快速恢复服务并避免未来出现类似问题。
- 上一篇: 运维命令——查看日志journalctl详解
- 下一篇: Linux环境下Java应用的部署与优化
猜你喜欢
- 2025-05-22 Linux cron任务计划
- 2025-05-22 测试人员如何在linux服务器中查询mysql日志?
- 2025-05-22 Nginx命令最全详解(29个最常用命令)
- 2025-05-22 初识自动化网络编排器NSO,轻松配置复杂的多厂商网络
- 2025-05-22 Nacos在企业生产中如何使用集群环境?
- 2025-05-22 如何从 MySQL 错误日志中排查数据库故障
- 2025-05-22 Linux面试最高频的5个基本问题
- 2025-05-22 linux网卡混杂模式
- 2025-05-22 Linux环境下Java应用的部署与优化
- 2025-05-22 运维命令——查看日志journalctl详解
- 05-22Linux cron任务计划
- 05-22测试人员如何在linux服务器中查询mysql日志?
- 05-22Nginx命令最全详解(29个最常用命令)
- 05-22初识自动化网络编排器NSO,轻松配置复杂的多厂商网络
- 05-22Nacos在企业生产中如何使用集群环境?
- 05-22如何从 MySQL 错误日志中排查数据库故障
- 05-22Linux面试最高频的5个基本问题
- 05-22linux网卡混杂模式
- 最近发表
- 标签列表
-
- jsp (69)
- gitpush (78)
- gitreset (66)
- python字典 (67)
- dockercp (63)
- gitclone命令 (63)
- dockersave (62)
- linux命令大全 (65)
- pythonif (86)
- location.href (69)
- dockerexec (65)
- tail-f (79)
- deletesql (62)
- c++模板 (62)
- linuxgzip (68)
- 字符串连接 (73)
- nginx配置文件详解 (61)
- html标签 (69)
- c++初始化列表 (64)
- mysqlinnodbmyisam区别 (63)
- arraylistadd (66)
- console.table (62)
- mysqldatesub函数 (63)
- window10java环境变量设置 (66)
- c++虚函数和纯虚函数的区别 (66)