"测试环境跑得好好的明明没问,怎么一上生产就出幺蛾子?测试产翻车老"这话老杨听了二十年,从当年的题生菜鸟工程师到现在的老油条,这个魔咒从来没有被打破过。杨聊
今天就来聊聊这个让无数技术人员头疼的泪史话题。测试没问题,明明没问为什么上生产就总出问题。测试产翻车老

别看都是Linux系统,开发环境用的泪史Ubuntu 22.04和生产环境的CentOS 7.9之间的差别,有时候比你想象的明明没问要大得多。就拿Python来说,测试产翻车老前者自带3.10,题生后者还在用3.6,杨聊这点小差别就能让你的泪史脚本死得很难看。
老杨调出一个比较经典的错误.我这里有个哥们儿写了个部署脚本,用了subprocess.run()的text参数,在开发机上跑得挺好:
复制#!/usr/bin/env python3 import subprocess result = subprocess.run([systemctl, status, nginx], capture_output=True, text=True) print(f"Exit code: {result.returncode}")1.2.3.4.5.结果到了生产环境,Python 3.6根本不认识text这个参数,直接给你来个TypeError。踩这种坑不止一次,源码库后来学乖了,兼容性处理必须做到位:
复制#!/usr/bin/env python3 import subprocess import sys def run_command(cmd): if sys.version_info >= (3, 7): result = subprocess.run(cmd, capture_output=True, text=True) return result.returncode, result.stdout, result.stderr else: result = subprocess.run(cmd, stdout=subprocess.PIPE, stderr=subprocess.PIPE) return result.returncode, result.stdout.decode(utf-8), result.stderr.decode(utf-8) returncode, stdout, stderr = run_command([systemctl, status, nginx]) print(f"Exit code: {returncode}")1.2.3.4.5.6.7.8.9.10.11.12.13.14. 2. 依赖库版本的连环坑生产服务器的依赖库版本往往比开发环境落后好几个版本,这时候各种奇怪的兼容性问题就出来了。你在开发环境用的是requests 2.31.0,生产环境可能还是2.25.1,SSL证书验证的行为就不一样了。
这种情况下,我一般会创建个虚拟环境,把依赖版本锁死:
复制cat > requirements.txt << EOF requests==2.25.1 urllib3==1.26.5 certifi==2021.5.25 charset-normalizer==2.0.4 idna==3.2 EOF # 部署脚本 #!/bin/bash set -euo pipefail SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)" VENV_DIR="$SCRIPT_DIR/venv" echo"=== 创建隔离的Python环境 ===" if [ ! -d "$VENV_DIR" ]; then python3 -m venv "$VENV_DIR" fi source"$VENV_DIR/bin/activate" pip install --no-deps -r requirements.txt echo"=== 验证环境一致性 ===" pip freeze | sort > deployed_versions.txt python api_client.py1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.17.18.19.20.21.22.23.24.25.26.27.在测试环境,开发人员通常有sudo权限,想写哪儿就写哪儿。但生产环境不一样,权限控制严格得很,稍不注意就撞墙了。
这里老杨举一个权限检查脚本,每次部署前都会跑一遍,避免踩坑:
复制#!/bin/bash # permission_check.sh - 生产环境权限预检 set -euo pipefail echo"=== 系统权限诊断报告 ===" echo"执行用户: $(whoami)" echo"用户组: $(groups)" echo"当前目录: $(pwd)" declare -A critical_dirs=( ["/var/log"]="日志目录" ["/etc/systemd/system"]="系统服务配置" ["/opt/applications"]="应用部署目录" ["/tmp"]="临时文件目录" ) fordirin"${!critical_dirs[@]}"; do echo"检查 ${critical_dirs[$dir]} ($dir):" if [ -d "$dir" ]; then ls -ld "$dir" if [ -w "$dir" ]; then echo" ✅ 可写" else echo" ❌ 不可写" fi else echo" ❌ 目录不存在" fi echo done1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.17.18.19.20.21.22.23.24.25.26.27.28.29.30.31.还有个更狠的,SELinux。这家伙在RHEL/CentOS系统里默默守护,很多时候你的脚本运行失败,根本想不到是企商汇它在作怪。检查SELinux状态,配置正确的文件上下文,这些都得考虑进去。
企业内网环境复杂,防火墙规则、代理设置、DNS解析,任何一个环节出问题都能让你的脚本跑不起来。
这里老杨举例一个网络连通性检查脚本:
复制#!/bin/bash # network_connectivity_check.sh set -euo pipefail declare -A endpoints=( ["registry.cn-hangzhou.aliyuncs.com:443"]="阿里云容器镜像服务" ["mirrors.aliyun.com:80"]="阿里云软件源" ["api.dingtalk.com:443"]="钉钉API" ["127.0.0.1:3306"]="本地MySQL" ["redis.internal.company.com:6379"]="内网Redis" ) check_connectivity() { local endpoint=$1 local description=$2 local host port IFS=:read -r host port <<< "$endpoint" echo"检查 $description ($endpoint):" # DNS解析检查 if ! nslookup "$host" >/dev/null 2>&1; then echo" ❌ DNS解析失败" return 1 fi echo" ✅ DNS解析正常" # 端口连通性检查 iftimeout 5 bash -c "echo >/dev/tcp/$host/$port" 2>/dev/null; then echo" ✅ 端口 $port 可达" else echo" ❌ 端口 $port 不可达" echo" 💡 建议检查防火墙规则:" echo" sudo iptables -L | grep $port" fi echo } for endpoint in"${!endpoints[@]}"; do check_connectivity "$endpoint""${endpoints[$endpoint]}" done1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.17.18.19.20.21.22.23.24.25.26.27.28.29.30.31.32.33.34.35.36.37.38.39.40.41.42.43.特别是企业代理环境,这个更是个大坑。所有外网访问都得走代理,脚本里不配置代理参数,连个包都下载不了。我一般会做个代理感知的处理:
复制setup_proxy() { echo"=== 代理环境配置 ===" local proxy_sources=( "$http_proxy" "$HTTP_PROXY" "http://proxy.company.com:8080"# 企业默认代理 ) local detected_proxy="" for proxy in"${proxy_sources[@]}"; do if [[ -n "$proxy" ]] && curl -s --proxy "$proxy" --connect-timeout 5 \ "http://www.baidu.com" >/dev/null 2>&1; then detected_proxy="$proxy" break fi done if [[ -n "$detected_proxy" ]]; then echo"✅ 检测到可用代理: $detected_proxy" export http_proxy="$detected_proxy" export https_proxy="$detected_proxy" else echo"❌ 未检测到可用代理,使用直连模式" fi }1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.17.18.19.20.21.22.23.24.25.26.配置文件的管理更是门学问。不同环境用不同的配置,这个看起来简单,实际操作起来坑不少。配置文件的服务器托管版本控制、语法验证、权限设置,每一步都不能马虎。
我习惯用Git管理配置,按环境分目录存放,部署的时候根据环境选择对应的配置:
复制#!/bin/bash manage_configs() { localenv=$1# dev, test, prod echo"=== 环境配置管理 [$env] ===" # 克隆配置仓库 if [ ! -d "/tmp/myapp-configs" ]; then git clone"$GIT_REPO" /tmp/myapp-configs fi cd /tmp/myapp-configs git pull origin main local config_source="configs/$env" if [ ! -d "$config_source" ]; then echo"❌ 环境配置目录不存在: $config_source" return 1 fi # 备份现有配置 if [ -d "$CONFIG_DIR" ] && [ "$(ls -A "$CONFIG_DIR" 2>/dev/null)" ]; then local backup_timestamp=$(date +"%Y%m%d_%H%M%S") local backup_path="$BACKUP_DIR/backup_$backup_timestamp" echo"📦 备份现有配置到: $backup_path" sudocp -r "$CONFIG_DIR""$backup_path" fi # 部署新配置 sudocp -r "$config_source"/* "$CONFIG_DIR/" sudochown -R myapp:myapp "$CONFIG_DIR" echo"✅ 配置管理完成" }1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.17.18.19.20.21.22.23.24.25.26.27.28.29.30.31.32.33.34.35.密钥管理这块儿更得小心,生产环境的密码、API密钥这些敏感信息,绝对不能明文存储。我一般用HashiCorp Vault或者至少做个加密存储:
复制encrypt_secrets() { local secrets_file=$1 local encrypted_file="${secrets_file}.enc" echo"🔒 加密密钥文件: $secrets_file" # 使用GPG加密 ifcommand -v gpg >/dev/null 2>&1; then gpg --symmetric --cipher-algo AES256 --output "$encrypted_file""$secrets_file" # 安全删除原文件 shred -vfz -n 3 "$secrets_file" 2>/dev/null || rm -f "$secrets_file" echo"✅ 文件已加密: $encrypted_file" fi }1.2.3.4.5.6.7.8.9.10.11.12.13.14.生产环境的资源控制比开发环境严格多了,CPU、内存、磁盘I/O都有限制。你的脚本在开发机上跑得飞快,到了生产环境可能因为资源不够用而跑得慢如蜗牛,甚至直接被kill掉。
我经常用cgroup来做资源限制,确保应用不会因为资源抢占而影响其他服务:
复制setup_cgroup_limits() { local app_name=$1 local memory_limit=$2 # 例如: 512m, 1g local cpu_limit=$3 # 例如: 1.0, 0.5 echo"⚙️ 配置cgroup资源限制: $app_name" # 创建cgroup local cgroup_path="/sys/fs/cgroup/myapps/$app_name" sudomkdir -p "$cgroup_path" # 内存限制 echo"$memory_limit" | sudotee"$cgroup_path/memory.limit_in_bytes" > /dev/null echo"✅ 内存限制: $memory_limit" # CPU限制 local cpu_period=100000 local cpu_quota=$(echo"$cpu_limit * $cpu_period" | bc | cut -d. -f1) echo"$cpu_period" | sudotee"$cgroup_path/cpu.cfs_period_us" > /dev/null echo"$cpu_quota" | sudotee"$cgroup_path/cpu.cfs_quota_us" > /dev/null echo"✅ CPU限制: ${cpu_limit}核" }1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.17.18.19.20.21.22.磁盘I/O也是个大头,特别是日志文件写入频繁的应用。我会做好日志轮转配置,避免磁盘被撑爆:
复制# logrotate配置示例 $log_dir/*.log { daily missingok rotate 7 compress delaycompress notifempty create 644 $app_name$app_name postrotate if [ -f /var/run/${app_name}.pid ]; then kill -HUP $(cat /var/run/${app_name}.pid) 2>/dev/null || true fi endscript }1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.现在的应用架构越来越复杂,微服务之间的依赖关系像蜘蛛网一样,任何一个服务挂了都可能引发连锁反应。数据库挂了,后端服务起不来;缓存服务异常,整个应用性能下降;消息队列堵塞,数据处理停滞。
我一般会建立服务依赖拓扑,按照依赖关系顺序启动服务:
复制# 服务依赖配置 { "services": { "mysql": { "type": "database", "dependencies": [], "health_check": "mysqladmin ping -h localhost", "start_timeout": 60 }, "redis": { "type": "cache", "dependencies": [], "health_check": "redis-cli ping", "start_timeout": 15 }, "app-backend": { "type": "application", "dependencies": ["mysql", "redis"], "health_check": "curl -f http://localhost:8080/api/health", "start_timeout": 45 } } }1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.17.18.19.20.21.22.23.健康检查也很重要,不能只看进程是否存在,还要确保服务真的可用。HTTP接口要能正常响应,数据库连接要正常,缓存要能读写,这些都得检查到位。
相关文章:
香港云服务器源码下载IT技术网IT资讯网企商汇益华科技服务器租用亿华云源码库多维IT资讯益强前沿资讯智能时代亿华云亿华科技益强编程舍益强IT技术网技术快报亿华智造编程之道思维库益华IT技术论坛益华科技云站无忧亿华智慧云益强资讯优选云智核益强科技全栈开发码上建站益华科技亿华灵动益强智未来科技前瞻创站工坊汇智坊极客码头亿华云计算IT资讯网益强科技益强智囊团码力社益强数据堂运维纵横
0.4073s , 11735.5859375 kb
Copyright © 2025 Powered by 明明测试没问题,生产就翻车?老杨聊 Devops 的血泪史,汇智坊 滇ICP备2023006006号-2