角色概述
我们正在寻找一位高级云工程师 / 站点可靠性工程师 (SRE),负责设计、构建和运营安全、可扩展的云平台,涵盖 AWS、Azure 和 GCP。该角色负责配置、部署和维护虚拟机和容器化应用程序,使用 Terraform 自动化基础设施的供应和生命周期管理。您将为高风险的生产部署提供专业支持,领导技术升级的事件响应,并应用 SRE 原则(SLI/SLO、错误预算、自动化和可靠性工程)来提高多云环境中的可用性、性能和运营卓越性。
主要职责
云平台工程 (AWS / Azure / GCP)
使用 Terraform (IaC) 设计、实施和维护跨 AWS、Azure 和 GCP 的云基础设施。设计和实施符合最佳实践的云着陆区:帐户/订阅/项目结构、环境分离、身份边界。基线保护措施和政策执行 (Azure Policy, AWS Organizations/SCPs, GCP Org Policies)。集中审计日志、监控和成本分配标准。构建和运营云原生虚拟网络构造(仅限云):Azure:VNET、子网、NSG、路由表、私有端点、中心/辐射模式。AWS:VPC、子网、安全组、NACL、路由表、VPC 端点/PrivateLink、多账户连接模式。GCP:VPC 网络、子网、防火墙规则、路由、私有服务连接、共享 VPC 模式。实施默认私有服务访问模式(私有端点、受控出口、服务到服务访问控制)。计算、虚拟机和容器
配置、部署和维护虚拟机和可扩展计算模式:AWS EC2(启动模板、自动扩展组)。Azure 虚拟机 / VM 扩展集。GCP 计算引擎 / 管理实例组。负责操作系统加固、基线配置、补丁策略和实例引导(cloud-init、映像管道)。使用 Kubernetes 部署和运营容器化工作负载:EKS / AKS / GKE(集群设计、升级、节点池、RBAC、扩展)。容器注册表(ECR / ACR / Artifact Registry)和工件推广策略。实施工作负载交付模式(Helm/Kustomize)、发布策略(蓝绿、金丝雀)和安全回滚。
基础设施即代码、自动化与 CI/CD (Terraform)
构建可重用的、版本化的 Terraform 模块,制定命名、标记/标签和安全默认值的标准。实施 Terraform 最佳实践:远程状态、锁定、环境隔离、秘密处理和漂移检测。将 IaC 集成到 CI/CD 管道中(例如,GitHub Actions、Azure DevOps、GitLab CI):自动验证、代码检查、安全扫描、计划/应用工作流、批准和推广。实施政策即代码保护措施(OPA/Conftest、Sentinel 在适用时)以防止不安全的更改。SRE:可靠性工程、可观察性与运营卓越
定义、实施和改进 SLIs/SLOs(可用性、延迟、错误率、饱和度)以支持关键服务和平台。管理和执行错误预算,以平衡可靠性与交付速度。建立并持续改进可观察性标准:跨云服务和 Kubernetes 的指标、日志、跟踪、仪表板和警报。使用 CloudWatch、Azure Monitor/Log Analytics、GCP Cloud Monitoring/Logging、OpenTelemetry、Prometheus/Grafana(在使用时)等工具。通过减少警报噪音、实施可操作的警报和创建清晰的升级路径来提高事件检测质量。通过以下方式推动可靠性改进:容量规划、性能调优、负载测试支持。弹性工程(多区域设计、优雅降级、重试/超时、背压)。持续自动化以消除繁琐工作(自愈、自动修复运行手册、ChatOps 在适用时)。生产支持、事件响应与升级
为高风险的生产部署(重大发布、平台切换、迁移)提供专业支持。领导事件响应:分类、缓解、恢复、沟通和事后事件审查(PIR/RCA)。使用证据驱动的调试,排查云服务、Kubernetes、IAM、存储和 CI/CD 管道中的升级问题。构建和维护运行手册、操作手册和事后行动跟踪,以防止重复事件。参与值班轮换,并通过自动化和更好的可观察性持续改善值班健康。安全、身份和治理
在 AWS/Azure/GCP 中实施最小权限访问控制(IAM/RBAC),包括角色设计和权限边界。强制执行安全配置:静态/动态加密、秘密管理、密钥管理(KMS/Key Vault/Cloud KMS)。实施合规导向的日志记录和审计,并与安全团队合作以修复发现的问题并加强平台。所需技能与经验
10年以上云工程、平台工程、DevOps 或 SRE 角色的经验,具有显著的生产所有权。对 AWS 和 Azure 有强大的实践经验,以及对 GCP 的实践经验(优先考虑生产接触)。专家级 Terraform(模块、状态、CI 集成、可扩展环境模式)。强大的 Kubernetes 操作经验(EKS/AKS/GKE),包括升级、扩展和工作负载可靠性。实施 SRE 实践的经验:SLI/SLO、警报策略、事件响应、事后分析和自动化/减少繁琐工作的能力。强大的 Linux 和脚本(Bash/Python)能力,能够从症状调试系统到根本原因。强大的安全基础知识:IAM/RBAC、加密、秘密和云环境中的可审计性。证明能够领导技术升级并协调跨团队的解决方案。
您可以期待摩根士丹利的待遇:
在摩根士丹利,我们为客户筹集、管理和分配资本,帮助他们实现目标。我们以一种与众不同的方式做到这一点——我们已经这样做了90年。我们的价值观——以客户为先、做正确的事、以卓越的想法引领、致力于多样性和包容性、回馈社会——不仅仅是信念,它们指导我们每天做出对客户、社区和超过80,000名员工在42个国家的1,200个办公室中做出最佳决策。在摩根士丹利,您将有机会与最优秀的人一起工作,在一个支持和赋权的环境中。我们的团队是无情的合作者和创造性思考者,受到他们多样化背景和经验的激励。我们自豪地支持我们的员工及其家庭在工作生活旅程的每一个阶段,提供一些行业中最具吸引力和全面的员工福利和津贴。对于那些在工作中表现出热情和毅力的人,还有充足的机会在业务中流动。
要了解更多关于我们全球办公室的信息,请复制并粘贴 https://www.morganstanley.com/about-us/global-offices 到您的浏览器中。
该角色的预期基本薪资范围为每年150,000美元至210,000美元。然而,入职时的基本薪资将根据个人情况确定,并且仅是总薪酬包的一部分,具体取决于职位,可能还包括佣金收入、激励补偿、酌情奖金、其他短期和长期激励计划,以及其他摩根士丹利赞助的福利项目。
摩根士丹利是一个平等机会的雇主,致力于建立和维护一个在经验和背景上多样化的劳动力。我们的招聘工作反映了我们对包容文化的强烈承诺,在这种文化中,个人根据他们的技能和才能被雇用、发展和晋升。
我们的劳动力反映了我们运营的全球社区的广泛横截面,带来了各种背景、才能、观点和经验。
有关更多信息,请访问:https://www.morganstanley.com/people-opportunities/eeo。