工作经历
开云/亚博 技术中心
2023.11 — 至今
资深高级架构师
- 跨部门协同:统筹运维、域名、业务、安全、运维开发等多组协作,推动需求工具化、工具平台化
- 平台研发:主导自研CMDB、域名管理系统(150万+域名)、CDN系统、SSO统一平台、审批系统等核心基础设施
- 自建CDN系统:自研CDN开发,设计实现缓存系统架构、多级缓存预热流程,支撑大规模内容分发需求
- 自建WAF安全防护:自研WAF系统,集成常见WAF规则,自研慢攻击/CC攻击识别库,JA3指纹逻辑,结合AI实现自动封禁
- 智能监控:设计开发边缘节点拨测系统,实时检测域名可用性,第一时间排查域名被墙、业务故障等问题,保障业务连续性
- 自研打包/发布系统:整合替代Jenkins/Ansible/ArgoCD等工具,集成审计与权限管理,大幅降低维护成本
- AIOps落地:基于Amazon Q构建企业AI平台,实现业务数据观测、故障分析、性能诊断;部署Thanos+AI实现多集群监控与异常预测
- 内部风控体系:研发操作日志分析系统,结合AI Agent实时分析异常操作日志,监控内部员工操作行为
VimWorld (美企远程)
2021.9 — 2023.11
运维经理 (Chief SA Officer)
- 战略规划:主导制定运维SOP及技术基础架构标准,负责中间件选型与验收
- 智能运维:推动AIOps项目立项,搭建大数据平台,将AI对抗测试接入生产业务
- 团队管理:负责招聘、绩效、月度考核及人才培养,实现团队成员扬长避短
- 沟通协同:作为技术战略接口人,确保部门目标与CTO及集团战略高度一致
哈啰出行
2019.8 — 2021.9
SRE 工程师 P7
- 规模化运维:负责5000+台服务器运维,支撑日请求4000万次的高并发业务
- 自动化/DevOps:主导自动化平台开发,完善CI/CD流程,显著提升自动化覆盖率
- 成本控制:基于数据指标执行精准扩容/缩容,有效控制公司IT成本
- K8S与云原生:维护300+节点K8S集群,结合CEPH存储,对接自动化需求
日日煮
2016.8 — 2019.8
运维经理
- 负责DevOps平台基础组件构建,推进自动化运维平台开发 (Golang/Vue)
- 负责业务安全评估与加固,保障业务7x24小时稳定运行
- 推动程序架构优化与容器化落地,实施CI/CD降低运维成本
- 响应生产环境监控预警,快速定位分析解决故障及突发情况
GoldenTek Inc.
2014 — 2016.7
业务运维工程师组长
- 开发自动化运维平台 (Python + Element UI),实现发版、回滚、重启等管控功能
- 部署细颗粒度监控系统,负责异常流量与网络攻击处理
- 负责组员KPI考核、任务分配及技术培训,组织技术会议
新浪 Show
2011.4 — 2014
业务运维工程师
- 负责华东华北5大机房日常巡检与服务器维护
- 负责直播业务的高并发流量应对与故障处理
- 编写Shell/Python脚本实现细颗粒度监控告警
- 推进虚拟化技术并交付业务使用