From ba05de924b992f752860d28c57500f1a17743fc4 Mon Sep 17 00:00:00 2001 From: Martin Liu Date: Mon, 19 Jan 2026 13:45:29 +0800 Subject: [PATCH] Update teacher profiles: Add subscription button and footer details for Yang Wenbing, Ye Xiaolong, and Zhao Cheng --- hugo_stats.json | 8 -------- public/about/index.html | 2 +- public/author/index.html | 2 +- public/author/john-doe/index.html | 2 +- public/author/mark-dinn/index.html | 2 +- public/blog/bilibili-finops-practice/index.html | 2 +- public/blog/index.html | 2 +- public/categories/index.html | 2 +- .../index.html" | 2 +- public/contact/index.html | 2 +- public/course/course-6/index.html | 2 +- public/course/index.html | 2 +- public/event/index.html | 2 +- public/event/meetup-beijing-1/index.html | 4 ++-- public/event/meetup-shanghai-1/index.html | 2 +- public/event/meetup-shenzhen-1/index.html | 4 ++-- public/event/sre-excellence-unleashed-ep1/index.html | 4 ++-- public/index.html | 2 +- public/notice/index.html | 2 +- public/notice/wp-v-1.0.1/index.html | 2 +- public/notice/wp-v-1.0.2/index.html | 2 +- public/notice/wp-v-1.0.3/index.html | 2 +- public/notice/wp-v-1.0.4/index.html | 2 +- public/notice/wp-v-1.0.5/index.html | 2 +- public/notice/wp-v-1.0.6/index.html | 2 +- public/research/ci-cd-co/index.html | 2 +- public/research/dr-ha/index.html | 2 +- public/research/index.html | 2 +- public/research/measurement/index.html | 2 +- public/research/o11y/index.html | 2 +- public/research/platform-engining/index.html | 2 +- public/research/release-engining/index.html | 2 +- public/scholarship/index.html | 2 +- public/scholarship/scholarship-1/index.html | 2 +- public/scholarship/scholarship-2/index.html | 2 +- public/scholarship/scholarship-3/index.html | 2 +- public/tags/finops/index.html | 2 +- public/tags/index.html | 2 +- "public/tags/\345\272\246\351\207\217/index.html" | 2 +- public/teacher/chen-zixin/index.html | 2 +- public/teacher/elite/amay/index.html | 2 +- public/teacher/gu-huangliang/index.html | 2 +- public/teacher/index.html | 2 +- public/teacher/lai-wei/index.html | 2 +- public/teacher/liu-hao/index.html | 2 +- public/teacher/liu-yadan/index.html | 2 +- public/teacher/liu-yu/index.html | 2 +- public/teacher/liu-zheng/index.html | 2 +- public/teacher/peng-huasheng/index.html | 2 +- public/teacher/shi-peng/index.html | 2 +- public/teacher/wang-zhe/index.html | 2 +- public/teacher/wu-tianhao/index.html | 2 +- public/teacher/yang-wenbing/index.html | 2 +- public/teacher/ye-xiaolong/index.html | 2 +- public/teacher/zhao-cheng/index.html | 2 +- 55 files changed, 57 insertions(+), 65 deletions(-) diff --git a/hugo_stats.json b/hugo_stats.json index fb3ba1b..995d3a6 100644 --- a/hugo_stats.json +++ b/hugo_stats.json @@ -269,7 +269,6 @@ ], "ids": [ "106-修订记录", - "1914-translation-by-h-rackham", "1capex和opex", "1带宽成本优化", "231--腾讯游戏全球研发保障实践", @@ -292,24 +291,17 @@ "554-xx银行应急管理一体化平台建设实践", "555-美图故障管理体系搭建实践", "625--oppo-春节业务保障", - "about-course", - "about-event", "disqus_thread", - "fees-and-funding", - "how-to-apply", "mail", "message", "name", "navigation", "newsletter", - "requirements", - "section-11033-of-de-finibus-bonorum-et-malorum-written-by-cicero-in-45-bc", "sre-elite精选原因", "sre-elite精选原因-1", "sre-excellence-unleashed-live-with-pros-ep1", "sre实践白皮书", "subject", - "the-standard-lorem-ipsum-passage-used-since-the-1500s", "一背景", "七运营优化多方沟通协同", "三效能大盘感知资源利用率", diff --git a/public/about/index.html b/public/about/index.html index 16b4248..86bfeae 100644 --- a/public/about/index.html +++ b/public/about/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

SRE精英联盟来自于互联网行业和大型企业的一线实践专家。

about image

联盟介绍

Google 在2003年启动了一个全新的团队——“SRE 团队”,该团队旨在通过软件工程的方法提高应用系统的可靠性;随着 SRE 相关理论和实践在 Google 的日臻成熟,SRE 实践也从 Google慢慢地扩散到了整个行业。自从 SRE 的理念进入中国以来,就已经引起了很多企业的关注和效仿,但各企业实施 SRE 的方法各异,SRE 的实现效果也各不相同。与此同时,中国的互联网行业中涌现出了一批对SRE 充满热情的倡导者,他们为社区做出了各种贡献;包括:孙宇聪翻译出版了《SRE:Google 运维解密》、赵成在极客时间开设了课程《SRE 实战手册》,以及赵舜东在社区里积极地布道分享等等,不胜枚举。

2022 年,由赵成等人牵头,首批来自于互联网、运营商、金融等行业领军企业的 SRE 团队负责人齐聚一堂,组织了SRE 研讨社区,定期开展社区分享活动,共同探讨 SRE 在各企业里的发展路径,分享各自的实战经验,并总结出了这份来自一线实战的、详实而持续更新的《SRE 实践白皮书》。社区每年都吸纳新的成员,逐年更新本白皮书内容,力求真实客观地描述国内企业SRE 团队的工作方式。在《实践白皮书》初稿长达两年的整理过程中,我们看到了不同企业对SRE 的理解,并尽可能统一大家对相似场景的定义;我们看到了不同企业对SRE 职能领地的扩展,并将成功团队的经验提炼成案例供大家参考;我们也看到了在这两年的编写过程中,不同企业SRE 团队的真实变化,并及时将其更新到实践白皮书中。总之,在未来的每个季度,我们都会将各SRE 团队的最新职能、组织形式、技术迭代等现状,补充到《实践白皮书》中。

2023 年,中国信息通信研究院(下简称信通院)云计算与大数据研究所(下简称云大所)稳定性保障实验室的专家加入了 SRE 研讨社区,深度的参与到社区交流当中,为《SRE 实践白皮书》的编写工作提供了专业指导。

《SRE实践白皮书》

参编企业包括20多家企业的SRE负责人或者SRE主管经理,SRE社区代表、信通院代表等。

SRE实践白皮书

白皮书发布更新进展和下载,点这里:《SRE实践白皮书》

联盟活动

SRE精英联盟不光注重联盟内部的研讨交流。更重视构建一个活跃的 SRE 社区,从 2024 年开始联盟会定期举办线上和线下的技术分享活动,邀请各企业的SRE团队负责人,一线技术专家,分享各自的 SRE 实战经验。活动的内容包括 SRE 团队的各种项目实践、团队组织形式、技术迭代、职能领域的扩展等。活动的目的是为了促进 SRE 的发展,让更多的企业了解 SRE 的实际应用方式,以及SRE的最佳实践。

所有公开活动的报名信息都会在本站发布,敬请关注。这些活动信息也会同步到联盟建立的微信公众号、视频号、B站和YouTube频道,欢迎关注。

联盟的联系方式

微信公众号、视频号、B站和YouTube频道,请在各个平台搜索 “SRE精英联盟”。

0

精英专家

0

白皮书下载

0

白皮书版本

0

活动人次

联盟的故事

在首次直播活动中,我们邀请了联盟的创始人和相关重要成员,为大家讲解了 SRE 精英联盟的起源,目前正在做的工作。

\ No newline at end of file + \ No newline at end of file diff --git a/public/author/index.html b/public/author/index.html index 2a216b2..c8f1541 100644 --- a/public/author/index.html +++ b/public/author/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

\ No newline at end of file + \ No newline at end of file diff --git a/public/author/john-doe/index.html b/public/author/john-doe/index.html index c4c284b..737c49b 100644 --- a/public/author/john-doe/index.html +++ b/public/author/john-doe/index.html @@ -7,4 +7,4 @@ 课程 辅导

Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore. dolore magna aliqua. Ut enim ad minim veniam, quis nostrud.

John doe


Lorem ipsum dolor sit amet, consectetur adipiscing elit. Proin sit amet vulputate augue. Duis auctor lacus id vehicula gravida. Nam suscipit vitae purus et laoreet. Donec nisi dolor, consequat vel pretium id, auctor in dui. Nam iaculis, neque ac ullamcorper.


发布者 John doe

\ No newline at end of file + \ No newline at end of file diff --git a/public/author/mark-dinn/index.html b/public/author/mark-dinn/index.html index 2004f86..9a43387 100644 --- a/public/author/mark-dinn/index.html +++ b/public/author/mark-dinn/index.html @@ -7,4 +7,4 @@ 课程 辅导

Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore. dolore magna aliqua. Ut enim ad minim veniam, quis nostrud.

Mark Dinn


Lorem ipsum dolor sit amet, consectetur adipiscing elit. Proin sit amet vulputate augue. Duis auctor lacus id vehicula gravida. Nam suscipit vitae purus et laoreet. Donec nisi dolor, consequat vel pretium id, auctor in dui. Nam iaculis, neque ac ullamcorper.


发布者 Mark Dinn

\ No newline at end of file + \ No newline at end of file diff --git a/public/blog/bilibili-finops-practice/index.html b/public/blog/bilibili-finops-practice/index.html index 0d1b002..f3bcc36 100644 --- a/public/blog/bilibili-finops-practice/index.html +++ b/public/blog/bilibili-finops-practice/index.html @@ -13,4 +13,4 @@ https://www.finops.org/introduction/what-is-finops/
  • [2]《从量化到优化,详解有赞离线数据降本之路》: https://www.finops.org/introduction/what-is-finops/
  • 作者丨叶翠、马永智 来源丨公众号:哔哩哔哩技术(ID:bilibili-TC)

    comments powered by Disqus
    \ No newline at end of file + \ No newline at end of file diff --git a/public/blog/index.html b/public/blog/index.html index 0d161a8..2130323 100644 --- a/public/blog/index.html +++ b/public/blog/index.html @@ -7,4 +7,4 @@ 课程 辅导

    SRE精英联盟原创技术文章持续更新中。

    \ No newline at end of file + \ No newline at end of file diff --git a/public/categories/index.html b/public/categories/index.html index 7064a88..6974df5 100644 --- a/public/categories/index.html +++ b/public/categories/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

    \ No newline at end of file + \ No newline at end of file diff --git "a/public/categories/\345\237\272\347\241\200\350\256\276\346\226\275/index.html" "b/public/categories/\345\237\272\347\241\200\350\256\276\346\226\275/index.html" index 2e32c3d..4b40873 100644 --- "a/public/categories/\345\237\272\347\241\200\350\256\276\346\226\275/index.html" +++ "b/public/categories/\345\237\272\347\241\200\350\256\276\346\226\275/index.html" @@ -7,4 +7,4 @@ 课程 辅导

    \ No newline at end of file + \ No newline at end of file diff --git a/public/contact/index.html b/public/contact/index.html index 55f2e6b..f12dda9 100644 --- a/public/contact/index.html +++ b/public/contact/index.html @@ -12,4 +12,4 @@

    请关注我们的微信公众号、B站和YouTube频道,获取最新的SRE技术资讯和最佳实践。

    SRE精英联盟 SRE精英联盟
    SRE精英联盟

    +86 13581793238 info@sre-elite.com

    北京,中国

    \ No newline at end of file + \ No newline at end of file diff --git a/public/course/course-6/index.html b/public/course/course-6/index.html index 8c40ec4..3b89b5f 100644 --- a/public/course/course-6/index.html +++ b/public/course/course-6/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

    课程开发中。

    课程开发中

    • 时长

      1 天

    • 授课

      5 小时

    • 费用

      $699/人

    课程简介

    课程开发中。如有培训需求,点这里联系我们

    讲师

    相关课程

    \ No newline at end of file + \ No newline at end of file diff --git a/public/course/index.html b/public/course/index.html index c45b6e3..a024b40 100644 --- a/public/course/index.html +++ b/public/course/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

    为了更好的传播 SRE 的理念、实践和技术,联盟成员集体和个人输出的课程在不断更新中。

    课程开发中
    • 1 天
    • SRE

    课程开发中

    课程简介 课程开发中。

    报名参加
    \ No newline at end of file + \ No newline at end of file diff --git a/public/event/index.html b/public/event/index.html index 541229a..a3f0046 100644 --- a/public/event/index.html +++ b/public/event/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

    SRE 精英联盟举办的各种线上线下社区活动。

    \ No newline at end of file + \ No newline at end of file diff --git a/public/event/meetup-beijing-1/index.html b/public/event/meetup-beijing-1/index.html index bf83f54..b5ce5d1 100644 --- a/public/event/meetup-beijing-1/index.html +++ b/public/event/meetup-beijing-1/index.html @@ -4,5 +4,5 @@ 活动 研究 课程 -辅导
    • 首页
    • SRE精英联盟 Meetup - 北京

    SRE精英联盟 Meetup - 北京,实践白皮书第三章主题研讨会

    SRE精英联盟 Meetup - 北京

    SRE精英联盟 Meetup - 北京
    • 地点

      北京

    • 日期

      22 Jun, 2024

    • 时间

      13:30 +0400

    • 参加费用

      免费

    活动日程

    地点:北京市海淀区清河小米科技园

    1. 开场【13:25】:主持人介绍活动目的和流程
    2. 演讲1【13:30-13:50】:【《服务韧性工程(SRE)能力要求》标准解析】 - 王海清(中国信通院云大所业务主管稳定性保障实验室负责人)
    3. 演讲2【13:50-14:35】:【《小米集团云计算故障应急响应经验分享》】 - 王哲(小米集团云平台运维部负责人)
    4. 茶歇【14:35-14:50】: 休息
    5. 演讲3【14:50-15:35】:【《美图故障管理体系搭建实践》】 - 石鹏 (美图公司-高级运维经理)
    6. 演讲4【15:35-16:20】:【《数字化监控平台稳定性保障实践》】 - 吴天昊 (中国联通软件研究院-副总架构师)
    7. 演讲5【16:20-17:05】:【《全球化游戏故障管理实践》】 - 乾海平 (腾讯自研游戏SRE负责人)
    8. 交流:【17:05-17:30】自由交流。
    9. 结束:【17:30】感谢致辞和下次活动预告。

    分享演讲 1: 《服务韧性工程(SRE)能力要求》标准解析

    • 讲师姓名:王海清(中国信通院云大所业务主管稳定性保障实验室负责人)
    • 讲师简介:专注系统稳定性保障领域技术研究,掌握行业发展痛点和趋势。
    • 内容概述:
      • 中国信通院依托稳定性保障实验室,联合数十家头部企业专家,研讨和制定《服务韧性工程(SRE)能力要求》标准;
      • 该标准体系基于SRE理论的运维体系评估模型;
      • 标准覆盖全栈技术能力建设,构建和维护服务韧性工程,是体系化的方法论、实践和标准的集合。
    • PPT下载

    分享演讲 2: 《小米集团云计算故障应急响应经验分享》

    • 讲师姓名:王哲(小米集团云平台运维部负责人)
    • 讲师简介:运维老兵,长期致力于效率提升带来的质量成本价值。
    • 内容概述:
      • 中大型企业复杂场景,故障管理带来的挑战
      • 应对挑战如何构建对应的能力
      • 一些实践案例分享。
    • PPT下载 | 视频回放

    分享演讲 3: 《美图故障管理体系搭建实践》

    • 讲师姓名:石鹏(东方德胜)
    • 讲师简介:美图SRE负责人,整体负责公司线上服务的稳定性保障工作。在运维架构设计、灾备建设、故障管理、稳定性运营等方面有一定的积累。
    • 内容概述:
      • 故障管理体系之What&Why;
      • 常见的构建思路;
      • 美图的探索实践分享。
    • PPT下载

    分享演讲 4: 《数字化监控平台稳定性保障实践》

    • 讲师姓名:吴天昊(中国联通软件研究院-副总架构师)
    • 讲师简介:主要负责中国联通数字化监控平台整体功能和技术架构设计及建设推广,打造自动化生产和智慧化运营的生产运营平台,助力系统稳定性持续提升。
    • 内容概述:
      • 云原生下运维的问题挑战;
      • 数字化监控平台的核心能力;
      • 稳定性保障的场景应用实践。
    • PPT下载 | 视频回放

    分享演讲 5 :《全球化游戏故障管理实践》

    • 讲师姓名:乾海平(腾讯自研游戏SRE负责人)
    • 讲师简介:运维界老司机,深耕多年运维行业,在全球游戏业务的故障管理上积累了一定经验。
    • 内容概述:
      • 全球化业务在故障管理上面临的问题和挑战
      • 如何做故障治理
    • PPT下载 | 视频回放

    有任何建议和咨询,请联系我们。点这里

    活动讲师

    speaker

    王海清

    中国信通院云大所
    speaker

    王哲

    小米
    speaker

    石鹏(东方德胜)

    美图
    speaker

    吴天昊

    中国联通软件研究院
    speaker

    乾海平

    腾讯
    \ No newline at end of file +辅导
    • 首页
    • SRE精英联盟 Meetup - 北京

    SRE精英联盟 Meetup - 北京,实践白皮书第三章主题研讨会

    SRE精英联盟 Meetup - 北京

    SRE精英联盟 Meetup - 北京
    • 地点

      北京

    • 日期

      22 Jun, 2024

    • 时间

      13:30 +0400

    • 参加费用

      免费

    活动日程

    地点:北京市海淀区清河小米科技园

    1. 开场【13:25】:主持人介绍活动目的和流程
    2. 演讲1【13:30-13:50】:【《服务韧性工程(SRE)能力要求》标准解析】 - 王海清(中国信通院云大所业务主管稳定性保障实验室负责人)
    3. 演讲2【13:50-14:35】:【《小米集团云计算故障应急响应经验分享》】 - 王哲(小米集团云平台运维部负责人)
    4. 茶歇【14:35-14:50】: 休息
    5. 演讲3【14:50-15:35】:【《美图故障管理体系搭建实践》】 - 石鹏 (美图公司-高级运维经理)
    6. 演讲4【15:35-16:20】:【《数字化监控平台稳定性保障实践》】 - 吴天昊 (中国联通软件研究院-副总架构师)
    7. 演讲5【16:20-17:05】:【《全球化游戏故障管理实践》】 - 乾海平 (腾讯自研游戏SRE负责人)
    8. 交流:【17:05-17:30】自由交流。
    9. 结束:【17:30】感谢致辞和下次活动预告。

    分享演讲 1: 《服务韧性工程(SRE)能力要求》标准解析

    • 讲师姓名:王海清(中国信通院云大所业务主管稳定性保障实验室负责人)
    • 讲师简介:专注系统稳定性保障领域技术研究,掌握行业发展痛点和趋势。
    • 内容概述:
      • 中国信通院依托稳定性保障实验室,联合数十家头部企业专家,研讨和制定《服务韧性工程(SRE)能力要求》标准;
      • 该标准体系基于SRE理论的运维体系评估模型;
      • 标准覆盖全栈技术能力建设,构建和维护服务韧性工程,是体系化的方法论、实践和标准的集合。
    • PPT下载

    分享演讲 2: 《小米集团云计算故障应急响应经验分享》

    • 讲师姓名:王哲(小米集团云平台运维部负责人)
    • 讲师简介:运维老兵,长期致力于效率提升带来的质量成本价值。
    • 内容概述:
      • 中大型企业复杂场景,故障管理带来的挑战
      • 应对挑战如何构建对应的能力
      • 一些实践案例分享。
    • PPT下载 | 视频回放

    分享演讲 3: 《美图故障管理体系搭建实践》

    • 讲师姓名:石鹏(东方德胜)
    • 讲师简介:美图SRE负责人,整体负责公司线上服务的稳定性保障工作。在运维架构设计、灾备建设、故障管理、稳定性运营等方面有一定的积累。
    • 内容概述:
      • 故障管理体系之What&Why;
      • 常见的构建思路;
      • 美图的探索实践分享。
    • PPT下载

    分享演讲 4: 《数字化监控平台稳定性保障实践》

    • 讲师姓名:吴天昊(中国联通软件研究院-副总架构师)
    • 讲师简介:主要负责中国联通数字化监控平台整体功能和技术架构设计及建设推广,打造自动化生产和智慧化运营的生产运营平台,助力系统稳定性持续提升。
    • 内容概述:
      • 云原生下运维的问题挑战;
      • 数字化监控平台的核心能力;
      • 稳定性保障的场景应用实践。
    • PPT下载 | 视频回放

    分享演讲 5 :《全球化游戏故障管理实践》

    • 讲师姓名:乾海平(腾讯自研游戏SRE负责人)
    • 讲师简介:运维界老司机,深耕多年运维行业,在全球游戏业务的故障管理上积累了一定经验。
    • 内容概述:
      • 全球化业务在故障管理上面临的问题和挑战
      • 如何做故障治理
    • PPT下载 | 视频回放

    有任何建议和咨询,请联系我们。点这里

    活动讲师

    speaker

    王海清

    中国信通院云大所
    speaker

    王哲

    小米
    speaker

    石鹏(东方德胜)

    美图
    speaker

    吴天昊

    中国联通软件研究院
    speaker

    乾海平

    腾讯
    \ No newline at end of file diff --git a/public/event/meetup-shanghai-1/index.html b/public/event/meetup-shanghai-1/index.html index 453e4a8..4540ca1 100644 --- a/public/event/meetup-shanghai-1/index.html +++ b/public/event/meetup-shanghai-1/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导
    • 首页
    • SRE精英联盟Meetup - 上海

    SRE精英联盟Meetup - 上海,实践白皮书第三章主题研讨会

    SRE精英联盟Meetup - 上海

    SRE精英联盟Meetup - 上海
    • 地点

      上海

    • 日期

      13 Apr, 2024

    • 时间

      13:30 +0400

    • 参加费用

      免费

    活动日程

    地点:上海市杨浦区国正中心1号楼18楼

    1. 开场【13:25】:主持人介绍活动目的和流程。 :
    2. 演讲1【13:30-14:10】:《发布之二三事》– 顾黄亮 (畅销书作者)
    3. 演讲2【14:10-14:50】:《应用变更发布实践》– 马悦 (某银行运维自动化项目组 team leader)
    4. 茶歇【14:50-15:05】: 休息
    5. 演讲3【15:05-15:45】:《B站变更防控设计与实践》 – 刘昊 (平台工程负责人)
    6. 演讲4【15:45-16:25】:《携程云基础设施变更管理实践》 – 刘芽 (携程SRE技术专家)
    7. 演讲5【16:25-17:05】:《腾讯游戏GitOps发布变更方案》– 胡宇涵 (腾讯游戏SRE高级工程师)
    8. 交流:【17:05-17:30】自由交流。
    9. 结束:【17:30】感谢致辞和下次活动预告。

    分享演讲 1: 《发布之二三事》

    • 讲师姓名:顾黄亮 (畅销书作者)
    • 讲师简介:丰富的企业级SRE实战经验,专注企业IT数字化的转型和落地,致力于企业智慧运维体系的打造。
    • 内容概述:从发布到运营的拓展,展现教科书级的发布通道

    分享演讲 2: 《应用变更发布实践》

    • 讲师姓名:马悦 (某银行运维自动化项目组 team leader)
    • 讲师简介:2018年入职某股份制银行,5年的运维自动化调度和实践经验,目前主要负责自动化调度引擎的研发和建设。
    • 内容概述:为提升应用发布自动化成功率,在发布检查上的实践和思考

    分享演讲 3: 《B站变更防控设计与实践》

    • 讲师姓名:刘昊 (平台工程负责人)
    • 讲师简介:2017年加入哔哩哔哩,目前主要负责SRE体系化建设和人员转型培训,设计落地应急响应、变更防控、蓝军演练、运维数据资产和资产成本等系统,持续优化业务稳定性、提升人员效率和降低资产成本。
    • 内容概述:
      • 了解B站的变更管控实践经验,学习如何设计和实施变更管控平台。
      • 掌握变更管理的核心概念和逻辑思考,提高稳定性。
      • 理解变更管控的亮点和优势,提高故障排查效率和准确性减少发布等高频变更场景的风险隐患。
    • PPT下载 | 视频回放

    分享演讲 4: 《携程云基础设施变更管理实践》

    • 讲师姓名:刘芽 (携程SRE技术专家)
    • 讲师简介:携程云平台SRE团队负责人。
    • 内容概述:分享携程云平台基础设施服务的升级、发布、日常变更的流程、工具、和实践经验。
    • PPT下载 | 视频回放

    分享演讲 5 《腾讯游戏GitOps发布变更方案》

    • 讲师姓名:胡宇涵 (腾讯游戏SRE高级工程师)
    • 讲师简介:腾讯游戏SRE云原生GITOPS技术负责人。
    • 内容概述:分享腾讯游戏SRE如何使用GitOps进行云原生持续交付
    • PPT下载 | 视频回放

    有任何建议和咨询,请联系我们。点这里

    活动讲师

    speaker

    顾黄亮

    NIISA
    speaker

    马悦

    某银行
    speaker

    刘昊

    哔哩哔哩
    speaker

    刘芽

    携程
    speaker

    胡宇涵

    腾讯
    \ No newline at end of file + \ No newline at end of file diff --git a/public/event/meetup-shenzhen-1/index.html b/public/event/meetup-shenzhen-1/index.html index 1655790..83abc6d 100644 --- a/public/event/meetup-shenzhen-1/index.html +++ b/public/event/meetup-shenzhen-1/index.html @@ -6,5 +6,5 @@ 研究 课程 辅导
    • 首页
    • SRE精英联盟Meetup - 深圳

    SRE精英联盟Meetup - 深圳,实践白皮书第三章主题研讨会

    SRE精英联盟Meetup - 深圳

    SRE精英联盟Meetup - 深圳
    • 地点

      深圳

    • 日期

      26 Oct, 2024

    • 时间

      13:30 +0400

    • 参加费用

      免费

    活动日程

    地点:深圳市南山区深南大道10000号腾讯大厦二楼多功能厅

    1.开场【13:25】:主持人介绍活动目的和流程。

    2.演讲【13:30-14:15】:《高可用架构分级治理体系》— 翁智华 (基础技术团队负责人)

    3.演讲【14:15-15:00】:《腾讯游戏FinOps 实践》— 张冬敏 (资深SRE专家)

    4.茶歇【15:00-15:15】: 休息

    5.演讲3【15:15-16:00】:《广发证券稳定性保障体系建设实践》 — 周健华 (资深SRE专家)

    6.演讲4【16:00-16:45】:《趣丸SLA质量体系下的业务高可用建设》 — 李楠 (业务运维负责人)

    7.演讲5【16:45-17:30】:《OPPO春节业务保障》 — 邱宏林 (业务SRE负责人)

    8.演讲6 【17:30-17:50】:《近年来宕机事故分析及云+应用运行安全建设建议》— 季可航 (中国信通院云大所云计算部工程师)

    9.交流:【17:50-18:15】自由交流

    10.结束:【18:15】感谢致辞和下次活动预告

    分享演讲 1: 《高可用架构分级治理体系》

    • 讲师姓名:翁智华 (基础技术团队负责人)

    • 讲师简介:10+年互联网行业研发、架构,以及技术团队管理经验,目前在一线电商企业担任高可用架构师,负责容灾,异地多活和单元化的落地。

    • 内容概述:

      • 1.倒金字塔模型的容灾治理体系以及落地经验分享。
      • 2.通过机器学习算法实现运维分析、决策、执行,从而达到运维系统高度自动化。

    分享演讲 2: 《腾讯游戏FinOps 实践》

    • 讲师姓名:张冬敏 (资深SRE专家)

    • 讲师简介:具备多年游戏运营成本管理及优化等方面的经验,目前负责腾讯游戏FinOps体系建设及业务运营成本优化专项相关工作

    • 内容概述:

      • 1.腾讯游戏FinOps 建设思考
      • 2.腾讯游戏运营成本精算体系介绍
      • 3.运营成本优化实践
    • PPT下载

    分享演讲 3: 《广发证券稳定性保障体系建设实践》

    • 讲师姓名:周健华 (资深SRE专家)

    • 讲师简介:10+年互联网、金融企业运维经验,目前负责核心证券交易系统运维管理与保障体系建设,在故障管理、稳定性运营方面有一定的积累。

    • 内容概述:

      • 1.证券公司SRE体系建设的思考;
      • 2.以数据、场景驱动的稳定性保障技术治理;
      • 3.技术治理与持续优化的实践案例分享。
    • PPT下载

    分享演讲 4: 《趣丸SLA质量体系下的业务高可用建设》

    • 讲师姓名:李楠 (业务运维负责人)

    • 讲师简介:10+年大规模互联网业务稳定性运维管理经验。从事业务稳定性保障、虚拟化、容器化、 Devops平台开发设计、运维数字人探索等方面工作。

    • 内容概述:

      • 1、SLA质量体系与业务高可用的关系
      • 2、如何通过SLA体系驱动高可用建设
      • 3、趣丸网络的高可用建设实践和成效
    • PPT下载

    分享演讲 5 《OPPO春节业务保障》

    • 讲师姓名:邱宏林 (业务SRE负责人)

    • 讲师简介:从事业务SRE工作多年,目前主要负责业务稳定性保障、多活建设与成本优化等。

    • 内容概述:

      • 1、重大活动保障思路
      • 2、OPPO春节重保作战实践
    • PPT下载

    分享演讲 6 《近年来宕机事故分析及云+应用运行安全建设建议》

    • 讲师姓名:季可航 (中国信通院云大所云计算部工程师)

    • 讲师简介:现就任于中国信息通信研究院-云计算与大数据研究所,目前负责系统稳定性方面的标准化研究,企业稳定性能力验证和评估,支持政府进行行业稳定性现状调研和分析。

    • 内容概述:

      • 1.近年来国外发生的宕机事故进行了详细分析,总结了主要原因和影响。
      • 2.针对企业提出了构建云+应用的运行安全建议,以提高系统稳定性。
    • PPT下载

    有任何建议和咨询,请联系我们。点这里 -–>

    活动讲师

    speaker

    翁智华

    电商企业
    speaker

    张冬敏

    腾讯
    speaker

    周健华

    证券企业
    speaker

    李楠

    趣丸网络
    speaker

    邱宏林

    OPPO
    speaker

    季可航

    中国信通院云大所
    \ No newline at end of file +–>

    活动讲师

    speaker

    翁智华

    电商企业
    speaker

    张冬敏

    腾讯
    speaker

    周健华

    证券企业
    speaker

    李楠

    趣丸网络
    speaker

    邱宏林

    OPPO
    speaker

    季可航

    中国信通院云大所
    \ No newline at end of file diff --git a/public/event/sre-excellence-unleashed-ep1/index.html b/public/event/sre-excellence-unleashed-ep1/index.html index e17a682..c011f2b 100644 --- a/public/event/sre-excellence-unleashed-ep1/index.html +++ b/public/event/sre-excellence-unleashed-ep1/index.html @@ -7,5 +7,5 @@ 课程 辅导
    • 首页
    • SRE精英联盟:释放卓越系列直播-第一期

    本次活动在视频号&B站都可以预约。

    SRE精英联盟:释放卓越系列直播-第一期

    SRE精英联盟:释放卓越系列直播-第一期
    • 地点

      视频号&B站-直播

    • 日期

      29 Feb, 2024

    • 时间

      20:00 +0100

    • 参加费用

      免费

    SRE Excellence Unleashed: Live with Pros. Ep1

    内容概述

    • SRE精英联盟之桃园结义,讲述联盟的来历和故事。
    • 《SRE实践白皮书》v1.0.1 首次公开发布,历经数年撰写现公开下载。
    • 用货币化的方式破局SRE团队没事故的时候也没有功劳的悖论。
    • 在企业里夯实SRE团队的职能并主动拓展价值。

    嘉宾

    • 主持人: 刘宇 【金山办公-SRE工程师】
    • 联盟创始人:赵成 【SRE精英联盟发起人】
    • 分享专家:刘亚丹 【趣丸科技-技术保障部总监】
    • 分享专家:杨军 【腾讯IEG-SRE总监】
    • 圆桌嘉宾:赵成 【SRE精英联盟发起人】
    • 圆桌嘉宾:王海清 【中国信通院云大所高级业务主管-稳定性保障实验室负责人】
    • 圆桌嘉宾:党受辉 【腾讯IEG-SRE专家工程师】
    • 圆桌嘉宾:刘征 【中国DevOps社区核心组织者】

    预约直播

    请扫码关注预约直播,或者关注回放视频。

    视频号: SRE精英联盟

    B站: -SRE精英联盟

    回放视频

    本次直播的回放视频,已经被剪辑了三个独立的视频,请扫码关注以上的视频号或者B站,既可以观看。请点赞、评论、分享,感谢您的支持。我们将会在视频号和 B 站上回答您的问题,也欢迎您在评论区留言。精彩的问题和留言会在下一期直播中被选中并回答。

    直播 PPT 下载

    活动讲师

    speaker

    刘宇

    金山办公-SRE工程师
    speaker

    赵成

    SRE精英联盟发起人
    speaker

    杨军

    腾讯IEG-SRE总监
    speaker

    刘亚丹

    趣丸科技-技术保障部总监
    \ No newline at end of file +SRE精英联盟

    回放视频

    本次直播的回放视频,已经被剪辑了三个独立的视频,请扫码关注以上的视频号或者B站,既可以观看。请点赞、评论、分享,感谢您的支持。我们将会在视频号和 B 站上回答您的问题,也欢迎您在评论区留言。精彩的问题和留言会在下一期直播中被选中并回答。

    直播 PPT 下载

    活动讲师

    speaker

    刘宇

    金山办公-SRE工程师
    speaker

    赵成

    SRE精英联盟发起人
    speaker

    杨军

    腾讯IEG-SRE总监
    speaker

    刘亚丹

    趣丸科技-技术保障部总监
    \ No newline at end of file diff --git a/public/index.html b/public/index.html index 09f7dc9..0fdf79a 100644 --- a/public/index.html +++ b/public/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

    SRE精英联盟线下 Meetup 深圳

    联盟线下 Meetup 技术交流活动即将在深圳举办,众多技术干货分享等你来学习。席位有限,请提前报名。

    马上报名

    《SRE实践白皮书》更新中

    近期联盟已经发布了《SRE实践白皮书》的最新版本,欢迎大家下载阅读。

    下载

    引领、研究、发展SRE

    精英联盟是一个致力于推动SRE实践的技术研讨社区,我们的使命是促进生产稳定安全。

    联盟专家
    banner-feature

    SRE实践白皮书

    SRE精英联盟用社区协作的方式,历时数年,经过大量领域专家的努力,聚集了大量一线实操经验,并在持续更新中。本白皮书是联盟核心工作之一。

    技术研讨社区

    联盟的社区定期举行各种交流研讨活动,包括双周闭门的例会、线上直播和线下的 Meetup 等等。。

    精英联盟使命

    致力于发展核心的专家团队,讨论切磋各个公司当前线上的 SRE 实践。用白皮书和线上线下活动的方式不断输出行业影响。

    促生产稳定安全

    SRE 实践以及相关技术研究领域是生产系统安全稳定运行的基础,是消除和控制风险的不二法门。

    关于精英联盟

    自从 SRE 的理念进入中国以来,就已经引起了很多企业的关注和效仿,但各企业实施 SRE 的方法各异,SRE 的实现效果也各不相同。与此同时,中国的互联网行业中涌现出了一批对SRE充满热情的倡导者,他们为社区做出了各种贡献;包括:孙宇聪翻译出版了《SRE:Google运维解密》、赵成在极客时间开设了课程《SRE实战手册》,以及赵舜东在社区里积极地布道分享等等,不胜枚举。2022年,由赵成等人牵头,首批来自于互联网、运营商、金融等行业领军企业的 SRE 团队负责人齐聚一堂,组织了SRE研讨社区,定期开展社区分享活动,共同探讨 SRE 在各企业里的发展路径,分享各自的实战经验,并总结出了这份来自一线实战的、详实而持续更新的《SRE实践白皮书》。

    了解更多
    about image
    申请者需满足联盟所要求的资质

    SRE精英联盟网络一线专家

    申请加入

    文章更新

    \ No newline at end of file + \ No newline at end of file diff --git a/public/notice/index.html b/public/notice/index.html index 44c6cfd..9db3079 100644 --- a/public/notice/index.html +++ b/public/notice/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

    SRE精英联盟的公告。包括:白皮书发布、活动安排、课程开发、合作伙伴、会员动态等。

    \ No newline at end of file + \ No newline at end of file diff --git a/public/notice/wp-v-1.0.1/index.html b/public/notice/wp-v-1.0.1/index.html index 7f36f18..cfe0ff8 100644 --- a/public/notice/wp-v-1.0.1/index.html +++ b/public/notice/wp-v-1.0.1/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导
    • 首页
    • 祝贺《SRE实践白皮书》v1.0.1 正式版发布

    公开对外发布《SRE实践白皮书》v1.0.1 正式版。

    26th Feb, 2024

    公告

    SRE实践白皮书

    经过数年的编写和修订,《SRE实践白皮书》v1.0.1 正式版终于发布了。这是一本关于SRE实践的白皮书,是SRE实践的指导手册,是SRE实践的最佳实践。

    更新内容

    白皮书的目录结构如下:

    • 1 SRE整体介绍 ………………………………………………………………………………………………………….. 2
    • 1.1 前言 ………………………………………………………………………………………………………………… 2
    • 1.2 SRE 发展历程 ………………………………………………………………………………………………… 3
    • 1.3 SRE 的目标 …………………………………………………………………………………………………….. 4
    • 2 SRE的组织架构 ………………………………………………………………………………………………………. 6
    • 3 SRE的流程 …………………………………………………………………………………………………………….. 10
    • 3.1 可靠性构架设计 ………………………………………………………………………………………….. 10
    • 3.1.2 基础设施保障 ……………………………………………………………………………………………………… 13
    • 3.1.3 数据灾备 ……………………………………………………………………………………………………………… 14
    • 3.2 研发保障 ………………………………………………………………………………………………………. 14
    • 3.2.1 代码可靠性 ………………………………………………………………………………………………………….. 14
    • 3.2.2 代码仓库可靠性 ………………………………………………………………………………………………….. 26
    • 3.2.3 构建可靠性 ………………………………………………………………………………………………………….. 32
    • 3.2.4 制品可靠性 ………………………………………………………………………………………………………….. 36
    • 3.3 入网控制 ………………………………………………………………………………………………………. 39
    • 3.3.1 运行环境适配 ……………………………………………………………………………………………………… 39
    • 3.3.2 运行环境交付 ……………………………………………………………………………………………………… 50
    • 3.3.3 测试策略 ……………………………………………………………………………………………………………… 56
    • 3.3.7 变更评审 ……………………………………………………………………………………………………………… 66
    • 3.4 发布管理 ………………………………………………………………………………………………………. 75
    • 3.4.1 发布准备 ……………………………………………………………………………………………………………… 75
    • 3.4.2 发布实施 ……………………………………………………………………………………………………………… 89
    • 3.4.3 发布总结 ……………………………………………………………………………………………………………… 96
    • 3.5 故障应急 ………………………………………………………………………………………………………. 97
    • 3.5.1 故障发现 ……………………………………………………………………………………………………………… 97
    • 3.5.2 故障诊断 ……………………………………………………………………………………………………………. 101
    • 3.5.3 故障恢复 ……………………………………………………………………………………………………………. 106
    • 3.5.4 故障复盘 ……………………………………………………………………………………………………………. 109
    • 3.6 上线后持续优化工作 ……………………………………………………………………………….. 117
    • 3.6.1 用户体验优化 ……………………………………………………………………………………………………. 117
    • 3.6.2 重大技术保障 ……………………………………………………………………………………………………. 122
    • 3.6.3 运维琐事的日常管理及优化 ……………………………………………………………………………. 142
    • 3.6.4 业务全生命周期工具建设 ……………………………………………………………………………….. 147
    • 3.6.5 运营成本分析及优化 ………………………………………………………………………………………… 152
    • 3.6.6 混沌工程 ……………………………………………………………………………………………………………. 163
    • 3.6.7 应用服务SLI/SLO ……………………………………………………………………………………………… 167
    • 3.6.8 持续改进 ……………………………………………………………………………………………………………. 174
    • 3.7 平台工程 ……………………………………………………………………………………………………. 182
    • 3.7.1 标准应用平台工程建设 ……………………………………………………………………………………. 182
    • 3.7.2 异构应用平台工程建设 ……………………………………………………………………………………. 202
    • 4 附录 ………………………………………………………………………………………………………………. 226
    • 4.1 参考文献 ……………………………………………………………………………………………………………….. 226
    • 4.2 术语 ……………………………………………………………………………………………………………………….. 227

    反馈和沟通

    如果您有任何问题或建议,点这里联系我们

    下载最新白皮书

    版本:v1.0.1
    下载
    \ No newline at end of file + \ No newline at end of file diff --git a/public/notice/wp-v-1.0.2/index.html b/public/notice/wp-v-1.0.2/index.html index 52e7768..726ea3f 100644 --- a/public/notice/wp-v-1.0.2/index.html +++ b/public/notice/wp-v-1.0.2/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导
    • 首页
    • 《SRE实践白皮书》v1.0.2 发布

    《SRE实践白皮书》v1.0.2 更新版。

    7th Mar, 2024

    本版本的增加了许可证。

    版本发布说明

    • 增加了版权声明 为 CC BY-ND 4.0
    • 修正了目录没有 3.1.1 的问题
    • 修改了页眉的时间点
    • 修正了部分错别字

    反馈和沟通

    如果您有任何问题或建议,点这里提交联系我们

    也欢迎使用 GitHub 的 issue & Discussions 功能来提交您的问题或讨论。

    下载最新白皮书

    版本:v1.0.2
    下载
    \ No newline at end of file + \ No newline at end of file diff --git a/public/notice/wp-v-1.0.3/index.html b/public/notice/wp-v-1.0.3/index.html index 95a808e..5c5c16c 100644 --- a/public/notice/wp-v-1.0.3/index.html +++ b/public/notice/wp-v-1.0.3/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导
    • 首页
    • 《SRE实践白皮书》v1.0.3 发布

    《SRE实践白皮书》v1.0.3 更新版。

    12th Jun, 2024

    第四章做了大规模重构。

    版本发布说明

    根据业界经验以及Google 多本SRE 书籍中提到 ,70% 左右故障是由变更引起的。但是业务的发展变更是不可避免的,因此如何通过变更管理, 对变更的风险进行管控,尽可能的降低由变更带来的故障率和影响面,是提升稳定性的一条可持续、高ROI的路线, 也是每个SRE 团队最重要的课题。因此,我们首次的大版本更新选择了 《第四章 变更管理》进行展开讨论。

    本次更新共计4万余字,首先厘清了变更管理与发布管理的关系,并以《SRE精英联盟》2024年4月13日在上海B站沙龙分享的案例为主体,新增了6个关于变更和发布管理的案例。这些案例涵盖了互联网、银行、运营商、证券等多个行业,具备行业代表性和领先性。

    希望相关内容能对目前从事SRE 的工作同仁带来些许的启示,同时,我们也期待更多的行业专家和从业者能够参与到我们的讨论中来,共同推动SRE领域的发展和进步。

    变更管理案例:4.3.1 ‘B站’变更防控的设计与实践

    B站变更管控平台架构设计

    SRE Elite收录点评

    • 利用了trace和CMDB资源拓扑信息,以关联和聚合应用服务的变更,能够追踪并识别变更对整个服务生态系统的潜在影响,有助于提高故障排查的效率和准确性。
    • 在企业内不同部门存在多套发布变更系统,且短期难以推倒统一重建的情况下,从变更防控的视角,补充建设防控平台,通过统一模型、熔断控制等方式,实现自动化的集中式变更管控。

    变更管理案例:4.3.2携程云平台基础设施变更管理实践

    SRE Elite收录点评

    • 这是一个由混合云SRE团队提供的案例,作为基础设施质量的把控者,对变更的计划性和标准作业流程要求严格,对于企业内私有云SRE管理团队有一定的参考价值。
    • 大量使用了 IaC 的方式, 对基础架构进行管理及变更,其中使用 SaltStack和StackStorm管理配置变更,使用Kustomize和Git Workflow管理多个集群和环境的基础组件配置文件,对公有云资源使用Terraform进行管理,实现了全栈IaC落地。

    变更管理案例:4.3.3某银行变更管理设计与实践

    某银行变更管理总体思路和设计

    SER Elite收录点评:

    • 这是一个银行变更管理的案例,需要在符合监管的前提下保障可靠性,对风险控制达到了量化程度,定义了应用和基础设施等变更风险的评分模型和积分制度,再结合评审控制准入。
    • 该银行业务变更涉及多方企业人员关联,流程环节复杂,对变更管理所涉及的过程,设立了配套的组织架构闭环治理,例如变更自动化率、耗时、风险评估准确性、流程审批效率等。

    发布管理案例: 4.4.1中移互联网敏捷发布平台建设实践

    中移互联公司级统一应用敏捷发布平台

    SRE Elite收录点评

    • “中移互联”这个名字就体现了传统行业与互联网的结合,传统IT模式与敏捷互联网业务间的矛盾,促使其从方向上选择了卸下历史包袱推倒零散的工具系统,一步到位建设一体化运维平台。并且对物理机、虚拟机、容器等不同类型的资源及上层应用设计了混合编排模式,为后续的综合算力调度做了储备。
    • 在一体化运维建设之后,为了追求更高的质量效率,中移互联SRE团队向研发服务左移,保障了测试环境及生产环境的发布一致性,并且承建了研发工具链,从运维一体化扩展至研运一体化。

    发布管理案例: 4.4.2某证券变更一体化平台建设实践

    某证券变更一体化平台

    SRE Elite收录点评

    • 本证券案例的变更一体化平台建设目标是解决四种场景的变更统一:自研和外购应用的发布/变更一体化、传统和云原生应用的发布/变更一体化;测试与开发环境的发布/变更一体化;敏捷与安全的工程一体化。覆盖场景多,平台整合度高,规划参考性较强。

    发布管理案例: 4.4.3游戏GitOps发布管理实践

    SRE Elite收录点评

    • 这是一个典型的GitOps发布案例,对于互联网企业来说很常见,对于传统行业SRE具备一定的参考性,适用于流程和权限管控相对宽松而执行频率较高的测试环境、预发布环境、体验环境、低社会敏感应用的生产环境等。
    • 该案例描述了一个大型SRE团队全球化应用部署管理的场景,对不同细分职能的分工和协作模式做了阐述,对不同类型权限的操作者提供了差异化入口及审计方案,同时也兼顾到了不同使用习惯的开源组件集成,体现了鲜明的互联网风格。

    以上均为各案例的收录点评,如需了解详情, 请查阅完整版本的《SRE 白皮书 1.0.3》对应章节。

    以上案例分享的部分 PPT 和 分享视频,请在 上海 Meetup 活动页面 查看。

    反馈和沟通

    如果您有任何问题或建议,点这里提交联系我们

    也欢迎使用 GitHub 的 issue & Discussions 功能来提交您的问题或讨论。

    下载最新白皮书

    版本:v1.0.3
    下载
    \ No newline at end of file + \ No newline at end of file diff --git a/public/notice/wp-v-1.0.4/index.html b/public/notice/wp-v-1.0.4/index.html index 5cfd78d..ada7e48 100644 --- a/public/notice/wp-v-1.0.4/index.html +++ b/public/notice/wp-v-1.0.4/index.html @@ -7,4 +7,4 @@ 课程 辅导
    • 首页
    • 《SRE实践白皮书》v1.0.4 发布

    《SRE实践白皮书》v1.0.4 更新版。

    3rd Sep, 2024

    本次更新了两章内容,主要聚焦于《研发保障》和《故障应急》两大核心部分,整体文章结构进行了优化,新增7个案例,共计7.2万字。新增内容涵盖互联网、运营商、银行及金融等多个行业。其中,《故障应急》章节深入解析了多家企业的应急响应体系,内容充实且实用性强。而《研发保障》章节则探讨了SRE工作左移的前沿实践,包含了企业代码级的细致案例分享,极具参考价值。

    2.3.1 腾讯游戏全球研发保障实践

    SRE Elite精选原因

    这是一个完整的游戏行业研发保障案例。面对游戏研发中的复杂研发管线、大文件版本管理、冗长的构建过程和频繁的更新需求等挑战,SRE团队通过稳定性保障、平台工具建设、以及与业务开发团队的有效分工,实现了高效的研发保障。 此案例覆盖了研发保障的多个关键模块,在代码可靠性,代码仓库可靠性、制品分发、以及构建加速等多个方面进行了优化,显著提升了代码提交和构建的成功率,并有效解决了代码库卡顿和文件分发效率低等问题。相关的优化内容非常的详尽细节, 具有很强的实践性,且大部分关键组件提供了开源的实现案例,非常值得参考。

    腾讯游戏全球研发保障实践

    2.3.2 某语音直播公司研发过程保障实践

    SRE Elite精选原因

    此案例展示了某语音直播公司在现代化软件架构下的研发保障实践。面对微服务、容器化和服务网格等新技术带来的挑战,该公司构建了全面的研发保障体系,涵盖快速发布、稳定性保障、代码可靠性和服务运行等多个关键模块。其中,采用服务网格进行环境隔离和金丝雀发布,属行业内的创新实践,体现了深入的云原生应用。此外,通过IDE插件对接环境进行调试,大幅提升了问题排查的效率。此案例实践性强、创新性高,具有广泛的借鉴意义。

    某语音直播公司研发过程保障实践

    5.3.1 小米故障应急响应经验分享

    小米拥有很强的硬件基因文化,因为如果硬件出现质量问题, 相关的修复成本将会非常巨大。所以其质量有独特的要求, 小米拥有独立QA 团队, 对运维质量进行考核及管控,构成了其独特的故障管理体系以及复盘的体系, 可供有类似业务特性的组织进行参考。

    小米故障应急响应经验分享

    5.3.2 中国联通数字化监控平台稳定性保障实践

    中国联通作为国家重点央企,长期以来以其庞大的业务体系和稳健的运营著称,面对数字化转型的浪潮,中国联通积极推动核心业务系统向云原生架构大规模演进,面临着技术革新的复杂挑战,还需确保转型过程中的系统稳定性。此案例探索并构建了一套符合稳态企业的稳定性保障方案、策略及平台,并深度融合可落地的智能化 AIOPS能力,提升运维效率与故障处置速度,为其他稳态企业提供了可供参考的路径。

    中国联通数字化监控平台稳定性保障实践

    5.5.3 腾讯全球化游戏故障管理实践

    腾讯游戏在全球运营的多个游戏业务中, 统一使用了SLO /SLI方法论, 对业务进行业务导向的监控可视化, 并使用了eBPF 等技术, 对业务进行无死角的观测,实现了业务服务的标准化度量,故障的快速感知及定位。 并能通过蓝鲸平台,实现部分部分固定场景的自愈,实现了监控与批量作业的联动,降低了MTTR,相关实践具备较强的落地性及可参考性。

    腾讯全球化游戏故障管理实践

    5.5.4 XX银行应急管理一体化平台建设实践

    XX 银行是中国乃至全球规排名前列的商业银行,业务众多,客户群体遍布全球,且适逢整体IT 架构升级,数字化转型深入,技术挑战巨大。在这种背景下,XX 银行构建了符合金融行业强监管特性的三个一体化的应急管理平台:通过“一体化技术平台”实现了底层能力平台PaaS化,满足各种底层操作原子化包装的需求;通过“管理操作一体”,实现应急管理思想和自动化操作的同步;通过“数据融合一体化”,实现应急决策所需配置数据、执行数据、性能数据、变更数据的统一管理和展示 。通过以上以上三个一体化,降低了业务稳定性的风险, 值得广大金融行业参考。

    XX银行应急管理一体化平台建设实践

    5.5.5 美图故障管理体系搭建实践

    美图在这个案例的分享中,展示了非常完整的SRE体系及故障管理体系,以故障生命周期管理为核心,引入了由人员、流程、技术和愿景构成的“PPTV框架”;并强调数据驱动的决策,倡导定期复盘和持续改进,通过构建稳定性运营平台,实现对故障事前、事中及事后的全方位管理,全面且扎实,很值得大家进行研读。

    美图故障管理体系搭建实践

    反馈和沟通

    如果您有任何问题或建议,点这里提交联系我们

    也欢迎使用 GitHub 的 issue & Discussions 功能来提交您的问题或讨论。

    下载最新白皮书

    版本:v1.0.4
    下载
    \ No newline at end of file + \ No newline at end of file diff --git a/public/notice/wp-v-1.0.5/index.html b/public/notice/wp-v-1.0.5/index.html index eef6310..f6c5e35 100644 --- a/public/notice/wp-v-1.0.5/index.html +++ b/public/notice/wp-v-1.0.5/index.html @@ -8,4 +8,4 @@ 辅导
    • 首页
    • 《SRE实践白皮书》v1.0.5 发布

    《SRE实践白皮书》v1.0.5 更新版。

    8th Dec, 2024

    本次更新新增约 3 万余字,重点优化和扩展了《5 故障应急》章节内容:新增了 B 站和蚂蚁的在 Qcon 上海SRE专场上分享的两个案例。并根据实际需求,调整“应用服务 SLI/SLO/SLA” “重大技术保障”章节至本章,并在后者新增《OPPO 春节业务保障》案例; 最后,重点完善了故障体系的内容, 使其更接近实际的工作情况。

    本次更新内容实用性极强,推荐广大 SRE 同仁深入阅读,以助力各组织优化故障应急体系设计,提升整体应急响应能力。

    5.3.7 蚂蚁故障应急全流程体系构建及应用实践

    本案例来自蚂蚁集团的平台工程与技术风险部行业一线的实践总结构建了完善的故障应急全流程体系,主要亮点包括:明确故障定义和分级,聚焦关键业务的GOC场景,专注保障最重要的服务接口和结果点,驱动业务稳定性建设;还建立极具特色的应急值班长体系,明确应急角色和职责,提升组织协同能力;开发技术风险管理平台(TRM),实现故障全生命周期的数字化运营,相关工作令人。 在展望未来时,此次分享向SRE领域的同仁们展示了人工智能与SRE Agent如何增强应急响应能力,并在智能化故障定位、决策和处理方面展现出巨大潜力,极具启发性。

    image

    5.3.6 B站轻量级容灾演练体系构建

    B站的轻量级容灾演练体系构建聚焦于高效、低成本地确保系统稳定性。首先,通过建立原子级故障库和特化场景,演练对象和故障类型变得标准化,易于操作。演练体系涵盖技术支撑、跨领域赋能、组织文化及流程优化,以实现常态化、自动化的演练环境。其核心亮点包括:简化故障注入流程、丰富的观测能力、自动化参数计算、标准化的演练协议、以及跨部门的协同机制。演练的目标是通过自动化工具支持,降低操作复杂度,确保演练可以在没有SRE人员的情况下自主管理,最终推动全员参与的容灾演练文化,增强业务系统的抗压能力和恢复能力。此实践考虑充分,方案完整,工程化实践扎实,在业界中处于较为领先的地位,具备很强的参考意义。

    image

    6.2.5 Oppo 春节业务保障

    作为国民级手机品牌,Oppo的部分云端的业务,在重大节日时会面临超过平时10倍的流量洪峰冲击。本案例详细阐述了如何在极短的时间内应对未曾经历过的流量洪峰挑战新业务的活动保障的全过程——从准备、活动执行到总结。特别地,它涵盖了诸多相关细节,例如对非常规增量流量的考量、值班计划、降级方案以及资源预估等。这些内容对于拥有类似业务形态的公司来说,很很强的实操性参考。

    image

    反馈和沟通

    如果您有任何问题或建议,点这里提交联系我们

    也欢迎使用 GitHub 的 issue & Discussions 功能来提交您的问题或讨论。

    下载最新白皮书

    版本:v1.0.5
    下载
    \ No newline at end of file + \ No newline at end of file diff --git a/public/notice/wp-v-1.0.6/index.html b/public/notice/wp-v-1.0.6/index.html index 9b0dbd0..8f09490 100644 --- a/public/notice/wp-v-1.0.6/index.html +++ b/public/notice/wp-v-1.0.6/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导
    • 首页
    • 《SRE实践白皮书》v1.0.6 发布

    《SRE实践白皮书》v1.0.6 更新版。

    22nd Jul, 2025

    历经四个多月的集中编写,并融汇 2025 年上半年度的深圳 GOPS 与北京 InfoQ 大会的最新分享,本次版本在整体框架与深度上实现了又一次跃升。核心亮点如下:

    新增第四章「SRE 进阶」

    该章面向 SRE 管理者,聚焦团队治理与商业化实践,计划分四个模块展开。首批发布的 “4.1 SRE 团队的生存与持续发展”,结合国内外一线案例,系统剖析 SRE 组织在预算、权责与 ROI 三维度的生存法则,并给出可操作的评估与演进路径。其余三节——综合算力调度、数据与AI 场景、基础监控及应用观测——将于后续迭代中陆续推出。

    联盟升级与视角拓展

    2025 年起,SRE‑Elite 已整体并入中国信通院云大所「稳定性保障实验室」并成立 SRE 工作组,成员规模扩至 40+。我们沿用每周二晚例会传统,持续沉淀来自互联网、金融、游戏等领域的最佳实践,并在 QCon、GOPS 等行业大会开设专场,推动社区共建。

    内容体系再次细分

    • 第二章 将重塑为 SRE 职场新人的基础理论入口;
    • 第三章 继续迭代国内企业 SRE 职责全景,方便对标与差距分析;
    • 第四章 正式承担组织级策略与可持续发展议题,助力 SRE 从“止损”走向“增收”。

    本次更新新增近 6 万字,既补足了理论深度,也给出了可执行的工具、指标与盈利模型。我们诚邀广大 SRE 同仁阅读、探讨,并期待在实践中不断完善这一开放文档。若有意见或案例分享,欢迎通过。(GitHub Issues/Discussions )与我们交流。

    1.0.6 修订记录

    • 本次新增约 6 万字
    • 新增第四章「SRE 进阶」:包含 “SRE团队的生存与持续发展”“SRE团队的综合算力调度”“SRE团队的数据与AI场景”“SRE团队的基础监控与应用观测 ”。本次发布 SRE团队的生存与持续发展,其余模块待编写。
    • 章节结构调整:将原第二章 SRE 组织架构 并入第一章;新增第二章 SRE 的基础(编写中)。
    • 第三章第 5 节〈故障应急〉:结构全面优化,新增 “XX 银行”,“腾讯 IEG”,“小米米家”,“广发证券” 等案例,并更新原 “美图” 案例展望内容。

    5.3.8 XX 银行应急提升实践:深耕 1-5-10 工程

    SRE Elite 精选原因:

    该案例以“1510”工程为牵引,从组织、流程、工具三维度提升金融级故障应急韧性。通过横纵三层技术支持、一分钟监控感知、五分钟节点级定界、十分钟应急六板斧处置,实现端到端闭环;配套早例会、复盘、治理、体验等机制沉淀知识并驱动持续改进;值班经理八大修养与跨部门协作文化保障指挥效率;最终形成可预见故障场景及一键应急平台,将专家隐性知识自动化,故障诊断秒级完成,为大中型股份制银行构建高效、可复制的稳定性保障范式。

    示意图

    5.3.9 腾讯 IEG SRE 应急响应实践

    SRE Elite 精选原因:

    方案亮点在于依托蓝鲸基座, 以平台工程的方式整合监控、CMDB、权限等能力,形成“告警→响应→诊断→恢复→复盘”全链闭环。标准化告警接入配合巡检确保观测确定性,自动升级流程打通跨团队协作;APM+eBPF零侵入全栈观测结合 LLM Agent 智能根因定位,将诊断压缩至分钟级;混沌工程与每日过载验证保障过载保护有效,常态化 On-Call 与演练提升团队实战熟练度,使多数故障实现分钟级自愈,真正把应急从人治升级为体系化工程。

    示意图

    5.3.10 小米米家故障应急保障体系实战:稳中求胜的构建之道

    SRE Elite 精选原因:

    米家承载 8.6 亿设备、1 亿月活、日 PV 200 亿,一次失误即波及千万用户。团队以六层技术架构配合“三句话”多活容灾(层层防护、多机房、多版本快照回滚),并建立“流程前置‑平台自动化‑组织兜底”三维稳定性体系。研运一体化平台打通工单‑灰度‑监控,AI 因果 RCA 和 SRERobot 实现秒级定位与自愈。5‑30 分钟分级应急及告警小助手,自动拉群、匹配预案、闭环复盘。

    2022 跨机房专线中断与 2024 机房火灾两次实战,通过 79 项改进验证体系成效,极具参考意义,体现“稳中求胜、持续迭代”的 SRE 文化。

    示意图

    5.3.11 广发证券数智化重构故障管理:构建主动防御新体系

    SRE Elite 精选原因:

    广发证券设计了通过应急实现全生命周期稳定: 运维左移通过架构韧性模型前置可靠性;变更管控用数字化平台与感知因子,达成事前防御、事中阻断、事后追溯;应急指挥借ECC与 ChatOps 机器人秒级集结,数字化预案保障快速恢复;大模型运维整合算法中心、知识库与智能体,智能定位根因、降噪、脚本合规;机器人把监控、变更、巡检等能力原子化嵌入 IM,释放专家价值,并探索多模态看板异常识别。

    整体方案完整,落地,并具备一定的前瞻性及探索性, 是证券行业的SRE 数智化标杆案例。

    示意图

    反馈和沟通

    如果您有任何问题或建议,点这里提交联系我们

    也欢迎使用 GitHub 的 issue & Discussions 功能来提交您的问题或讨论。

    下载最新白皮书

    版本:v1.0.6
    下载
    \ No newline at end of file + \ No newline at end of file diff --git a/public/research/ci-cd-co/index.html b/public/research/ci-cd-co/index.html index ffbaab0..eafb40e 100644 --- a/public/research/ci-cd-co/index.html +++ b/public/research/ci-cd-co/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

    CI/CD/CO技术是现代软件开发和部署的核心,对于提高系统的可用性、可靠性和效率有着重要意义。通过不断探索和实践CI/CD/CO技术,团队可以更好地满足用户需求,更好地保护系统免受安全威胁,更好地推动软件开发和部署的自动化。

    CI/CD/CO

    CI/CD/CO

    CI/CD/CO 是现代软件开发和部署的关键技术。它们是自动化软件开发和部署流程的核心,旨在加快软件交付速度、提高软件质量、降低软件交付成本。CI/CD/CO 技术的意义在于帮助团队实现快速、安全、可靠的软件开发和部署,从而提高系统的可用性、可靠性和效率。

    1. 持续集成(CI): 持续集成是将开发人员的代码集成到共享代码库,并进行自动化测试的过程。通过持续集成,团队可以更早地发现和解决代码质量问题,提高代码质量,减少软件开发周期。

    2. 持续交付(CD): 持续交付是自动化地将代码部署到生产环境中,并进行自动化测试和部署的过程。通过持续交付,团队可以更快地发布新功能和修复bug,更好地满足用户需求,更快地适应市场变化。

    3. 持续运维(CO): 持续运维是自动化地监控和管理生产环境的过程。通过持续运维,团队可以更及时地发现和解决系统故障和异常,提高系统的可用性和可靠性。

    CI/CD/CO 技术是现代软件开发和部署的核心,对于提高系统的可用性、可靠性和效率有着重要意义。通过不断探索和实践 CI/CD/CO 技术,团队可以更好地满足用户需求,更好地保护系统免受安全威胁,更好地推动软件开发和部署的自动化。

    \ No newline at end of file + \ No newline at end of file diff --git a/public/research/dr-ha/index.html b/public/research/dr-ha/index.html index 470423a..bab742a 100644 --- a/public/research/dr-ha/index.html +++ b/public/research/dr-ha/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

    容灾和高可用技术是SRE领域中的一个关键技术领域,对于提高系统的稳定性、可靠性和可用性有着重要意义。通过不断探索和实践容灾和高可用技术,团队可以更好地预防和应对系统故障和灾难,保障系统的稳定运行,满足用户需求

    容灾和高可用

    容灾和高可用

    容灾和高可用领域是SRE领域中的一个关键技术领域,旨在通过实施容灾和高可用技术,提高系统的稳定性、可靠性和可用性。容灾和高可用技术的意义在于帮助团队预防和应对系统故障和灾难,从而保障系统的稳定运行,满足用户需求。

    1. 容灾技术: 容灾技术是实现对系统数据和服务的安全备份和快速恢复的关键。通过容灾技术,团队可以在系统故障或灾难发生时,快速恢复系统功能,减少系统停机时间,提高系统的可用性和可靠性。

    2. 高可用技术: 高可用技术是实现系统长时间稳定运行的关键。通过高可用技术,团队可以在系统故障或灾难发生时,自动切换到备用系统,保障系统的稳定运行,满足用户需求。

    容灾和高可用技术是SRE领域中的一个关键技术领域,对于提高系统的稳定性、可靠性和可用性有着重要意义。通过不断探索和实践容灾和高可用技术,团队可以更好地预防和应对系统故障和灾难,保障系统的稳定运行,满足用户需求。

    \ No newline at end of file + \ No newline at end of file diff --git a/public/research/index.html b/public/research/index.html index 8078a21..3a874be 100644 --- a/public/research/index.html +++ b/public/research/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

    每年设定不同的方向做集体深度研究,也会对一些热点技术进行深入探讨。

    CI/CD/CO

    CI/CD/CO

    CI/CD/CO 是现代软件开发和部

    度量考核

    度量考核

    度量考核是评估系统运

    发布工程

    发布工程

    发布工程是 SRE 领域中的

    可观测性

    可观测性

    可观测性是指通过监控

    平台工程

    平台工程

    平台工程是一种软件开

    容灾和高可用

    容灾和高可用

    容灾和高可用领域是S

    \ No newline at end of file + \ No newline at end of file diff --git a/public/research/measurement/index.html b/public/research/measurement/index.html index adeaaf5..78f6d40 100644 --- a/public/research/measurement/index.html +++ b/public/research/measurement/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

    度量考核是评估系统运行状况的重要手段,它可以帮助团队了解系统的性能、可用性、可靠性和安全性等方面的指标,并为团队的持续改进提供数据支持。

    度量考核

    度量考核

    度量考核是评估系统运行状况的重要手段,它可以帮助团队了解系统的性能、可用性、可靠性和安全性等方面的指标,并为团队的持续改进提供数据支持。度量考核技术的意义在于帮助团队及时发现和解决问题,提高系统的可用性、可靠性和效率。

    1. 性能度量: 通过性能度量,团队可以了解系统的响应时间、吞吐量和资源利用率等方面的指标,从而及时发现和解决性能问题,提高系统的性能。

    2. 可用性度量: 通过可用性度量,团队可以了解系统的可用性和可靠性等方面的指标,从而及时发现和解决可用性问题,提高系统的可用性。

    3. 可靠性度量: 通过可靠性度量,团队可以了解系统的可靠性和容错能力等方面的指标,从而及时发现和解决可靠性问题,提高系统的可靠性。

    4. 安全度量: 通过安全度量,团队可以了解系统的安全性和合规性等方面的指标,从而及时发现和解决安全问题,提高系统的安全性。

    5. 成本度量: 通过成本度量,团队可以了解系统的开发和维护成本等方面的指标,从而及时发现和解决成本问题,降低系统的成本。

    SRE中的度量考核技术是评估系统运行状况的重要手段,对于提高系统的可用性、可靠性和效率有着重要意义。通过不断探索和实践度量考核技术,团队可以更好地了解和改进系统的运行状况,更好地保护系统免受安全威胁,更好地推动系统的持续改进。

    \ No newline at end of file + \ No newline at end of file diff --git a/public/research/o11y/index.html b/public/research/o11y/index.html index 7ed6602..4992904 100644 --- a/public/research/o11y/index.html +++ b/public/research/o11y/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

    可观测性是指通过监控日志指标和追踪等手段来了解系统的运行状态和性能。

    可观测性

    可观测性

    可观测性是指通过监控日志指标和追踪等手段来了解系统的运行状态和性能。在 SRE 研究领域范围中,可观测性的意义非常重要。

    1. 介绍: 在 SRE 研究领域中,可观测性是指通过监控、日志、指标和追踪等手段来了解系统的运行状态和性能。可观测性技术是帮助 SRE 成员快速诊断系统故障、发现系统异常、优化系统性能的重要工具。通过实时监控和分析系统的各项指标,SRE 成员可以更加及时地发现和解决系统故障和异常,提高系统的可用性、可靠性和效率。

    2. 意义: 可观测性技术在 SRE 研究领域中的意义主要体现在以下几个方面:1)帮助 SRE 成员及时发现和解决系统故障和异常,提高系统的可用性和可靠性;2)帮助 SRE 成员了解系统的性能和瓶颈,优化系统的性能和效率;3)帮助 SRE 成员追踪系统的变化和演化,及时发现和解决系统的问题;4)帮助 SRE 成员评估系统的可靠性和稳定性,为系统的持续改进提供数据支持。综上所述,可观测性技术在 SRE 研究领域中具有重要意义,是帮助 SRE 成员快速诊断系统故障、发现系统异常、优化系统性能的重要工具。

    \ No newline at end of file + \ No newline at end of file diff --git a/public/research/platform-engining/index.html b/public/research/platform-engining/index.html index e89e479..593c2cf 100644 --- a/public/research/platform-engining/index.html +++ b/public/research/platform-engining/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

    平台工程是一种软件开发方法,它旨在提高系统的可靠性、可用性和效率。平台工程通过统一管理和自动化部署系统的运行环境,从而降低系统运维成本、减少人为错误、提高系统的稳定性和可靠性。

    平台工程

    平台工程

    平台工程是一种软件开发方法,它旨在提高系统的可靠性、可用性和效率。平台工程通过统一管理和自动化部署系统的运行环境,从而降低系统运维成本、减少人为错误、提高系统的稳定性和可靠性。平台工程的意义在于帮助团队实现快速、安全和可靠的软件部署,从而提高系统的可用性、可靠性和效率。

    1. 统一管理运行环境: 平台工程通过统一管理系统的运行环境,包括操作系统、运行库、数据库等,从而简化系统的运维工作,提高系统的稳定性和可靠性。

    2. 自动化部署: 平台工程通过自动化部署系统的运行环境,包括系统的配置、安装、启动等,从而降低系统的部署成本,提高系统的可用性和可靠性。

    3. 监控和管理: 平台工程通过监控和管理系统的运行环境,包括系统的运行状态、资源使用情况等,从而及时发现和解决问题,提高系统的可用性和可靠性。

    综上所述,平台工程是一种通过统一管理和自动化部署系统的运行环境,从而提高系统的可靠性、可用性和效率的软件开发方法。通过不断探索和实践平台工程,团队可以更好地满足用户需求,更好地保护系统免受安全威胁,更好地推动软件开发和部署的自动化。

    \ No newline at end of file + \ No newline at end of file diff --git a/public/research/release-engining/index.html b/public/research/release-engining/index.html index d9005f7..0b00cfd 100644 --- a/public/research/release-engining/index.html +++ b/public/research/release-engining/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

    发布工程是 SRE 研究领域中的一个重要概念,它的意义在于帮助团队实现快速、安全、可靠的软件发布,提高系统的可用性、可靠性和效率,从而更好地满足用户需求,更好地保护系统免受安全威胁,更好地推动软件开发和部署的自动化。

    发布工程

    发布工程

    发布工程是 SRE 领域中的一个重要概念,它是指为了实现快速、安全和可靠的软件发布而进行的一系列工程实践和技术手段的集合。发布工程的核心目标是通过自动化和标准化的方式,确保软件的高质量、高可靠性和高可用性,从而提高用户体验和系统的竞争力。

    在 SRE 研究领域中,发布工程的意义主要体现在以下几个方面:

    1. 提高发布速度: 通过发布工程技术,团队可以实现快速、安全和可靠的软件发布,从而缩短软件发布周期,更快地向用户提供新功能和修复bug。

    2. 降低发布风险: 发布工程技术可以帮助团队实现自动化的发布过程,并进行自动化测试和部署,从而降低软件发布的风险,确保发布的软件质量和稳定性。

    3. 提高系统的可用性和可靠性: 发布工程技术可以帮助团队实现快速、安全和可靠的软件发布,从而提高系统的可用性和可靠性,确保系统能够持续稳定运行。

    4. 提高团队的工作效率: 通过发布工程技术,团队可以实现自动化的发布流程,减少人工干预,提高工作效率,从而更好地满足用户需求,更快地适应市场变化。

    发布工程是 SRE 研究领域中的一个重要概念,它的意义在于帮助团队实现快速、安全、可靠的软件发布,提高系统的可用性、可靠性和效率,从而更好地满足用户需求,更好地保护系统免受安全威胁,更好地推动软件开发和部署的自动化。

    \ No newline at end of file + \ No newline at end of file diff --git a/public/scholarship/index.html b/public/scholarship/index.html index f237d2e..8dee8ca 100644 --- a/public/scholarship/index.html +++ b/public/scholarship/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

    深度参与“SRE精英联盟”组织内部的活动,参与分享和贡献,参加内部例会。

    scholarship news

    辅导&交流

    精英联盟组织希望能陪伴式的加速度带新成员企业快速成长。

    联盟是一个持续学习的集体,我们希望能够帮助新成员企业快速成长,我们的专家团队会定期与新成员企业进行交流,帮助他们解决在SRE实践中遇到的问题,帮助他们快速成长。

    scholarship-thumb

    参与内部例会

    • 每周线上会议的形式
    • 不定期在各个城市线下小范围研讨会
    • 联盟专家间点对点切磋
    • 微信群交流
    scholarship-thumb

    特点趋势跟踪

    • 紧跟大模型和 AI 发展
    • 探讨在产研和生产线上的实践
    • 集体攻关和探讨具体问题
    • 共同验证和推广最佳实践
    scholarship-thumb

    行业现状调研

    • 紧跟行业发展趋势
    • 对特殊领域进行深入研究
    • 联合发起调研项目
    • 设计和实施调研方案
    \ No newline at end of file + \ No newline at end of file diff --git a/public/scholarship/scholarship-1/index.html b/public/scholarship/scholarship-1/index.html index 60a92fd..3b5307d 100644 --- a/public/scholarship/scholarship-1/index.html +++ b/public/scholarship/scholarship-1/index.html @@ -9,4 +9,4 @@ :
  • 日期 :01 Jan, 0001
  • 分类 :
  • comments powered by Disqus
    \ No newline at end of file + \ No newline at end of file diff --git a/public/scholarship/scholarship-2/index.html b/public/scholarship/scholarship-2/index.html index ae2dc71..cbfff03 100644 --- a/public/scholarship/scholarship-2/index.html +++ b/public/scholarship/scholarship-2/index.html @@ -9,4 +9,4 @@ :
  • 日期 :01 Jan, 0001
  • 分类 :
  • comments powered by Disqus
    \ No newline at end of file + \ No newline at end of file diff --git a/public/scholarship/scholarship-3/index.html b/public/scholarship/scholarship-3/index.html index 34d247e..71e3e79 100644 --- a/public/scholarship/scholarship-3/index.html +++ b/public/scholarship/scholarship-3/index.html @@ -9,4 +9,4 @@ :
  • 日期 :01 Jan, 0001
  • 分类 :
  • comments powered by Disqus
    \ No newline at end of file + \ No newline at end of file diff --git a/public/tags/finops/index.html b/public/tags/finops/index.html index b25bdd6..b53dc01 100644 --- a/public/tags/finops/index.html +++ b/public/tags/finops/index.html @@ -7,4 +7,4 @@ 课程 辅导

    \ No newline at end of file + \ No newline at end of file diff --git a/public/tags/index.html b/public/tags/index.html index 03c1392..9c04f61 100644 --- a/public/tags/index.html +++ b/public/tags/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

    \ No newline at end of file + \ No newline at end of file diff --git "a/public/tags/\345\272\246\351\207\217/index.html" "b/public/tags/\345\272\246\351\207\217/index.html" index 016376b..ed57a50 100644 --- "a/public/tags/\345\272\246\351\207\217/index.html" +++ "b/public/tags/\345\272\246\351\207\217/index.html" @@ -7,4 +7,4 @@ 课程 辅导

    \ No newline at end of file + \ No newline at end of file diff --git a/public/teacher/chen-zixin/index.html b/public/teacher/chen-zixin/index.html index 3129e94..fafb18a 100644 --- a/public/teacher/chen-zixin/index.html +++ b/public/teacher/chen-zixin/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

    现任腾讯技术运营部(IEG)运营

    陈自欣

    陈自欣

    腾讯

    多年监控运维,可观测性产品专家, 在可观测性的PMF ,商业化

    研究方向

    • 云计算
    • 可观测性

    简介

    • 在云计算和IT运维产品管理领域积累了十余年的丰富经验,历任基层技术岗位到高级管理职位的。
    • 曾担任初创日志分析公司的CEO, 并最终实现公司的出售。
    • 在蚂蚁金融云和腾讯云期间,以产品经理的身份,主导多个产品的商业化。
    • 目前,在腾讯IEG 技术运营部主导蓝鲸监控的运营工作。

    课程

    \ No newline at end of file + \ No newline at end of file diff --git a/public/teacher/elite/amay/index.html b/public/teacher/elite/amay/index.html index 997f9d5..3188689 100644 --- a/public/teacher/elite/amay/index.html +++ b/public/teacher/elite/amay/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

    现任阿里巴巴技术风险与效能部(GOC)Leader

    Amay

    Amay

    阿里巴巴

    自2009年加入阿里以来,从一线技术支持逐步成长为GOC团队leader,推动了GOC能力转型升级,为业务的稳定运行提供支撑。

    研究方向

    • 故障应急协同管理
    • 重大风险预防

    简介

    • 2018年 ,作为1-5-10项目负责人,通过各种方案提升应急事件1分钟发现、5分钟应急处置、10分恢复的能力;
    • 2021年,落地安全生产“免责”文化。

    课程

    \ No newline at end of file + \ No newline at end of file diff --git a/public/teacher/gu-huangliang/index.html b/public/teacher/gu-huangliang/index.html index 01141a8..b7fbc67 100644 --- a/public/teacher/gu-huangliang/index.html +++ b/public/teacher/gu-huangliang/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

    现任国家互联网数据中心产业技术创新战略联盟专委会副主任委员

    顾黄亮

    顾黄亮

    NIISA

    畅销书《DevOps权威指南》作者,中国商联专家智库入库专家、国家互联网数据中心产业技术创新战略联盟(NIISA)智库专家委员会副主任委员、江苏银行业和保险业金融科技专家委员会候选专家、工信部企业数字化转型IOMM委员会特聘专家、江海职业学院客座讲师、财联社鲸平台智库入库专家、中国信通院可信云标准特聘专家、中国信通院低代码/无代码推进中心特聘专家,腾讯云最具价值专家TVP,阿里云最有价值专家MVP,《研发运营一体化(DEVOPS)能力成熟度模型》和《企业IT运维发展白皮书》核心作者,出版物《企业级DevOps实战案例-持续交付篇》合著作者,容器云技能大赛课程出品人,多个技术峰会演讲嘉宾,拥有丰富的企业级DevOps实战经验,专注企业IT数字化的转型和落地,致力于企业智慧运维体系的打造。

    研究方向

    • 云计算
    • DevOps
    • AiOps

    简介

    从事信息科技岗位15年,涵盖基础架构、应用架构、数据库、DevOps,具备制造业、零售、金融等行业经验,参编行标两项,专著一本,合著两本,参加多个项目课题,获得三个已授权专利。

    课程

    \ No newline at end of file + \ No newline at end of file diff --git a/public/teacher/index.html b/public/teacher/index.html index b777751..fed2e9b 100644 --- a/public/teacher/index.html +++ b/public/teacher/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

    SRE精英联盟的专家持续为您提供最新的SRE技术资讯和最佳实践。

    • 全部
    • 阿里巴巴
    • 腾讯
    • Niisa
    • 快猫星云
    • 哔哩哔哩
    • 趣丸网络
    • 金山办公
    • 独立顾问
    • 广发证券
    • 美图
    • 小米
    • 联通软件研究院
    • 浙江移动
    • 创业者
    Amay

    Amay

    阿里巴巴

    陈自欣

    陈自欣

    腾讯

    来炜

    来炜

    快猫星云

    刘昊

    刘昊

    哔哩哔哩

    刘亚丹

    刘亚丹

    趣丸网络

    刘宇

    刘宇

    金山办公

    刘征

    刘征

    独立顾问

    彭华盛

    彭华盛

    广发证券

    石鹏

    石鹏

    美图

    王哲

    王哲

    小米

    吴天昊

    吴天昊

    联通软件研究院

    杨文兵

    杨文兵

    腾讯

    叶晓龙

    叶晓龙

    浙江移动

    赵成

    赵成

    创业者

    \ No newline at end of file + \ No newline at end of file diff --git a/public/teacher/lai-wei/index.html b/public/teacher/lai-wei/index.html index 4aaef8a..6a28102 100644 --- a/public/teacher/lai-wei/index.html +++ b/public/teacher/lai-wei/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

    现任快猫星云创始人

    来炜

    来炜

    快猫星云

    SRE 和Observability 领域专家,开源监控Open-Falcon、Nightingale夜莺的创始人。

    研究方向

    • 云计算
    • SRE
    • 可观测性

    简介

    云原生智能运维科技公司快猫星云的创始人,SRE 和Observability 领域专家,资深云计算专家。中国计算机学会开源发展委员会执行委员,中国开源杰出贡献⼈物奖获得者,开源监控Open-Falcon、Nightingale夜莺的创始人。先后就职于百度、滴滴等互联网公司,曾任滴滴云计算总经理职务,长期从事运维和云计算领域的工作。

    课程

    \ No newline at end of file + \ No newline at end of file diff --git a/public/teacher/liu-hao/index.html b/public/teacher/liu-hao/index.html index fd2087a..b76d988 100644 --- a/public/teacher/liu-hao/index.html +++ b/public/teacher/liu-hao/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

    现任哔哩哔哩平台工程-负责人

    刘昊

    刘昊

    哔哩哔哩

    从业十余年,专注于运维效能、质量运营等领域。2017年加入哔哩哔哩,先后负责了B站运营研发、中间件研发和SRE体系等方向,构建了B站的统一作业&流程&鉴权服务,主导了数据库&缓存相关中间件的自研落地。目前主要负责SRE体系化建设和人员转型培训,设计落地应急响应、变更防控、蓝军演练、运维数据资产和资产成本等系统,持续优化业务稳定性、提升人员效率和降低资产成本。

    联系信息:

    研究方向

    • 稳定性体系
    • 可观测性
    • AIOPS

    简介

    从业十余年,专注于运维效能、质量运营等领域。2017年加入哔哩哔哩,先后负责了B站运营研发、中间件研发和SRE体系等方向,构建了B站的统一作业&流程&鉴权服务,主导了数据库&缓存相关中间件的自研落地。目前主要负责SRE体系化建设和人员转型培训,设计落地应急响应、变更防控、蓝军演练、运维数据资产和资产成本等系统,持续优化业务稳定性、提升人员效率和降低资产成本。

    课程

    \ No newline at end of file + \ No newline at end of file diff --git a/public/teacher/liu-yadan/index.html b/public/teacher/liu-yadan/index.html index 05239b2..7692f3b 100644 --- a/public/teacher/liu-yadan/index.html +++ b/public/teacher/liu-yadan/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

    现任广州趣丸网络科技有限公司运维总监

    刘亚丹

    刘亚丹

    趣丸网络

    目前负责趣丸科技的基础架构、SRE 保障、FinOps 财务管理以及运维产品体系等多个方面。16年运维工作经验,对 IDC、云计算、基础架构、云原生应用架构、SRE 运维保障、数据库多活和容灾、资源成本优化、运维产品规划和落地等方面具有深入理解和大量实践

    研究方向

    • 混合多云架构
    • SRE
    • DevOps

    简介

    • 曾任虎牙直播(2009-2021年)高级经理负责虎牙混合云基础设施
    • 现任趣丸科技(2021~至今)运维总监,趣丸科技从0构建技术保障体系
    • 出版物:《自主实现虚拟网络 SDN 和企业私有云》作者之一
    • 资质认证:阿里云MVP(2018)、iTechClub华南分会-广州副会长
    • 大会出品人&演讲:Qcon,云栖大会,SDCC,GOPS讲师

    课程

    \ No newline at end of file + \ No newline at end of file diff --git a/public/teacher/liu-yu/index.html b/public/teacher/liu-yu/index.html index 6adaa49..f4d1c52 100644 --- a/public/teacher/liu-yu/index.html +++ b/public/teacher/liu-yu/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

    现任金山办公助理总裁助理

    刘宇

    刘宇

    金山办公

    研究方向

    • 云计算
    • 大模型
    • 知识库

    简介

    1. 15年运维、研发工作经验,曾供职于新浪、百度、腾讯等知名公司,负责相关业务的稳定性保障工作。
    2. 出版《Puppet实战》《Puppet实战手册》《Python进阶》

    课程

    \ No newline at end of file + \ No newline at end of file diff --git a/public/teacher/liu-zheng/index.html b/public/teacher/liu-zheng/index.html index 095f09c..d2e3ee4 100644 --- a/public/teacher/liu-zheng/index.html +++ b/public/teacher/liu-zheng/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

    技术社区构建者,技术布道师

    刘征

    刘征

    独立顾问

    《The Site Reliability Workbook》《DevOps Handbook》译者,DevOps/SRE的长期实践者。致力于通过社区推广SRE/DevOps的理念、技术和实践。热衷于传播开源技术。

    研究方向

    • DevOps
    • SRE
    • 可观测性

    简介

    从业 20 余年,曾供职于Citrix、BMC、Red Hat、Elastic 等外商软件企业,现为独立顾问。从 18 年开始在国内创立了中国DevOps社区。专注于SRE和可观测性等方面的深入研究,从事相关领域的企业咨询和培训工作。

    课程

    \ No newline at end of file + \ No newline at end of file diff --git a/public/teacher/peng-huasheng/index.html b/public/teacher/peng-huasheng/index.html index 7ea7acb..4829c9a 100644 --- a/public/teacher/peng-huasheng/index.html +++ b/public/teacher/peng-huasheng/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

    现任广发证券股份有限公司资深SRE专家

    彭华盛

    彭华盛

    广发证券

    资深SRE专家,“运维之路”订阅号与《运维数字化转型》等书作者

    研究方向

    • 可观测
    • SRE
    • DevOps

    简介

    拥有超10年金融领域运维工作,其间负责或参与企业运维组织、流程、工具的建设,包括多项重大业务系统及数据中心工程性项目实施,数据中心工作流程构建,运维平台规划与研发等工作,参与多项行业标准,以及《运维数字化转型:构建四位一体的数字化运维体系》、《运维数据治理》、《变局中的证券机构;数字化转型与创新》等图书的编写,获得高效运维社区、 DevOps时代社区颁发的“2022年度技术专家”,“腾讯云最具价值专家”,“运维之路”订阅号作者。

    课程

    \ No newline at end of file + \ No newline at end of file diff --git a/public/teacher/shi-peng/index.html b/public/teacher/shi-peng/index.html index 78ab625..2f7dfcb 100644 --- a/public/teacher/shi-peng/index.html +++ b/public/teacher/shi-peng/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

    现任美图公司高级运维经理

    石鹏

    石鹏

    美图

    花名东方德胜,运维技术专家,现任美图SRE负责人,目前整体负责美图公司线上服务的稳定性保障工作。

    研究方向

    • 稳定性运营
    • 可观测性
    • AIGC

    简介

    从业十余年,一直从事运维相关的工作。2016年加入美图公司,现任美图SRE负责人,目前整体负责美图公司线上服务的稳定性保障工作。曾多次参与或主导过美图公司多项基础设施、运维架构的调整和改造,在监控、灾备、故障管理、稳定性运营等方面有一定的经验积累和行业输出。在方兴未艾的AIGC的浪潮里,带领团队迎难而上,持续做好资源交付和稳定性保障工作,为公司All in AIGC的战略保驾护航

    致力于推广SRE、稳定性运营相关的理念及实践,编著有「SRE系统建设指南」图谱,参与过业界多个SRE、DevOps相关案例集/期刊的编纂或供稿。业界多个技术峰会的分享嘉宾、金牌讲师或出品人,中国信通院「稳定性保障实验室」的认证专家。

    课程

    \ No newline at end of file + \ No newline at end of file diff --git a/public/teacher/wang-zhe/index.html b/public/teacher/wang-zhe/index.html index 856cc04..f3d0c7c 100644 --- a/public/teacher/wang-zhe/index.html +++ b/public/teacher/wang-zhe/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

    现任小米集团云平台运维部总监

    王哲

    王哲

    小米

    现任小米集团云平台运维部总监。

    研究方向

    • 云计算
    • DevOps
    • 平台工程

    简介

    2022年加入小米云平台,负责小米云平台产研和运维方向工作;在此之前担任360集团技术中台云平台负责人,具有十多年的LAMP平台开发经验和云计算系统架构设计经验,对虚拟化,容器化,存储,备份,安全等相关技术有深入的理解和研究。

    参与了国家智能运维标准、企业数字基础设施云化成熟度模型等标准制定和评估工作。是360技术委员会运维分委会主席,信通院智能运维标准化核心工作组专家成员,同时担任北京林业大学MBA校外导师工作。

    课程

    \ No newline at end of file + \ No newline at end of file diff --git a/public/teacher/wu-tianhao/index.html b/public/teacher/wu-tianhao/index.html index cb83429..756eb26 100644 --- a/public/teacher/wu-tianhao/index.html +++ b/public/teacher/wu-tianhao/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

    现任中国联通软件研究院副总架构师

    吴天昊

    吴天昊

    联通软件研究院

    主要负责中国联通安全生产保障体系建设,负责中国联通数字化监控平台整体功能技术架构设计、优化及演进。

    研究方向

    • 可观测性
    • 稳定性保障

    简介

    深耕运维领域十余年,具备丰富的运维研发经验,主要负责中国联通数字化监控平台整体功能和技术架构设计、优化及演进,致力于打造中国联通安全生产保障体系,建设自动化生产和智慧化运营的生产运营平台,完善稳定性“平台+应用” 生态体系,助力系统稳定性持续提升。

    课程

    \ No newline at end of file + \ No newline at end of file diff --git a/public/teacher/yang-wenbing/index.html b/public/teacher/yang-wenbing/index.html index fe3ac7b..502d2d1 100644 --- a/public/teacher/yang-wenbing/index.html +++ b/public/teacher/yang-wenbing/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

    现任腾讯技术运营部(IEG)蓝鲸产品中心总监

    杨文兵

    杨文兵

    腾讯

    现任IEG-技术运营部-蓝鲸产品中心总监

    研究方向

    • 自动化运维
    • 平台工程

    简介

    腾讯T12专家工程师,2011年加入腾讯,先后担任腾讯游戏地下城与勇士、穿越火线、七雄争霸等业务的SRE运维负责人,目前负责面向腾讯异构业务的平台工程–蓝鲸的建设与接入

    • GOPS2019全球运维大会.深圳站 “金牌讲师”
    • GOPS2020全球运维大会.上海站 “金牌讲师”
    • 中国信通院2020 GOLF+ IT新治理领导力论坛“2020年度互联网行业卓越贡献专家”
    • 云计算开源产业联盟“DevOps标准工作组”核心编写专家
    • 云计算开源产业联盟“企业数字化转型IOMM委员会-互联网行业工作组”组长

    课程

    \ No newline at end of file + \ No newline at end of file diff --git a/public/teacher/ye-xiaolong/index.html b/public/teacher/ye-xiaolong/index.html index 77a927f..d462552 100644 --- a/public/teacher/ye-xiaolong/index.html +++ b/public/teacher/ye-xiaolong/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

    现任浙江与移动信息技术与数据管理部技术运营部主管

    叶晓龙

    叶晓龙

    浙江移动

    现任浙江移动信息技术与数据管理部-技术运营部主管

    研究方向

    • 云原生
    • 可观测性

    简介

    在浙江移动深耕12年的IT运维老兵,积极推进运维的数字化转型,主持建设多个运维工具平台,创新实践复杂IT系统的灰度沙箱发布,积极落地混沌工程在生产环境的实践。近年来重点围绕自主可控的云原生实践课题,完善IT运维的护航保障体系,助力企业在信创大背景下持续走深走实。

    作为传统企业IT运维转型的典型代表,多次在GOPS、qCon、极客时间等平台分享浙江移动SRE的工程实践,相关案例多次入选信通院信通院稳定性保障白皮书、年度XOPS峰会最佳实践,为传统企业的运维转型提供实践参考。

    课程

    \ No newline at end of file + \ No newline at end of file diff --git a/public/teacher/zhao-cheng/index.html b/public/teacher/zhao-cheng/index.html index 963508b..c745eee 100644 --- a/public/teacher/zhao-cheng/index.html +++ b/public/teacher/zhao-cheng/index.html @@ -6,4 +6,4 @@ 研究 课程 辅导

    赵成

    赵成

    创业者

    运维及SRE专栏作家,聊聊SRE社区发起人

    研究方向

    • 云计算
    • SRE

    简介

    • 15年运维、SRE及云计算岗位工作经验,曾供职于华为、蘑菇街等知名公司,负责相关业务的稳定性保障工作。
    • 2017年在极客时间推出《赵成的运维体系管理课》,成为国内运维圈的热门课程,次年推出畅销书《进化:运维技术变革及时间》,2019年推出《SRE实战手册》热门课程。
    • 2017年发起了聊聊SRE社区,后来成为最具影响力的SRE中文社区,活跃至今。

    课程

    \ No newline at end of file + \ No newline at end of file