OpenSRE：开源框架集成 40 多种工具，助力 AI SRE 智能体应对生产事件

张开发

• 2026/4/18 17:34:30 • 15 分钟阅读

分享文章

OpenSRE：开源框架集成 40 多种工具，助力 AI SRE 智能体应对生产事件

OpenSRE开源框架打造 AI SRE 智能体集成 40 多种工具助力生产事件响应OpenSRE 是一个用于 AI SRE 智能体的开源框架同时也提供了提升智能体性能所需的训练和评估环境。你可以将现有的 60 多种工具连接起来定义自己的工作流程并在自有基础设施上开展事件调查。[快速开始](链接待补充) · [文档](链接待补充) · [常见问题解答](链接待补充) · [安全说明](链接待补充) 公开测试版核心工作流程已可用于早期探索但尚未完全稳定。项目正在积极开发中API 和集成方式可能会有所变化。为何选 OpenSRE生产环境故障时相关证据分散在日志、指标、追踪数据、操作手册和 Slack 线程中。OpenSRE 作为解决生产事件的 AI SRE 智能体开源框架能在你自己的基础设施上运行。此前SWE - bench1 为编码智能体提供了可扩展训练数据和明确反馈但生产事件响应领域缺类似资源。分布式故障比本地代码任务难处理处理速度慢、干扰因素多且难模拟和评估这也是 AI SRE 及更广泛的生产调试 AI 未有效解决的原因。OpenSRE 正在构建缺失的一层用于智能基础设施事件响应的开放式强化学习环境具备端到端测试和针对实际生产故障的合成事件模拟功能。通过以下方式实现目标构建易部署、可定制的 AI SRE 智能体用于生产事件调查和响应。运行带评分的合成根本原因分析RCA套件检查根本原因准确性、所需证据以及对抗性干扰因素测试/合成。在包括 Kubernetes、EC2、CloudWatch、Lambda、ECS Fargate 和 Flink 等云场景中运行真实的端到端测试测试/端到端。采用语义化的测试目录命名方式使端到端测试与合成测试、本地测试与云测试的边界清晰可见测试/README.md。使命是在此基础上构建 AI SRE 智能体扩展到数千种实际的基础设施故障场景将 OpenSRE 打造成 AI SRE 的基准和训练平台。[1](https://arxiv.org/abs/2310.06770)安装curl -fsSL https://raw.githubusercontent.com/Tracer - Cloud/opensre/main/install.sh | bashbrew install Tracer-Cloud/opensre/opensreirm https://raw.githubusercontent.com/Tracer-Cloud/opensre/main/install.ps1 | iex快速开始opensre onboardopensre investigate -i tests/e2e/kubernetes/fixtures/datadog_k8s_alert.jsonopensre updateRailway 部署运行 opensre deploy railway 前要确保目标 Railway 项目有 Postgres 和 Redis 服务并将 OpenSRE 服务的 DATABASE_URI 和 REDIS_URI 设置为相应连接字符串。没有这些后端服务容器化的 LangGraph 运行时无法启动。# 先创建/链接 Railway 的 Postgres 和 Redis然后设置 DATABASE_URI 和 REDIS_URIopensre deploy railway --project project --service service --yes若部署启动但服务无法正常运行需验证 Railway 服务中是否有 DATABASE_URI 和 REDIS_URI并确保它们指向项目的 Postgres 和 Redis 实例。远程托管操作部署托管服务后可通过命令行界面执行部署后操作# 检查服务状态、URL 和部署元数据opensre remote ops --provider railway --project project --service service status# 查看最近的日志opensre remote ops --provider railway --project project --service service logs --lines 200# 实时流式查看日志opensre remote ops --provider railway --project project --service service logs --follow# 触发重启/重新部署opensre remote ops --provider railway --project project --service service restart --yesOpenSRE 会保存你上次使用的提供商、项目和服务信息所以可直接运行以下命令opensre remote ops statusopensre remote ops logs --follow开发若你是 OpenSRE 新手可参考 SETUP.md 获取详细的特定平台设置说明包括 Windows 系统设置、环境配置等内容。git clone https://github.com/Tracer-Cloud/opensrecd opensremake install# 运行 opensre onboard 配置本地大语言模型LLM提供商# 并可选择验证/保存 Grafana、Datadog、Honeycomb、Coralogix、Slack、AWS、GitHub MCP 和 Sentry 集成opensre onboardopensre investigate -i tests/e2e/kubernetes/fixtures/datadog_k8s_alert.jsonOpenSRE 工作原理调查工作流程警报触发时OpenSRE 自动执行以下操作获取警报上下文以及相关的日志、指标和追踪数据。在你连接的系统中进行推理识别异常情况。生成包含可能根本原因的结构化调查报表。建议下一步操作并可选择执行修复措施。直接将摘要发布到 Slack 或 PagerDuty无需切换上下文。基准测试make benchmark功能特性结构化事件调查对所有信号进行关联根本原因分析。支持操作手册推理OpenSRE 会读取你的操作手册并自动应用。预测性故障检测在问题影响到你之前发现潜在问题。基于证据的根本原因每个结论都与背后的数据关联。全 LLM 灵活性可使用你自己的模型如 Anthropic、OpenAI、Ollama、Gemini、OpenRouter、NVIDIA NIM。集成OpenSRE 可连接现代云栈中的 40 多种工具和服务涵盖 LLM 提供商、可观测性平台、基础设施、数据库和事件管理等领域。类别集成项AI / LLM 提供商Anthropic、OpenAI、Ollama、Google Gemini、OpenRouter、NVIDIA NIM、Bedrock可观测性GrafanaLoki、Mimir、Tempo、Datadog、Honeycomb、Coralogix、CloudWatch、Sentry、Elasticsearch、Splunk、New Relic、Victoria Logs基础设施Kubernetes、AWSS3、Lambda、EKS、EC2、Bedrock、GCP、Azure、Helm、ArgoCD数据库MongoDB、ClickHouse、PostgreSQL、MySQL、MariaDB、MongoDB Atlas、Azure SQL、RDS、Snowflake数据平台Apache Airflow、Apache Kafka、Apache Spark、Prefect、RabbitMQ开发工具GitHub、GitHub MCP、Bitbucket、GitLab事件管理PagerDuty、Opsgenie、Jira、ServiceNow、incident.io、Alertmanager、Linear、Trello通信工具Slack、Google Docs、Discord、Teams、WhatsApp、Confluence、Notion智能体部署Vercel、LangSmith、EC2、ECS、Railway协议MCP、ACP、OpenClaw贡献OpenSRE 由社区共同构建。每一次集成、改进和 bug 修复都将使数千名工程师受益。积极审查拉取请求PR欢迎各经验水平的贡献者参与。标记为 good first issue 的任务适合新手。贡献方式如下报告 bug 或未覆盖的边缘情况。添加新的工具集成。改进文档或操作手册示例。⭐ 给仓库加星帮助其他工程师发现 OpenSRE。完整指南请参考 CONTRIBUTING.md。感谢以下贡献者davincios、VaibhavUpreti、aliya - tracer、arnetracer、kylie - tracer、paultracer、zeel2104、iamkalio、w3joe、yeoreums、anandgupta1202、rrajan94、vrk7、cerencamkiran、edgarmb14、lukegimza、ebrahim - sameh、shoaib050326、venturevd、shriyashsoni、Devesh36、KindaJayant、overcastbulb、Yashkapure06、Davda - James、Abhinnavverma、devankitjuneja、ramandagar、mvanhorn、abhishek - marathe04、yashksaini - coder、haliaeetusvocifer、Bahtya、mayankbharati - ops、harshareddy832、sundaram2021、micheal000010000 - hub、ljivesh、gautamjain1503、mudittt、hamzzaaamalik、octo - patch、fuleinist、yas789、aniruddhaadak80安全OpenSRE 在设计时充分考虑了生产环境的需求调查会话结束后不存储原始日志数据。所有 LLM 调用使用结构化、可审计的提示。日志转录数据本地保存默认情况下不会外部传输。有关负责任披露的详细信息请参阅 SECURITY.md。遥测OpenSRE 使用 Posthog 收集匿名使用统计数据以帮助了解项目的采用情况并向资助项目的赞助商和投资者展示项目的发展态势。收集的信息包括命令名称、执行结果成功/失败、大致运行时间、CLI 版本、Python 版本、操作系统类型、机器架构以及少量特定命令的元数据如运行的子命令。对于 opensre onboard 和 opensre investigate 命令可能还会收集所选模型/提供商以及命令是否使用了 --interactive 或 --input 等标志。首次运行时会生成一个随机的匿名 ID并存储在 ~/.config/opensre/ 中。绝不会收集警报内容、文件内容、主机名、凭证或任何个人身份信息。在 GitHub Actions 和 pytest 运行中遥测功能会自动禁用。若要在本地禁用遥测功能请在运行前设置环境变量export OPENSRE_NO_TELEMETRY1旧的别名 OPENSRE_ANALYTICS_DISABLED1 仍然有效。若要在本地查看遥测数据负载而不发送任何内容请使用export OPENSRE_TELEMETRY_DEBUG1许可证采用 Apache 2.0 许可证详情请参阅 LICENSE。引用[1](https://arxiv.org/abs/2310.06770) 相关论文链接。

更多文章

前端开发 2026/4/18 17:33:23

终极指南：如何快速掌握OpenBoardView开源电路板查看器的完整使用技巧

终极指南：如何快速掌握OpenBoardView开源电路板查看器的完整使用技巧【免费下载链接】OpenBoardView View .brd files 项目地址: https://gitcode.com/gh_mirrors/op/OpenBoardView 你是否曾为复杂的电路板文件分析而烦恼？面对密密麻麻的元器件布…

第一章：SITS2026发布：AGI发展白皮书 2026奇点智能技术大会(https://ml-summit.org) 《SITS2026 AGI发展白皮书》由全球32家顶尖AI研究机构联合编制，首次系统定义了通用人工智能（AGI）的五维能力成熟度模型&#xff0c…

张开发

前端开发 2026/4/18 17:01:59

PBR基石探秘：从辐射度量到人眼色觉的物理与感知之旅

1. 从经验模型到物理精确：PBR的必然选择记得我第一次接触计算机图形学时，被那些光滑到不真实的3D模型震惊了。当时主流的兰伯特和Blinn-Phong光照模型就像给所有物体涂了一层清漆，金属看起来像塑料，木头反光得像瓷砖。这种"…

张开发

OpenSRE：开源框架集成 40 多种工具，助力 AI SRE 智能体应对生产事件

最新文章

C语言入门：发展历程与编程应用

LeetCode 33. Search in Rotated Sorted Array 题解

PyTorch模型参数访问指南：何时使用parameters()、named_parameters()与state_dict()

【实战指南】Python集成LKH算法：从理论到TSP求解实践

Linux 的 rm 命令

抖音下载神器：5分钟掌握批量下载与去水印终极指南

推荐文章

ATCODER ABC C题解济

英雄联盟智能辅助工具League Akari：让你轻松成为游戏高手 [特殊字符]✨

同城预约上门服务系统源码：从技术架构到落地实践的深度剖析

PyTorch学习率调度器实战：从基础到高级策略全解析

python开发之路【第四章】：python程序流程控制督

跑得越慢反而越牛？你的身体其实在偷偷“扩容带宽”

相关文章

无损音乐下载与高品质音频管理：tidal-dl-ng的核心能力探索

LyricsX：让歌词如影随形的桌面歌词助手

如何利用自动化抢票工具突破大麦网90%的抢票失败率：从绝望到成功的完整指南

电子设计竞赛必备：RC、运放、TTL信号处理电路实战指南（附避坑技巧）

从RoboMaster到智能仓储：深入聊聊麦克纳姆轮底盘的那些‘坑’与最佳实践

libhv实战：从零构建一个高效的WebSocket客户端

分享文章

更多文章

终极指南：如何快速掌握OpenBoardView开源电路板查看器的完整使用技巧

TMSpeech：Windows本地实时语音识别工具终极配置指南

Unlock Music：3分钟搞定加密音乐转换，实现跨设备播放自由

5分钟快速掌握知识星球PDF生成工具：打造个人专属电子书库

告别编译噩梦：在Windows上用Miniconda+Clang一步到位搞定OpenBLAS

Linux 命名空间（Namespace）实战指南：从原理到容器化应用

FanControl中文设置终极指南：5分钟搞定风扇控制本地化

我的Linux服务器被扫了2000次！手把手教你用Fail2ban自动封禁SSH暴力破解IP

APK Installer终极指南：在Windows上轻松安装Android应用的完整教程

DC综合实战：从约束设置到时序签核的完整指南

SITS2026白皮书深度溯源：从DARPA 2018 AGI构想到2026全球互认协议，17项关键技术演进时间轴

PBR基石探秘：从辐射度量到人眼色觉的物理与感知之旅