OpenSRE:开源框架集成 40 多种工具,助力 AI SRE 智能体应对生产事件

张开发
2026/4/18 17:34:30 15 分钟阅读

分享文章

OpenSRE:开源框架集成 40 多种工具,助力 AI SRE 智能体应对生产事件
OpenSRE开源框架打造 AI SRE 智能体集成 40 多种工具助力生产事件响应OpenSRE 是一个用于 AI SRE 智能体的开源框架同时也提供了提升智能体性能所需的训练和评估环境。你可以将现有的 60 多种工具连接起来定义自己的工作流程并在自有基础设施上开展事件调查。[快速开始](链接待补充) · [文档](链接待补充) · [常见问题解答](链接待补充) · [安全说明](链接待补充) 公开测试版核心工作流程已可用于早期探索但尚未完全稳定。项目正在积极开发中API 和集成方式可能会有所变化。为何选 OpenSRE生产环境故障时相关证据分散在日志、指标、追踪数据、操作手册和 Slack 线程中。OpenSRE 作为解决生产事件的 AI SRE 智能体开源框架能在你自己的基础设施上运行。此前SWE - bench1 为编码智能体提供了可扩展训练数据和明确反馈但生产事件响应领域缺类似资源。分布式故障比本地代码任务难处理处理速度慢、干扰因素多且难模拟和评估这也是 AI SRE 及更广泛的生产调试 AI 未有效解决的原因。OpenSRE 正在构建缺失的一层用于智能基础设施事件响应的开放式强化学习环境具备端到端测试和针对实际生产故障的合成事件模拟功能。通过以下方式实现目标构建易部署、可定制的 AI SRE 智能体用于生产事件调查和响应。运行带评分的合成根本原因分析RCA套件检查根本原因准确性、所需证据以及对抗性干扰因素测试/合成。在包括 Kubernetes、EC2、CloudWatch、Lambda、ECS Fargate 和 Flink 等云场景中运行真实的端到端测试测试/端到端。采用语义化的测试目录命名方式使端到端测试与合成测试、本地测试与云测试的边界清晰可见测试/README.md。使命是在此基础上构建 AI SRE 智能体扩展到数千种实际的基础设施故障场景将 OpenSRE 打造成 AI SRE 的基准和训练平台。[1](https://arxiv.org/abs/2310.06770)安装curl -fsSL https://raw.githubusercontent.com/Tracer - Cloud/opensre/main/install.sh | bashbrew install Tracer-Cloud/opensre/opensreirm https://raw.githubusercontent.com/Tracer-Cloud/opensre/main/install.ps1 | iex快速开始opensre onboardopensre investigate -i tests/e2e/kubernetes/fixtures/datadog_k8s_alert.jsonopensre updateRailway 部署运行 opensre deploy railway 前要确保目标 Railway 项目有 Postgres 和 Redis 服务并将 OpenSRE 服务的 DATABASE_URI 和 REDIS_URI 设置为相应连接字符串。没有这些后端服务容器化的 LangGraph 运行时无法启动。# 先创建/链接 Railway 的 Postgres 和 Redis然后设置 DATABASE_URI 和 REDIS_URIopensre deploy railway --project project --service service --yes若部署启动但服务无法正常运行需验证 Railway 服务中是否有 DATABASE_URI 和 REDIS_URI并确保它们指向项目的 Postgres 和 Redis 实例。远程托管操作部署托管服务后可通过命令行界面执行部署后操作# 检查服务状态、URL 和部署元数据opensre remote ops --provider railway --project project --service service status# 查看最近的日志opensre remote ops --provider railway --project project --service service logs --lines 200# 实时流式查看日志opensre remote ops --provider railway --project project --service service logs --follow# 触发重启/重新部署opensre remote ops --provider railway --project project --service service restart --yesOpenSRE 会保存你上次使用的提供商、项目和服务信息所以可直接运行以下命令opensre remote ops statusopensre remote ops logs --follow开发若你是 OpenSRE 新手可参考 SETUP.md 获取详细的特定平台设置说明包括 Windows 系统设置、环境配置等内容。git clone https://github.com/Tracer-Cloud/opensrecd opensremake install# 运行 opensre onboard 配置本地大语言模型LLM提供商# 并可选择验证/保存 Grafana、Datadog、Honeycomb、Coralogix、Slack、AWS、GitHub MCP 和 Sentry 集成opensre onboardopensre investigate -i tests/e2e/kubernetes/fixtures/datadog_k8s_alert.jsonOpenSRE 工作原理调查工作流程警报触发时OpenSRE 自动执行以下操作获取警报上下文以及相关的日志、指标和追踪数据。在你连接的系统中进行推理识别异常情况。生成包含可能根本原因的结构化调查报表。建议下一步操作并可选择执行修复措施。直接将摘要发布到 Slack 或 PagerDuty无需切换上下文。基准测试make benchmark功能特性 结构化事件调查对所有信号进行关联根本原因分析。 支持操作手册推理OpenSRE 会读取你的操作手册并自动应用。 预测性故障检测在问题影响到你之前发现潜在问题。 基于证据的根本原因每个结论都与背后的数据关联。 全 LLM 灵活性可使用你自己的模型如 Anthropic、OpenAI、Ollama、Gemini、OpenRouter、NVIDIA NIM。集成OpenSRE 可连接现代云栈中的 40 多种工具和服务涵盖 LLM 提供商、可观测性平台、基础设施、数据库和事件管理等领域。类别集成项AI / LLM 提供商Anthropic、OpenAI、Ollama、Google Gemini、OpenRouter、NVIDIA NIM、Bedrock可观测性GrafanaLoki、Mimir、Tempo、Datadog、Honeycomb、Coralogix、CloudWatch、Sentry、Elasticsearch、Splunk、New Relic、Victoria Logs基础设施Kubernetes、AWSS3、Lambda、EKS、EC2、Bedrock、GCP、Azure、Helm、ArgoCD数据库MongoDB、ClickHouse、PostgreSQL、MySQL、MariaDB、MongoDB Atlas、Azure SQL、RDS、Snowflake数据平台Apache Airflow、Apache Kafka、Apache Spark、Prefect、RabbitMQ开发工具GitHub、GitHub MCP、Bitbucket、GitLab事件管理PagerDuty、Opsgenie、Jira、ServiceNow、incident.io、Alertmanager、Linear、Trello通信工具Slack、Google Docs、Discord、Teams、WhatsApp、Confluence、Notion智能体部署Vercel、LangSmith、EC2、ECS、Railway协议MCP、ACP、OpenClaw贡献OpenSRE 由社区共同构建。每一次集成、改进和 bug 修复都将使数千名工程师受益。积极审查拉取请求PR欢迎各经验水平的贡献者参与。标记为 good first issue 的任务适合新手。贡献方式如下 报告 bug 或未覆盖的边缘情况。 添加新的工具集成。 改进文档或操作手册示例。⭐ 给仓库加星帮助其他工程师发现 OpenSRE。完整指南请参考 CONTRIBUTING.md。感谢以下贡献者davincios、VaibhavUpreti、aliya - tracer、arnetracer、kylie - tracer、paultracer、zeel2104、iamkalio、w3joe、yeoreums、anandgupta1202、rrajan94、vrk7、cerencamkiran、edgarmb14、lukegimza、ebrahim - sameh、shoaib050326、venturevd、shriyashsoni、Devesh36、KindaJayant、overcastbulb、Yashkapure06、Davda - James、Abhinnavverma、devankitjuneja、ramandagar、mvanhorn、abhishek - marathe04、yashksaini - coder、haliaeetusvocifer、Bahtya、mayankbharati - ops、harshareddy832、sundaram2021、micheal000010000 - hub、ljivesh、gautamjain1503、mudittt、hamzzaaamalik、octo - patch、fuleinist、yas789、aniruddhaadak80安全OpenSRE 在设计时充分考虑了生产环境的需求调查会话结束后不存储原始日志数据。所有 LLM 调用使用结构化、可审计的提示。日志转录数据本地保存默认情况下不会外部传输。有关负责任披露的详细信息请参阅 SECURITY.md。遥测OpenSRE 使用 Posthog 收集匿名使用统计数据以帮助了解项目的采用情况并向资助项目的赞助商和投资者展示项目的发展态势。收集的信息包括命令名称、执行结果成功/失败、大致运行时间、CLI 版本、Python 版本、操作系统类型、机器架构以及少量特定命令的元数据如运行的子命令。对于 opensre onboard 和 opensre investigate 命令可能还会收集所选模型/提供商以及命令是否使用了 --interactive 或 --input 等标志。首次运行时会生成一个随机的匿名 ID并存储在 ~/.config/opensre/ 中。绝不会收集警报内容、文件内容、主机名、凭证或任何个人身份信息。在 GitHub Actions 和 pytest 运行中遥测功能会自动禁用。若要在本地禁用遥测功能请在运行前设置环境变量export OPENSRE_NO_TELEMETRY1旧的别名 OPENSRE_ANALYTICS_DISABLED1 仍然有效。若要在本地查看遥测数据负载而不发送任何内容请使用export OPENSRE_TELEMETRY_DEBUG1许可证采用 Apache 2.0 许可证详情请参阅 LICENSE。引用[1](https://arxiv.org/abs/2310.06770) 相关论文链接。

更多文章