本文通过AI Agent技术实现数据库异常的自动发现、智能分析和快速修复,将故障处理时间从数小时缩短到分钟级,异常误报率降低60-80%。
背景:三大核心痛点
随着业务规模快速增长,OPPO的数据库规模已达到数十万实例、千万级库表,涵盖MySQL、PostgreSQL、MongoDB、ClickHouse、Redis、Milvus等多种数据库类型。常见故障点:

图1:数据库常见故障点
分析发现:
·80%的故障时间花在问题分析与根因定位
·平均故障处理时长195分钟,70%为性能调优问题
传统的人工诊断模式面临三大核心痛点:

02 AI智能诊断:三大核心优势
基于AI Agent构建的智能诊断系统,相比传统诊断具有三大核心优势
2.1 多模态融合诊断
传统方式:孤立指标检查 + 人工经验关联
AI方式:同时处理数百个指标,自动发现隐式关联,融合5种数据模态:
1. 指标时序数据(Prometheus/Grafana)
2. 文本日志(错误日志、慢查询日志)
3. 配置信息(my.cnf等)
4. SQL文本(查询语句、执行计划)
5. 拓扑结构(主从关系、分片信息)
案例:

价值:排查时间从数小时缩短到分钟级
2.2 动态自适应诊断
传统方式:阈值固定,无法区分“正常的高负载”与“异常的高负载”
AI方式:
1. 自动识别业务流量变化:工作日 vs 周末、业务高峰期 vs 低峰期
2. 异常评分:使用综合评分规则给出异常程度
3. 迁移学习:将A库的诊断经验迁移到B库(同架构、不同业务)
案例:

价值:异常误报率降低60-80%
2.3 预测性诊断
传统流程:问题发生 → 用户投诉 → DBA介入 → 分析 → 解决(已造成影响)
AI能力:
1. 时序预测:预测未来1-24小时性能趋势
2. 故障预测:磁盘空间、容量预警
3. 性能退化预警:提前发现索引效率下降
案例:

价值:从“救火”到“防火”,故障从“已发生”提前到“即将发生”
03 技术架构:ODC+知识库+AI Agent
3.1 整体架构
·多数据库类型:OLTP、文档型、分析型、键值型、AI新业态型数据库
·多模数据管理平台:OneMeta:各数据库类型在系统变成“可理解、可治理、可查询”统一数据资产;OneOps:提供DBaaS(数据库即服务)的体验,所有运维相关操作的控制平台
·AI驱动:构建数据库知识库,融合专家经验+AI Agent
·AI应用:多种场景如开发提效、智能诊断、智能运维自治

图2:AI智能诊断系统整体架构
多模数据管理平台ODC(Open Database Develop Center)已经完成并投入使用,不做过多说明。本文主要介绍智能诊断模块的实现,开发提效和智能运维模块后续再做详细介绍。
3.2 智能诊断核心组件
OneMetrics:统一监控指标输入与异常监测
·运行日志:慢日志、错误日志、审计日志
·性能指标:CPU、内存、IO、连接数等
·操作日志:扩缩容、主从切换、参数修改
诊断自治服务:专家经验 + AI Agent
·异常识别:自动识别CPU飙高、慢日志激增等
·异常分析:AAS分析 + AI Agent智能诊断
·异常定位:基于RAG的检索增强生成

图3:诊断自治服务流程图
04 核心技术:专家经验+RAG增强型AI
4.1 诊断演进路径

4.2 诊断流程:识别→分析→定位

图4:智能诊断方案
4.2.1 异常识别
依赖数据采集时的监测,自动识别异常场景:
·CPU飙高
·内存异常
·慢日志激增
·错误日志
·主从切换
·整库整表删除
·其他异常场景
4.2.2 异常分析
专家经验部分:
以AAS(平均活跃会话数)作为切入点:
·AAS数量变化趋势反映数据库实例负载变化
·优先处理AAS数量较多的会话状态
·快速初步定位根因
AI Agent部分:
将以下信息作为输入,以Prompt形式发送给AI Agent:
·异常信息
·审计日志
·慢日志
·错误日志
·AAS数据
·操作日志
·监控指标
·特殊指标
AI Agent进行预设的分析流程进行智能诊断分析,输出诊断结果。
4.2.3 异常定位
技术方案:基于RAG(Retrieval-Augmented Generation,检索增强生成)

图5:基于RAG的异常定位技术架构
RAG的优势:
* 结合通用知识库和人工标注结果
* 融入企业私有业务知识
* 显著提升准确性,减少AI幻觉
* 调用OneMeta API,增强诊断准确性
反馈闭环:
用户对诊断结果评价后:
·将Prompt和用户标注结果输入嵌入式模型
·更新知识库
·持续优化诊断效果
4.3 结果评估:双重保障
AI评估
使用AI小模型对DB Agent输出进行评估:

人工评估
·用户评估:对诊断结果准确性和采纳与否进行评估
·专家评估:专家对结果的准确性、相关性、安全性再次评估
·知识库更新:剔除badcase,存入优质案例,持续优化
重要性:虽然评估成本较大,但这是提高DB Agent准确率的"良方",尤其在数据库这种基础高风险组件中尤为重要。
05 实战案例:CPU飙高诊断
5.1 异常监测
进入性能诊断界面,发现CPU使用率在21:03:00-21:13:00突然飙高至85%,触发智能诊断。

图6:CPU使用率异常监测界面
5.2 根因分析与定位
通过AAS(平均活跃会话数)分析发现:
·数据库Sending_data负载最大
·AAS数量变化趋势与CPU飙高时间段完全吻合
·业务Send数据量和MySQL的TPS增多,相互佐证

图7:AAS分析图
推断:CPU飙高由数据库查询时Sending_data数据过多引起。通过SQL关联分析,定位到导致CPU飙高的SQL指纹。
5.3 优化建议
AI提供索引建议和SQL改写建议,一键跳转ODC数据变更界面。

图8:SQL优化建议界面
06 核心价值与展望
1. 核心成果
·异常发现及时性:从被动响应到主动预测
·根因诊断高效性:从数小时缩短到分钟级
·异常告警准确性:异常误报降低60-80%
2. 技术亮点
·多模态融合:融合指标、日志、配置、SQL、拓扑等多源数据
·RAG增强生成:结合知识库和专家经验,提升诊断准确性
·双轨制保障:专家经验+AI,保证稳定性
·反馈闭环:用户和专家评估,持续优化
3. 未来方向
·持续优化AI模型,提升诊断准确率
·扩展更多数据库类型支持
·增强预测性诊断能力
·完善自动化修复能力
07 总结
数据库智能诊断实现了资源监控与SQL智能关联,精准锁定异常根因,提供优化方案,形成异常发现-诊断-修复闭环。
AI的诊断结果并非完全准确,部分重要场景仍需要人为干预和引导。DB Agent的建设是一条持续且漫长的道路,需要我们不断优化与改进。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
责任编辑:kj005
12月16日,2025京东健康儿科生态大会在北京举行名医名企进行专业分享 全方位守护儿童身心健康 大会现场,来自国内顶级医疗机构和知名药企的嘉宾,围绕儿童呼吸道...
2025年12月13日,首届石墨烯悬灸融创技术应用与推广大会在长沙隆重召开,本次会议与中国中药协会亚健康药物研究专委会2025年学术年会暨第六届亚健康药物临床应...
2025年12月12日-13日,由中国中药协会亚健康药物研究专业委员会、中和亚健康服务中心主办,富智中和集团、北京三和同舟会议会展有限公司承办的第六届亚健康药物...
行业洞察:意大利展台设计的核心命题作为全球会展业的文化地标,意大利每年举办超 200 场国际展会与 400 场全国性展会,吸引全球 3 万余家外国企业参展,年交...
2025年12月10日,阿布扎比金融周期间,阿布扎比投资办公室(ADIO)与亚洲领先的投资银行之一中国国际金融股份有限公司(CICC)达成战略合作伙伴关系,建立...
在快节奏的现代生活中,家庭清洁不应成为负担,而应是一种高效、轻松的生活体验磁敏动态速干技术,让地面速干无水渍判断一台洗地机的优劣,根本在于其清洁能力对于有活泼好...
海南自由贸易港正式启动全岛封关运作,标志着中国对外开放进入新阶段马来西亚作为东盟重要经济体,正积极布局海南市场马来西亚国家新闻社近日刊文指出,海南自贸港封关运作...
伴随25/26赛季中段节奏逐步提速,西甲劲旅赫塔菲俱乐部对外宣布,与九游娱乐达成官方独家区域合作关系据悉,自合作协议于11月中旬生效以来,九游娱乐与赫塔菲俱乐部...
2024年12月,成都为全市户籍老年人购买了一份意外伤害保险据了解,该老年人意外伤害保险不需要自己申请购买,不需要填表,更不用缴纳任何费用值得注意的是,成都市户...
近日,为落实市委"进解优促"等决策部署,成都成华板桥中西医结合医院董事长张卓雅女士与总经理詹凌飞先生,受邀参加由成都市委统战部、成都市欧美同学会、金牛区委统战部...
在当今社会,随着人们生活水平的不断提高,对生鲜食品的需求也日益增长钱大妈自2012年创立以来,始终坚持“不卖隔夜肉”的经营理念,并以此为...
近年来,随着全球人口老龄化趋势的加剧和健康意识的普遍提升,抗衰老产业正迎来前所未有的发展机遇然而,面对市面上琳琅满目的NMN产品,消费者往往陷入选择困境制备工艺...
12月17日,國產高性能GPU廠商沐曦股份正式登陸上交所科創板,成為繼摩爾線程之後的「國產GPU第二股」IPO與市場表現沐曦股份本次發行價為104.66元,募資...
前言:中东北非会展枢纽的筑展新范式2025 年的阿联酋已成为中东北非会展产业的核心枢纽,全年承接国际顶级展会超 180 场,迪拜世界贸易中心、阿布扎比国家展览中...