别再只会用printk了！手把手教你用ftrace给Linux内核做‘动态心电图’

张开发

• 2026/4/20 11:19:19 • 15 分钟阅读

分享文章

别再只会用printk了手把手教你用ftrace给Linux内核做‘动态心电图’当你在深夜被报警电话惊醒面对一台出现偶发性性能抖动的Linux服务器时是否曾经历过这样的绝望printk日志像碎片化的线索无法还原内核执行的完整脉络strace只能捕捉表面现象对内核态行为束手无策而gdb调试则像用显微镜观察奔跑中的运动员——既笨重又破坏现场。这时你需要的是像心电图机一样的动态观测工具而ftrace的function_graph跟踪器正是这样的存在。与传统的调试手段相比ftrace提供了三个维度的优势时序可视化函数调用/返回的时间戳、耗时量化每个函数的执行时长和上下文关联完整的调用栈关系。这就像给内核安装了一个24小时工作的Holter监护仪任何细微的心律不齐都会在function_graph的输出波形中暴露无遗。接下来我们将通过四个步骤构建这套诊断体系1. 环境准备搭建ftrace观测平台1.1 内核配置检查现代Linux发行版通常已内置ftrace支持但完整功能需要确认以下配置# 检查内核编译选项 zcat /proc/config.gz | grep -E FTRACE|DEBUG_FS关键配置项应包含CONFIG_FTRACEy CONFIG_FUNCTION_TRACERy CONFIG_FUNCTION_GRAPH_TRACERy CONFIG_DEBUG_FSy若缺少相关选项需要重新编译内核。对于生产环境建议采用CONFIG_DYNAMIC_FTRACEy实现运行时函数跟踪避免性能损耗。1.2 文件系统挂载ftrace通过debugfs暴露接口挂载命令如下# 临时挂载重启失效 mount -t debugfs none /sys/kernel/debug # 永久生效配置 echo debugfs /sys/kernel/debug debugfs defaults 0 0 /etc/fstab挂载成功后核心控制目录位于/sys/kernel/debug/tracing。建议设置快捷访问路径alias trace-cdcd /sys/kernel/debug/tracing2. 核心跟踪器function_graph实战2.1 基础跟踪配置通过简单的四步操作即可启动函数调用图跟踪# 1. 清空历史记录 echo 0 tracing_on echo trace # 2. 选择function_graph跟踪器 echo function_graph current_tracer # 3. 设置跟踪进程可选 echo $$ set_ftrace_pid # 跟踪当前shell进程 # 4. 开始记录 echo 1 tracing_on执行测试命令后停止跟踪# 执行待观测命令 ls -l /etc/passwd # 停止记录 echo 0 tracing_on2.2 输出解读技巧查看trace文件会得到类似如下的波形图# CPU3 耗时统计 3) 1.789 us | } /* __d_lookup */ 3) 2.456 us | } /* lookup_fast */ 3) 3.912 us | } /* path_lookupat */ 3) 15.678 us | } /* filename_lookup */关键元素解析时间单位ns(纳秒)、us(微秒)、ms(毫秒)符号标记函数耗时超过阈值默认10μs!中断上下文执行*函数被中断提前返回2.3 高级过滤技术面对海量数据时精准过滤是高效诊断的关键按函数名过滤# 只跟踪ext4相关函数 echo *ext4* set_ftrace_filter # 排除中断处理函数 echo *irq* set_ftrace_notrace按模块过滤# 跟踪特定内核模块 echo :mod:nvme set_ftrace_filter按事件触发# 当系统调用超过阈值时触发 echo syscall_latency 1000000 events/syscalls/filter3. 性能诊断实战系统调用延迟突增分析假设我们遇到read()系统调用偶尔延迟飙升的问题通过以下流程定位3.1 捕获异常波形# 设置跟踪范围 echo SyS_read set_graph_function echo !*lock* set_ftrace_notrace # 排除锁竞争干扰 # 设置10ms阈值标记 echo 10000 function_graph_thresh # 启动跟踪 echo 1 tracing_on当延迟发生时我们会看到类似输出1) 45.671 ms | } /* SyS_read */ 1) 46.123 ms | } /* vfs_read */ 1) 46.458 ms | } /* ext4_file_read_iter */ 1) # 32.456 ms | } /* _raw_spin_lock_irqsave */#标记显示锁竞争消耗了32ms这就是延迟的根源。3.2 调用栈分析启用调用栈记录能进一步明确锁竞争场景echo 1 options/func_stack_trace典型输出示例0) 1.234 ms | _raw_spin_lock_irqsave() { 0) 1.234 ms | /* 调用栈开始 */ 0) 1.234 ms | dump_stack() 0) 1.234 ms | ext4_da_write_begin() 0) 1.234 ms | generic_perform_write() 0) 1.234 ms | __generic_file_write_iter() 0) 1.234 ms | /* 调用栈结束 */3.3 热点函数统计生成耗时Top10报告cat trace | awk /us |ms/ {print $5,$7} | sort -rn | head -10输出示例32.456 _raw_spin_lock_irqsave 15.678 ext4_journal_start_sb 12.345 memcpy_erms 9.876 find_get_entry4. 高级技巧自动化跟踪方案4.1 跟踪脚本模板保存以下脚本为ftrace-profile.sh#!/bin/bash TRACE_DIR/sys/kernel/debug/tracing # 初始化配置 setup_tracer() { echo 0 $TRACE_DIR/tracing_on echo function_graph $TRACE_DIR/current_tracer echo 10000 $TRACE_DIR/function_graph_thresh echo $$ $TRACE_DIR/set_ftrace_pid } # 执行跟踪 capture_trace() { echo $TRACE_DIR/trace echo 1 $TRACE_DIR/tracing_on exec $ echo 0 $TRACE_DIR/tracing_on } # 主流程 setup_tracer capture_trace $ cat $TRACE_DIR/trace /tmp/last_trace.log使用示例chmod x ftrace-profile.sh ./ftrace-profile.sh mysql -e SELECT * FROM large_table4.2 持久化跟踪配置通过trace_options保存常用设置# 保存当前配置 cat trace_options ~/ftrace.conf # 快速恢复配置 cat ~/ftrace.conf trace_options4.3 与perf协同分析ftrace捕获调用关系perf统计热点分布二者结合更高效# 先用perf定位热点函数 perf top -g -p $(pgrep nginx) # 再用ftrace深入分析 echo ngx_http_process_request set_graph_function5. 避坑指南常见问题解决方案Q1 跟踪导致系统变慢解决方法限制跟踪范围echo schedule set_ftrace_filter降低采样频率echo 1000 buffer_size_kb使用快照功能echo 1 snapshotQ2 关键函数未显示检查项确认函数未被优化echo 0 /proc/sys/kernel/ftrace_enabled检查NMI中断影响echo 0 tracing_max_latencyQ3 跟踪数据不完整应对措施增大缓冲区echo 16384 buffer_size_kb实时保存数据cat trace_pipe trace.log 在实际生产环境中我们曾用这套方法解决过Kafka broker偶发的200ms延迟问题。通过function_graph发现是透明大页(THP) compaction导致的卡顿最终通过echo never /sys/kernel/mm/transparent_hugepage/enabled彻底解决。这种问题用传统调试工具可能需要数周而ftrace让我们在2小时内就锁定了根因。

更多文章

前端开发 2026/4/20 11:18:24

iOS开发调试不求人：用Stream抓包排查App网络问题（附HTTPS证书配置避坑）

iOS开发调试实战：用Stream深度解析网络请求与HTTPS证书配置在独立开发或小团队协作中，iOS开发者常面临一个尴尬局面：前端显示异常，却无法确定是客户端逻辑问题还是接口返回数据问题。传统解决方案要么依赖后端配合，要…

12G-SDI板卡设计避坑指南：从AntiPad到阻抗匹配的工程实践当你的12G-SDI板卡在实验室里反复测试却始终无法通过SMPTE规范时，那种挫败感只有亲身经历过的硬件工程师才能体会。回波损耗超标、信号完整性差、阻抗失配——这些问题往往不是源于芯片选型或电路…

张开发

前端开发 2026/4/20 11:05:41

Unity C#编程避坑指南：别再乱用public和private了，聊聊封装与访问修饰符的正确姿势

Unity C#编程避坑指南：别再乱用public和private了，聊聊封装与访问修饰符的正确姿势在Unity开发中，我们经常看到这样的场景：一个脚本里充斥着public字段，Inspector面板被各种可调节参数挤满；或者相反&#…

张开发

别再只会用printk了！手把手教你用ftrace给Linux内核做‘动态心电图’

最新文章

Agistsoft Photoscan Build Mesh报‘Bad Allocation‘？16G内存也扛不住的解决方案

如何配置物化视图只进行完全刷新_COMPLETE Refresh的强制刷新场景

OnmyojiAutoScript：阴阳师自动化脚本的架构设计与技术实现深度解析

Simulink Test自动化（二）-基于Excel与API的测试用例批量生成与管理

AMD显卡驱动总被Win11偷偷更新？5个方法彻底关掉它，告别版本不匹配弹窗

从“负负得正”到“消去律”：用Python代码验证实数运算的底层逻辑（附完整推导）

推荐文章

从零上手CH340G：USB转串口芯片的实战应用指南

别再手动算周期了！用STM32CubeMX的TIM1输入捕获测按键时长（附完整代码）

AI代码配额管理实战指南：7大行业真实配额模型+3类超限预警SOP（附2026大会未发布白皮书节选）

集合（ArrayList）

防止SQL注入的运维实践_实时清理数据库缓存与历史记录

MySQL Explain 执行计划性能对比

相关文章

无损音乐下载与高品质音频管理：tidal-dl-ng的核心能力探索

LyricsX：让歌词如影随形的桌面歌词助手

如何利用自动化抢票工具突破大麦网90%的抢票失败率：从绝望到成功的完整指南

电子设计竞赛必备：RC、运放、TTL信号处理电路实战指南（附避坑技巧）

从RoboMaster到智能仓储：深入聊聊麦克纳姆轮底盘的那些‘坑’与最佳实践

libhv实战：从零构建一个高效的WebSocket客户端

分享文章

更多文章

iOS开发调试不求人：用Stream抓包排查App网络问题（附HTTPS证书配置避坑）

达梦数据库误删表怎么办？手把手教你用dexp/dimp快速恢复（含避坑指南）

YaeAchievement：一站式自动化成就管理解决方案

如何高效使用HunterPie：怪物猎人世界终极叠加层工具完整指南

ModTheSpire完整手册：Slay The Spire模组开发与加载终极指南

SAP ABAP ALV双击跳转实战：从物料号到生产订单的完整交互设计

从一次线上数据重复事故，复盘MySQL幂等插入的3种最佳实践（附Go/Python代码）

S7-1500之间TCP通信的5个常见坑：从IP冲突到连接ID配置，我都帮你踩过了

YOLO26骑手佩戴头盔检测系统：同时检测骑手、头盔、车牌，助力智能交通监管（项目源码+数据集+模型权重+UI界面+python+深度学习+远程环境部署）

从PlantDoc到田间应用：聊聊开源数据集如何推动农业CV的平民化

避开这些坑，你的12G-SDI板卡才能过SMPTE规范：AntiPad、线宽与阻抗匹配详解

Unity C#编程避坑指南：别再乱用public和private了，聊聊封装与访问修饰符的正确姿势