while(1)；的top-down分析

张开发

• 2026/4/17 3:38:29 • 15 分钟阅读

分享文章

对于简单的while(1)循环int main(){ while(1); return 0;}L1:L2:L3/L4:为什么 Core Bound 是 0%这是最关键的逻辑没有“停顿Stall”就没有“受限Bound”。没有依赖等待jmp指令不依赖任何复杂的计算结果它不需要等待前面的指令算完。没有资源溢出只有一个指令在跑后端的预留站Reservation Station和重命名寄存器永远不会被占满。核心解读Ports_Utilized_1 99.8%含义在 99.8% 的时钟周期里后端有且只有一个端口在执行指令。真相由于你的代码只有一条jmp指令它始终被分配到执行跳转的特定端口。Ports_Utilized_3m同时使用 3 个以上端口是0%while(1);是“绝对串行”每周期只敲一个端口剩下端口全闲着。为什么Ports_Utilization又是 99.8%在 TMAM 模型中Core_Bound.Ports_Utilization的父级指标衡量的是“执行压力是否集中”。因为你的Ports_Utilized_1达到了近乎 100%CPU 认为后端正面临极度的单一端口压力。尽管只有 1 个端口在忙但它“忙得很有规律”。由于这个端口始终处于被占用状态在while(1);这种极简循环里它被定义为 Core Bound 的子项表示“虽然我没卡住0% Backend Bound但我已经被这条单指令压榨到了单端口执行的极限”。如何理解 Frontend Bound 50% 和 Retiring 50%你可能会奇怪既然是while(1);为什么 Retiring 不是 100%机器宽度 vs 指令密度现代 CPU 每个时钟周期可以处理 4 到 8 条指令Slots。但你的while(1);循环体太小了可能每一组时钟周期只能提供 1 或 2 条指令。空置的槽位剩下的槽位因为没有指令可填被标记为Frontend Bound前端没能填满所有槽位。结果这一半的 Slot 退休了50% Retiring另一半空着50% Frontend Bound。总结对于while(1);来说Backend Bound 0%是因为后端处理得太快、太顺畅了完全没排队。IPC是1.99。while(1);对应汇编是2条指令 nop jmp0000000000001129 main: 1129: f3 0f 1e fa endbr64 112d: 55 push %rbp 112e: 48 89 e5 mov %rsp,%rbp 1131: 90 nop 1132: eb fd jmp 1131 main0x8为什么 IPC 是1.99( 2)虽然汇编是nop和jmp但在 Retiring 阶段它们是两条独立的指令。物理执行nop指令在现代 CPU 中通常在前端就被处理掉Nop-elimination或者被分配到一个极其简单的微操作。jmp也是一个微操作。统计结果在一个时钟周期内CPU 退休Retire了一个nop和一个jmp。因此2. 为什么只有一个 Port 在执行这是最关键的一点。在 Skylake 微架构中nop不占用执行端口现代 CPU 拥有“消除 NOP”的能力。当nop到达重命名Rename或分配Allocate阶段时CPU 直接标记它已完成而不需要把它发往任何执行端口。jmp占用1个port只有jmp真正需要进入执行后端并敲击端口。结论在 99.8% 的时钟周期里只有一个物理微操作jmp需要执行所以Ports_Utilized_1是 100%。如果现在代码做4 个独立的加法操作完全发挥后端多个ALU 端口的实力并尽可能消除了内存访问和分支干扰int main() { // 使用寄存器变量建议编译器不要写回内存 register long a 0, b 0, c 0, d 0; while (1) { // 使用内联汇编确保生成最纯粹的指令流 // 1. 展开循环减少 jmp 指令占用的槽位比例 // 2. 独立寄存器确保 4 条指令可以同时分配给 4 个不同的执行端口 __asm__ __volatile__ ( add $1, %[a]; add $1, %[b]; add $1, %[c]; add $1, %[d]; add $1, %[a]; add $1, %[b]; add $1, %[c]; add $1, %[d]; add $1, %[a]; add $1, %[b]; add $1, %[c]; add $1, %[d]; add $1, %[a]; add $1, %[b]; add $1, %[c]; add $1, %[d]; add $1, %[a]; add $1, %[b]; add $1, %[c]; add $1, %[d]; add $1, %[a]; add $1, %[b]; add $1, %[c]; add $1, %[d]; add $1, %[a]; add $1, %[b]; add $1, %[c]; add $1, %[d]; add $1, %[a]; add $1, %[b]; add $1, %[c]; add $1, %[d]; : [a] r (a), [b] r (b), [c] r (c), [d] r (d) : : cc ); } return 0;}结果变成L1:frontend bound消除backend bound到15.7%84.2%的时间在retiring指令。L2:backend bound主要是core bound不是memory bound因为我们用的register变量。L3/L4:核心指标Ports_Utilized_3m (93.3%)这表示在93.3%的时钟周期里后端执行单元Execution Units正同时有3 个或更多的端口在发射DispatchuOps。你的代码add a; add b; add c; add d; jmp;硬件行为Skylake 有 4 个 ALU 端口0, 1, 5, 6。因为你的加法在不同寄存器上没有数据依赖所以 CPU 可以真正地在同一个周期把这 4 个add发射到这 4 个不同的端口去。结论这个 93.3% 证明了你极大地利用了指令级并行ILP。你的后端基本没有闲着的时候。对比Ports_Utilized_3m同时使用 3 个以上端口是 93.3%之前while(1);则是0%。while(1);是“绝对串行”每周期只敲一个端口剩下端口全闲着。展开后的代码是“高度并行”每周期大家一起干活。IPC:insn per cycle是3.37。

while(1)；的top-down分析

最新文章

告别Server Error！手把手教你搞定UiPath Orchestrator部署中的IIS与SQL Server权限配置

树莓派Pico硬件hack：自制一键烧录神器，UF2文件拖放再也不用手忙脚乱

【仅限首批200家通过ISO/IEC 27001 AI运维认证企业内部流出】：生成式AI自动化运维安全基线白皮书（含17项强制审计项）

抓住 AI 短剧爆发期：AI创作系统源头技术合作，先人一步抢占市场份额

Godot音效管理器实战：用AutoLoad挂载场景，实现‘随叫随到’的背景音乐与音效

别再为GPU发愁了！手把手教你用Kaggle免费额度跑通YOLOv8训练（附数据集路径避坑指南）

推荐文章

ATCODER ABC C题解济

英雄联盟智能辅助工具League Akari：让你轻松成为游戏高手 [特殊字符]✨

同城预约上门服务系统源码：从技术架构到落地实践的深度剖析

PyTorch学习率调度器实战：从基础到高级策略全解析

python开发之路【第四章】：python程序流程控制督

跑得越慢反而越牛？你的身体其实在偷偷“扩容带宽”

相关文章

无损音乐下载与高品质音频管理：tidal-dl-ng的核心能力探索

LyricsX：让歌词如影随形的桌面歌词助手

如何利用自动化抢票工具突破大麦网90%的抢票失败率：从绝望到成功的完整指南

电子设计竞赛必备：RC、运放、TTL信号处理电路实战指南（附避坑技巧）

从RoboMaster到智能仓储：深入聊聊麦克纳姆轮底盘的那些‘坑’与最佳实践

libhv实战：从零构建一个高效的WebSocket客户端

分享文章

更多文章

从复平面上的‘圆舞曲’到手机信号：用Python可视化理解LTE PSS中的ZC序列

低成本改造工业表计，EdgeBus + ThinkLink 构建LoRaWAN物联网闭环

周红伟：Herems到底凭什么抢了OpenClaw的风头？

Halcon图像清晰度评价实战：关键算子intensity的应用与优化

技术揭秘：重新定义云存储共享边界的秒传革命

Java多线程编程，抢红包、抽奖实战案例

告别混乱！用Qt Designer和C++在Qt 5.12中优雅管理多个窗口

春秋云境CVE-2021-34257

终极指南：UABEA - 跨平台Unity资源编辑神器，轻松解锁游戏资产修改

CH343 USB转串口芯片全平台驱动与开发资源指南

保姆级教程：用Davinci Configurator给TC397芯片配置AUTOSAR CanIf模块（附DBC文件解析避坑点）

2026年云测试平台选型指南：全场景真机与自动化技术实测