当前位置：首页 > 文章列表 > 文章 > java教程 > Arthas 排查 CPU 飙高：thread、trace、watch 连起来定位慢方法

Arthas 排查 CPU 飙高：thread、trace、watch 连起来定位慢方法

来源：17golang Java频道原创 2026-06-04 14:21:23 0浏览收藏

这篇写一个 Java 线上排查里很实用的场景：CPU 突然飙高，接口 p99 抬起来，日志没有明显异常。以前我们会先 jstack、top、grep 一通，现在如果机器允许接入 Arthas，可以更快把热点线程、慢方法和异常参数串起来。

本文适用于 Java 17/21、Spring Boot 线上服务、Arthas 3.x。资料只用于核对事实：Arthas 提供 dashboard、thread、trace、watch、profiler 等命令，能查看 JVM 运行状态、线程栈和方法调用耗时。正文按生产复盘写，不照搬命令手册。

Arthas 线上排查思维导图 — 脑图：从现象、命令、风险、修复和上线复盘来组织排查动作。

业务场景：价格服务 CPU 飙高

活动期间价格服务 CPU 从 40% 打到 160%，订单确认页 p99 从 120ms 变成 1.5s。GC 不明显，数据库没慢，线程池队列也没爆。业务日志只有大量正常请求，看不出哪段代码在烧 CPU。

这种场景不要急着重启。先保留现场，用 Arthas 进程内观察热点线程和方法耗时。目标不是炫命令，而是在最短时间回答三个问题：谁在烧 CPU？哪段方法慢？慢的时候参数有什么特征？

问题复现：一个 BigDecimal 热点藏在循环里

最后定位到价格计算里有一段折扣叠加逻辑，促销规则多时会在循环里反复创建 BigDecimal 并做除法，还触发了异常兜底分支。单次看不慢，高并发下就变成 CPU 热点。

这类问题用普通日志很难发现，因为每个请求都“成功”了。Arthas 的价值在于可以直接看热点线程栈，再对目标方法做小范围 trace。

Arthas CPU 高和慢方法诊断流程 — 排查流程：先全局看，再找热点线程，最后下钻具体方法。

踩坑原因：排查命令范围太大

Arthas 很强，但线上使用也有风险。最常见的错误是一上来就 trace com.demo..* * 或者 watch 整个包。增强范围太大，会带来额外开销，输出也会把终端刷爆。

我的原则是从粗到细：先 dashboard 看整体，再 thread -n 5 找热点线程，确认类和方法后再 trace。每一步都缩小范围。

命令案例：小范围、短时间、可回收

下面的对比是我在生产环境最常提醒团队的点。Arthas 命令不是越猛越好，越精准越安全。

Arthas 生产命令安全对比 — 生产排查要控制增强范围、输出次数和参数深度。

dashboard
thread -n 5 -i 1000
trace com.demo.price.PriceService calc '#cost>100' -n 5
watch com.demo.price.PriceService calc '{params, throwExp}' -n 3 -x 2
reset com.demo.price.PriceService

#cost>100 很关键，它能减少无意义输出，只看超过阈值的调用。-n 控制次数，-x 控制对象展开深度，排查完记得 reset 清理增强类。

诊断步骤：我会这样操作

第一步，确认目标进程。 接入 Arthas 前先确认 PID、应用版本、机器是否正在承载核心流量。高峰期动作要更克制。

第二步，看 dashboard。 先看 CPU、线程、内存、GC、运行时间，确认是 Java 应用内问题，还是系统层资源问题。

第三步，找热点线程。 用 thread -n 5 -i 1000 采样热点线程。注意 Arthas 里的线程 CPU 是采样区间内的增量占比。

第四步，下钻 trace。 只 trace 明确的类和方法，并加 #cost 条件。Arthas trace 适合找第一层调用耗时，必要时再逐层下钻。

第五步，用 watch 看现场。 只看必要参数、返回值和异常，不要展开大对象，也不要打印敏感字段。

第六步，沉淀修复。 排查命令、截图、热点栈、修复 PR、灰度指标都要留档，避免下次重新摸黑。

上线检查：工具接入也要守规矩

生产执行 Arthas 前确认权限、审计和应急窗口。
命令范围必须具体到类和方法，避免全包增强。
watch 参数时注意脱敏，不打印 token、手机号、身份证等敏感值。
排查结束执行 reset，确认增强类已清理。
把热点方法补上指标、压测和单元/性能回归。

我的经验总结

Arthas 最适合解决“现在线上到底发生了什么”这个问题。它不是替代日志、指标、JFR，而是补上临场观察能力。用得好，十分钟能定位；用得猛，也可能把现场搅乱。

我的建议是把命令当手术刀：范围小、时间短、证据清楚、排查完复原。Java 生产排查的高级感，不是命令背得多，而是知道什么时候该停手。

java CPU 性能优化 Arthas 线上故障排查性能优化故障排查生产实践 Java教程 Arthas

版本声明

本文转载于：17golang Java频道原创如有侵犯，请联系study_golang@163.com删除

Python Flask 实战：别把请求上下文当全局变量用

上一篇: Python Flask 实战：别把请求上下文当全局变量用

下一篇: MySQL 8.4 字符集排序规则实战：同样的查询为什么索引突然失效

查看更多

最新文章

文章 · java教程 | 44分钟前 | 线程池 · Spring Boot · 生产实践 · Java教程 · ThreadPoolExecutor · java 性能优化线程池 spring boot threadpoolexecutor

Java 线程池队列堆积复盘：别让无界队列把慢故障藏起来

326浏览收藏
文章 · java教程 | 1小时前 | Spring Boot · 事务管理 · 生产实践 · Java教程 · Transactional · java 事务管理 spring boot 生产实践 Transactional

@Transactional 失效复盘：自调用、异常回滚和异步线程别再踩坑

259浏览收藏
文章 · java教程 | 1小时前 | 微服务 · 生产实践 · Java教程 · Spring Cloud · OpenFeign · java 微服务 Spring Cloud 超时重试 OpenFeign

OpenFeign 超时重试踩坑：别把慢下游重试成全链路雪崩

363浏览收藏
文章 · java教程 | 1小时前 | Spring Boot · 生产实践 · Java教程 · Micrometer · Actuator · java spring boot Micrometer 可观测性 actuator

Spring Boot 指标告警实战：Actuator + Micrometer 让慢接口先暴露

240浏览收藏
文章 · java教程 | 1小时前 | JVM · 生产实践 · Java教程 · G1 GC · JFR · java 性能优化 JVM JFR G1 GC

G1 GC 暂停飙升排查：别先复制 JVM 参数，先看 JFR 和 GC 日志

327浏览收藏
文章 · java教程 | 1小时前 | 工程化 · Spring Boot · junit · Java教程 · Testcontainers · java 集成测试 spring boot JUnit 5 Testcontainers

Spring Boot 集成测试别再只靠 H2：Testcontainers 落地踩坑复盘

154浏览收藏
文章 · java教程 | 2小时前 | 依赖管理 · Spring Boot · maven · 生产实践 · Java教程 · java maven spring boot 依赖冲突工程化

Maven 依赖冲突排查：NoSuchMethodError 不是玄学，先看依赖树

135浏览收藏
文章 · java教程 | 2小时前 | 数据库连接池 · Spring Boot · 生产实践 · Java教程 · HikariCP · java 性能优化连接池 spring boot HikariCP

HikariCP 连接池耗尽排查：别一上来就把 maximumPoolSize 调大

206浏览收藏
文章 · java教程 | 2小时前 | reactor · netty · 生产实践 · Java教程 · Spring WebFlux · java 性能优化 netty reactor Spring WebFlux

WebFlux 里 block() 卡死事件循环：一次 p99 飙升的排查复盘

388浏览收藏
文章 · java教程 | 1天前 | 线程池 · Spring Boot · 生产实践 · Java教程 · 服务发布 · java 线程池 spring boot 优雅停机生产实践

Spring Boot 优雅停机实战：滚动发布别让线程池把请求丢在半路

390浏览收藏
文章 · java教程 | 1天前 | Spring Boot · 生产实践 · Java教程 · Resilience4j · 微服务治理 · java 微服务 spring boot 熔断重试 Resilience4j

Resilience4j 超时重试熔断实战：别把慢接口重试成雪崩

318浏览收藏
文章 · java教程 | 1天前 | JWT · Spring Boot · 生产实践 · Java教程 · Spring Security · java jwt spring boot Spring Security 后端安全

Spring Security JWT 401/403 排查：别再把过滤链和权限前缀搅在一起

255浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ChatExcel酷表

ChatExcel酷表是由北京大学团队打造的Excel聊天机器人，用自然语言操控表格，简化数据处理，告别繁琐操作，提升工作效率！适用于学生、上班族及政府人员。

5969次使用
Any绘本

探索Any绘本（anypicturebook.com/zh），一款开源免费的AI绘本创作工具，基于Google Gemini与Flux AI模型，让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景，零门槛，高自由度，技术透明，本地可控。

6388次使用
可赞AI

可赞AI，AI驱动的办公可视化智能工具，助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析，还是一键生成专业图表、脑图、知识卡片，可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景，大幅提升办公效率，降低专业门槛，是您提升工作效率的得力助手。

6198次使用
星月写作

星月写作是国内首款聚焦中文网络小说创作的AI辅助工具，解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配，助力新人快速上手，资深作者效率倍增。

8172次使用
MagicLight

MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台，专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型，保障角色、风格、场景高度一致性，让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销，助您轻松实现创意落地与商业化。

6781次使用

查看更多

go zero微服务实战性能优化极致秒杀

2022-12-27 207浏览
第44期：无主键分区表该不该使用

2023-01-23 358浏览
阿里MySQL应用实战与性能调优手册惨遭泄漏，GitHub下载量超23K+

2023-02-24 334浏览
火爆全网的MySQL性能优化手册，居然让我直接刷进腾讯

2023-01-25 406浏览
数据库日常实操优质文章分享（含Oracle、MySQL等） | 11月刊

2023-02-16 462浏览