技术背景
在开发C++应用程序时,找出代码中运行缓慢的部分是进行性能优化的关键。在Linux系统上,有多种工具和方法可用于对C++代码进行性能分析,每种方法都有其特点和适用场景。
实现步骤
手动中断调试法
- 在调试器(如gdb)中运行代码。
- 在代码运行缓慢时手动中断程序,查看调用栈(如使用backtrace命令)。
- 多次重复步骤2,若某段代码占用了一定比例的时间,那么在每次采样时就有相应概率捕获到它。
- 清理掉一个性能问题后,剩余问题所占比例会增大,更易发现。
使用Valgrind和Callgrind
- 编译程序时确保包含调试符号并进行优化:gcc -ggdb3 -O3 -std=c99 -Wall -Wextra -pedantic -o main.out main.c。
- 使用Valgrind和Callgrind进行性能分析:valgrind --tool=callgrind --dump-instr=yes -v --instr-atstart=no ./binary > tmp。
- 当程序开始执行需要分析的任务时,在另一个窗口开启性能分析:callgrind_control -i on。
- 分析完成后,关闭性能分析并停止程序:callgrind_control -k。
- 使用kcachegrind查看分析结果:kcachegrind callgrind.out.*。
使用gprof
- 编译时添加-pg选项:gcc -pg -ggdb3 -O3 -std=c99 -Wall -Wextra -pedantic -o main.out main.c。
- 运行程序:time ./main.out 10000,运行后会生成gmon.out文件。
- 可以使用gprof2dot生成图形化报告:
sudo apt install graphviz
python3 -m pip install --user gprof2dot
gprof main.out > main.gprof
gprof2dot < main.gprof | dot -Tsvg -o output.svg
- 也可以查看文本输出:gprof -b main.out。
使用perf
- 安装linux-tools:sudo apt install linux-tools-common linux-tools-generic。
- 设置内核参数:
sudo sysctl kernel.perf_event_paranoid=-1 kernel.kptr_restrict=0
# 或者持久化设置
printf 'kernel.perf_event_paranoid = -1\nkernel.kptr_restrict = 0\n' | sudo tee -a /etc/sysctl.conf
- 收集数据:time perf record --call-graph dwarf ./main.out 10000,会生成perf.data文件。
- 交互式查看数据:perf report。
- 还可以使用FlameGraph生成火焰图:
git clone https://github.com/brendangregg/FlameGraph
git -C FlameGraph/ checkout cd9ee4c4449775a2f867acf31c84b7fe4b132ad5
perf script | FlameGraph/stackcollapse-perf.pl | FlameGraph/flamegraph.pl > flamegraph.svg
使用gperftools
- 安装gperftools:sudo apt install google-perftools。
- 运行时启用CPU分析器:
gcc -ggdb3 -O3 -std=c99 -Wall -Wextra -pedantic -o main.out main.c
LD_PRELOAD=/usr/lib/x86_64-linux-gnu/libprofiler.so CPUPROFILE=prof.out ./main.out 10000
- 或者在链接时集成:
gcc -Wl,--no-as-needed,-lprofiler,--as-needed -ggdb3 -O3 -std=c99 -Wall -Wextra -pedantic -o main.out main.c
CPUPROFILE=prof.out ./main.out 10000
- 使用kcachegrind查看分析结果:
google-pprof --callgrind main.out prof.out > callgrind.out
kcachegrind callgrind.out
- 也可以生成图形化的SVG报告:google-pprof --web main.out prof.out,或者查看文本数据:google-pprof --text main.out prof.out。
核心代码
以下是一个简单的测试程序示例,用于性能分析:
#include <inttypes.h>
#include <stdio.h>
#include <stdlib.h>
uint64_t __attribute__ ((noinline)) common(uint64_t n, uint64_t seed) {
for (uint64_t i = 0; i < n; ++i) {
seed = (seed * seed) - (3 * seed) + 1;
}
return seed;
}
uint64_t __attribute__ ((noinline)) fast(uint64_t n, uint64_t seed) {
uint64_t max = (n / 10) + 1;
for (uint64_t i = 0; i < max; ++i) {
seed = common(n, (seed * seed) - (3 * seed) + 1);
}
return seed;
}
uint64_t __attribute__ ((noinline)) maybe_slow(uint64_t n, uint64_t seed, int is_slow) {
uint64_t max = n;
if (is_slow) {
max *= 10;
}
for (uint64_t i = 0; i < max; ++i) {
seed = common(n, (seed * seed) - (3 * seed) + 1);
}
return seed;
}
int main(int argc, char **argv) {
uint64_t n, seed;
if (argc > 1) {
n = strtoll(argv[1], NULL, 0);
} else {
n = 1;
}
if (argc > 2) {
seed = strtoll(argv[2], NULL, 0);
} else {
seed = 0;
}
seed += maybe_slow(n, seed, 0);
seed += fast(n, seed);
seed += maybe_slow(n, seed, 1);
seed += fast(n, seed);
seed += maybe_slow(n, seed, 0);
seed += fast(n, seed);
printf("%" PRIX64 "\n", seed);
return EXIT_SUCCESS;
}
最佳实践
- 对于简单的性能问题排查,可以先使用手动中断调试法,快速定位可能存在问题的代码段。
- 对于需要详细分析函数调用关系和时间消耗的情况,可使用gprof、Valgrind + Callgrind或perf。
- 对于多线程程序,perf和Intel VTune能更好地处理线程间的交互和调度。
- 对于大规模项目,可结合多种工具进行全面的性能分析。
常见问题
Valgrind性能分析时程序运行缓慢
Valgrind运行程序时会通过其虚拟机,导致程序运行速度大幅下降,对于大型工作负载,这种影响更为明显。可在程序执行关键任务时再开启性能分析。
gprof输出缺少函数
gprof采用采样和插桩相结合的方式,在优化编译(如-O3)时,某些函数可能因为执行速度过快而未被采样到,导致输出中缺少这些函数。
perf分析出现[unknown]函数
使用DWARF方法时,栈过深可能导致出现[unknown]函数。可参考相关资源进行进一步排查。