Linux 调试之 TRACE_EVENT
创始人
2024-04-23 19:47:49
0

文章目录

  • 前言
  • 一、TRACE_EVENT简介
  • 二、TRACE_EVENT() 结构
    • 2.1 TRACE_EVENT简介
    • 2.2 trace_sched_switch示例
  • 三、The header file
  • 参考资料

前言

在Linux的整个历史中,人们一直希望在内核中添加静态跟踪点,即记录内核中特定位置的数据以供以后检索的函数。与Ftrace函数跟踪程序不同,跟踪点可以记录的不仅仅是输入的函数。跟踪点可以记录函数的局部变量。随着时间的推移,已经尝试了各种添加跟踪点的策略,TRACE_EVENT()宏是添加内核跟踪点的最新方法。

一、TRACE_EVENT简介

trace markers:添加一个非常低的开销 tracer hook ,尽管trace markers通过使用精心制作的宏解决了性能问题,但跟踪标记将记录的信息以printf格式嵌入核心内核中的位置,但是这让核心内核代码看起来像是分散在各处的调试代码。

tracepoints:跟踪点在内核代码中包含一个函数调用,当启用该函数时,将调用一个回调函数,将跟踪点的参数传递给该函数,就像使用这些参数调用回调函数一样。这比trace markers要好得多,因为它允许传递回调函数可以取消引用的类型转换指针,而不是标记接口,trace markers需要回调函数解析字符串。使用 tracepoints ,回调函数可以有效地从结构中获取所需的任何内容。

尽管这是对跟踪标记的改进,但对于开发人员来说,为他们想要添加的每个跟踪点创建回调,以便跟踪程序输出其数据仍然太过乏味。内核需要一种更自动化的方式来将跟踪程序连接到跟踪点。这将需要自动创建回调并格式化其数据,就像跟踪标记所做的那样,但应该在回调中完成,而不是在内核代码中的跟踪点位置。

为了解决自动跟踪点的问题,TRACE_EVENT()宏应运而生,该宏专门用于允许开发人员向其子系统添加跟踪点,并使Ftrace能够自动跟踪它们。开发人员不需要了解Ftrace的工作原理,他们只需要使用TRACE_EVENT()宏创建跟踪点。此外,他们需要遵循一些指南来创建头文件,这样他们就可以完全访问Ftrace跟踪程序。TRACE_EVENT()宏设计的另一个目的是不将其耦合到Ftrace或任何其他跟踪器。它对使用它的跟踪程序是不可知的,现在很明显,perf、LTTng和SystemTap也使用了TRACE_EVENT()。

二、TRACE_EVENT() 结构

2.1 TRACE_EVENT简介

自动跟踪点具有必须满足的各种要求:
(1)必须创建一个可以放置在内核代码中的跟踪点。
(2)必须创建一个可以挂接到该跟踪点的回调函数。
(3)回调函数必须能够以最快的方式将传递给它的数据记录到跟踪环缓冲区中。
(4)必须创建一个函数,该函数可以解析记录到环形缓冲区中的数据,并将其转换为跟踪程序可以向用户显示的人类可读格式。

为了实现上述要求,TRACE_EVENT()宏被分为六个组件,它们对应于宏的参数:

#define TRACE_EVENT(name, proto, args, struct, assign, print)	\DECLARE_TRACE(name, PARAMS(proto), PARAMS(args))

name:要创建的跟踪点的名称。
prototype:跟踪点回调的原型
args:与原型匹配的参数。
struct:跟踪程序可以使用(但不需要)存储传递到跟踪点的数据的结构。
assign:已类似于 C-like 的方式 将数据分配给结构。
print:以可读的ASCII格式输出结构的方法。

比如:sched_switch的跟踪点。

2.2 trace_sched_switch示例

下面将使用该定义来描述TRACE_EVENT()宏的每个部分。

// linux-3.10/include/trace/events/sched.h/** Tracepoint for task switches, performed by the scheduler:*/
TRACE_EVENT(sched_switch,TP_PROTO(struct task_struct *prev,struct task_struct *next),TP_ARGS(prev, next),TP_STRUCT__entry(__array(	char,	prev_comm,	TASK_COMM_LEN	)__field(	pid_t,	prev_pid			)__field(	int,	prev_prio			)__field(	long,	prev_state			)__array(	char,	next_comm,	TASK_COMM_LEN	)__field(	pid_t,	next_pid			)__field(	int,	next_prio			)),TP_fast_assign(memcpy(__entry->next_comm, next->comm, TASK_COMM_LEN);__entry->prev_pid	= prev->pid;__entry->prev_prio	= prev->prio;__entry->prev_state	= __trace_sched_switch_state(prev);memcpy(__entry->prev_comm, prev->comm, TASK_COMM_LEN);__entry->next_pid	= next->pid;__entry->next_prio	= next->prio;),TP_printk("prev_comm=%s prev_pid=%d prev_prio=%d prev_state=%s%s ==> next_comm=%s next_pid=%d next_prio=%d",__entry->prev_comm, __entry->prev_pid, __entry->prev_prio,__entry->prev_state & (TASK_STATE_MAX-1) ?__print_flags(__entry->prev_state & (TASK_STATE_MAX-1), "|",{ 1, "S"} , { 2, "D" }, { 4, "T" }, { 8, "t" },{ 16, "Z" }, { 32, "X" }, { 64, "x" },{ 128, "K" }, { 256, "W" }, { 512, "P" }) : "R",__entry->prev_state & TASK_STATE_MAX ? "+" : "",__entry->next_comm, __entry->next_pid, __entry->next_prio)
);

除第一个参数外的所有参数都用另一个宏(TP_PROTO、TP_ARGS、TP_STRUCT__entry、TP_fast_assign和TP_printk)封装。这些宏提供了更多的处理控制,并且允许在TRACE_EVENT()宏中使用逗号。

Name:第一个参数是名称。

TRACE_EVENT(sched_switch,

这是用于调用此跟踪点的名称。实际使用的跟踪点在名称前加上trace_前缀(即trace_sched_switch),比如:

#define CREATE_TRACE_POINTS
#include /*** prepare_task_switch - prepare to switch tasks* @rq: the runqueue preparing to switch* @prev: the current task that is being switched out* @next: the task we are going to switch to.** This is called with the rq lock held and interrupts off. It must* be paired with a subsequent finish_task_switch after the context* switch.** prepare_task_switch sets up locking and calls architecture specific* hooks.*/
static inline void
prepare_task_switch(struct rq *rq, struct task_struct *prev,struct task_struct *next)
{//使用 tracepoint:sched_switchtrace_sched_switch(prev, next);sched_info_switch(prev, next);perf_event_task_sched_out(prev, next);fire_sched_out_preempt_notifiers(prev, next);prepare_lock_switch(rq, next);prepare_arch_switch(next);
}

Prototype:下一个参数是原型。

	TP_PROTO(struct task_struct *prev,struct task_struct *next),

编写原型时,就像直接声明跟踪点一样:

trace_sched_switch(struct task_struct *prev, struct task_struct *next),

它被用作添加到内核代码中的跟踪点和回调函数的原型。请记住,跟踪点调用回调函数,就像在跟踪点的位置调用回调函数一样。

Arguments:第三个参数是原型使用的参数。

TP_ARGS(prev, next),

这似乎很奇怪,但它不仅是TRACE_EVENT()宏所需要的,它也是下面的跟踪点基础结构所需要的。跟踪点代码在激活时将调用回调函数(可以为给定的跟踪点分配多个回调)。
创建跟踪点的宏必须同时访问原型和参数。以下是跟踪点宏完成此操作所需的说明:

struct tracepoint_func {void *func;void *data;
};struct tracepoint {const char *name;		/* Tracepoint name */struct static_key key;void (*regfunc)(void);void (*unregfunc)(void);struct tracepoint_func __rcu *funcs;
};extern struct tracepoint __tracepoint_##name;			\
static inline void trace_##name(proto)				\
{								\if (static_key_false(&__tracepoint_##name.key))		\__DO_TRACE(&__tracepoint_##name,		\TP_PROTO(data_proto),			\TP_ARGS(data_args),			\TP_CONDITION(cond),,);			\
}	

Structure:第四个参数有点复杂。

TP_STRUCT__entry(__array(	char,	prev_comm,	TASK_COMM_LEN	)__field(	pid_t,	prev_pid			)__field(	int,	prev_prio			)__field(	long,	prev_state			)__array(	char,	next_comm,	TASK_COMM_LEN	)__field(	pid_t,	next_pid			)__field(	int,	next_prio			)
),

此参数描述将存储在跟踪器环形缓冲区中的数据的结构布局。结构的每个元素都由另一个宏定义。这些宏用于自动创建结构,与功能不同。请注意,宏之间没有任何分隔符(没有逗号或分号)。
sched_switch跟踪点使用的宏包括:
__array(type,name,len)-这定义了一个数组项,相当于int name[len];其中类型为int,数组的名称为array,数组中的项数为len。
__field(type,name):这定义了一个普通的结构元素,比如in tvar;其中类型为int,名称为var。
还有其他元素宏将在后面的文章中描述。sched_switch跟踪点的定义将生成如下结构:

struct {char   prev_comm[TASK_COMM_LEN];pid_t  prev_pid;int    prev_prio;long   prev_state;char   next_comm[TASK_COMM_LEN];pid_t  next_pid;int    next_prio;
};

Assignment:第五个参数定义了将参数中的数据保存到环形缓冲区的方式。

TP_fast_assign(memcpy(__entry->next_comm, next->comm, TASK_COMM_LEN);__entry->prev_pid	= prev->pid;__entry->prev_prio	= prev->prio;__entry->prev_state	= __trace_sched_switch_state(prev);memcpy(__entry->prev_comm, prev->comm, TASK_COMM_LEN);__entry->next_pid	= next->pid;__entry->next_prio	= next->prio;
),

TP_fast_assign()中的代码是正常的C代码。特殊变量__entry表示指向由TP_STRUCT__entry定义的结构类型的指针,并直接指向环形缓冲区。TP_fast_assign用于填充TP_STRUCT__entry中创建的所有字段。然后可以使用TP_PROTO和TP_ARGS定义的参数的变量名将适当的数据分配到__entry结构中。

Print:最后一个参数定义如何使用printk()打印TP_STRUCT__entry结构中的字段。

TP_printk("prev_comm=%s prev_pid=%d prev_prio=%d prev_state=%s%s ==> next_comm=%s next_pid=%d next_prio=%d",__entry->prev_comm, __entry->prev_pid, __entry->prev_prio,__entry->prev_state & (TASK_STATE_MAX-1) ?__print_flags(__entry->prev_state & (TASK_STATE_MAX-1), "|",{ 1, "S"} , { 2, "D" }, { 4, "T" }, { 8, "t" },{ 16, "Z" }, { 32, "X" }, { 64, "x" },{ 128, "K" }, { 256, "W" }, { 512, "P" }) : "R",__entry->prev_state & TASK_STATE_MAX ? "+" : "",__entry->next_comm, __entry->next_pid, __entry->next_prio)

变量__entry再次用于引用指向包含数据的结构的指针。格式字符串与任何其他printf格式一样。__print_flags()是TRACE_EVENT()附带的一组帮助函数的一部分。

Format file:sched_switch TRACE_EVENT()宏以/sys/kernel/debug/tracking/events/sched/sched_switch/format格式生成以下格式文件:

[root@localhost ~]# cat /sys/kernel/debug/tracing/events/sched/sched_switch/format
name: sched_switch
ID: 326
format:field:unsigned short common_type;       offset:0;       size:2; signed:0;field:unsigned char common_flags;       offset:2;       size:1; signed:0;field:unsigned char common_preempt_count;       offset:3;       size:1; signed:0;field:int common_pid;   offset:4;       size:4; signed:1;field:char prev_comm[16];       offset:8;       size:16;        signed:1;field:pid_t prev_pid;   offset:24;      size:4; signed:1;field:int prev_prio;    offset:28;      size:4; signed:1;field:long prev_state;  offset:32;      size:8; signed:1;field:char next_comm[16];       offset:40;      size:16;        signed:1;field:pid_t next_pid;   offset:56;      size:4; signed:1;field:int next_prio;    offset:60;      size:4; signed:1;print fmt: "prev_comm=%s prev_pid=%d prev_prio=%d prev_state=%s%s ==> next_comm=%s next_pid=%d next_prio=%d", REC->prev_comm, REC->prev_pid, REC->prev_prio, REC->prev_state & (1024-1) ? __print_flags(REC->prev_state & (1024-1), "|", { 1, "S"} , { 2, "D" }, { 4, "T" }, { 8, "t" }, { 16, "Z" }, { 32, "X" }, { 64, "x" }, { 128, "K" }, { 256, "W" }, { 512, "P" }) : "R", REC->prev_state & 1024 ? "+" : "", REC->next_comm, REC->next_pid, REC->next_prio

与进程调度有关的其他 tracepoints 点:

[root@localhost ~]# cat /sys/kernel/debug/tracing/events/sched/
enable                       sched_move_numa/             sched_process_free/          sched_stat_runtime/          sched_switch/
filter                       sched_pi_setprio/            sched_process_hang/          sched_stat_sleep/            sched_wait_task/
sched_kthread_stop/          sched_process_exec/          sched_process_wait/          sched_stat_wait/             sched_wake_idle_without_ipi/
sched_kthread_stop_ret/      sched_process_exit/          sched_stat_blocked/          sched_stick_numa/            sched_wakeup/
sched_migrate_task/          sched_process_fork/          sched_stat_iowait/           sched_swap_numa/             sched_wakeup_new/

请注意,格式文件中的__entry替换为REC。第一组字段(common_*)不是来自TRACE_EVENT()宏,而是由创建此格式文件的Ftrace添加到所有事件中,其他跟踪程序可以添加不同的字段。格式文件为用户空间工具提供解析包含sched_switch项的二进制输出所需的信息。

三、The header file

内核中的跟踪点都是定义在该目录下:

linux-3.10/include/trace/events/

在这里插入图片描述
与任务调度相关的 tracepoints 点都是在该目录下:

linux-3.10/include/trace/events/sched.h#undef TRACE_SYSTEM
#define TRACE_SYSTEM sched#if !defined(_TRACE_SCHED_H) || defined(TRACE_HEADER_MULTI_READ)
#define _TRACE_SCHED_H#include 
#include 
#include /** Tracepoint for calling kthread_stop, performed to end a kthread:*/
TRACE_EVENT(sched_kthread_stop,TP_PROTO(struct task_struct *t),TP_ARGS(t),TP_STRUCT__entry(__array(	char,	comm,	TASK_COMM_LEN	)__field(	pid_t,	pid			)),TP_fast_assign(memcpy(__entry->comm, t->comm, TASK_COMM_LEN);__entry->pid	= t->pid;),TP_printk("comm=%s pid=%d", __entry->comm, __entry->pid)
);/** Tracepoint for the return value of the kthread stopping:*/
TRACE_EVENT(sched_kthread_stop_ret,TP_PROTO(int ret),TP_ARGS(ret),TP_STRUCT__entry(__field(	int,	ret	)),TP_fast_assign(__entry->ret	= ret;),TP_printk("ret=%d", __entry->ret)
);
......

TRACE_EVENT()头中的第一行不是常规的 #ifdef _TRACE_SCHED_H ,而是:

#undef TRACE_SYSTEM
#define TRACE_SYSTEM sched#if !defined(_TRACE_SCHED_H) || defined(TRACE_HEADER_MULTI_READ)
#define _TRACE_SCHED_H

此示例用于调度程序跟踪事件,其他事件的 headfile 将使用sched和_trace_sched_H以外的其他内容。TRACE_HEADER_MULTI_READ测试允许多次包含此文件;这对于TRACE_EVENT()宏的处理非常重要。还必须为文件定义TRACE_SYSTEM,并且必须在#if的保护范围之外。TRACE_SYSTEM定义文件中TRACE_EVENT()宏所属的组。这也是事件将在debugfs tracing/events/ 目录中分组的目录名。此分组对Ftrace很重要,因为它允许用户按组启用或禁用事件。
然后,该文件包含TRACE_EVENT()宏内容所需的任何 headers 。(例如#include)。
The tracepoint.h file 也要求:

#include 

现在可以使用 TRACE_EVENT() 宏定义所有跟踪事件。请在TRACE_EVENT()宏上方包含描述跟踪点的注释。查看include/trace/events/sched.h作为示例。文件结尾为:

#endif /* _TRACE_SCHED_H *//* This part must be outside protection */
#include 

define_trace.h是创建跟踪点的 all the magic 所在。关于这个文件如何工作的解释将留给另一篇文章。现在,只要知道这个文件必须包含在跟踪头文件的底部,不受#endif的保护就足够了。

要使用跟踪点,必须包含 headerfile ,但在包含跟踪之前,一个C文件还必须定义CREATE_TRACE_POINTS。这将导致define_trace.h来创建生成跟踪事件所需的必要函数,如下所示:

// linux-3.10/kernel/sched/core.c#define CREATE_TRACE_POINTS
#include 

如果另一个文件需要使用跟踪文件中定义的跟踪点,那么它只需要包含跟踪文件,而不需要定义CREATE_TRACE_POINTS了。为同一头文件多次定义它将在生成时导致链接器错误。比如:

// linux-3.10/kernel/fork.c#include // 这里的 CREATE_TRACE_POINTS 是生成与 task 有关的 tracepoint
#define CREATE_TRACE_POINTS
#include 

代码中使用的跟踪点与TRACE_EVENT()宏中定义的一样:

/*** prepare_task_switch - prepare to switch tasks* @rq: the runqueue preparing to switch* @prev: the current task that is being switched out* @next: the task we are going to switch to.** This is called with the rq lock held and interrupts off. It must* be paired with a subsequent finish_task_switch after the context* switch.** prepare_task_switch sets up locking and calls architecture specific* hooks.*/
static inline void
prepare_task_switch(struct rq *rq, struct task_struct *prev,struct task_struct *next)
{trace_sched_switch(prev, next);sched_info_switch(prev, next);perf_event_task_sched_out(prev, next);fire_sched_out_preempt_notifiers(prev, next);prepare_lock_switch(rq, next);prepare_arch_switch(next);
}

参考资料

Linux 3.10.0

https://lwn.net/Articles/379903/

相关内容

热门资讯

球桌计费系统安装视频,球桌计费... 球桌计费系统安装视频教程,轻松提升球馆管理效率随着社会经济的发展,球桌娱乐场所如雨后春笋般涌现。为了...
氨制冷系统安装手续,氨制冷系统... 氨制冷系统安装手续概述氨制冷系统作为一种高效、环保的制冷方式,广泛应用于食品加工、医药、化工等行业。...
包装系统工程安装,提升效率与品... 包装系统工程安装:提升效率与品质的关键步骤随着市场竞争的日益激烈,企业对产品包装的重视程度不断提升。...
安卓子系统安装方法 Windows 11 安卓子系统安装方法详解一、准备工作在开始安装安卓子系统之前,我们需要做一些准备...
安装系统怎么调出命令框,安装系... 安装系统时如何调出命令框Windows系统安装过程中调出命令框的方法在Windows系统的安装过程中...
奥迪车载系统安装,提升驾驶体验... 奥迪车载系统安装全攻略:提升驾驶体验的必备步骤随着汽车技术的不断发展,车载系统已经成为衡量一辆汽车智...
安装虚拟机系统报错,安装虚拟机... 安装虚拟机系统时常见报错及解决方法随着虚拟技术的不断发展,越来越多的用户选择使用虚拟机来运行不同的操...
斑马系统安装电脑,轻松实现车载... 斑马系统安装电脑教程:轻松实现车载娱乐升级一、准备工作在开始安装斑马系统之前,我们需要做好以下准备工...
安装与配置监控系统,CentO... CentOS 7.X 系统上安装与配置监控系统的详细教程随着信息化时代的到来,监控系统在保障系统稳定...
安装支付宝收银系统,如何安装支... 如何安装支付宝收银系统?——全面指南随着移动支付的普及,支付宝收银系统已成为众多商家提升支付效率和顾...
清洗系统插件怎么安装,清洗系统... 清洗系统插件安装指南随着计算机使用频率的增加,系统中的缓存、临时文件和垃圾数据会逐渐积累,影响计算机...
安卓adb安装系统,全面教程与... 安卓ADB安装系统:全面教程与注意事项随着智能手机的普及,Android系统因其开放性和可定制性而受...
安装系统怎么跳过检查,安装系统... 安装系统时如何跳过检查在安装操作系统时,系统往往会进行一系列的检查,以确保硬件和软件的兼容性。然而,...
安装系统中英文,Windows... Windows系统中英文安装指南随着全球化的推进,许多用户在安装操作系统时可能会遇到需要选择系统语言...
安卓迷你pc安装系统,安卓迷你... 安卓迷你PC安装系统的详细指南一、准备工作在开始安装系统之前,请确保您已准备好以下物品: 安卓迷你...
安装怎么定位系统的位置,车辆定... 车辆定位系统安装位置详解一、车辆定位系统的常见安装位置1. 前后保险杠内侧车辆定位系统可以安装在前后...
安装在硬盘上的linux系统怎... 安装硬盘上的Linux系统概述Linux系统因其开源、稳定、安全等特点,受到越来越多用户的喜爱。将L...
安装足浴洗浴系统,足浴洗浴系统... 足浴洗浴系统安装指南随着生活水平的提高,人们对健康养生的需求日益增长,足浴洗浴系统逐渐成为家庭和公共...
安装中兴系统的电脑,中兴新支点... 中兴新支点操作系统安装指南随着我国科技实力的不断提升,国产操作系统逐渐崭露头角。中兴新支点操作系统(...
安卓平板系统安装韩文,安卓平板... 安卓平板系统安装韩文教程一、准备工作在开始安装韩文系统之前,请确保您的安卓平板电脑满足以下条件: ...