Blame - kernel/events/core.c - SHIFTPHONES/mainline/linux

blob: ccf8d4fc6374e4563852f6e857d38a2f63eacd56 [file] [log] [blame]

Thomas Gleixner	8e86e01	2019-01-16 12:10:59 +0100	[diff] [blame]	1	// SPDX-License-Identifier: GPL-2.0
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2	/*
Ingo Molnar	57c0c15	2009-09-21 12:20:38 +0200	[diff] [blame]	3	* Performance events core code:
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4	*
				5	* Copyright (C) 2008 Thomas Gleixner <tglx@linutronix.de>
Ingo Molnar	e7e7ee2	2011-05-04 08:42:29 +0200	[diff] [blame]	6	* Copyright (C) 2008-2011 Red Hat, Inc., Ingo Molnar
Peter Zijlstra	90eec10	2015-11-16 11:08:45 +0100	[diff] [blame]	7	* Copyright (C) 2008-2011 Red Hat, Inc., Peter Zijlstra
Al Viro	d36b691	2011-12-29 17:09:01 -0500	[diff] [blame]	8	* Copyright © 2009 Paul Mackerras, IBM Corp. <paulus@au1.ibm.com>
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9	*/
				10
				11	#include <linux/fs.h>
				12	#include <linux/mm.h>
				13	#include <linux/cpu.h>
				14	#include <linux/smp.h>
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	15	#include <linux/idr.h>
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	16	#include <linux/file.h>
				17	#include <linux/poll.h>
Tejun Heo	5a0e3ad	2010-03-24 17:04:11 +0900	[diff] [blame]	18	#include <linux/slab.h>
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	19	#include <linux/hash.h>
Frederic Weisbecker	12351ef	2013-04-20 15:48:22 +0200	[diff] [blame]	20	#include <linux/tick.h>
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	21	#include <linux/sysfs.h>
				22	#include <linux/dcache.h>
				23	#include <linux/percpu.h>
				24	#include <linux/ptrace.h>
Peter Zijlstra	c277443	2010-12-08 15:29:02 +0100	[diff] [blame]	25	#include <linux/reboot.h>
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	26	#include <linux/vmstat.h>
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	27	#include <linux/device.h>
Paul Gortmaker	6e5fdee	2011-05-26 16:00:52 -0400	[diff] [blame]	28	#include <linux/export.h>
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	29	#include <linux/vmalloc.h>
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	30	#include <linux/hardirq.h>
				31	#include <linux/rculist.h>
				32	#include <linux/uaccess.h>
				33	#include <linux/syscalls.h>
				34	#include <linux/anon_inodes.h>
				35	#include <linux/kernel_stat.h>
Matt Fleming	39bed6c	2015-01-23 18:45:40 +0000	[diff] [blame]	36	#include <linux/cgroup.h>
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	37	#include <linux/perf_event.h>
Steven Rostedt (Red Hat)	af658dc	2015-04-29 14:36:05 -0400	[diff] [blame]	38	#include <linux/trace_events.h>
Jason Wessel	3c502e7	2010-11-04 17:33:01 -0500	[diff] [blame]	39	#include <linux/hw_breakpoint.h>
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	40	#include <linux/mm_types.h>
Yan, Zheng	c464c76	2014-03-18 16:56:41 +0800	[diff] [blame]	41	#include <linux/module.h>
Peter Zijlstra	f972eb6	2014-05-19 15:13:47 -0400	[diff] [blame]	42	#include <linux/mman.h>
Pawel Moll	b3f2078	2014-06-13 16:03:32 +0100	[diff] [blame]	43	#include <linux/compat.h>
Alexei Starovoitov	2541517	2015-03-25 12:49:20 -0700	[diff] [blame]	44	#include <linux/bpf.h>
				45	#include <linux/filter.h>
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	46	#include <linux/namei.h>
				47	#include <linux/parser.h>
Ingo Molnar	e601757	2017-02-01 16:36:40 +0100	[diff] [blame]	48	#include <linux/sched/clock.h>
Ingo Molnar	6e84f31	2017-02-08 18:51:29 +0100	[diff] [blame]	49	#include <linux/sched/mm.h>
Hari Bathini	e422267	2017-03-08 02:11:36 +0530	[diff] [blame]	50	#include <linux/proc_ns.h>
				51	#include <linux/mount.h>
Ian Rogers	6eef8a71	2020-02-13 23:51:30 -0800	[diff] [blame]	52	#include <linux/min_heap.h>
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	53
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	54	#include "internal.h"
				55
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	56	#include <asm/irq_regs.h>
				57
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	58	typedef int (remote_function_f)(void );
				59
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	60	struct remote_function_call {
Ingo Molnar	e7e7ee2	2011-05-04 08:42:29 +0200	[diff] [blame]	61	struct task_struct *p;
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	62	remote_function_f func;
Ingo Molnar	e7e7ee2	2011-05-04 08:42:29 +0200	[diff] [blame]	63	void *info;
				64	int ret;
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	65	};
				66
				67	static void remote_function(void *data)
				68	{
				69	struct remote_function_call *tfc = data;
				70	struct task_struct *p = tfc->p;
				71
				72	if (p) {
Peter Zijlstra	0da4cf3	2016-02-24 18:45:51 +0100	[diff] [blame]	73	/* -EAGAIN */
				74	if (task_cpu(p) != smp_processor_id())
				75	return;
				76
				77	/*
				78	* Now that we're on right CPU with IRQs disabled, we can test
				79	* if we hit the right task without races.
				80	*/
				81
				82	tfc->ret = -ESRCH; /* No such (running) process */
				83	if (p != current)
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	84	return;
				85	}
				86
				87	tfc->ret = tfc->func(tfc->info);
				88	}
				89
				90	/**
				91	* task_function_call - call a function on the cpu on which a task runs
				92	* @p: the task to evaluate
				93	* @func: the function to be called
				94	* @info: the function call argument
				95	*
				96	* Calls the function @func when the task is currently running. This might
				97	* be on the current CPU, which just calls the function directly
				98	*
				99	* returns: @func return value, or
				100	* -ESRCH - when the process isn't running
				101	* -EAGAIN - when the process moved away
				102	*/
				103	static int
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	104	task_function_call(struct task_struct p, remote_function_f func, void info)
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	105	{
				106	struct remote_function_call data = {
Ingo Molnar	e7e7ee2	2011-05-04 08:42:29 +0200	[diff] [blame]	107	.p = p,
				108	.func = func,
				109	.info = info,
Peter Zijlstra	0da4cf3	2016-02-24 18:45:51 +0100	[diff] [blame]	110	.ret = -EAGAIN,
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	111	};
Peter Zijlstra	0da4cf3	2016-02-24 18:45:51 +0100	[diff] [blame]	112	int ret;
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	113
Peter Zijlstra	0da4cf3	2016-02-24 18:45:51 +0100	[diff] [blame]	114	do {
				115	ret = smp_call_function_single(task_cpu(p), remote_function, &data, 1);
				116	if (!ret)
				117	ret = data.ret;
				118	} while (ret == -EAGAIN);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	119
Peter Zijlstra	0da4cf3	2016-02-24 18:45:51 +0100	[diff] [blame]	120	return ret;
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	121	}
				122
				123	/**
				124	* cpu_function_call - call a function on the cpu
				125	* @func: the function to be called
				126	* @info: the function call argument
				127	*
				128	* Calls the function @func on the remote cpu.
				129	*
				130	* returns: @func return value or -ENXIO when the cpu is offline
				131	*/
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	132	static int cpu_function_call(int cpu, remote_function_f func, void *info)
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	133	{
				134	struct remote_function_call data = {
Ingo Molnar	e7e7ee2	2011-05-04 08:42:29 +0200	[diff] [blame]	135	.p = NULL,
				136	.func = func,
				137	.info = info,
				138	.ret = -ENXIO, /* No such CPU */
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	139	};
				140
				141	smp_call_function_single(cpu, remote_function, &data, 1);
				142
				143	return data.ret;
				144	}
				145
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	146	static inline struct perf_cpu_context *
				147	__get_cpu_context(struct perf_event_context *ctx)
				148	{
				149	return this_cpu_ptr(ctx->pmu->pmu_cpu_context);
				150	}
				151
				152	static void perf_ctx_lock(struct perf_cpu_context *cpuctx,
				153	struct perf_event_context *ctx)
				154	{
				155	raw_spin_lock(&cpuctx->ctx.lock);
				156	if (ctx)
				157	raw_spin_lock(&ctx->lock);
				158	}
				159
				160	static void perf_ctx_unlock(struct perf_cpu_context *cpuctx,
				161	struct perf_event_context *ctx)
				162	{
				163	if (ctx)
				164	raw_spin_unlock(&ctx->lock);
				165	raw_spin_unlock(&cpuctx->ctx.lock);
				166	}
				167
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	168	#define TASK_TOMBSTONE ((void *)-1L)
				169
				170	static bool is_kernel_event(struct perf_event *event)
				171	{
Peter Zijlstra	f47c02c	2016-01-26 12:30:14 +0100	[diff] [blame]	172	return READ_ONCE(event->owner) == TASK_TOMBSTONE;
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	173	}
				174
Peter Zijlstra	39a4364	2016-01-11 12:46:35 +0100	[diff] [blame]	175	/*
				176	* On task ctx scheduling...
				177	*
				178	* When !ctx->nr_events a task context will not be scheduled. This means
				179	* we can disable the scheduler hooks (for performance) without leaving
				180	* pending task ctx state.
				181	*
				182	* This however results in two special cases:
				183	*
				184	* - removing the last event from a task ctx; this is relatively straight
				185	* forward and is done in __perf_remove_from_context.
				186	*
				187	* - adding the first event to a task ctx; this is tricky because we cannot
				188	* rely on ctx->is_active and therefore cannot use event_function_call().
				189	* See perf_install_in_context().
				190	*
Peter Zijlstra	39a4364	2016-01-11 12:46:35 +0100	[diff] [blame]	191	* If ctx->nr_events, then ctx->is_active and cpuctx->task_ctx are set.
				192	*/
				193
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	194	typedef void (event_f)(struct perf_event , struct perf_cpu_context *,
				195	struct perf_event_context , void );
				196
				197	struct event_function_struct {
				198	struct perf_event *event;
				199	event_f func;
				200	void *data;
				201	};
				202
				203	static int event_function(void *info)
				204	{
				205	struct event_function_struct *efs = info;
				206	struct perf_event *event = efs->event;
				207	struct perf_event_context *ctx = event->ctx;
				208	struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
				209	struct perf_event_context *task_ctx = cpuctx->task_ctx;
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	210	int ret = 0;
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	211
Frederic Weisbecker	1644464	2017-11-06 16:01:24 +0100	[diff] [blame]	212	lockdep_assert_irqs_disabled();
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	213
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	214	perf_ctx_lock(cpuctx, task_ctx);
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	215	/*
				216	* Since we do the IPI call without holding ctx->lock things can have
				217	* changed, double check we hit the task we set out to hit.
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	218	*/
				219	if (ctx->task) {
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	220	if (ctx->task != current) {
Peter Zijlstra	0da4cf3	2016-02-24 18:45:51 +0100	[diff] [blame]	221	ret = -ESRCH;
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	222	goto unlock;
				223	}
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	224
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	225	/*
				226	* We only use event_function_call() on established contexts,
				227	* and event_function() is only ever called when active (or
				228	* rather, we'll have bailed in task_function_call() or the
				229	* above ctx->task != current test), therefore we must have
				230	* ctx->is_active here.
				231	*/
				232	WARN_ON_ONCE(!ctx->is_active);
				233	/*
				234	* And since we have ctx->is_active, cpuctx->task_ctx must
				235	* match.
				236	*/
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	237	WARN_ON_ONCE(task_ctx != ctx);
				238	} else {
				239	WARN_ON_ONCE(&cpuctx->ctx != ctx);
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	240	}
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	241
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	242	efs->func(event, cpuctx, ctx, efs->data);
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	243	unlock:
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	244	perf_ctx_unlock(cpuctx, task_ctx);
				245
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	246	return ret;
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	247	}
				248
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	249	static void event_function_call(struct perf_event event, event_f func, void data)
Peter Zijlstra	0017960	2015-11-30 16:26:35 +0100	[diff] [blame]	250	{
				251	struct perf_event_context *ctx = event->ctx;
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	252	struct task_struct task = READ_ONCE(ctx->task); / verified in event_function */
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	253	struct event_function_struct efs = {
				254	.event = event,
				255	.func = func,
				256	.data = data,
				257	};
Peter Zijlstra	0017960	2015-11-30 16:26:35 +0100	[diff] [blame]	258
Peter Zijlstra	c97f473	2016-01-14 10:51:03 +0100	[diff] [blame]	259	if (!event->parent) {
				260	/*
				261	* If this is a !child event, we must hold ctx::mutex to
				262	* stabilize the the event->ctx relation. See
				263	* perf_event_ctx_lock().
				264	*/
				265	lockdep_assert_held(&ctx->mutex);
				266	}
Peter Zijlstra	0017960	2015-11-30 16:26:35 +0100	[diff] [blame]	267
				268	if (!task) {
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	269	cpu_function_call(event->cpu, event_function, &efs);
Peter Zijlstra	0017960	2015-11-30 16:26:35 +0100	[diff] [blame]	270	return;
				271	}
				272
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	273	if (task == TASK_TOMBSTONE)
				274	return;
				275
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	276	again:
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	277	if (!task_function_call(task, event_function, &efs))
Peter Zijlstra	0017960	2015-11-30 16:26:35 +0100	[diff] [blame]	278	return;
				279
				280	raw_spin_lock_irq(&ctx->lock);
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	281	/*
				282	* Reload the task pointer, it might have been changed by
				283	* a concurrent perf_event_context_sched_out().
				284	*/
				285	task = ctx->task;
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	286	if (task == TASK_TOMBSTONE) {
				287	raw_spin_unlock_irq(&ctx->lock);
				288	return;
Peter Zijlstra	0017960	2015-11-30 16:26:35 +0100	[diff] [blame]	289	}
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	290	if (ctx->is_active) {
				291	raw_spin_unlock_irq(&ctx->lock);
				292	goto again;
				293	}
				294	func(event, NULL, ctx, data);
Peter Zijlstra	0017960	2015-11-30 16:26:35 +0100	[diff] [blame]	295	raw_spin_unlock_irq(&ctx->lock);
				296	}
				297
Peter Zijlstra	cca2094	2016-08-16 13:33:26 +0200	[diff] [blame]	298	/*
				299	* Similar to event_function_call() + event_function(), but hard assumes IRQs
				300	* are already disabled and we're on the right CPU.
				301	*/
				302	static void event_function_local(struct perf_event event, event_f func, void data)
				303	{
				304	struct perf_event_context *ctx = event->ctx;
				305	struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
				306	struct task_struct *task = READ_ONCE(ctx->task);
				307	struct perf_event_context *task_ctx = NULL;
				308
Frederic Weisbecker	1644464	2017-11-06 16:01:24 +0100	[diff] [blame]	309	lockdep_assert_irqs_disabled();
Peter Zijlstra	cca2094	2016-08-16 13:33:26 +0200	[diff] [blame]	310
				311	if (task) {
				312	if (task == TASK_TOMBSTONE)
				313	return;
				314
				315	task_ctx = ctx;
				316	}
				317
				318	perf_ctx_lock(cpuctx, task_ctx);
				319
				320	task = ctx->task;
				321	if (task == TASK_TOMBSTONE)
				322	goto unlock;
				323
				324	if (task) {
				325	/*
				326	* We must be either inactive or active and the right task,
				327	* otherwise we're screwed, since we cannot IPI to somewhere
				328	* else.
				329	*/
				330	if (ctx->is_active) {
				331	if (WARN_ON_ONCE(task != current))
				332	goto unlock;
				333
				334	if (WARN_ON_ONCE(cpuctx->task_ctx != ctx))
				335	goto unlock;
				336	}
				337	} else {
				338	WARN_ON_ONCE(&cpuctx->ctx != ctx);
				339	}
				340
				341	func(event, cpuctx, ctx, data);
				342	unlock:
				343	perf_ctx_unlock(cpuctx, task_ctx);
				344	}
				345
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	346	#define PERF_FLAG_ALL (PERF_FLAG_FD_NO_GROUP \|\
				347	PERF_FLAG_FD_OUTPUT \|\
Yann Droneaud	a21b0b3	2014-01-05 21:36:33 +0100	[diff] [blame]	348	PERF_FLAG_PID_CGROUP \|\
				349	PERF_FLAG_FD_CLOEXEC)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	350
Stephane Eranian	bce38cd	2012-02-09 23:20:51 +0100	[diff] [blame]	351	/*
				352	* branch priv levels that need permission checks
				353	*/
				354	#define PERF_SAMPLE_BRANCH_PERM_PLM \
				355	(PERF_SAMPLE_BRANCH_KERNEL \|\
				356	PERF_SAMPLE_BRANCH_HV)
				357
Stephane Eranian	0b3fcf1	2011-01-03 18:20:01 +0200	[diff] [blame]	358	enum event_type_t {
				359	EVENT_FLEXIBLE = 0x1,
				360	EVENT_PINNED = 0x2,
Peter Zijlstra	3cbaa59	2016-02-24 18:45:47 +0100	[diff] [blame]	361	EVENT_TIME = 0x4,
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	362	/* see ctx_resched() for details */
				363	EVENT_CPU = 0x8,
Stephane Eranian	0b3fcf1	2011-01-03 18:20:01 +0200	[diff] [blame]	364	EVENT_ALL = EVENT_FLEXIBLE \| EVENT_PINNED,
				365	};
				366
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	367	/*
				368	* perf_sched_events : >0 events exist
				369	* perf_cgroup_events: >0 per-cpu cgroup events exist on this cpu
				370	*/
Peter Zijlstra	9107c89	2016-02-24 18:45:45 +0100	[diff] [blame]	371
				372	static void perf_sched_delayed(struct work_struct *work);
				373	DEFINE_STATIC_KEY_FALSE(perf_sched_events);
				374	static DECLARE_DELAYED_WORK(perf_sched_work, perf_sched_delayed);
				375	static DEFINE_MUTEX(perf_sched_mutex);
				376	static atomic_t perf_sched_count;
				377
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	378	static DEFINE_PER_CPU(atomic_t, perf_cgroup_events);
Yan, Zheng	ba53250	2014-11-04 21:55:58 -0500	[diff] [blame]	379	static DEFINE_PER_CPU(int, perf_sched_cb_usages);
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	380	static DEFINE_PER_CPU(struct pmu_event_list, pmu_sb_events);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	381
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	382	static atomic_t nr_mmap_events __read_mostly;
				383	static atomic_t nr_comm_events __read_mostly;
Hari Bathini	e422267	2017-03-08 02:11:36 +0530	[diff] [blame]	384	static atomic_t nr_namespaces_events __read_mostly;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	385	static atomic_t nr_task_events __read_mostly;
Frederic Weisbecker	948b26b	2013-08-02 18:29:55 +0200	[diff] [blame]	386	static atomic_t nr_freq_events __read_mostly;
Adrian Hunter	45ac140	2015-07-21 12:44:02 +0300	[diff] [blame]	387	static atomic_t nr_switch_events __read_mostly;
Song Liu	76193a9	2019-01-17 08:15:13 -0800	[diff] [blame]	388	static atomic_t nr_ksymbol_events __read_mostly;
Song Liu	6ee52e2	2019-01-17 08:15:15 -0800	[diff] [blame]	389	static atomic_t nr_bpf_events __read_mostly;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	390
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	391	static LIST_HEAD(pmus);
				392	static DEFINE_MUTEX(pmus_lock);
				393	static struct srcu_struct pmus_srcu;
Thomas Gleixner	a63fbed	2017-05-24 10:15:34 +0200	[diff] [blame]	394	static cpumask_var_t perf_online_mask;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	395
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	396	/*
				397	* perf event paranoia level:
				398	* -1 - not paranoid at all
				399	* 0 - disallow raw tracepoint access for unpriv
				400	* 1 - disallow cpu events for unpriv
				401	* 2 - disallow kernel profiling for unpriv
				402	*/
Andy Lutomirski	0161028	2016-05-09 15:48:51 -0700	[diff] [blame]	403	int sysctl_perf_event_paranoid __read_mostly = 2;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	404
Frederic Weisbecker	2044338	2011-03-31 03:33:29 +0200	[diff] [blame]	405	/* Minimum for 512 kiB + 1 user control page */
				406	int sysctl_perf_event_mlock __read_mostly = 512 + (PAGE_SIZE / 1024); /* 'free' kiB per user */
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	407
				408	/*
				409	* max perf event sample rate
				410	*/
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	411	#define DEFAULT_MAX_SAMPLE_RATE 100000
				412	#define DEFAULT_SAMPLE_PERIOD_NS (NSEC_PER_SEC / DEFAULT_MAX_SAMPLE_RATE)
				413	#define DEFAULT_CPU_TIME_MAX_PERCENT 25
				414
				415	int sysctl_perf_event_sample_rate __read_mostly = DEFAULT_MAX_SAMPLE_RATE;
				416
				417	static int max_samples_per_tick __read_mostly = DIV_ROUND_UP(DEFAULT_MAX_SAMPLE_RATE, HZ);
				418	static int perf_sample_period_ns __read_mostly = DEFAULT_SAMPLE_PERIOD_NS;
				419
Peter Zijlstra	d9494cb	2013-10-17 15:36:19 +0200	[diff] [blame]	420	static int perf_sample_allowed_ns __read_mostly =
				421	DEFAULT_SAMPLE_PERIOD_NS * DEFAULT_CPU_TIME_MAX_PERCENT / 100;
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	422
Geliang Tang	18ab2cd	2015-09-27 23:25:50 +0800	[diff] [blame]	423	static void update_perf_cpu_limits(void)
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	424	{
				425	u64 tmp = perf_sample_period_ns;
				426
				427	tmp *= sysctl_perf_cpu_time_max_percent;
Peter Zijlstra	91a612e	2016-03-17 15:17:35 +0100	[diff] [blame]	428	tmp = div_u64(tmp, 100);
				429	if (!tmp)
				430	tmp = 1;
				431
				432	WRITE_ONCE(perf_sample_allowed_ns, tmp);
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	433	}
Peter Zijlstra	163ec43	2011-02-16 11:22:34 +0100	[diff] [blame]	434
Peter Zijlstra	8d5bce0	2018-03-09 14:56:27 +0100	[diff] [blame]	435	static bool perf_rotate_context(struct perf_cpu_context *cpuctx);
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	436
Peter Zijlstra	163ec43	2011-02-16 11:22:34 +0100	[diff] [blame]	437	int perf_proc_update_handler(struct ctl_table *table, int write,
				438	void __user buffer, size_t lenp,
				439	loff_t *ppos)
				440	{
Stephane Eranian	1a51c5d	2019-01-10 17:17:16 -0800	[diff] [blame]	441	int ret;
				442	int perf_cpu = sysctl_perf_cpu_time_max_percent;
Kan Liang	ab7fdef	2016-05-03 00:26:06 -0700	[diff] [blame]	443	/*
				444	* If throttling is disabled don't allow the write:
				445	*/
Stephane Eranian	1a51c5d	2019-01-10 17:17:16 -0800	[diff] [blame]	446	if (write && (perf_cpu == 100 \|\| perf_cpu == 0))
Kan Liang	ab7fdef	2016-05-03 00:26:06 -0700	[diff] [blame]	447	return -EINVAL;
				448
Stephane Eranian	1a51c5d	2019-01-10 17:17:16 -0800	[diff] [blame]	449	ret = proc_dointvec_minmax(table, write, buffer, lenp, ppos);
				450	if (ret \|\| !write)
				451	return ret;
				452
Peter Zijlstra	163ec43	2011-02-16 11:22:34 +0100	[diff] [blame]	453	max_samples_per_tick = DIV_ROUND_UP(sysctl_perf_event_sample_rate, HZ);
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	454	perf_sample_period_ns = NSEC_PER_SEC / sysctl_perf_event_sample_rate;
				455	update_perf_cpu_limits();
Peter Zijlstra	163ec43	2011-02-16 11:22:34 +0100	[diff] [blame]	456
				457	return 0;
				458	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	459
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	460	int sysctl_perf_cpu_time_max_percent __read_mostly = DEFAULT_CPU_TIME_MAX_PERCENT;
				461
				462	int perf_cpu_time_max_percent_handler(struct ctl_table *table, int write,
				463	void __user buffer, size_t lenp,
				464	loff_t *ppos)
				465	{
Tan Xiaojun	1572e45	2017-02-23 14:04:39 +0800	[diff] [blame]	466	int ret = proc_dointvec_minmax(table, write, buffer, lenp, ppos);
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	467
				468	if (ret \|\| !write)
				469	return ret;
				470
Peter Zijlstra	b303e7c	2016-04-04 09:57:40 +0200	[diff] [blame]	471	if (sysctl_perf_cpu_time_max_percent == 100 \|\|
				472	sysctl_perf_cpu_time_max_percent == 0) {
Peter Zijlstra	91a612e	2016-03-17 15:17:35 +0100	[diff] [blame]	473	printk(KERN_WARNING
				474	"perf: Dynamic interrupt throttling disabled, can hang your system!\n");
				475	WRITE_ONCE(perf_sample_allowed_ns, 0);
				476	} else {
				477	update_perf_cpu_limits();
				478	}
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	479
				480	return 0;
				481	}
				482
				483	/*
				484	* perf samples are done in some very critical code paths (NMIs).
				485	* If they take too much CPU time, the system can lock up and not
				486	* get any real work done. This will drop the sample rate when
				487	* we detect that events are taking too long.
				488	*/
				489	#define NR_ACCUMULATED_SAMPLES 128
Peter Zijlstra	d9494cb	2013-10-17 15:36:19 +0200	[diff] [blame]	490	static DEFINE_PER_CPU(u64, running_sample_length);
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	491
Peter Zijlstra	91a612e	2016-03-17 15:17:35 +0100	[diff] [blame]	492	static u64 __report_avg;
				493	static u64 __report_allowed;
				494
Peter Zijlstra	6a02ad66	2014-02-03 18:11:08 +0100	[diff] [blame]	495	static void perf_duration_warn(struct irq_work *w)
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	496	{
David Ahern	0d87d7e	2016-08-01 13:49:29 -0700	[diff] [blame]	497	printk_ratelimited(KERN_INFO
Peter Zijlstra	91a612e	2016-03-17 15:17:35 +0100	[diff] [blame]	498	"perf: interrupt took too long (%lld > %lld), lowering "
				499	"kernel.perf_event_max_sample_rate to %d\n",
				500	__report_avg, __report_allowed,
				501	sysctl_perf_event_sample_rate);
Peter Zijlstra	6a02ad66	2014-02-03 18:11:08 +0100	[diff] [blame]	502	}
				503
				504	static DEFINE_IRQ_WORK(perf_duration_work, perf_duration_warn);
				505
				506	void perf_sample_event_took(u64 sample_len_ns)
				507	{
Peter Zijlstra	91a612e	2016-03-17 15:17:35 +0100	[diff] [blame]	508	u64 max_len = READ_ONCE(perf_sample_allowed_ns);
				509	u64 running_len;
				510	u64 avg_len;
				511	u32 max;
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	512
Peter Zijlstra	91a612e	2016-03-17 15:17:35 +0100	[diff] [blame]	513	if (max_len == 0)
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	514	return;
				515
Peter Zijlstra	91a612e	2016-03-17 15:17:35 +0100	[diff] [blame]	516	/* Decay the counter by 1 average sample. */
				517	running_len = __this_cpu_read(running_sample_length);
				518	running_len -= running_len/NR_ACCUMULATED_SAMPLES;
				519	running_len += sample_len_ns;
				520	__this_cpu_write(running_sample_length, running_len);
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	521
				522	/*
Peter Zijlstra	91a612e	2016-03-17 15:17:35 +0100	[diff] [blame]	523	* Note: this will be biased artifically low until we have
				524	* seen NR_ACCUMULATED_SAMPLES. Doing it this way keeps us
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	525	* from having to maintain a count.
				526	*/
Peter Zijlstra	91a612e	2016-03-17 15:17:35 +0100	[diff] [blame]	527	avg_len = running_len/NR_ACCUMULATED_SAMPLES;
				528	if (avg_len <= max_len)
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	529	return;
				530
Peter Zijlstra	91a612e	2016-03-17 15:17:35 +0100	[diff] [blame]	531	__report_avg = avg_len;
				532	__report_allowed = max_len;
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	533
Peter Zijlstra	91a612e	2016-03-17 15:17:35 +0100	[diff] [blame]	534	/*
				535	* Compute a throttle threshold 25% below the current duration.
				536	*/
				537	avg_len += avg_len / 4;
				538	max = (TICK_NSEC / 100) * sysctl_perf_cpu_time_max_percent;
				539	if (avg_len < max)
				540	max /= (u32)avg_len;
				541	else
				542	max = 1;
				543
				544	WRITE_ONCE(perf_sample_allowed_ns, avg_len);
				545	WRITE_ONCE(max_samples_per_tick, max);
				546
				547	sysctl_perf_event_sample_rate = max * HZ;
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	548	perf_sample_period_ns = NSEC_PER_SEC / sysctl_perf_event_sample_rate;
				549
Peter Zijlstra	cd578ab	2014-02-11 16:01:16 +0100	[diff] [blame]	550	if (!irq_work_queue(&perf_duration_work)) {
Peter Zijlstra	91a612e	2016-03-17 15:17:35 +0100	[diff] [blame]	551	early_printk("perf: interrupt took too long (%lld > %lld), lowering "
Peter Zijlstra	cd578ab	2014-02-11 16:01:16 +0100	[diff] [blame]	552	"kernel.perf_event_max_sample_rate to %d\n",
Peter Zijlstra	91a612e	2016-03-17 15:17:35 +0100	[diff] [blame]	553	__report_avg, __report_allowed,
Peter Zijlstra	cd578ab	2014-02-11 16:01:16 +0100	[diff] [blame]	554	sysctl_perf_event_sample_rate);
				555	}
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	556	}
				557
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	558	static atomic64_t perf_event_id;
				559
Stephane Eranian	0b3fcf1	2011-01-03 18:20:01 +0200	[diff] [blame]	560	static void cpu_ctx_sched_out(struct perf_cpu_context *cpuctx,
				561	enum event_type_t event_type);
				562
				563	static void cpu_ctx_sched_in(struct perf_cpu_context *cpuctx,
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	564	enum event_type_t event_type,
				565	struct task_struct *task);
				566
				567	static void update_context_time(struct perf_event_context *ctx);
				568	static u64 perf_event_time(struct perf_event *event);
Stephane Eranian	0b3fcf1	2011-01-03 18:20:01 +0200	[diff] [blame]	569
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	570	void __weak perf_event_print_debug(void) { }
				571
Matt Fleming	84c7991	2010-10-03 21:41:13 +0100	[diff] [blame]	572	extern __weak const char *perf_pmu_name(void)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	573	{
Matt Fleming	84c7991	2010-10-03 21:41:13 +0100	[diff] [blame]	574	return "pmu";
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	575	}
				576
Stephane Eranian	0b3fcf1	2011-01-03 18:20:01 +0200	[diff] [blame]	577	static inline u64 perf_clock(void)
				578	{
				579	return local_clock();
				580	}
				581
Peter Zijlstra	34f4392	2015-02-20 14:05:38 +0100	[diff] [blame]	582	static inline u64 perf_event_clock(struct perf_event *event)
				583	{
				584	return event->clock();
				585	}
				586
Peter Zijlstra	0d3d73a	2017-09-05 14:16:28 +0200	[diff] [blame]	587	/*
				588	* State based event timekeeping...
				589	*
				590	* The basic idea is to use event->state to determine which (if any) time
				591	* fields to increment with the current delta. This means we only need to
				592	* update timestamps when we change state or when they are explicitly requested
				593	* (read).
				594	*
				595	* Event groups make things a little more complicated, but not terribly so. The
				596	* rules for a group are that if the group leader is OFF the entire group is
				597	* OFF, irrespecive of what the group member states are. This results in
				598	* __perf_effective_state().
				599	*
				600	* A futher ramification is that when a group leader flips between OFF and
				601	* !OFF, we need to update all group member times.
				602	*
				603	*
				604	* NOTE: perf_event_time() is based on the (cgroup) context time, and thus we
				605	* need to make sure the relevant context time is updated before we try and
				606	* update our timestamps.
				607	*/
				608
				609	static __always_inline enum perf_event_state
				610	__perf_effective_state(struct perf_event *event)
				611	{
				612	struct perf_event *leader = event->group_leader;
				613
				614	if (leader->state <= PERF_EVENT_STATE_OFF)
				615	return leader->state;
				616
				617	return event->state;
				618	}
				619
				620	static __always_inline void
				621	__perf_update_times(struct perf_event event, u64 now, u64 enabled, u64 *running)
				622	{
				623	enum perf_event_state state = __perf_effective_state(event);
				624	u64 delta = now - event->tstamp;
				625
				626	*enabled = event->total_time_enabled;
				627	if (state >= PERF_EVENT_STATE_INACTIVE)
				628	*enabled += delta;
				629
				630	*running = event->total_time_running;
				631	if (state >= PERF_EVENT_STATE_ACTIVE)
				632	*running += delta;
				633	}
				634
				635	static void perf_event_update_time(struct perf_event *event)
				636	{
				637	u64 now = perf_event_time(event);
				638
				639	__perf_update_times(event, now, &event->total_time_enabled,
				640	&event->total_time_running);
				641	event->tstamp = now;
				642	}
				643
				644	static void perf_event_update_sibling_time(struct perf_event *leader)
				645	{
				646	struct perf_event *sibling;
				647
Peter Zijlstra	edb3959	2018-03-15 17:36:56 +0100	[diff] [blame]	648	for_each_sibling_event(sibling, leader)
Peter Zijlstra	0d3d73a	2017-09-05 14:16:28 +0200	[diff] [blame]	649	perf_event_update_time(sibling);
				650	}
				651
				652	static void
				653	perf_event_set_state(struct perf_event *event, enum perf_event_state state)
				654	{
				655	if (event->state == state)
				656	return;
				657
				658	perf_event_update_time(event);
				659	/*
				660	* If a group leader gets enabled/disabled all its siblings
				661	* are affected too.
				662	*/
				663	if ((event->state < 0) ^ (state < 0))
				664	perf_event_update_sibling_time(event);
				665
				666	WRITE_ONCE(event->state, state);
				667	}
				668
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	669	#ifdef CONFIG_CGROUP_PERF
				670
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	671	static inline bool
				672	perf_cgroup_match(struct perf_event *event)
				673	{
				674	struct perf_event_context *ctx = event->ctx;
				675	struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
				676
Tejun Heo	ef824fa	2013-04-08 19:00:38 -0700	[diff] [blame]	677	/* @event doesn't care about cgroup */
				678	if (!event->cgrp)
				679	return true;
				680
				681	/* wants specific cgroup scope but @cpuctx isn't associated with any */
				682	if (!cpuctx->cgrp)
				683	return false;
				684
				685	/*
				686	* Cgroup scoping is recursive. An event enabled for a cgroup is
				687	* also enabled for all its descendant cgroups. If @cpuctx's
				688	* cgroup is a descendant of @event's (the test covers identity
				689	* case), it's a match.
				690	*/
				691	return cgroup_is_descendant(cpuctx->cgrp->css.cgroup,
				692	event->cgrp->css.cgroup);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	693	}
				694
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	695	static inline void perf_detach_cgroup(struct perf_event *event)
				696	{
Zefan Li	4e2ba65	2014-09-19 16:53:14 +0800	[diff] [blame]	697	css_put(&event->cgrp->css);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	698	event->cgrp = NULL;
				699	}
				700
				701	static inline int is_cgroup_event(struct perf_event *event)
				702	{
				703	return event->cgrp != NULL;
				704	}
				705
				706	static inline u64 perf_cgroup_event_time(struct perf_event *event)
				707	{
				708	struct perf_cgroup_info *t;
				709
				710	t = per_cpu_ptr(event->cgrp->info, event->cpu);
				711	return t->time;
				712	}
				713
				714	static inline void __update_cgrp_time(struct perf_cgroup *cgrp)
				715	{
				716	struct perf_cgroup_info *info;
				717	u64 now;
				718
				719	now = perf_clock();
				720
				721	info = this_cpu_ptr(cgrp->info);
				722
				723	info->time += now - info->timestamp;
				724	info->timestamp = now;
				725	}
				726
				727	static inline void update_cgrp_time_from_cpuctx(struct perf_cpu_context *cpuctx)
				728	{
Song Liu	c917e0f2	2018-03-12 09:59:43 -0700	[diff] [blame]	729	struct perf_cgroup *cgrp = cpuctx->cgrp;
				730	struct cgroup_subsys_state *css;
				731
				732	if (cgrp) {
				733	for (css = &cgrp->css; css; css = css->parent) {
				734	cgrp = container_of(css, struct perf_cgroup, css);
				735	__update_cgrp_time(cgrp);
				736	}
				737	}
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	738	}
				739
				740	static inline void update_cgrp_time_from_event(struct perf_event *event)
				741	{
Stephane Eranian	3f7cce3	2011-02-18 14:40:01 +0200	[diff] [blame]	742	struct perf_cgroup *cgrp;
				743
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	744	/*
Stephane Eranian	3f7cce3	2011-02-18 14:40:01 +0200	[diff] [blame]	745	* ensure we access cgroup data only when needed and
				746	* when we know the cgroup is pinned (css_get)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	747	*/
Stephane Eranian	3f7cce3	2011-02-18 14:40:01 +0200	[diff] [blame]	748	if (!is_cgroup_event(event))
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	749	return;
				750
Stephane Eranian	614e4c4	2015-11-12 11:00:04 +0100	[diff] [blame]	751	cgrp = perf_cgroup_from_task(current, event->ctx);
Stephane Eranian	3f7cce3	2011-02-18 14:40:01 +0200	[diff] [blame]	752	/*
				753	* Do not update time when cgroup is not active
				754	*/
Colin Ian King	28fa741	2018-10-29 23:32:11 +0000	[diff] [blame]	755	if (cgroup_is_descendant(cgrp->css.cgroup, event->cgrp->css.cgroup))
Stephane Eranian	3f7cce3	2011-02-18 14:40:01 +0200	[diff] [blame]	756	__update_cgrp_time(event->cgrp);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	757	}
				758
				759	static inline void
Stephane Eranian	3f7cce3	2011-02-18 14:40:01 +0200	[diff] [blame]	760	perf_cgroup_set_timestamp(struct task_struct *task,
				761	struct perf_event_context *ctx)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	762	{
				763	struct perf_cgroup *cgrp;
				764	struct perf_cgroup_info *info;
Song Liu	c917e0f2	2018-03-12 09:59:43 -0700	[diff] [blame]	765	struct cgroup_subsys_state *css;
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	766
Stephane Eranian	3f7cce3	2011-02-18 14:40:01 +0200	[diff] [blame]	767	/*
				768	* ctx->lock held by caller
				769	* ensure we do not access cgroup data
				770	* unless we have the cgroup pinned (css_get)
				771	*/
				772	if (!task \|\| !ctx->nr_cgroups)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	773	return;
				774
Stephane Eranian	614e4c4	2015-11-12 11:00:04 +0100	[diff] [blame]	775	cgrp = perf_cgroup_from_task(task, ctx);
Song Liu	c917e0f2	2018-03-12 09:59:43 -0700	[diff] [blame]	776
				777	for (css = &cgrp->css; css; css = css->parent) {
				778	cgrp = container_of(css, struct perf_cgroup, css);
				779	info = this_cpu_ptr(cgrp->info);
				780	info->timestamp = ctx->timestamp;
				781	}
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	782	}
				783
David Carrillo-Cisneros	058fe1c	2017-01-18 11:24:53 -0800	[diff] [blame]	784	static DEFINE_PER_CPU(struct list_head, cgrp_cpuctx_list);
				785
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	786	#define PERF_CGROUP_SWOUT 0x1 /* cgroup switch out every event */
				787	#define PERF_CGROUP_SWIN 0x2 /* cgroup switch in events based on task */
				788
				789	/*
				790	* reschedule events based on the cgroup constraint of task.
				791	*
				792	* mode SWOUT : schedule out everything
				793	* mode SWIN : schedule in based on cgroup for next
				794	*/
Geliang Tang	18ab2cd	2015-09-27 23:25:50 +0800	[diff] [blame]	795	static void perf_cgroup_switch(struct task_struct *task, int mode)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	796	{
				797	struct perf_cpu_context *cpuctx;
David Carrillo-Cisneros	058fe1c	2017-01-18 11:24:53 -0800	[diff] [blame]	798	struct list_head *list;
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	799	unsigned long flags;
				800
				801	/*
David Carrillo-Cisneros	058fe1c	2017-01-18 11:24:53 -0800	[diff] [blame]	802	* Disable interrupts and preemption to avoid this CPU's
				803	* cgrp_cpuctx_entry to change under us.
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	804	*/
				805	local_irq_save(flags);
				806
David Carrillo-Cisneros	058fe1c	2017-01-18 11:24:53 -0800	[diff] [blame]	807	list = this_cpu_ptr(&cgrp_cpuctx_list);
				808	list_for_each_entry(cpuctx, list, cgrp_cpuctx_entry) {
				809	WARN_ON_ONCE(cpuctx->ctx.nr_cgroups == 0);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	810
David Carrillo-Cisneros	058fe1c	2017-01-18 11:24:53 -0800	[diff] [blame]	811	perf_ctx_lock(cpuctx, cpuctx->task_ctx);
				812	perf_pmu_disable(cpuctx->ctx.pmu);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	813
David Carrillo-Cisneros	058fe1c	2017-01-18 11:24:53 -0800	[diff] [blame]	814	if (mode & PERF_CGROUP_SWOUT) {
				815	cpu_ctx_sched_out(cpuctx, EVENT_ALL);
				816	/*
				817	* must not be done before ctxswout due
				818	* to event_filter_match() in event_sched_out()
				819	*/
				820	cpuctx->cgrp = NULL;
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	821	}
David Carrillo-Cisneros	058fe1c	2017-01-18 11:24:53 -0800	[diff] [blame]	822
				823	if (mode & PERF_CGROUP_SWIN) {
				824	WARN_ON_ONCE(cpuctx->cgrp);
				825	/*
				826	* set cgrp before ctxsw in to allow
				827	* event_filter_match() to not have to pass
				828	* task around
				829	* we pass the cpuctx->ctx to perf_cgroup_from_task()
				830	* because cgorup events are only per-cpu
				831	*/
				832	cpuctx->cgrp = perf_cgroup_from_task(task,
				833	&cpuctx->ctx);
				834	cpu_ctx_sched_in(cpuctx, EVENT_ALL, task);
				835	}
				836	perf_pmu_enable(cpuctx->ctx.pmu);
				837	perf_ctx_unlock(cpuctx, cpuctx->task_ctx);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	838	}
				839
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	840	local_irq_restore(flags);
				841	}
				842
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	843	static inline void perf_cgroup_sched_out(struct task_struct *task,
				844	struct task_struct *next)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	845	{
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	846	struct perf_cgroup *cgrp1;
				847	struct perf_cgroup *cgrp2 = NULL;
				848
Stephane Eranian	ddaaf4e	2015-11-12 11:00:03 +0100	[diff] [blame]	849	rcu_read_lock();
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	850	/*
				851	* we come here when we know perf_cgroup_events > 0
Stephane Eranian	614e4c4	2015-11-12 11:00:04 +0100	[diff] [blame]	852	* we do not need to pass the ctx here because we know
				853	* we are holding the rcu lock
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	854	*/
Stephane Eranian	614e4c4	2015-11-12 11:00:04 +0100	[diff] [blame]	855	cgrp1 = perf_cgroup_from_task(task, NULL);
Peter Zijlstra	70a0165	2016-01-08 09:29:16 +0100	[diff] [blame]	856	cgrp2 = perf_cgroup_from_task(next, NULL);
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	857
				858	/*
				859	* only schedule out current cgroup events if we know
				860	* that we are switching to a different cgroup. Otherwise,
				861	* do no touch the cgroup events.
				862	*/
				863	if (cgrp1 != cgrp2)
				864	perf_cgroup_switch(task, PERF_CGROUP_SWOUT);
Stephane Eranian	ddaaf4e	2015-11-12 11:00:03 +0100	[diff] [blame]	865
				866	rcu_read_unlock();
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	867	}
				868
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	869	static inline void perf_cgroup_sched_in(struct task_struct *prev,
				870	struct task_struct *task)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	871	{
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	872	struct perf_cgroup *cgrp1;
				873	struct perf_cgroup *cgrp2 = NULL;
				874
Stephane Eranian	ddaaf4e	2015-11-12 11:00:03 +0100	[diff] [blame]	875	rcu_read_lock();
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	876	/*
				877	* we come here when we know perf_cgroup_events > 0
Stephane Eranian	614e4c4	2015-11-12 11:00:04 +0100	[diff] [blame]	878	* we do not need to pass the ctx here because we know
				879	* we are holding the rcu lock
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	880	*/
Stephane Eranian	614e4c4	2015-11-12 11:00:04 +0100	[diff] [blame]	881	cgrp1 = perf_cgroup_from_task(task, NULL);
Stephane Eranian	614e4c4	2015-11-12 11:00:04 +0100	[diff] [blame]	882	cgrp2 = perf_cgroup_from_task(prev, NULL);
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	883
				884	/*
				885	* only need to schedule in cgroup events if we are changing
				886	* cgroup during ctxsw. Cgroup events were not scheduled
				887	* out of ctxsw out if that was not the case.
				888	*/
				889	if (cgrp1 != cgrp2)
				890	perf_cgroup_switch(task, PERF_CGROUP_SWIN);
Stephane Eranian	ddaaf4e	2015-11-12 11:00:03 +0100	[diff] [blame]	891
				892	rcu_read_unlock();
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	893	}
				894
Ian Rogers	c2283c9	2020-02-13 23:51:32 -0800	[diff] [blame]	895	static int perf_cgroup_ensure_storage(struct perf_event *event,
				896	struct cgroup_subsys_state *css)
				897	{
				898	struct perf_cpu_context *cpuctx;
				899	struct perf_event **storage;
				900	int cpu, heap_size, ret = 0;
				901
				902	/*
				903	* Allow storage to have sufficent space for an iterator for each
				904	* possibly nested cgroup plus an iterator for events with no cgroup.
				905	*/
				906	for (heap_size = 1; css; css = css->parent)
				907	heap_size++;
				908
				909	for_each_possible_cpu(cpu) {
				910	cpuctx = per_cpu_ptr(event->pmu->pmu_cpu_context, cpu);
				911	if (heap_size <= cpuctx->heap_size)
				912	continue;
				913
				914	storage = kmalloc_node(heap_size * sizeof(struct perf_event *),
				915	GFP_KERNEL, cpu_to_node(cpu));
				916	if (!storage) {
				917	ret = -ENOMEM;
				918	break;
				919	}
				920
				921	raw_spin_lock_irq(&cpuctx->ctx.lock);
				922	if (cpuctx->heap_size < heap_size) {
				923	swap(cpuctx->heap, storage);
				924	if (storage == cpuctx->heap_default)
				925	storage = NULL;
				926	cpuctx->heap_size = heap_size;
				927	}
				928	raw_spin_unlock_irq(&cpuctx->ctx.lock);
				929
				930	kfree(storage);
				931	}
				932
				933	return ret;
				934	}
				935
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	936	static inline int perf_cgroup_connect(int fd, struct perf_event *event,
				937	struct perf_event_attr *attr,
				938	struct perf_event *group_leader)
				939	{
				940	struct perf_cgroup *cgrp;
				941	struct cgroup_subsys_state *css;
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	942	struct fd f = fdget(fd);
				943	int ret = 0;
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	944
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	945	if (!f.file)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	946	return -EBADF;
				947
Al Viro	b583043	2014-10-31 01:22:04 -0400	[diff] [blame]	948	css = css_tryget_online_from_dir(f.file->f_path.dentry,
Tejun Heo	ec903c0	2014-05-13 12:11:01 -0400	[diff] [blame]	949	&perf_event_cgrp_subsys);
Li Zefan	3db272c	2011-03-03 14:25:37 +0800	[diff] [blame]	950	if (IS_ERR(css)) {
				951	ret = PTR_ERR(css);
				952	goto out;
				953	}
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	954
Ian Rogers	c2283c9	2020-02-13 23:51:32 -0800	[diff] [blame]	955	ret = perf_cgroup_ensure_storage(event, css);
				956	if (ret)
				957	goto out;
				958
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	959	cgrp = container_of(css, struct perf_cgroup, css);
				960	event->cgrp = cgrp;
				961
				962	/*
				963	* all events in a group must monitor
				964	* the same cgroup because a task belongs
				965	* to only one perf cgroup at a time
				966	*/
				967	if (group_leader && group_leader->cgrp != cgrp) {
				968	perf_detach_cgroup(event);
				969	ret = -EINVAL;
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	970	}
Li Zefan	3db272c	2011-03-03 14:25:37 +0800	[diff] [blame]	971	out:
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	972	fdput(f);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	973	return ret;
				974	}
				975
				976	static inline void
				977	perf_cgroup_set_shadow_time(struct perf_event *event, u64 now)
				978	{
				979	struct perf_cgroup_info *t;
				980	t = per_cpu_ptr(event->cgrp->info, event->cpu);
				981	event->shadow_ctx_time = now - t->timestamp;
				982	}
				983
David Carrillo-Cisneros	db4a835	2016-08-02 00:48:12 -0700	[diff] [blame]	984	/*
				985	* Update cpuctx->cgrp so that it is set when first cgroup event is added and
				986	* cleared when last cgroup event is removed.
				987	*/
				988	static inline void
				989	list_update_cgroup_event(struct perf_event *event,
				990	struct perf_event_context *ctx, bool add)
				991	{
				992	struct perf_cpu_context *cpuctx;
David Carrillo-Cisneros	058fe1c	2017-01-18 11:24:53 -0800	[diff] [blame]	993	struct list_head *cpuctx_entry;
David Carrillo-Cisneros	db4a835	2016-08-02 00:48:12 -0700	[diff] [blame]	994
				995	if (!is_cgroup_event(event))
				996	return;
				997
David Carrillo-Cisneros	db4a835	2016-08-02 00:48:12 -0700	[diff] [blame]	998	/*
				999	* Because cgroup events are always per-cpu events,
Song Liu	07c5972	2020-01-22 11:50:27 -0800	[diff] [blame]	1000	* @ctx == &cpuctx->ctx.
David Carrillo-Cisneros	db4a835	2016-08-02 00:48:12 -0700	[diff] [blame]	1001	*/
Song Liu	07c5972	2020-01-22 11:50:27 -0800	[diff] [blame]	1002	cpuctx = container_of(ctx, struct perf_cpu_context, ctx);
leilei.lin	33801b9	2018-03-06 17:36:37 +0800	[diff] [blame]	1003
				1004	/*
				1005	* Since setting cpuctx->cgrp is conditional on the current @cgrp
				1006	* matching the event's cgroup, we must do this for every new event,
				1007	* because if the first would mismatch, the second would not try again
				1008	* and we would leave cpuctx->cgrp unset.
				1009	*/
				1010	if (add && !cpuctx->cgrp) {
Tejun Heo	be96b31	2017-10-28 09:49:37 -0700	[diff] [blame]	1011	struct perf_cgroup *cgrp = perf_cgroup_from_task(current, ctx);
				1012
Tejun Heo	be96b31	2017-10-28 09:49:37 -0700	[diff] [blame]	1013	if (cgroup_is_descendant(cgrp->css.cgroup, event->cgrp->css.cgroup))
				1014	cpuctx->cgrp = cgrp;
David Carrillo-Cisneros	058fe1c	2017-01-18 11:24:53 -0800	[diff] [blame]	1015	}
leilei.lin	33801b9	2018-03-06 17:36:37 +0800	[diff] [blame]	1016
				1017	if (add && ctx->nr_cgroups++)
				1018	return;
				1019	else if (!add && --ctx->nr_cgroups)
				1020	return;
				1021
				1022	/* no cgroup running */
				1023	if (!add)
				1024	cpuctx->cgrp = NULL;
				1025
				1026	cpuctx_entry = &cpuctx->cgrp_cpuctx_entry;
				1027	if (add)
Song Liu	07c5972	2020-01-22 11:50:27 -0800	[diff] [blame]	1028	list_add(cpuctx_entry,
				1029	per_cpu_ptr(&cgrp_cpuctx_list, event->cpu));
leilei.lin	33801b9	2018-03-06 17:36:37 +0800	[diff] [blame]	1030	else
				1031	list_del(cpuctx_entry);
David Carrillo-Cisneros	db4a835	2016-08-02 00:48:12 -0700	[diff] [blame]	1032	}
				1033
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1034	#else /* !CONFIG_CGROUP_PERF */
				1035
				1036	static inline bool
				1037	perf_cgroup_match(struct perf_event *event)
				1038	{
				1039	return true;
				1040	}
				1041
				1042	static inline void perf_detach_cgroup(struct perf_event *event)
				1043	{}
				1044
				1045	static inline int is_cgroup_event(struct perf_event *event)
				1046	{
				1047	return 0;
				1048	}
				1049
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1050	static inline void update_cgrp_time_from_event(struct perf_event *event)
				1051	{
				1052	}
				1053
				1054	static inline void update_cgrp_time_from_cpuctx(struct perf_cpu_context *cpuctx)
				1055	{
				1056	}
				1057
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	1058	static inline void perf_cgroup_sched_out(struct task_struct *task,
				1059	struct task_struct *next)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1060	{
				1061	}
				1062
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	1063	static inline void perf_cgroup_sched_in(struct task_struct *prev,
				1064	struct task_struct *task)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1065	{
				1066	}
				1067
				1068	static inline int perf_cgroup_connect(pid_t pid, struct perf_event *event,
				1069	struct perf_event_attr *attr,
				1070	struct perf_event *group_leader)
				1071	{
				1072	return -EINVAL;
				1073	}
				1074
				1075	static inline void
Stephane Eranian	3f7cce3	2011-02-18 14:40:01 +0200	[diff] [blame]	1076	perf_cgroup_set_timestamp(struct task_struct *task,
				1077	struct perf_event_context *ctx)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1078	{
				1079	}
				1080
Ben Dooks (Codethink)	d00dbd29	2019-11-06 13:25:27 +0000	[diff] [blame]	1081	static inline void
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1082	perf_cgroup_switch(struct task_struct task, struct task_struct next)
				1083	{
				1084	}
				1085
				1086	static inline void
				1087	perf_cgroup_set_shadow_time(struct perf_event *event, u64 now)
				1088	{
				1089	}
				1090
				1091	static inline u64 perf_cgroup_event_time(struct perf_event *event)
				1092	{
				1093	return 0;
				1094	}
				1095
				1096	static inline void
David Carrillo-Cisneros	db4a835	2016-08-02 00:48:12 -0700	[diff] [blame]	1097	list_update_cgroup_event(struct perf_event *event,
				1098	struct perf_event_context *ctx, bool add)
				1099	{
				1100	}
				1101
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1102	#endif
				1103
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1104	/*
				1105	* set default to be dependent on timer tick just
				1106	* like original code
				1107	*/
				1108	#define PERF_CPU_HRTIMER (1000 / HZ)
				1109	/*
Masahiro Yamada	8a1115f	2017-03-09 16:16:31 -0800	[diff] [blame]	1110	* function must be called with interrupts disabled
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1111	*/
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	1112	static enum hrtimer_restart perf_mux_hrtimer_handler(struct hrtimer *hr)
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1113	{
				1114	struct perf_cpu_context *cpuctx;
Peter Zijlstra	8d5bce0	2018-03-09 14:56:27 +0100	[diff] [blame]	1115	bool rotations;
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1116
Frederic Weisbecker	1644464	2017-11-06 16:01:24 +0100	[diff] [blame]	1117	lockdep_assert_irqs_disabled();
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1118
				1119	cpuctx = container_of(hr, struct perf_cpu_context, hrtimer);
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1120	rotations = perf_rotate_context(cpuctx);
				1121
Peter Zijlstra	4cfafd3	2015-05-14 12:23:11 +0200	[diff] [blame]	1122	raw_spin_lock(&cpuctx->hrtimer_lock);
				1123	if (rotations)
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1124	hrtimer_forward_now(hr, cpuctx->hrtimer_interval);
Peter Zijlstra	4cfafd3	2015-05-14 12:23:11 +0200	[diff] [blame]	1125	else
				1126	cpuctx->hrtimer_active = 0;
				1127	raw_spin_unlock(&cpuctx->hrtimer_lock);
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1128
Peter Zijlstra	4cfafd3	2015-05-14 12:23:11 +0200	[diff] [blame]	1129	return rotations ? HRTIMER_RESTART : HRTIMER_NORESTART;
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1130	}
				1131
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	1132	static void __perf_mux_hrtimer_init(struct perf_cpu_context *cpuctx, int cpu)
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1133	{
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	1134	struct hrtimer *timer = &cpuctx->hrtimer;
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1135	struct pmu *pmu = cpuctx->ctx.pmu;
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	1136	u64 interval;
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1137
				1138	/* no multiplexing needed for SW PMU */
				1139	if (pmu->task_ctx_nr == perf_sw_context)
				1140	return;
				1141
Stephane Eranian	62b8563	2013-04-03 14:21:34 +0200	[diff] [blame]	1142	/*
				1143	* check default is sane, if not set then force to
				1144	* default interval (1/tick)
				1145	*/
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	1146	interval = pmu->hrtimer_interval_ms;
				1147	if (interval < 1)
				1148	interval = pmu->hrtimer_interval_ms = PERF_CPU_HRTIMER;
Stephane Eranian	62b8563	2013-04-03 14:21:34 +0200	[diff] [blame]	1149
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	1150	cpuctx->hrtimer_interval = ns_to_ktime(NSEC_PER_MSEC * interval);
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1151
Peter Zijlstra	4cfafd3	2015-05-14 12:23:11 +0200	[diff] [blame]	1152	raw_spin_lock_init(&cpuctx->hrtimer_lock);
Sebastian Andrzej Siewior	30f9028	2019-07-26 20:30:53 +0200	[diff] [blame]	1153	hrtimer_init(timer, CLOCK_MONOTONIC, HRTIMER_MODE_ABS_PINNED_HARD);
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	1154	timer->function = perf_mux_hrtimer_handler;
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1155	}
				1156
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	1157	static int perf_mux_hrtimer_restart(struct perf_cpu_context *cpuctx)
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1158	{
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	1159	struct hrtimer *timer = &cpuctx->hrtimer;
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1160	struct pmu *pmu = cpuctx->ctx.pmu;
Peter Zijlstra	4cfafd3	2015-05-14 12:23:11 +0200	[diff] [blame]	1161	unsigned long flags;
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1162
				1163	/* not for SW PMU */
				1164	if (pmu->task_ctx_nr == perf_sw_context)
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	1165	return 0;
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1166
Peter Zijlstra	4cfafd3	2015-05-14 12:23:11 +0200	[diff] [blame]	1167	raw_spin_lock_irqsave(&cpuctx->hrtimer_lock, flags);
				1168	if (!cpuctx->hrtimer_active) {
				1169	cpuctx->hrtimer_active = 1;
				1170	hrtimer_forward_now(timer, cpuctx->hrtimer_interval);
Sebastian Andrzej Siewior	30f9028	2019-07-26 20:30:53 +0200	[diff] [blame]	1171	hrtimer_start_expires(timer, HRTIMER_MODE_ABS_PINNED_HARD);
Peter Zijlstra	4cfafd3	2015-05-14 12:23:11 +0200	[diff] [blame]	1172	}
				1173	raw_spin_unlock_irqrestore(&cpuctx->hrtimer_lock, flags);
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1174
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	1175	return 0;
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1176	}
				1177
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	1178	void perf_pmu_disable(struct pmu *pmu)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1179	{
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	1180	int *count = this_cpu_ptr(pmu->pmu_disable_count);
				1181	if (!(*count)++)
				1182	pmu->pmu_disable(pmu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1183	}
				1184
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	1185	void perf_pmu_enable(struct pmu *pmu)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1186	{
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	1187	int *count = this_cpu_ptr(pmu->pmu_disable_count);
				1188	if (!--(*count))
				1189	pmu->pmu_enable(pmu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1190	}
				1191
Mark Rutland	2fde4f9	2015-01-07 15:01:54 +0000	[diff] [blame]	1192	static DEFINE_PER_CPU(struct list_head, active_ctx_list);
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	1193
				1194	/*
Mark Rutland	2fde4f9	2015-01-07 15:01:54 +0000	[diff] [blame]	1195	* perf_event_ctx_activate(), perf_event_ctx_deactivate(), and
				1196	* perf_event_task_tick() are fully serialized because they're strictly cpu
				1197	* affine and perf_event_ctx{activate,deactivate} are called with IRQs
				1198	* disabled, while perf_event_task_tick is called from IRQ context.
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	1199	*/
Mark Rutland	2fde4f9	2015-01-07 15:01:54 +0000	[diff] [blame]	1200	static void perf_event_ctx_activate(struct perf_event_context *ctx)
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	1201	{
Mark Rutland	2fde4f9	2015-01-07 15:01:54 +0000	[diff] [blame]	1202	struct list_head *head = this_cpu_ptr(&active_ctx_list);
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	1203
Frederic Weisbecker	1644464	2017-11-06 16:01:24 +0100	[diff] [blame]	1204	lockdep_assert_irqs_disabled();
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	1205
Mark Rutland	2fde4f9	2015-01-07 15:01:54 +0000	[diff] [blame]	1206	WARN_ON(!list_empty(&ctx->active_ctx_list));
				1207
				1208	list_add(&ctx->active_ctx_list, head);
				1209	}
				1210
				1211	static void perf_event_ctx_deactivate(struct perf_event_context *ctx)
				1212	{
Frederic Weisbecker	1644464	2017-11-06 16:01:24 +0100	[diff] [blame]	1213	lockdep_assert_irqs_disabled();
Mark Rutland	2fde4f9	2015-01-07 15:01:54 +0000	[diff] [blame]	1214
				1215	WARN_ON(list_empty(&ctx->active_ctx_list));
				1216
				1217	list_del_init(&ctx->active_ctx_list);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1218	}
				1219
				1220	static void get_ctx(struct perf_event_context *ctx)
				1221	{
Elena Reshetova	8c94abb	2019-01-28 14:27:26 +0200	[diff] [blame]	1222	refcount_inc(&ctx->refcount);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1223	}
				1224
Yan, Zheng	4af57ef	2014-11-04 21:56:01 -0500	[diff] [blame]	1225	static void free_ctx(struct rcu_head *head)
				1226	{
				1227	struct perf_event_context *ctx;
				1228
				1229	ctx = container_of(head, struct perf_event_context, rcu_head);
				1230	kfree(ctx->task_ctx_data);
				1231	kfree(ctx);
				1232	}
				1233
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1234	static void put_ctx(struct perf_event_context *ctx)
				1235	{
Elena Reshetova	8c94abb	2019-01-28 14:27:26 +0200	[diff] [blame]	1236	if (refcount_dec_and_test(&ctx->refcount)) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1237	if (ctx->parent_ctx)
				1238	put_ctx(ctx->parent_ctx);
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	1239	if (ctx->task && ctx->task != TASK_TOMBSTONE)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1240	put_task_struct(ctx->task);
Yan, Zheng	4af57ef	2014-11-04 21:56:01 -0500	[diff] [blame]	1241	call_rcu(&ctx->rcu_head, free_ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1242	}
				1243	}
				1244
Peter Zijlstra	211de6e	2014-09-30 19:23:08 +0200	[diff] [blame]	1245	/*
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	1246	* Because of perf_event::ctx migration in sys_perf_event_open::move_group and
				1247	* perf_pmu_migrate_context() we need some magic.
				1248	*
				1249	* Those places that change perf_event::ctx will hold both
				1250	* perf_event_ctx::mutex of the 'old' and 'new' ctx value.
				1251	*
Peter Zijlstra	8b10c5e	2015-05-01 16:08:46 +0200	[diff] [blame]	1252	* Lock ordering is by mutex address. There are two other sites where
				1253	* perf_event_context::mutex nests and those are:
				1254	*
				1255	* - perf_event_exit_task_context() [ child , 0 ]
Peter Zijlstra	8ba289b	2016-01-26 13:06:56 +0100	[diff] [blame]	1256	* perf_event_exit_event()
				1257	* put_event() [ parent, 1 ]
Peter Zijlstra	8b10c5e	2015-05-01 16:08:46 +0200	[diff] [blame]	1258	*
				1259	* - perf_event_init_context() [ parent, 0 ]
				1260	* inherit_task_group()
				1261	* inherit_group()
				1262	* inherit_event()
				1263	* perf_event_alloc()
				1264	* perf_init_event()
				1265	* perf_try_init_event() [ child , 1 ]
				1266	*
				1267	* While it appears there is an obvious deadlock here -- the parent and child
				1268	* nesting levels are inverted between the two. This is in fact safe because
				1269	* life-time rules separate them. That is an exiting task cannot fork, and a
				1270	* spawning task cannot (yet) exit.
				1271	*
				1272	* But remember that that these are parent<->child context relations, and
				1273	* migration does not affect children, therefore these two orderings should not
				1274	* interact.
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	1275	*
				1276	* The change in perf_event::ctx does not affect children (as claimed above)
				1277	* because the sys_perf_event_open() case will install a new event and break
				1278	* the ctx parent<->child relation, and perf_pmu_migrate_context() is only
				1279	* concerned with cpuctx and that doesn't have children.
				1280	*
				1281	* The places that change perf_event::ctx will issue:
				1282	*
				1283	* perf_remove_from_context();
				1284	* synchronize_rcu();
				1285	* perf_install_in_context();
				1286	*
				1287	* to affect the change. The remove_from_context() + synchronize_rcu() should
				1288	* quiesce the event, after which we can install it in the new location. This
				1289	* means that only external vectors (perf_fops, prctl) can perturb the event
				1290	* while in transit. Therefore all such accessors should also acquire
				1291	* perf_event_context::mutex to serialize against this.
				1292	*
				1293	* However; because event->ctx can change while we're waiting to acquire
				1294	* ctx->mutex we must be careful and use the below perf_event_ctx_lock()
				1295	* function.
				1296	*
				1297	* Lock order:
Peter Zijlstra	79c9ce5	2016-04-26 11:36:53 +0200	[diff] [blame]	1298	* cred_guard_mutex
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	1299	* task_struct::perf_event_mutex
				1300	* perf_event_context::mutex
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	1301	* perf_event::child_mutex;
Peter Zijlstra	07c4a77	2016-01-26 12:15:37 +0100	[diff] [blame]	1302	* perf_event_context::lock
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	1303	* perf_event::mmap_mutex
				1304	* mmap_sem
Alexander Shishkin	18736ee	2019-02-15 13:56:54 +0200	[diff] [blame]	1305	* perf_addr_filters_head::lock
Peter Zijlstra	82d9485	2018-01-09 13:10:30 +0100	[diff] [blame]	1306	*
				1307	* cpu_hotplug_lock
				1308	* pmus_lock
				1309	* cpuctx->mutex / perf_event_context::mutex
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	1310	*/
Peter Zijlstra	a83fe28	2015-01-29 14:44:34 +0100	[diff] [blame]	1311	static struct perf_event_context *
				1312	perf_event_ctx_lock_nested(struct perf_event *event, int nesting)
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	1313	{
				1314	struct perf_event_context *ctx;
				1315
				1316	again:
				1317	rcu_read_lock();
Mark Rutland	6aa7de0	2017-10-23 14:07:29 -0700	[diff] [blame]	1318	ctx = READ_ONCE(event->ctx);
Elena Reshetova	8c94abb	2019-01-28 14:27:26 +0200	[diff] [blame]	1319	if (!refcount_inc_not_zero(&ctx->refcount)) {
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	1320	rcu_read_unlock();
				1321	goto again;
				1322	}
				1323	rcu_read_unlock();
				1324
Peter Zijlstra	a83fe28	2015-01-29 14:44:34 +0100	[diff] [blame]	1325	mutex_lock_nested(&ctx->mutex, nesting);
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	1326	if (event->ctx != ctx) {
				1327	mutex_unlock(&ctx->mutex);
				1328	put_ctx(ctx);
				1329	goto again;
				1330	}
				1331
				1332	return ctx;
				1333	}
				1334
Peter Zijlstra	a83fe28	2015-01-29 14:44:34 +0100	[diff] [blame]	1335	static inline struct perf_event_context *
				1336	perf_event_ctx_lock(struct perf_event *event)
				1337	{
				1338	return perf_event_ctx_lock_nested(event, 0);
				1339	}
				1340
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	1341	static void perf_event_ctx_unlock(struct perf_event *event,
				1342	struct perf_event_context *ctx)
				1343	{
				1344	mutex_unlock(&ctx->mutex);
				1345	put_ctx(ctx);
				1346	}
				1347
				1348	/*
Peter Zijlstra	211de6e	2014-09-30 19:23:08 +0200	[diff] [blame]	1349	* This must be done under the ctx->lock, such as to serialize against
				1350	* context_equiv(), therefore we cannot call put_ctx() since that might end up
				1351	* calling scheduler related locks and ctx->lock nests inside those.
				1352	*/
				1353	static __must_check struct perf_event_context *
				1354	unclone_ctx(struct perf_event_context *ctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1355	{
Peter Zijlstra	211de6e	2014-09-30 19:23:08 +0200	[diff] [blame]	1356	struct perf_event_context *parent_ctx = ctx->parent_ctx;
				1357
				1358	lockdep_assert_held(&ctx->lock);
				1359
				1360	if (parent_ctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1361	ctx->parent_ctx = NULL;
Peter Zijlstra	5a3126d	2013-10-07 17:12:48 +0200	[diff] [blame]	1362	ctx->generation++;
Peter Zijlstra	211de6e	2014-09-30 19:23:08 +0200	[diff] [blame]	1363
				1364	return parent_ctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1365	}
				1366
Oleg Nesterov	1d95311	2017-08-22 17:59:28 +0200	[diff] [blame]	1367	static u32 perf_event_pid_type(struct perf_event event, struct task_struct p,
				1368	enum pid_type type)
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	1369	{
Oleg Nesterov	1d95311	2017-08-22 17:59:28 +0200	[diff] [blame]	1370	u32 nr;
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	1371	/*
				1372	* only top level events have the pid namespace they were created in
				1373	*/
				1374	if (event->parent)
				1375	event = event->parent;
				1376
Oleg Nesterov	1d95311	2017-08-22 17:59:28 +0200	[diff] [blame]	1377	nr = __task_pid_nr_ns(p, type, event->ns);
				1378	/* avoid -1 if it is idle thread or runs in another ns */
				1379	if (!nr && !pid_alive(p))
				1380	nr = -1;
				1381	return nr;
				1382	}
				1383
				1384	static u32 perf_event_pid(struct perf_event event, struct task_struct p)
				1385	{
Eric W. Biederman	6883f81	2017-06-04 04:32:13 -0500	[diff] [blame]	1386	return perf_event_pid_type(event, p, PIDTYPE_TGID);
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	1387	}
				1388
				1389	static u32 perf_event_tid(struct perf_event event, struct task_struct p)
				1390	{
Oleg Nesterov	1d95311	2017-08-22 17:59:28 +0200	[diff] [blame]	1391	return perf_event_pid_type(event, p, PIDTYPE_PID);
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	1392	}
				1393
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1394	/*
				1395	* If we inherit events we want to return the parent event id
				1396	* to userspace.
				1397	*/
				1398	static u64 primary_event_id(struct perf_event *event)
				1399	{
				1400	u64 id = event->id;
				1401
				1402	if (event->parent)
				1403	id = event->parent->id;
				1404
				1405	return id;
				1406	}
				1407
				1408	/*
				1409	* Get the perf_event_context for a task and lock it.
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	1410	*
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1411	* This has to cope with with the fact that until it is locked,
				1412	* the context could get moved to another task.
				1413	*/
				1414	static struct perf_event_context *
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	1415	perf_lock_task_context(struct task_struct task, int ctxn, unsigned long flags)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1416	{
				1417	struct perf_event_context *ctx;
				1418
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	1419	retry:
Peter Zijlstra	058ebd0	2013-07-12 11:08:33 +0200	[diff] [blame]	1420	/*
				1421	* One of the few rules of preemptible RCU is that one cannot do
				1422	* rcu_read_unlock() while holding a scheduler (or nested) lock when
Paul E. McKenney	2fd5907	2015-11-04 05:48:38 -0800	[diff] [blame]	1423	* part of the read side critical section was irqs-enabled -- see
Peter Zijlstra	058ebd0	2013-07-12 11:08:33 +0200	[diff] [blame]	1424	* rcu_read_unlock_special().
				1425	*
				1426	* Since ctx->lock nests under rq->lock we must ensure the entire read
Paul E. McKenney	2fd5907	2015-11-04 05:48:38 -0800	[diff] [blame]	1427	* side critical section has interrupts disabled.
Peter Zijlstra	058ebd0	2013-07-12 11:08:33 +0200	[diff] [blame]	1428	*/
Paul E. McKenney	2fd5907	2015-11-04 05:48:38 -0800	[diff] [blame]	1429	local_irq_save(*flags);
Peter Zijlstra	058ebd0	2013-07-12 11:08:33 +0200	[diff] [blame]	1430	rcu_read_lock();
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	1431	ctx = rcu_dereference(task->perf_event_ctxp[ctxn]);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1432	if (ctx) {
				1433	/*
				1434	* If this context is a clone of another, it might
				1435	* get swapped for another underneath us by
				1436	* perf_event_task_sched_out, though the
				1437	* rcu_read_lock() protects us from any context
				1438	* getting freed. Lock the context and check if it
				1439	* got swapped before we could get the lock, and retry
				1440	* if so. If we locked the right context, then it
				1441	* can't get swapped on us any more.
				1442	*/
Paul E. McKenney	2fd5907	2015-11-04 05:48:38 -0800	[diff] [blame]	1443	raw_spin_lock(&ctx->lock);
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	1444	if (ctx != rcu_dereference(task->perf_event_ctxp[ctxn])) {
Paul E. McKenney	2fd5907	2015-11-04 05:48:38 -0800	[diff] [blame]	1445	raw_spin_unlock(&ctx->lock);
Peter Zijlstra	058ebd0	2013-07-12 11:08:33 +0200	[diff] [blame]	1446	rcu_read_unlock();
Paul E. McKenney	2fd5907	2015-11-04 05:48:38 -0800	[diff] [blame]	1447	local_irq_restore(*flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1448	goto retry;
				1449	}
				1450
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	1451	if (ctx->task == TASK_TOMBSTONE \|\|
Elena Reshetova	8c94abb	2019-01-28 14:27:26 +0200	[diff] [blame]	1452	!refcount_inc_not_zero(&ctx->refcount)) {
Paul E. McKenney	2fd5907	2015-11-04 05:48:38 -0800	[diff] [blame]	1453	raw_spin_unlock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1454	ctx = NULL;
Peter Zijlstra	828b6f0	2016-01-27 21:59:04 +0100	[diff] [blame]	1455	} else {
				1456	WARN_ON_ONCE(ctx->task != task);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1457	}
				1458	}
				1459	rcu_read_unlock();
Paul E. McKenney	2fd5907	2015-11-04 05:48:38 -0800	[diff] [blame]	1460	if (!ctx)
				1461	local_irq_restore(*flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1462	return ctx;
				1463	}
				1464
				1465	/*
				1466	* Get the context for a task and increment its pin_count so it
				1467	* can't get swapped to another task. This also increments its
				1468	* reference count so that the context can't get freed.
				1469	*/
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	1470	static struct perf_event_context *
				1471	perf_pin_task_context(struct task_struct *task, int ctxn)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1472	{
				1473	struct perf_event_context *ctx;
				1474	unsigned long flags;
				1475
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	1476	ctx = perf_lock_task_context(task, ctxn, &flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1477	if (ctx) {
				1478	++ctx->pin_count;
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1479	raw_spin_unlock_irqrestore(&ctx->lock, flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1480	}
				1481	return ctx;
				1482	}
				1483
				1484	static void perf_unpin_context(struct perf_event_context *ctx)
				1485	{
				1486	unsigned long flags;
				1487
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1488	raw_spin_lock_irqsave(&ctx->lock, flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1489	--ctx->pin_count;
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1490	raw_spin_unlock_irqrestore(&ctx->lock, flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1491	}
				1492
Peter Zijlstra	f67218c	2009-11-23 11:37:27 +0100	[diff] [blame]	1493	/*
				1494	* Update the record of the current time in a context.
				1495	*/
				1496	static void update_context_time(struct perf_event_context *ctx)
				1497	{
				1498	u64 now = perf_clock();
				1499
				1500	ctx->time += now - ctx->timestamp;
				1501	ctx->timestamp = now;
				1502	}
				1503
Stephane Eranian	4158755	2011-01-03 18:20:01 +0200	[diff] [blame]	1504	static u64 perf_event_time(struct perf_event *event)
				1505	{
				1506	struct perf_event_context *ctx = event->ctx;
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1507
				1508	if (is_cgroup_event(event))
				1509	return perf_cgroup_event_time(event);
				1510
Stephane Eranian	4158755	2011-01-03 18:20:01 +0200	[diff] [blame]	1511	return ctx ? ctx->time : 0;
				1512	}
				1513
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	1514	static enum event_type_t get_event_type(struct perf_event *event)
				1515	{
				1516	struct perf_event_context *ctx = event->ctx;
				1517	enum event_type_t event_type;
				1518
				1519	lockdep_assert_held(&ctx->lock);
				1520
Alexander Shishkin	3bda69c	2017-07-18 14:08:34 +0300	[diff] [blame]	1521	/*
				1522	* It's 'group type', really, because if our group leader is
				1523	* pinned, so are we.
				1524	*/
				1525	if (event->group_leader != event)
				1526	event = event->group_leader;
				1527
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	1528	event_type = event->attr.pinned ? EVENT_PINNED : EVENT_FLEXIBLE;
				1529	if (!ctx->task)
				1530	event_type \|= EVENT_CPU;
				1531
				1532	return event_type;
				1533	}
				1534
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	1535	/*
Peter Zijlstra	161c85f	2017-11-13 14:28:27 +0100	[diff] [blame]	1536	* Helper function to initialize event group nodes.
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	1537	*/
Peter Zijlstra	161c85f	2017-11-13 14:28:27 +0100	[diff] [blame]	1538	static void init_event_group(struct perf_event *event)
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	1539	{
				1540	RB_CLEAR_NODE(&event->group_node);
				1541	event->group_index = 0;
				1542	}
				1543
				1544	/*
				1545	* Extract pinned or flexible groups from the context
Peter Zijlstra	161c85f	2017-11-13 14:28:27 +0100	[diff] [blame]	1546	* based on event attrs bits.
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	1547	*/
				1548	static struct perf_event_groups *
				1549	get_event_groups(struct perf_event event, struct perf_event_context ctx)
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	1550	{
				1551	if (event->attr.pinned)
				1552	return &ctx->pinned_groups;
				1553	else
				1554	return &ctx->flexible_groups;
				1555	}
				1556
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1557	/*
Peter Zijlstra	161c85f	2017-11-13 14:28:27 +0100	[diff] [blame]	1558	* Helper function to initializes perf_event_group trees.
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	1559	*/
Peter Zijlstra	161c85f	2017-11-13 14:28:27 +0100	[diff] [blame]	1560	static void perf_event_groups_init(struct perf_event_groups *groups)
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	1561	{
				1562	groups->tree = RB_ROOT;
				1563	groups->index = 0;
				1564	}
				1565
				1566	/*
				1567	* Compare function for event groups;
Peter Zijlstra	161c85f	2017-11-13 14:28:27 +0100	[diff] [blame]	1568	*
				1569	* Implements complex key that first sorts by CPU and then by virtual index
				1570	* which provides ordering when rotating groups for the same CPU.
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	1571	*/
Peter Zijlstra	161c85f	2017-11-13 14:28:27 +0100	[diff] [blame]	1572	static bool
				1573	perf_event_groups_less(struct perf_event left, struct perf_event right)
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	1574	{
Peter Zijlstra	161c85f	2017-11-13 14:28:27 +0100	[diff] [blame]	1575	if (left->cpu < right->cpu)
				1576	return true;
				1577	if (left->cpu > right->cpu)
				1578	return false;
				1579
Ian Rogers	95ed6c7	2020-02-13 23:51:33 -0800	[diff] [blame^]	1580	#ifdef CONFIG_CGROUP_PERF
				1581	if (left->cgrp != right->cgrp) {
				1582	if (!left->cgrp \|\| !left->cgrp->css.cgroup) {
				1583	/*
				1584	* Left has no cgroup but right does, no cgroups come
				1585	* first.
				1586	*/
				1587	return true;
				1588	}
				1589	if (!right->cgrp \|\| right->cgrp->css.cgroup) {
				1590	/*
				1591	* Right has no cgroup but left does, no cgroups come
				1592	* first.
				1593	*/
				1594	return false;
				1595	}
				1596	/* Two dissimilar cgroups, order by id. */
				1597	if (left->cgrp->css.cgroup->kn->id < right->cgrp->css.cgroup->kn->id)
				1598	return true;
				1599
				1600	return false;
				1601	}
				1602	#endif
				1603
Peter Zijlstra	161c85f	2017-11-13 14:28:27 +0100	[diff] [blame]	1604	if (left->group_index < right->group_index)
				1605	return true;
				1606	if (left->group_index > right->group_index)
				1607	return false;
				1608
				1609	return false;
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	1610	}
				1611
				1612	/*
Peter Zijlstra	161c85f	2017-11-13 14:28:27 +0100	[diff] [blame]	1613	* Insert @event into @groups' tree; using {@event->cpu, ++@groups->index} for
				1614	* key (see perf_event_groups_less). This places it last inside the CPU
				1615	* subtree.
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	1616	*/
				1617	static void
				1618	perf_event_groups_insert(struct perf_event_groups *groups,
Peter Zijlstra	161c85f	2017-11-13 14:28:27 +0100	[diff] [blame]	1619	struct perf_event *event)
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	1620	{
				1621	struct perf_event *node_event;
				1622	struct rb_node *parent;
				1623	struct rb_node **node;
				1624
				1625	event->group_index = ++groups->index;
				1626
				1627	node = &groups->tree.rb_node;
				1628	parent = *node;
				1629
				1630	while (*node) {
				1631	parent = *node;
Peter Zijlstra	161c85f	2017-11-13 14:28:27 +0100	[diff] [blame]	1632	node_event = container_of(*node, struct perf_event, group_node);
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	1633
				1634	if (perf_event_groups_less(event, node_event))
				1635	node = &parent->rb_left;
				1636	else
				1637	node = &parent->rb_right;
				1638	}
				1639
				1640	rb_link_node(&event->group_node, parent, node);
				1641	rb_insert_color(&event->group_node, &groups->tree);
				1642	}
				1643
				1644	/*
Peter Zijlstra	161c85f	2017-11-13 14:28:27 +0100	[diff] [blame]	1645	* Helper function to insert event into the pinned or flexible groups.
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	1646	*/
				1647	static void
				1648	add_event_to_groups(struct perf_event event, struct perf_event_context ctx)
				1649	{
				1650	struct perf_event_groups *groups;
				1651
				1652	groups = get_event_groups(event, ctx);
				1653	perf_event_groups_insert(groups, event);
				1654	}
				1655
				1656	/*
Peter Zijlstra	161c85f	2017-11-13 14:28:27 +0100	[diff] [blame]	1657	* Delete a group from a tree.
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	1658	*/
				1659	static void
				1660	perf_event_groups_delete(struct perf_event_groups *groups,
Peter Zijlstra	161c85f	2017-11-13 14:28:27 +0100	[diff] [blame]	1661	struct perf_event *event)
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	1662	{
Peter Zijlstra	161c85f	2017-11-13 14:28:27 +0100	[diff] [blame]	1663	WARN_ON_ONCE(RB_EMPTY_NODE(&event->group_node) \|\|
				1664	RB_EMPTY_ROOT(&groups->tree));
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	1665
Peter Zijlstra	161c85f	2017-11-13 14:28:27 +0100	[diff] [blame]	1666	rb_erase(&event->group_node, &groups->tree);
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	1667	init_event_group(event);
				1668	}
				1669
				1670	/*
Peter Zijlstra	161c85f	2017-11-13 14:28:27 +0100	[diff] [blame]	1671	* Helper function to delete event from its groups.
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	1672	*/
				1673	static void
				1674	del_event_from_groups(struct perf_event event, struct perf_event_context ctx)
				1675	{
				1676	struct perf_event_groups *groups;
				1677
				1678	groups = get_event_groups(event, ctx);
				1679	perf_event_groups_delete(groups, event);
				1680	}
				1681
				1682	/*
Ian Rogers	95ed6c7	2020-02-13 23:51:33 -0800	[diff] [blame^]	1683	* Get the leftmost event in the cpu/cgroup subtree.
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	1684	*/
				1685	static struct perf_event *
Ian Rogers	95ed6c7	2020-02-13 23:51:33 -0800	[diff] [blame^]	1686	perf_event_groups_first(struct perf_event_groups *groups, int cpu,
				1687	struct cgroup *cgrp)
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	1688	{
				1689	struct perf_event node_event = NULL, match = NULL;
				1690	struct rb_node *node = groups->tree.rb_node;
Ian Rogers	95ed6c7	2020-02-13 23:51:33 -0800	[diff] [blame^]	1691	#ifdef CONFIG_CGROUP_PERF
				1692	u64 node_cgrp_id, cgrp_id = 0;
				1693
				1694	if (cgrp)
				1695	cgrp_id = cgrp->kn->id;
				1696	#endif
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	1697
				1698	while (node) {
Peter Zijlstra	161c85f	2017-11-13 14:28:27 +0100	[diff] [blame]	1699	node_event = container_of(node, struct perf_event, group_node);
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	1700
				1701	if (cpu < node_event->cpu) {
				1702	node = node->rb_left;
Ian Rogers	95ed6c7	2020-02-13 23:51:33 -0800	[diff] [blame^]	1703	continue;
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	1704	}
Ian Rogers	95ed6c7	2020-02-13 23:51:33 -0800	[diff] [blame^]	1705	if (cpu > node_event->cpu) {
				1706	node = node->rb_right;
				1707	continue;
				1708	}
				1709	#ifdef CONFIG_CGROUP_PERF
				1710	node_cgrp_id = 0;
				1711	if (node_event->cgrp && node_event->cgrp->css.cgroup)
				1712	node_cgrp_id = node_event->cgrp->css.cgroup->kn->id;
				1713
				1714	if (cgrp_id < node_cgrp_id) {
				1715	node = node->rb_left;
				1716	continue;
				1717	}
				1718	if (cgrp_id > node_cgrp_id) {
				1719	node = node->rb_right;
				1720	continue;
				1721	}
				1722	#endif
				1723	match = node_event;
				1724	node = node->rb_left;
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	1725	}
				1726
				1727	return match;
				1728	}
				1729
				1730	/*
Peter Zijlstra	1cac7b1	2017-11-13 14:28:30 +0100	[diff] [blame]	1731	* Like rb_entry_next_safe() for the @cpu subtree.
				1732	*/
				1733	static struct perf_event *
				1734	perf_event_groups_next(struct perf_event *event)
				1735	{
				1736	struct perf_event *next;
Ian Rogers	95ed6c7	2020-02-13 23:51:33 -0800	[diff] [blame^]	1737	#ifdef CONFIG_CGROUP_PERF
				1738	u64 curr_cgrp_id = 0;
				1739	u64 next_cgrp_id = 0;
				1740	#endif
Peter Zijlstra	1cac7b1	2017-11-13 14:28:30 +0100	[diff] [blame]	1741
				1742	next = rb_entry_safe(rb_next(&event->group_node), typeof(*event), group_node);
Ian Rogers	95ed6c7	2020-02-13 23:51:33 -0800	[diff] [blame^]	1743	if (next == NULL \|\| next->cpu != event->cpu)
				1744	return NULL;
Peter Zijlstra	1cac7b1	2017-11-13 14:28:30 +0100	[diff] [blame]	1745
Ian Rogers	95ed6c7	2020-02-13 23:51:33 -0800	[diff] [blame^]	1746	#ifdef CONFIG_CGROUP_PERF
				1747	if (event->cgrp && event->cgrp->css.cgroup)
				1748	curr_cgrp_id = event->cgrp->css.cgroup->kn->id;
				1749
				1750	if (next->cgrp && next->cgrp->css.cgroup)
				1751	next_cgrp_id = next->cgrp->css.cgroup->kn->id;
				1752
				1753	if (curr_cgrp_id != next_cgrp_id)
				1754	return NULL;
				1755	#endif
				1756	return next;
Peter Zijlstra	1cac7b1	2017-11-13 14:28:30 +0100	[diff] [blame]	1757	}
				1758
				1759	/*
Peter Zijlstra	161c85f	2017-11-13 14:28:27 +0100	[diff] [blame]	1760	* Iterate through the whole groups tree.
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	1761	*/
Peter Zijlstra	6e6804d	2017-11-13 14:28:41 +0100	[diff] [blame]	1762	#define perf_event_groups_for_each(event, groups) \
				1763	for (event = rb_entry_safe(rb_first(&((groups)->tree)), \
				1764	typeof(*event), group_node); event; \
				1765	event = rb_entry_safe(rb_next(&event->group_node), \
				1766	typeof(*event), group_node))
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	1767
				1768	/*
Tobias Tefke	788faab	2018-07-09 12:57:15 +0200	[diff] [blame]	1769	* Add an event from the lists for its context.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1770	* Must be called with ctx->mutex and ctx->lock held.
				1771	*/
				1772	static void
				1773	list_add_event(struct perf_event event, struct perf_event_context ctx)
				1774	{
Peter Zijlstra	c994d61	2016-01-08 09:20:23 +0100	[diff] [blame]	1775	lockdep_assert_held(&ctx->lock);
				1776
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1777	WARN_ON_ONCE(event->attach_state & PERF_ATTACH_CONTEXT);
				1778	event->attach_state \|= PERF_ATTACH_CONTEXT;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1779
Peter Zijlstra	0d3d73a	2017-09-05 14:16:28 +0200	[diff] [blame]	1780	event->tstamp = perf_event_time(event);
				1781
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1782	/*
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1783	* If we're a stand alone event or group leader, we go to the context
				1784	* list, group events are kept attached to the group so that
				1785	* perf_group_detach can, at all times, locate all siblings.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1786	*/
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1787	if (event->group_leader == event) {
David Carrillo-Cisneros	4ff6a8d	2016-08-17 13:55:05 -0700	[diff] [blame]	1788	event->group_caps = event->event_caps;
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	1789	add_event_to_groups(event, ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1790	}
				1791
David Carrillo-Cisneros	db4a835	2016-08-02 00:48:12 -0700	[diff] [blame]	1792	list_update_cgroup_event(event, ctx, true);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1793
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1794	list_add_rcu(&event->event_entry, &ctx->event_list);
				1795	ctx->nr_events++;
				1796	if (event->attr.inherit_stat)
				1797	ctx->nr_stat++;
Peter Zijlstra	5a3126d	2013-10-07 17:12:48 +0200	[diff] [blame]	1798
				1799	ctx->generation++;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1800	}
				1801
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1802	/*
Jiri Olsa	0231bb5	2013-02-01 11:23:45 +0100	[diff] [blame]	1803	* Initialize event state based on the perf_event_attr::disabled.
				1804	*/
				1805	static inline void perf_event__state_init(struct perf_event *event)
				1806	{
				1807	event->state = event->attr.disabled ? PERF_EVENT_STATE_OFF :
				1808	PERF_EVENT_STATE_INACTIVE;
				1809	}
				1810
Peter Zijlstra	a723968	2015-09-09 19:06:33 +0200	[diff] [blame]	1811	static void __perf_event_read_size(struct perf_event *event, int nr_siblings)
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1812	{
				1813	int entry = sizeof(u64); /* value */
				1814	int size = 0;
				1815	int nr = 1;
				1816
				1817	if (event->attr.read_format & PERF_FORMAT_TOTAL_TIME_ENABLED)
				1818	size += sizeof(u64);
				1819
				1820	if (event->attr.read_format & PERF_FORMAT_TOTAL_TIME_RUNNING)
				1821	size += sizeof(u64);
				1822
				1823	if (event->attr.read_format & PERF_FORMAT_ID)
				1824	entry += sizeof(u64);
				1825
				1826	if (event->attr.read_format & PERF_FORMAT_GROUP) {
Peter Zijlstra	a723968	2015-09-09 19:06:33 +0200	[diff] [blame]	1827	nr += nr_siblings;
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1828	size += sizeof(u64);
				1829	}
				1830
				1831	size += entry * nr;
				1832	event->read_size = size;
				1833	}
				1834
Peter Zijlstra	a723968	2015-09-09 19:06:33 +0200	[diff] [blame]	1835	static void __perf_event_header_size(struct perf_event *event, u64 sample_type)
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1836	{
				1837	struct perf_sample_data *data;
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1838	u16 size = 0;
				1839
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1840	if (sample_type & PERF_SAMPLE_IP)
				1841	size += sizeof(data->ip);
				1842
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	1843	if (sample_type & PERF_SAMPLE_ADDR)
				1844	size += sizeof(data->addr);
				1845
				1846	if (sample_type & PERF_SAMPLE_PERIOD)
				1847	size += sizeof(data->period);
				1848
Andi Kleen	c3feedf	2013-01-24 16:10:28 +0100	[diff] [blame]	1849	if (sample_type & PERF_SAMPLE_WEIGHT)
				1850	size += sizeof(data->weight);
				1851
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	1852	if (sample_type & PERF_SAMPLE_READ)
				1853	size += event->read_size;
				1854
Stephane Eranian	d6be9ad	2013-01-24 16:10:31 +0100	[diff] [blame]	1855	if (sample_type & PERF_SAMPLE_DATA_SRC)
				1856	size += sizeof(data->data_src.val);
				1857
Andi Kleen	fdfbbd0	2013-09-20 07:40:39 -0700	[diff] [blame]	1858	if (sample_type & PERF_SAMPLE_TRANSACTION)
				1859	size += sizeof(data->txn);
				1860
Kan Liang	fc7ce9c	2017-08-28 20:52:49 -0400	[diff] [blame]	1861	if (sample_type & PERF_SAMPLE_PHYS_ADDR)
				1862	size += sizeof(data->phys_addr);
				1863
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	1864	event->header_size = size;
				1865	}
				1866
Peter Zijlstra	a723968	2015-09-09 19:06:33 +0200	[diff] [blame]	1867	/*
				1868	* Called at perf_event creation and when events are attached/detached from a
				1869	* group.
				1870	*/
				1871	static void perf_event__header_size(struct perf_event *event)
				1872	{
				1873	__perf_event_read_size(event,
				1874	event->group_leader->nr_siblings);
				1875	__perf_event_header_size(event, event->attr.sample_type);
				1876	}
				1877
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	1878	static void perf_event__id_header_size(struct perf_event *event)
				1879	{
				1880	struct perf_sample_data *data;
				1881	u64 sample_type = event->attr.sample_type;
				1882	u16 size = 0;
				1883
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1884	if (sample_type & PERF_SAMPLE_TID)
				1885	size += sizeof(data->tid_entry);
				1886
				1887	if (sample_type & PERF_SAMPLE_TIME)
				1888	size += sizeof(data->time);
				1889
Adrian Hunter	ff3d527	2013-08-27 11:23:07 +0300	[diff] [blame]	1890	if (sample_type & PERF_SAMPLE_IDENTIFIER)
				1891	size += sizeof(data->id);
				1892
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1893	if (sample_type & PERF_SAMPLE_ID)
				1894	size += sizeof(data->id);
				1895
				1896	if (sample_type & PERF_SAMPLE_STREAM_ID)
				1897	size += sizeof(data->stream_id);
				1898
				1899	if (sample_type & PERF_SAMPLE_CPU)
				1900	size += sizeof(data->cpu_entry);
				1901
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	1902	event->id_header_size = size;
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1903	}
				1904
Peter Zijlstra	a723968	2015-09-09 19:06:33 +0200	[diff] [blame]	1905	static bool perf_event_validate_size(struct perf_event *event)
				1906	{
				1907	/*
				1908	* The values computed here will be over-written when we actually
				1909	* attach the event.
				1910	*/
				1911	__perf_event_read_size(event, event->group_leader->nr_siblings + 1);
				1912	__perf_event_header_size(event, event->attr.sample_type & ~PERF_SAMPLE_READ);
				1913	perf_event__id_header_size(event);
				1914
				1915	/*
				1916	* Sum the lot; should not exceed the 64k limit we have on records.
				1917	* Conservative limit to allow for callchains and other variable fields.
				1918	*/
				1919	if (event->read_size + event->header_size +
				1920	event->id_header_size + sizeof(struct perf_event_header) >= 16*1024)
				1921	return false;
				1922
				1923	return true;
				1924	}
				1925
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1926	static void perf_group_attach(struct perf_event *event)
				1927	{
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1928	struct perf_event group_leader = event->group_leader, pos;
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1929
Peter Zijlstra	a76a82a	2017-01-26 16:39:55 +0100	[diff] [blame]	1930	lockdep_assert_held(&event->ctx->lock);
				1931
Peter Zijlstra	74c3337	2010-10-15 11:40:29 +0200	[diff] [blame]	1932	/*
				1933	* We can have double attach due to group movement in perf_event_open.
				1934	*/
				1935	if (event->attach_state & PERF_ATTACH_GROUP)
				1936	return;
				1937
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1938	event->attach_state \|= PERF_ATTACH_GROUP;
				1939
				1940	if (group_leader == event)
				1941	return;
				1942
Peter Zijlstra	652884f	2015-01-23 11:20:10 +0100	[diff] [blame]	1943	WARN_ON_ONCE(group_leader->ctx != event->ctx);
				1944
David Carrillo-Cisneros	4ff6a8d	2016-08-17 13:55:05 -0700	[diff] [blame]	1945	group_leader->group_caps &= event->event_caps;
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1946
Peter Zijlstra	8343aae	2017-11-13 14:28:33 +0100	[diff] [blame]	1947	list_add_tail(&event->sibling_list, &group_leader->sibling_list);
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1948	group_leader->nr_siblings++;
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1949
				1950	perf_event__header_size(group_leader);
				1951
Peter Zijlstra	edb3959	2018-03-15 17:36:56 +0100	[diff] [blame]	1952	for_each_sibling_event(pos, group_leader)
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1953	perf_event__header_size(pos);
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1954	}
				1955
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1956	/*
Tobias Tefke	788faab	2018-07-09 12:57:15 +0200	[diff] [blame]	1957	* Remove an event from the lists for its context.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1958	* Must be called with ctx->mutex and ctx->lock held.
				1959	*/
				1960	static void
				1961	list_del_event(struct perf_event event, struct perf_event_context ctx)
				1962	{
Peter Zijlstra	652884f	2015-01-23 11:20:10 +0100	[diff] [blame]	1963	WARN_ON_ONCE(event->ctx != ctx);
				1964	lockdep_assert_held(&ctx->lock);
				1965
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1966	/*
				1967	* We can have double detach due to exit/hot-unplug + close.
				1968	*/
				1969	if (!(event->attach_state & PERF_ATTACH_CONTEXT))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1970	return;
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1971
				1972	event->attach_state &= ~PERF_ATTACH_CONTEXT;
				1973
David Carrillo-Cisneros	db4a835	2016-08-02 00:48:12 -0700	[diff] [blame]	1974	list_update_cgroup_event(event, ctx, false);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1975
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1976	ctx->nr_events--;
				1977	if (event->attr.inherit_stat)
				1978	ctx->nr_stat--;
				1979
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1980	list_del_rcu(&event->event_entry);
				1981
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1982	if (event->group_leader == event)
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	1983	del_event_from_groups(event, ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1984
Stephane Eranian	b2e74a2	2009-11-26 09:24:30 -0800	[diff] [blame]	1985	/*
				1986	* If event was in error state, then keep it
				1987	* that way, otherwise bogus counts will be
				1988	* returned on read(). The only way to get out
				1989	* of error state is by explicit re-enabling
				1990	* of the event
				1991	*/
				1992	if (event->state > PERF_EVENT_STATE_OFF)
Peter Zijlstra	0d3d73a	2017-09-05 14:16:28 +0200	[diff] [blame]	1993	perf_event_set_state(event, PERF_EVENT_STATE_OFF);
Peter Zijlstra	5a3126d	2013-10-07 17:12:48 +0200	[diff] [blame]	1994
				1995	ctx->generation++;
Peter Zijlstra	050735b	2010-05-11 11:51:53 +0200	[diff] [blame]	1996	}
				1997
Alexander Shishkin	ab43762	2019-08-06 11:46:00 +0300	[diff] [blame]	1998	static int
				1999	perf_aux_output_match(struct perf_event event, struct perf_event aux_event)
				2000	{
				2001	if (!has_aux(aux_event))
				2002	return 0;
				2003
				2004	if (!event->pmu->aux_output_match)
				2005	return 0;
				2006
				2007	return event->pmu->aux_output_match(aux_event);
				2008	}
				2009
				2010	static void put_event(struct perf_event *event);
				2011	static void event_sched_out(struct perf_event *event,
				2012	struct perf_cpu_context *cpuctx,
				2013	struct perf_event_context *ctx);
				2014
				2015	static void perf_put_aux_event(struct perf_event *event)
				2016	{
				2017	struct perf_event_context *ctx = event->ctx;
				2018	struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
				2019	struct perf_event *iter;
				2020
				2021	/*
				2022	* If event uses aux_event tear down the link
				2023	*/
				2024	if (event->aux_event) {
				2025	iter = event->aux_event;
				2026	event->aux_event = NULL;
				2027	put_event(iter);
				2028	return;
				2029	}
				2030
				2031	/*
				2032	* If the event is an aux_event, tear down all links to
				2033	* it from other events.
				2034	*/
				2035	for_each_sibling_event(iter, event->group_leader) {
				2036	if (iter->aux_event != event)
				2037	continue;
				2038
				2039	iter->aux_event = NULL;
				2040	put_event(event);
				2041
				2042	/*
				2043	* If it's ACTIVE, schedule it out and put it into ERROR
				2044	* state so that we don't try to schedule it again. Note
				2045	* that perf_event_enable() will clear the ERROR status.
				2046	*/
				2047	event_sched_out(iter, cpuctx, ctx);
				2048	perf_event_set_state(event, PERF_EVENT_STATE_ERROR);
				2049	}
				2050	}
				2051
Alexander Shishkin	a4faf00	2019-10-25 17:08:33 +0300	[diff] [blame]	2052	static bool perf_need_aux_event(struct perf_event *event)
				2053	{
				2054	return !!event->attr.aux_output \|\| !!event->attr.aux_sample_size;
				2055	}
				2056
Alexander Shishkin	ab43762	2019-08-06 11:46:00 +0300	[diff] [blame]	2057	static int perf_get_aux_event(struct perf_event *event,
				2058	struct perf_event *group_leader)
				2059	{
				2060	/*
				2061	* Our group leader must be an aux event if we want to be
				2062	* an aux_output. This way, the aux event will precede its
				2063	* aux_output events in the group, and therefore will always
				2064	* schedule first.
				2065	*/
				2066	if (!group_leader)
				2067	return 0;
				2068
Alexander Shishkin	a4faf00	2019-10-25 17:08:33 +0300	[diff] [blame]	2069	/*
				2070	* aux_output and aux_sample_size are mutually exclusive.
				2071	*/
				2072	if (event->attr.aux_output && event->attr.aux_sample_size)
				2073	return 0;
				2074
				2075	if (event->attr.aux_output &&
				2076	!perf_aux_output_match(event, group_leader))
				2077	return 0;
				2078
				2079	if (event->attr.aux_sample_size && !group_leader->pmu->snapshot_aux)
Alexander Shishkin	ab43762	2019-08-06 11:46:00 +0300	[diff] [blame]	2080	return 0;
				2081
				2082	if (!atomic_long_inc_not_zero(&group_leader->refcount))
				2083	return 0;
				2084
				2085	/*
				2086	* Link aux_outputs to their aux event; this is undone in
				2087	* perf_group_detach() by perf_put_aux_event(). When the
				2088	* group in torn down, the aux_output events loose their
				2089	* link to the aux_event and can't schedule any more.
				2090	*/
				2091	event->aux_event = group_leader;
				2092
				2093	return 1;
				2094	}
				2095
Peter Zijlstra	ab6f824	2019-08-07 11:17:00 +0200	[diff] [blame]	2096	static inline struct list_head get_event_list(struct perf_event event)
				2097	{
				2098	struct perf_event_context *ctx = event->ctx;
				2099	return event->attr.pinned ? &ctx->pinned_active : &ctx->flexible_active;
				2100	}
				2101
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	2102	static void perf_group_detach(struct perf_event *event)
Peter Zijlstra	050735b	2010-05-11 11:51:53 +0200	[diff] [blame]	2103	{
				2104	struct perf_event sibling, tmp;
Peter Zijlstra	6668128	2017-11-13 14:28:38 +0100	[diff] [blame]	2105	struct perf_event_context *ctx = event->ctx;
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	2106
Peter Zijlstra	6668128	2017-11-13 14:28:38 +0100	[diff] [blame]	2107	lockdep_assert_held(&ctx->lock);
Peter Zijlstra	a76a82a	2017-01-26 16:39:55 +0100	[diff] [blame]	2108
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	2109	/*
				2110	* We can have double detach due to exit/hot-unplug + close.
				2111	*/
				2112	if (!(event->attach_state & PERF_ATTACH_GROUP))
				2113	return;
				2114
				2115	event->attach_state &= ~PERF_ATTACH_GROUP;
				2116
Alexander Shishkin	ab43762	2019-08-06 11:46:00 +0300	[diff] [blame]	2117	perf_put_aux_event(event);
				2118
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	2119	/*
				2120	* If this is a sibling, remove it from its group.
				2121	*/
				2122	if (event->group_leader != event) {
Peter Zijlstra	8343aae	2017-11-13 14:28:33 +0100	[diff] [blame]	2123	list_del_init(&event->sibling_list);
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	2124	event->group_leader->nr_siblings--;
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	2125	goto out;
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	2126	}
				2127
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2128	/*
				2129	* If this was a group event with sibling events then
				2130	* upgrade the siblings to singleton events by adding them
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	2131	* to whatever list we are on.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2132	*/
Peter Zijlstra	8343aae	2017-11-13 14:28:33 +0100	[diff] [blame]	2133	list_for_each_entry_safe(sibling, tmp, &event->sibling_list, sibling_list) {
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	2134
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2135	sibling->group_leader = sibling;
Mark Rutland	2486836	2018-03-16 12:51:40 +0000	[diff] [blame]	2136	list_del_init(&sibling->sibling_list);
Frederic Weisbecker	d6f962b	2010-01-10 01:25:51 +0100	[diff] [blame]	2137
				2138	/* Inherit group flags from the previous leader */
David Carrillo-Cisneros	4ff6a8d	2016-08-17 13:55:05 -0700	[diff] [blame]	2139	sibling->group_caps = event->group_caps;
Peter Zijlstra	652884f	2015-01-23 11:20:10 +0100	[diff] [blame]	2140
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	2141	if (!RB_EMPTY_NODE(&event->group_node)) {
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	2142	add_event_to_groups(sibling, event->ctx);
Peter Zijlstra	6668128	2017-11-13 14:28:38 +0100	[diff] [blame]	2143
Peter Zijlstra	ab6f824	2019-08-07 11:17:00 +0200	[diff] [blame]	2144	if (sibling->state == PERF_EVENT_STATE_ACTIVE)
				2145	list_add_tail(&sibling->active_list, get_event_list(sibling));
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	2146	}
				2147
Peter Zijlstra	652884f	2015-01-23 11:20:10 +0100	[diff] [blame]	2148	WARN_ON_ONCE(sibling->ctx != event->ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2149	}
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	2150
				2151	out:
				2152	perf_event__header_size(event->group_leader);
				2153
Peter Zijlstra	edb3959	2018-03-15 17:36:56 +0100	[diff] [blame]	2154	for_each_sibling_event(tmp, event->group_leader)
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	2155	perf_event__header_size(tmp);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2156	}
				2157
Jiri Olsa	fadfe7b	2014-08-01 14:33:02 +0200	[diff] [blame]	2158	static bool is_orphaned_event(struct perf_event *event)
				2159	{
Peter Zijlstra	a69b0ca	2016-02-24 18:45:44 +0100	[diff] [blame]	2160	return event->state == PERF_EVENT_STATE_DEAD;
Jiri Olsa	fadfe7b	2014-08-01 14:33:02 +0200	[diff] [blame]	2161	}
				2162
Mark Rutland	2c81a64	2016-06-14 16:10:41 +0100	[diff] [blame]	2163	static inline int __pmu_filter_match(struct perf_event *event)
Mark Rutland	66eb579	2015-05-13 17:12:23 +0100	[diff] [blame]	2164	{
				2165	struct pmu *pmu = event->pmu;
				2166	return pmu->filter_match ? pmu->filter_match(event) : 1;
				2167	}
				2168
Mark Rutland	2c81a64	2016-06-14 16:10:41 +0100	[diff] [blame]	2169	/*
				2170	* Check whether we should attempt to schedule an event group based on
				2171	* PMU-specific filtering. An event group can consist of HW and SW events,
				2172	* potentially with a SW leader, so we must check all the filters, to
				2173	* determine whether a group is schedulable:
				2174	*/
				2175	static inline int pmu_filter_match(struct perf_event *event)
				2176	{
Peter Zijlstra	edb3959	2018-03-15 17:36:56 +0100	[diff] [blame]	2177	struct perf_event *sibling;
Mark Rutland	2c81a64	2016-06-14 16:10:41 +0100	[diff] [blame]	2178
				2179	if (!__pmu_filter_match(event))
				2180	return 0;
				2181
Peter Zijlstra	edb3959	2018-03-15 17:36:56 +0100	[diff] [blame]	2182	for_each_sibling_event(sibling, event) {
				2183	if (!__pmu_filter_match(sibling))
Mark Rutland	2c81a64	2016-06-14 16:10:41 +0100	[diff] [blame]	2184	return 0;
				2185	}
				2186
				2187	return 1;
				2188	}
				2189
Stephane Eranian	fa66f07	2010-08-26 16:40:01 +0200	[diff] [blame]	2190	static inline int
				2191	event_filter_match(struct perf_event *event)
				2192	{
Peter Zijlstra	0b8f1e2	2016-08-04 14:37:24 +0200	[diff] [blame]	2193	return (event->cpu == -1 \|\| event->cpu == smp_processor_id()) &&
				2194	perf_cgroup_match(event) && pmu_filter_match(event);
Stephane Eranian	fa66f07	2010-08-26 16:40:01 +0200	[diff] [blame]	2195	}
				2196
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	2197	static void
				2198	event_sched_out(struct perf_event *event,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2199	struct perf_cpu_context *cpuctx,
				2200	struct perf_event_context *ctx)
				2201	{
Peter Zijlstra	0d3d73a	2017-09-05 14:16:28 +0200	[diff] [blame]	2202	enum perf_event_state state = PERF_EVENT_STATE_INACTIVE;
Peter Zijlstra	652884f	2015-01-23 11:20:10 +0100	[diff] [blame]	2203
				2204	WARN_ON_ONCE(event->ctx != ctx);
				2205	lockdep_assert_held(&ctx->lock);
				2206
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2207	if (event->state != PERF_EVENT_STATE_ACTIVE)
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	2208	return;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2209
Peter Zijlstra	6668128	2017-11-13 14:28:38 +0100	[diff] [blame]	2210	/*
				2211	* Asymmetry; we only schedule events _IN_ through ctx_sched_in(), but
				2212	* we can schedule events _OUT_ individually through things like
				2213	* __perf_remove_from_context().
				2214	*/
				2215	list_del_init(&event->active_list);
				2216
Alexander Shishkin	4437727	2013-12-16 14:17:36 +0200	[diff] [blame]	2217	perf_pmu_disable(event->pmu);
				2218
Peter Zijlstra	28a967c	2016-02-24 18:45:46 +0100	[diff] [blame]	2219	event->pmu->del(event, 0);
				2220	event->oncpu = -1;
Peter Zijlstra	0d3d73a	2017-09-05 14:16:28 +0200	[diff] [blame]	2221
Peter Zijlstra	1d54ad9	2019-04-04 15:03:00 +0200	[diff] [blame]	2222	if (READ_ONCE(event->pending_disable) >= 0) {
				2223	WRITE_ONCE(event->pending_disable, -1);
Peter Zijlstra	0d3d73a	2017-09-05 14:16:28 +0200	[diff] [blame]	2224	state = PERF_EVENT_STATE_OFF;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2225	}
Peter Zijlstra	0d3d73a	2017-09-05 14:16:28 +0200	[diff] [blame]	2226	perf_event_set_state(event, state);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2227
				2228	if (!is_software_event(event))
				2229	cpuctx->active_oncpu--;
Mark Rutland	2fde4f9	2015-01-07 15:01:54 +0000	[diff] [blame]	2230	if (!--ctx->nr_active)
				2231	perf_event_ctx_deactivate(ctx);
Peter Zijlstra	0f5a260	2011-11-16 14:38:16 +0100	[diff] [blame]	2232	if (event->attr.freq && event->attr.sample_freq)
				2233	ctx->nr_freq--;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2234	if (event->attr.exclusive \|\| !cpuctx->active_oncpu)
				2235	cpuctx->exclusive = 0;
Alexander Shishkin	4437727	2013-12-16 14:17:36 +0200	[diff] [blame]	2236
				2237	perf_pmu_enable(event->pmu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2238	}
				2239
				2240	static void
				2241	group_sched_out(struct perf_event *group_event,
				2242	struct perf_cpu_context *cpuctx,
				2243	struct perf_event_context *ctx)
				2244	{
				2245	struct perf_event *event;
Peter Zijlstra	0d3d73a	2017-09-05 14:16:28 +0200	[diff] [blame]	2246
				2247	if (group_event->state != PERF_EVENT_STATE_ACTIVE)
				2248	return;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2249
Mark Rutland	3f005e7	2016-07-26 18:12:21 +0100	[diff] [blame]	2250	perf_pmu_disable(ctx->pmu);
				2251
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2252	event_sched_out(group_event, cpuctx, ctx);
				2253
				2254	/*
				2255	* Schedule out siblings (if any):
				2256	*/
Peter Zijlstra	edb3959	2018-03-15 17:36:56 +0100	[diff] [blame]	2257	for_each_sibling_event(event, group_event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2258	event_sched_out(event, cpuctx, ctx);
				2259
Mark Rutland	3f005e7	2016-07-26 18:12:21 +0100	[diff] [blame]	2260	perf_pmu_enable(ctx->pmu);
				2261
Peter Zijlstra	0d3d73a	2017-09-05 14:16:28 +0200	[diff] [blame]	2262	if (group_event->attr.exclusive)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2263	cpuctx->exclusive = 0;
				2264	}
				2265
Peter Zijlstra	45a0e07	2016-01-26 13:09:48 +0100	[diff] [blame]	2266	#define DETACH_GROUP 0x01UL
Peter Zijlstra	0017960	2015-11-30 16:26:35 +0100	[diff] [blame]	2267
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2268	/*
				2269	* Cross CPU call to remove a performance event
				2270	*
				2271	* We disable the event on the hardware level first. After that we
				2272	* remove it from the context list.
				2273	*/
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	2274	static void
				2275	__perf_remove_from_context(struct perf_event *event,
				2276	struct perf_cpu_context *cpuctx,
				2277	struct perf_event_context *ctx,
				2278	void *info)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2279	{
Peter Zijlstra	45a0e07	2016-01-26 13:09:48 +0100	[diff] [blame]	2280	unsigned long flags = (unsigned long)info;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2281
Peter Zijlstra	3c5c871	2017-09-05 13:44:51 +0200	[diff] [blame]	2282	if (ctx->is_active & EVENT_TIME) {
				2283	update_context_time(ctx);
				2284	update_cgrp_time_from_cpuctx(cpuctx);
				2285	}
				2286
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2287	event_sched_out(event, cpuctx, ctx);
Peter Zijlstra	45a0e07	2016-01-26 13:09:48 +0100	[diff] [blame]	2288	if (flags & DETACH_GROUP)
Peter Zijlstra	46ce0fe	2014-05-02 16:56:01 +0200	[diff] [blame]	2289	perf_group_detach(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2290	list_del_event(event, ctx);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	2291
Peter Zijlstra	39a4364	2016-01-11 12:46:35 +0100	[diff] [blame]	2292	if (!ctx->nr_events && ctx->is_active) {
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	2293	ctx->is_active = 0;
Peter Zijlstra	39a4364	2016-01-11 12:46:35 +0100	[diff] [blame]	2294	if (ctx->task) {
				2295	WARN_ON_ONCE(cpuctx->task_ctx != ctx);
				2296	cpuctx->task_ctx = NULL;
				2297	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2298	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2299	}
				2300
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2301	/*
				2302	* Remove the event from a task's (or a CPU's) list of events.
				2303	*
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2304	* If event->ctx is a cloned context, callers must make sure that
				2305	* every task struct that event->ctx->task could possibly point to
				2306	* remains valid. This is OK when called from perf_release since
				2307	* that only calls us on the top-level context, which can't be a clone.
				2308	* When called from perf_event_exit_task, it's OK because the
				2309	* context has been detached from its task.
				2310	*/
Peter Zijlstra	45a0e07	2016-01-26 13:09:48 +0100	[diff] [blame]	2311	static void perf_remove_from_context(struct perf_event *event, unsigned long flags)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2312	{
Peter Zijlstra	a76a82a	2017-01-26 16:39:55 +0100	[diff] [blame]	2313	struct perf_event_context *ctx = event->ctx;
				2314
				2315	lockdep_assert_held(&ctx->mutex);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2316
Peter Zijlstra	45a0e07	2016-01-26 13:09:48 +0100	[diff] [blame]	2317	event_function_call(event, __perf_remove_from_context, (void *)flags);
Peter Zijlstra	a76a82a	2017-01-26 16:39:55 +0100	[diff] [blame]	2318
				2319	/*
				2320	* The above event_function_call() can NO-OP when it hits
				2321	* TASK_TOMBSTONE. In that case we must already have been detached
				2322	* from the context (by perf_event_exit_event()) but the grouping
				2323	* might still be in-tact.
				2324	*/
				2325	WARN_ON_ONCE(event->attach_state & PERF_ATTACH_CONTEXT);
				2326	if ((flags & DETACH_GROUP) &&
				2327	(event->attach_state & PERF_ATTACH_GROUP)) {
				2328	/*
				2329	* Since in that case we cannot possibly be scheduled, simply
				2330	* detach now.
				2331	*/
				2332	raw_spin_lock_irq(&ctx->lock);
				2333	perf_group_detach(event);
				2334	raw_spin_unlock_irq(&ctx->lock);
				2335	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2336	}
				2337
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2338	/*
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2339	* Cross CPU call to disable a performance event
				2340	*/
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	2341	static void __perf_event_disable(struct perf_event *event,
				2342	struct perf_cpu_context *cpuctx,
				2343	struct perf_event_context *ctx,
				2344	void *info)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2345	{
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	2346	if (event->state < PERF_EVENT_STATE_INACTIVE)
				2347	return;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2348
Peter Zijlstra	3c5c871	2017-09-05 13:44:51 +0200	[diff] [blame]	2349	if (ctx->is_active & EVENT_TIME) {
				2350	update_context_time(ctx);
				2351	update_cgrp_time_from_event(event);
				2352	}
				2353
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	2354	if (event == event->group_leader)
				2355	group_sched_out(event, cpuctx, ctx);
				2356	else
				2357	event_sched_out(event, cpuctx, ctx);
Peter Zijlstra	0d3d73a	2017-09-05 14:16:28 +0200	[diff] [blame]	2358
				2359	perf_event_set_state(event, PERF_EVENT_STATE_OFF);
Peter Zijlstra	7b64801	2015-12-03 18:35:21 +0100	[diff] [blame]	2360	}
				2361
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2362	/*
Tobias Tefke	788faab	2018-07-09 12:57:15 +0200	[diff] [blame]	2363	* Disable an event.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2364	*
				2365	* If event->ctx is a cloned context, callers must make sure that
				2366	* every task struct that event->ctx->task could possibly point to
Roy Ben Shlomo	9f014e3	2019-09-20 20:12:53 +0300	[diff] [blame]	2367	* remains valid. This condition is satisfied when called through
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2368	* perf_event_for_each_child or perf_event_for_each because they
				2369	* hold the top-level event's child_mutex, so any descendant that
Peter Zijlstra	8ba289b	2016-01-26 13:06:56 +0100	[diff] [blame]	2370	* goes to exit will block in perf_event_exit_event().
				2371	*
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2372	* When called from perf_pending_event it's OK because event->ctx
				2373	* is the current context on this CPU and preemption is disabled,
				2374	* hence we can't get into perf_event_task_sched_out for this context.
				2375	*/
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	2376	static void _perf_event_disable(struct perf_event *event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2377	{
				2378	struct perf_event_context *ctx = event->ctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2379
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	2380	raw_spin_lock_irq(&ctx->lock);
Peter Zijlstra	7b64801	2015-12-03 18:35:21 +0100	[diff] [blame]	2381	if (event->state <= PERF_EVENT_STATE_OFF) {
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	2382	raw_spin_unlock_irq(&ctx->lock);
Peter Zijlstra	7b64801	2015-12-03 18:35:21 +0100	[diff] [blame]	2383	return;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2384	}
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	2385	raw_spin_unlock_irq(&ctx->lock);
Peter Zijlstra	7b64801	2015-12-03 18:35:21 +0100	[diff] [blame]	2386
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	2387	event_function_call(event, __perf_event_disable, NULL);
				2388	}
				2389
				2390	void perf_event_disable_local(struct perf_event *event)
				2391	{
				2392	event_function_local(event, __perf_event_disable, NULL);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2393	}
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	2394
				2395	/*
				2396	* Strictly speaking kernel users cannot create groups and therefore this
				2397	* interface does not need the perf_event_ctx_lock() magic.
				2398	*/
				2399	void perf_event_disable(struct perf_event *event)
				2400	{
				2401	struct perf_event_context *ctx;
				2402
				2403	ctx = perf_event_ctx_lock(event);
				2404	_perf_event_disable(event);
				2405	perf_event_ctx_unlock(event, ctx);
				2406	}
Robert Richter	dcfce4a	2011-10-11 17:11:08 +0200	[diff] [blame]	2407	EXPORT_SYMBOL_GPL(perf_event_disable);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2408
Jiri Olsa	5aab90c	2016-10-26 11:48:24 +0200	[diff] [blame]	2409	void perf_event_disable_inatomic(struct perf_event *event)
				2410	{
Peter Zijlstra	1d54ad9	2019-04-04 15:03:00 +0200	[diff] [blame]	2411	WRITE_ONCE(event->pending_disable, smp_processor_id());
				2412	/* can fail, see perf_pending_event_disable() */
Jiri Olsa	5aab90c	2016-10-26 11:48:24 +0200	[diff] [blame]	2413	irq_work_queue(&event->pending);
				2414	}
				2415
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	2416	static void perf_set_shadow_time(struct perf_event *event,
Peter Zijlstra	0d3d73a	2017-09-05 14:16:28 +0200	[diff] [blame]	2417	struct perf_event_context *ctx)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	2418	{
				2419	/*
				2420	* use the correct time source for the time snapshot
				2421	*
				2422	* We could get by without this by leveraging the
				2423	* fact that to get to this function, the caller
				2424	* has most likely already called update_context_time()
				2425	* and update_cgrp_time_xx() and thus both timestamp
				2426	* are identical (or very close). Given that tstamp is,
				2427	* already adjusted for cgroup, we could say that:
				2428	* tstamp - ctx->timestamp
				2429	* is equivalent to
				2430	* tstamp - cgrp->timestamp.
				2431	*
				2432	* Then, in perf_output_read(), the calculation would
				2433	* work with no changes because:
				2434	* - event is guaranteed scheduled in
				2435	* - no scheduled out in between
				2436	* - thus the timestamp would be the same
				2437	*
				2438	* But this is a bit hairy.
				2439	*
				2440	* So instead, we have an explicit cgroup call to remain
				2441	* within the time time source all along. We believe it
				2442	* is cleaner and simpler to understand.
				2443	*/
				2444	if (is_cgroup_event(event))
Peter Zijlstra	0d3d73a	2017-09-05 14:16:28 +0200	[diff] [blame]	2445	perf_cgroup_set_shadow_time(event, event->tstamp);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	2446	else
Peter Zijlstra	0d3d73a	2017-09-05 14:16:28 +0200	[diff] [blame]	2447	event->shadow_ctx_time = event->tstamp - ctx->timestamp;
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	2448	}
				2449
Peter Zijlstra	4fe757d	2011-02-15 22:26:07 +0100	[diff] [blame]	2450	#define MAX_INTERRUPTS (~0ULL)
				2451
				2452	static void perf_log_throttle(struct perf_event *event, int enable);
Alexander Shishkin	ec0d772	2015-01-14 14:18:23 +0200	[diff] [blame]	2453	static void perf_log_itrace_start(struct perf_event *event);
Peter Zijlstra	4fe757d	2011-02-15 22:26:07 +0100	[diff] [blame]	2454
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2455	static int
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	2456	event_sched_in(struct perf_event *event,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2457	struct perf_cpu_context *cpuctx,
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	2458	struct perf_event_context *ctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2459	{
Alexander Shishkin	4437727	2013-12-16 14:17:36 +0200	[diff] [blame]	2460	int ret = 0;
Stephane Eranian	4158755	2011-01-03 18:20:01 +0200	[diff] [blame]	2461
Peter Zijlstra	ab6f824	2019-08-07 11:17:00 +0200	[diff] [blame]	2462	WARN_ON_ONCE(event->ctx != ctx);
				2463
Peter Zijlstra	6334241	2014-05-05 11:49:16 +0200	[diff] [blame]	2464	lockdep_assert_held(&ctx->lock);
				2465
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2466	if (event->state <= PERF_EVENT_STATE_OFF)
				2467	return 0;
				2468
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	2469	WRITE_ONCE(event->oncpu, smp_processor_id());
				2470	/*
Peter Zijlstra	0c1cbc1	2017-09-05 16:26:44 +0200	[diff] [blame]	2471	* Order event::oncpu write to happen before the ACTIVE state is
				2472	* visible. This allows perf_event_{stop,read}() to observe the correct
				2473	* ->oncpu if it sees ACTIVE.
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	2474	*/
				2475	smp_wmb();
Peter Zijlstra	0d3d73a	2017-09-05 14:16:28 +0200	[diff] [blame]	2476	perf_event_set_state(event, PERF_EVENT_STATE_ACTIVE);
Peter Zijlstra	4fe757d	2011-02-15 22:26:07 +0100	[diff] [blame]	2477
				2478	/*
				2479	* Unthrottle events, since we scheduled we might have missed several
				2480	* ticks already, also for a heavily scheduling task there is little
				2481	* guarantee it'll get a tick in a timely manner.
				2482	*/
				2483	if (unlikely(event->hw.interrupts == MAX_INTERRUPTS)) {
				2484	perf_log_throttle(event, 1);
				2485	event->hw.interrupts = 0;
				2486	}
				2487
Alexander Shishkin	4437727	2013-12-16 14:17:36 +0200	[diff] [blame]	2488	perf_pmu_disable(event->pmu);
				2489
Peter Zijlstra	0d3d73a	2017-09-05 14:16:28 +0200	[diff] [blame]	2490	perf_set_shadow_time(event, ctx);
Shaohua Li	72f669c	2015-02-05 15:55:31 -0800	[diff] [blame]	2491
Alexander Shishkin	ec0d772	2015-01-14 14:18:23 +0200	[diff] [blame]	2492	perf_log_itrace_start(event);
				2493
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	2494	if (event->pmu->add(event, PERF_EF_START)) {
Peter Zijlstra	0d3d73a	2017-09-05 14:16:28 +0200	[diff] [blame]	2495	perf_event_set_state(event, PERF_EVENT_STATE_INACTIVE);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2496	event->oncpu = -1;
Alexander Shishkin	4437727	2013-12-16 14:17:36 +0200	[diff] [blame]	2497	ret = -EAGAIN;
				2498	goto out;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2499	}
				2500
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2501	if (!is_software_event(event))
				2502	cpuctx->active_oncpu++;
Mark Rutland	2fde4f9	2015-01-07 15:01:54 +0000	[diff] [blame]	2503	if (!ctx->nr_active++)
				2504	perf_event_ctx_activate(ctx);
Peter Zijlstra	0f5a260	2011-11-16 14:38:16 +0100	[diff] [blame]	2505	if (event->attr.freq && event->attr.sample_freq)
				2506	ctx->nr_freq++;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2507
				2508	if (event->attr.exclusive)
				2509	cpuctx->exclusive = 1;
				2510
Alexander Shishkin	4437727	2013-12-16 14:17:36 +0200	[diff] [blame]	2511	out:
				2512	perf_pmu_enable(event->pmu);
				2513
				2514	return ret;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2515	}
				2516
				2517	static int
				2518	group_sched_in(struct perf_event *group_event,
				2519	struct perf_cpu_context *cpuctx,
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	2520	struct perf_event_context *ctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2521	{
Lin Ming	6bde9b6	2010-04-23 13:56:00 +0800	[diff] [blame]	2522	struct perf_event event, partial_group = NULL;
Peter Zijlstra	4a23459	2014-02-24 12:43:31 +0100	[diff] [blame]	2523	struct pmu *pmu = ctx->pmu;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2524
				2525	if (group_event->state == PERF_EVENT_STATE_OFF)
				2526	return 0;
				2527
Sukadev Bhattiprolu	fbbe070	2015-09-03 20:07:45 -0700	[diff] [blame]	2528	pmu->start_txn(pmu, PERF_PMU_TXN_ADD);
Lin Ming	6bde9b6	2010-04-23 13:56:00 +0800	[diff] [blame]	2529
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	2530	if (event_sched_in(group_event, cpuctx, ctx)) {
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	2531	pmu->cancel_txn(pmu);
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	2532	perf_mux_hrtimer_restart(cpuctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2533	return -EAGAIN;
Stephane Eranian	90151c35	2010-05-25 16:23:10 +0200	[diff] [blame]	2534	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2535
				2536	/*
				2537	* Schedule in siblings as one group (if any):
				2538	*/
Peter Zijlstra	edb3959	2018-03-15 17:36:56 +0100	[diff] [blame]	2539	for_each_sibling_event(event, group_event) {
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	2540	if (event_sched_in(event, cpuctx, ctx)) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2541	partial_group = event;
				2542	goto group_error;
				2543	}
				2544	}
				2545
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	2546	if (!pmu->commit_txn(pmu))
Paul Mackerras	6e85158	2010-05-08 20:58:00 +1000	[diff] [blame]	2547	return 0;
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	2548
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2549	group_error:
				2550	/*
				2551	* Groups can be scheduled in as one unit only, so undo any
				2552	* partial group before returning:
Peter Zijlstra	0d3d73a	2017-09-05 14:16:28 +0200	[diff] [blame]	2553	* The events up to the failed event are scheduled out normally.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2554	*/
Peter Zijlstra	edb3959	2018-03-15 17:36:56 +0100	[diff] [blame]	2555	for_each_sibling_event(event, group_event) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2556	if (event == partial_group)
Peter Zijlstra	0d3d73a	2017-09-05 14:16:28 +0200	[diff] [blame]	2557	break;
Stephane Eranian	d7842da	2010-10-20 15:25:01 +0200	[diff] [blame]	2558
Peter Zijlstra	0d3d73a	2017-09-05 14:16:28 +0200	[diff] [blame]	2559	event_sched_out(event, cpuctx, ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2560	}
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	2561	event_sched_out(group_event, cpuctx, ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2562
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	2563	pmu->cancel_txn(pmu);
Stephane Eranian	90151c35	2010-05-25 16:23:10 +0200	[diff] [blame]	2564
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	2565	perf_mux_hrtimer_restart(cpuctx);
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	2566
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2567	return -EAGAIN;
				2568	}
				2569
				2570	/*
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2571	* Work out whether we can put this event group on the CPU now.
				2572	*/
				2573	static int group_can_go_on(struct perf_event *event,
				2574	struct perf_cpu_context *cpuctx,
				2575	int can_add_hw)
				2576	{
				2577	/*
				2578	* Groups consisting entirely of software events can always go on.
				2579	*/
David Carrillo-Cisneros	4ff6a8d	2016-08-17 13:55:05 -0700	[diff] [blame]	2580	if (event->group_caps & PERF_EV_CAP_SOFTWARE)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2581	return 1;
				2582	/*
				2583	* If an exclusive group is already on, no other hardware
				2584	* events can go on.
				2585	*/
				2586	if (cpuctx->exclusive)
				2587	return 0;
				2588	/*
				2589	* If this group is exclusive and there are already
				2590	* events on the CPU, it can't go on.
				2591	*/
				2592	if (event->attr.exclusive && cpuctx->active_oncpu)
				2593	return 0;
				2594	/*
				2595	* Otherwise, try to add it if all previous groups were able
				2596	* to go on.
				2597	*/
				2598	return can_add_hw;
				2599	}
				2600
				2601	static void add_event_to_ctx(struct perf_event *event,
				2602	struct perf_event_context *ctx)
				2603	{
				2604	list_add_event(event, ctx);
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	2605	perf_group_attach(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2606	}
				2607
Peter Zijlstra	bd2afa4	2016-02-24 18:45:49 +0100	[diff] [blame]	2608	static void ctx_sched_out(struct perf_event_context *ctx,
				2609	struct perf_cpu_context *cpuctx,
				2610	enum event_type_t event_type);
Peter Zijlstra	2c29ef0	2011-04-09 21:17:44 +0200	[diff] [blame]	2611	static void
				2612	ctx_sched_in(struct perf_event_context *ctx,
				2613	struct perf_cpu_context *cpuctx,
				2614	enum event_type_t event_type,
				2615	struct task_struct *task);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	2616
Peter Zijlstra	bd2afa4	2016-02-24 18:45:49 +0100	[diff] [blame]	2617	static void task_ctx_sched_out(struct perf_cpu_context *cpuctx,
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	2618	struct perf_event_context *ctx,
				2619	enum event_type_t event_type)
Peter Zijlstra	bd2afa4	2016-02-24 18:45:49 +0100	[diff] [blame]	2620	{
				2621	if (!cpuctx->task_ctx)
				2622	return;
				2623
				2624	if (WARN_ON_ONCE(ctx != cpuctx->task_ctx))
				2625	return;
				2626
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	2627	ctx_sched_out(ctx, cpuctx, event_type);
Peter Zijlstra	bd2afa4	2016-02-24 18:45:49 +0100	[diff] [blame]	2628	}
				2629
Peter Zijlstra	dce5855	2011-04-09 21:17:46 +0200	[diff] [blame]	2630	static void perf_event_sched_in(struct perf_cpu_context *cpuctx,
				2631	struct perf_event_context *ctx,
				2632	struct task_struct *task)
				2633	{
				2634	cpu_ctx_sched_in(cpuctx, EVENT_PINNED, task);
				2635	if (ctx)
				2636	ctx_sched_in(ctx, cpuctx, EVENT_PINNED, task);
				2637	cpu_ctx_sched_in(cpuctx, EVENT_FLEXIBLE, task);
				2638	if (ctx)
				2639	ctx_sched_in(ctx, cpuctx, EVENT_FLEXIBLE, task);
				2640	}
				2641
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	2642	/*
				2643	* We want to maintain the following priority of scheduling:
				2644	* - CPU pinned (EVENT_CPU \| EVENT_PINNED)
				2645	* - task pinned (EVENT_PINNED)
				2646	* - CPU flexible (EVENT_CPU \| EVENT_FLEXIBLE)
				2647	* - task flexible (EVENT_FLEXIBLE).
				2648	*
				2649	* In order to avoid unscheduling and scheduling back in everything every
				2650	* time an event is added, only do it for the groups of equal priority and
				2651	* below.
				2652	*
				2653	* This can be called after a batch operation on task events, in which case
				2654	* event_type is a bit mask of the types of events involved. For CPU events,
				2655	* event_type is only either EVENT_PINNED or EVENT_FLEXIBLE.
				2656	*/
Peter Zijlstra	3e34950	2016-01-08 10:01:18 +0100	[diff] [blame]	2657	static void ctx_resched(struct perf_cpu_context *cpuctx,
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	2658	struct perf_event_context *task_ctx,
				2659	enum event_type_t event_type)
Peter Zijlstra	0017960	2015-11-30 16:26:35 +0100	[diff] [blame]	2660	{
Song Liu	bd903af	2018-03-05 21:55:04 -0800	[diff] [blame]	2661	enum event_type_t ctx_event_type;
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	2662	bool cpu_event = !!(event_type & EVENT_CPU);
				2663
				2664	/*
				2665	* If pinned groups are involved, flexible groups also need to be
				2666	* scheduled out.
				2667	*/
				2668	if (event_type & EVENT_PINNED)
				2669	event_type \|= EVENT_FLEXIBLE;
				2670
Song Liu	bd903af	2018-03-05 21:55:04 -0800	[diff] [blame]	2671	ctx_event_type = event_type & EVENT_ALL;
				2672
Peter Zijlstra	3e34950	2016-01-08 10:01:18 +0100	[diff] [blame]	2673	perf_pmu_disable(cpuctx->ctx.pmu);
				2674	if (task_ctx)
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	2675	task_ctx_sched_out(cpuctx, task_ctx, event_type);
				2676
				2677	/*
				2678	* Decide which cpu ctx groups to schedule out based on the types
				2679	* of events that caused rescheduling:
				2680	* - EVENT_CPU: schedule out corresponding groups;
				2681	* - EVENT_PINNED task events: schedule out EVENT_FLEXIBLE groups;
				2682	* - otherwise, do nothing more.
				2683	*/
				2684	if (cpu_event)
				2685	cpu_ctx_sched_out(cpuctx, ctx_event_type);
				2686	else if (ctx_event_type & EVENT_PINNED)
				2687	cpu_ctx_sched_out(cpuctx, EVENT_FLEXIBLE);
				2688
Peter Zijlstra	3e34950	2016-01-08 10:01:18 +0100	[diff] [blame]	2689	perf_event_sched_in(cpuctx, task_ctx, current);
				2690	perf_pmu_enable(cpuctx->ctx.pmu);
Peter Zijlstra	0017960	2015-11-30 16:26:35 +0100	[diff] [blame]	2691	}
				2692
Stephane Eranian	c68d224	2019-04-08 10:32:51 -0700	[diff] [blame]	2693	void perf_pmu_resched(struct pmu *pmu)
				2694	{
				2695	struct perf_cpu_context *cpuctx = this_cpu_ptr(pmu->pmu_cpu_context);
				2696	struct perf_event_context *task_ctx = cpuctx->task_ctx;
				2697
				2698	perf_ctx_lock(cpuctx, task_ctx);
				2699	ctx_resched(cpuctx, task_ctx, EVENT_ALL\|EVENT_CPU);
				2700	perf_ctx_unlock(cpuctx, task_ctx);
				2701	}
				2702
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2703	/*
				2704	* Cross CPU call to install and enable a performance event
				2705	*
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2706	* Very similar to remote_function() + event_function() but cannot assume that
				2707	* things like ctx->is_active and cpuctx->task_ctx are set.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2708	*/
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	2709	static int __perf_install_in_context(void *info)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2710	{
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2711	struct perf_event *event = info;
				2712	struct perf_event_context *ctx = event->ctx;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	2713	struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
Peter Zijlstra	2c29ef0	2011-04-09 21:17:44 +0200	[diff] [blame]	2714	struct perf_event_context *task_ctx = cpuctx->task_ctx;
Peter Zijlstra	63cae12	2016-12-09 14:59:00 +0100	[diff] [blame]	2715	bool reprogram = true;
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2716	int ret = 0;
Peter Zijlstra	2c29ef0	2011-04-09 21:17:44 +0200	[diff] [blame]	2717
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	2718	raw_spin_lock(&cpuctx->ctx.lock);
Peter Zijlstra	39a4364	2016-01-11 12:46:35 +0100	[diff] [blame]	2719	if (ctx->task) {
Peter Zijlstra	b58f6b0	2011-06-07 00:23:28 +0200	[diff] [blame]	2720	raw_spin_lock(&ctx->lock);
				2721	task_ctx = ctx;
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2722
Peter Zijlstra	63cae12	2016-12-09 14:59:00 +0100	[diff] [blame]	2723	reprogram = (ctx->task == current);
				2724
				2725	/*
				2726	* If the task is running, it must be running on this CPU,
				2727	* otherwise we cannot reprogram things.
				2728	*
				2729	* If its not running, we don't care, ctx->lock will
				2730	* serialize against it becoming runnable.
				2731	*/
				2732	if (task_curr(ctx->task) && !reprogram) {
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2733	ret = -ESRCH;
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	2734	goto unlock;
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2735	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2736
Peter Zijlstra	63cae12	2016-12-09 14:59:00 +0100	[diff] [blame]	2737	WARN_ON_ONCE(reprogram && cpuctx->task_ctx && cpuctx->task_ctx != ctx);
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	2738	} else if (task_ctx) {
				2739	raw_spin_lock(&task_ctx->lock);
Peter Zijlstra	b58f6b0	2011-06-07 00:23:28 +0200	[diff] [blame]	2740	}
				2741
leilei.lin	33801b9	2018-03-06 17:36:37 +0800	[diff] [blame]	2742	#ifdef CONFIG_CGROUP_PERF
				2743	if (is_cgroup_event(event)) {
				2744	/*
				2745	* If the current cgroup doesn't match the event's
				2746	* cgroup, we should not try to schedule it.
				2747	*/
				2748	struct perf_cgroup *cgrp = perf_cgroup_from_task(current, ctx);
				2749	reprogram = cgroup_is_descendant(cgrp->css.cgroup,
				2750	event->cgrp->css.cgroup);
				2751	}
				2752	#endif
				2753
Peter Zijlstra	63cae12	2016-12-09 14:59:00 +0100	[diff] [blame]	2754	if (reprogram) {
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2755	ctx_sched_out(ctx, cpuctx, EVENT_TIME);
				2756	add_event_to_ctx(event, ctx);
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	2757	ctx_resched(cpuctx, task_ctx, get_event_type(event));
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2758	} else {
				2759	add_event_to_ctx(event, ctx);
				2760	}
				2761
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	2762	unlock:
Peter Zijlstra	2c29ef0	2011-04-09 21:17:44 +0200	[diff] [blame]	2763	perf_ctx_unlock(cpuctx, task_ctx);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	2764
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2765	return ret;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2766	}
				2767
Alexander Shishkin	8a58dda	2019-07-01 14:07:55 +0300	[diff] [blame]	2768	static bool exclusive_event_installable(struct perf_event *event,
				2769	struct perf_event_context *ctx);
				2770
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2771	/*
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2772	* Attach a performance event to a context.
				2773	*
				2774	* Very similar to event_function_call, see comment there.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2775	*/
				2776	static void
				2777	perf_install_in_context(struct perf_event_context *ctx,
				2778	struct perf_event *event,
				2779	int cpu)
				2780	{
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2781	struct task_struct *task = READ_ONCE(ctx->task);
Peter Zijlstra	39a4364	2016-01-11 12:46:35 +0100	[diff] [blame]	2782
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	2783	lockdep_assert_held(&ctx->mutex);
				2784
Alexander Shishkin	8a58dda	2019-07-01 14:07:55 +0300	[diff] [blame]	2785	WARN_ON_ONCE(!exclusive_event_installable(event, ctx));
				2786
Yan, Zheng	0cda4c0	2012-06-15 14:31:33 +0800	[diff] [blame]	2787	if (event->cpu != -1)
				2788	event->cpu = cpu;
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	2789
Peter Zijlstra	0b8f1e2	2016-08-04 14:37:24 +0200	[diff] [blame]	2790	/*
				2791	* Ensures that if we can observe event->ctx, both the event and ctx
				2792	* will be 'complete'. See perf_iterate_sb_cpu().
				2793	*/
				2794	smp_store_release(&event->ctx, ctx);
				2795
Peter Zijlstra	db0503e	2019-10-21 16:02:39 +0200	[diff] [blame]	2796	/*
				2797	* perf_event_attr::disabled events will not run and can be initialized
				2798	* without IPI. Except when this is the first event for the context, in
				2799	* that case we need the magic of the IPI to set ctx->is_active.
				2800	*
				2801	* The IOC_ENABLE that is sure to follow the creation of a disabled
				2802	* event will issue the IPI and reprogram the hardware.
				2803	*/
				2804	if (__perf_effective_state(event) == PERF_EVENT_STATE_OFF && ctx->nr_events) {
				2805	raw_spin_lock_irq(&ctx->lock);
				2806	if (ctx->task == TASK_TOMBSTONE) {
				2807	raw_spin_unlock_irq(&ctx->lock);
				2808	return;
				2809	}
				2810	add_event_to_ctx(event, ctx);
				2811	raw_spin_unlock_irq(&ctx->lock);
				2812	return;
				2813	}
				2814
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2815	if (!task) {
				2816	cpu_function_call(cpu, __perf_install_in_context, event);
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	2817	return;
				2818	}
Peter Zijlstra	6f932e5	2016-02-24 18:45:43 +0100	[diff] [blame]	2819
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2820	/*
				2821	* Should not happen, we validate the ctx is still alive before calling.
				2822	*/
				2823	if (WARN_ON_ONCE(task == TASK_TOMBSTONE))
				2824	return;
				2825
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2826	/*
				2827	* Installing events is tricky because we cannot rely on ctx->is_active
				2828	* to be set in case this is the nr_events 0 -> 1 transition.
Peter Zijlstra	63cae12	2016-12-09 14:59:00 +0100	[diff] [blame]	2829	*
				2830	* Instead we use task_curr(), which tells us if the task is running.
				2831	* However, since we use task_curr() outside of rq::lock, we can race
				2832	* against the actual state. This means the result can be wrong.
				2833	*
				2834	* If we get a false positive, we retry, this is harmless.
				2835	*
				2836	* If we get a false negative, things are complicated. If we are after
				2837	* perf_event_context_sched_in() ctx::lock will serialize us, and the
				2838	* value must be correct. If we're before, it doesn't matter since
				2839	* perf_event_context_sched_in() will program the counter.
				2840	*
				2841	* However, this hinges on the remote context switch having observed
				2842	* our task->perf_event_ctxp[] store, such that it will in fact take
				2843	* ctx::lock in perf_event_context_sched_in().
				2844	*
				2845	* We do this by task_function_call(), if the IPI fails to hit the task
				2846	* we know any future context switch of task must see the
				2847	* perf_event_ctpx[] store.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2848	*/
Peter Zijlstra	63cae12	2016-12-09 14:59:00 +0100	[diff] [blame]	2849
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2850	/*
Peter Zijlstra	63cae12	2016-12-09 14:59:00 +0100	[diff] [blame]	2851	* This smp_mb() orders the task->perf_event_ctxp[] store with the
				2852	* task_cpu() load, such that if the IPI then does not find the task
				2853	* running, a future context switch of that task must observe the
				2854	* store.
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2855	*/
Peter Zijlstra	63cae12	2016-12-09 14:59:00 +0100	[diff] [blame]	2856	smp_mb();
				2857	again:
				2858	if (!task_function_call(task, __perf_install_in_context, event))
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2859	return;
				2860
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2861	raw_spin_lock_irq(&ctx->lock);
				2862	task = ctx->task;
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2863	if (WARN_ON_ONCE(task == TASK_TOMBSTONE)) {
				2864	/*
				2865	* Cannot happen because we already checked above (which also
				2866	* cannot happen), and we hold ctx->mutex, which serializes us
				2867	* against perf_event_exit_task_context().
				2868	*/
Peter Zijlstra	39a4364	2016-01-11 12:46:35 +0100	[diff] [blame]	2869	raw_spin_unlock_irq(&ctx->lock);
				2870	return;
				2871	}
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2872	/*
Peter Zijlstra	63cae12	2016-12-09 14:59:00 +0100	[diff] [blame]	2873	* If the task is not running, ctx->lock will avoid it becoming so,
				2874	* thus we can safely install the event.
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2875	*/
Peter Zijlstra	63cae12	2016-12-09 14:59:00 +0100	[diff] [blame]	2876	if (task_curr(task)) {
				2877	raw_spin_unlock_irq(&ctx->lock);
				2878	goto again;
				2879	}
				2880	add_event_to_ctx(event, ctx);
				2881	raw_spin_unlock_irq(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2882	}
				2883
				2884	/*
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2885	* Cross CPU call to enable a performance event
				2886	*/
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	2887	static void __perf_event_enable(struct perf_event *event,
				2888	struct perf_cpu_context *cpuctx,
				2889	struct perf_event_context *ctx,
				2890	void *info)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2891	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2892	struct perf_event *leader = event->group_leader;
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	2893	struct perf_event_context *task_ctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2894
Peter Zijlstra	6e801e01	2016-01-26 12:17:08 +0100	[diff] [blame]	2895	if (event->state >= PERF_EVENT_STATE_INACTIVE \|\|
				2896	event->state <= PERF_EVENT_STATE_ERROR)
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	2897	return;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2898
Peter Zijlstra	bd2afa4	2016-02-24 18:45:49 +0100	[diff] [blame]	2899	if (ctx->is_active)
				2900	ctx_sched_out(ctx, cpuctx, EVENT_TIME);
				2901
Peter Zijlstra	0d3d73a	2017-09-05 14:16:28 +0200	[diff] [blame]	2902	perf_event_set_state(event, PERF_EVENT_STATE_INACTIVE);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2903
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	2904	if (!ctx->is_active)
				2905	return;
				2906
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	2907	if (!event_filter_match(event)) {
Peter Zijlstra	bd2afa4	2016-02-24 18:45:49 +0100	[diff] [blame]	2908	ctx_sched_in(ctx, cpuctx, EVENT_TIME, current);
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	2909	return;
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	2910	}
Peter Zijlstra	f4c4176	2009-12-16 17:55:54 +0100	[diff] [blame]	2911
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2912	/*
				2913	* If the event is in a group and isn't the group leader,
				2914	* then don't put it on unless the group is on.
				2915	*/
Peter Zijlstra	bd2afa4	2016-02-24 18:45:49 +0100	[diff] [blame]	2916	if (leader != event && leader->state != PERF_EVENT_STATE_ACTIVE) {
				2917	ctx_sched_in(ctx, cpuctx, EVENT_TIME, current);
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	2918	return;
Peter Zijlstra	bd2afa4	2016-02-24 18:45:49 +0100	[diff] [blame]	2919	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2920
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	2921	task_ctx = cpuctx->task_ctx;
				2922	if (ctx->task)
				2923	WARN_ON_ONCE(task_ctx != ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2924
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	2925	ctx_resched(cpuctx, task_ctx, get_event_type(event));
Peter Zijlstra	7b64801	2015-12-03 18:35:21 +0100	[diff] [blame]	2926	}
				2927
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2928	/*
Tobias Tefke	788faab	2018-07-09 12:57:15 +0200	[diff] [blame]	2929	* Enable an event.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2930	*
				2931	* If event->ctx is a cloned context, callers must make sure that
				2932	* every task struct that event->ctx->task could possibly point to
				2933	* remains valid. This condition is satisfied when called through
				2934	* perf_event_for_each_child or perf_event_for_each as described
				2935	* for perf_event_disable.
				2936	*/
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	2937	static void _perf_event_enable(struct perf_event *event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2938	{
				2939	struct perf_event_context *ctx = event->ctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2940
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	2941	raw_spin_lock_irq(&ctx->lock);
Peter Zijlstra	6e801e01	2016-01-26 12:17:08 +0100	[diff] [blame]	2942	if (event->state >= PERF_EVENT_STATE_INACTIVE \|\|
				2943	event->state < PERF_EVENT_STATE_ERROR) {
Peter Zijlstra	7b64801	2015-12-03 18:35:21 +0100	[diff] [blame]	2944	raw_spin_unlock_irq(&ctx->lock);
				2945	return;
				2946	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2947
				2948	/*
				2949	* If the event is in error state, clear that first.
Peter Zijlstra	7b64801	2015-12-03 18:35:21 +0100	[diff] [blame]	2950	*
				2951	* That way, if we see the event in error state below, we know that it
				2952	* has gone back into error state, as distinct from the task having
				2953	* been scheduled away before the cross-call arrived.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2954	*/
				2955	if (event->state == PERF_EVENT_STATE_ERROR)
				2956	event->state = PERF_EVENT_STATE_OFF;
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	2957	raw_spin_unlock_irq(&ctx->lock);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	2958
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	2959	event_function_call(event, __perf_event_enable, NULL);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2960	}
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	2961
				2962	/*
				2963	* See perf_event_disable();
				2964	*/
				2965	void perf_event_enable(struct perf_event *event)
				2966	{
				2967	struct perf_event_context *ctx;
				2968
				2969	ctx = perf_event_ctx_lock(event);
				2970	_perf_event_enable(event);
				2971	perf_event_ctx_unlock(event, ctx);
				2972	}
Robert Richter	dcfce4a	2011-10-11 17:11:08 +0200	[diff] [blame]	2973	EXPORT_SYMBOL_GPL(perf_event_enable);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2974
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	2975	struct stop_event_data {
				2976	struct perf_event *event;
				2977	unsigned int restart;
				2978	};
				2979
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	2980	static int __perf_event_stop(void *info)
				2981	{
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	2982	struct stop_event_data *sd = info;
				2983	struct perf_event *event = sd->event;
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	2984
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	2985	/* if it's already INACTIVE, do nothing */
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	2986	if (READ_ONCE(event->state) != PERF_EVENT_STATE_ACTIVE)
				2987	return 0;
				2988
				2989	/* matches smp_wmb() in event_sched_in() */
				2990	smp_rmb();
				2991
				2992	/*
				2993	* There is a window with interrupts enabled before we get here,
				2994	* so we need to check again lest we try to stop another CPU's event.
				2995	*/
				2996	if (READ_ONCE(event->oncpu) != smp_processor_id())
				2997	return -EAGAIN;
				2998
				2999	event->pmu->stop(event, PERF_EF_UPDATE);
				3000
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	3001	/*
				3002	* May race with the actual stop (through perf_pmu_output_stop()),
				3003	* but it is only used for events with AUX ring buffer, and such
				3004	* events will refuse to restart because of rb::aux_mmap_count==0,
				3005	* see comments in perf_aux_output_begin().
				3006	*
Tobias Tefke	788faab	2018-07-09 12:57:15 +0200	[diff] [blame]	3007	* Since this is happening on an event-local CPU, no trace is lost
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	3008	* while restarting.
				3009	*/
				3010	if (sd->restart)
Will Deacon	c9bbdd4	2016-08-15 11:42:45 +0100	[diff] [blame]	3011	event->pmu->start(event, 0);
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	3012
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	3013	return 0;
				3014	}
				3015
Alexander Shishkin	767ae08	2016-09-06 16:23:49 +0300	[diff] [blame]	3016	static int perf_event_stop(struct perf_event *event, int restart)
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	3017	{
				3018	struct stop_event_data sd = {
				3019	.event = event,
Alexander Shishkin	767ae08	2016-09-06 16:23:49 +0300	[diff] [blame]	3020	.restart = restart,
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	3021	};
				3022	int ret = 0;
				3023
				3024	do {
				3025	if (READ_ONCE(event->state) != PERF_EVENT_STATE_ACTIVE)
				3026	return 0;
				3027
				3028	/* matches smp_wmb() in event_sched_in() */
				3029	smp_rmb();
				3030
				3031	/*
				3032	* We only want to restart ACTIVE events, so if the event goes
				3033	* inactive here (event->oncpu==-1), there's nothing more to do;
				3034	* fall through with ret==-ENXIO.
				3035	*/
				3036	ret = cpu_function_call(READ_ONCE(event->oncpu),
				3037	__perf_event_stop, &sd);
				3038	} while (ret == -EAGAIN);
				3039
				3040	return ret;
				3041	}
				3042
				3043	/*
				3044	* In order to contain the amount of racy and tricky in the address filter
				3045	* configuration management, it is a two part process:
				3046	*
				3047	* (p1) when userspace mappings change as a result of (1) or (2) or (3) below,
				3048	* we update the addresses of corresponding vmas in
Alexander Shishkin	c60f83b	2019-02-15 13:56:55 +0200	[diff] [blame]	3049	* event::addr_filter_ranges array and bump the event::addr_filters_gen;
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	3050	* (p2) when an event is scheduled in (pmu::add), it calls
				3051	* perf_event_addr_filters_sync() which calls pmu::addr_filters_sync()
				3052	* if the generation has changed since the previous call.
				3053	*
				3054	* If (p1) happens while the event is active, we restart it to force (p2).
				3055	*
				3056	* (1) perf_addr_filters_apply(): adjusting filters' offsets based on
				3057	* pre-existing mappings, called once when new filters arrive via SET_FILTER
				3058	* ioctl;
				3059	* (2) perf_addr_filters_adjust(): adjusting filters' offsets based on newly
				3060	* registered mapping, called for every new mmap(), with mm::mmap_sem down
				3061	* for reading;
				3062	* (3) perf_event_addr_filters_exec(): clearing filters' offsets in the process
				3063	* of exec.
				3064	*/
				3065	void perf_event_addr_filters_sync(struct perf_event *event)
				3066	{
				3067	struct perf_addr_filters_head *ifh = perf_event_addr_filters(event);
				3068
				3069	if (!has_addr_filter(event))
				3070	return;
				3071
				3072	raw_spin_lock(&ifh->lock);
				3073	if (event->addr_filters_gen != event->hw.addr_filters_gen) {
				3074	event->pmu->addr_filters_sync(event);
				3075	event->hw.addr_filters_gen = event->addr_filters_gen;
				3076	}
				3077	raw_spin_unlock(&ifh->lock);
				3078	}
				3079	EXPORT_SYMBOL_GPL(perf_event_addr_filters_sync);
				3080
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	3081	static int _perf_event_refresh(struct perf_event *event, int refresh)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3082	{
				3083	/*
				3084	* not supported on inherited events
				3085	*/
Franck Bui-Huu	2e939d1	2010-11-23 16:21:44 +0100	[diff] [blame]	3086	if (event->attr.inherit \|\| !is_sampling_event(event))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3087	return -EINVAL;
				3088
				3089	atomic_add(refresh, &event->event_limit);
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	3090	_perf_event_enable(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3091
				3092	return 0;
				3093	}
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	3094
				3095	/*
				3096	* See perf_event_disable()
				3097	*/
				3098	int perf_event_refresh(struct perf_event *event, int refresh)
				3099	{
				3100	struct perf_event_context *ctx;
				3101	int ret;
				3102
				3103	ctx = perf_event_ctx_lock(event);
				3104	ret = _perf_event_refresh(event, refresh);
				3105	perf_event_ctx_unlock(event, ctx);
				3106
				3107	return ret;
				3108	}
Avi Kivity	26ca5c1	2011-06-29 18:42:37 +0300	[diff] [blame]	3109	EXPORT_SYMBOL_GPL(perf_event_refresh);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3110
Milind Chabbi	32ff77e	2018-03-12 14:45:47 +0100	[diff] [blame]	3111	static int perf_event_modify_breakpoint(struct perf_event *bp,
				3112	struct perf_event_attr *attr)
				3113	{
				3114	int err;
				3115
				3116	_perf_event_disable(bp);
				3117
				3118	err = modify_user_hw_breakpoint_check(bp, attr, true);
Milind Chabbi	32ff77e	2018-03-12 14:45:47 +0100	[diff] [blame]	3119
Jiri Olsa	bf06278	2018-08-27 11:12:28 +0200	[diff] [blame]	3120	if (!bp->attr.disabled)
Milind Chabbi	32ff77e	2018-03-12 14:45:47 +0100	[diff] [blame]	3121	_perf_event_enable(bp);
Jiri Olsa	bf06278	2018-08-27 11:12:28 +0200	[diff] [blame]	3122
				3123	return err;
Milind Chabbi	32ff77e	2018-03-12 14:45:47 +0100	[diff] [blame]	3124	}
				3125
				3126	static int perf_event_modify_attr(struct perf_event *event,
				3127	struct perf_event_attr *attr)
				3128	{
				3129	if (event->attr.type != attr->type)
				3130	return -EINVAL;
				3131
				3132	switch (event->attr.type) {
				3133	case PERF_TYPE_BREAKPOINT:
				3134	return perf_event_modify_breakpoint(event, attr);
				3135	default:
				3136	/* Place holder for future additions. */
				3137	return -EOPNOTSUPP;
				3138	}
				3139	}
				3140
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	3141	static void ctx_sched_out(struct perf_event_context *ctx,
				3142	struct perf_cpu_context *cpuctx,
				3143	enum event_type_t event_type)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3144	{
Peter Zijlstra	6668128	2017-11-13 14:28:38 +0100	[diff] [blame]	3145	struct perf_event event, tmp;
Peter Zijlstra	db24d33	2011-04-09 21:17:45 +0200	[diff] [blame]	3146	int is_active = ctx->is_active;
Peter Zijlstra	c994d61	2016-01-08 09:20:23 +0100	[diff] [blame]	3147
				3148	lockdep_assert_held(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3149
Peter Zijlstra	39a4364	2016-01-11 12:46:35 +0100	[diff] [blame]	3150	if (likely(!ctx->nr_events)) {
				3151	/*
				3152	* See __perf_remove_from_context().
				3153	*/
				3154	WARN_ON_ONCE(ctx->is_active);
				3155	if (ctx->task)
				3156	WARN_ON_ONCE(cpuctx->task_ctx);
				3157	return;
				3158	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3159
Peter Zijlstra	db24d33	2011-04-09 21:17:45 +0200	[diff] [blame]	3160	ctx->is_active &= ~event_type;
Peter Zijlstra	3cbaa59	2016-02-24 18:45:47 +0100	[diff] [blame]	3161	if (!(ctx->is_active & EVENT_ALL))
				3162	ctx->is_active = 0;
				3163
Peter Zijlstra	63e30d3	2016-01-08 11:39:10 +0100	[diff] [blame]	3164	if (ctx->task) {
				3165	WARN_ON_ONCE(cpuctx->task_ctx != ctx);
				3166	if (!ctx->is_active)
				3167	cpuctx->task_ctx = NULL;
				3168	}
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	3169
Peter Zijlstra	8fdc653	2016-03-29 09:26:44 +0200	[diff] [blame]	3170	/*
				3171	* Always update time if it was set; not only when it changes.
				3172	* Otherwise we can 'forget' to update time for any but the last
				3173	* context we sched out. For example:
				3174	*
				3175	* ctx_sched_out(.event_type = EVENT_FLEXIBLE)
				3176	* ctx_sched_out(.event_type = EVENT_PINNED)
				3177	*
				3178	* would only update time for the pinned events.
				3179	*/
Peter Zijlstra	3cbaa59	2016-02-24 18:45:47 +0100	[diff] [blame]	3180	if (is_active & EVENT_TIME) {
				3181	/* update (and stop) ctx time */
				3182	update_context_time(ctx);
				3183	update_cgrp_time_from_cpuctx(cpuctx);
				3184	}
				3185
Peter Zijlstra	8fdc653	2016-03-29 09:26:44 +0200	[diff] [blame]	3186	is_active ^= ctx->is_active; /* changed bits */
				3187
Peter Zijlstra	3cbaa59	2016-02-24 18:45:47 +0100	[diff] [blame]	3188	if (!ctx->nr_active \|\| !(is_active & EVENT_ALL))
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	3189	return;
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	3190
Ian Rogers	fd7d551	2019-06-01 01:27:22 -0700	[diff] [blame]	3191	/*
				3192	* If we had been multiplexing, no rotations are necessary, now no events
				3193	* are active.
				3194	*/
				3195	ctx->rotate_necessary = 0;
				3196
Peter Zijlstra	075e0b0	2011-04-09 21:17:40 +0200	[diff] [blame]	3197	perf_pmu_disable(ctx->pmu);
Peter Zijlstra	3cbaa59	2016-02-24 18:45:47 +0100	[diff] [blame]	3198	if (is_active & EVENT_PINNED) {
Peter Zijlstra	6668128	2017-11-13 14:28:38 +0100	[diff] [blame]	3199	list_for_each_entry_safe(event, tmp, &ctx->pinned_active, active_list)
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	3200	group_sched_out(event, cpuctx, ctx);
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	3201	}
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	3202
Peter Zijlstra	3cbaa59	2016-02-24 18:45:47 +0100	[diff] [blame]	3203	if (is_active & EVENT_FLEXIBLE) {
Peter Zijlstra	6668128	2017-11-13 14:28:38 +0100	[diff] [blame]	3204	list_for_each_entry_safe(event, tmp, &ctx->flexible_active, active_list)
Xiao Guangrong	8c9ed8e	2009-09-25 13:51:17 +0800	[diff] [blame]	3205	group_sched_out(event, cpuctx, ctx);
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	3206	}
Peter Zijlstra	1b9a644	2010-09-07 18:32:22 +0200	[diff] [blame]	3207	perf_pmu_enable(ctx->pmu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3208	}
				3209
				3210	/*
Peter Zijlstra	5a3126d	2013-10-07 17:12:48 +0200	[diff] [blame]	3211	* Test whether two contexts are equivalent, i.e. whether they have both been
				3212	* cloned from the same version of the same context.
				3213	*
				3214	* Equivalence is measured using a generation number in the context that is
				3215	* incremented on each modification to it; see unclone_ctx(), list_add_event()
				3216	* and list_del_event().
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3217	*/
				3218	static int context_equiv(struct perf_event_context *ctx1,
				3219	struct perf_event_context *ctx2)
				3220	{
Peter Zijlstra	211de6e	2014-09-30 19:23:08 +0200	[diff] [blame]	3221	lockdep_assert_held(&ctx1->lock);
				3222	lockdep_assert_held(&ctx2->lock);
				3223
Peter Zijlstra	5a3126d	2013-10-07 17:12:48 +0200	[diff] [blame]	3224	/* Pinning disables the swap optimization */
				3225	if (ctx1->pin_count \|\| ctx2->pin_count)
				3226	return 0;
				3227
				3228	/* If ctx1 is the parent of ctx2 */
				3229	if (ctx1 == ctx2->parent_ctx && ctx1->generation == ctx2->parent_gen)
				3230	return 1;
				3231
				3232	/* If ctx2 is the parent of ctx1 */
				3233	if (ctx1->parent_ctx == ctx2 && ctx1->parent_gen == ctx2->generation)
				3234	return 1;
				3235
				3236	/*
				3237	* If ctx1 and ctx2 have the same parent; we flatten the parent
				3238	* hierarchy, see perf_event_init_context().
				3239	*/
				3240	if (ctx1->parent_ctx && ctx1->parent_ctx == ctx2->parent_ctx &&
				3241	ctx1->parent_gen == ctx2->parent_gen)
				3242	return 1;
				3243
				3244	/* Unmatched */
				3245	return 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3246	}
				3247
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3248	static void __perf_event_sync_stat(struct perf_event *event,
				3249	struct perf_event *next_event)
				3250	{
				3251	u64 value;
				3252
				3253	if (!event->attr.inherit_stat)
				3254	return;
				3255
				3256	/*
				3257	* Update the event value, we cannot use perf_event_read()
				3258	* because we're in the middle of a context switch and have IRQs
				3259	* disabled, which upsets smp_call_function_single(), however
				3260	* we know the event must be on the current CPU, therefore we
				3261	* don't need to use it.
				3262	*/
Peter Zijlstra	0d3d73a	2017-09-05 14:16:28 +0200	[diff] [blame]	3263	if (event->state == PERF_EVENT_STATE_ACTIVE)
Peter Zijlstra	3dbebf1	2009-11-20 22:19:52 +0100	[diff] [blame]	3264	event->pmu->read(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3265
Peter Zijlstra	0d3d73a	2017-09-05 14:16:28 +0200	[diff] [blame]	3266	perf_event_update_time(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3267
				3268	/*
				3269	* In order to keep per-task stats reliable we need to flip the event
				3270	* values when we flip the contexts.
				3271	*/
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	3272	value = local64_read(&next_event->count);
				3273	value = local64_xchg(&event->count, value);
				3274	local64_set(&next_event->count, value);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3275
				3276	swap(event->total_time_enabled, next_event->total_time_enabled);
				3277	swap(event->total_time_running, next_event->total_time_running);
				3278
				3279	/*
				3280	* Since we swizzled the values, update the user visible data too.
				3281	*/
				3282	perf_event_update_userpage(event);
				3283	perf_event_update_userpage(next_event);
				3284	}
				3285
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3286	static void perf_event_sync_stat(struct perf_event_context *ctx,
				3287	struct perf_event_context *next_ctx)
				3288	{
				3289	struct perf_event event, next_event;
				3290
				3291	if (!ctx->nr_stat)
				3292	return;
				3293
Peter Zijlstra	02ffdbc	2009-11-20 22:19:50 +0100	[diff] [blame]	3294	update_context_time(ctx);
				3295
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3296	event = list_first_entry(&ctx->event_list,
				3297	struct perf_event, event_entry);
				3298
				3299	next_event = list_first_entry(&next_ctx->event_list,
				3300	struct perf_event, event_entry);
				3301
				3302	while (&event->event_entry != &ctx->event_list &&
				3303	&next_event->event_entry != &next_ctx->event_list) {
				3304
				3305	__perf_event_sync_stat(event, next_event);
				3306
				3307	event = list_next_entry(event, event_entry);
				3308	next_event = list_next_entry(next_event, event_entry);
				3309	}
				3310	}
				3311
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	3312	static void perf_event_context_sched_out(struct task_struct *task, int ctxn,
				3313	struct task_struct *next)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3314	{
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3315	struct perf_event_context *ctx = task->perf_event_ctxp[ctxn];
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3316	struct perf_event_context *next_ctx;
Peter Zijlstra	5a3126d	2013-10-07 17:12:48 +0200	[diff] [blame]	3317	struct perf_event_context parent, next_parent;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	3318	struct perf_cpu_context *cpuctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3319	int do_switch = 1;
				3320
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	3321	if (likely(!ctx))
				3322	return;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3323
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	3324	cpuctx = __get_cpu_context(ctx);
				3325	if (!cpuctx->task_ctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3326	return;
				3327
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3328	rcu_read_lock();
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3329	next_ctx = next->perf_event_ctxp[ctxn];
Peter Zijlstra	5a3126d	2013-10-07 17:12:48 +0200	[diff] [blame]	3330	if (!next_ctx)
				3331	goto unlock;
				3332
				3333	parent = rcu_dereference(ctx->parent_ctx);
				3334	next_parent = rcu_dereference(next_ctx->parent_ctx);
				3335
				3336	/* If neither context have a parent context; they cannot be clones. */
Jiri Olsa	802c8a6	2014-09-12 13:18:28 +0200	[diff] [blame]	3337	if (!parent && !next_parent)
Peter Zijlstra	5a3126d	2013-10-07 17:12:48 +0200	[diff] [blame]	3338	goto unlock;
				3339
				3340	if (next_parent == ctx \|\| next_ctx == parent \|\| next_parent == parent) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3341	/*
				3342	* Looks like the two contexts are clones, so we might be
				3343	* able to optimize the context switch. We lock both
				3344	* contexts and check that they are clones under the
				3345	* lock (including re-checking that neither has been
				3346	* uncloned in the meantime). It doesn't matter which
				3347	* order we take the locks because no other cpu could
				3348	* be trying to lock both of these tasks.
				3349	*/
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	3350	raw_spin_lock(&ctx->lock);
				3351	raw_spin_lock_nested(&next_ctx->lock, SINGLE_DEPTH_NESTING);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3352	if (context_equiv(ctx, next_ctx)) {
Alexey Budankov	c2b98a8	2019-10-23 10:13:56 +0300	[diff] [blame]	3353	struct pmu *pmu = ctx->pmu;
				3354
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	3355	WRITE_ONCE(ctx->task, next);
				3356	WRITE_ONCE(next_ctx->task, task);
Yan, Zheng	5a158c3	2014-11-04 21:56:02 -0500	[diff] [blame]	3357
Alexey Budankov	c2b98a8	2019-10-23 10:13:56 +0300	[diff] [blame]	3358	/*
				3359	* PMU specific parts of task perf context can require
				3360	* additional synchronization. As an example of such
				3361	* synchronization see implementation details of Intel
				3362	* LBR call stack data profiling;
				3363	*/
				3364	if (pmu->swap_task_ctx)
				3365	pmu->swap_task_ctx(ctx, next_ctx);
				3366	else
				3367	swap(ctx->task_ctx_data, next_ctx->task_ctx_data);
Yan, Zheng	5a158c3	2014-11-04 21:56:02 -0500	[diff] [blame]	3368
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	3369	/*
				3370	* RCU_INIT_POINTER here is safe because we've not
				3371	* modified the ctx and the above modification of
				3372	* ctx->task and ctx->task_ctx_data are immaterial
				3373	* since those values are always verified under
				3374	* ctx->lock which we're now holding.
				3375	*/
				3376	RCU_INIT_POINTER(task->perf_event_ctxp[ctxn], next_ctx);
				3377	RCU_INIT_POINTER(next->perf_event_ctxp[ctxn], ctx);
				3378
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3379	do_switch = 0;
				3380
				3381	perf_event_sync_stat(ctx, next_ctx);
				3382	}
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	3383	raw_spin_unlock(&next_ctx->lock);
				3384	raw_spin_unlock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3385	}
Peter Zijlstra	5a3126d	2013-10-07 17:12:48 +0200	[diff] [blame]	3386	unlock:
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3387	rcu_read_unlock();
				3388
				3389	if (do_switch) {
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	3390	raw_spin_lock(&ctx->lock);
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	3391	task_ctx_sched_out(cpuctx, ctx, EVENT_ALL);
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	3392	raw_spin_unlock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3393	}
				3394	}
				3395
Peter Zijlstra	e48c178	2016-07-06 09:18:30 +0200	[diff] [blame]	3396	static DEFINE_PER_CPU(struct list_head, sched_cb_list);
				3397
Yan, Zheng	ba53250	2014-11-04 21:55:58 -0500	[diff] [blame]	3398	void perf_sched_cb_dec(struct pmu *pmu)
				3399	{
Peter Zijlstra	e48c178	2016-07-06 09:18:30 +0200	[diff] [blame]	3400	struct perf_cpu_context *cpuctx = this_cpu_ptr(pmu->pmu_cpu_context);
				3401
Yan, Zheng	ba53250	2014-11-04 21:55:58 -0500	[diff] [blame]	3402	this_cpu_dec(perf_sched_cb_usages);
Peter Zijlstra	e48c178	2016-07-06 09:18:30 +0200	[diff] [blame]	3403
				3404	if (!--cpuctx->sched_cb_usage)
				3405	list_del(&cpuctx->sched_cb_entry);
Yan, Zheng	ba53250	2014-11-04 21:55:58 -0500	[diff] [blame]	3406	}
				3407
Peter Zijlstra	e48c178	2016-07-06 09:18:30 +0200	[diff] [blame]	3408
Yan, Zheng	ba53250	2014-11-04 21:55:58 -0500	[diff] [blame]	3409	void perf_sched_cb_inc(struct pmu *pmu)
				3410	{
Peter Zijlstra	e48c178	2016-07-06 09:18:30 +0200	[diff] [blame]	3411	struct perf_cpu_context *cpuctx = this_cpu_ptr(pmu->pmu_cpu_context);
				3412
				3413	if (!cpuctx->sched_cb_usage++)
				3414	list_add(&cpuctx->sched_cb_entry, this_cpu_ptr(&sched_cb_list));
				3415
Yan, Zheng	ba53250	2014-11-04 21:55:58 -0500	[diff] [blame]	3416	this_cpu_inc(perf_sched_cb_usages);
				3417	}
				3418
				3419	/*
				3420	* This function provides the context switch callback to the lower code
				3421	* layer. It is invoked ONLY when the context switch callback is enabled.
Peter Zijlstra	09e61b4f	2016-07-06 18:02:43 +0200	[diff] [blame]	3422	*
				3423	* This callback is relevant even to per-cpu events; for example multi event
				3424	* PEBS requires this to provide PID/TID information. This requires we flush
				3425	* all queued PEBS records before we context switch to a new task.
Yan, Zheng	ba53250	2014-11-04 21:55:58 -0500	[diff] [blame]	3426	*/
				3427	static void perf_pmu_sched_task(struct task_struct *prev,
				3428	struct task_struct *next,
				3429	bool sched_in)
				3430	{
				3431	struct perf_cpu_context *cpuctx;
				3432	struct pmu *pmu;
Yan, Zheng	ba53250	2014-11-04 21:55:58 -0500	[diff] [blame]	3433
				3434	if (prev == next)
				3435	return;
				3436
Peter Zijlstra	e48c178	2016-07-06 09:18:30 +0200	[diff] [blame]	3437	list_for_each_entry(cpuctx, this_cpu_ptr(&sched_cb_list), sched_cb_entry) {
David Carrillo-Cisneros	1fd7e41	2017-01-18 11:24:54 -0800	[diff] [blame]	3438	pmu = cpuctx->ctx.pmu; /* software PMUs will not have sched_task */
Yan, Zheng	ba53250	2014-11-04 21:55:58 -0500	[diff] [blame]	3439
Peter Zijlstra	e48c178	2016-07-06 09:18:30 +0200	[diff] [blame]	3440	if (WARN_ON_ONCE(!pmu->sched_task))
				3441	continue;
Yan, Zheng	ba53250	2014-11-04 21:55:58 -0500	[diff] [blame]	3442
Peter Zijlstra	e48c178	2016-07-06 09:18:30 +0200	[diff] [blame]	3443	perf_ctx_lock(cpuctx, cpuctx->task_ctx);
				3444	perf_pmu_disable(pmu);
Yan, Zheng	ba53250	2014-11-04 21:55:58 -0500	[diff] [blame]	3445
Peter Zijlstra	e48c178	2016-07-06 09:18:30 +0200	[diff] [blame]	3446	pmu->sched_task(cpuctx->task_ctx, sched_in);
Yan, Zheng	ba53250	2014-11-04 21:55:58 -0500	[diff] [blame]	3447
Peter Zijlstra	e48c178	2016-07-06 09:18:30 +0200	[diff] [blame]	3448	perf_pmu_enable(pmu);
				3449	perf_ctx_unlock(cpuctx, cpuctx->task_ctx);
Yan, Zheng	ba53250	2014-11-04 21:55:58 -0500	[diff] [blame]	3450	}
Yan, Zheng	ba53250	2014-11-04 21:55:58 -0500	[diff] [blame]	3451	}
				3452
Adrian Hunter	45ac140	2015-07-21 12:44:02 +0300	[diff] [blame]	3453	static void perf_event_switch(struct task_struct *task,
				3454	struct task_struct *next_prev, bool sched_in);
				3455
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3456	#define for_each_task_context_nr(ctxn) \
				3457	for ((ctxn) = 0; (ctxn) < perf_nr_task_contexts; (ctxn)++)
				3458
				3459	/*
				3460	* Called from scheduler to remove the events of the current task,
				3461	* with interrupts disabled.
				3462	*
				3463	* We stop each event and update the event value in event->count.
				3464	*
				3465	* This does not protect us against NMI, but disable()
				3466	* sets the disabled bit in the control field of event _before_
				3467	* accessing the event control register. If a NMI hits, then it will
				3468	* not restart the event.
				3469	*/
Jiri Olsa	ab0cce5	2012-05-23 13:13:02 +0200	[diff] [blame]	3470	void __perf_event_task_sched_out(struct task_struct *task,
				3471	struct task_struct *next)
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3472	{
				3473	int ctxn;
				3474
Yan, Zheng	ba53250	2014-11-04 21:55:58 -0500	[diff] [blame]	3475	if (__this_cpu_read(perf_sched_cb_usages))
				3476	perf_pmu_sched_task(task, next, false);
				3477
Adrian Hunter	45ac140	2015-07-21 12:44:02 +0300	[diff] [blame]	3478	if (atomic_read(&nr_switch_events))
				3479	perf_event_switch(task, next, false);
				3480
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3481	for_each_task_context_nr(ctxn)
				3482	perf_event_context_sched_out(task, ctxn, next);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	3483
				3484	/*
				3485	* if cgroup events exist on this CPU, then we need
				3486	* to check if we have to switch out PMU state.
				3487	* cgroup event are system-wide mode only
				3488	*/
Christoph Lameter	4a32fea	2014-08-17 12:30:27 -0500	[diff] [blame]	3489	if (atomic_read(this_cpu_ptr(&perf_cgroup_events)))
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	3490	perf_cgroup_sched_out(task, next);
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3491	}
				3492
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3493	/*
				3494	* Called with IRQs disabled
				3495	*/
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	3496	static void cpu_ctx_sched_out(struct perf_cpu_context *cpuctx,
				3497	enum event_type_t event_type)
				3498	{
				3499	ctx_sched_out(&cpuctx->ctx, cpuctx, event_type);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3500	}
				3501
Ian Rogers	6eef8a71	2020-02-13 23:51:30 -0800	[diff] [blame]	3502	static bool perf_less_group_idx(const void l, const void r)
Peter Zijlstra	1cac7b1	2017-11-13 14:28:30 +0100	[diff] [blame]	3503	{
Ian Rogers	6eef8a71	2020-02-13 23:51:30 -0800	[diff] [blame]	3504	const struct perf_event le = l, re = r;
				3505
				3506	return le->group_index < re->group_index;
				3507	}
				3508
				3509	static void swap_ptr(void l, void r)
				3510	{
				3511	void lp = l, rp = r;
				3512
				3513	swap(lp, rp);
				3514	}
				3515
				3516	static const struct min_heap_callbacks perf_min_heap = {
				3517	.elem_size = sizeof(struct perf_event *),
				3518	.less = perf_less_group_idx,
				3519	.swp = swap_ptr,
				3520	};
				3521
				3522	static void __heap_add(struct min_heap heap, struct perf_event event)
				3523	{
				3524	struct perf_event **itrs = heap->data;
				3525
				3526	if (event) {
				3527	itrs[heap->nr] = event;
				3528	heap->nr++;
				3529	}
				3530	}
				3531
Ian Rogers	836196be	2020-02-13 23:51:31 -0800	[diff] [blame]	3532	static noinline int visit_groups_merge(struct perf_cpu_context *cpuctx,
				3533	struct perf_event_groups *groups, int cpu,
Ian Rogers	6eef8a71	2020-02-13 23:51:30 -0800	[diff] [blame]	3534	int (func)(struct perf_event , void *),
				3535	void *data)
				3536	{
Ian Rogers	95ed6c7	2020-02-13 23:51:33 -0800	[diff] [blame^]	3537	#ifdef CONFIG_CGROUP_PERF
				3538	struct cgroup_subsys_state *css = NULL;
				3539	#endif
Ian Rogers	6eef8a71	2020-02-13 23:51:30 -0800	[diff] [blame]	3540	/* Space for per CPU and/or any CPU event iterators. */
				3541	struct perf_event *itrs[2];
Ian Rogers	836196be	2020-02-13 23:51:31 -0800	[diff] [blame]	3542	struct min_heap event_heap;
				3543	struct perf_event **evt;
Peter Zijlstra	1cac7b1	2017-11-13 14:28:30 +0100	[diff] [blame]	3544	int ret;
				3545
Ian Rogers	836196be	2020-02-13 23:51:31 -0800	[diff] [blame]	3546	if (cpuctx) {
				3547	event_heap = (struct min_heap){
				3548	.data = cpuctx->heap,
				3549	.nr = 0,
				3550	.size = cpuctx->heap_size,
				3551	};
Ian Rogers	c2283c9	2020-02-13 23:51:32 -0800	[diff] [blame]	3552
				3553	lockdep_assert_held(&cpuctx->ctx.lock);
Ian Rogers	95ed6c7	2020-02-13 23:51:33 -0800	[diff] [blame^]	3554
				3555	#ifdef CONFIG_CGROUP_PERF
				3556	if (cpuctx->cgrp)
				3557	css = &cpuctx->cgrp->css;
				3558	#endif
Ian Rogers	836196be	2020-02-13 23:51:31 -0800	[diff] [blame]	3559	} else {
				3560	event_heap = (struct min_heap){
				3561	.data = itrs,
				3562	.nr = 0,
				3563	.size = ARRAY_SIZE(itrs),
				3564	};
				3565	/* Events not within a CPU context may be on any CPU. */
Ian Rogers	95ed6c7	2020-02-13 23:51:33 -0800	[diff] [blame^]	3566	__heap_add(&event_heap, perf_event_groups_first(groups, -1, NULL));
Ian Rogers	836196be	2020-02-13 23:51:31 -0800	[diff] [blame]	3567	}
				3568	evt = event_heap.data;
				3569
Ian Rogers	95ed6c7	2020-02-13 23:51:33 -0800	[diff] [blame^]	3570	__heap_add(&event_heap, perf_event_groups_first(groups, cpu, NULL));
				3571
				3572	#ifdef CONFIG_CGROUP_PERF
				3573	for (; css; css = css->parent)
				3574	__heap_add(&event_heap, perf_event_groups_first(groups, cpu, css->cgroup));
				3575	#endif
Peter Zijlstra	1cac7b1	2017-11-13 14:28:30 +0100	[diff] [blame]	3576
Ian Rogers	6eef8a71	2020-02-13 23:51:30 -0800	[diff] [blame]	3577	min_heapify_all(&event_heap, &perf_min_heap);
Peter Zijlstra	1cac7b1	2017-11-13 14:28:30 +0100	[diff] [blame]	3578
Ian Rogers	6eef8a71	2020-02-13 23:51:30 -0800	[diff] [blame]	3579	while (event_heap.nr) {
Peter Zijlstra	1cac7b1	2017-11-13 14:28:30 +0100	[diff] [blame]	3580	ret = func(*evt, data);
				3581	if (ret)
				3582	return ret;
				3583
				3584	evt = perf_event_groups_next(evt);
Ian Rogers	6eef8a71	2020-02-13 23:51:30 -0800	[diff] [blame]	3585	if (*evt)
				3586	min_heapify(&event_heap, 0, &perf_min_heap);
				3587	else
				3588	min_heap_pop(&event_heap, &perf_min_heap);
Peter Zijlstra	1cac7b1	2017-11-13 14:28:30 +0100	[diff] [blame]	3589	}
				3590
				3591	return 0;
				3592	}
				3593
Peter Zijlstra	ab6f824	2019-08-07 11:17:00 +0200	[diff] [blame]	3594	static int merge_sched_in(struct perf_event event, void data)
Peter Zijlstra	1cac7b1	2017-11-13 14:28:30 +0100	[diff] [blame]	3595	{
Peter Zijlstra	2c2366c	2019-08-07 11:45:01 +0200	[diff] [blame]	3596	struct perf_event_context *ctx = event->ctx;
				3597	struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
				3598	int *can_add_hw = data;
Peter Zijlstra	ab6f824	2019-08-07 11:17:00 +0200	[diff] [blame]	3599
Peter Zijlstra	1cac7b1	2017-11-13 14:28:30 +0100	[diff] [blame]	3600	if (event->state <= PERF_EVENT_STATE_OFF)
				3601	return 0;
				3602
				3603	if (!event_filter_match(event))
				3604	return 0;
				3605
Peter Zijlstra	2c2366c	2019-08-07 11:45:01 +0200	[diff] [blame]	3606	if (group_can_go_on(event, cpuctx, *can_add_hw)) {
				3607	if (!group_sched_in(event, cpuctx, ctx))
Peter Zijlstra	ab6f824	2019-08-07 11:17:00 +0200	[diff] [blame]	3608	list_add_tail(&event->active_list, get_event_list(event));
Peter Zijlstra	6668128	2017-11-13 14:28:38 +0100	[diff] [blame]	3609	}
Peter Zijlstra	1cac7b1	2017-11-13 14:28:30 +0100	[diff] [blame]	3610
Peter Zijlstra	ab6f824	2019-08-07 11:17:00 +0200	[diff] [blame]	3611	if (event->state == PERF_EVENT_STATE_INACTIVE) {
				3612	if (event->attr.pinned)
				3613	perf_event_set_state(event, PERF_EVENT_STATE_ERROR);
Peter Zijlstra	1cac7b1	2017-11-13 14:28:30 +0100	[diff] [blame]	3614
Peter Zijlstra	2c2366c	2019-08-07 11:45:01 +0200	[diff] [blame]	3615	*can_add_hw = 0;
				3616	ctx->rotate_necessary = 1;
Peter Zijlstra	1cac7b1	2017-11-13 14:28:30 +0100	[diff] [blame]	3617	}
				3618
				3619	return 0;
				3620	}
				3621
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3622	static void
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	3623	ctx_pinned_sched_in(struct perf_event_context *ctx,
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	3624	struct perf_cpu_context *cpuctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3625	{
Peter Zijlstra	2c2366c	2019-08-07 11:45:01 +0200	[diff] [blame]	3626	int can_add_hw = 1;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3627
Ian Rogers	836196be	2020-02-13 23:51:31 -0800	[diff] [blame]	3628	if (ctx != &cpuctx->ctx)
				3629	cpuctx = NULL;
				3630
				3631	visit_groups_merge(cpuctx, &ctx->pinned_groups,
Peter Zijlstra	1cac7b1	2017-11-13 14:28:30 +0100	[diff] [blame]	3632	smp_processor_id(),
Peter Zijlstra	2c2366c	2019-08-07 11:45:01 +0200	[diff] [blame]	3633	merge_sched_in, &can_add_hw);
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	3634	}
				3635
				3636	static void
				3637	ctx_flexible_sched_in(struct perf_event_context *ctx,
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	3638	struct perf_cpu_context *cpuctx)
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	3639	{
Peter Zijlstra	2c2366c	2019-08-07 11:45:01 +0200	[diff] [blame]	3640	int can_add_hw = 1;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3641
Ian Rogers	836196be	2020-02-13 23:51:31 -0800	[diff] [blame]	3642	if (ctx != &cpuctx->ctx)
				3643	cpuctx = NULL;
				3644
				3645	visit_groups_merge(cpuctx, &ctx->flexible_groups,
Peter Zijlstra	1cac7b1	2017-11-13 14:28:30 +0100	[diff] [blame]	3646	smp_processor_id(),
Peter Zijlstra	2c2366c	2019-08-07 11:45:01 +0200	[diff] [blame]	3647	merge_sched_in, &can_add_hw);
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	3648	}
				3649
				3650	static void
				3651	ctx_sched_in(struct perf_event_context *ctx,
				3652	struct perf_cpu_context *cpuctx,
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	3653	enum event_type_t event_type,
				3654	struct task_struct *task)
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	3655	{
Peter Zijlstra	db24d33	2011-04-09 21:17:45 +0200	[diff] [blame]	3656	int is_active = ctx->is_active;
Peter Zijlstra	c994d61	2016-01-08 09:20:23 +0100	[diff] [blame]	3657	u64 now;
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	3658
Peter Zijlstra	c994d61	2016-01-08 09:20:23 +0100	[diff] [blame]	3659	lockdep_assert_held(&ctx->lock);
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	3660
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	3661	if (likely(!ctx->nr_events))
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	3662	return;
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	3663
Peter Zijlstra	3cbaa59	2016-02-24 18:45:47 +0100	[diff] [blame]	3664	ctx->is_active \|= (event_type \| EVENT_TIME);
Peter Zijlstra	63e30d3	2016-01-08 11:39:10 +0100	[diff] [blame]	3665	if (ctx->task) {
				3666	if (!is_active)
				3667	cpuctx->task_ctx = ctx;
				3668	else
				3669	WARN_ON_ONCE(cpuctx->task_ctx != ctx);
				3670	}
				3671
Peter Zijlstra	3cbaa59	2016-02-24 18:45:47 +0100	[diff] [blame]	3672	is_active ^= ctx->is_active; /* changed bits */
				3673
				3674	if (is_active & EVENT_TIME) {
				3675	/* start ctx time */
				3676	now = perf_clock();
				3677	ctx->timestamp = now;
				3678	perf_cgroup_set_timestamp(task, ctx);
				3679	}
				3680
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	3681	/*
				3682	* First go through the list and put on any pinned groups
				3683	* in order to give them the best chance of going on.
				3684	*/
Peter Zijlstra	3cbaa59	2016-02-24 18:45:47 +0100	[diff] [blame]	3685	if (is_active & EVENT_PINNED)
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	3686	ctx_pinned_sched_in(ctx, cpuctx);
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	3687
				3688	/* Then walk through the lower prio flexible groups */
Peter Zijlstra	3cbaa59	2016-02-24 18:45:47 +0100	[diff] [blame]	3689	if (is_active & EVENT_FLEXIBLE)
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	3690	ctx_flexible_sched_in(ctx, cpuctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3691	}
				3692
Frederic Weisbecker	329c0e0	2010-01-17 12:56:05 +0100	[diff] [blame]	3693	static void cpu_ctx_sched_in(struct perf_cpu_context *cpuctx,
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	3694	enum event_type_t event_type,
				3695	struct task_struct *task)
Frederic Weisbecker	329c0e0	2010-01-17 12:56:05 +0100	[diff] [blame]	3696	{
				3697	struct perf_event_context *ctx = &cpuctx->ctx;
				3698
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	3699	ctx_sched_in(ctx, cpuctx, event_type, task);
Frederic Weisbecker	329c0e0	2010-01-17 12:56:05 +0100	[diff] [blame]	3700	}
				3701
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	3702	static void perf_event_context_sched_in(struct perf_event_context *ctx,
				3703	struct task_struct *task)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3704	{
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3705	struct perf_cpu_context *cpuctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3706
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	3707	cpuctx = __get_cpu_context(ctx);
Frederic Weisbecker	329c0e0	2010-01-17 12:56:05 +0100	[diff] [blame]	3708	if (cpuctx->task_ctx == ctx)
				3709	return;
				3710
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	3711	perf_ctx_lock(cpuctx, ctx);
leilei.lin	fdccc3f	2017-08-09 08:29:21 +0800	[diff] [blame]	3712	/*
				3713	* We must check ctx->nr_events while holding ctx->lock, such
				3714	* that we serialize against perf_install_in_context().
				3715	*/
				3716	if (!ctx->nr_events)
				3717	goto unlock;
				3718
Peter Zijlstra	1b9a644	2010-09-07 18:32:22 +0200	[diff] [blame]	3719	perf_pmu_disable(ctx->pmu);
Frederic Weisbecker	329c0e0	2010-01-17 12:56:05 +0100	[diff] [blame]	3720	/*
				3721	* We want to keep the following priority order:
				3722	* cpu pinned (that don't need to move), task pinned,
				3723	* cpu flexible, task flexible.
Alexander Shishkin	fe45baf	2017-01-19 18:43:29 +0200	[diff] [blame]	3724	*
				3725	* However, if task's ctx is not carrying any pinned
				3726	* events, no need to flip the cpuctx's events around.
Frederic Weisbecker	329c0e0	2010-01-17 12:56:05 +0100	[diff] [blame]	3727	*/
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	3728	if (!RB_EMPTY_ROOT(&ctx->pinned_groups.tree))
Alexander Shishkin	fe45baf	2017-01-19 18:43:29 +0200	[diff] [blame]	3729	cpu_ctx_sched_out(cpuctx, EVENT_FLEXIBLE);
Peter Zijlstra	63e30d3	2016-01-08 11:39:10 +0100	[diff] [blame]	3730	perf_event_sched_in(cpuctx, ctx, task);
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	3731	perf_pmu_enable(ctx->pmu);
leilei.lin	fdccc3f	2017-08-09 08:29:21 +0800	[diff] [blame]	3732
				3733	unlock:
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	3734	perf_ctx_unlock(cpuctx, ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3735	}
				3736
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3737	/*
				3738	* Called from scheduler to add the events of the current task
				3739	* with interrupts disabled.
				3740	*
				3741	* We restore the event value and then enable it.
				3742	*
				3743	* This does not protect us against NMI, but enable()
				3744	* sets the enabled bit in the control field of event _before_
				3745	* accessing the event control register. If a NMI hits, then it will
				3746	* keep the event running.
				3747	*/
Jiri Olsa	ab0cce5	2012-05-23 13:13:02 +0200	[diff] [blame]	3748	void __perf_event_task_sched_in(struct task_struct *prev,
				3749	struct task_struct *task)
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3750	{
				3751	struct perf_event_context *ctx;
				3752	int ctxn;
				3753
Peter Zijlstra	7e41d17	2016-01-08 09:21:40 +0100	[diff] [blame]	3754	/*
				3755	* If cgroup events exist on this CPU, then we need to check if we have
				3756	* to switch in PMU state; cgroup event are system-wide mode only.
				3757	*
				3758	* Since cgroup events are CPU events, we must schedule these in before
				3759	* we schedule in the task events.
				3760	*/
				3761	if (atomic_read(this_cpu_ptr(&perf_cgroup_events)))
				3762	perf_cgroup_sched_in(prev, task);
				3763
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3764	for_each_task_context_nr(ctxn) {
				3765	ctx = task->perf_event_ctxp[ctxn];
				3766	if (likely(!ctx))
				3767	continue;
				3768
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	3769	perf_event_context_sched_in(ctx, task);
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3770	}
Stephane Eranian	d010b33	2012-02-09 23:21:00 +0100	[diff] [blame]	3771
Adrian Hunter	45ac140	2015-07-21 12:44:02 +0300	[diff] [blame]	3772	if (atomic_read(&nr_switch_events))
				3773	perf_event_switch(task, prev, true);
				3774
Yan, Zheng	ba53250	2014-11-04 21:55:58 -0500	[diff] [blame]	3775	if (__this_cpu_read(perf_sched_cb_usages))
				3776	perf_pmu_sched_task(prev, task, true);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3777	}
				3778
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	3779	static u64 perf_calculate_period(struct perf_event *event, u64 nsec, u64 count)
				3780	{
				3781	u64 frequency = event->attr.sample_freq;
				3782	u64 sec = NSEC_PER_SEC;
				3783	u64 divisor, dividend;
				3784
				3785	int count_fls, nsec_fls, frequency_fls, sec_fls;
				3786
				3787	count_fls = fls64(count);
				3788	nsec_fls = fls64(nsec);
				3789	frequency_fls = fls64(frequency);
				3790	sec_fls = 30;
				3791
				3792	/*
				3793	* We got @count in @nsec, with a target of sample_freq HZ
				3794	* the target period becomes:
				3795	*
				3796	* @count * 10^9
				3797	* period = -------------------
				3798	* @nsec * sample_freq
				3799	*
				3800	*/
				3801
				3802	/*
				3803	* Reduce accuracy by one bit such that @a and @b converge
				3804	* to a similar magnitude.
				3805	*/
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	3806	#define REDUCE_FLS(a, b) \
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	3807	do { \
				3808	if (a##_fls > b##_fls) { \
				3809	a >>= 1; \
				3810	a##_fls--; \
				3811	} else { \
				3812	b >>= 1; \
				3813	b##_fls--; \
				3814	} \
				3815	} while (0)
				3816
				3817	/*
				3818	* Reduce accuracy until either term fits in a u64, then proceed with
				3819	* the other, so that finally we can do a u64/u64 division.
				3820	*/
				3821	while (count_fls + sec_fls > 64 && nsec_fls + frequency_fls > 64) {
				3822	REDUCE_FLS(nsec, frequency);
				3823	REDUCE_FLS(sec, count);
				3824	}
				3825
				3826	if (count_fls + sec_fls > 64) {
				3827	divisor = nsec * frequency;
				3828
				3829	while (count_fls + sec_fls > 64) {
				3830	REDUCE_FLS(count, sec);
				3831	divisor >>= 1;
				3832	}
				3833
				3834	dividend = count * sec;
				3835	} else {
				3836	dividend = count * sec;
				3837
				3838	while (nsec_fls + frequency_fls > 64) {
				3839	REDUCE_FLS(nsec, frequency);
				3840	dividend >>= 1;
				3841	}
				3842
				3843	divisor = nsec * frequency;
				3844	}
				3845
Peter Zijlstra	f6ab91ad	2010-06-04 15:18:01 +0200	[diff] [blame]	3846	if (!divisor)
				3847	return dividend;
				3848
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	3849	return div64_u64(dividend, divisor);
				3850	}
				3851
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3852	static DEFINE_PER_CPU(int, perf_throttled_count);
				3853	static DEFINE_PER_CPU(u64, perf_throttled_seq);
				3854
Stephane Eranian	f39d47f	2012-02-07 14:39:57 +0100	[diff] [blame]	3855	static void perf_adjust_period(struct perf_event *event, u64 nsec, u64 count, bool disable)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3856	{
				3857	struct hw_perf_event *hwc = &event->hw;
Peter Zijlstra	f6ab91ad	2010-06-04 15:18:01 +0200	[diff] [blame]	3858	s64 period, sample_period;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3859	s64 delta;
				3860
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	3861	period = perf_calculate_period(event, nsec, count);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3862
				3863	delta = (s64)(period - hwc->sample_period);
				3864	delta = (delta + 7) / 8; /* low pass filter */
				3865
				3866	sample_period = hwc->sample_period + delta;
				3867
				3868	if (!sample_period)
				3869	sample_period = 1;
				3870
				3871	hwc->sample_period = sample_period;
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	3872
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	3873	if (local64_read(&hwc->period_left) > 8*sample_period) {
Stephane Eranian	f39d47f	2012-02-07 14:39:57 +0100	[diff] [blame]	3874	if (disable)
				3875	event->pmu->stop(event, PERF_EF_UPDATE);
				3876
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	3877	local64_set(&hwc->period_left, 0);
Stephane Eranian	f39d47f	2012-02-07 14:39:57 +0100	[diff] [blame]	3878
				3879	if (disable)
				3880	event->pmu->start(event, PERF_EF_RELOAD);
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	3881	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3882	}
				3883
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3884	/*
				3885	* combine freq adjustment with unthrottling to avoid two passes over the
				3886	* events. At the same time, make sure, having freq events does not change
				3887	* the rate of unthrottling as that would introduce bias.
				3888	*/
				3889	static void perf_adjust_freq_unthr_context(struct perf_event_context *ctx,
				3890	int needs_unthr)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3891	{
				3892	struct perf_event *event;
				3893	struct hw_perf_event *hwc;
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3894	u64 now, period = TICK_NSEC;
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	3895	s64 delta;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3896
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3897	/*
				3898	* only need to iterate over all events iff:
				3899	* - context have events in frequency mode (needs freq adjust)
				3900	* - there are events to unthrottle on this cpu
				3901	*/
				3902	if (!(ctx->nr_freq \|\| needs_unthr))
Peter Zijlstra	0f5a260	2011-11-16 14:38:16 +0100	[diff] [blame]	3903	return;
				3904
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3905	raw_spin_lock(&ctx->lock);
Stephane Eranian	f39d47f	2012-02-07 14:39:57 +0100	[diff] [blame]	3906	perf_pmu_disable(ctx->pmu);
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3907
Paul Mackerras	03541f8	2009-10-14 16:58:03 +1100	[diff] [blame]	3908	list_for_each_entry_rcu(event, &ctx->event_list, event_entry) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3909	if (event->state != PERF_EVENT_STATE_ACTIVE)
				3910	continue;
				3911
Stephane Eranian	5632ab1	2011-01-03 18:20:01 +0200	[diff] [blame]	3912	if (!event_filter_match(event))
Peter Zijlstra	5d27c23	2009-12-17 13:16:32 +0100	[diff] [blame]	3913	continue;
				3914
Alexander Shishkin	4437727	2013-12-16 14:17:36 +0200	[diff] [blame]	3915	perf_pmu_disable(event->pmu);
				3916
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3917	hwc = &event->hw;
				3918
Jiri Olsa	ae23bff	2013-08-24 16:45:54 +0200	[diff] [blame]	3919	if (hwc->interrupts == MAX_INTERRUPTS) {
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3920	hwc->interrupts = 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3921	perf_log_throttle(event, 1);
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	3922	event->pmu->start(event, 0);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3923	}
				3924
				3925	if (!event->attr.freq \|\| !event->attr.sample_freq)
Alexander Shishkin	4437727	2013-12-16 14:17:36 +0200	[diff] [blame]	3926	goto next;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3927
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3928	/*
				3929	* stop the event and update event->count
				3930	*/
				3931	event->pmu->stop(event, PERF_EF_UPDATE);
				3932
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	3933	now = local64_read(&event->count);
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	3934	delta = now - hwc->freq_count_stamp;
				3935	hwc->freq_count_stamp = now;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3936
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3937	/*
				3938	* restart the event
				3939	* reload only if value has changed
Stephane Eranian	f39d47f	2012-02-07 14:39:57 +0100	[diff] [blame]	3940	* we have stopped the event so tell that
				3941	* to perf_adjust_period() to avoid stopping it
				3942	* twice.
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3943	*/
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	3944	if (delta > 0)
Stephane Eranian	f39d47f	2012-02-07 14:39:57 +0100	[diff] [blame]	3945	perf_adjust_period(event, period, delta, false);
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3946
				3947	event->pmu->start(event, delta > 0 ? PERF_EF_RELOAD : 0);
Alexander Shishkin	4437727	2013-12-16 14:17:36 +0200	[diff] [blame]	3948	next:
				3949	perf_pmu_enable(event->pmu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3950	}
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3951
Stephane Eranian	f39d47f	2012-02-07 14:39:57 +0100	[diff] [blame]	3952	perf_pmu_enable(ctx->pmu);
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3953	raw_spin_unlock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3954	}
				3955
				3956	/*
Peter Zijlstra	8703a7c	2017-11-13 14:28:44 +0100	[diff] [blame]	3957	* Move @event to the tail of the @ctx's elegible events.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3958	*/
Peter Zijlstra	8703a7c	2017-11-13 14:28:44 +0100	[diff] [blame]	3959	static void rotate_ctx(struct perf_event_context ctx, struct perf_event event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3960	{
Thomas Gleixner	dddd337	2010-11-24 10:05:55 +0100	[diff] [blame]	3961	/*
				3962	* Rotate the first entry last of non-pinned groups. Rotation might be
				3963	* disabled by the inheritance code.
				3964	*/
Peter Zijlstra	8703a7c	2017-11-13 14:28:44 +0100	[diff] [blame]	3965	if (ctx->rotate_disable)
				3966	return;
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	3967
Peter Zijlstra	8703a7c	2017-11-13 14:28:44 +0100	[diff] [blame]	3968	perf_event_groups_delete(&ctx->flexible_groups, event);
				3969	perf_event_groups_insert(&ctx->flexible_groups, event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3970	}
				3971
Song Liu	7fa343b7	2019-10-08 09:59:49 -0700	[diff] [blame]	3972	/* pick an event from the flexible_groups to rotate */
Peter Zijlstra	8d5bce0	2018-03-09 14:56:27 +0100	[diff] [blame]	3973	static inline struct perf_event *
Song Liu	7fa343b7	2019-10-08 09:59:49 -0700	[diff] [blame]	3974	ctx_event_to_rotate(struct perf_event_context *ctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3975	{
Song Liu	7fa343b7	2019-10-08 09:59:49 -0700	[diff] [blame]	3976	struct perf_event *event;
				3977
				3978	/* pick the first active flexible event */
				3979	event = list_first_entry_or_null(&ctx->flexible_active,
				3980	struct perf_event, active_list);
				3981
				3982	/* if no active flexible event, pick the first event */
				3983	if (!event) {
				3984	event = rb_entry_safe(rb_first(&ctx->flexible_groups.tree),
				3985	typeof(*event), group_node);
				3986	}
				3987
				3988	return event;
Peter Zijlstra	8d5bce0	2018-03-09 14:56:27 +0100	[diff] [blame]	3989	}
				3990
				3991	static bool perf_rotate_context(struct perf_cpu_context *cpuctx)
				3992	{
				3993	struct perf_event cpu_event = NULL, task_event = NULL;
Ian Rogers	fd7d551	2019-06-01 01:27:22 -0700	[diff] [blame]	3994	struct perf_event_context *task_ctx = NULL;
				3995	int cpu_rotate, task_rotate;
Peter Zijlstra	8d5bce0	2018-03-09 14:56:27 +0100	[diff] [blame]	3996
				3997	/*
				3998	* Since we run this from IRQ context, nobody can install new
				3999	* events, thus the event count values are stable.
				4000	*/
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4001
Ian Rogers	fd7d551	2019-06-01 01:27:22 -0700	[diff] [blame]	4002	cpu_rotate = cpuctx->ctx.rotate_necessary;
				4003	task_ctx = cpuctx->task_ctx;
				4004	task_rotate = task_ctx ? task_ctx->rotate_necessary : 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4005
Peter Zijlstra	8d5bce0	2018-03-09 14:56:27 +0100	[diff] [blame]	4006	if (!(cpu_rotate \|\| task_rotate))
				4007	return false;
Peter Zijlstra	0f5a260	2011-11-16 14:38:16 +0100	[diff] [blame]	4008
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	4009	perf_ctx_lock(cpuctx, cpuctx->task_ctx);
Peter Zijlstra	1b9a644	2010-09-07 18:32:22 +0200	[diff] [blame]	4010	perf_pmu_disable(cpuctx->ctx.pmu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4011
Peter Zijlstra	8d5bce0	2018-03-09 14:56:27 +0100	[diff] [blame]	4012	if (task_rotate)
Song Liu	7fa343b7	2019-10-08 09:59:49 -0700	[diff] [blame]	4013	task_event = ctx_event_to_rotate(task_ctx);
Peter Zijlstra	8d5bce0	2018-03-09 14:56:27 +0100	[diff] [blame]	4014	if (cpu_rotate)
Song Liu	7fa343b7	2019-10-08 09:59:49 -0700	[diff] [blame]	4015	cpu_event = ctx_event_to_rotate(&cpuctx->ctx);
Peter Zijlstra	8703a7c	2017-11-13 14:28:44 +0100	[diff] [blame]	4016
Peter Zijlstra	8d5bce0	2018-03-09 14:56:27 +0100	[diff] [blame]	4017	/*
				4018	* As per the order given at ctx_resched() first 'pop' task flexible
				4019	* and then, if needed CPU flexible.
				4020	*/
Ian Rogers	fd7d551	2019-06-01 01:27:22 -0700	[diff] [blame]	4021	if (task_event \|\| (task_ctx && cpu_event))
				4022	ctx_sched_out(task_ctx, cpuctx, EVENT_FLEXIBLE);
Peter Zijlstra	8d5bce0	2018-03-09 14:56:27 +0100	[diff] [blame]	4023	if (cpu_event)
				4024	cpu_ctx_sched_out(cpuctx, EVENT_FLEXIBLE);
Peter Zijlstra	d4944a0	2010-03-08 13:51:20 +0100	[diff] [blame]	4025
Peter Zijlstra	8d5bce0	2018-03-09 14:56:27 +0100	[diff] [blame]	4026	if (task_event)
Ian Rogers	fd7d551	2019-06-01 01:27:22 -0700	[diff] [blame]	4027	rotate_ctx(task_ctx, task_event);
Peter Zijlstra	8d5bce0	2018-03-09 14:56:27 +0100	[diff] [blame]	4028	if (cpu_event)
				4029	rotate_ctx(&cpuctx->ctx, cpu_event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4030
Ian Rogers	fd7d551	2019-06-01 01:27:22 -0700	[diff] [blame]	4031	perf_event_sched_in(cpuctx, task_ctx, current);
Peter Zijlstra	0f5a260	2011-11-16 14:38:16 +0100	[diff] [blame]	4032
				4033	perf_pmu_enable(cpuctx->ctx.pmu);
				4034	perf_ctx_unlock(cpuctx, cpuctx->task_ctx);
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	4035
Peter Zijlstra	8d5bce0	2018-03-09 14:56:27 +0100	[diff] [blame]	4036	return true;
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	4037	}
				4038
				4039	void perf_event_task_tick(void)
				4040	{
Mark Rutland	2fde4f9	2015-01-07 15:01:54 +0000	[diff] [blame]	4041	struct list_head *head = this_cpu_ptr(&active_ctx_list);
				4042	struct perf_event_context ctx, tmp;
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	4043	int throttled;
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	4044
Frederic Weisbecker	1644464	2017-11-06 16:01:24 +0100	[diff] [blame]	4045	lockdep_assert_irqs_disabled();
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	4046
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	4047	__this_cpu_inc(perf_throttled_seq);
				4048	throttled = __this_cpu_xchg(perf_throttled_count, 0);
Frederic Weisbecker	555e0c1	2015-07-16 17:42:29 +0200	[diff] [blame]	4049	tick_dep_clear_cpu(smp_processor_id(), TICK_DEP_BIT_PERF_EVENTS);
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	4050
Mark Rutland	2fde4f9	2015-01-07 15:01:54 +0000	[diff] [blame]	4051	list_for_each_entry_safe(ctx, tmp, head, active_ctx_list)
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	4052	perf_adjust_freq_unthr_context(ctx, throttled);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4053	}
				4054
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	4055	static int event_enable_on_exec(struct perf_event *event,
				4056	struct perf_event_context *ctx)
				4057	{
				4058	if (!event->attr.enable_on_exec)
				4059	return 0;
				4060
				4061	event->attr.enable_on_exec = 0;
				4062	if (event->state >= PERF_EVENT_STATE_INACTIVE)
				4063	return 0;
				4064
Peter Zijlstra	0d3d73a	2017-09-05 14:16:28 +0200	[diff] [blame]	4065	perf_event_set_state(event, PERF_EVENT_STATE_INACTIVE);
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	4066
				4067	return 1;
				4068	}
				4069
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4070	/*
				4071	* Enable all of a task's events that have been marked enable-on-exec.
				4072	* This expects task == current.
				4073	*/
Peter Zijlstra	c127449	2015-12-10 20:57:40 +0100	[diff] [blame]	4074	static void perf_event_enable_on_exec(int ctxn)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4075	{
Peter Zijlstra	c127449	2015-12-10 20:57:40 +0100	[diff] [blame]	4076	struct perf_event_context ctx, clone_ctx = NULL;
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	4077	enum event_type_t event_type = 0;
Peter Zijlstra	3e34950	2016-01-08 10:01:18 +0100	[diff] [blame]	4078	struct perf_cpu_context *cpuctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4079	struct perf_event *event;
				4080	unsigned long flags;
				4081	int enabled = 0;
				4082
				4083	local_irq_save(flags);
Peter Zijlstra	c127449	2015-12-10 20:57:40 +0100	[diff] [blame]	4084	ctx = current->perf_event_ctxp[ctxn];
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4085	if (!ctx \|\| !ctx->nr_events)
				4086	goto out;
				4087
Peter Zijlstra	3e34950	2016-01-08 10:01:18 +0100	[diff] [blame]	4088	cpuctx = __get_cpu_context(ctx);
				4089	perf_ctx_lock(cpuctx, ctx);
Peter Zijlstra	7fce250	2016-02-24 18:45:48 +0100	[diff] [blame]	4090	ctx_sched_out(ctx, cpuctx, EVENT_TIME);
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	4091	list_for_each_entry(event, &ctx->event_list, event_entry) {
Peter Zijlstra	3e34950	2016-01-08 10:01:18 +0100	[diff] [blame]	4092	enabled \|= event_enable_on_exec(event, ctx);
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	4093	event_type \|= get_event_type(event);
				4094	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4095
				4096	/*
Peter Zijlstra	3e34950	2016-01-08 10:01:18 +0100	[diff] [blame]	4097	* Unclone and reschedule this context if we enabled any event.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4098	*/
Peter Zijlstra	3e34950	2016-01-08 10:01:18 +0100	[diff] [blame]	4099	if (enabled) {
Peter Zijlstra	211de6e	2014-09-30 19:23:08 +0200	[diff] [blame]	4100	clone_ctx = unclone_ctx(ctx);
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	4101	ctx_resched(cpuctx, ctx, event_type);
Peter Zijlstra	7bbba0e	2017-02-15 16:12:20 +0100	[diff] [blame]	4102	} else {
				4103	ctx_sched_in(ctx, cpuctx, EVENT_TIME, current);
Peter Zijlstra	3e34950	2016-01-08 10:01:18 +0100	[diff] [blame]	4104	}
				4105	perf_ctx_unlock(cpuctx, ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4106
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	4107	out:
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4108	local_irq_restore(flags);
Peter Zijlstra	211de6e	2014-09-30 19:23:08 +0200	[diff] [blame]	4109
				4110	if (clone_ctx)
				4111	put_ctx(clone_ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4112	}
				4113
Peter Zijlstra	0492d4c	2015-09-03 20:07:48 -0700	[diff] [blame]	4114	struct perf_read_data {
				4115	struct perf_event *event;
				4116	bool group;
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	4117	int ret;
Peter Zijlstra	0492d4c	2015-09-03 20:07:48 -0700	[diff] [blame]	4118	};
				4119
Peter Zijlstra	451d24d	2017-01-31 11:27:10 +0100	[diff] [blame]	4120	static int __perf_event_read_cpu(struct perf_event *event, int event_cpu)
David Carrillo-Cisneros	d6a2f903	2016-08-17 13:55:06 -0700	[diff] [blame]	4121	{
David Carrillo-Cisneros	d6a2f903	2016-08-17 13:55:06 -0700	[diff] [blame]	4122	u16 local_pkg, event_pkg;
				4123
				4124	if (event->group_caps & PERF_EV_CAP_READ_ACTIVE_PKG) {
Peter Zijlstra	451d24d	2017-01-31 11:27:10 +0100	[diff] [blame]	4125	int local_cpu = smp_processor_id();
				4126
				4127	event_pkg = topology_physical_package_id(event_cpu);
				4128	local_pkg = topology_physical_package_id(local_cpu);
David Carrillo-Cisneros	d6a2f903	2016-08-17 13:55:06 -0700	[diff] [blame]	4129
				4130	if (event_pkg == local_pkg)
				4131	return local_cpu;
				4132	}
				4133
				4134	return event_cpu;
				4135	}
				4136
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4137	/*
				4138	* Cross CPU call to read the hardware event
				4139	*/
				4140	static void __perf_event_read(void *info)
				4141	{
Peter Zijlstra	0492d4c	2015-09-03 20:07:48 -0700	[diff] [blame]	4142	struct perf_read_data *data = info;
				4143	struct perf_event sub, event = data->event;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4144	struct perf_event_context *ctx = event->ctx;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	4145	struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
Sukadev Bhattiprolu	4a00c16	2015-09-03 20:07:51 -0700	[diff] [blame]	4146	struct pmu *pmu = event->pmu;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4147
				4148	/*
				4149	* If this is a task context, we need to check whether it is
				4150	* the current task context of this cpu. If not it has been
				4151	* scheduled out before the smp call arrived. In that case
				4152	* event->count would have been updated to a recent sample
				4153	* when the event was scheduled out.
				4154	*/
				4155	if (ctx->task && cpuctx->task_ctx != ctx)
				4156	return;
				4157
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	4158	raw_spin_lock(&ctx->lock);
Peter Zijlstra	0c1cbc1	2017-09-05 16:26:44 +0200	[diff] [blame]	4159	if (ctx->is_active & EVENT_TIME) {
Peter Zijlstra	542e72f	2011-01-26 15:38:35 +0100	[diff] [blame]	4160	update_context_time(ctx);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	4161	update_cgrp_time_from_event(event);
				4162	}
Peter Zijlstra	0492d4c	2015-09-03 20:07:48 -0700	[diff] [blame]	4163
Peter Zijlstra	0d3d73a	2017-09-05 14:16:28 +0200	[diff] [blame]	4164	perf_event_update_time(event);
				4165	if (data->group)
				4166	perf_event_update_sibling_time(event);
Peter Zijlstra	0c1cbc1	2017-09-05 16:26:44 +0200	[diff] [blame]	4167
Sukadev Bhattiprolu	4a00c16	2015-09-03 20:07:51 -0700	[diff] [blame]	4168	if (event->state != PERF_EVENT_STATE_ACTIVE)
Peter Zijlstra	0492d4c	2015-09-03 20:07:48 -0700	[diff] [blame]	4169	goto unlock;
				4170
Sukadev Bhattiprolu	4a00c16	2015-09-03 20:07:51 -0700	[diff] [blame]	4171	if (!data->group) {
				4172	pmu->read(event);
				4173	data->ret = 0;
				4174	goto unlock;
				4175	}
				4176
				4177	pmu->start_txn(pmu, PERF_PMU_TXN_READ);
				4178
				4179	pmu->read(event);
				4180
Peter Zijlstra	edb3959	2018-03-15 17:36:56 +0100	[diff] [blame]	4181	for_each_sibling_event(sub, event) {
Sukadev Bhattiprolu	4a00c16	2015-09-03 20:07:51 -0700	[diff] [blame]	4182	if (sub->state == PERF_EVENT_STATE_ACTIVE) {
				4183	/*
				4184	* Use sibling's PMU rather than @event's since
				4185	* sibling could be on different (eg: software) PMU.
				4186	*/
Peter Zijlstra	0492d4c	2015-09-03 20:07:48 -0700	[diff] [blame]	4187	sub->pmu->read(sub);
Sukadev Bhattiprolu	4a00c16	2015-09-03 20:07:51 -0700	[diff] [blame]	4188	}
Peter Zijlstra	0492d4c	2015-09-03 20:07:48 -0700	[diff] [blame]	4189	}
Sukadev Bhattiprolu	4a00c16	2015-09-03 20:07:51 -0700	[diff] [blame]	4190
				4191	data->ret = pmu->commit_txn(pmu);
Peter Zijlstra	0492d4c	2015-09-03 20:07:48 -0700	[diff] [blame]	4192
				4193	unlock:
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	4194	raw_spin_unlock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4195	}
				4196
Peter Zijlstra	b5e5879	2010-05-21 14:43:12 +0200	[diff] [blame]	4197	static inline u64 perf_event_count(struct perf_event *event)
				4198	{
Vikas Shivappa	c39a0e2	2017-07-25 14:14:20 -0700	[diff] [blame]	4199	return local64_read(&event->count) + atomic64_read(&event->child_count);
Peter Zijlstra	b5e5879	2010-05-21 14:43:12 +0200	[diff] [blame]	4200	}
				4201
Kaixu Xia	ffe8690	2015-08-06 07:02:32 +0000	[diff] [blame]	4202	/*
				4203	* NMI-safe method to read a local event, that is an event that
				4204	* is:
				4205	* - either for the current task, or for this CPU
				4206	* - does not have inherit set, for inherited task events
				4207	* will not be local and we cannot read them atomically
				4208	* - must not have a pmu::count method
				4209	*/
Yonghong Song	7d9285e	2017-10-05 09:19:19 -0700	[diff] [blame]	4210	int perf_event_read_local(struct perf_event event, u64 value,
				4211	u64 enabled, u64 running)
Kaixu Xia	ffe8690	2015-08-06 07:02:32 +0000	[diff] [blame]	4212	{
				4213	unsigned long flags;
Alexei Starovoitov	f91840a	2017-06-02 21:03:52 -0700	[diff] [blame]	4214	int ret = 0;
Kaixu Xia	ffe8690	2015-08-06 07:02:32 +0000	[diff] [blame]	4215
				4216	/*
				4217	* Disabling interrupts avoids all counter scheduling (context
				4218	* switches, timer based rotation and IPIs).
				4219	*/
				4220	local_irq_save(flags);
				4221
Kaixu Xia	ffe8690	2015-08-06 07:02:32 +0000	[diff] [blame]	4222	/*
				4223	* It must not be an event with inherit set, we cannot read
				4224	* all child counters from atomic context.
				4225	*/
Alexei Starovoitov	f91840a	2017-06-02 21:03:52 -0700	[diff] [blame]	4226	if (event->attr.inherit) {
				4227	ret = -EOPNOTSUPP;
				4228	goto out;
				4229	}
Kaixu Xia	ffe8690	2015-08-06 07:02:32 +0000	[diff] [blame]	4230
Alexei Starovoitov	f91840a	2017-06-02 21:03:52 -0700	[diff] [blame]	4231	/* If this is a per-task event, it must be for current */
				4232	if ((event->attach_state & PERF_ATTACH_TASK) &&
				4233	event->hw.target != current) {
				4234	ret = -EINVAL;
				4235	goto out;
				4236	}
				4237
				4238	/* If this is a per-CPU event, it must be for this CPU */
				4239	if (!(event->attach_state & PERF_ATTACH_TASK) &&
				4240	event->cpu != smp_processor_id()) {
				4241	ret = -EINVAL;
				4242	goto out;
				4243	}
Kaixu Xia	ffe8690	2015-08-06 07:02:32 +0000	[diff] [blame]	4244
Reinette Chatre	befb1b3	2018-09-19 10:29:06 -0700	[diff] [blame]	4245	/* If this is a pinned event it must be running on this CPU */
				4246	if (event->attr.pinned && event->oncpu != smp_processor_id()) {
				4247	ret = -EBUSY;
				4248	goto out;
				4249	}
				4250
Kaixu Xia	ffe8690	2015-08-06 07:02:32 +0000	[diff] [blame]	4251	/*
				4252	* If the event is currently on this CPU, its either a per-task event,
				4253	* or local to this CPU. Furthermore it means its ACTIVE (otherwise
				4254	* oncpu == -1).
				4255	*/
				4256	if (event->oncpu == smp_processor_id())
				4257	event->pmu->read(event);
				4258
Alexei Starovoitov	f91840a	2017-06-02 21:03:52 -0700	[diff] [blame]	4259	*value = local64_read(&event->count);
Peter Zijlstra	0d3d73a	2017-09-05 14:16:28 +0200	[diff] [blame]	4260	if (enabled \|\| running) {
				4261	u64 now = event->shadow_ctx_time + perf_clock();
				4262	u64 __enabled, __running;
				4263
				4264	__perf_update_times(event, now, &__enabled, &__running);
				4265	if (enabled)
				4266	*enabled = __enabled;
				4267	if (running)
				4268	*running = __running;
				4269	}
Alexei Starovoitov	f91840a	2017-06-02 21:03:52 -0700	[diff] [blame]	4270	out:
Kaixu Xia	ffe8690	2015-08-06 07:02:32 +0000	[diff] [blame]	4271	local_irq_restore(flags);
				4272
Alexei Starovoitov	f91840a	2017-06-02 21:03:52 -0700	[diff] [blame]	4273	return ret;
Kaixu Xia	ffe8690	2015-08-06 07:02:32 +0000	[diff] [blame]	4274	}
				4275
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	4276	static int perf_event_read(struct perf_event *event, bool group)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4277	{
Peter Zijlstra	0c1cbc1	2017-09-05 16:26:44 +0200	[diff] [blame]	4278	enum perf_event_state state = READ_ONCE(event->state);
Peter Zijlstra	451d24d	2017-01-31 11:27:10 +0100	[diff] [blame]	4279	int event_cpu, ret = 0;
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	4280
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4281	/*
				4282	* If event is enabled and currently active on a CPU, update the
				4283	* value in the event structure:
				4284	*/
Peter Zijlstra	0c1cbc1	2017-09-05 16:26:44 +0200	[diff] [blame]	4285	again:
				4286	if (state == PERF_EVENT_STATE_ACTIVE) {
				4287	struct perf_read_data data;
				4288
				4289	/*
				4290	* Orders the ->state and ->oncpu loads such that if we see
				4291	* ACTIVE we must also see the right ->oncpu.
				4292	*
				4293	* Matches the smp_wmb() from event_sched_in().
				4294	*/
				4295	smp_rmb();
David Carrillo-Cisneros	d6a2f903	2016-08-17 13:55:06 -0700	[diff] [blame]	4296
Peter Zijlstra	451d24d	2017-01-31 11:27:10 +0100	[diff] [blame]	4297	event_cpu = READ_ONCE(event->oncpu);
				4298	if ((unsigned)event_cpu >= nr_cpu_ids)
				4299	return 0;
				4300
Peter Zijlstra	0c1cbc1	2017-09-05 16:26:44 +0200	[diff] [blame]	4301	data = (struct perf_read_data){
				4302	.event = event,
				4303	.group = group,
				4304	.ret = 0,
				4305	};
				4306
Peter Zijlstra	451d24d	2017-01-31 11:27:10 +0100	[diff] [blame]	4307	preempt_disable();
				4308	event_cpu = __perf_event_read_cpu(event, event_cpu);
David Carrillo-Cisneros	d6a2f903	2016-08-17 13:55:06 -0700	[diff] [blame]	4309
Peter Zijlstra	5876314	2016-08-30 10:15:03 +0200	[diff] [blame]	4310	/*
				4311	* Purposely ignore the smp_call_function_single() return
				4312	* value.
				4313	*
Peter Zijlstra	451d24d	2017-01-31 11:27:10 +0100	[diff] [blame]	4314	* If event_cpu isn't a valid CPU it means the event got
Peter Zijlstra	5876314	2016-08-30 10:15:03 +0200	[diff] [blame]	4315	* scheduled out and that will have updated the event count.
				4316	*
				4317	* Therefore, either way, we'll have an up-to-date event count
				4318	* after this.
				4319	*/
Peter Zijlstra	451d24d	2017-01-31 11:27:10 +0100	[diff] [blame]	4320	(void)smp_call_function_single(event_cpu, __perf_event_read, &data, 1);
				4321	preempt_enable();
Peter Zijlstra	5876314	2016-08-30 10:15:03 +0200	[diff] [blame]	4322	ret = data.ret;
Peter Zijlstra	0c1cbc1	2017-09-05 16:26:44 +0200	[diff] [blame]	4323
				4324	} else if (state == PERF_EVENT_STATE_INACTIVE) {
Peter Zijlstra	2b8988c	2009-11-20 22:19:54 +0100	[diff] [blame]	4325	struct perf_event_context *ctx = event->ctx;
				4326	unsigned long flags;
				4327
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	4328	raw_spin_lock_irqsave(&ctx->lock, flags);
Peter Zijlstra	0c1cbc1	2017-09-05 16:26:44 +0200	[diff] [blame]	4329	state = event->state;
				4330	if (state != PERF_EVENT_STATE_INACTIVE) {
				4331	raw_spin_unlock_irqrestore(&ctx->lock, flags);
				4332	goto again;
				4333	}
				4334
Stephane Eranian	c530ccd	2010-10-15 15:26:01 +0200	[diff] [blame]	4335	/*
Peter Zijlstra	0c1cbc1	2017-09-05 16:26:44 +0200	[diff] [blame]	4336	* May read while context is not active (e.g., thread is
				4337	* blocked), in that case we cannot update context time
Stephane Eranian	c530ccd	2010-10-15 15:26:01 +0200	[diff] [blame]	4338	*/
Peter Zijlstra	0c1cbc1	2017-09-05 16:26:44 +0200	[diff] [blame]	4339	if (ctx->is_active & EVENT_TIME) {
Stephane Eranian	c530ccd	2010-10-15 15:26:01 +0200	[diff] [blame]	4340	update_context_time(ctx);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	4341	update_cgrp_time_from_event(event);
				4342	}
Peter Zijlstra	0c1cbc1	2017-09-05 16:26:44 +0200	[diff] [blame]	4343
Peter Zijlstra	0d3d73a	2017-09-05 14:16:28 +0200	[diff] [blame]	4344	perf_event_update_time(event);
Peter Zijlstra	0492d4c	2015-09-03 20:07:48 -0700	[diff] [blame]	4345	if (group)
Peter Zijlstra	0d3d73a	2017-09-05 14:16:28 +0200	[diff] [blame]	4346	perf_event_update_sibling_time(event);
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	4347	raw_spin_unlock_irqrestore(&ctx->lock, flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4348	}
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	4349
				4350	return ret;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4351	}
				4352
				4353	/*
				4354	* Initialize the perf_event context in a task_struct:
				4355	*/
Peter Zijlstra	eb18447	2010-09-07 15:55:13 +0200	[diff] [blame]	4356	static void __perf_event_init_context(struct perf_event_context *ctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4357	{
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	4358	raw_spin_lock_init(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4359	mutex_init(&ctx->mutex);
Mark Rutland	2fde4f9	2015-01-07 15:01:54 +0000	[diff] [blame]	4360	INIT_LIST_HEAD(&ctx->active_ctx_list);
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	4361	perf_event_groups_init(&ctx->pinned_groups);
				4362	perf_event_groups_init(&ctx->flexible_groups);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4363	INIT_LIST_HEAD(&ctx->event_list);
Peter Zijlstra	6668128	2017-11-13 14:28:38 +0100	[diff] [blame]	4364	INIT_LIST_HEAD(&ctx->pinned_active);
				4365	INIT_LIST_HEAD(&ctx->flexible_active);
Elena Reshetova	8c94abb	2019-01-28 14:27:26 +0200	[diff] [blame]	4366	refcount_set(&ctx->refcount, 1);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4367	}
				4368
Peter Zijlstra	eb18447	2010-09-07 15:55:13 +0200	[diff] [blame]	4369	static struct perf_event_context *
				4370	alloc_perf_context(struct pmu pmu, struct task_struct task)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4371	{
				4372	struct perf_event_context *ctx;
Peter Zijlstra	eb18447	2010-09-07 15:55:13 +0200	[diff] [blame]	4373
				4374	ctx = kzalloc(sizeof(struct perf_event_context), GFP_KERNEL);
				4375	if (!ctx)
				4376	return NULL;
				4377
				4378	__perf_event_init_context(ctx);
Matthew Wilcox (Oracle)	7b3c92b	2019-07-04 15:13:23 -0700	[diff] [blame]	4379	if (task)
				4380	ctx->task = get_task_struct(task);
Peter Zijlstra	eb18447	2010-09-07 15:55:13 +0200	[diff] [blame]	4381	ctx->pmu = pmu;
				4382
				4383	return ctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4384	}
				4385
Matt Helsley	2ebd4ff	2010-09-13 13:01:19 -0700	[diff] [blame]	4386	static struct task_struct *
				4387	find_lively_task_by_vpid(pid_t vpid)
				4388	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4389	struct task_struct *task;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4390
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4391	rcu_read_lock();
Matt Helsley	2ebd4ff	2010-09-13 13:01:19 -0700	[diff] [blame]	4392	if (!vpid)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4393	task = current;
				4394	else
Matt Helsley	2ebd4ff	2010-09-13 13:01:19 -0700	[diff] [blame]	4395	task = find_task_by_vpid(vpid);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4396	if (task)
				4397	get_task_struct(task);
				4398	rcu_read_unlock();
				4399
				4400	if (!task)
				4401	return ERR_PTR(-ESRCH);
				4402
Matt Helsley	2ebd4ff	2010-09-13 13:01:19 -0700	[diff] [blame]	4403	return task;
Matt Helsley	2ebd4ff	2010-09-13 13:01:19 -0700	[diff] [blame]	4404	}
				4405
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	4406	/*
				4407	* Returns a matching context with refcount and pincount.
				4408	*/
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	4409	static struct perf_event_context *
Yan, Zheng	4af57ef	2014-11-04 21:56:01 -0500	[diff] [blame]	4410	find_get_context(struct pmu pmu, struct task_struct task,
				4411	struct perf_event *event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4412	{
Peter Zijlstra	211de6e	2014-09-30 19:23:08 +0200	[diff] [blame]	4413	struct perf_event_context ctx, clone_ctx = NULL;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4414	struct perf_cpu_context *cpuctx;
Yan, Zheng	4af57ef	2014-11-04 21:56:01 -0500	[diff] [blame]	4415	void *task_ctx_data = NULL;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4416	unsigned long flags;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	4417	int ctxn, err;
Yan, Zheng	4af57ef	2014-11-04 21:56:01 -0500	[diff] [blame]	4418	int cpu = event->cpu;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4419
Oleg Nesterov	22a4ec7	2011-01-18 17:10:08 +0100	[diff] [blame]	4420	if (!task) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4421	/* Must be root to operate on a CPU event: */
Joel Fernandes (Google)	da97e18	2019-10-14 13:03:08 -0400	[diff] [blame]	4422	err = perf_allow_cpu(&event->attr);
				4423	if (err)
				4424	return ERR_PTR(err);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4425
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	4426	cpuctx = per_cpu_ptr(pmu->pmu_cpu_context, cpu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4427	ctx = &cpuctx->ctx;
				4428	get_ctx(ctx);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	4429	++ctx->pin_count;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4430
				4431	return ctx;
				4432	}
				4433
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	4434	err = -EINVAL;
				4435	ctxn = pmu->task_ctx_nr;
				4436	if (ctxn < 0)
				4437	goto errout;
				4438
Yan, Zheng	4af57ef	2014-11-04 21:56:01 -0500	[diff] [blame]	4439	if (event->attach_state & PERF_ATTACH_TASK_DATA) {
				4440	task_ctx_data = kzalloc(pmu->task_ctx_size, GFP_KERNEL);
				4441	if (!task_ctx_data) {
				4442	err = -ENOMEM;
				4443	goto errout;
				4444	}
				4445	}
				4446
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	4447	retry:
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	4448	ctx = perf_lock_task_context(task, ctxn, &flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4449	if (ctx) {
Peter Zijlstra	211de6e	2014-09-30 19:23:08 +0200	[diff] [blame]	4450	clone_ctx = unclone_ctx(ctx);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	4451	++ctx->pin_count;
Yan, Zheng	4af57ef	2014-11-04 21:56:01 -0500	[diff] [blame]	4452
				4453	if (task_ctx_data && !ctx->task_ctx_data) {
				4454	ctx->task_ctx_data = task_ctx_data;
				4455	task_ctx_data = NULL;
				4456	}
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	4457	raw_spin_unlock_irqrestore(&ctx->lock, flags);
Peter Zijlstra	211de6e	2014-09-30 19:23:08 +0200	[diff] [blame]	4458
				4459	if (clone_ctx)
				4460	put_ctx(clone_ctx);
Peter Zijlstra	9137fb2	2011-04-09 21:17:41 +0200	[diff] [blame]	4461	} else {
Peter Zijlstra	eb18447	2010-09-07 15:55:13 +0200	[diff] [blame]	4462	ctx = alloc_perf_context(pmu, task);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4463	err = -ENOMEM;
				4464	if (!ctx)
				4465	goto errout;
Peter Zijlstra	eb18447	2010-09-07 15:55:13 +0200	[diff] [blame]	4466
Yan, Zheng	4af57ef	2014-11-04 21:56:01 -0500	[diff] [blame]	4467	if (task_ctx_data) {
				4468	ctx->task_ctx_data = task_ctx_data;
				4469	task_ctx_data = NULL;
				4470	}
				4471
Oleg Nesterov	dbe08d8	2011-01-19 19:22:07 +0100	[diff] [blame]	4472	err = 0;
				4473	mutex_lock(&task->perf_event_mutex);
				4474	/*
				4475	* If it has already passed perf_event_exit_task().
				4476	* we must see PF_EXITING, it takes this mutex too.
				4477	*/
				4478	if (task->flags & PF_EXITING)
				4479	err = -ESRCH;
				4480	else if (task->perf_event_ctxp[ctxn])
				4481	err = -EAGAIN;
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	4482	else {
Peter Zijlstra	9137fb2	2011-04-09 21:17:41 +0200	[diff] [blame]	4483	get_ctx(ctx);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	4484	++ctx->pin_count;
Oleg Nesterov	dbe08d8	2011-01-19 19:22:07 +0100	[diff] [blame]	4485	rcu_assign_pointer(task->perf_event_ctxp[ctxn], ctx);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	4486	}
Oleg Nesterov	dbe08d8	2011-01-19 19:22:07 +0100	[diff] [blame]	4487	mutex_unlock(&task->perf_event_mutex);
				4488
				4489	if (unlikely(err)) {
Peter Zijlstra	9137fb2	2011-04-09 21:17:41 +0200	[diff] [blame]	4490	put_ctx(ctx);
Oleg Nesterov	dbe08d8	2011-01-19 19:22:07 +0100	[diff] [blame]	4491
				4492	if (err == -EAGAIN)
				4493	goto retry;
				4494	goto errout;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4495	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4496	}
				4497
Yan, Zheng	4af57ef	2014-11-04 21:56:01 -0500	[diff] [blame]	4498	kfree(task_ctx_data);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4499	return ctx;
				4500
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	4501	errout:
Yan, Zheng	4af57ef	2014-11-04 21:56:01 -0500	[diff] [blame]	4502	kfree(task_ctx_data);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4503	return ERR_PTR(err);
				4504	}
				4505
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	4506	static void perf_event_free_filter(struct perf_event *event);
Alexei Starovoitov	2541517	2015-03-25 12:49:20 -0700	[diff] [blame]	4507	static void perf_event_free_bpf_prog(struct perf_event *event);
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	4508
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4509	static void free_event_rcu(struct rcu_head *head)
				4510	{
				4511	struct perf_event *event;
				4512
				4513	event = container_of(head, struct perf_event, rcu_head);
				4514	if (event->ns)
				4515	put_pid_ns(event->ns);
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	4516	perf_event_free_filter(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4517	kfree(event);
				4518	}
				4519
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	4520	static void ring_buffer_attach(struct perf_event *event,
Steven Rostedt (VMware)	56de4e8	2019-12-13 13:21:30 -0500	[diff] [blame]	4521	struct perf_buffer *rb);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4522
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	4523	static void detach_sb_event(struct perf_event *event)
				4524	{
				4525	struct pmu_event_list *pel = per_cpu_ptr(&pmu_sb_events, event->cpu);
				4526
				4527	raw_spin_lock(&pel->lock);
				4528	list_del_rcu(&event->sb_list);
				4529	raw_spin_unlock(&pel->lock);
				4530	}
				4531
David Carrillo-Cisneros	a4f144e	2016-06-01 12:33:05 -0700	[diff] [blame]	4532	static bool is_sb_event(struct perf_event *event)
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	4533	{
David Carrillo-Cisneros	a4f144e	2016-06-01 12:33:05 -0700	[diff] [blame]	4534	struct perf_event_attr *attr = &event->attr;
				4535
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	4536	if (event->parent)
David Carrillo-Cisneros	a4f144e	2016-06-01 12:33:05 -0700	[diff] [blame]	4537	return false;
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	4538
				4539	if (event->attach_state & PERF_ATTACH_TASK)
David Carrillo-Cisneros	a4f144e	2016-06-01 12:33:05 -0700	[diff] [blame]	4540	return false;
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	4541
David Carrillo-Cisneros	a4f144e	2016-06-01 12:33:05 -0700	[diff] [blame]	4542	if (attr->mmap \|\| attr->mmap_data \|\| attr->mmap2 \|\|
				4543	attr->comm \|\| attr->comm_exec \|\|
Song Liu	76193a9	2019-01-17 08:15:13 -0800	[diff] [blame]	4544	attr->task \|\| attr->ksymbol \|\|
Song Liu	21038f2	2019-02-25 16:20:05 -0800	[diff] [blame]	4545	attr->context_switch \|\|
				4546	attr->bpf_event)
David Carrillo-Cisneros	a4f144e	2016-06-01 12:33:05 -0700	[diff] [blame]	4547	return true;
				4548	return false;
				4549	}
				4550
				4551	static void unaccount_pmu_sb_event(struct perf_event *event)
				4552	{
				4553	if (is_sb_event(event))
				4554	detach_sb_event(event);
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	4555	}
				4556
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	4557	static void unaccount_event_cpu(struct perf_event *event, int cpu)
				4558	{
				4559	if (event->parent)
				4560	return;
				4561
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	4562	if (is_cgroup_event(event))
				4563	atomic_dec(&per_cpu(perf_cgroup_events, cpu));
				4564	}
				4565
Frederic Weisbecker	555e0c1	2015-07-16 17:42:29 +0200	[diff] [blame]	4566	#ifdef CONFIG_NO_HZ_FULL
				4567	static DEFINE_SPINLOCK(nr_freq_lock);
				4568	#endif
				4569
				4570	static void unaccount_freq_event_nohz(void)
				4571	{
				4572	#ifdef CONFIG_NO_HZ_FULL
				4573	spin_lock(&nr_freq_lock);
				4574	if (atomic_dec_and_test(&nr_freq_events))
				4575	tick_nohz_dep_clear(TICK_DEP_BIT_PERF_EVENTS);
				4576	spin_unlock(&nr_freq_lock);
				4577	#endif
				4578	}
				4579
				4580	static void unaccount_freq_event(void)
				4581	{
				4582	if (tick_nohz_full_enabled())
				4583	unaccount_freq_event_nohz();
				4584	else
				4585	atomic_dec(&nr_freq_events);
				4586	}
				4587
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	4588	static void unaccount_event(struct perf_event *event)
				4589	{
Peter Zijlstra	25432ae	2016-01-08 11:05:09 +0100	[diff] [blame]	4590	bool dec = false;
				4591
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	4592	if (event->parent)
				4593	return;
				4594
				4595	if (event->attach_state & PERF_ATTACH_TASK)
Peter Zijlstra	25432ae	2016-01-08 11:05:09 +0100	[diff] [blame]	4596	dec = true;
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	4597	if (event->attr.mmap \|\| event->attr.mmap_data)
				4598	atomic_dec(&nr_mmap_events);
				4599	if (event->attr.comm)
				4600	atomic_dec(&nr_comm_events);
Hari Bathini	e422267	2017-03-08 02:11:36 +0530	[diff] [blame]	4601	if (event->attr.namespaces)
				4602	atomic_dec(&nr_namespaces_events);
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	4603	if (event->attr.task)
				4604	atomic_dec(&nr_task_events);
Frederic Weisbecker	948b26b	2013-08-02 18:29:55 +0200	[diff] [blame]	4605	if (event->attr.freq)
Frederic Weisbecker	555e0c1	2015-07-16 17:42:29 +0200	[diff] [blame]	4606	unaccount_freq_event();
Adrian Hunter	45ac140	2015-07-21 12:44:02 +0300	[diff] [blame]	4607	if (event->attr.context_switch) {
Peter Zijlstra	25432ae	2016-01-08 11:05:09 +0100	[diff] [blame]	4608	dec = true;
Adrian Hunter	45ac140	2015-07-21 12:44:02 +0300	[diff] [blame]	4609	atomic_dec(&nr_switch_events);
				4610	}
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	4611	if (is_cgroup_event(event))
Peter Zijlstra	25432ae	2016-01-08 11:05:09 +0100	[diff] [blame]	4612	dec = true;
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	4613	if (has_branch_stack(event))
Peter Zijlstra	25432ae	2016-01-08 11:05:09 +0100	[diff] [blame]	4614	dec = true;
Song Liu	76193a9	2019-01-17 08:15:13 -0800	[diff] [blame]	4615	if (event->attr.ksymbol)
				4616	atomic_dec(&nr_ksymbol_events);
Song Liu	6ee52e2	2019-01-17 08:15:15 -0800	[diff] [blame]	4617	if (event->attr.bpf_event)
				4618	atomic_dec(&nr_bpf_events);
Peter Zijlstra	25432ae	2016-01-08 11:05:09 +0100	[diff] [blame]	4619
Peter Zijlstra	9107c89	2016-02-24 18:45:45 +0100	[diff] [blame]	4620	if (dec) {
				4621	if (!atomic_add_unless(&perf_sched_count, -1, 1))
				4622	schedule_delayed_work(&perf_sched_work, HZ);
				4623	}
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	4624
				4625	unaccount_event_cpu(event, event->cpu);
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	4626
				4627	unaccount_pmu_sb_event(event);
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	4628	}
				4629
Peter Zijlstra	9107c89	2016-02-24 18:45:45 +0100	[diff] [blame]	4630	static void perf_sched_delayed(struct work_struct *work)
				4631	{
				4632	mutex_lock(&perf_sched_mutex);
				4633	if (atomic_dec_and_test(&perf_sched_count))
				4634	static_branch_disable(&perf_sched_events);
				4635	mutex_unlock(&perf_sched_mutex);
				4636	}
				4637
Alexander Shishkin	bed5b25	2015-01-30 12:31:06 +0200	[diff] [blame]	4638	/*
				4639	* The following implement mutual exclusion of events on "exclusive" pmus
				4640	* (PERF_PMU_CAP_EXCLUSIVE). Such pmus can only have one event scheduled
				4641	* at a time, so we disallow creating events that might conflict, namely:
				4642	*
				4643	* 1) cpu-wide events in the presence of per-task events,
				4644	* 2) per-task events in the presence of cpu-wide events,
				4645	* 3) two matching events on the same context.
				4646	*
				4647	* The former two cases are handled in the allocation path (perf_event_alloc(),
Peter Zijlstra	a0733e6	2016-01-26 12:14:40 +0100	[diff] [blame]	4648	* _free_event()), the latter -- before the first perf_install_in_context().
Alexander Shishkin	bed5b25	2015-01-30 12:31:06 +0200	[diff] [blame]	4649	*/
				4650	static int exclusive_event_init(struct perf_event *event)
				4651	{
				4652	struct pmu *pmu = event->pmu;
				4653
Alexander Shishkin	8a58dda	2019-07-01 14:07:55 +0300	[diff] [blame]	4654	if (!is_exclusive_pmu(pmu))
Alexander Shishkin	bed5b25	2015-01-30 12:31:06 +0200	[diff] [blame]	4655	return 0;
				4656
				4657	/*
				4658	* Prevent co-existence of per-task and cpu-wide events on the
				4659	* same exclusive pmu.
				4660	*
				4661	* Negative pmu::exclusive_cnt means there are cpu-wide
				4662	* events on this "exclusive" pmu, positive means there are
				4663	* per-task events.
				4664	*
				4665	* Since this is called in perf_event_alloc() path, event::ctx
				4666	* doesn't exist yet; it is, however, safe to use PERF_ATTACH_TASK
				4667	* to mean "per-task event", because unlike other attach states it
				4668	* never gets cleared.
				4669	*/
				4670	if (event->attach_state & PERF_ATTACH_TASK) {
				4671	if (!atomic_inc_unless_negative(&pmu->exclusive_cnt))
				4672	return -EBUSY;
				4673	} else {
				4674	if (!atomic_dec_unless_positive(&pmu->exclusive_cnt))
				4675	return -EBUSY;
				4676	}
				4677
				4678	return 0;
				4679	}
				4680
				4681	static void exclusive_event_destroy(struct perf_event *event)
				4682	{
				4683	struct pmu *pmu = event->pmu;
				4684
Alexander Shishkin	8a58dda	2019-07-01 14:07:55 +0300	[diff] [blame]	4685	if (!is_exclusive_pmu(pmu))
Alexander Shishkin	bed5b25	2015-01-30 12:31:06 +0200	[diff] [blame]	4686	return;
				4687
				4688	/* see comment in exclusive_event_init() */
				4689	if (event->attach_state & PERF_ATTACH_TASK)
				4690	atomic_dec(&pmu->exclusive_cnt);
				4691	else
				4692	atomic_inc(&pmu->exclusive_cnt);
				4693	}
				4694
				4695	static bool exclusive_event_match(struct perf_event e1, struct perf_event e2)
				4696	{
Alexander Shishkin	3bf6215	2016-09-20 18:48:11 +0300	[diff] [blame]	4697	if ((e1->pmu == e2->pmu) &&
Alexander Shishkin	bed5b25	2015-01-30 12:31:06 +0200	[diff] [blame]	4698	(e1->cpu == e2->cpu \|\|
				4699	e1->cpu == -1 \|\|
				4700	e2->cpu == -1))
				4701	return true;
				4702	return false;
				4703	}
				4704
Alexander Shishkin	bed5b25	2015-01-30 12:31:06 +0200	[diff] [blame]	4705	static bool exclusive_event_installable(struct perf_event *event,
				4706	struct perf_event_context *ctx)
				4707	{
				4708	struct perf_event *iter_event;
				4709	struct pmu *pmu = event->pmu;
				4710
Alexander Shishkin	8a58dda	2019-07-01 14:07:55 +0300	[diff] [blame]	4711	lockdep_assert_held(&ctx->mutex);
				4712
				4713	if (!is_exclusive_pmu(pmu))
Alexander Shishkin	bed5b25	2015-01-30 12:31:06 +0200	[diff] [blame]	4714	return true;
				4715
				4716	list_for_each_entry(iter_event, &ctx->event_list, event_entry) {
				4717	if (exclusive_event_match(iter_event, event))
				4718	return false;
				4719	}
				4720
				4721	return true;
				4722	}
				4723
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	4724	static void perf_addr_filters_splice(struct perf_event *event,
				4725	struct list_head *head);
				4726
Peter Zijlstra	683ede4	2014-05-05 12:11:24 +0200	[diff] [blame]	4727	static void _free_event(struct perf_event *event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4728	{
Peter Zijlstra	e360adb	2010-10-14 14:01:34 +0800	[diff] [blame]	4729	irq_work_sync(&event->pending);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4730
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	4731	unaccount_event(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4732
Joel Fernandes (Google)	da97e18	2019-10-14 13:03:08 -0400	[diff] [blame]	4733	security_perf_event_free(event);
				4734
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	4735	if (event->rb) {
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	4736	/*
				4737	* Can happen when we close an event with re-directed output.
				4738	*
				4739	* Since we have a 0 refcount, perf_mmap_close() will skip
				4740	* over us; possibly making our ring_buffer_put() the last.
				4741	*/
				4742	mutex_lock(&event->mmap_mutex);
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	4743	ring_buffer_attach(event, NULL);
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	4744	mutex_unlock(&event->mmap_mutex);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4745	}
				4746
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	4747	if (is_cgroup_event(event))
				4748	perf_detach_cgroup(event);
				4749
Peter Zijlstra	a0733e6	2016-01-26 12:14:40 +0100	[diff] [blame]	4750	if (!event->parent) {
				4751	if (event->attr.sample_type & PERF_SAMPLE_CALLCHAIN)
				4752	put_callchain_buffers();
				4753	}
				4754
				4755	perf_event_free_bpf_prog(event);
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	4756	perf_addr_filters_splice(event, NULL);
Alexander Shishkin	c60f83b	2019-02-15 13:56:55 +0200	[diff] [blame]	4757	kfree(event->addr_filter_ranges);
Peter Zijlstra	a0733e6	2016-01-26 12:14:40 +0100	[diff] [blame]	4758
				4759	if (event->destroy)
				4760	event->destroy(event);
				4761
Peter Zijlstra	1cf8dfe	2019-07-13 11:21:25 +0200	[diff] [blame]	4762	/*
				4763	* Must be after ->destroy(), due to uprobe_perf_close() using
				4764	* hw.target.
				4765	*/
Prashant Bhole	621b6d2	2018-04-09 19:03:46 +0900	[diff] [blame]	4766	if (event->hw.target)
				4767	put_task_struct(event->hw.target);
				4768
Peter Zijlstra	1cf8dfe	2019-07-13 11:21:25 +0200	[diff] [blame]	4769	/*
				4770	* perf_event_free_task() relies on put_ctx() being 'last', in particular
				4771	* all task references must be cleaned up.
				4772	*/
				4773	if (event->ctx)
				4774	put_ctx(event->ctx);
				4775
Alexander Shishkin	62a92c8	2016-06-07 15:44:15 +0300	[diff] [blame]	4776	exclusive_event_destroy(event);
				4777	module_put(event->pmu->module);
Peter Zijlstra	a0733e6	2016-01-26 12:14:40 +0100	[diff] [blame]	4778
				4779	call_rcu(&event->rcu_head, free_event_rcu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4780	}
				4781
Peter Zijlstra	683ede4	2014-05-05 12:11:24 +0200	[diff] [blame]	4782	/*
				4783	* Used to free events which have a known refcount of 1, such as in error paths
				4784	* where the event isn't exposed yet and inherited events.
				4785	*/
				4786	static void free_event(struct perf_event *event)
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	4787	{
Peter Zijlstra	683ede4	2014-05-05 12:11:24 +0200	[diff] [blame]	4788	if (WARN(atomic_long_cmpxchg(&event->refcount, 1, 0) != 1,
				4789	"unexpected event refcount: %ld; ptr=%p\n",
				4790	atomic_long_read(&event->refcount), event)) {
				4791	/* leak to avoid use-after-free */
				4792	return;
				4793	}
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	4794
Peter Zijlstra	683ede4	2014-05-05 12:11:24 +0200	[diff] [blame]	4795	_free_event(event);
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	4796	}
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	4797
Peter Zijlstra	a66a305	2009-11-23 11:37:23 +0100	[diff] [blame]	4798	/*
Jiri Olsa	f869776	2014-08-01 14:33:01 +0200	[diff] [blame]	4799	* Remove user event from the owner task.
Peter Zijlstra	a66a305	2009-11-23 11:37:23 +0100	[diff] [blame]	4800	*/
Jiri Olsa	f869776	2014-08-01 14:33:01 +0200	[diff] [blame]	4801	static void perf_remove_from_owner(struct perf_event *event)
Peter Zijlstra	a66a305	2009-11-23 11:37:23 +0100	[diff] [blame]	4802	{
Peter Zijlstra	8882135	2010-11-09 19:01:43 +0100	[diff] [blame]	4803	struct task_struct *owner;
Peter Zijlstra	a66a305	2009-11-23 11:37:23 +0100	[diff] [blame]	4804
Peter Zijlstra	8882135	2010-11-09 19:01:43 +0100	[diff] [blame]	4805	rcu_read_lock();
Peter Zijlstra	8882135	2010-11-09 19:01:43 +0100	[diff] [blame]	4806	/*
Peter Zijlstra	f47c02c	2016-01-26 12:30:14 +0100	[diff] [blame]	4807	* Matches the smp_store_release() in perf_event_exit_task(). If we
				4808	* observe !owner it means the list deletion is complete and we can
				4809	* indeed free this event, otherwise we need to serialize on
Peter Zijlstra	8882135	2010-11-09 19:01:43 +0100	[diff] [blame]	4810	* owner->perf_event_mutex.
				4811	*/
Will Deacon	506458e	2017-10-24 11:22:48 +0100	[diff] [blame]	4812	owner = READ_ONCE(event->owner);
Peter Zijlstra	8882135	2010-11-09 19:01:43 +0100	[diff] [blame]	4813	if (owner) {
				4814	/*
				4815	* Since delayed_put_task_struct() also drops the last
				4816	* task reference we can safely take a new reference
				4817	* while holding the rcu_read_lock().
				4818	*/
				4819	get_task_struct(owner);
				4820	}
				4821	rcu_read_unlock();
				4822
				4823	if (owner) {
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	4824	/*
				4825	* If we're here through perf_event_exit_task() we're already
				4826	* holding ctx->mutex which would be an inversion wrt. the
				4827	* normal lock order.
				4828	*
				4829	* However we can safely take this lock because its the child
				4830	* ctx->mutex.
				4831	*/
				4832	mutex_lock_nested(&owner->perf_event_mutex, SINGLE_DEPTH_NESTING);
				4833
Peter Zijlstra	8882135	2010-11-09 19:01:43 +0100	[diff] [blame]	4834	/*
				4835	* We have to re-check the event->owner field, if it is cleared
				4836	* we raced with perf_event_exit_task(), acquiring the mutex
				4837	* ensured they're done, and we can proceed with freeing the
				4838	* event.
				4839	*/
Peter Zijlstra	f47c02c	2016-01-26 12:30:14 +0100	[diff] [blame]	4840	if (event->owner) {
Peter Zijlstra	8882135	2010-11-09 19:01:43 +0100	[diff] [blame]	4841	list_del_init(&event->owner_entry);
Peter Zijlstra	f47c02c	2016-01-26 12:30:14 +0100	[diff] [blame]	4842	smp_store_release(&event->owner, NULL);
				4843	}
Peter Zijlstra	8882135	2010-11-09 19:01:43 +0100	[diff] [blame]	4844	mutex_unlock(&owner->perf_event_mutex);
				4845	put_task_struct(owner);
				4846	}
Jiri Olsa	f869776	2014-08-01 14:33:01 +0200	[diff] [blame]	4847	}
				4848
Jiri Olsa	f869776	2014-08-01 14:33:01 +0200	[diff] [blame]	4849	static void put_event(struct perf_event *event)
				4850	{
Jiri Olsa	f869776	2014-08-01 14:33:01 +0200	[diff] [blame]	4851	if (!atomic_long_dec_and_test(&event->refcount))
				4852	return;
				4853
Peter Zijlstra	683ede4	2014-05-05 12:11:24 +0200	[diff] [blame]	4854	_free_event(event);
Al Viro	a6fa941	2012-08-20 14:59:25 +0100	[diff] [blame]	4855	}
				4856
Peter Zijlstra	c6e5b73	2016-01-15 16:07:41 +0200	[diff] [blame]	4857	/*
				4858	* Kill an event dead; while event:refcount will preserve the event
				4859	* object, it will not preserve its functionality. Once the last 'user'
				4860	* gives up the object, we'll destroy the thing.
				4861	*/
Peter Zijlstra	683ede4	2014-05-05 12:11:24 +0200	[diff] [blame]	4862	int perf_event_release_kernel(struct perf_event *event)
				4863	{
Peter Zijlstra	a4f4bb6	2016-02-24 18:45:42 +0100	[diff] [blame]	4864	struct perf_event_context *ctx = event->ctx;
Peter Zijlstra	c6e5b73	2016-01-15 16:07:41 +0200	[diff] [blame]	4865	struct perf_event child, tmp;
Peter Zijlstra	82d9485	2018-01-09 13:10:30 +0100	[diff] [blame]	4866	LIST_HEAD(free_list);
Peter Zijlstra	c6e5b73	2016-01-15 16:07:41 +0200	[diff] [blame]	4867
Peter Zijlstra	a4f4bb6	2016-02-24 18:45:42 +0100	[diff] [blame]	4868	/*
				4869	* If we got here through err_file: fput(event_file); we will not have
				4870	* attached to a context yet.
				4871	*/
				4872	if (!ctx) {
				4873	WARN_ON_ONCE(event->attach_state &
				4874	(PERF_ATTACH_CONTEXT\|PERF_ATTACH_GROUP));
				4875	goto no_ctx;
				4876	}
				4877
Peter Zijlstra	8882135	2010-11-09 19:01:43 +0100	[diff] [blame]	4878	if (!is_kernel_event(event))
				4879	perf_remove_from_owner(event);
				4880
Peter Zijlstra	5fa7c8e	2016-01-26 15:25:15 +0100	[diff] [blame]	4881	ctx = perf_event_ctx_lock(event);
Peter Zijlstra	683ede4	2014-05-05 12:11:24 +0200	[diff] [blame]	4882	WARN_ON_ONCE(ctx->parent_ctx);
Peter Zijlstra	a69b0ca	2016-02-24 18:45:44 +0100	[diff] [blame]	4883	perf_remove_from_context(event, DETACH_GROUP);
Peter Zijlstra	8882135	2010-11-09 19:01:43 +0100	[diff] [blame]	4884
Peter Zijlstra	a69b0ca	2016-02-24 18:45:44 +0100	[diff] [blame]	4885	raw_spin_lock_irq(&ctx->lock);
Peter Zijlstra	60beda8	2016-01-26 14:55:02 +0100	[diff] [blame]	4886	/*
Peter Zijlstra	d8a8cfc	2017-03-16 13:47:51 +0100	[diff] [blame]	4887	* Mark this event as STATE_DEAD, there is no external reference to it
Peter Zijlstra	a69b0ca	2016-02-24 18:45:44 +0100	[diff] [blame]	4888	* anymore.
Peter Zijlstra	c6e5b73	2016-01-15 16:07:41 +0200	[diff] [blame]	4889	*
Peter Zijlstra	a69b0ca	2016-02-24 18:45:44 +0100	[diff] [blame]	4890	* Anybody acquiring event->child_mutex after the below loop _must_
				4891	* also see this, most importantly inherit_event() which will avoid
				4892	* placing more children on the list.
Peter Zijlstra	c6e5b73	2016-01-15 16:07:41 +0200	[diff] [blame]	4893	*
				4894	* Thus this guarantees that we will in fact observe and kill _ALL_
				4895	* child events.
Peter Zijlstra	60beda8	2016-01-26 14:55:02 +0100	[diff] [blame]	4896	*/
Peter Zijlstra	a69b0ca	2016-02-24 18:45:44 +0100	[diff] [blame]	4897	event->state = PERF_EVENT_STATE_DEAD;
				4898	raw_spin_unlock_irq(&ctx->lock);
				4899
				4900	perf_event_ctx_unlock(event, ctx);
Peter Zijlstra	60beda8	2016-01-26 14:55:02 +0100	[diff] [blame]	4901
Peter Zijlstra	c6e5b73	2016-01-15 16:07:41 +0200	[diff] [blame]	4902	again:
				4903	mutex_lock(&event->child_mutex);
				4904	list_for_each_entry(child, &event->child_list, child_list) {
Al Viro	a6fa941	2012-08-20 14:59:25 +0100	[diff] [blame]	4905
Peter Zijlstra	c6e5b73	2016-01-15 16:07:41 +0200	[diff] [blame]	4906	/*
				4907	* Cannot change, child events are not migrated, see the
				4908	* comment with perf_event_ctx_lock_nested().
				4909	*/
Will Deacon	506458e	2017-10-24 11:22:48 +0100	[diff] [blame]	4910	ctx = READ_ONCE(child->ctx);
Peter Zijlstra	c6e5b73	2016-01-15 16:07:41 +0200	[diff] [blame]	4911	/*
				4912	* Since child_mutex nests inside ctx::mutex, we must jump
				4913	* through hoops. We start by grabbing a reference on the ctx.
				4914	*
				4915	* Since the event cannot get freed while we hold the
				4916	* child_mutex, the context must also exist and have a !0
				4917	* reference count.
				4918	*/
				4919	get_ctx(ctx);
				4920
				4921	/*
				4922	* Now that we have a ctx ref, we can drop child_mutex, and
				4923	* acquire ctx::mutex without fear of it going away. Then we
				4924	* can re-acquire child_mutex.
				4925	*/
				4926	mutex_unlock(&event->child_mutex);
				4927	mutex_lock(&ctx->mutex);
				4928	mutex_lock(&event->child_mutex);
				4929
				4930	/*
				4931	* Now that we hold ctx::mutex and child_mutex, revalidate our
				4932	* state, if child is still the first entry, it didn't get freed
				4933	* and we can continue doing so.
				4934	*/
				4935	tmp = list_first_entry_or_null(&event->child_list,
				4936	struct perf_event, child_list);
				4937	if (tmp == child) {
				4938	perf_remove_from_context(child, DETACH_GROUP);
Peter Zijlstra	82d9485	2018-01-09 13:10:30 +0100	[diff] [blame]	4939	list_move(&child->child_list, &free_list);
Peter Zijlstra	c6e5b73	2016-01-15 16:07:41 +0200	[diff] [blame]	4940	/*
				4941	* This matches the refcount bump in inherit_event();
				4942	* this can't be the last reference.
				4943	*/
				4944	put_event(event);
				4945	}
				4946
				4947	mutex_unlock(&event->child_mutex);
				4948	mutex_unlock(&ctx->mutex);
				4949	put_ctx(ctx);
				4950	goto again;
				4951	}
				4952	mutex_unlock(&event->child_mutex);
				4953
Peter Zijlstra	82d9485	2018-01-09 13:10:30 +0100	[diff] [blame]	4954	list_for_each_entry_safe(child, tmp, &free_list, child_list) {
Peter Zijlstra	1cf8dfe	2019-07-13 11:21:25 +0200	[diff] [blame]	4955	void *var = &child->ctx->refcount;
				4956
Peter Zijlstra	82d9485	2018-01-09 13:10:30 +0100	[diff] [blame]	4957	list_del(&child->child_list);
				4958	free_event(child);
Peter Zijlstra	1cf8dfe	2019-07-13 11:21:25 +0200	[diff] [blame]	4959
				4960	/*
				4961	* Wake any perf_event_free_task() waiting for this event to be
				4962	* freed.
				4963	*/
				4964	smp_mb(); /* pairs with wait_var_event() */
				4965	wake_up_var(var);
Peter Zijlstra	82d9485	2018-01-09 13:10:30 +0100	[diff] [blame]	4966	}
				4967
Peter Zijlstra	a4f4bb6	2016-02-24 18:45:42 +0100	[diff] [blame]	4968	no_ctx:
				4969	put_event(event); /* Must be the 'last' reference */
Peter Zijlstra	683ede4	2014-05-05 12:11:24 +0200	[diff] [blame]	4970	return 0;
				4971	}
				4972	EXPORT_SYMBOL_GPL(perf_event_release_kernel);
				4973
Peter Zijlstra	8b10c5e	2015-05-01 16:08:46 +0200	[diff] [blame]	4974	/*
				4975	* Called when the last reference to the file is gone.
				4976	*/
Al Viro	a6fa941	2012-08-20 14:59:25 +0100	[diff] [blame]	4977	static int perf_release(struct inode inode, struct file file)
				4978	{
Peter Zijlstra	c6e5b73	2016-01-15 16:07:41 +0200	[diff] [blame]	4979	perf_event_release_kernel(file->private_data);
Al Viro	a6fa941	2012-08-20 14:59:25 +0100	[diff] [blame]	4980	return 0;
Peter Zijlstra	a66a305	2009-11-23 11:37:23 +0100	[diff] [blame]	4981	}
				4982
Peter Zijlstra	ca0dd44	2017-09-05 13:23:44 +0200	[diff] [blame]	4983	static u64 __perf_event_read_value(struct perf_event event, u64 enabled, u64 *running)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4984	{
				4985	struct perf_event *child;
				4986	u64 total = 0;
				4987
Peter Zijlstra	59ed446	2009-11-20 22:19:55 +0100	[diff] [blame]	4988	*enabled = 0;
				4989	*running = 0;
				4990
Peter Zijlstra	6f10581	2009-11-20 22:19:56 +0100	[diff] [blame]	4991	mutex_lock(&event->child_mutex);
Sukadev Bhattiprolu	01add3e	2015-09-03 20:07:46 -0700	[diff] [blame]	4992
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	4993	(void)perf_event_read(event, false);
Sukadev Bhattiprolu	01add3e	2015-09-03 20:07:46 -0700	[diff] [blame]	4994	total += perf_event_count(event);
				4995
Peter Zijlstra	59ed446	2009-11-20 22:19:55 +0100	[diff] [blame]	4996	*enabled += event->total_time_enabled +
				4997	atomic64_read(&event->child_total_time_enabled);
				4998	*running += event->total_time_running +
				4999	atomic64_read(&event->child_total_time_running);
				5000
				5001	list_for_each_entry(child, &event->child_list, child_list) {
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	5002	(void)perf_event_read(child, false);
Sukadev Bhattiprolu	01add3e	2015-09-03 20:07:46 -0700	[diff] [blame]	5003	total += perf_event_count(child);
Peter Zijlstra	59ed446	2009-11-20 22:19:55 +0100	[diff] [blame]	5004	*enabled += child->total_time_enabled;
				5005	*running += child->total_time_running;
				5006	}
Peter Zijlstra	6f10581	2009-11-20 22:19:56 +0100	[diff] [blame]	5007	mutex_unlock(&event->child_mutex);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5008
				5009	return total;
				5010	}
Peter Zijlstra	ca0dd44	2017-09-05 13:23:44 +0200	[diff] [blame]	5011
				5012	u64 perf_event_read_value(struct perf_event event, u64 enabled, u64 *running)
				5013	{
				5014	struct perf_event_context *ctx;
				5015	u64 count;
				5016
				5017	ctx = perf_event_ctx_lock(event);
				5018	count = __perf_event_read_value(event, enabled, running);
				5019	perf_event_ctx_unlock(event, ctx);
				5020
				5021	return count;
				5022	}
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	5023	EXPORT_SYMBOL_GPL(perf_event_read_value);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5024
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	5025	static int __perf_read_group_add(struct perf_event *leader,
Peter Zijlstra	fa8c269	2015-09-03 20:07:49 -0700	[diff] [blame]	5026	u64 read_format, u64 *values)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5027	{
Jiri Olsa	2aeb188	2017-07-20 16:14:55 +0200	[diff] [blame]	5028	struct perf_event_context *ctx = leader->ctx;
Peter Zijlstra	fa8c269	2015-09-03 20:07:49 -0700	[diff] [blame]	5029	struct perf_event *sub;
Jiri Olsa	2aeb188	2017-07-20 16:14:55 +0200	[diff] [blame]	5030	unsigned long flags;
Peter Zijlstra	fa8c269	2015-09-03 20:07:49 -0700	[diff] [blame]	5031	int n = 1; /* skip @nr */
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	5032	int ret;
Peter Zijlstra	abf4868	2009-11-20 22:19:49 +0100	[diff] [blame]	5033
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	5034	ret = perf_event_read(leader, true);
				5035	if (ret)
				5036	return ret;
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	5037
Peter Zijlstra	a9cd819	2017-09-05 13:38:24 +0200	[diff] [blame]	5038	raw_spin_lock_irqsave(&ctx->lock, flags);
				5039
Peter Zijlstra	fa8c269	2015-09-03 20:07:49 -0700	[diff] [blame]	5040	/*
				5041	* Since we co-schedule groups, {enabled,running} times of siblings
				5042	* will be identical to those of the leader, so we only publish one
				5043	* set.
				5044	*/
				5045	if (read_format & PERF_FORMAT_TOTAL_TIME_ENABLED) {
				5046	values[n++] += leader->total_time_enabled +
				5047	atomic64_read(&leader->child_total_time_enabled);
				5048	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5049
Peter Zijlstra	fa8c269	2015-09-03 20:07:49 -0700	[diff] [blame]	5050	if (read_format & PERF_FORMAT_TOTAL_TIME_RUNNING) {
				5051	values[n++] += leader->total_time_running +
				5052	atomic64_read(&leader->child_total_time_running);
				5053	}
				5054
				5055	/*
				5056	* Write {count,id} tuples for every sibling.
				5057	*/
				5058	values[n++] += perf_event_count(leader);
Peter Zijlstra	abf4868	2009-11-20 22:19:49 +0100	[diff] [blame]	5059	if (read_format & PERF_FORMAT_ID)
				5060	values[n++] = primary_event_id(leader);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5061
Peter Zijlstra	edb3959	2018-03-15 17:36:56 +0100	[diff] [blame]	5062	for_each_sibling_event(sub, leader) {
Peter Zijlstra	fa8c269	2015-09-03 20:07:49 -0700	[diff] [blame]	5063	values[n++] += perf_event_count(sub);
Peter Zijlstra	abf4868	2009-11-20 22:19:49 +0100	[diff] [blame]	5064	if (read_format & PERF_FORMAT_ID)
				5065	values[n++] = primary_event_id(sub);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5066	}
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	5067
Jiri Olsa	2aeb188	2017-07-20 16:14:55 +0200	[diff] [blame]	5068	raw_spin_unlock_irqrestore(&ctx->lock, flags);
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	5069	return 0;
Peter Zijlstra	fa8c269	2015-09-03 20:07:49 -0700	[diff] [blame]	5070	}
				5071
				5072	static int perf_read_group(struct perf_event *event,
				5073	u64 read_format, char __user *buf)
				5074	{
				5075	struct perf_event leader = event->group_leader, child;
				5076	struct perf_event_context *ctx = leader->ctx;
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	5077	int ret;
Peter Zijlstra	fa8c269	2015-09-03 20:07:49 -0700	[diff] [blame]	5078	u64 *values;
				5079
				5080	lockdep_assert_held(&ctx->mutex);
				5081
				5082	values = kzalloc(event->read_size, GFP_KERNEL);
				5083	if (!values)
				5084	return -ENOMEM;
				5085
				5086	values[0] = 1 + leader->nr_siblings;
				5087
				5088	/*
				5089	* By locking the child_mutex of the leader we effectively
				5090	* lock the child list of all siblings.. XXX explain how.
				5091	*/
				5092	mutex_lock(&leader->child_mutex);
				5093
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	5094	ret = __perf_read_group_add(leader, read_format, values);
				5095	if (ret)
				5096	goto unlock;
				5097
				5098	list_for_each_entry(child, &leader->child_list, child_list) {
				5099	ret = __perf_read_group_add(child, read_format, values);
				5100	if (ret)
				5101	goto unlock;
				5102	}
Peter Zijlstra	fa8c269	2015-09-03 20:07:49 -0700	[diff] [blame]	5103
				5104	mutex_unlock(&leader->child_mutex);
				5105
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	5106	ret = event->read_size;
Peter Zijlstra	fa8c269	2015-09-03 20:07:49 -0700	[diff] [blame]	5107	if (copy_to_user(buf, values, event->read_size))
				5108	ret = -EFAULT;
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	5109	goto out;
Peter Zijlstra	fa8c269	2015-09-03 20:07:49 -0700	[diff] [blame]	5110
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	5111	unlock:
				5112	mutex_unlock(&leader->child_mutex);
				5113	out:
Peter Zijlstra	fa8c269	2015-09-03 20:07:49 -0700	[diff] [blame]	5114	kfree(values);
Peter Zijlstra	abf4868	2009-11-20 22:19:49 +0100	[diff] [blame]	5115	return ret;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5116	}
				5117
Peter Zijlstra (Intel)	b15f495	2015-09-03 20:07:47 -0700	[diff] [blame]	5118	static int perf_read_one(struct perf_event *event,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5119	u64 read_format, char __user *buf)
				5120	{
Peter Zijlstra	59ed446	2009-11-20 22:19:55 +0100	[diff] [blame]	5121	u64 enabled, running;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5122	u64 values[4];
				5123	int n = 0;
				5124
Peter Zijlstra	ca0dd44	2017-09-05 13:23:44 +0200	[diff] [blame]	5125	values[n++] = __perf_event_read_value(event, &enabled, &running);
Peter Zijlstra	59ed446	2009-11-20 22:19:55 +0100	[diff] [blame]	5126	if (read_format & PERF_FORMAT_TOTAL_TIME_ENABLED)
				5127	values[n++] = enabled;
				5128	if (read_format & PERF_FORMAT_TOTAL_TIME_RUNNING)
				5129	values[n++] = running;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5130	if (read_format & PERF_FORMAT_ID)
				5131	values[n++] = primary_event_id(event);
				5132
				5133	if (copy_to_user(buf, values, n * sizeof(u64)))
				5134	return -EFAULT;
				5135
				5136	return n * sizeof(u64);
				5137	}
				5138
Jiri Olsa	dc63398	2014-09-12 13:18:26 +0200	[diff] [blame]	5139	static bool is_event_hup(struct perf_event *event)
				5140	{
				5141	bool no_children;
				5142
Peter Zijlstra	a69b0ca	2016-02-24 18:45:44 +0100	[diff] [blame]	5143	if (event->state > PERF_EVENT_STATE_EXIT)
Jiri Olsa	dc63398	2014-09-12 13:18:26 +0200	[diff] [blame]	5144	return false;
				5145
				5146	mutex_lock(&event->child_mutex);
				5147	no_children = list_empty(&event->child_list);
				5148	mutex_unlock(&event->child_mutex);
				5149	return no_children;
				5150	}
				5151
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5152	/*
				5153	* Read the performance event - simple non blocking version for now
				5154	*/
				5155	static ssize_t
Peter Zijlstra (Intel)	b15f495	2015-09-03 20:07:47 -0700	[diff] [blame]	5156	__perf_read(struct perf_event event, char __user buf, size_t count)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5157	{
				5158	u64 read_format = event->attr.read_format;
				5159	int ret;
				5160
				5161	/*
Tobias Tefke	788faab	2018-07-09 12:57:15 +0200	[diff] [blame]	5162	* Return end-of-file for a read on an event that is in
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5163	* error state (i.e. because it was pinned but it couldn't be
				5164	* scheduled on to the CPU at some point).
				5165	*/
				5166	if (event->state == PERF_EVENT_STATE_ERROR)
				5167	return 0;
				5168
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	5169	if (count < event->read_size)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5170	return -ENOSPC;
				5171
				5172	WARN_ON_ONCE(event->ctx->parent_ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5173	if (read_format & PERF_FORMAT_GROUP)
Peter Zijlstra (Intel)	b15f495	2015-09-03 20:07:47 -0700	[diff] [blame]	5174	ret = perf_read_group(event, read_format, buf);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5175	else
Peter Zijlstra (Intel)	b15f495	2015-09-03 20:07:47 -0700	[diff] [blame]	5176	ret = perf_read_one(event, read_format, buf);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5177
				5178	return ret;
				5179	}
				5180
				5181	static ssize_t
				5182	perf_read(struct file file, char __user buf, size_t count, loff_t *ppos)
				5183	{
				5184	struct perf_event *event = file->private_data;
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	5185	struct perf_event_context *ctx;
				5186	int ret;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5187
Joel Fernandes (Google)	da97e18	2019-10-14 13:03:08 -0400	[diff] [blame]	5188	ret = security_perf_event_read(event);
				5189	if (ret)
				5190	return ret;
				5191
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	5192	ctx = perf_event_ctx_lock(event);
Peter Zijlstra (Intel)	b15f495	2015-09-03 20:07:47 -0700	[diff] [blame]	5193	ret = __perf_read(event, buf, count);
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	5194	perf_event_ctx_unlock(event, ctx);
				5195
				5196	return ret;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5197	}
				5198
Al Viro	9dd9574	2017-07-03 00:42:43 -0400	[diff] [blame]	5199	static __poll_t perf_poll(struct file file, poll_table wait)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5200	{
				5201	struct perf_event *event = file->private_data;
Steven Rostedt (VMware)	56de4e8	2019-12-13 13:21:30 -0500	[diff] [blame]	5202	struct perf_buffer *rb;
Linus Torvalds	a9a0884	2018-02-11 14:34:03 -0800	[diff] [blame]	5203	__poll_t events = EPOLLHUP;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5204
Sebastian Andrzej Siewior	e708d7a	2014-08-04 15:31:08 +0200	[diff] [blame]	5205	poll_wait(file, &event->waitq, wait);
Jiri Olsa	179033b	2014-08-07 11:48:26 -0400	[diff] [blame]	5206
Jiri Olsa	dc63398	2014-09-12 13:18:26 +0200	[diff] [blame]	5207	if (is_event_hup(event))
Jiri Olsa	179033b	2014-08-07 11:48:26 -0400	[diff] [blame]	5208	return events;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5209
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	5210	/*
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	5211	* Pin the event->rb by taking event->mmap_mutex; otherwise
				5212	* perf_event_set_output() can swizzle our rb and make us miss wakeups.
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	5213	*/
				5214	mutex_lock(&event->mmap_mutex);
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	5215	rb = event->rb;
				5216	if (rb)
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	5217	events = atomic_xchg(&rb->poll, 0);
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	5218	mutex_unlock(&event->mmap_mutex);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5219	return events;
				5220	}
				5221
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	5222	static void _perf_event_reset(struct perf_event *event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5223	{
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	5224	(void)perf_event_read(event, false);
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	5225	local64_set(&event->count, 0);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5226	perf_event_update_userpage(event);
				5227	}
				5228
Like Xu	52ba4b0	2019-10-27 18:52:39 +0800	[diff] [blame]	5229	/* Assume it's not an event with inherit set. */
				5230	u64 perf_event_pause(struct perf_event *event, bool reset)
				5231	{
				5232	struct perf_event_context *ctx;
				5233	u64 count;
				5234
				5235	ctx = perf_event_ctx_lock(event);
				5236	WARN_ON_ONCE(event->attr.inherit);
				5237	_perf_event_disable(event);
				5238	count = local64_read(&event->count);
				5239	if (reset)
				5240	local64_set(&event->count, 0);
				5241	perf_event_ctx_unlock(event, ctx);
				5242
				5243	return count;
				5244	}
				5245	EXPORT_SYMBOL_GPL(perf_event_pause);
				5246
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5247	/*
				5248	* Holding the top-level event's child_mutex means that any
				5249	* descendant process that has inherited this event will block
Peter Zijlstra	8ba289b	2016-01-26 13:06:56 +0100	[diff] [blame]	5250	* in perf_event_exit_event() if it goes to exit, thus satisfying the
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5251	* task existence requirements of perf_event_enable/disable.
				5252	*/
				5253	static void perf_event_for_each_child(struct perf_event *event,
				5254	void (func)(struct perf_event ))
				5255	{
				5256	struct perf_event *child;
				5257
				5258	WARN_ON_ONCE(event->ctx->parent_ctx);
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	5259
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5260	mutex_lock(&event->child_mutex);
				5261	func(event);
				5262	list_for_each_entry(child, &event->child_list, child_list)
				5263	func(child);
				5264	mutex_unlock(&event->child_mutex);
				5265	}
				5266
				5267	static void perf_event_for_each(struct perf_event *event,
				5268	void (func)(struct perf_event ))
				5269	{
				5270	struct perf_event_context *ctx = event->ctx;
				5271	struct perf_event *sibling;
				5272
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	5273	lockdep_assert_held(&ctx->mutex);
				5274
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5275	event = event->group_leader;
				5276
				5277	perf_event_for_each_child(event, func);
Peter Zijlstra	edb3959	2018-03-15 17:36:56 +0100	[diff] [blame]	5278	for_each_sibling_event(sibling, event)
Michael Ellerman	724b6da	2012-04-11 11:54:13 +1000	[diff] [blame]	5279	perf_event_for_each_child(sibling, func);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5280	}
				5281
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	5282	static void __perf_event_period(struct perf_event *event,
				5283	struct perf_cpu_context *cpuctx,
				5284	struct perf_event_context *ctx,
				5285	void *info)
Peter Zijlstra	0017960	2015-11-30 16:26:35 +0100	[diff] [blame]	5286	{
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	5287	u64 value = ((u64 )info);
Peter Zijlstra	c7999c6	2015-08-04 19:22:49 +0200	[diff] [blame]	5288	bool active;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5289
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5290	if (event->attr.freq) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5291	event->attr.sample_freq = value;
				5292	} else {
				5293	event->attr.sample_period = value;
				5294	event->hw.sample_period = value;
				5295	}
Peter Zijlstra	bad7192	2013-11-27 13:54:38 +0000	[diff] [blame]	5296
				5297	active = (event->state == PERF_EVENT_STATE_ACTIVE);
				5298	if (active) {
				5299	perf_pmu_disable(ctx->pmu);
Peter Zijlstra	1e02cd4	2016-03-10 15:39:24 +0100	[diff] [blame]	5300	/*
				5301	* We could be throttled; unthrottle now to avoid the tick
				5302	* trying to unthrottle while we already re-started the event.
				5303	*/
				5304	if (event->hw.interrupts == MAX_INTERRUPTS) {
				5305	event->hw.interrupts = 0;
				5306	perf_log_throttle(event, 1);
				5307	}
Peter Zijlstra	bad7192	2013-11-27 13:54:38 +0000	[diff] [blame]	5308	event->pmu->stop(event, PERF_EF_UPDATE);
				5309	}
				5310
				5311	local64_set(&event->hw.period_left, 0);
				5312
				5313	if (active) {
				5314	event->pmu->start(event, PERF_EF_RELOAD);
				5315	perf_pmu_enable(ctx->pmu);
				5316	}
Peter Zijlstra	c7999c6	2015-08-04 19:22:49 +0200	[diff] [blame]	5317	}
				5318
Jiri Olsa	81ec3f3	2019-02-04 13:35:32 +0100	[diff] [blame]	5319	static int perf_event_check_period(struct perf_event *event, u64 value)
				5320	{
				5321	return event->pmu->check_period(event, value);
				5322	}
				5323
Like Xu	3ca270f	2019-10-27 18:52:38 +0800	[diff] [blame]	5324	static int _perf_event_period(struct perf_event *event, u64 value)
Peter Zijlstra	c7999c6	2015-08-04 19:22:49 +0200	[diff] [blame]	5325	{
Peter Zijlstra	c7999c6	2015-08-04 19:22:49 +0200	[diff] [blame]	5326	if (!is_sampling_event(event))
				5327	return -EINVAL;
				5328
Peter Zijlstra	c7999c6	2015-08-04 19:22:49 +0200	[diff] [blame]	5329	if (!value)
				5330	return -EINVAL;
				5331
				5332	if (event->attr.freq && value > sysctl_perf_event_sample_rate)
				5333	return -EINVAL;
				5334
Jiri Olsa	81ec3f3	2019-02-04 13:35:32 +0100	[diff] [blame]	5335	if (perf_event_check_period(event, value))
				5336	return -EINVAL;
				5337
Ravi Bangoria	913a90b	2019-06-04 09:59:53 +0530	[diff] [blame]	5338	if (!event->attr.freq && (value & (1ULL << 63)))
				5339	return -EINVAL;
				5340
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	5341	event_function_call(event, __perf_event_period, &value);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5342
Peter Zijlstra	c7999c6	2015-08-04 19:22:49 +0200	[diff] [blame]	5343	return 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5344	}
				5345
Like Xu	3ca270f	2019-10-27 18:52:38 +0800	[diff] [blame]	5346	int perf_event_period(struct perf_event *event, u64 value)
				5347	{
				5348	struct perf_event_context *ctx;
				5349	int ret;
				5350
				5351	ctx = perf_event_ctx_lock(event);
				5352	ret = _perf_event_period(event, value);
				5353	perf_event_ctx_unlock(event, ctx);
				5354
				5355	return ret;
				5356	}
				5357	EXPORT_SYMBOL_GPL(perf_event_period);
				5358
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5359	static const struct file_operations perf_fops;
				5360
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	5361	static inline int perf_fget_light(int fd, struct fd *p)
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5362	{
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	5363	struct fd f = fdget(fd);
				5364	if (!f.file)
				5365	return -EBADF;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5366
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	5367	if (f.file->f_op != &perf_fops) {
				5368	fdput(f);
				5369	return -EBADF;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5370	}
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	5371	*p = f;
				5372	return 0;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5373	}
				5374
				5375	static int perf_event_set_output(struct perf_event *event,
				5376	struct perf_event *output_event);
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	5377	static int perf_event_set_filter(struct perf_event event, void __user arg);
Alexei Starovoitov	2541517	2015-03-25 12:49:20 -0700	[diff] [blame]	5378	static int perf_event_set_bpf_prog(struct perf_event *event, u32 prog_fd);
Milind Chabbi	32ff77e	2018-03-12 14:45:47 +0100	[diff] [blame]	5379	static int perf_copy_attr(struct perf_event_attr __user *uattr,
				5380	struct perf_event_attr *attr);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5381
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	5382	static long _perf_ioctl(struct perf_event *event, unsigned int cmd, unsigned long arg)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5383	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5384	void (func)(struct perf_event );
				5385	u32 flags = arg;
				5386
				5387	switch (cmd) {
				5388	case PERF_EVENT_IOC_ENABLE:
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	5389	func = _perf_event_enable;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5390	break;
				5391	case PERF_EVENT_IOC_DISABLE:
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	5392	func = _perf_event_disable;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5393	break;
				5394	case PERF_EVENT_IOC_RESET:
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	5395	func = _perf_event_reset;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5396	break;
				5397
				5398	case PERF_EVENT_IOC_REFRESH:
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	5399	return _perf_event_refresh(event, arg);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5400
				5401	case PERF_EVENT_IOC_PERIOD:
Like Xu	3ca270f	2019-10-27 18:52:38 +0800	[diff] [blame]	5402	{
				5403	u64 value;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5404
Like Xu	3ca270f	2019-10-27 18:52:38 +0800	[diff] [blame]	5405	if (copy_from_user(&value, (u64 __user *)arg, sizeof(value)))
				5406	return -EFAULT;
				5407
				5408	return _perf_event_period(event, value);
				5409	}
Jiri Olsa	cf4957f	2012-10-24 13:37:58 +0200	[diff] [blame]	5410	case PERF_EVENT_IOC_ID:
				5411	{
				5412	u64 id = primary_event_id(event);
				5413
				5414	if (copy_to_user((void __user *)arg, &id, sizeof(id)))
				5415	return -EFAULT;
				5416	return 0;
				5417	}
				5418
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5419	case PERF_EVENT_IOC_SET_OUTPUT:
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5420	{
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5421	int ret;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5422	if (arg != -1) {
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	5423	struct perf_event *output_event;
				5424	struct fd output;
				5425	ret = perf_fget_light(arg, &output);
				5426	if (ret)
				5427	return ret;
				5428	output_event = output.file->private_data;
				5429	ret = perf_event_set_output(event, output_event);
				5430	fdput(output);
				5431	} else {
				5432	ret = perf_event_set_output(event, NULL);
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5433	}
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5434	return ret;
				5435	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5436
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	5437	case PERF_EVENT_IOC_SET_FILTER:
				5438	return perf_event_set_filter(event, (void __user *)arg);
				5439
Alexei Starovoitov	2541517	2015-03-25 12:49:20 -0700	[diff] [blame]	5440	case PERF_EVENT_IOC_SET_BPF:
				5441	return perf_event_set_bpf_prog(event, arg);
				5442
Wang Nan	86e7972	2016-03-28 06:41:29 +0000	[diff] [blame]	5443	case PERF_EVENT_IOC_PAUSE_OUTPUT: {
Steven Rostedt (VMware)	56de4e8	2019-12-13 13:21:30 -0500	[diff] [blame]	5444	struct perf_buffer *rb;
Wang Nan	86e7972	2016-03-28 06:41:29 +0000	[diff] [blame]	5445
				5446	rcu_read_lock();
				5447	rb = rcu_dereference(event->rb);
				5448	if (!rb \|\| !rb->nr_pages) {
				5449	rcu_read_unlock();
				5450	return -EINVAL;
				5451	}
				5452	rb_toggle_paused(rb, !!arg);
				5453	rcu_read_unlock();
				5454	return 0;
				5455	}
Yonghong Song	f371b30	2017-12-11 11:39:02 -0800	[diff] [blame]	5456
				5457	case PERF_EVENT_IOC_QUERY_BPF:
Yonghong Song	f4e2298	2017-12-13 10:35:37 -0800	[diff] [blame]	5458	return perf_event_query_prog_array(event, (void __user *)arg);
Milind Chabbi	32ff77e	2018-03-12 14:45:47 +0100	[diff] [blame]	5459
				5460	case PERF_EVENT_IOC_MODIFY_ATTRIBUTES: {
				5461	struct perf_event_attr new_attr;
				5462	int err = perf_copy_attr((struct perf_event_attr __user *)arg,
				5463	&new_attr);
				5464
				5465	if (err)
				5466	return err;
				5467
				5468	return perf_event_modify_attr(event, &new_attr);
				5469	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5470	default:
				5471	return -ENOTTY;
				5472	}
				5473
				5474	if (flags & PERF_IOC_FLAG_GROUP)
				5475	perf_event_for_each(event, func);
				5476	else
				5477	perf_event_for_each_child(event, func);
				5478
				5479	return 0;
				5480	}
				5481
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	5482	static long perf_ioctl(struct file *file, unsigned int cmd, unsigned long arg)
				5483	{
				5484	struct perf_event *event = file->private_data;
				5485	struct perf_event_context *ctx;
				5486	long ret;
				5487
Joel Fernandes (Google)	da97e18	2019-10-14 13:03:08 -0400	[diff] [blame]	5488	/* Treat ioctl like writes as it is likely a mutating operation. */
				5489	ret = security_perf_event_write(event);
				5490	if (ret)
				5491	return ret;
				5492
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	5493	ctx = perf_event_ctx_lock(event);
				5494	ret = _perf_ioctl(event, cmd, arg);
				5495	perf_event_ctx_unlock(event, ctx);
				5496
				5497	return ret;
				5498	}
				5499
Pawel Moll	b3f2078	2014-06-13 16:03:32 +0100	[diff] [blame]	5500	#ifdef CONFIG_COMPAT
				5501	static long perf_compat_ioctl(struct file *file, unsigned int cmd,
				5502	unsigned long arg)
				5503	{
				5504	switch (_IOC_NR(cmd)) {
				5505	case _IOC_NR(PERF_EVENT_IOC_SET_FILTER):
				5506	case _IOC_NR(PERF_EVENT_IOC_ID):
Eugene Syromiatnikov	82489c5	2018-05-21 14:34:20 +0200	[diff] [blame]	5507	case _IOC_NR(PERF_EVENT_IOC_QUERY_BPF):
				5508	case _IOC_NR(PERF_EVENT_IOC_MODIFY_ATTRIBUTES):
Pawel Moll	b3f2078	2014-06-13 16:03:32 +0100	[diff] [blame]	5509	/* Fix up pointer size (usually 4 -> 8 in 32-on-64-bit case */
				5510	if (_IOC_SIZE(cmd) == sizeof(compat_uptr_t)) {
				5511	cmd &= ~IOCSIZE_MASK;
				5512	cmd \|= sizeof(void *) << IOCSIZE_SHIFT;
				5513	}
				5514	break;
				5515	}
				5516	return perf_ioctl(file, cmd, arg);
				5517	}
				5518	#else
				5519	# define perf_compat_ioctl NULL
				5520	#endif
				5521
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5522	int perf_event_task_enable(void)
				5523	{
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	5524	struct perf_event_context *ctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5525	struct perf_event *event;
				5526
				5527	mutex_lock(&current->perf_event_mutex);
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	5528	list_for_each_entry(event, &current->perf_event_list, owner_entry) {
				5529	ctx = perf_event_ctx_lock(event);
				5530	perf_event_for_each_child(event, _perf_event_enable);
				5531	perf_event_ctx_unlock(event, ctx);
				5532	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5533	mutex_unlock(&current->perf_event_mutex);
				5534
				5535	return 0;
				5536	}
				5537
				5538	int perf_event_task_disable(void)
				5539	{
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	5540	struct perf_event_context *ctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5541	struct perf_event *event;
				5542
				5543	mutex_lock(&current->perf_event_mutex);
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	5544	list_for_each_entry(event, &current->perf_event_list, owner_entry) {
				5545	ctx = perf_event_ctx_lock(event);
				5546	perf_event_for_each_child(event, _perf_event_disable);
				5547	perf_event_ctx_unlock(event, ctx);
				5548	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5549	mutex_unlock(&current->perf_event_mutex);
				5550
				5551	return 0;
				5552	}
				5553
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5554	static int perf_event_index(struct perf_event *event)
				5555	{
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	5556	if (event->hw.state & PERF_HES_STOPPED)
				5557	return 0;
				5558
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5559	if (event->state != PERF_EVENT_STATE_ACTIVE)
				5560	return 0;
				5561
Peter Zijlstra	35edc2a	2011-11-20 20:36:02 +0100	[diff] [blame]	5562	return event->pmu->event_idx(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5563	}
				5564
Eric B Munson	c479429	2011-06-23 16:34:38 -0400	[diff] [blame]	5565	static void calc_timer_values(struct perf_event *event,
Peter Zijlstra	e3f3541	2011-11-21 11:43:53 +0100	[diff] [blame]	5566	u64 *now,
Eric B Munson	7f310a5	2011-06-23 16:34:38 -0400	[diff] [blame]	5567	u64 *enabled,
				5568	u64 *running)
Eric B Munson	c479429	2011-06-23 16:34:38 -0400	[diff] [blame]	5569	{
Peter Zijlstra	e3f3541	2011-11-21 11:43:53 +0100	[diff] [blame]	5570	u64 ctx_time;
Eric B Munson	c479429	2011-06-23 16:34:38 -0400	[diff] [blame]	5571
Peter Zijlstra	e3f3541	2011-11-21 11:43:53 +0100	[diff] [blame]	5572	*now = perf_clock();
				5573	ctx_time = event->shadow_ctx_time + *now;
Peter Zijlstra	0d3d73a	2017-09-05 14:16:28 +0200	[diff] [blame]	5574	__perf_update_times(event, ctx_time, enabled, running);
Eric B Munson	c479429	2011-06-23 16:34:38 -0400	[diff] [blame]	5575	}
				5576
Peter Zijlstra	fa731587	2013-09-19 10:16:42 +0200	[diff] [blame]	5577	static void perf_event_init_userpage(struct perf_event *event)
				5578	{
				5579	struct perf_event_mmap_page *userpg;
Steven Rostedt (VMware)	56de4e8	2019-12-13 13:21:30 -0500	[diff] [blame]	5580	struct perf_buffer *rb;
Peter Zijlstra	fa731587	2013-09-19 10:16:42 +0200	[diff] [blame]	5581
				5582	rcu_read_lock();
				5583	rb = rcu_dereference(event->rb);
				5584	if (!rb)
				5585	goto unlock;
				5586
				5587	userpg = rb->user_page;
				5588
				5589	/* Allow new userspace to detect that bit 0 is deprecated */
				5590	userpg->cap_bit0_is_deprecated = 1;
				5591	userpg->size = offsetof(struct perf_event_mmap_page, __reserved);
Alexander Shishkin	e8c6dea	2015-01-14 14:18:10 +0200	[diff] [blame]	5592	userpg->data_offset = PAGE_SIZE;
				5593	userpg->data_size = perf_data_size(rb);
Peter Zijlstra	fa731587	2013-09-19 10:16:42 +0200	[diff] [blame]	5594
				5595	unlock:
				5596	rcu_read_unlock();
				5597	}
				5598
Andy Lutomirski	c1317ec	2014-10-24 15:58:11 -0700	[diff] [blame]	5599	void __weak arch_perf_update_userpage(
				5600	struct perf_event event, struct perf_event_mmap_page userpg, u64 now)
Peter Zijlstra	e3f3541	2011-11-21 11:43:53 +0100	[diff] [blame]	5601	{
				5602	}
				5603
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5604	/*
				5605	* Callers need to ensure there can be no nesting of this function, otherwise
				5606	* the seqlock logic goes bad. We can not serialize this because the arch
				5607	* code calls this from NMI context.
				5608	*/
				5609	void perf_event_update_userpage(struct perf_event *event)
				5610	{
				5611	struct perf_event_mmap_page *userpg;
Steven Rostedt (VMware)	56de4e8	2019-12-13 13:21:30 -0500	[diff] [blame]	5612	struct perf_buffer *rb;
Peter Zijlstra	e3f3541	2011-11-21 11:43:53 +0100	[diff] [blame]	5613	u64 enabled, running, now;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5614
				5615	rcu_read_lock();
Peter Zijlstra	5ec4c59	2013-08-02 21:16:30 +0200	[diff] [blame]	5616	rb = rcu_dereference(event->rb);
				5617	if (!rb)
				5618	goto unlock;
				5619
Eric B Munson	0d64120	2011-06-24 12:26:26 -0400	[diff] [blame]	5620	/*
				5621	* compute total_time_enabled, total_time_running
				5622	* based on snapshot values taken when the event
				5623	* was last scheduled in.
				5624	*
				5625	* we cannot simply called update_context_time()
				5626	* because of locking issue as we can be called in
				5627	* NMI context
				5628	*/
Peter Zijlstra	e3f3541	2011-11-21 11:43:53 +0100	[diff] [blame]	5629	calc_timer_values(event, &now, &enabled, &running);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5630
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	5631	userpg = rb->user_page;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5632	/*
Michael O'Farrell	9d2dcc8f	2018-07-30 13:14:34 -0700	[diff] [blame]	5633	* Disable preemption to guarantee consistent time stamps are stored to
				5634	* the user page.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5635	*/
				5636	preempt_disable();
				5637	++userpg->lock;
				5638	barrier();
				5639	userpg->index = perf_event_index(event);
Peter Zijlstra	b5e5879	2010-05-21 14:43:12 +0200	[diff] [blame]	5640	userpg->offset = perf_event_count(event);
Peter Zijlstra	365a403	2011-11-21 20:58:59 +0100	[diff] [blame]	5641	if (userpg->index)
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	5642	userpg->offset -= local64_read(&event->hw.prev_count);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5643
Eric B Munson	0d64120	2011-06-24 12:26:26 -0400	[diff] [blame]	5644	userpg->time_enabled = enabled +
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5645	atomic64_read(&event->child_total_time_enabled);
				5646
Eric B Munson	0d64120	2011-06-24 12:26:26 -0400	[diff] [blame]	5647	userpg->time_running = running +
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5648	atomic64_read(&event->child_total_time_running);
				5649
Andy Lutomirski	c1317ec	2014-10-24 15:58:11 -0700	[diff] [blame]	5650	arch_perf_update_userpage(event, userpg, now);
Peter Zijlstra	e3f3541	2011-11-21 11:43:53 +0100	[diff] [blame]	5651
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5652	barrier();
				5653	++userpg->lock;
				5654	preempt_enable();
				5655	unlock:
				5656	rcu_read_unlock();
				5657	}
Suzuki K Poulose	82975c4	2018-01-02 11:25:26 +0000	[diff] [blame]	5658	EXPORT_SYMBOL_GPL(perf_event_update_userpage);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5659
Souptick Joarder	9e3ed2d	2018-05-21 23:55:20 +0530	[diff] [blame]	5660	static vm_fault_t perf_mmap_fault(struct vm_fault *vmf)
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	5661	{
Dave Jiang	11bac80	2017-02-24 14:56:41 -0800	[diff] [blame]	5662	struct perf_event *event = vmf->vma->vm_file->private_data;
Steven Rostedt (VMware)	56de4e8	2019-12-13 13:21:30 -0500	[diff] [blame]	5663	struct perf_buffer *rb;
Souptick Joarder	9e3ed2d	2018-05-21 23:55:20 +0530	[diff] [blame]	5664	vm_fault_t ret = VM_FAULT_SIGBUS;
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	5665
				5666	if (vmf->flags & FAULT_FLAG_MKWRITE) {
				5667	if (vmf->pgoff == 0)
				5668	ret = 0;
				5669	return ret;
				5670	}
				5671
				5672	rcu_read_lock();
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	5673	rb = rcu_dereference(event->rb);
				5674	if (!rb)
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	5675	goto unlock;
				5676
				5677	if (vmf->pgoff && (vmf->flags & FAULT_FLAG_WRITE))
				5678	goto unlock;
				5679
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	5680	vmf->page = perf_mmap_to_page(rb, vmf->pgoff);
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	5681	if (!vmf->page)
				5682	goto unlock;
				5683
				5684	get_page(vmf->page);
Dave Jiang	11bac80	2017-02-24 14:56:41 -0800	[diff] [blame]	5685	vmf->page->mapping = vmf->vma->vm_file->f_mapping;
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	5686	vmf->page->index = vmf->pgoff;
				5687
				5688	ret = 0;
				5689	unlock:
				5690	rcu_read_unlock();
				5691
				5692	return ret;
				5693	}
				5694
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	5695	static void ring_buffer_attach(struct perf_event *event,
Steven Rostedt (VMware)	56de4e8	2019-12-13 13:21:30 -0500	[diff] [blame]	5696	struct perf_buffer *rb)
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	5697	{
Steven Rostedt (VMware)	56de4e8	2019-12-13 13:21:30 -0500	[diff] [blame]	5698	struct perf_buffer *old_rb = NULL;
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	5699	unsigned long flags;
				5700
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	5701	if (event->rb) {
				5702	/*
				5703	* Should be impossible, we set this when removing
				5704	* event->rb_entry and wait/clear when adding event->rb_entry.
				5705	*/
				5706	WARN_ON_ONCE(event->rcu_pending);
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	5707
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	5708	old_rb = event->rb;
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	5709	spin_lock_irqsave(&old_rb->event_lock, flags);
				5710	list_del_rcu(&event->rb_entry);
				5711	spin_unlock_irqrestore(&old_rb->event_lock, flags);
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	5712
Oleg Nesterov	2f993cf	2015-05-30 22:04:25 +0200	[diff] [blame]	5713	event->rcu_batches = get_state_synchronize_rcu();
				5714	event->rcu_pending = 1;
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	5715	}
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	5716
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	5717	if (rb) {
Oleg Nesterov	2f993cf	2015-05-30 22:04:25 +0200	[diff] [blame]	5718	if (event->rcu_pending) {
				5719	cond_synchronize_rcu(event->rcu_batches);
				5720	event->rcu_pending = 0;
				5721	}
				5722
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	5723	spin_lock_irqsave(&rb->event_lock, flags);
				5724	list_add_rcu(&event->rb_entry, &rb->event_list);
				5725	spin_unlock_irqrestore(&rb->event_lock, flags);
				5726	}
				5727
Alexander Shishkin	767ae08	2016-09-06 16:23:49 +0300	[diff] [blame]	5728	/*
				5729	* Avoid racing with perf_mmap_close(AUX): stop the event
				5730	* before swizzling the event::rb pointer; if it's getting
				5731	* unmapped, its aux_mmap_count will be 0 and it won't
				5732	* restart. See the comment in __perf_pmu_output_stop().
				5733	*
				5734	* Data will inevitably be lost when set_output is done in
				5735	* mid-air, but then again, whoever does it like this is
				5736	* not in for the data anyway.
				5737	*/
				5738	if (has_aux(event))
				5739	perf_event_stop(event, 0);
				5740
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	5741	rcu_assign_pointer(event->rb, rb);
				5742
				5743	if (old_rb) {
				5744	ring_buffer_put(old_rb);
				5745	/*
				5746	* Since we detached before setting the new rb, so that we
				5747	* could attach the new rb, we could have missed a wakeup.
				5748	* Provide it now.
				5749	*/
				5750	wake_up_all(&event->waitq);
				5751	}
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	5752	}
				5753
				5754	static void ring_buffer_wakeup(struct perf_event *event)
				5755	{
Steven Rostedt (VMware)	56de4e8	2019-12-13 13:21:30 -0500	[diff] [blame]	5756	struct perf_buffer *rb;
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	5757
				5758	rcu_read_lock();
				5759	rb = rcu_dereference(event->rb);
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	5760	if (rb) {
				5761	list_for_each_entry_rcu(event, &rb->event_list, rb_entry)
				5762	wake_up_all(&event->waitq);
				5763	}
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	5764	rcu_read_unlock();
				5765	}
				5766
Steven Rostedt (VMware)	56de4e8	2019-12-13 13:21:30 -0500	[diff] [blame]	5767	struct perf_buffer ring_buffer_get(struct perf_event event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5768	{
Steven Rostedt (VMware)	56de4e8	2019-12-13 13:21:30 -0500	[diff] [blame]	5769	struct perf_buffer *rb;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5770
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5771	rcu_read_lock();
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	5772	rb = rcu_dereference(event->rb);
				5773	if (rb) {
Elena Reshetova	fecb8ed	2019-01-28 14:27:27 +0200	[diff] [blame]	5774	if (!refcount_inc_not_zero(&rb->refcount))
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	5775	rb = NULL;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5776	}
				5777	rcu_read_unlock();
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5778
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	5779	return rb;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5780	}
				5781
Steven Rostedt (VMware)	56de4e8	2019-12-13 13:21:30 -0500	[diff] [blame]	5782	void ring_buffer_put(struct perf_buffer *rb)
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5783	{
Elena Reshetova	fecb8ed	2019-01-28 14:27:27 +0200	[diff] [blame]	5784	if (!refcount_dec_and_test(&rb->refcount))
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5785	return;
				5786
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	5787	WARN_ON_ONCE(!list_empty(&rb->event_list));
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	5788
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	5789	call_rcu(&rb->rcu_head, rb_free_rcu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5790	}
				5791
				5792	static void perf_mmap_open(struct vm_area_struct *vma)
				5793	{
				5794	struct perf_event *event = vma->vm_file->private_data;
				5795
				5796	atomic_inc(&event->mmap_count);
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	5797	atomic_inc(&event->rb->mmap_count);
Andy Lutomirski	1e0fb9e	2014-10-24 15:58:10 -0700	[diff] [blame]	5798
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	5799	if (vma->vm_pgoff)
				5800	atomic_inc(&event->rb->aux_mmap_count);
				5801
Andy Lutomirski	1e0fb9e	2014-10-24 15:58:10 -0700	[diff] [blame]	5802	if (event->pmu->event_mapped)
Peter Zijlstra	bfe33492	2017-08-02 19:39:30 +0200	[diff] [blame]	5803	event->pmu->event_mapped(event, vma->vm_mm);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5804	}
				5805
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	5806	static void perf_pmu_output_stop(struct perf_event *event);
				5807
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	5808	/*
				5809	* A buffer can be mmap()ed multiple times; either directly through the same
				5810	* event, or through other events by use of perf_event_set_output().
				5811	*
				5812	* In order to undo the VM accounting done by perf_mmap() we need to destroy
				5813	* the buffer here, where we still have a VM context. This means we need
				5814	* to detach all events redirecting to us.
				5815	*/
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5816	static void perf_mmap_close(struct vm_area_struct *vma)
				5817	{
				5818	struct perf_event *event = vma->vm_file->private_data;
				5819
Steven Rostedt (VMware)	56de4e8	2019-12-13 13:21:30 -0500	[diff] [blame]	5820	struct perf_buffer *rb = ring_buffer_get(event);
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	5821	struct user_struct *mmap_user = rb->mmap_user;
				5822	int mmap_locked = rb->mmap_locked;
				5823	unsigned long size = perf_data_size(rb);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5824
Andy Lutomirski	1e0fb9e	2014-10-24 15:58:10 -0700	[diff] [blame]	5825	if (event->pmu->event_unmapped)
Peter Zijlstra	bfe33492	2017-08-02 19:39:30 +0200	[diff] [blame]	5826	event->pmu->event_unmapped(event, vma->vm_mm);
Andy Lutomirski	1e0fb9e	2014-10-24 15:58:10 -0700	[diff] [blame]	5827
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	5828	/*
				5829	* rb->aux_mmap_count will always drop before rb->mmap_count and
				5830	* event->mmap_count, so it is ok to use event->mmap_mutex to
				5831	* serialize with perf_mmap here.
				5832	*/
				5833	if (rb_has_aux(rb) && vma->vm_pgoff == rb->aux_pgoff &&
				5834	atomic_dec_and_mutex_lock(&rb->aux_mmap_count, &event->mmap_mutex)) {
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	5835	/*
				5836	* Stop all AUX events that are writing to this buffer,
				5837	* so that we can free its AUX pages and corresponding PMU
				5838	* data. Note that after rb::aux_mmap_count dropped to zero,
				5839	* they won't start any more (see perf_aux_output_begin()).
				5840	*/
				5841	perf_pmu_output_stop(event);
				5842
				5843	/* now it's safe to free the pages */
Alexander Shishkin	36b3db0	2019-11-15 18:08:18 +0200	[diff] [blame]	5844	atomic_long_sub(rb->aux_nr_pages - rb->aux_mmap_locked, &mmap_user->locked_vm);
				5845	atomic64_sub(rb->aux_mmap_locked, &vma->vm_mm->pinned_vm);
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	5846
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	5847	/* this has to be the last one */
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	5848	rb_free_aux(rb);
Elena Reshetova	ca3bb3d	2019-01-28 14:27:28 +0200	[diff] [blame]	5849	WARN_ON_ONCE(refcount_read(&rb->aux_refcount));
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	5850
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	5851	mutex_unlock(&event->mmap_mutex);
				5852	}
				5853
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	5854	atomic_dec(&rb->mmap_count);
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5855
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	5856	if (!atomic_dec_and_mutex_lock(&event->mmap_count, &event->mmap_mutex))
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	5857	goto out_put;
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	5858
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	5859	ring_buffer_attach(event, NULL);
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	5860	mutex_unlock(&event->mmap_mutex);
				5861
				5862	/* If there's still other mmap()s of this buffer, we're done. */
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	5863	if (atomic_read(&rb->mmap_count))
				5864	goto out_put;
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	5865
				5866	/*
				5867	* No other mmap()s, detach from all other events that might redirect
				5868	* into the now unreachable buffer. Somewhat complicated by the
				5869	* fact that rb::event_lock otherwise nests inside mmap_mutex.
				5870	*/
				5871	again:
				5872	rcu_read_lock();
				5873	list_for_each_entry_rcu(event, &rb->event_list, rb_entry) {
				5874	if (!atomic_long_inc_not_zero(&event->refcount)) {
				5875	/*
				5876	* This event is en-route to free_event() which will
				5877	* detach it and remove it from the list.
				5878	*/
				5879	continue;
				5880	}
				5881	rcu_read_unlock();
				5882
				5883	mutex_lock(&event->mmap_mutex);
				5884	/*
				5885	* Check we didn't race with perf_event_set_output() which can
				5886	* swizzle the rb from under us while we were waiting to
				5887	* acquire mmap_mutex.
				5888	*
				5889	* If we find a different rb; ignore this event, a next
				5890	* iteration will no longer find it on the list. We have to
				5891	* still restart the iteration to make sure we're not now
				5892	* iterating the wrong list.
				5893	*/
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	5894	if (event->rb == rb)
				5895	ring_buffer_attach(event, NULL);
				5896
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	5897	mutex_unlock(&event->mmap_mutex);
				5898	put_event(event);
				5899
				5900	/*
				5901	* Restart the iteration; either we're on the wrong list or
				5902	* destroyed its integrity by doing a deletion.
				5903	*/
				5904	goto again;
				5905	}
				5906	rcu_read_unlock();
				5907
				5908	/*
				5909	* It could be there's still a few 0-ref events on the list; they'll
				5910	* get cleaned up by free_event() -- they'll also still have their
				5911	* ref on the rb and will free it whenever they are done with it.
				5912	*
				5913	* Aside from that, this buffer is 'fully' detached and unmapped,
				5914	* undo the VM accounting.
				5915	*/
				5916
Song Liu	d44248a	2019-09-04 14:46:18 -0700	[diff] [blame]	5917	atomic_long_sub((size >> PAGE_SHIFT) + 1 - mmap_locked,
				5918	&mmap_user->locked_vm);
Davidlohr Bueso	70f8a3c	2019-02-06 09:59:15 -0800	[diff] [blame]	5919	atomic64_sub(mmap_locked, &vma->vm_mm->pinned_vm);
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	5920	free_uid(mmap_user);
				5921
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	5922	out_put:
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	5923	ring_buffer_put(rb); /* could be last */
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5924	}
				5925
Alexey Dobriyan	f0f37e2f	2009-09-27 22:29:37 +0400	[diff] [blame]	5926	static const struct vm_operations_struct perf_mmap_vmops = {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5927	.open = perf_mmap_open,
Ingo Molnar	fca0c11	2018-12-03 10:52:21 +0100	[diff] [blame]	5928	.close = perf_mmap_close, /* non mergeable */
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5929	.fault = perf_mmap_fault,
				5930	.page_mkwrite = perf_mmap_fault,
				5931	};
				5932
				5933	static int perf_mmap(struct file file, struct vm_area_struct vma)
				5934	{
				5935	struct perf_event *event = file->private_data;
				5936	unsigned long user_locked, user_lock_limit;
				5937	struct user_struct *user = current_user();
Steven Rostedt (VMware)	56de4e8	2019-12-13 13:21:30 -0500	[diff] [blame]	5938	struct perf_buffer *rb = NULL;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5939	unsigned long locked, lock_limit;
				5940	unsigned long vma_size;
				5941	unsigned long nr_pages;
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	5942	long user_extra = 0, extra = 0;
Peter Zijlstra	d57e34f	2010-05-28 19:41:35 +0200	[diff] [blame]	5943	int ret = 0, flags = 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5944
Peter Zijlstra	c792061	2010-05-18 10:33:24 +0200	[diff] [blame]	5945	/*
				5946	* Don't allow mmap() of inherited per-task counters. This would
				5947	* create a performance issue due to all children writing to the
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	5948	* same rb.
Peter Zijlstra	c792061	2010-05-18 10:33:24 +0200	[diff] [blame]	5949	*/
				5950	if (event->cpu == -1 && event->attr.inherit)
				5951	return -EINVAL;
				5952
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5953	if (!(vma->vm_flags & VM_SHARED))
				5954	return -EINVAL;
				5955
Joel Fernandes (Google)	da97e18	2019-10-14 13:03:08 -0400	[diff] [blame]	5956	ret = security_perf_event_read(event);
				5957	if (ret)
				5958	return ret;
				5959
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5960	vma_size = vma->vm_end - vma->vm_start;
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	5961
				5962	if (vma->vm_pgoff == 0) {
				5963	nr_pages = (vma_size / PAGE_SIZE) - 1;
				5964	} else {
				5965	/*
				5966	* AUX area mapping: if rb->aux_nr_pages != 0, it's already
				5967	* mapped, all subsequent mappings should have the same size
				5968	* and offset. Must be above the normal perf buffer.
				5969	*/
				5970	u64 aux_offset, aux_size;
				5971
				5972	if (!event->rb)
				5973	return -EINVAL;
				5974
				5975	nr_pages = vma_size / PAGE_SIZE;
				5976
				5977	mutex_lock(&event->mmap_mutex);
				5978	ret = -EINVAL;
				5979
				5980	rb = event->rb;
				5981	if (!rb)
				5982	goto aux_unlock;
				5983
Mark Rutland	6aa7de0	2017-10-23 14:07:29 -0700	[diff] [blame]	5984	aux_offset = READ_ONCE(rb->user_page->aux_offset);
				5985	aux_size = READ_ONCE(rb->user_page->aux_size);
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	5986
				5987	if (aux_offset < perf_data_size(rb) + PAGE_SIZE)
				5988	goto aux_unlock;
				5989
				5990	if (aux_offset != vma->vm_pgoff << PAGE_SHIFT)
				5991	goto aux_unlock;
				5992
				5993	/* already mapped with a different offset */
				5994	if (rb_has_aux(rb) && rb->aux_pgoff != vma->vm_pgoff)
				5995	goto aux_unlock;
				5996
				5997	if (aux_size != vma_size \|\| aux_size != nr_pages * PAGE_SIZE)
				5998	goto aux_unlock;
				5999
				6000	/* already mapped with a different size */
				6001	if (rb_has_aux(rb) && rb->aux_nr_pages != nr_pages)
				6002	goto aux_unlock;
				6003
				6004	if (!is_power_of_2(nr_pages))
				6005	goto aux_unlock;
				6006
				6007	if (!atomic_inc_not_zero(&rb->mmap_count))
				6008	goto aux_unlock;
				6009
				6010	if (rb_has_aux(rb)) {
				6011	atomic_inc(&rb->aux_mmap_count);
				6012	ret = 0;
				6013	goto unlock;
				6014	}
				6015
				6016	atomic_set(&rb->aux_mmap_count, 1);
				6017	user_extra = nr_pages;
				6018
				6019	goto accounting;
				6020	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6021
				6022	/*
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	6023	* If we have rb pages ensure they're a power-of-two number, so we
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6024	* can do bitmasks instead of modulo.
				6025	*/
Kan Liang	2ed1131	2015-03-02 02:14:26 -0500	[diff] [blame]	6026	if (nr_pages != 0 && !is_power_of_2(nr_pages))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6027	return -EINVAL;
				6028
				6029	if (vma_size != PAGE_SIZE * (1 + nr_pages))
				6030	return -EINVAL;
				6031
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6032	WARN_ON_ONCE(event->ctx->parent_ctx);
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	6033	again:
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6034	mutex_lock(&event->mmap_mutex);
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	6035	if (event->rb) {
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	6036	if (event->rb->nr_pages != nr_pages) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6037	ret = -EINVAL;
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	6038	goto unlock;
				6039	}
				6040
				6041	if (!atomic_inc_not_zero(&event->rb->mmap_count)) {
				6042	/*
				6043	* Raced against perf_mmap_close() through
				6044	* perf_event_set_output(). Try again, hope for better
				6045	* luck.
				6046	*/
				6047	mutex_unlock(&event->mmap_mutex);
				6048	goto again;
				6049	}
				6050
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6051	goto unlock;
				6052	}
				6053
				6054	user_extra = nr_pages + 1;
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	6055
				6056	accounting:
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6057	user_lock_limit = sysctl_perf_event_mlock >> (PAGE_SHIFT - 10);
				6058
				6059	/*
				6060	* Increase the limit linearly with more CPUs:
				6061	*/
				6062	user_lock_limit *= num_online_cpus();
				6063
Song Liu	0034615	2020-01-23 10:11:46 -0800	[diff] [blame]	6064	user_locked = atomic_long_read(&user->locked_vm);
				6065
				6066	/*
				6067	* sysctl_perf_event_mlock may have changed, so that
				6068	* user->locked_vm > user_lock_limit
				6069	*/
				6070	if (user_locked > user_lock_limit)
				6071	user_locked = user_lock_limit;
				6072	user_locked += user_extra;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6073
Alexander Shishkin	c4b7547	2019-11-20 19:06:40 +0200	[diff] [blame]	6074	if (user_locked > user_lock_limit) {
Song Liu	d44248a	2019-09-04 14:46:18 -0700	[diff] [blame]	6075	/*
				6076	* charge locked_vm until it hits user_lock_limit;
				6077	* charge the rest from pinned_vm
				6078	*/
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6079	extra = user_locked - user_lock_limit;
Song Liu	d44248a	2019-09-04 14:46:18 -0700	[diff] [blame]	6080	user_extra -= extra;
				6081	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6082
Jiri Slaby	78d7d40	2010-03-05 13:42:54 -0800	[diff] [blame]	6083	lock_limit = rlimit(RLIMIT_MEMLOCK);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6084	lock_limit >>= PAGE_SHIFT;
Davidlohr Bueso	70f8a3c	2019-02-06 09:59:15 -0800	[diff] [blame]	6085	locked = atomic64_read(&vma->vm_mm->pinned_vm) + extra;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6086
Joel Fernandes (Google)	da97e18	2019-10-14 13:03:08 -0400	[diff] [blame]	6087	if ((locked > lock_limit) && perf_is_paranoid() &&
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6088	!capable(CAP_IPC_LOCK)) {
				6089	ret = -EPERM;
				6090	goto unlock;
				6091	}
				6092
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	6093	WARN_ON(!rb && event->rb);
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	6094
Peter Zijlstra	d57e34f	2010-05-28 19:41:35 +0200	[diff] [blame]	6095	if (vma->vm_flags & VM_WRITE)
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	6096	flags \|= RING_BUFFER_WRITABLE;
Peter Zijlstra	d57e34f	2010-05-28 19:41:35 +0200	[diff] [blame]	6097
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	6098	if (!rb) {
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	6099	rb = rb_alloc(nr_pages,
				6100	event->attr.watermark ? event->attr.wakeup_watermark : 0,
				6101	event->cpu, flags);
				6102
				6103	if (!rb) {
				6104	ret = -ENOMEM;
				6105	goto unlock;
				6106	}
				6107
				6108	atomic_set(&rb->mmap_count, 1);
				6109	rb->mmap_user = get_current_user();
				6110	rb->mmap_locked = extra;
				6111
				6112	ring_buffer_attach(event, rb);
				6113
				6114	perf_event_init_userpage(event);
				6115	perf_event_update_userpage(event);
				6116	} else {
Alexander Shishkin	1a59413	2015-01-14 14:18:18 +0200	[diff] [blame]	6117	ret = rb_alloc_aux(rb, event, vma->vm_pgoff, nr_pages,
				6118	event->attr.aux_watermark, flags);
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	6119	if (!ret)
				6120	rb->aux_mmap_locked = extra;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	6121	}
Peter Zijlstra	26cb63a	2013-05-28 10:55:48 +0200	[diff] [blame]	6122
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6123	unlock:
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	6124	if (!ret) {
				6125	atomic_long_add(user_extra, &user->locked_vm);
Davidlohr Bueso	70f8a3c	2019-02-06 09:59:15 -0800	[diff] [blame]	6126	atomic64_add(extra, &vma->vm_mm->pinned_vm);
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	6127
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	6128	atomic_inc(&event->mmap_count);
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	6129	} else if (rb) {
				6130	atomic_dec(&rb->mmap_count);
				6131	}
				6132	aux_unlock:
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6133	mutex_unlock(&event->mmap_mutex);
				6134
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	6135	/*
				6136	* Since pinned accounting is per vm we cannot allow fork() to copy our
				6137	* vma.
				6138	*/
Peter Zijlstra	26cb63a	2013-05-28 10:55:48 +0200	[diff] [blame]	6139	vma->vm_flags \|= VM_DONTCOPY \| VM_DONTEXPAND \| VM_DONTDUMP;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6140	vma->vm_ops = &perf_mmap_vmops;
				6141
Andy Lutomirski	1e0fb9e	2014-10-24 15:58:10 -0700	[diff] [blame]	6142	if (event->pmu->event_mapped)
Peter Zijlstra	bfe33492	2017-08-02 19:39:30 +0200	[diff] [blame]	6143	event->pmu->event_mapped(event, vma->vm_mm);
Andy Lutomirski	1e0fb9e	2014-10-24 15:58:10 -0700	[diff] [blame]	6144
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6145	return ret;
				6146	}
				6147
				6148	static int perf_fasync(int fd, struct file *filp, int on)
				6149	{
Al Viro	496ad9a	2013-01-23 17:07:38 -0500	[diff] [blame]	6150	struct inode *inode = file_inode(filp);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6151	struct perf_event *event = filp->private_data;
				6152	int retval;
				6153
Al Viro	5955102	2016-01-22 15:40:57 -0500	[diff] [blame]	6154	inode_lock(inode);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6155	retval = fasync_helper(fd, filp, on, &event->fasync);
Al Viro	5955102	2016-01-22 15:40:57 -0500	[diff] [blame]	6156	inode_unlock(inode);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6157
				6158	if (retval < 0)
				6159	return retval;
				6160
				6161	return 0;
				6162	}
				6163
				6164	static const struct file_operations perf_fops = {
Arnd Bergmann	3326c1c	2010-03-23 19:09:33 +0100	[diff] [blame]	6165	.llseek = no_llseek,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6166	.release = perf_release,
				6167	.read = perf_read,
				6168	.poll = perf_poll,
				6169	.unlocked_ioctl = perf_ioctl,
Pawel Moll	b3f2078	2014-06-13 16:03:32 +0100	[diff] [blame]	6170	.compat_ioctl = perf_compat_ioctl,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6171	.mmap = perf_mmap,
				6172	.fasync = perf_fasync,
				6173	};
				6174
				6175	/*
				6176	* Perf event wakeup
				6177	*
				6178	* If there's data, ensure we set the poll() state and publish everything
				6179	* to user-space before waking everybody up.
				6180	*/
				6181
Peter Zijlstra	fed66e2cd	2015-06-11 10:32:01 +0200	[diff] [blame]	6182	static inline struct fasync_struct *perf_event_fasync(struct perf_event event)
				6183	{
				6184	/* only the parent has fasync state */
				6185	if (event->parent)
				6186	event = event->parent;
				6187	return &event->fasync;
				6188	}
				6189
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6190	void perf_event_wakeup(struct perf_event *event)
				6191	{
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	6192	ring_buffer_wakeup(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6193
				6194	if (event->pending_kill) {
Peter Zijlstra	fed66e2cd	2015-06-11 10:32:01 +0200	[diff] [blame]	6195	kill_fasync(perf_event_fasync(event), SIGIO, event->pending_kill);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6196	event->pending_kill = 0;
				6197	}
				6198	}
				6199
Peter Zijlstra	1d54ad9	2019-04-04 15:03:00 +0200	[diff] [blame]	6200	static void perf_pending_event_disable(struct perf_event *event)
				6201	{
				6202	int cpu = READ_ONCE(event->pending_disable);
				6203
				6204	if (cpu < 0)
				6205	return;
				6206
				6207	if (cpu == smp_processor_id()) {
				6208	WRITE_ONCE(event->pending_disable, -1);
				6209	perf_event_disable_local(event);
				6210	return;
				6211	}
				6212
				6213	/*
				6214	* CPU-A CPU-B
				6215	*
				6216	* perf_event_disable_inatomic()
				6217	* @pending_disable = CPU-A;
				6218	* irq_work_queue();
				6219	*
				6220	* sched-out
				6221	* @pending_disable = -1;
				6222	*
				6223	* sched-in
				6224	* perf_event_disable_inatomic()
				6225	* @pending_disable = CPU-B;
				6226	* irq_work_queue(); // FAILS
				6227	*
				6228	* irq_work_run()
				6229	* perf_pending_event()
				6230	*
				6231	* But the event runs on CPU-B and wants disabling there.
				6232	*/
				6233	irq_work_queue_on(&event->pending, cpu);
				6234	}
				6235
Peter Zijlstra	e360adb	2010-10-14 14:01:34 +0800	[diff] [blame]	6236	static void perf_pending_event(struct irq_work *entry)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6237	{
Peter Zijlstra	1d54ad9	2019-04-04 15:03:00 +0200	[diff] [blame]	6238	struct perf_event *event = container_of(entry, struct perf_event, pending);
Peter Zijlstra	d525211	2015-02-19 18:03:11 +0100	[diff] [blame]	6239	int rctx;
				6240
				6241	rctx = perf_swevent_get_recursion_context();
				6242	/*
				6243	* If we 'fail' here, that's OK, it means recursion is already disabled
				6244	* and we won't recurse 'further'.
				6245	*/
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6246
Peter Zijlstra	1d54ad9	2019-04-04 15:03:00 +0200	[diff] [blame]	6247	perf_pending_event_disable(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6248
				6249	if (event->pending_wakeup) {
				6250	event->pending_wakeup = 0;
				6251	perf_event_wakeup(event);
				6252	}
Peter Zijlstra	d525211	2015-02-19 18:03:11 +0100	[diff] [blame]	6253
				6254	if (rctx >= 0)
				6255	perf_swevent_put_recursion_context(rctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6256	}
				6257
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6258	/*
Zhang, Yanmin	39447b3	2010-04-19 13:32:41 +0800	[diff] [blame]	6259	* We assume there is only KVM supporting the callbacks.
				6260	* Later on, we might change it to a list if there is
				6261	* another virtualization implementation supporting the callbacks.
				6262	*/
				6263	struct perf_guest_info_callbacks *perf_guest_cbs;
				6264
				6265	int perf_register_guest_info_callbacks(struct perf_guest_info_callbacks *cbs)
				6266	{
				6267	perf_guest_cbs = cbs;
				6268	return 0;
				6269	}
				6270	EXPORT_SYMBOL_GPL(perf_register_guest_info_callbacks);
				6271
				6272	int perf_unregister_guest_info_callbacks(struct perf_guest_info_callbacks *cbs)
				6273	{
				6274	perf_guest_cbs = NULL;
				6275	return 0;
				6276	}
				6277	EXPORT_SYMBOL_GPL(perf_unregister_guest_info_callbacks);
				6278
Jiri Olsa	4018994	2012-08-07 15:20:37 +0200	[diff] [blame]	6279	static void
				6280	perf_output_sample_regs(struct perf_output_handle *handle,
				6281	struct pt_regs *regs, u64 mask)
				6282	{
				6283	int bit;
Madhavan Srinivasan	29dd328	2016-08-17 15:06:08 +0530	[diff] [blame]	6284	DECLARE_BITMAP(_mask, 64);
Jiri Olsa	4018994	2012-08-07 15:20:37 +0200	[diff] [blame]	6285
Madhavan Srinivasan	29dd328	2016-08-17 15:06:08 +0530	[diff] [blame]	6286	bitmap_from_u64(_mask, mask);
				6287	for_each_set_bit(bit, _mask, sizeof(mask) * BITS_PER_BYTE) {
Jiri Olsa	4018994	2012-08-07 15:20:37 +0200	[diff] [blame]	6288	u64 val;
				6289
				6290	val = perf_reg_value(regs, bit);
				6291	perf_output_put(handle, val);
				6292	}
				6293	}
				6294
Stephane Eranian	60e2364	2014-09-24 13:48:37 +0200	[diff] [blame]	6295	static void perf_sample_regs_user(struct perf_regs *regs_user,
Andy Lutomirski	88a7c26	2015-01-04 10:36:19 -0800	[diff] [blame]	6296	struct pt_regs *regs,
				6297	struct pt_regs *regs_user_copy)
Jiri Olsa	4018994	2012-08-07 15:20:37 +0200	[diff] [blame]	6298	{
Andy Lutomirski	88a7c26	2015-01-04 10:36:19 -0800	[diff] [blame]	6299	if (user_mode(regs)) {
				6300	regs_user->abi = perf_reg_abi(current);
Peter Zijlstra	2565711	2014-09-24 13:48:42 +0200	[diff] [blame]	6301	regs_user->regs = regs;
Peter Zijlstra	085ebfe	2019-05-29 14:37:24 +0200	[diff] [blame]	6302	} else if (!(current->flags & PF_KTHREAD)) {
Andy Lutomirski	88a7c26	2015-01-04 10:36:19 -0800	[diff] [blame]	6303	perf_get_regs_user(regs_user, regs, regs_user_copy);
Peter Zijlstra	2565711	2014-09-24 13:48:42 +0200	[diff] [blame]	6304	} else {
				6305	regs_user->abi = PERF_SAMPLE_REGS_ABI_NONE;
				6306	regs_user->regs = NULL;
Jiri Olsa	4018994	2012-08-07 15:20:37 +0200	[diff] [blame]	6307	}
				6308	}
				6309
Stephane Eranian	60e2364	2014-09-24 13:48:37 +0200	[diff] [blame]	6310	static void perf_sample_regs_intr(struct perf_regs *regs_intr,
				6311	struct pt_regs *regs)
				6312	{
				6313	regs_intr->regs = regs;
				6314	regs_intr->abi = perf_reg_abi(current);
				6315	}
				6316
				6317
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	6318	/*
				6319	* Get remaining task size from user stack pointer.
				6320	*
				6321	* It'd be better to take stack vma map and limit this more
Roy Ben Shlomo	9f014e3	2019-09-20 20:12:53 +0300	[diff] [blame]	6322	* precisely, but there's no way to get it safely under interrupt,
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	6323	* so using TASK_SIZE as limit.
				6324	*/
				6325	static u64 perf_ustack_task_size(struct pt_regs *regs)
				6326	{
				6327	unsigned long addr = perf_user_stack_pointer(regs);
				6328
				6329	if (!addr \|\| addr >= TASK_SIZE)
				6330	return 0;
				6331
				6332	return TASK_SIZE - addr;
				6333	}
				6334
				6335	static u16
				6336	perf_sample_ustack_size(u16 stack_size, u16 header_size,
				6337	struct pt_regs *regs)
				6338	{
				6339	u64 task_size;
				6340
				6341	/* No regs, no stack pointer, no dump. */
				6342	if (!regs)
				6343	return 0;
				6344
				6345	/*
				6346	* Check if we fit in with the requested stack size into the:
				6347	* - TASK_SIZE
				6348	* If we don't, we limit the size to the TASK_SIZE.
				6349	*
				6350	* - remaining sample size
				6351	* If we don't, we customize the stack size to
				6352	* fit in to the remaining sample size.
				6353	*/
				6354
				6355	task_size = min((u64) USHRT_MAX, perf_ustack_task_size(regs));
				6356	stack_size = min(stack_size, (u16) task_size);
				6357
				6358	/* Current header size plus static size and dynamic size. */
				6359	header_size += 2 * sizeof(u64);
				6360
				6361	/* Do we fit in with the current stack dump size? */
				6362	if ((u16) (header_size + stack_size) < header_size) {
				6363	/*
				6364	* If we overflow the maximum size for the sample,
				6365	* we customize the stack dump size to fit in.
				6366	*/
				6367	stack_size = USHRT_MAX - header_size - sizeof(u64);
				6368	stack_size = round_up(stack_size, sizeof(u64));
				6369	}
				6370
				6371	return stack_size;
				6372	}
				6373
				6374	static void
				6375	perf_output_sample_ustack(struct perf_output_handle *handle, u64 dump_size,
				6376	struct pt_regs *regs)
				6377	{
				6378	/* Case of a kernel thread, nothing to dump */
				6379	if (!regs) {
				6380	u64 size = 0;
				6381	perf_output_put(handle, size);
				6382	} else {
				6383	unsigned long sp;
				6384	unsigned int rem;
				6385	u64 dyn_size;
Yabin Cui	02e1844	2018-08-23 15:59:35 -0700	[diff] [blame]	6386	mm_segment_t fs;
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	6387
				6388	/*
				6389	* We dump:
				6390	* static size
				6391	* - the size requested by user or the best one we can fit
				6392	* in to the sample max size
				6393	* data
				6394	* - user stack dump data
				6395	* dynamic size
				6396	* - the actual dumped size
				6397	*/
				6398
				6399	/* Static size. */
				6400	perf_output_put(handle, dump_size);
				6401
				6402	/* Data. */
				6403	sp = perf_user_stack_pointer(regs);
Yabin Cui	02e1844	2018-08-23 15:59:35 -0700	[diff] [blame]	6404	fs = get_fs();
				6405	set_fs(USER_DS);
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	6406	rem = __output_copy_user(handle, (void *) sp, dump_size);
Yabin Cui	02e1844	2018-08-23 15:59:35 -0700	[diff] [blame]	6407	set_fs(fs);
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	6408	dyn_size = dump_size - rem;
				6409
				6410	perf_output_skip(handle, rem);
				6411
				6412	/* Dynamic size. */
				6413	perf_output_put(handle, dyn_size);
				6414	}
				6415	}
				6416
Alexander Shishkin	a4faf00	2019-10-25 17:08:33 +0300	[diff] [blame]	6417	static unsigned long perf_prepare_sample_aux(struct perf_event *event,
				6418	struct perf_sample_data *data,
				6419	size_t size)
				6420	{
				6421	struct perf_event *sampler = event->aux_event;
Steven Rostedt (VMware)	56de4e8	2019-12-13 13:21:30 -0500	[diff] [blame]	6422	struct perf_buffer *rb;
Alexander Shishkin	a4faf00	2019-10-25 17:08:33 +0300	[diff] [blame]	6423
				6424	data->aux_size = 0;
				6425
				6426	if (!sampler)
				6427	goto out;
				6428
				6429	if (WARN_ON_ONCE(READ_ONCE(sampler->state) != PERF_EVENT_STATE_ACTIVE))
				6430	goto out;
				6431
				6432	if (WARN_ON_ONCE(READ_ONCE(sampler->oncpu) != smp_processor_id()))
				6433	goto out;
				6434
				6435	rb = ring_buffer_get(sampler->parent ? sampler->parent : sampler);
				6436	if (!rb)
				6437	goto out;
				6438
				6439	/*
				6440	* If this is an NMI hit inside sampling code, don't take
				6441	* the sample. See also perf_aux_sample_output().
				6442	*/
				6443	if (READ_ONCE(rb->aux_in_sampling)) {
				6444	data->aux_size = 0;
				6445	} else {
				6446	size = min_t(size_t, size, perf_aux_size(rb));
				6447	data->aux_size = ALIGN(size, sizeof(u64));
				6448	}
				6449	ring_buffer_put(rb);
				6450
				6451	out:
				6452	return data->aux_size;
				6453	}
				6454
Steven Rostedt (VMware)	56de4e8	2019-12-13 13:21:30 -0500	[diff] [blame]	6455	long perf_pmu_snapshot_aux(struct perf_buffer *rb,
Alexander Shishkin	a4faf00	2019-10-25 17:08:33 +0300	[diff] [blame]	6456	struct perf_event *event,
				6457	struct perf_output_handle *handle,
				6458	unsigned long size)
				6459	{
				6460	unsigned long flags;
				6461	long ret;
				6462
				6463	/*
				6464	* Normal ->start()/->stop() callbacks run in IRQ mode in scheduler
				6465	* paths. If we start calling them in NMI context, they may race with
				6466	* the IRQ ones, that is, for example, re-starting an event that's just
				6467	* been stopped, which is why we're using a separate callback that
				6468	* doesn't change the event state.
				6469	*
				6470	* IRQs need to be disabled to prevent IPIs from racing with us.
				6471	*/
				6472	local_irq_save(flags);
				6473	/*
				6474	* Guard against NMI hits inside the critical section;
				6475	* see also perf_prepare_sample_aux().
				6476	*/
				6477	WRITE_ONCE(rb->aux_in_sampling, 1);
				6478	barrier();
				6479
				6480	ret = event->pmu->snapshot_aux(event, handle, size);
				6481
				6482	barrier();
				6483	WRITE_ONCE(rb->aux_in_sampling, 0);
				6484	local_irq_restore(flags);
				6485
				6486	return ret;
				6487	}
				6488
				6489	static void perf_aux_sample_output(struct perf_event *event,
				6490	struct perf_output_handle *handle,
				6491	struct perf_sample_data *data)
				6492	{
				6493	struct perf_event *sampler = event->aux_event;
Steven Rostedt (VMware)	56de4e8	2019-12-13 13:21:30 -0500	[diff] [blame]	6494	struct perf_buffer *rb;
Alexander Shishkin	a4faf00	2019-10-25 17:08:33 +0300	[diff] [blame]	6495	unsigned long pad;
Alexander Shishkin	a4faf00	2019-10-25 17:08:33 +0300	[diff] [blame]	6496	long size;
				6497
				6498	if (WARN_ON_ONCE(!sampler \|\| !data->aux_size))
				6499	return;
				6500
				6501	rb = ring_buffer_get(sampler->parent ? sampler->parent : sampler);
				6502	if (!rb)
				6503	return;
				6504
				6505	size = perf_pmu_snapshot_aux(rb, sampler, handle, data->aux_size);
				6506
				6507	/*
				6508	* An error here means that perf_output_copy() failed (returned a
				6509	* non-zero surplus that it didn't copy), which in its current
				6510	* enlightened implementation is not possible. If that changes, we'd
				6511	* like to know.
				6512	*/
				6513	if (WARN_ON_ONCE(size < 0))
				6514	goto out_put;
				6515
				6516	/*
				6517	* The pad comes from ALIGN()ing data->aux_size up to u64 in
				6518	* perf_prepare_sample_aux(), so should not be more than that.
				6519	*/
				6520	pad = data->aux_size - size;
				6521	if (WARN_ON_ONCE(pad >= sizeof(u64)))
				6522	pad = 8;
				6523
				6524	if (pad) {
				6525	u64 zero = 0;
				6526	perf_output_copy(handle, &zero, pad);
				6527	}
				6528
				6529	out_put:
				6530	ring_buffer_put(rb);
				6531	}
				6532
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	6533	static void __perf_event_header__init_id(struct perf_event_header *header,
				6534	struct perf_sample_data *data,
				6535	struct perf_event *event)
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	6536	{
				6537	u64 sample_type = event->attr.sample_type;
				6538
				6539	data->type = sample_type;
				6540	header->size += event->id_header_size;
				6541
				6542	if (sample_type & PERF_SAMPLE_TID) {
				6543	/* namespace issues */
				6544	data->tid_entry.pid = perf_event_pid(event, current);
				6545	data->tid_entry.tid = perf_event_tid(event, current);
				6546	}
				6547
				6548	if (sample_type & PERF_SAMPLE_TIME)
Peter Zijlstra	34f4392	2015-02-20 14:05:38 +0100	[diff] [blame]	6549	data->time = perf_event_clock(event);
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	6550
Adrian Hunter	ff3d527	2013-08-27 11:23:07 +0300	[diff] [blame]	6551	if (sample_type & (PERF_SAMPLE_ID \| PERF_SAMPLE_IDENTIFIER))
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	6552	data->id = primary_event_id(event);
				6553
				6554	if (sample_type & PERF_SAMPLE_STREAM_ID)
				6555	data->stream_id = event->id;
				6556
				6557	if (sample_type & PERF_SAMPLE_CPU) {
				6558	data->cpu_entry.cpu = raw_smp_processor_id();
				6559	data->cpu_entry.reserved = 0;
				6560	}
				6561	}
				6562
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	6563	void perf_event_header__init_id(struct perf_event_header *header,
				6564	struct perf_sample_data *data,
				6565	struct perf_event *event)
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	6566	{
				6567	if (event->attr.sample_id_all)
				6568	__perf_event_header__init_id(header, data, event);
				6569	}
				6570
				6571	static void __perf_event__output_id_sample(struct perf_output_handle *handle,
				6572	struct perf_sample_data *data)
				6573	{
				6574	u64 sample_type = data->type;
				6575
				6576	if (sample_type & PERF_SAMPLE_TID)
				6577	perf_output_put(handle, data->tid_entry);
				6578
				6579	if (sample_type & PERF_SAMPLE_TIME)
				6580	perf_output_put(handle, data->time);
				6581
				6582	if (sample_type & PERF_SAMPLE_ID)
				6583	perf_output_put(handle, data->id);
				6584
				6585	if (sample_type & PERF_SAMPLE_STREAM_ID)
				6586	perf_output_put(handle, data->stream_id);
				6587
				6588	if (sample_type & PERF_SAMPLE_CPU)
				6589	perf_output_put(handle, data->cpu_entry);
Adrian Hunter	ff3d527	2013-08-27 11:23:07 +0300	[diff] [blame]	6590
				6591	if (sample_type & PERF_SAMPLE_IDENTIFIER)
				6592	perf_output_put(handle, data->id);
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	6593	}
				6594
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	6595	void perf_event__output_id_sample(struct perf_event *event,
				6596	struct perf_output_handle *handle,
				6597	struct perf_sample_data *sample)
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	6598	{
				6599	if (event->attr.sample_id_all)
				6600	__perf_event__output_id_sample(handle, sample);
				6601	}
				6602
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6603	static void perf_output_read_one(struct perf_output_handle *handle,
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	6604	struct perf_event *event,
				6605	u64 enabled, u64 running)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6606	{
				6607	u64 read_format = event->attr.read_format;
				6608	u64 values[4];
				6609	int n = 0;
				6610
Peter Zijlstra	b5e5879	2010-05-21 14:43:12 +0200	[diff] [blame]	6611	values[n++] = perf_event_count(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6612	if (read_format & PERF_FORMAT_TOTAL_TIME_ENABLED) {
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	6613	values[n++] = enabled +
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6614	atomic64_read(&event->child_total_time_enabled);
				6615	}
				6616	if (read_format & PERF_FORMAT_TOTAL_TIME_RUNNING) {
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	6617	values[n++] = running +
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6618	atomic64_read(&event->child_total_time_running);
				6619	}
				6620	if (read_format & PERF_FORMAT_ID)
				6621	values[n++] = primary_event_id(event);
				6622
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	6623	__output_copy(handle, values, n * sizeof(u64));
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6624	}
				6625
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6626	static void perf_output_read_group(struct perf_output_handle *handle,
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	6627	struct perf_event *event,
				6628	u64 enabled, u64 running)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6629	{
				6630	struct perf_event leader = event->group_leader, sub;
				6631	u64 read_format = event->attr.read_format;
				6632	u64 values[5];
				6633	int n = 0;
				6634
				6635	values[n++] = 1 + leader->nr_siblings;
				6636
				6637	if (read_format & PERF_FORMAT_TOTAL_TIME_ENABLED)
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	6638	values[n++] = enabled;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6639
				6640	if (read_format & PERF_FORMAT_TOTAL_TIME_RUNNING)
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	6641	values[n++] = running;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6642
Peter Zijlstra	9e5b127	2018-03-09 12:52:04 +0100	[diff] [blame]	6643	if ((leader != event) &&
				6644	(leader->state == PERF_EVENT_STATE_ACTIVE))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6645	leader->pmu->read(leader);
				6646
Peter Zijlstra	b5e5879	2010-05-21 14:43:12 +0200	[diff] [blame]	6647	values[n++] = perf_event_count(leader);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6648	if (read_format & PERF_FORMAT_ID)
				6649	values[n++] = primary_event_id(leader);
				6650
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	6651	__output_copy(handle, values, n * sizeof(u64));
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6652
Peter Zijlstra	edb3959	2018-03-15 17:36:56 +0100	[diff] [blame]	6653	for_each_sibling_event(sub, leader) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6654	n = 0;
				6655
Jiri Olsa	6f5ab00	2012-10-15 20:13:45 +0200	[diff] [blame]	6656	if ((sub != event) &&
				6657	(sub->state == PERF_EVENT_STATE_ACTIVE))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6658	sub->pmu->read(sub);
				6659
Peter Zijlstra	b5e5879	2010-05-21 14:43:12 +0200	[diff] [blame]	6660	values[n++] = perf_event_count(sub);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6661	if (read_format & PERF_FORMAT_ID)
				6662	values[n++] = primary_event_id(sub);
				6663
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	6664	__output_copy(handle, values, n * sizeof(u64));
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6665	}
				6666	}
				6667
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	6668	#define PERF_FORMAT_TOTAL_TIMES (PERF_FORMAT_TOTAL_TIME_ENABLED\|\
				6669	PERF_FORMAT_TOTAL_TIME_RUNNING)
				6670
Peter Zijlstra	ba5213a	2017-05-30 11:45:12 +0200	[diff] [blame]	6671	/*
				6672	* XXX PERF_SAMPLE_READ vs inherited events seems difficult.
				6673	*
				6674	* The problem is that its both hard and excessively expensive to iterate the
				6675	* child list, not to mention that its impossible to IPI the children running
				6676	* on another CPU, from interrupt/NMI context.
				6677	*/
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6678	static void perf_output_read(struct perf_output_handle *handle,
				6679	struct perf_event *event)
				6680	{
Peter Zijlstra	e3f3541	2011-11-21 11:43:53 +0100	[diff] [blame]	6681	u64 enabled = 0, running = 0, now;
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	6682	u64 read_format = event->attr.read_format;
				6683
				6684	/*
				6685	* compute total_time_enabled, total_time_running
				6686	* based on snapshot values taken when the event
				6687	* was last scheduled in.
				6688	*
				6689	* we cannot simply called update_context_time()
				6690	* because of locking issue as we are called in
				6691	* NMI context
				6692	*/
Eric B Munson	c479429	2011-06-23 16:34:38 -0400	[diff] [blame]	6693	if (read_format & PERF_FORMAT_TOTAL_TIMES)
Peter Zijlstra	e3f3541	2011-11-21 11:43:53 +0100	[diff] [blame]	6694	calc_timer_values(event, &now, &enabled, &running);
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	6695
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6696	if (event->attr.read_format & PERF_FORMAT_GROUP)
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	6697	perf_output_read_group(handle, event, enabled, running);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6698	else
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	6699	perf_output_read_one(handle, event, enabled, running);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6700	}
				6701
Kan Liang	bbfd5e4	2020-01-27 08:53:54 -0800	[diff] [blame]	6702	static inline bool perf_sample_save_hw_index(struct perf_event *event)
				6703	{
				6704	return event->attr.branch_sample_type & PERF_SAMPLE_BRANCH_HW_INDEX;
				6705	}
				6706
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6707	void perf_output_sample(struct perf_output_handle *handle,
				6708	struct perf_event_header *header,
				6709	struct perf_sample_data *data,
				6710	struct perf_event *event)
				6711	{
				6712	u64 sample_type = data->type;
				6713
				6714	perf_output_put(handle, *header);
				6715
Adrian Hunter	ff3d527	2013-08-27 11:23:07 +0300	[diff] [blame]	6716	if (sample_type & PERF_SAMPLE_IDENTIFIER)
				6717	perf_output_put(handle, data->id);
				6718
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6719	if (sample_type & PERF_SAMPLE_IP)
				6720	perf_output_put(handle, data->ip);
				6721
				6722	if (sample_type & PERF_SAMPLE_TID)
				6723	perf_output_put(handle, data->tid_entry);
				6724
				6725	if (sample_type & PERF_SAMPLE_TIME)
				6726	perf_output_put(handle, data->time);
				6727
				6728	if (sample_type & PERF_SAMPLE_ADDR)
				6729	perf_output_put(handle, data->addr);
				6730
				6731	if (sample_type & PERF_SAMPLE_ID)
				6732	perf_output_put(handle, data->id);
				6733
				6734	if (sample_type & PERF_SAMPLE_STREAM_ID)
				6735	perf_output_put(handle, data->stream_id);
				6736
				6737	if (sample_type & PERF_SAMPLE_CPU)
				6738	perf_output_put(handle, data->cpu_entry);
				6739
				6740	if (sample_type & PERF_SAMPLE_PERIOD)
				6741	perf_output_put(handle, data->period);
				6742
				6743	if (sample_type & PERF_SAMPLE_READ)
				6744	perf_output_read(handle, event);
				6745
				6746	if (sample_type & PERF_SAMPLE_CALLCHAIN) {
Jiri Olsa	99e818c	2018-01-07 17:03:50 +0100	[diff] [blame]	6747	int size = 1;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6748
Jiri Olsa	99e818c	2018-01-07 17:03:50 +0100	[diff] [blame]	6749	size += data->callchain->nr;
				6750	size *= sizeof(u64);
				6751	__output_copy(handle, data->callchain, size);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6752	}
				6753
				6754	if (sample_type & PERF_SAMPLE_RAW) {
Daniel Borkmann	7e3f977	2016-07-14 18:08:03 +0200	[diff] [blame]	6755	struct perf_raw_record *raw = data->raw;
Alexei Starovoitov	fa128e6	2015-10-20 20:02:33 -0700	[diff] [blame]	6756
Daniel Borkmann	7e3f977	2016-07-14 18:08:03 +0200	[diff] [blame]	6757	if (raw) {
				6758	struct perf_raw_frag *frag = &raw->frag;
				6759
				6760	perf_output_put(handle, raw->size);
				6761	do {
				6762	if (frag->copy) {
				6763	__output_custom(handle, frag->copy,
				6764	frag->data, frag->size);
				6765	} else {
				6766	__output_copy(handle, frag->data,
				6767	frag->size);
				6768	}
				6769	if (perf_raw_frag_last(frag))
				6770	break;
				6771	frag = frag->next;
				6772	} while (1);
				6773	if (frag->pad)
				6774	__output_skip(handle, NULL, frag->pad);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6775	} else {
				6776	struct {
				6777	u32 size;
				6778	u32 data;
				6779	} raw = {
				6780	.size = sizeof(u32),
				6781	.data = 0,
				6782	};
				6783	perf_output_put(handle, raw);
				6784	}
				6785	}
Peter Zijlstra	a7ac67e	2011-06-27 16:47:16 +0200	[diff] [blame]	6786
Stephane Eranian	bce38cd	2012-02-09 23:20:51 +0100	[diff] [blame]	6787	if (sample_type & PERF_SAMPLE_BRANCH_STACK) {
				6788	if (data->br_stack) {
				6789	size_t size;
				6790
				6791	size = data->br_stack->nr
				6792	* sizeof(struct perf_branch_entry);
				6793
				6794	perf_output_put(handle, data->br_stack->nr);
Kan Liang	bbfd5e4	2020-01-27 08:53:54 -0800	[diff] [blame]	6795	if (perf_sample_save_hw_index(event))
				6796	perf_output_put(handle, data->br_stack->hw_idx);
Stephane Eranian	bce38cd	2012-02-09 23:20:51 +0100	[diff] [blame]	6797	perf_output_copy(handle, data->br_stack->entries, size);
				6798	} else {
				6799	/*
				6800	* we always store at least the value of nr
				6801	*/
				6802	u64 nr = 0;
				6803	perf_output_put(handle, nr);
				6804	}
				6805	}
Jiri Olsa	4018994	2012-08-07 15:20:37 +0200	[diff] [blame]	6806
				6807	if (sample_type & PERF_SAMPLE_REGS_USER) {
				6808	u64 abi = data->regs_user.abi;
				6809
				6810	/*
				6811	* If there are no regs to dump, notice it through
				6812	* first u64 being zero (PERF_SAMPLE_REGS_ABI_NONE).
				6813	*/
				6814	perf_output_put(handle, abi);
				6815
				6816	if (abi) {
				6817	u64 mask = event->attr.sample_regs_user;
				6818	perf_output_sample_regs(handle,
				6819	data->regs_user.regs,
				6820	mask);
				6821	}
				6822	}
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	6823
Peter Zijlstra	a5cdd40	2013-07-16 17:09:07 +0200	[diff] [blame]	6824	if (sample_type & PERF_SAMPLE_STACK_USER) {
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	6825	perf_output_sample_ustack(handle,
				6826	data->stack_user_size,
				6827	data->regs_user.regs);
Peter Zijlstra	a5cdd40	2013-07-16 17:09:07 +0200	[diff] [blame]	6828	}
Andi Kleen	c3feedf	2013-01-24 16:10:28 +0100	[diff] [blame]	6829
				6830	if (sample_type & PERF_SAMPLE_WEIGHT)
				6831	perf_output_put(handle, data->weight);
Stephane Eranian	d6be9ad	2013-01-24 16:10:31 +0100	[diff] [blame]	6832
				6833	if (sample_type & PERF_SAMPLE_DATA_SRC)
				6834	perf_output_put(handle, data->data_src.val);
Peter Zijlstra	a5cdd40	2013-07-16 17:09:07 +0200	[diff] [blame]	6835
Andi Kleen	fdfbbd0	2013-09-20 07:40:39 -0700	[diff] [blame]	6836	if (sample_type & PERF_SAMPLE_TRANSACTION)
				6837	perf_output_put(handle, data->txn);
				6838
Stephane Eranian	60e2364	2014-09-24 13:48:37 +0200	[diff] [blame]	6839	if (sample_type & PERF_SAMPLE_REGS_INTR) {
				6840	u64 abi = data->regs_intr.abi;
				6841	/*
				6842	* If there are no regs to dump, notice it through
				6843	* first u64 being zero (PERF_SAMPLE_REGS_ABI_NONE).
				6844	*/
				6845	perf_output_put(handle, abi);
				6846
				6847	if (abi) {
				6848	u64 mask = event->attr.sample_regs_intr;
				6849
				6850	perf_output_sample_regs(handle,
				6851	data->regs_intr.regs,
				6852	mask);
				6853	}
				6854	}
				6855
Kan Liang	fc7ce9c	2017-08-28 20:52:49 -0400	[diff] [blame]	6856	if (sample_type & PERF_SAMPLE_PHYS_ADDR)
				6857	perf_output_put(handle, data->phys_addr);
				6858
Alexander Shishkin	a4faf00	2019-10-25 17:08:33 +0300	[diff] [blame]	6859	if (sample_type & PERF_SAMPLE_AUX) {
				6860	perf_output_put(handle, data->aux_size);
				6861
				6862	if (data->aux_size)
				6863	perf_aux_sample_output(event, handle, data);
				6864	}
				6865
Peter Zijlstra	a5cdd40	2013-07-16 17:09:07 +0200	[diff] [blame]	6866	if (!event->attr.watermark) {
				6867	int wakeup_events = event->attr.wakeup_events;
				6868
				6869	if (wakeup_events) {
Steven Rostedt (VMware)	56de4e8	2019-12-13 13:21:30 -0500	[diff] [blame]	6870	struct perf_buffer *rb = handle->rb;
Peter Zijlstra	a5cdd40	2013-07-16 17:09:07 +0200	[diff] [blame]	6871	int events = local_inc_return(&rb->events);
				6872
				6873	if (events >= wakeup_events) {
				6874	local_sub(wakeup_events, &rb->events);
				6875	local_inc(&rb->wakeup);
				6876	}
				6877	}
				6878	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6879	}
				6880
Kan Liang	fc7ce9c	2017-08-28 20:52:49 -0400	[diff] [blame]	6881	static u64 perf_virt_to_phys(u64 virt)
				6882	{
				6883	u64 phys_addr = 0;
				6884	struct page *p = NULL;
				6885
				6886	if (!virt)
				6887	return 0;
				6888
				6889	if (virt >= TASK_SIZE) {
				6890	/* If it's vmalloc()d memory, leave phys_addr as 0 */
				6891	if (virt_addr_valid((void *)(uintptr_t)virt) &&
				6892	!(virt >= VMALLOC_START && virt < VMALLOC_END))
				6893	phys_addr = (u64)virt_to_phys((void *)(uintptr_t)virt);
				6894	} else {
				6895	/*
				6896	* Walking the pages tables for user address.
				6897	* Interrupts are disabled, so it prevents any tear down
				6898	* of the page tables.
				6899	* Try IRQ-safe __get_user_pages_fast first.
				6900	* If failed, leave phys_addr as 0.
				6901	*/
				6902	if ((current->mm != NULL) &&
				6903	(__get_user_pages_fast(virt, 1, 0, &p) == 1))
				6904	phys_addr = page_to_phys(p) + virt % PAGE_SIZE;
				6905
				6906	if (p)
				6907	put_page(p);
				6908	}
				6909
				6910	return phys_addr;
				6911	}
				6912
Jiri Olsa	99e818c	2018-01-07 17:03:50 +0100	[diff] [blame]	6913	static struct perf_callchain_entry __empty_callchain = { .nr = 0, };
				6914
Peter Zijlstra	6cbc304	2018-05-10 15:48:41 +0200	[diff] [blame]	6915	struct perf_callchain_entry *
Jiri Olsa	8cf7e0e	2018-01-07 17:03:49 +0100	[diff] [blame]	6916	perf_callchain(struct perf_event event, struct pt_regs regs)
				6917	{
				6918	bool kernel = !event->attr.exclude_callchain_kernel;
				6919	bool user = !event->attr.exclude_callchain_user;
				6920	/* Disallow cross-task user callchains. */
				6921	bool crosstask = event->ctx->task && event->ctx->task != current;
				6922	const u32 max_stack = event->attr.sample_max_stack;
Jiri Olsa	99e818c	2018-01-07 17:03:50 +0100	[diff] [blame]	6923	struct perf_callchain_entry *callchain;
Jiri Olsa	8cf7e0e	2018-01-07 17:03:49 +0100	[diff] [blame]	6924
				6925	if (!kernel && !user)
Jiri Olsa	99e818c	2018-01-07 17:03:50 +0100	[diff] [blame]	6926	return &__empty_callchain;
Jiri Olsa	8cf7e0e	2018-01-07 17:03:49 +0100	[diff] [blame]	6927
Jiri Olsa	99e818c	2018-01-07 17:03:50 +0100	[diff] [blame]	6928	callchain = get_perf_callchain(regs, 0, kernel, user,
				6929	max_stack, crosstask, true);
				6930	return callchain ?: &__empty_callchain;
Jiri Olsa	8cf7e0e	2018-01-07 17:03:49 +0100	[diff] [blame]	6931	}
				6932
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6933	void perf_prepare_sample(struct perf_event_header *header,
				6934	struct perf_sample_data *data,
				6935	struct perf_event *event,
				6936	struct pt_regs *regs)
				6937	{
				6938	u64 sample_type = event->attr.sample_type;
				6939
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6940	header->type = PERF_RECORD_SAMPLE;
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	6941	header->size = sizeof(*header) + event->header_size;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6942
				6943	header->misc = 0;
				6944	header->misc \|= perf_misc_flags(regs);
				6945
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	6946	__perf_event_header__init_id(header, data, event);
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	6947
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	6948	if (sample_type & PERF_SAMPLE_IP)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6949	data->ip = perf_instruction_pointer(regs);
				6950
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6951	if (sample_type & PERF_SAMPLE_CALLCHAIN) {
				6952	int size = 1;
				6953
Peter Zijlstra	6cbc304	2018-05-10 15:48:41 +0200	[diff] [blame]	6954	if (!(sample_type & __PERF_SAMPLE_CALLCHAIN_EARLY))
				6955	data->callchain = perf_callchain(event, regs);
				6956
Jiri Olsa	99e818c	2018-01-07 17:03:50 +0100	[diff] [blame]	6957	size += data->callchain->nr;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6958
				6959	header->size += size * sizeof(u64);
				6960	}
				6961
				6962	if (sample_type & PERF_SAMPLE_RAW) {
Daniel Borkmann	7e3f977	2016-07-14 18:08:03 +0200	[diff] [blame]	6963	struct perf_raw_record *raw = data->raw;
				6964	int size;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6965
Daniel Borkmann	7e3f977	2016-07-14 18:08:03 +0200	[diff] [blame]	6966	if (raw) {
				6967	struct perf_raw_frag *frag = &raw->frag;
				6968	u32 sum = 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6969
Daniel Borkmann	7e3f977	2016-07-14 18:08:03 +0200	[diff] [blame]	6970	do {
				6971	sum += frag->size;
				6972	if (perf_raw_frag_last(frag))
				6973	break;
				6974	frag = frag->next;
				6975	} while (1);
				6976
				6977	size = round_up(sum + sizeof(u32), sizeof(u64));
				6978	raw->size = size - sizeof(u32);
				6979	frag->pad = raw->size - sum;
				6980	} else {
				6981	size = sizeof(u64);
				6982	}
				6983
				6984	header->size += size;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6985	}
Stephane Eranian	bce38cd	2012-02-09 23:20:51 +0100	[diff] [blame]	6986
				6987	if (sample_type & PERF_SAMPLE_BRANCH_STACK) {
				6988	int size = sizeof(u64); /* nr */
				6989	if (data->br_stack) {
Kan Liang	bbfd5e4	2020-01-27 08:53:54 -0800	[diff] [blame]	6990	if (perf_sample_save_hw_index(event))
				6991	size += sizeof(u64);
				6992
Stephane Eranian	bce38cd	2012-02-09 23:20:51 +0100	[diff] [blame]	6993	size += data->br_stack->nr
				6994	* sizeof(struct perf_branch_entry);
				6995	}
				6996	header->size += size;
				6997	}
Jiri Olsa	4018994	2012-08-07 15:20:37 +0200	[diff] [blame]	6998
Peter Zijlstra	2565711	2014-09-24 13:48:42 +0200	[diff] [blame]	6999	if (sample_type & (PERF_SAMPLE_REGS_USER \| PERF_SAMPLE_STACK_USER))
Andy Lutomirski	88a7c26	2015-01-04 10:36:19 -0800	[diff] [blame]	7000	perf_sample_regs_user(&data->regs_user, regs,
				7001	&data->regs_user_copy);
Peter Zijlstra	2565711	2014-09-24 13:48:42 +0200	[diff] [blame]	7002
Jiri Olsa	4018994	2012-08-07 15:20:37 +0200	[diff] [blame]	7003	if (sample_type & PERF_SAMPLE_REGS_USER) {
				7004	/* regs dump ABI info */
				7005	int size = sizeof(u64);
				7006
Jiri Olsa	4018994	2012-08-07 15:20:37 +0200	[diff] [blame]	7007	if (data->regs_user.regs) {
				7008	u64 mask = event->attr.sample_regs_user;
				7009	size += hweight64(mask) * sizeof(u64);
				7010	}
				7011
				7012	header->size += size;
				7013	}
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	7014
				7015	if (sample_type & PERF_SAMPLE_STACK_USER) {
				7016	/*
Roy Ben Shlomo	9f014e3	2019-09-20 20:12:53 +0300	[diff] [blame]	7017	* Either we need PERF_SAMPLE_STACK_USER bit to be always
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	7018	* processed as the last one or have additional check added
				7019	* in case new sample type is added, because we could eat
				7020	* up the rest of the sample size.
				7021	*/
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	7022	u16 stack_size = event->attr.sample_stack_user;
				7023	u16 size = sizeof(u64);
				7024
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	7025	stack_size = perf_sample_ustack_size(stack_size, header->size,
Peter Zijlstra	2565711	2014-09-24 13:48:42 +0200	[diff] [blame]	7026	data->regs_user.regs);
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	7027
				7028	/*
				7029	* If there is something to dump, add space for the dump
				7030	* itself and for the field that tells the dynamic size,
				7031	* which is how many have been actually dumped.
				7032	*/
				7033	if (stack_size)
				7034	size += sizeof(u64) + stack_size;
				7035
				7036	data->stack_user_size = stack_size;
				7037	header->size += size;
				7038	}
Stephane Eranian	60e2364	2014-09-24 13:48:37 +0200	[diff] [blame]	7039
				7040	if (sample_type & PERF_SAMPLE_REGS_INTR) {
				7041	/* regs dump ABI info */
				7042	int size = sizeof(u64);
				7043
				7044	perf_sample_regs_intr(&data->regs_intr, regs);
				7045
				7046	if (data->regs_intr.regs) {
				7047	u64 mask = event->attr.sample_regs_intr;
				7048
				7049	size += hweight64(mask) * sizeof(u64);
				7050	}
				7051
				7052	header->size += size;
				7053	}
Kan Liang	fc7ce9c	2017-08-28 20:52:49 -0400	[diff] [blame]	7054
				7055	if (sample_type & PERF_SAMPLE_PHYS_ADDR)
				7056	data->phys_addr = perf_virt_to_phys(data->addr);
Alexander Shishkin	a4faf00	2019-10-25 17:08:33 +0300	[diff] [blame]	7057
				7058	if (sample_type & PERF_SAMPLE_AUX) {
				7059	u64 size;
				7060
				7061	header->size += sizeof(u64); /* size */
				7062
				7063	/*
				7064	* Given the 16bit nature of header::size, an AUX sample can
				7065	* easily overflow it, what with all the preceding sample bits.
				7066	* Make sure this doesn't happen by using up to U16_MAX bytes
				7067	* per sample in total (rounded down to 8 byte boundary).
				7068	*/
				7069	size = min_t(size_t, U16_MAX - header->size,
				7070	event->attr.aux_sample_size);
				7071	size = rounddown(size, 8);
				7072	size = perf_prepare_sample_aux(event, data, size);
				7073
				7074	WARN_ON_ONCE(size + header->size > U16_MAX);
				7075	header->size += size;
				7076	}
				7077	/*
				7078	* If you're adding more sample types here, you likely need to do
				7079	* something about the overflowing header::size, like repurpose the
				7080	* lowest 3 bits of size, which should be always zero at the moment.
				7081	* This raises a more important question, do we really need 512k sized
				7082	* samples and why, so good argumentation is in order for whatever you
				7083	* do here next.
				7084	*/
				7085	WARN_ON_ONCE(header->size & 7);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7086	}
				7087
Arnaldo Carvalho de Melo	5620196	2019-01-11 13:20:20 -0300	[diff] [blame]	7088	static __always_inline int
Wang Nan	9ecda41	2016-04-05 14:11:18 +0000	[diff] [blame]	7089	__perf_event_output(struct perf_event *event,
				7090	struct perf_sample_data *data,
				7091	struct pt_regs *regs,
				7092	int (output_begin)(struct perf_output_handle ,
				7093	struct perf_event *,
				7094	unsigned int))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7095	{
				7096	struct perf_output_handle handle;
				7097	struct perf_event_header header;
Arnaldo Carvalho de Melo	5620196	2019-01-11 13:20:20 -0300	[diff] [blame]	7098	int err;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7099
Frederic Weisbecker	927c7a9	2010-07-01 16:20:36 +0200	[diff] [blame]	7100	/* protect the callchain buffers */
				7101	rcu_read_lock();
				7102
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7103	perf_prepare_sample(&header, data, event, regs);
				7104
Arnaldo Carvalho de Melo	5620196	2019-01-11 13:20:20 -0300	[diff] [blame]	7105	err = output_begin(&handle, event, header.size);
				7106	if (err)
Frederic Weisbecker	927c7a9	2010-07-01 16:20:36 +0200	[diff] [blame]	7107	goto exit;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7108
				7109	perf_output_sample(&handle, &header, data, event);
				7110
				7111	perf_output_end(&handle);
Frederic Weisbecker	927c7a9	2010-07-01 16:20:36 +0200	[diff] [blame]	7112
				7113	exit:
				7114	rcu_read_unlock();
Arnaldo Carvalho de Melo	5620196	2019-01-11 13:20:20 -0300	[diff] [blame]	7115	return err;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7116	}
				7117
Wang Nan	9ecda41	2016-04-05 14:11:18 +0000	[diff] [blame]	7118	void
				7119	perf_event_output_forward(struct perf_event *event,
				7120	struct perf_sample_data *data,
				7121	struct pt_regs *regs)
				7122	{
				7123	__perf_event_output(event, data, regs, perf_output_begin_forward);
				7124	}
				7125
				7126	void
				7127	perf_event_output_backward(struct perf_event *event,
				7128	struct perf_sample_data *data,
				7129	struct pt_regs *regs)
				7130	{
				7131	__perf_event_output(event, data, regs, perf_output_begin_backward);
				7132	}
				7133
Arnaldo Carvalho de Melo	5620196	2019-01-11 13:20:20 -0300	[diff] [blame]	7134	int
Wang Nan	9ecda41	2016-04-05 14:11:18 +0000	[diff] [blame]	7135	perf_event_output(struct perf_event *event,
				7136	struct perf_sample_data *data,
				7137	struct pt_regs *regs)
				7138	{
Arnaldo Carvalho de Melo	5620196	2019-01-11 13:20:20 -0300	[diff] [blame]	7139	return __perf_event_output(event, data, regs, perf_output_begin);
Wang Nan	9ecda41	2016-04-05 14:11:18 +0000	[diff] [blame]	7140	}
				7141
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7142	/*
				7143	* read event_id
				7144	*/
				7145
				7146	struct perf_read_event {
				7147	struct perf_event_header header;
				7148
				7149	u32 pid;
				7150	u32 tid;
				7151	};
				7152
				7153	static void
				7154	perf_event_read_event(struct perf_event *event,
				7155	struct task_struct *task)
				7156	{
				7157	struct perf_output_handle handle;
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	7158	struct perf_sample_data sample;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7159	struct perf_read_event read_event = {
				7160	.header = {
				7161	.type = PERF_RECORD_READ,
				7162	.misc = 0,
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	7163	.size = sizeof(read_event) + event->read_size,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7164	},
				7165	.pid = perf_event_pid(event, task),
				7166	.tid = perf_event_tid(event, task),
				7167	};
				7168	int ret;
				7169
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	7170	perf_event_header__init_id(&read_event.header, &sample, event);
Peter Zijlstra	a7ac67e	2011-06-27 16:47:16 +0200	[diff] [blame]	7171	ret = perf_output_begin(&handle, event, read_event.header.size);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7172	if (ret)
				7173	return;
				7174
				7175	perf_output_put(&handle, read_event);
				7176	perf_output_read(&handle, event);
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	7177	perf_event__output_id_sample(event, &handle, &sample);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7178
				7179	perf_output_end(&handle);
				7180	}
				7181
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	7182	typedef void (perf_iterate_f)(struct perf_event event, void data);
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	7183
				7184	static void
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	7185	perf_iterate_ctx(struct perf_event_context *ctx,
				7186	perf_iterate_f output,
Alexander Shishkin	b73e4fe	2016-04-27 18:44:45 +0300	[diff] [blame]	7187	void *data, bool all)
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	7188	{
				7189	struct perf_event *event;
				7190
				7191	list_for_each_entry_rcu(event, &ctx->event_list, event_entry) {
Alexander Shishkin	b73e4fe	2016-04-27 18:44:45 +0300	[diff] [blame]	7192	if (!all) {
				7193	if (event->state < PERF_EVENT_STATE_INACTIVE)
				7194	continue;
				7195	if (!event_filter_match(event))
				7196	continue;
				7197	}
				7198
Jiri Olsa	6751684	2013-07-09 18:56:31 +0200	[diff] [blame]	7199	output(event, data);
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	7200	}
				7201	}
				7202
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	7203	static void perf_iterate_sb_cpu(perf_iterate_f output, void *data)
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	7204	{
				7205	struct pmu_event_list *pel = this_cpu_ptr(&pmu_sb_events);
				7206	struct perf_event *event;
				7207
				7208	list_for_each_entry_rcu(event, &pel->list, sb_list) {
Peter Zijlstra	0b8f1e2	2016-08-04 14:37:24 +0200	[diff] [blame]	7209	/*
				7210	* Skip events that are not fully formed yet; ensure that
				7211	* if we observe event->ctx, both event and ctx will be
				7212	* complete enough. See perf_install_in_context().
				7213	*/
				7214	if (!smp_load_acquire(&event->ctx))
				7215	continue;
				7216
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	7217	if (event->state < PERF_EVENT_STATE_INACTIVE)
				7218	continue;
				7219	if (!event_filter_match(event))
				7220	continue;
				7221	output(event, data);
				7222	}
				7223	}
				7224
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	7225	/*
				7226	* Iterate all events that need to receive side-band events.
				7227	*
				7228	* For new callers; ensure that account_pmu_sb_event() includes
				7229	* your event, otherwise it might not get delivered.
				7230	*/
Jiri Olsa	4e93ad6	2015-11-04 16:00:05 +0100	[diff] [blame]	7231	static void
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	7232	perf_iterate_sb(perf_iterate_f output, void *data,
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	7233	struct perf_event_context *task_ctx)
				7234	{
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	7235	struct perf_event_context *ctx;
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	7236	int ctxn;
				7237
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	7238	rcu_read_lock();
				7239	preempt_disable();
				7240
Jiri Olsa	4e93ad6	2015-11-04 16:00:05 +0100	[diff] [blame]	7241	/*
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	7242	* If we have task_ctx != NULL we only notify the task context itself.
				7243	* The task_ctx is set only for EXIT events before releasing task
Jiri Olsa	4e93ad6	2015-11-04 16:00:05 +0100	[diff] [blame]	7244	* context.
				7245	*/
				7246	if (task_ctx) {
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	7247	perf_iterate_ctx(task_ctx, output, data, false);
				7248	goto done;
Jiri Olsa	4e93ad6	2015-11-04 16:00:05 +0100	[diff] [blame]	7249	}
				7250
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	7251	perf_iterate_sb_cpu(output, data);
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	7252
				7253	for_each_task_context_nr(ctxn) {
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	7254	ctx = rcu_dereference(current->perf_event_ctxp[ctxn]);
				7255	if (ctx)
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	7256	perf_iterate_ctx(ctx, output, data, false);
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	7257	}
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	7258	done:
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	7259	preempt_enable();
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	7260	rcu_read_unlock();
				7261	}
				7262
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	7263	/*
				7264	* Clear all file-based filters at exec, they'll have to be
				7265	* re-instated when/if these objects are mmapped again.
				7266	*/
				7267	static void perf_event_addr_filters_exec(struct perf_event event, void data)
				7268	{
				7269	struct perf_addr_filters_head *ifh = perf_event_addr_filters(event);
				7270	struct perf_addr_filter *filter;
				7271	unsigned int restart = 0, count = 0;
				7272	unsigned long flags;
				7273
				7274	if (!has_addr_filter(event))
				7275	return;
				7276
				7277	raw_spin_lock_irqsave(&ifh->lock, flags);
				7278	list_for_each_entry(filter, &ifh->list, entry) {
Song Liu	9511bce	2018-04-17 23:29:07 -0700	[diff] [blame]	7279	if (filter->path.dentry) {
Alexander Shishkin	c60f83b	2019-02-15 13:56:55 +0200	[diff] [blame]	7280	event->addr_filter_ranges[count].start = 0;
				7281	event->addr_filter_ranges[count].size = 0;
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	7282	restart++;
				7283	}
				7284
				7285	count++;
				7286	}
				7287
				7288	if (restart)
				7289	event->addr_filters_gen++;
				7290	raw_spin_unlock_irqrestore(&ifh->lock, flags);
				7291
				7292	if (restart)
Alexander Shishkin	767ae08	2016-09-06 16:23:49 +0300	[diff] [blame]	7293	perf_event_stop(event, 1);
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	7294	}
				7295
				7296	void perf_event_exec(void)
				7297	{
				7298	struct perf_event_context *ctx;
				7299	int ctxn;
				7300
				7301	rcu_read_lock();
				7302	for_each_task_context_nr(ctxn) {
				7303	ctx = current->perf_event_ctxp[ctxn];
				7304	if (!ctx)
				7305	continue;
				7306
				7307	perf_event_enable_on_exec(ctxn);
				7308
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	7309	perf_iterate_ctx(ctx, perf_event_addr_filters_exec, NULL,
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	7310	true);
				7311	}
				7312	rcu_read_unlock();
				7313	}
				7314
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	7315	struct remote_output {
Steven Rostedt (VMware)	56de4e8	2019-12-13 13:21:30 -0500	[diff] [blame]	7316	struct perf_buffer *rb;
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	7317	int err;
				7318	};
				7319
				7320	static void __perf_event_output_stop(struct perf_event event, void data)
				7321	{
				7322	struct perf_event *parent = event->parent;
				7323	struct remote_output *ro = data;
Steven Rostedt (VMware)	56de4e8	2019-12-13 13:21:30 -0500	[diff] [blame]	7324	struct perf_buffer *rb = ro->rb;
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	7325	struct stop_event_data sd = {
				7326	.event = event,
				7327	};
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	7328
				7329	if (!has_aux(event))
				7330	return;
				7331
				7332	if (!parent)
				7333	parent = event;
				7334
				7335	/*
				7336	* In case of inheritance, it will be the parent that links to the
Alexander Shishkin	767ae08	2016-09-06 16:23:49 +0300	[diff] [blame]	7337	* ring-buffer, but it will be the child that's actually using it.
				7338	*
				7339	* We are using event::rb to determine if the event should be stopped,
				7340	* however this may race with ring_buffer_attach() (through set_output),
				7341	* which will make us skip the event that actually needs to be stopped.
				7342	* So ring_buffer_attach() has to stop an aux event before re-assigning
				7343	* its rb pointer.
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	7344	*/
				7345	if (rcu_dereference(parent->rb) == rb)
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	7346	ro->err = __perf_event_stop(&sd);
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	7347	}
				7348
				7349	static int __perf_pmu_output_stop(void *info)
				7350	{
				7351	struct perf_event *event = info;
Alexander Shishkin	f3a519e	2019-10-22 10:39:40 +0300	[diff] [blame]	7352	struct pmu *pmu = event->ctx->pmu;
Will Deacon	8b6a3fe	2016-08-24 10:07:14 +0100	[diff] [blame]	7353	struct perf_cpu_context *cpuctx = this_cpu_ptr(pmu->pmu_cpu_context);
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	7354	struct remote_output ro = {
				7355	.rb = event->rb,
				7356	};
				7357
				7358	rcu_read_lock();
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	7359	perf_iterate_ctx(&cpuctx->ctx, __perf_event_output_stop, &ro, false);
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	7360	if (cpuctx->task_ctx)
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	7361	perf_iterate_ctx(cpuctx->task_ctx, __perf_event_output_stop,
Alexander Shishkin	b73e4fe	2016-04-27 18:44:45 +0300	[diff] [blame]	7362	&ro, false);
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	7363	rcu_read_unlock();
				7364
				7365	return ro.err;
				7366	}
				7367
				7368	static void perf_pmu_output_stop(struct perf_event *event)
				7369	{
				7370	struct perf_event *iter;
				7371	int err, cpu;
				7372
				7373	restart:
				7374	rcu_read_lock();
				7375	list_for_each_entry_rcu(iter, &event->rb->event_list, rb_entry) {
				7376	/*
				7377	* For per-CPU events, we need to make sure that neither they
				7378	* nor their children are running; for cpu==-1 events it's
				7379	* sufficient to stop the event itself if it's active, since
				7380	* it can't have children.
				7381	*/
				7382	cpu = iter->cpu;
				7383	if (cpu == -1)
				7384	cpu = READ_ONCE(iter->oncpu);
				7385
				7386	if (cpu == -1)
				7387	continue;
				7388
				7389	err = cpu_function_call(cpu, __perf_pmu_output_stop, event);
				7390	if (err == -EAGAIN) {
				7391	rcu_read_unlock();
				7392	goto restart;
				7393	}
				7394	}
				7395	rcu_read_unlock();
				7396	}
				7397
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7398	/*
				7399	* task tracking -- fork/exit
				7400	*
Stephane Eranian	13d7a24	2013-08-21 12:10:24 +0200	[diff] [blame]	7401	* enabled by: attr.comm \| attr.mmap \| attr.mmap2 \| attr.mmap_data \| attr.task
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7402	*/
				7403
				7404	struct perf_task_event {
				7405	struct task_struct *task;
				7406	struct perf_event_context *task_ctx;
				7407
				7408	struct {
				7409	struct perf_event_header header;
				7410
				7411	u32 pid;
				7412	u32 ppid;
				7413	u32 tid;
				7414	u32 ptid;
				7415	u64 time;
				7416	} event_id;
				7417	};
				7418
Jiri Olsa	6751684	2013-07-09 18:56:31 +0200	[diff] [blame]	7419	static int perf_event_task_match(struct perf_event *event)
				7420	{
Stephane Eranian	13d7a24	2013-08-21 12:10:24 +0200	[diff] [blame]	7421	return event->attr.comm \|\| event->attr.mmap \|\|
				7422	event->attr.mmap2 \|\| event->attr.mmap_data \|\|
				7423	event->attr.task;
Jiri Olsa	6751684	2013-07-09 18:56:31 +0200	[diff] [blame]	7424	}
				7425
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7426	static void perf_event_task_output(struct perf_event *event,
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	7427	void *data)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7428	{
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	7429	struct perf_task_event *task_event = data;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7430	struct perf_output_handle handle;
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	7431	struct perf_sample_data sample;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7432	struct task_struct *task = task_event->task;
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	7433	int ret, size = task_event->event_id.header.size;
Mike Galbraith	8bb39f9	2010-03-26 11:11:33 +0100	[diff] [blame]	7434
Jiri Olsa	6751684	2013-07-09 18:56:31 +0200	[diff] [blame]	7435	if (!perf_event_task_match(event))
				7436	return;
				7437
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	7438	perf_event_header__init_id(&task_event->event_id.header, &sample, event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7439
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	7440	ret = perf_output_begin(&handle, event,
Peter Zijlstra	a7ac67e	2011-06-27 16:47:16 +0200	[diff] [blame]	7441	task_event->event_id.header.size);
Peter Zijlstra	ef60777	2010-05-18 10:50:41 +0200	[diff] [blame]	7442	if (ret)
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	7443	goto out;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7444
				7445	task_event->event_id.pid = perf_event_pid(event, task);
				7446	task_event->event_id.ppid = perf_event_pid(event, current);
				7447
				7448	task_event->event_id.tid = perf_event_tid(event, task);
				7449	task_event->event_id.ptid = perf_event_tid(event, current);
				7450
Peter Zijlstra	34f4392	2015-02-20 14:05:38 +0100	[diff] [blame]	7451	task_event->event_id.time = perf_event_clock(event);
				7452
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7453	perf_output_put(&handle, task_event->event_id);
				7454
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	7455	perf_event__output_id_sample(event, &handle, &sample);
				7456
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7457	perf_output_end(&handle);
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	7458	out:
				7459	task_event->event_id.header.size = size;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7460	}
				7461
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7462	static void perf_event_task(struct task_struct *task,
				7463	struct perf_event_context *task_ctx,
				7464	int new)
				7465	{
				7466	struct perf_task_event task_event;
				7467
				7468	if (!atomic_read(&nr_comm_events) &&
				7469	!atomic_read(&nr_mmap_events) &&
				7470	!atomic_read(&nr_task_events))
				7471	return;
				7472
				7473	task_event = (struct perf_task_event){
				7474	.task = task,
				7475	.task_ctx = task_ctx,
				7476	.event_id = {
				7477	.header = {
				7478	.type = new ? PERF_RECORD_FORK : PERF_RECORD_EXIT,
				7479	.misc = 0,
				7480	.size = sizeof(task_event.event_id),
				7481	},
				7482	/* .pid */
				7483	/* .ppid */
				7484	/* .tid */
				7485	/* .ptid */
Peter Zijlstra	34f4392	2015-02-20 14:05:38 +0100	[diff] [blame]	7486	/* .time */
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7487	},
				7488	};
				7489
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	7490	perf_iterate_sb(perf_event_task_output,
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	7491	&task_event,
				7492	task_ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7493	}
				7494
				7495	void perf_event_fork(struct task_struct *task)
				7496	{
				7497	perf_event_task(task, NULL, 1);
Hari Bathini	e422267	2017-03-08 02:11:36 +0530	[diff] [blame]	7498	perf_event_namespaces(task);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7499	}
				7500
				7501	/*
				7502	* comm tracking
				7503	*/
				7504
				7505	struct perf_comm_event {
				7506	struct task_struct *task;
				7507	char *comm;
				7508	int comm_size;
				7509
				7510	struct {
				7511	struct perf_event_header header;
				7512
				7513	u32 pid;
				7514	u32 tid;
				7515	} event_id;
				7516	};
				7517
Jiri Olsa	6751684	2013-07-09 18:56:31 +0200	[diff] [blame]	7518	static int perf_event_comm_match(struct perf_event *event)
				7519	{
				7520	return event->attr.comm;
				7521	}
				7522
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7523	static void perf_event_comm_output(struct perf_event *event,
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	7524	void *data)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7525	{
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	7526	struct perf_comm_event *comm_event = data;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7527	struct perf_output_handle handle;
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	7528	struct perf_sample_data sample;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7529	int size = comm_event->event_id.header.size;
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	7530	int ret;
				7531
Jiri Olsa	6751684	2013-07-09 18:56:31 +0200	[diff] [blame]	7532	if (!perf_event_comm_match(event))
				7533	return;
				7534
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	7535	perf_event_header__init_id(&comm_event->event_id.header, &sample, event);
				7536	ret = perf_output_begin(&handle, event,
Peter Zijlstra	a7ac67e	2011-06-27 16:47:16 +0200	[diff] [blame]	7537	comm_event->event_id.header.size);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7538
				7539	if (ret)
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	7540	goto out;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7541
				7542	comm_event->event_id.pid = perf_event_pid(event, comm_event->task);
				7543	comm_event->event_id.tid = perf_event_tid(event, comm_event->task);
				7544
				7545	perf_output_put(&handle, comm_event->event_id);
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	7546	__output_copy(&handle, comm_event->comm,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7547	comm_event->comm_size);
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	7548
				7549	perf_event__output_id_sample(event, &handle, &sample);
				7550
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7551	perf_output_end(&handle);
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	7552	out:
				7553	comm_event->event_id.header.size = size;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7554	}
				7555
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7556	static void perf_event_comm_event(struct perf_comm_event *comm_event)
				7557	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7558	char comm[TASK_COMM_LEN];
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7559	unsigned int size;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7560
				7561	memset(comm, 0, sizeof(comm));
Márton Németh	96b02d7	2009-11-21 23:10:15 +0100	[diff] [blame]	7562	strlcpy(comm, comm_event->task->comm, sizeof(comm));
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7563	size = ALIGN(strlen(comm)+1, sizeof(u64));
				7564
				7565	comm_event->comm = comm;
				7566	comm_event->comm_size = size;
				7567
				7568	comm_event->event_id.header.size = sizeof(comm_event->event_id) + size;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	7569
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	7570	perf_iterate_sb(perf_event_comm_output,
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	7571	comm_event,
				7572	NULL);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7573	}
				7574
Adrian Hunter	82b8977	2014-05-28 11:45:04 +0300	[diff] [blame]	7575	void perf_event_comm(struct task_struct *task, bool exec)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7576	{
				7577	struct perf_comm_event comm_event;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7578
				7579	if (!atomic_read(&nr_comm_events))
				7580	return;
				7581
				7582	comm_event = (struct perf_comm_event){
				7583	.task = task,
				7584	/* .comm */
				7585	/* .comm_size */
				7586	.event_id = {
				7587	.header = {
				7588	.type = PERF_RECORD_COMM,
Adrian Hunter	82b8977	2014-05-28 11:45:04 +0300	[diff] [blame]	7589	.misc = exec ? PERF_RECORD_MISC_COMM_EXEC : 0,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7590	/* .size */
				7591	},
				7592	/* .pid */
				7593	/* .tid */
				7594	},
				7595	};
				7596
				7597	perf_event_comm_event(&comm_event);
				7598	}
				7599
				7600	/*
Hari Bathini	e422267	2017-03-08 02:11:36 +0530	[diff] [blame]	7601	* namespaces tracking
				7602	*/
				7603
				7604	struct perf_namespaces_event {
				7605	struct task_struct *task;
				7606
				7607	struct {
				7608	struct perf_event_header header;
				7609
				7610	u32 pid;
				7611	u32 tid;
				7612	u64 nr_namespaces;
				7613	struct perf_ns_link_info link_info[NR_NAMESPACES];
				7614	} event_id;
				7615	};
				7616
				7617	static int perf_event_namespaces_match(struct perf_event *event)
				7618	{
				7619	return event->attr.namespaces;
				7620	}
				7621
				7622	static void perf_event_namespaces_output(struct perf_event *event,
				7623	void *data)
				7624	{
				7625	struct perf_namespaces_event *namespaces_event = data;
				7626	struct perf_output_handle handle;
				7627	struct perf_sample_data sample;
Jiri Olsa	34900ec	2017-08-09 18:14:06 +0200	[diff] [blame]	7628	u16 header_size = namespaces_event->event_id.header.size;
Hari Bathini	e422267	2017-03-08 02:11:36 +0530	[diff] [blame]	7629	int ret;
				7630
				7631	if (!perf_event_namespaces_match(event))
				7632	return;
				7633
				7634	perf_event_header__init_id(&namespaces_event->event_id.header,
				7635	&sample, event);
				7636	ret = perf_output_begin(&handle, event,
				7637	namespaces_event->event_id.header.size);
				7638	if (ret)
Jiri Olsa	34900ec	2017-08-09 18:14:06 +0200	[diff] [blame]	7639	goto out;
Hari Bathini	e422267	2017-03-08 02:11:36 +0530	[diff] [blame]	7640
				7641	namespaces_event->event_id.pid = perf_event_pid(event,
				7642	namespaces_event->task);
				7643	namespaces_event->event_id.tid = perf_event_tid(event,
				7644	namespaces_event->task);
				7645
				7646	perf_output_put(&handle, namespaces_event->event_id);
				7647
				7648	perf_event__output_id_sample(event, &handle, &sample);
				7649
				7650	perf_output_end(&handle);
Jiri Olsa	34900ec	2017-08-09 18:14:06 +0200	[diff] [blame]	7651	out:
				7652	namespaces_event->event_id.header.size = header_size;
Hari Bathini	e422267	2017-03-08 02:11:36 +0530	[diff] [blame]	7653	}
				7654
				7655	static void perf_fill_ns_link_info(struct perf_ns_link_info *ns_link_info,
				7656	struct task_struct *task,
				7657	const struct proc_ns_operations *ns_ops)
				7658	{
				7659	struct path ns_path;
				7660	struct inode *ns_inode;
Aleksa Sarai	ce623f8	2019-12-07 01:13:27 +1100	[diff] [blame]	7661	int error;
Hari Bathini	e422267	2017-03-08 02:11:36 +0530	[diff] [blame]	7662
				7663	error = ns_get_path(&ns_path, task, ns_ops);
				7664	if (!error) {
				7665	ns_inode = ns_path.dentry->d_inode;
				7666	ns_link_info->dev = new_encode_dev(ns_inode->i_sb->s_dev);
				7667	ns_link_info->ino = ns_inode->i_ino;
Vasily Averin	0e18dd1	2017-11-15 08:47:02 +0300	[diff] [blame]	7668	path_put(&ns_path);
Hari Bathini	e422267	2017-03-08 02:11:36 +0530	[diff] [blame]	7669	}
				7670	}
				7671
				7672	void perf_event_namespaces(struct task_struct *task)
				7673	{
				7674	struct perf_namespaces_event namespaces_event;
				7675	struct perf_ns_link_info *ns_link_info;
				7676
				7677	if (!atomic_read(&nr_namespaces_events))
				7678	return;
				7679
				7680	namespaces_event = (struct perf_namespaces_event){
				7681	.task = task,
				7682	.event_id = {
				7683	.header = {
				7684	.type = PERF_RECORD_NAMESPACES,
				7685	.misc = 0,
				7686	.size = sizeof(namespaces_event.event_id),
				7687	},
				7688	/* .pid */
				7689	/* .tid */
				7690	.nr_namespaces = NR_NAMESPACES,
				7691	/* .link_info[NR_NAMESPACES] */
				7692	},
				7693	};
				7694
				7695	ns_link_info = namespaces_event.event_id.link_info;
				7696
				7697	perf_fill_ns_link_info(&ns_link_info[MNT_NS_INDEX],
				7698	task, &mntns_operations);
				7699
				7700	#ifdef CONFIG_USER_NS
				7701	perf_fill_ns_link_info(&ns_link_info[USER_NS_INDEX],
				7702	task, &userns_operations);
				7703	#endif
				7704	#ifdef CONFIG_NET_NS
				7705	perf_fill_ns_link_info(&ns_link_info[NET_NS_INDEX],
				7706	task, &netns_operations);
				7707	#endif
				7708	#ifdef CONFIG_UTS_NS
				7709	perf_fill_ns_link_info(&ns_link_info[UTS_NS_INDEX],
				7710	task, &utsns_operations);
				7711	#endif
				7712	#ifdef CONFIG_IPC_NS
				7713	perf_fill_ns_link_info(&ns_link_info[IPC_NS_INDEX],
				7714	task, &ipcns_operations);
				7715	#endif
				7716	#ifdef CONFIG_PID_NS
				7717	perf_fill_ns_link_info(&ns_link_info[PID_NS_INDEX],
				7718	task, &pidns_operations);
				7719	#endif
				7720	#ifdef CONFIG_CGROUPS
				7721	perf_fill_ns_link_info(&ns_link_info[CGROUP_NS_INDEX],
				7722	task, &cgroupns_operations);
				7723	#endif
				7724
				7725	perf_iterate_sb(perf_event_namespaces_output,
				7726	&namespaces_event,
				7727	NULL);
				7728	}
				7729
				7730	/*
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7731	* mmap tracking
				7732	*/
				7733
				7734	struct perf_mmap_event {
				7735	struct vm_area_struct *vma;
				7736
				7737	const char *file_name;
				7738	int file_size;
Stephane Eranian	13d7a24	2013-08-21 12:10:24 +0200	[diff] [blame]	7739	int maj, min;
				7740	u64 ino;
				7741	u64 ino_generation;
Peter Zijlstra	f972eb6	2014-05-19 15:13:47 -0400	[diff] [blame]	7742	u32 prot, flags;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7743
				7744	struct {
				7745	struct perf_event_header header;
				7746
				7747	u32 pid;
				7748	u32 tid;
				7749	u64 start;
				7750	u64 len;
				7751	u64 pgoff;
				7752	} event_id;
				7753	};
				7754
Jiri Olsa	6751684	2013-07-09 18:56:31 +0200	[diff] [blame]	7755	static int perf_event_mmap_match(struct perf_event *event,
				7756	void *data)
				7757	{
				7758	struct perf_mmap_event *mmap_event = data;
				7759	struct vm_area_struct *vma = mmap_event->vma;
				7760	int executable = vma->vm_flags & VM_EXEC;
				7761
				7762	return (!executable && event->attr.mmap_data) \|\|
Stephane Eranian	13d7a24	2013-08-21 12:10:24 +0200	[diff] [blame]	7763	(executable && (event->attr.mmap \|\| event->attr.mmap2));
Jiri Olsa	6751684	2013-07-09 18:56:31 +0200	[diff] [blame]	7764	}
				7765
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7766	static void perf_event_mmap_output(struct perf_event *event,
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	7767	void *data)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7768	{
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	7769	struct perf_mmap_event *mmap_event = data;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7770	struct perf_output_handle handle;
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	7771	struct perf_sample_data sample;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7772	int size = mmap_event->event_id.header.size;
Stephane Eranian	d9c1bb2	2019-03-07 10:52:33 -0800	[diff] [blame]	7773	u32 type = mmap_event->event_id.header.type;
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	7774	int ret;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7775
Jiri Olsa	6751684	2013-07-09 18:56:31 +0200	[diff] [blame]	7776	if (!perf_event_mmap_match(event, data))
				7777	return;
				7778
Stephane Eranian	13d7a24	2013-08-21 12:10:24 +0200	[diff] [blame]	7779	if (event->attr.mmap2) {
				7780	mmap_event->event_id.header.type = PERF_RECORD_MMAP2;
				7781	mmap_event->event_id.header.size += sizeof(mmap_event->maj);
				7782	mmap_event->event_id.header.size += sizeof(mmap_event->min);
				7783	mmap_event->event_id.header.size += sizeof(mmap_event->ino);
Arnaldo Carvalho de Melo	d008d52	2013-09-10 10:24:05 -0300	[diff] [blame]	7784	mmap_event->event_id.header.size += sizeof(mmap_event->ino_generation);
Peter Zijlstra	f972eb6	2014-05-19 15:13:47 -0400	[diff] [blame]	7785	mmap_event->event_id.header.size += sizeof(mmap_event->prot);
				7786	mmap_event->event_id.header.size += sizeof(mmap_event->flags);
Stephane Eranian	13d7a24	2013-08-21 12:10:24 +0200	[diff] [blame]	7787	}
				7788
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	7789	perf_event_header__init_id(&mmap_event->event_id.header, &sample, event);
				7790	ret = perf_output_begin(&handle, event,
Peter Zijlstra	a7ac67e	2011-06-27 16:47:16 +0200	[diff] [blame]	7791	mmap_event->event_id.header.size);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7792	if (ret)
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	7793	goto out;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7794
				7795	mmap_event->event_id.pid = perf_event_pid(event, current);
				7796	mmap_event->event_id.tid = perf_event_tid(event, current);
				7797
				7798	perf_output_put(&handle, mmap_event->event_id);
Stephane Eranian	13d7a24	2013-08-21 12:10:24 +0200	[diff] [blame]	7799
				7800	if (event->attr.mmap2) {
				7801	perf_output_put(&handle, mmap_event->maj);
				7802	perf_output_put(&handle, mmap_event->min);
				7803	perf_output_put(&handle, mmap_event->ino);
				7804	perf_output_put(&handle, mmap_event->ino_generation);
Peter Zijlstra	f972eb6	2014-05-19 15:13:47 -0400	[diff] [blame]	7805	perf_output_put(&handle, mmap_event->prot);
				7806	perf_output_put(&handle, mmap_event->flags);
Stephane Eranian	13d7a24	2013-08-21 12:10:24 +0200	[diff] [blame]	7807	}
				7808
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	7809	__output_copy(&handle, mmap_event->file_name,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7810	mmap_event->file_size);
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	7811
				7812	perf_event__output_id_sample(event, &handle, &sample);
				7813
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7814	perf_output_end(&handle);
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	7815	out:
				7816	mmap_event->event_id.header.size = size;
Stephane Eranian	d9c1bb2	2019-03-07 10:52:33 -0800	[diff] [blame]	7817	mmap_event->event_id.header.type = type;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7818	}
				7819
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7820	static void perf_event_mmap_event(struct perf_mmap_event *mmap_event)
				7821	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7822	struct vm_area_struct *vma = mmap_event->vma;
				7823	struct file *file = vma->vm_file;
Stephane Eranian	13d7a24	2013-08-21 12:10:24 +0200	[diff] [blame]	7824	int maj = 0, min = 0;
				7825	u64 ino = 0, gen = 0;
Peter Zijlstra	f972eb6	2014-05-19 15:13:47 -0400	[diff] [blame]	7826	u32 prot = 0, flags = 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7827	unsigned int size;
				7828	char tmp[16];
				7829	char *buf = NULL;
Peter Zijlstra	2c42cfbf	2013-10-17 00:06:46 +0200	[diff] [blame]	7830	char *name;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7831
Peter Zijlstra	0b3589b	2017-01-26 23:15:08 +0100	[diff] [blame]	7832	if (vma->vm_flags & VM_READ)
				7833	prot \|= PROT_READ;
				7834	if (vma->vm_flags & VM_WRITE)
				7835	prot \|= PROT_WRITE;
				7836	if (vma->vm_flags & VM_EXEC)
				7837	prot \|= PROT_EXEC;
				7838
				7839	if (vma->vm_flags & VM_MAYSHARE)
				7840	flags = MAP_SHARED;
				7841	else
				7842	flags = MAP_PRIVATE;
				7843
				7844	if (vma->vm_flags & VM_DENYWRITE)
				7845	flags \|= MAP_DENYWRITE;
				7846	if (vma->vm_flags & VM_MAYEXEC)
				7847	flags \|= MAP_EXECUTABLE;
				7848	if (vma->vm_flags & VM_LOCKED)
				7849	flags \|= MAP_LOCKED;
				7850	if (vma->vm_flags & VM_HUGETLB)
				7851	flags \|= MAP_HUGETLB;
				7852
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7853	if (file) {
Stephane Eranian	13d7a24	2013-08-21 12:10:24 +0200	[diff] [blame]	7854	struct inode *inode;
				7855	dev_t dev;
Oleg Nesterov	3ea2f2b	2013-10-16 22:10:04 +0200	[diff] [blame]	7856
Peter Zijlstra	2c42cfbf	2013-10-17 00:06:46 +0200	[diff] [blame]	7857	buf = kmalloc(PATH_MAX, GFP_KERNEL);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7858	if (!buf) {
Oleg Nesterov	c7e548b	2013-10-17 20:24:17 +0200	[diff] [blame]	7859	name = "//enomem";
				7860	goto cpy_name;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7861	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7862	/*
Oleg Nesterov	3ea2f2b	2013-10-16 22:10:04 +0200	[diff] [blame]	7863	* d_path() works from the end of the rb backwards, so we
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7864	* need to add enough zero bytes after the string to handle
				7865	* the 64bit alignment we do later.
				7866	*/
Miklos Szeredi	9bf39ab	2015-06-19 10:29:13 +0200	[diff] [blame]	7867	name = file_path(file, buf, PATH_MAX - sizeof(u64));
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7868	if (IS_ERR(name)) {
Oleg Nesterov	c7e548b	2013-10-17 20:24:17 +0200	[diff] [blame]	7869	name = "//toolong";
				7870	goto cpy_name;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7871	}
Stephane Eranian	13d7a24	2013-08-21 12:10:24 +0200	[diff] [blame]	7872	inode = file_inode(vma->vm_file);
				7873	dev = inode->i_sb->s_dev;
				7874	ino = inode->i_ino;
				7875	gen = inode->i_generation;
				7876	maj = MAJOR(dev);
				7877	min = MINOR(dev);
Peter Zijlstra	f972eb6	2014-05-19 15:13:47 -0400	[diff] [blame]	7878
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7879	goto got_name;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7880	} else {
Jiri Olsa	fbe26ab	2014-07-14 17:57:19 +0200	[diff] [blame]	7881	if (vma->vm_ops && vma->vm_ops->name) {
				7882	name = (char *) vma->vm_ops->name(vma);
				7883	if (name)
				7884	goto cpy_name;
				7885	}
				7886
Peter Zijlstra	2c42cfbf	2013-10-17 00:06:46 +0200	[diff] [blame]	7887	name = (char *)arch_vma_name(vma);
Oleg Nesterov	c7e548b	2013-10-17 20:24:17 +0200	[diff] [blame]	7888	if (name)
				7889	goto cpy_name;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7890
Oleg Nesterov	32c5fb7	2013-10-16 22:09:45 +0200	[diff] [blame]	7891	if (vma->vm_start <= vma->vm_mm->start_brk &&
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7892	vma->vm_end >= vma->vm_mm->brk) {
Oleg Nesterov	c7e548b	2013-10-17 20:24:17 +0200	[diff] [blame]	7893	name = "[heap]";
				7894	goto cpy_name;
Oleg Nesterov	32c5fb7	2013-10-16 22:09:45 +0200	[diff] [blame]	7895	}
				7896	if (vma->vm_start <= vma->vm_mm->start_stack &&
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7897	vma->vm_end >= vma->vm_mm->start_stack) {
Oleg Nesterov	c7e548b	2013-10-17 20:24:17 +0200	[diff] [blame]	7898	name = "[stack]";
				7899	goto cpy_name;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7900	}
				7901
Oleg Nesterov	c7e548b	2013-10-17 20:24:17 +0200	[diff] [blame]	7902	name = "//anon";
				7903	goto cpy_name;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7904	}
				7905
Oleg Nesterov	c7e548b	2013-10-17 20:24:17 +0200	[diff] [blame]	7906	cpy_name:
				7907	strlcpy(tmp, name, sizeof(tmp));
				7908	name = tmp;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7909	got_name:
Peter Zijlstra	2c42cfbf	2013-10-17 00:06:46 +0200	[diff] [blame]	7910	/*
				7911	* Since our buffer works in 8 byte units we need to align our string
				7912	* size to a multiple of 8. However, we must guarantee the tail end is
				7913	* zero'd out to avoid leaking random bits to userspace.
				7914	*/
				7915	size = strlen(name)+1;
				7916	while (!IS_ALIGNED(size, sizeof(u64)))
				7917	name[size++] = '\0';
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7918
				7919	mmap_event->file_name = name;
				7920	mmap_event->file_size = size;
Stephane Eranian	13d7a24	2013-08-21 12:10:24 +0200	[diff] [blame]	7921	mmap_event->maj = maj;
				7922	mmap_event->min = min;
				7923	mmap_event->ino = ino;
				7924	mmap_event->ino_generation = gen;
Peter Zijlstra	f972eb6	2014-05-19 15:13:47 -0400	[diff] [blame]	7925	mmap_event->prot = prot;
				7926	mmap_event->flags = flags;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7927
Stephane Eranian	2fe8542	2013-01-24 16:10:39 +0100	[diff] [blame]	7928	if (!(vma->vm_flags & VM_EXEC))
				7929	mmap_event->event_id.header.misc \|= PERF_RECORD_MISC_MMAP_DATA;
				7930
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7931	mmap_event->event_id.header.size = sizeof(mmap_event->event_id) + size;
				7932
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	7933	perf_iterate_sb(perf_event_mmap_output,
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	7934	mmap_event,
				7935	NULL);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7936
				7937	kfree(buf);
				7938	}
				7939
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	7940	/*
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	7941	* Check whether inode and address range match filter criteria.
				7942	*/
				7943	static bool perf_addr_filter_match(struct perf_addr_filter *filter,
				7944	struct file *file, unsigned long offset,
				7945	unsigned long size)
				7946	{
Mathieu Poirier	7f635ff	2018-07-16 17:13:51 -0600	[diff] [blame]	7947	/* d_inode(NULL) won't be equal to any mapped user-space file */
				7948	if (!filter->path.dentry)
				7949	return false;
				7950
Song Liu	9511bce	2018-04-17 23:29:07 -0700	[diff] [blame]	7951	if (d_inode(filter->path.dentry) != file_inode(file))
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	7952	return false;
				7953
				7954	if (filter->offset > offset + size)
				7955	return false;
				7956
				7957	if (filter->offset + filter->size < offset)
				7958	return false;
				7959
				7960	return true;
				7961	}
				7962
Alexander Shishkin	c60f83b	2019-02-15 13:56:55 +0200	[diff] [blame]	7963	static bool perf_addr_filter_vma_adjust(struct perf_addr_filter *filter,
				7964	struct vm_area_struct *vma,
				7965	struct perf_addr_filter_range *fr)
				7966	{
				7967	unsigned long vma_size = vma->vm_end - vma->vm_start;
				7968	unsigned long off = vma->vm_pgoff << PAGE_SHIFT;
				7969	struct file *file = vma->vm_file;
				7970
				7971	if (!perf_addr_filter_match(filter, file, off, vma_size))
				7972	return false;
				7973
				7974	if (filter->offset < off) {
				7975	fr->start = vma->vm_start;
				7976	fr->size = min(vma_size, filter->size - (off - filter->offset));
				7977	} else {
				7978	fr->start = vma->vm_start + filter->offset - off;
				7979	fr->size = min(vma->vm_end - fr->start, filter->size);
				7980	}
				7981
				7982	return true;
				7983	}
				7984
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	7985	static void __perf_addr_filters_adjust(struct perf_event event, void data)
				7986	{
				7987	struct perf_addr_filters_head *ifh = perf_event_addr_filters(event);
				7988	struct vm_area_struct *vma = data;
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	7989	struct perf_addr_filter *filter;
				7990	unsigned int restart = 0, count = 0;
Alexander Shishkin	c60f83b	2019-02-15 13:56:55 +0200	[diff] [blame]	7991	unsigned long flags;
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	7992
				7993	if (!has_addr_filter(event))
				7994	return;
				7995
Alexander Shishkin	c60f83b	2019-02-15 13:56:55 +0200	[diff] [blame]	7996	if (!vma->vm_file)
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	7997	return;
				7998
				7999	raw_spin_lock_irqsave(&ifh->lock, flags);
				8000	list_for_each_entry(filter, &ifh->list, entry) {
Alexander Shishkin	c60f83b	2019-02-15 13:56:55 +0200	[diff] [blame]	8001	if (perf_addr_filter_vma_adjust(filter, vma,
				8002	&event->addr_filter_ranges[count]))
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	8003	restart++;
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	8004
				8005	count++;
				8006	}
				8007
				8008	if (restart)
				8009	event->addr_filters_gen++;
				8010	raw_spin_unlock_irqrestore(&ifh->lock, flags);
				8011
				8012	if (restart)
Alexander Shishkin	767ae08	2016-09-06 16:23:49 +0300	[diff] [blame]	8013	perf_event_stop(event, 1);
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	8014	}
				8015
				8016	/*
				8017	* Adjust all task's events' filters to the new vma
				8018	*/
				8019	static void perf_addr_filters_adjust(struct vm_area_struct *vma)
				8020	{
				8021	struct perf_event_context *ctx;
				8022	int ctxn;
				8023
Mathieu Poirier	12b40a2	2016-07-18 10:43:06 -0600	[diff] [blame]	8024	/*
				8025	* Data tracing isn't supported yet and as such there is no need
				8026	* to keep track of anything that isn't related to executable code:
				8027	*/
				8028	if (!(vma->vm_flags & VM_EXEC))
				8029	return;
				8030
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	8031	rcu_read_lock();
				8032	for_each_task_context_nr(ctxn) {
				8033	ctx = rcu_dereference(current->perf_event_ctxp[ctxn]);
				8034	if (!ctx)
				8035	continue;
				8036
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	8037	perf_iterate_ctx(ctx, __perf_addr_filters_adjust, vma, true);
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	8038	}
				8039	rcu_read_unlock();
				8040	}
				8041
Eric B Munson	3af9e85	2010-05-18 15:30:49 +0100	[diff] [blame]	8042	void perf_event_mmap(struct vm_area_struct *vma)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8043	{
				8044	struct perf_mmap_event mmap_event;
				8045
				8046	if (!atomic_read(&nr_mmap_events))
				8047	return;
				8048
				8049	mmap_event = (struct perf_mmap_event){
				8050	.vma = vma,
				8051	/* .file_name */
				8052	/* .file_size */
				8053	.event_id = {
				8054	.header = {
				8055	.type = PERF_RECORD_MMAP,
Zhang, Yanmin	39447b3	2010-04-19 13:32:41 +0800	[diff] [blame]	8056	.misc = PERF_RECORD_MISC_USER,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8057	/* .size */
				8058	},
				8059	/* .pid */
				8060	/* .tid */
				8061	.start = vma->vm_start,
				8062	.len = vma->vm_end - vma->vm_start,
Peter Zijlstra	3a0304e	2010-02-26 10:33:41 +0100	[diff] [blame]	8063	.pgoff = (u64)vma->vm_pgoff << PAGE_SHIFT,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8064	},
Stephane Eranian	13d7a24	2013-08-21 12:10:24 +0200	[diff] [blame]	8065	/* .maj (attr_mmap2 only) */
				8066	/* .min (attr_mmap2 only) */
				8067	/* .ino (attr_mmap2 only) */
				8068	/* .ino_generation (attr_mmap2 only) */
Peter Zijlstra	f972eb6	2014-05-19 15:13:47 -0400	[diff] [blame]	8069	/* .prot (attr_mmap2 only) */
				8070	/* .flags (attr_mmap2 only) */
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8071	};
				8072
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	8073	perf_addr_filters_adjust(vma);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8074	perf_event_mmap_event(&mmap_event);
				8075	}
				8076
Alexander Shishkin	68db7e9	2015-01-14 14:18:15 +0200	[diff] [blame]	8077	void perf_event_aux_event(struct perf_event *event, unsigned long head,
				8078	unsigned long size, u64 flags)
				8079	{
				8080	struct perf_output_handle handle;
				8081	struct perf_sample_data sample;
				8082	struct perf_aux_event {
				8083	struct perf_event_header header;
				8084	u64 offset;
				8085	u64 size;
				8086	u64 flags;
				8087	} rec = {
				8088	.header = {
				8089	.type = PERF_RECORD_AUX,
				8090	.misc = 0,
				8091	.size = sizeof(rec),
				8092	},
				8093	.offset = head,
				8094	.size = size,
				8095	.flags = flags,
				8096	};
				8097	int ret;
				8098
				8099	perf_event_header__init_id(&rec.header, &sample, event);
				8100	ret = perf_output_begin(&handle, event, rec.header.size);
				8101
				8102	if (ret)
				8103	return;
				8104
				8105	perf_output_put(&handle, rec);
				8106	perf_event__output_id_sample(event, &handle, &sample);
				8107
				8108	perf_output_end(&handle);
				8109	}
				8110
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8111	/*
Kan Liang	f38b0db	2015-05-10 15:13:14 -0400	[diff] [blame]	8112	* Lost/dropped samples logging
				8113	*/
				8114	void perf_log_lost_samples(struct perf_event *event, u64 lost)
				8115	{
				8116	struct perf_output_handle handle;
				8117	struct perf_sample_data sample;
				8118	int ret;
				8119
				8120	struct {
				8121	struct perf_event_header header;
				8122	u64 lost;
				8123	} lost_samples_event = {
				8124	.header = {
				8125	.type = PERF_RECORD_LOST_SAMPLES,
				8126	.misc = 0,
				8127	.size = sizeof(lost_samples_event),
				8128	},
				8129	.lost = lost,
				8130	};
				8131
				8132	perf_event_header__init_id(&lost_samples_event.header, &sample, event);
				8133
				8134	ret = perf_output_begin(&handle, event,
				8135	lost_samples_event.header.size);
				8136	if (ret)
				8137	return;
				8138
				8139	perf_output_put(&handle, lost_samples_event);
				8140	perf_event__output_id_sample(event, &handle, &sample);
				8141	perf_output_end(&handle);
				8142	}
				8143
				8144	/*
Adrian Hunter	45ac140	2015-07-21 12:44:02 +0300	[diff] [blame]	8145	* context_switch tracking
				8146	*/
				8147
				8148	struct perf_switch_event {
				8149	struct task_struct *task;
				8150	struct task_struct *next_prev;
				8151
				8152	struct {
				8153	struct perf_event_header header;
				8154	u32 next_prev_pid;
				8155	u32 next_prev_tid;
				8156	} event_id;
				8157	};
				8158
				8159	static int perf_event_switch_match(struct perf_event *event)
				8160	{
				8161	return event->attr.context_switch;
				8162	}
				8163
				8164	static void perf_event_switch_output(struct perf_event event, void data)
				8165	{
				8166	struct perf_switch_event *se = data;
				8167	struct perf_output_handle handle;
				8168	struct perf_sample_data sample;
				8169	int ret;
				8170
				8171	if (!perf_event_switch_match(event))
				8172	return;
				8173
				8174	/* Only CPU-wide events are allowed to see next/prev pid/tid */
				8175	if (event->ctx->task) {
				8176	se->event_id.header.type = PERF_RECORD_SWITCH;
				8177	se->event_id.header.size = sizeof(se->event_id.header);
				8178	} else {
				8179	se->event_id.header.type = PERF_RECORD_SWITCH_CPU_WIDE;
				8180	se->event_id.header.size = sizeof(se->event_id);
				8181	se->event_id.next_prev_pid =
				8182	perf_event_pid(event, se->next_prev);
				8183	se->event_id.next_prev_tid =
				8184	perf_event_tid(event, se->next_prev);
				8185	}
				8186
				8187	perf_event_header__init_id(&se->event_id.header, &sample, event);
				8188
				8189	ret = perf_output_begin(&handle, event, se->event_id.header.size);
				8190	if (ret)
				8191	return;
				8192
				8193	if (event->ctx->task)
				8194	perf_output_put(&handle, se->event_id.header);
				8195	else
				8196	perf_output_put(&handle, se->event_id);
				8197
				8198	perf_event__output_id_sample(event, &handle, &sample);
				8199
				8200	perf_output_end(&handle);
				8201	}
				8202
				8203	static void perf_event_switch(struct task_struct *task,
				8204	struct task_struct *next_prev, bool sched_in)
				8205	{
				8206	struct perf_switch_event switch_event;
				8207
				8208	/* N.B. caller checks nr_switch_events != 0 */
				8209
				8210	switch_event = (struct perf_switch_event){
				8211	.task = task,
				8212	.next_prev = next_prev,
				8213	.event_id = {
				8214	.header = {
				8215	/* .type */
				8216	.misc = sched_in ? 0 : PERF_RECORD_MISC_SWITCH_OUT,
				8217	/* .size */
				8218	},
				8219	/* .next_prev_pid */
				8220	/* .next_prev_tid */
				8221	},
				8222	};
				8223
Alexey Budankov	101592b	2018-04-09 10:25:32 +0300	[diff] [blame]	8224	if (!sched_in && task->state == TASK_RUNNING)
				8225	switch_event.event_id.header.misc \|=
				8226	PERF_RECORD_MISC_SWITCH_OUT_PREEMPT;
				8227
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	8228	perf_iterate_sb(perf_event_switch_output,
Adrian Hunter	45ac140	2015-07-21 12:44:02 +0300	[diff] [blame]	8229	&switch_event,
				8230	NULL);
				8231	}
				8232
				8233	/*
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8234	* IRQ throttle logging
				8235	*/
				8236
				8237	static void perf_log_throttle(struct perf_event *event, int enable)
				8238	{
				8239	struct perf_output_handle handle;
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	8240	struct perf_sample_data sample;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8241	int ret;
				8242
				8243	struct {
				8244	struct perf_event_header header;
				8245	u64 time;
				8246	u64 id;
				8247	u64 stream_id;
				8248	} throttle_event = {
				8249	.header = {
				8250	.type = PERF_RECORD_THROTTLE,
				8251	.misc = 0,
				8252	.size = sizeof(throttle_event),
				8253	},
Peter Zijlstra	34f4392	2015-02-20 14:05:38 +0100	[diff] [blame]	8254	.time = perf_event_clock(event),
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8255	.id = primary_event_id(event),
				8256	.stream_id = event->id,
				8257	};
				8258
				8259	if (enable)
				8260	throttle_event.header.type = PERF_RECORD_UNTHROTTLE;
				8261
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	8262	perf_event_header__init_id(&throttle_event.header, &sample, event);
				8263
				8264	ret = perf_output_begin(&handle, event,
Peter Zijlstra	a7ac67e	2011-06-27 16:47:16 +0200	[diff] [blame]	8265	throttle_event.header.size);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8266	if (ret)
				8267	return;
				8268
				8269	perf_output_put(&handle, throttle_event);
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	8270	perf_event__output_id_sample(event, &handle, &sample);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8271	perf_output_end(&handle);
				8272	}
				8273
Song Liu	76193a9	2019-01-17 08:15:13 -0800	[diff] [blame]	8274	/*
				8275	* ksymbol register/unregister tracking
				8276	*/
				8277
				8278	struct perf_ksymbol_event {
				8279	const char *name;
				8280	int name_len;
				8281	struct {
				8282	struct perf_event_header header;
				8283	u64 addr;
				8284	u32 len;
				8285	u16 ksym_type;
				8286	u16 flags;
				8287	} event_id;
				8288	};
				8289
				8290	static int perf_event_ksymbol_match(struct perf_event *event)
				8291	{
				8292	return event->attr.ksymbol;
				8293	}
				8294
				8295	static void perf_event_ksymbol_output(struct perf_event event, void data)
				8296	{
				8297	struct perf_ksymbol_event *ksymbol_event = data;
				8298	struct perf_output_handle handle;
				8299	struct perf_sample_data sample;
				8300	int ret;
				8301
				8302	if (!perf_event_ksymbol_match(event))
				8303	return;
				8304
				8305	perf_event_header__init_id(&ksymbol_event->event_id.header,
				8306	&sample, event);
				8307	ret = perf_output_begin(&handle, event,
				8308	ksymbol_event->event_id.header.size);
				8309	if (ret)
				8310	return;
				8311
				8312	perf_output_put(&handle, ksymbol_event->event_id);
				8313	__output_copy(&handle, ksymbol_event->name, ksymbol_event->name_len);
				8314	perf_event__output_id_sample(event, &handle, &sample);
				8315
				8316	perf_output_end(&handle);
				8317	}
				8318
				8319	void perf_event_ksymbol(u16 ksym_type, u64 addr, u32 len, bool unregister,
				8320	const char *sym)
				8321	{
				8322	struct perf_ksymbol_event ksymbol_event;
				8323	char name[KSYM_NAME_LEN];
				8324	u16 flags = 0;
				8325	int name_len;
				8326
				8327	if (!atomic_read(&nr_ksymbol_events))
				8328	return;
				8329
				8330	if (ksym_type >= PERF_RECORD_KSYMBOL_TYPE_MAX \|\|
				8331	ksym_type == PERF_RECORD_KSYMBOL_TYPE_UNKNOWN)
				8332	goto err;
				8333
				8334	strlcpy(name, sym, KSYM_NAME_LEN);
				8335	name_len = strlen(name) + 1;
				8336	while (!IS_ALIGNED(name_len, sizeof(u64)))
				8337	name[name_len++] = '\0';
				8338	BUILD_BUG_ON(KSYM_NAME_LEN % sizeof(u64));
				8339
				8340	if (unregister)
				8341	flags \|= PERF_RECORD_KSYMBOL_FLAGS_UNREGISTER;
				8342
				8343	ksymbol_event = (struct perf_ksymbol_event){
				8344	.name = name,
				8345	.name_len = name_len,
				8346	.event_id = {
				8347	.header = {
				8348	.type = PERF_RECORD_KSYMBOL,
				8349	.size = sizeof(ksymbol_event.event_id) +
				8350	name_len,
				8351	},
				8352	.addr = addr,
				8353	.len = len,
				8354	.ksym_type = ksym_type,
				8355	.flags = flags,
				8356	},
				8357	};
				8358
				8359	perf_iterate_sb(perf_event_ksymbol_output, &ksymbol_event, NULL);
				8360	return;
				8361	err:
				8362	WARN_ONCE(1, "%s: Invalid KSYMBOL type 0x%x\n", __func__, ksym_type);
				8363	}
				8364
Song Liu	6ee52e2	2019-01-17 08:15:15 -0800	[diff] [blame]	8365	/*
				8366	* bpf program load/unload tracking
				8367	*/
				8368
				8369	struct perf_bpf_event {
				8370	struct bpf_prog *prog;
				8371	struct {
				8372	struct perf_event_header header;
				8373	u16 type;
				8374	u16 flags;
				8375	u32 id;
				8376	u8 tag[BPF_TAG_SIZE];
				8377	} event_id;
				8378	};
				8379
				8380	static int perf_event_bpf_match(struct perf_event *event)
				8381	{
				8382	return event->attr.bpf_event;
				8383	}
				8384
				8385	static void perf_event_bpf_output(struct perf_event event, void data)
				8386	{
				8387	struct perf_bpf_event *bpf_event = data;
				8388	struct perf_output_handle handle;
				8389	struct perf_sample_data sample;
				8390	int ret;
				8391
				8392	if (!perf_event_bpf_match(event))
				8393	return;
				8394
				8395	perf_event_header__init_id(&bpf_event->event_id.header,
				8396	&sample, event);
				8397	ret = perf_output_begin(&handle, event,
				8398	bpf_event->event_id.header.size);
				8399	if (ret)
				8400	return;
				8401
				8402	perf_output_put(&handle, bpf_event->event_id);
				8403	perf_event__output_id_sample(event, &handle, &sample);
				8404
				8405	perf_output_end(&handle);
				8406	}
				8407
				8408	static void perf_event_bpf_emit_ksymbols(struct bpf_prog *prog,
				8409	enum perf_bpf_event_type type)
				8410	{
				8411	bool unregister = type == PERF_BPF_EVENT_PROG_UNLOAD;
				8412	char sym[KSYM_NAME_LEN];
				8413	int i;
				8414
				8415	if (prog->aux->func_cnt == 0) {
				8416	bpf_get_prog_name(prog, sym);
				8417	perf_event_ksymbol(PERF_RECORD_KSYMBOL_TYPE_BPF,
				8418	(u64)(unsigned long)prog->bpf_func,
				8419	prog->jited_len, unregister, sym);
				8420	} else {
				8421	for (i = 0; i < prog->aux->func_cnt; i++) {
				8422	struct bpf_prog *subprog = prog->aux->func[i];
				8423
				8424	bpf_get_prog_name(subprog, sym);
				8425	perf_event_ksymbol(
				8426	PERF_RECORD_KSYMBOL_TYPE_BPF,
				8427	(u64)(unsigned long)subprog->bpf_func,
				8428	subprog->jited_len, unregister, sym);
				8429	}
				8430	}
				8431	}
				8432
				8433	void perf_event_bpf_event(struct bpf_prog *prog,
				8434	enum perf_bpf_event_type type,
				8435	u16 flags)
				8436	{
				8437	struct perf_bpf_event bpf_event;
				8438
				8439	if (type <= PERF_BPF_EVENT_UNKNOWN \|\|
				8440	type >= PERF_BPF_EVENT_MAX)
				8441	return;
				8442
				8443	switch (type) {
				8444	case PERF_BPF_EVENT_PROG_LOAD:
				8445	case PERF_BPF_EVENT_PROG_UNLOAD:
				8446	if (atomic_read(&nr_ksymbol_events))
				8447	perf_event_bpf_emit_ksymbols(prog, type);
				8448	break;
				8449	default:
				8450	break;
				8451	}
				8452
				8453	if (!atomic_read(&nr_bpf_events))
				8454	return;
				8455
				8456	bpf_event = (struct perf_bpf_event){
				8457	.prog = prog,
				8458	.event_id = {
				8459	.header = {
				8460	.type = PERF_RECORD_BPF_EVENT,
				8461	.size = sizeof(bpf_event.event_id),
				8462	},
				8463	.type = type,
				8464	.flags = flags,
				8465	.id = prog->aux->id,
				8466	},
				8467	};
				8468
				8469	BUILD_BUG_ON(BPF_TAG_SIZE % sizeof(u64));
				8470
				8471	memcpy(bpf_event.event_id.tag, prog->tag, BPF_TAG_SIZE);
				8472	perf_iterate_sb(perf_event_bpf_output, &bpf_event, NULL);
				8473	}
				8474
Alexander Shishkin	8d4e6c4	2017-03-30 18:39:56 +0300	[diff] [blame]	8475	void perf_event_itrace_started(struct perf_event *event)
				8476	{
				8477	event->attach_state \|= PERF_ATTACH_ITRACE;
				8478	}
				8479
Alexander Shishkin	ec0d772	2015-01-14 14:18:23 +0200	[diff] [blame]	8480	static void perf_log_itrace_start(struct perf_event *event)
				8481	{
				8482	struct perf_output_handle handle;
				8483	struct perf_sample_data sample;
				8484	struct perf_aux_event {
				8485	struct perf_event_header header;
				8486	u32 pid;
				8487	u32 tid;
				8488	} rec;
				8489	int ret;
				8490
				8491	if (event->parent)
				8492	event = event->parent;
				8493
				8494	if (!(event->pmu->capabilities & PERF_PMU_CAP_ITRACE) \|\|
Alexander Shishkin	8d4e6c4	2017-03-30 18:39:56 +0300	[diff] [blame]	8495	event->attach_state & PERF_ATTACH_ITRACE)
Alexander Shishkin	ec0d772	2015-01-14 14:18:23 +0200	[diff] [blame]	8496	return;
				8497
Alexander Shishkin	ec0d772	2015-01-14 14:18:23 +0200	[diff] [blame]	8498	rec.header.type = PERF_RECORD_ITRACE_START;
				8499	rec.header.misc = 0;
				8500	rec.header.size = sizeof(rec);
				8501	rec.pid = perf_event_pid(event, current);
				8502	rec.tid = perf_event_tid(event, current);
				8503
				8504	perf_event_header__init_id(&rec.header, &sample, event);
				8505	ret = perf_output_begin(&handle, event, rec.header.size);
				8506
				8507	if (ret)
				8508	return;
				8509
				8510	perf_output_put(&handle, rec);
				8511	perf_event__output_id_sample(event, &handle, &sample);
				8512
				8513	perf_output_end(&handle);
				8514	}
				8515
Jiri Olsa	475113d	2016-12-28 14:31:03 +0100	[diff] [blame]	8516	static int
				8517	__perf_event_account_interrupt(struct perf_event *event, int throttle)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8518	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8519	struct hw_perf_event *hwc = &event->hw;
				8520	int ret = 0;
Jiri Olsa	475113d	2016-12-28 14:31:03 +0100	[diff] [blame]	8521	u64 seq;
Peter Zijlstra	9639882	2010-11-24 18:55:29 +0100	[diff] [blame]	8522
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	8523	seq = __this_cpu_read(perf_throttled_seq);
				8524	if (seq != hwc->interrupts_seq) {
				8525	hwc->interrupts_seq = seq;
				8526	hwc->interrupts = 1;
				8527	} else {
				8528	hwc->interrupts++;
				8529	if (unlikely(throttle
				8530	&& hwc->interrupts >= max_samples_per_tick)) {
				8531	__this_cpu_inc(perf_throttled_count);
Frederic Weisbecker	555e0c1	2015-07-16 17:42:29 +0200	[diff] [blame]	8532	tick_dep_set_cpu(smp_processor_id(), TICK_DEP_BIT_PERF_EVENTS);
Peter Zijlstra	163ec43	2011-02-16 11:22:34 +0100	[diff] [blame]	8533	hwc->interrupts = MAX_INTERRUPTS;
				8534	perf_log_throttle(event, 0);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8535	ret = 1;
				8536	}
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	8537	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8538
				8539	if (event->attr.freq) {
				8540	u64 now = perf_clock();
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	8541	s64 delta = now - hwc->freq_time_stamp;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8542
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	8543	hwc->freq_time_stamp = now;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8544
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	8545	if (delta > 0 && delta < 2*TICK_NSEC)
Stephane Eranian	f39d47f	2012-02-07 14:39:57 +0100	[diff] [blame]	8546	perf_adjust_period(event, delta, hwc->last_period, true);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8547	}
				8548
Jiri Olsa	475113d	2016-12-28 14:31:03 +0100	[diff] [blame]	8549	return ret;
				8550	}
				8551
				8552	int perf_event_account_interrupt(struct perf_event *event)
				8553	{
				8554	return __perf_event_account_interrupt(event, 1);
				8555	}
				8556
				8557	/*
				8558	* Generic event overflow handling, sampling.
				8559	*/
				8560
				8561	static int __perf_event_overflow(struct perf_event *event,
				8562	int throttle, struct perf_sample_data *data,
				8563	struct pt_regs *regs)
				8564	{
				8565	int events = atomic_read(&event->event_limit);
				8566	int ret = 0;
				8567
				8568	/*
				8569	* Non-sampling counters might still use the PMI to fold short
				8570	* hardware counters, ignore those.
				8571	*/
				8572	if (unlikely(!is_sampling_event(event)))
				8573	return 0;
				8574
				8575	ret = __perf_event_account_interrupt(event, throttle);
				8576
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8577	/*
				8578	* XXX event_limit might not quite work as expected on inherited
				8579	* events
				8580	*/
				8581
				8582	event->pending_kill = POLL_IN;
				8583	if (events && atomic_dec_and_test(&event->event_limit)) {
				8584	ret = 1;
				8585	event->pending_kill = POLL_HUP;
Jiri Olsa	5aab90c	2016-10-26 11:48:24 +0200	[diff] [blame]	8586
				8587	perf_event_disable_inatomic(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8588	}
				8589
Alexei Starovoitov	aa6a5f3	2016-09-01 18:37:24 -0700	[diff] [blame]	8590	READ_ONCE(event->overflow_handler)(event, data, regs);
Peter Zijlstra	453f19e	2009-11-20 22:19:43 +0100	[diff] [blame]	8591
Peter Zijlstra	fed66e2cd	2015-06-11 10:32:01 +0200	[diff] [blame]	8592	if (*perf_event_fasync(event) && event->pending_kill) {
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	8593	event->pending_wakeup = 1;
				8594	irq_work_queue(&event->pending);
Peter Zijlstra	f506b3d	2011-05-26 17:02:53 +0200	[diff] [blame]	8595	}
				8596
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8597	return ret;
				8598	}
				8599
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	8600	int perf_event_overflow(struct perf_event *event,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8601	struct perf_sample_data *data,
				8602	struct pt_regs *regs)
				8603	{
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	8604	return __perf_event_overflow(event, 1, data, regs);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8605	}
				8606
				8607	/*
				8608	* Generic software event infrastructure
				8609	*/
				8610
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	8611	struct swevent_htable {
				8612	struct swevent_hlist *swevent_hlist;
				8613	struct mutex hlist_mutex;
				8614	int hlist_refcount;
				8615
				8616	/* Recursion avoidance in each contexts */
				8617	int recursion[PERF_NR_CONTEXTS];
				8618	};
				8619
				8620	static DEFINE_PER_CPU(struct swevent_htable, swevent_htable);
				8621
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8622	/*
				8623	* We directly increment event->count and keep a second value in
				8624	* event->hw.period_left to count intervals. This period event
				8625	* is kept in the range [-sample_period, 0] so that we can use the
				8626	* sign as trigger.
				8627	*/
				8628
Jiri Olsa	ab57384	2013-05-01 17:25:44 +0200	[diff] [blame]	8629	u64 perf_swevent_set_period(struct perf_event *event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8630	{
				8631	struct hw_perf_event *hwc = &event->hw;
				8632	u64 period = hwc->last_period;
				8633	u64 nr, offset;
				8634	s64 old, val;
				8635
				8636	hwc->last_period = hwc->sample_period;
				8637
				8638	again:
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	8639	old = val = local64_read(&hwc->period_left);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8640	if (val < 0)
				8641	return 0;
				8642
				8643	nr = div64_u64(period + val, period);
				8644	offset = nr * period;
				8645	val -= offset;
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	8646	if (local64_cmpxchg(&hwc->period_left, old, val) != old)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8647	goto again;
				8648
				8649	return nr;
				8650	}
				8651
Peter Zijlstra	0cff784	2009-11-20 22:19:44 +0100	[diff] [blame]	8652	static void perf_swevent_overflow(struct perf_event *event, u64 overflow,
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	8653	struct perf_sample_data *data,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8654	struct pt_regs *regs)
				8655	{
				8656	struct hw_perf_event *hwc = &event->hw;
				8657	int throttle = 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8658
Peter Zijlstra	0cff784	2009-11-20 22:19:44 +0100	[diff] [blame]	8659	if (!overflow)
				8660	overflow = perf_swevent_set_period(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8661
				8662	if (hwc->interrupts == MAX_INTERRUPTS)
				8663	return;
				8664
				8665	for (; overflow; overflow--) {
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	8666	if (__perf_event_overflow(event, throttle,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8667	data, regs)) {
				8668	/*
				8669	* We inhibit the overflow from happening when
				8670	* hwc->interrupts == MAX_INTERRUPTS.
				8671	*/
				8672	break;
				8673	}
				8674	throttle = 1;
				8675	}
				8676	}
				8677
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	8678	static void perf_swevent_event(struct perf_event *event, u64 nr,
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	8679	struct perf_sample_data *data,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8680	struct pt_regs *regs)
				8681	{
				8682	struct hw_perf_event *hwc = &event->hw;
				8683
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	8684	local64_add(nr, &event->count);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8685
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8686	if (!regs)
				8687	return;
				8688
Franck Bui-Huu	6c7e550	2010-11-23 16:21:43 +0100	[diff] [blame]	8689	if (!is_sampling_event(event))
Peter Zijlstra	0cff784	2009-11-20 22:19:44 +0100	[diff] [blame]	8690	return;
				8691
Andrew Vagin	5d81e5c	2011-11-07 15:54:12 +0300	[diff] [blame]	8692	if ((event->attr.sample_type & PERF_SAMPLE_PERIOD) && !event->attr.freq) {
				8693	data->period = nr;
				8694	return perf_swevent_overflow(event, 1, data, regs);
				8695	} else
				8696	data->period = event->hw.last_period;
				8697
Peter Zijlstra	0cff784	2009-11-20 22:19:44 +0100	[diff] [blame]	8698	if (nr == 1 && hwc->sample_period == 1 && !event->attr.freq)
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	8699	return perf_swevent_overflow(event, 1, data, regs);
Peter Zijlstra	0cff784	2009-11-20 22:19:44 +0100	[diff] [blame]	8700
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	8701	if (local64_add_negative(nr, &hwc->period_left))
Peter Zijlstra	0cff784	2009-11-20 22:19:44 +0100	[diff] [blame]	8702	return;
				8703
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	8704	perf_swevent_overflow(event, 0, data, regs);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8705	}
				8706
Frederic Weisbecker	f5ffe02	2009-11-23 15:42:34 +0100	[diff] [blame]	8707	static int perf_exclude_event(struct perf_event *event,
				8708	struct pt_regs *regs)
				8709	{
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	8710	if (event->hw.state & PERF_HES_STOPPED)
Frederic Weisbecker	91b2f48	2011-03-07 21:27:08 +0100	[diff] [blame]	8711	return 1;
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	8712
Frederic Weisbecker	f5ffe02	2009-11-23 15:42:34 +0100	[diff] [blame]	8713	if (regs) {
				8714	if (event->attr.exclude_user && user_mode(regs))
				8715	return 1;
				8716
				8717	if (event->attr.exclude_kernel && !user_mode(regs))
				8718	return 1;
				8719	}
				8720
				8721	return 0;
				8722	}
				8723
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8724	static int perf_swevent_match(struct perf_event *event,
				8725	enum perf_type_id type,
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	8726	u32 event_id,
				8727	struct perf_sample_data *data,
				8728	struct pt_regs *regs)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8729	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8730	if (event->attr.type != type)
				8731	return 0;
Frederic Weisbecker	f5ffe02	2009-11-23 15:42:34 +0100	[diff] [blame]	8732
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8733	if (event->attr.config != event_id)
				8734	return 0;
				8735
Frederic Weisbecker	f5ffe02	2009-11-23 15:42:34 +0100	[diff] [blame]	8736	if (perf_exclude_event(event, regs))
				8737	return 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8738
				8739	return 1;
				8740	}
				8741
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8742	static inline u64 swevent_hash(u64 type, u32 event_id)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8743	{
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8744	u64 val = event_id \| (type << 32);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8745
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8746	return hash_64(val, SWEVENT_HLIST_BITS);
				8747	}
				8748
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	8749	static inline struct hlist_head *
				8750	__find_swevent_head(struct swevent_hlist *hlist, u64 type, u32 event_id)
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8751	{
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	8752	u64 hash = swevent_hash(type, event_id);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8753
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	8754	return &hlist->heads[hash];
				8755	}
				8756
				8757	/* For the read side: events when they trigger */
				8758	static inline struct hlist_head *
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	8759	find_swevent_head_rcu(struct swevent_htable *swhash, u64 type, u32 event_id)
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	8760	{
				8761	struct swevent_hlist *hlist;
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8762
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	8763	hlist = rcu_dereference(swhash->swevent_hlist);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8764	if (!hlist)
				8765	return NULL;
				8766
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	8767	return __find_swevent_head(hlist, type, event_id);
				8768	}
				8769
				8770	/* For the event head insertion and removal in the hlist */
				8771	static inline struct hlist_head *
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	8772	find_swevent_head(struct swevent_htable swhash, struct perf_event event)
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	8773	{
				8774	struct swevent_hlist *hlist;
				8775	u32 event_id = event->attr.config;
				8776	u64 type = event->attr.type;
				8777
				8778	/*
				8779	* Event scheduling is always serialized against hlist allocation
				8780	* and release. Which makes the protected version suitable here.
				8781	* The context lock guarantees that.
				8782	*/
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	8783	hlist = rcu_dereference_protected(swhash->swevent_hlist,
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	8784	lockdep_is_held(&event->ctx->lock));
				8785	if (!hlist)
				8786	return NULL;
				8787
				8788	return __find_swevent_head(hlist, type, event_id);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8789	}
				8790
				8791	static void do_perf_sw_event(enum perf_type_id type, u32 event_id,
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	8792	u64 nr,
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8793	struct perf_sample_data *data,
				8794	struct pt_regs *regs)
				8795	{
Christoph Lameter	4a32fea	2014-08-17 12:30:27 -0500	[diff] [blame]	8796	struct swevent_htable *swhash = this_cpu_ptr(&swevent_htable);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8797	struct perf_event *event;
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8798	struct hlist_head *head;
				8799
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8800	rcu_read_lock();
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	8801	head = find_swevent_head_rcu(swhash, type, event_id);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8802	if (!head)
				8803	goto end;
				8804
Sasha Levin	b67bfe0	2013-02-27 17:06:00 -0800	[diff] [blame]	8805	hlist_for_each_entry_rcu(event, head, hlist_entry) {
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	8806	if (perf_swevent_match(event, type, event_id, data, regs))
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	8807	perf_swevent_event(event, nr, data, regs);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8808	}
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8809	end:
				8810	rcu_read_unlock();
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8811	}
				8812
Peter Zijlstra (Intel)	86038c5	2014-12-16 12:47:34 +0100	[diff] [blame]	8813	DEFINE_PER_CPU(struct pt_regs, __perf_regs[4]);
				8814
Peter Zijlstra	4ed7c92	2009-11-23 11:37:29 +0100	[diff] [blame]	8815	int perf_swevent_get_recursion_context(void)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8816	{
Christoph Lameter	4a32fea	2014-08-17 12:30:27 -0500	[diff] [blame]	8817	struct swevent_htable *swhash = this_cpu_ptr(&swevent_htable);
Frederic Weisbecker	ce71b9d	2009-11-22 05:26:55 +0100	[diff] [blame]	8818
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	8819	return get_recursion_context(swhash->recursion);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8820	}
Ingo Molnar	645e8cc	2009-11-22 12:20:19 +0100	[diff] [blame]	8821	EXPORT_SYMBOL_GPL(perf_swevent_get_recursion_context);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8822
Alexei Starovoitov	98b5c2c	2016-04-06 18:43:25 -0700	[diff] [blame]	8823	void perf_swevent_put_recursion_context(int rctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8824	{
Christoph Lameter	4a32fea	2014-08-17 12:30:27 -0500	[diff] [blame]	8825	struct swevent_htable *swhash = this_cpu_ptr(&swevent_htable);
Frederic Weisbecker	927c7a9	2010-07-01 16:20:36 +0200	[diff] [blame]	8826
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	8827	put_recursion_context(swhash->recursion, rctx);
Frederic Weisbecker	ce71b9d	2009-11-22 05:26:55 +0100	[diff] [blame]	8828	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8829
Peter Zijlstra (Intel)	86038c5	2014-12-16 12:47:34 +0100	[diff] [blame]	8830	void ___perf_sw_event(u32 event_id, u64 nr, struct pt_regs *regs, u64 addr)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8831	{
Ingo Molnar	a4234bf	2009-11-23 10:57:59 +0100	[diff] [blame]	8832	struct perf_sample_data data;
Peter Zijlstra (Intel)	86038c5	2014-12-16 12:47:34 +0100	[diff] [blame]	8833
				8834	if (WARN_ON_ONCE(!regs))
				8835	return;
				8836
				8837	perf_sample_data_init(&data, addr, 0);
				8838	do_perf_sw_event(PERF_TYPE_SOFTWARE, event_id, nr, &data, regs);
				8839	}
				8840
				8841	void __perf_sw_event(u32 event_id, u64 nr, struct pt_regs *regs, u64 addr)
				8842	{
Peter Zijlstra	4ed7c92	2009-11-23 11:37:29 +0100	[diff] [blame]	8843	int rctx;
				8844
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	8845	preempt_disable_notrace();
Peter Zijlstra	4ed7c92	2009-11-23 11:37:29 +0100	[diff] [blame]	8846	rctx = perf_swevent_get_recursion_context();
Peter Zijlstra (Intel)	86038c5	2014-12-16 12:47:34 +0100	[diff] [blame]	8847	if (unlikely(rctx < 0))
				8848	goto fail;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8849
Peter Zijlstra (Intel)	86038c5	2014-12-16 12:47:34 +0100	[diff] [blame]	8850	___perf_sw_event(event_id, nr, regs, addr);
Peter Zijlstra	4ed7c92	2009-11-23 11:37:29 +0100	[diff] [blame]	8851
				8852	perf_swevent_put_recursion_context(rctx);
Peter Zijlstra (Intel)	86038c5	2014-12-16 12:47:34 +0100	[diff] [blame]	8853	fail:
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	8854	preempt_enable_notrace();
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8855	}
				8856
				8857	static void perf_swevent_read(struct perf_event *event)
				8858	{
				8859	}
				8860
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	8861	static int perf_swevent_add(struct perf_event *event, int flags)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8862	{
Christoph Lameter	4a32fea	2014-08-17 12:30:27 -0500	[diff] [blame]	8863	struct swevent_htable *swhash = this_cpu_ptr(&swevent_htable);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8864	struct hw_perf_event *hwc = &event->hw;
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8865	struct hlist_head *head;
				8866
Franck Bui-Huu	6c7e550	2010-11-23 16:21:43 +0100	[diff] [blame]	8867	if (is_sampling_event(event)) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8868	hwc->last_period = hwc->sample_period;
				8869	perf_swevent_set_period(event);
				8870	}
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8871
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	8872	hwc->state = !(flags & PERF_EF_START);
				8873
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	8874	head = find_swevent_head(swhash, event);
Peter Zijlstra	12ca6ad	2015-12-15 13:49:05 +0100	[diff] [blame]	8875	if (WARN_ON_ONCE(!head))
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8876	return -EINVAL;
				8877
				8878	hlist_add_head_rcu(&event->hlist_entry, head);
Shaohua Li	6a694a6	2015-02-05 15:55:32 -0800	[diff] [blame]	8879	perf_event_update_userpage(event);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8880
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8881	return 0;
				8882	}
				8883
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	8884	static void perf_swevent_del(struct perf_event *event, int flags)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8885	{
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8886	hlist_del_rcu(&event->hlist_entry);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8887	}
				8888
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	8889	static void perf_swevent_start(struct perf_event *event, int flags)
Peter Zijlstra	c6df8d5	2010-06-03 11:21:20 +0200	[diff] [blame]	8890	{
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	8891	event->hw.state = 0;
Peter Zijlstra	c6df8d5	2010-06-03 11:21:20 +0200	[diff] [blame]	8892	}
				8893
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	8894	static void perf_swevent_stop(struct perf_event *event, int flags)
Peter Zijlstra	c6df8d5	2010-06-03 11:21:20 +0200	[diff] [blame]	8895	{
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	8896	event->hw.state = PERF_HES_STOPPED;
Peter Zijlstra	c6df8d5	2010-06-03 11:21:20 +0200	[diff] [blame]	8897	}
				8898
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	8899	/* Deref the hlist from the update side */
				8900	static inline struct swevent_hlist *
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	8901	swevent_hlist_deref(struct swevent_htable *swhash)
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	8902	{
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	8903	return rcu_dereference_protected(swhash->swevent_hlist,
				8904	lockdep_is_held(&swhash->hlist_mutex));
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	8905	}
				8906
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	8907	static void swevent_hlist_release(struct swevent_htable *swhash)
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8908	{
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	8909	struct swevent_hlist *hlist = swevent_hlist_deref(swhash);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8910
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	8911	if (!hlist)
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8912	return;
				8913
Andreea-Cristina Bernat	70691d4	2014-08-22 16:26:05 +0300	[diff] [blame]	8914	RCU_INIT_POINTER(swhash->swevent_hlist, NULL);
Lai Jiangshan	fa4bbc4	2011-03-18 12:08:29 +0800	[diff] [blame]	8915	kfree_rcu(hlist, rcu_head);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8916	}
				8917
Thomas Gleixner	3b364d7	2016-02-09 20:11:40 +0000	[diff] [blame]	8918	static void swevent_hlist_put_cpu(int cpu)
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8919	{
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	8920	struct swevent_htable *swhash = &per_cpu(swevent_htable, cpu);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8921
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	8922	mutex_lock(&swhash->hlist_mutex);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8923
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	8924	if (!--swhash->hlist_refcount)
				8925	swevent_hlist_release(swhash);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8926
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	8927	mutex_unlock(&swhash->hlist_mutex);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8928	}
				8929
Thomas Gleixner	3b364d7	2016-02-09 20:11:40 +0000	[diff] [blame]	8930	static void swevent_hlist_put(void)
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8931	{
				8932	int cpu;
				8933
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8934	for_each_possible_cpu(cpu)
Thomas Gleixner	3b364d7	2016-02-09 20:11:40 +0000	[diff] [blame]	8935	swevent_hlist_put_cpu(cpu);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8936	}
				8937
Thomas Gleixner	3b364d7	2016-02-09 20:11:40 +0000	[diff] [blame]	8938	static int swevent_hlist_get_cpu(int cpu)
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8939	{
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	8940	struct swevent_htable *swhash = &per_cpu(swevent_htable, cpu);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8941	int err = 0;
				8942
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	8943	mutex_lock(&swhash->hlist_mutex);
Thomas Gleixner	a63fbed	2017-05-24 10:15:34 +0200	[diff] [blame]	8944	if (!swevent_hlist_deref(swhash) &&
				8945	cpumask_test_cpu(cpu, perf_online_mask)) {
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8946	struct swevent_hlist *hlist;
				8947
				8948	hlist = kzalloc(sizeof(*hlist), GFP_KERNEL);
				8949	if (!hlist) {
				8950	err = -ENOMEM;
				8951	goto exit;
				8952	}
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	8953	rcu_assign_pointer(swhash->swevent_hlist, hlist);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8954	}
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	8955	swhash->hlist_refcount++;
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	8956	exit:
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	8957	mutex_unlock(&swhash->hlist_mutex);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8958
				8959	return err;
				8960	}
				8961
Thomas Gleixner	3b364d7	2016-02-09 20:11:40 +0000	[diff] [blame]	8962	static int swevent_hlist_get(void)
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8963	{
Thomas Gleixner	3b364d7	2016-02-09 20:11:40 +0000	[diff] [blame]	8964	int err, cpu, failed_cpu;
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8965
Thomas Gleixner	a63fbed	2017-05-24 10:15:34 +0200	[diff] [blame]	8966	mutex_lock(&pmus_lock);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8967	for_each_possible_cpu(cpu) {
Thomas Gleixner	3b364d7	2016-02-09 20:11:40 +0000	[diff] [blame]	8968	err = swevent_hlist_get_cpu(cpu);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8969	if (err) {
				8970	failed_cpu = cpu;
				8971	goto fail;
				8972	}
				8973	}
Thomas Gleixner	a63fbed	2017-05-24 10:15:34 +0200	[diff] [blame]	8974	mutex_unlock(&pmus_lock);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8975	return 0;
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	8976	fail:
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8977	for_each_possible_cpu(cpu) {
				8978	if (cpu == failed_cpu)
				8979	break;
Thomas Gleixner	3b364d7	2016-02-09 20:11:40 +0000	[diff] [blame]	8980	swevent_hlist_put_cpu(cpu);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8981	}
Thomas Gleixner	a63fbed	2017-05-24 10:15:34 +0200	[diff] [blame]	8982	mutex_unlock(&pmus_lock);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	8983	return err;
				8984	}
				8985
Ingo Molnar	c5905af	2012-02-24 08:31:31 +0100	[diff] [blame]	8986	struct static_key perf_swevent_enabled[PERF_COUNT_SW_MAX];
Frederic Weisbecker	95476b6	2010-04-14 23:42:18 +0200	[diff] [blame]	8987
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8988	static void sw_perf_event_destroy(struct perf_event *event)
				8989	{
				8990	u64 event_id = event->attr.config;
				8991
				8992	WARN_ON(event->parent);
				8993
Ingo Molnar	c5905af	2012-02-24 08:31:31 +0100	[diff] [blame]	8994	static_key_slow_dec(&perf_swevent_enabled[event_id]);
Thomas Gleixner	3b364d7	2016-02-09 20:11:40 +0000	[diff] [blame]	8995	swevent_hlist_put();
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8996	}
				8997
				8998	static int perf_swevent_init(struct perf_event *event)
				8999	{
Tommi Rantala	8176cce	2013-04-13 22:49:14 +0300	[diff] [blame]	9000	u64 event_id = event->attr.config;
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9001
				9002	if (event->attr.type != PERF_TYPE_SOFTWARE)
				9003	return -ENOENT;
				9004
Stephane Eranian	2481c5f	2012-02-09 23:20:59 +0100	[diff] [blame]	9005	/*
				9006	* no branch sampling for software events
				9007	*/
				9008	if (has_branch_stack(event))
				9009	return -EOPNOTSUPP;
				9010
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9011	switch (event_id) {
				9012	case PERF_COUNT_SW_CPU_CLOCK:
				9013	case PERF_COUNT_SW_TASK_CLOCK:
				9014	return -ENOENT;
				9015
				9016	default:
				9017	break;
				9018	}
				9019
Dan Carpenter	ce67783	2010-10-24 21:50:42 +0200	[diff] [blame]	9020	if (event_id >= PERF_COUNT_SW_MAX)
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9021	return -ENOENT;
				9022
				9023	if (!event->parent) {
				9024	int err;
				9025
Thomas Gleixner	3b364d7	2016-02-09 20:11:40 +0000	[diff] [blame]	9026	err = swevent_hlist_get();
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9027	if (err)
				9028	return err;
				9029
Ingo Molnar	c5905af	2012-02-24 08:31:31 +0100	[diff] [blame]	9030	static_key_slow_inc(&perf_swevent_enabled[event_id]);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9031	event->destroy = sw_perf_event_destroy;
				9032	}
				9033
				9034	return 0;
				9035	}
				9036
				9037	static struct pmu perf_swevent = {
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	9038	.task_ctx_nr = perf_sw_context,
				9039
Peter Zijlstra	34f4392	2015-02-20 14:05:38 +0100	[diff] [blame]	9040	.capabilities = PERF_PMU_CAP_NO_NMI,
				9041
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9042	.event_init = perf_swevent_init,
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	9043	.add = perf_swevent_add,
				9044	.del = perf_swevent_del,
				9045	.start = perf_swevent_start,
				9046	.stop = perf_swevent_stop,
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	9047	.read = perf_swevent_read,
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	9048	};
Frederic Weisbecker	95476b6	2010-04-14 23:42:18 +0200	[diff] [blame]	9049
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9050	#ifdef CONFIG_EVENT_TRACING
				9051
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	9052	static int perf_tp_filter_match(struct perf_event *event,
Frederic Weisbecker	95476b6	2010-04-14 23:42:18 +0200	[diff] [blame]	9053	struct perf_sample_data *data)
				9054	{
Daniel Borkmann	7e3f977	2016-07-14 18:08:03 +0200	[diff] [blame]	9055	void *record = data->raw->frag.data;
Frederic Weisbecker	95476b6	2010-04-14 23:42:18 +0200	[diff] [blame]	9056
Peter Zijlstra	b71b437	2015-11-02 10:50:51 +0100	[diff] [blame]	9057	/* only top level events have filters set */
				9058	if (event->parent)
				9059	event = event->parent;
				9060
Frederic Weisbecker	95476b6	2010-04-14 23:42:18 +0200	[diff] [blame]	9061	if (likely(!event->filter) \|\| filter_match_preds(event->filter, record))
				9062	return 1;
				9063	return 0;
				9064	}
				9065
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	9066	static int perf_tp_event_match(struct perf_event *event,
				9067	struct perf_sample_data *data,
				9068	struct pt_regs *regs)
				9069	{
Frederic Weisbecker	a0f7d0f	2011-03-07 21:27:09 +0100	[diff] [blame]	9070	if (event->hw.state & PERF_HES_STOPPED)
				9071	return 0;
Peter Zijlstra	580d607	2010-05-20 20:54:31 +0200	[diff] [blame]	9072	/*
Song Liu	9fd2e48	2019-05-07 09:15:45 -0700	[diff] [blame]	9073	* If exclude_kernel, only trace user-space tracepoints (uprobes)
Peter Zijlstra	580d607	2010-05-20 20:54:31 +0200	[diff] [blame]	9074	*/
Song Liu	9fd2e48	2019-05-07 09:15:45 -0700	[diff] [blame]	9075	if (event->attr.exclude_kernel && !user_mode(regs))
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	9076	return 0;
				9077
				9078	if (!perf_tp_filter_match(event, data))
				9079	return 0;
				9080
				9081	return 1;
				9082	}
				9083
Alexei Starovoitov	85b67bc	2016-04-18 20:11:50 -0700	[diff] [blame]	9084	void perf_trace_run_bpf_submit(void *raw_data, int size, int rctx,
				9085	struct trace_event_call *call, u64 count,
				9086	struct pt_regs regs, struct hlist_head head,
				9087	struct task_struct *task)
				9088	{
Yonghong Song	e87c6bc	2017-10-23 23:53:08 -0700	[diff] [blame]	9089	if (bpf_prog_array_valid(call)) {
Alexei Starovoitov	85b67bc	2016-04-18 20:11:50 -0700	[diff] [blame]	9090	(struct pt_regs *)raw_data = regs;
Yonghong Song	e87c6bc	2017-10-23 23:53:08 -0700	[diff] [blame]	9091	if (!trace_call_bpf(call, raw_data) \|\| hlist_empty(head)) {
Alexei Starovoitov	85b67bc	2016-04-18 20:11:50 -0700	[diff] [blame]	9092	perf_swevent_put_recursion_context(rctx);
				9093	return;
				9094	}
				9095	}
				9096	perf_tp_event(call->event.type, count, raw_data, size, regs, head,
Peter Zijlstra	8fd0fbb	2017-10-11 09:45:29 +0200	[diff] [blame]	9097	rctx, task);
Alexei Starovoitov	85b67bc	2016-04-18 20:11:50 -0700	[diff] [blame]	9098	}
				9099	EXPORT_SYMBOL_GPL(perf_trace_run_bpf_submit);
				9100
Alexei Starovoitov	1e1dcd9	2016-04-06 18:43:24 -0700	[diff] [blame]	9101	void perf_tp_event(u16 event_type, u64 count, void *record, int entry_size,
Andrew Vagin	e6dab5f	2012-07-11 18:14:58 +0400	[diff] [blame]	9102	struct pt_regs regs, struct hlist_head head, int rctx,
Peter Zijlstra	8fd0fbb	2017-10-11 09:45:29 +0200	[diff] [blame]	9103	struct task_struct *task)
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	9104	{
				9105	struct perf_sample_data data;
Peter Zijlstra	8fd0fbb	2017-10-11 09:45:29 +0200	[diff] [blame]	9106	struct perf_event *event;
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	9107
				9108	struct perf_raw_record raw = {
Daniel Borkmann	7e3f977	2016-07-14 18:08:03 +0200	[diff] [blame]	9109	.frag = {
				9110	.size = entry_size,
				9111	.data = record,
				9112	},
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	9113	};
				9114
Alexei Starovoitov	1e1dcd9	2016-04-06 18:43:24 -0700	[diff] [blame]	9115	perf_sample_data_init(&data, 0, 0);
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	9116	data.raw = &raw;
				9117
Alexei Starovoitov	1e1dcd9	2016-04-06 18:43:24 -0700	[diff] [blame]	9118	perf_trace_buf_update(record, event_type);
				9119
Peter Zijlstra	8fd0fbb	2017-10-11 09:45:29 +0200	[diff] [blame]	9120	hlist_for_each_entry_rcu(event, head, hlist_entry) {
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	9121	if (perf_tp_event_match(event, &data, regs))
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	9122	perf_swevent_event(event, count, &data, regs);
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	9123	}
Peter Zijlstra	ecc55f8	2010-05-21 15:11:34 +0200	[diff] [blame]	9124
Andrew Vagin	e6dab5f	2012-07-11 18:14:58 +0400	[diff] [blame]	9125	/*
				9126	* If we got specified a target task, also iterate its context and
				9127	* deliver this event there too.
				9128	*/
				9129	if (task && task != current) {
				9130	struct perf_event_context *ctx;
				9131	struct trace_entry *entry = record;
				9132
				9133	rcu_read_lock();
				9134	ctx = rcu_dereference(task->perf_event_ctxp[perf_sw_context]);
				9135	if (!ctx)
				9136	goto unlock;
				9137
				9138	list_for_each_entry_rcu(event, &ctx->event_list, event_entry) {
Jiri Olsa	cd6fb677	2018-09-23 18:13:43 +0200	[diff] [blame]	9139	if (event->cpu != smp_processor_id())
				9140	continue;
Andrew Vagin	e6dab5f	2012-07-11 18:14:58 +0400	[diff] [blame]	9141	if (event->attr.type != PERF_TYPE_TRACEPOINT)
				9142	continue;
				9143	if (event->attr.config != entry->type)
				9144	continue;
				9145	if (perf_tp_event_match(event, &data, regs))
				9146	perf_swevent_event(event, count, &data, regs);
				9147	}
				9148	unlock:
				9149	rcu_read_unlock();
				9150	}
				9151
Peter Zijlstra	ecc55f8	2010-05-21 15:11:34 +0200	[diff] [blame]	9152	perf_swevent_put_recursion_context(rctx);
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	9153	}
				9154	EXPORT_SYMBOL_GPL(perf_tp_event);
				9155
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9156	static void tp_perf_event_destroy(struct perf_event *event)
				9157	{
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	9158	perf_trace_destroy(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9159	}
				9160
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9161	static int perf_tp_event_init(struct perf_event *event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9162	{
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	9163	int err;
				9164
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9165	if (event->attr.type != PERF_TYPE_TRACEPOINT)
				9166	return -ENOENT;
				9167
Stephane Eranian	2481c5f	2012-02-09 23:20:59 +0100	[diff] [blame]	9168	/*
				9169	* no branch sampling for tracepoint events
				9170	*/
				9171	if (has_branch_stack(event))
				9172	return -EOPNOTSUPP;
				9173
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	9174	err = perf_trace_init(event);
				9175	if (err)
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9176	return err;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9177
				9178	event->destroy = tp_perf_event_destroy;
				9179
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9180	return 0;
				9181	}
				9182
				9183	static struct pmu perf_tracepoint = {
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	9184	.task_ctx_nr = perf_sw_context,
				9185
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9186	.event_init = perf_tp_event_init,
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	9187	.add = perf_trace_add,
				9188	.del = perf_trace_del,
				9189	.start = perf_swevent_start,
				9190	.stop = perf_swevent_stop,
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9191	.read = perf_swevent_read,
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9192	};
				9193
Song Liu	33ea4b2	2017-12-06 14:45:16 -0800	[diff] [blame]	9194	#if defined(CONFIG_KPROBE_EVENTS) \|\| defined(CONFIG_UPROBE_EVENTS)
Song Liu	e12f03d	2017-12-06 14:45:15 -0800	[diff] [blame]	9195	/*
				9196	* Flags in config, used by dynamic PMU kprobe and uprobe
				9197	* The flags should match following PMU_FORMAT_ATTR().
				9198	*
				9199	* PERF_PROBE_CONFIG_IS_RETPROBE if set, create kretprobe/uretprobe
				9200	* if not set, create kprobe/uprobe
Song Liu	a6ca88b	2018-10-01 22:36:36 -0700	[diff] [blame]	9201	*
				9202	* The following values specify a reference counter (or semaphore in the
				9203	* terminology of tools like dtrace, systemtap, etc.) Userspace Statically
				9204	* Defined Tracepoints (USDT). Currently, we use 40 bit for the offset.
				9205	*
				9206	* PERF_UPROBE_REF_CTR_OFFSET_BITS # of bits in config as th offset
				9207	* PERF_UPROBE_REF_CTR_OFFSET_SHIFT # of bits to shift left
Song Liu	e12f03d	2017-12-06 14:45:15 -0800	[diff] [blame]	9208	*/
				9209	enum perf_probe_config {
				9210	PERF_PROBE_CONFIG_IS_RETPROBE = 1U << 0, /* [k,u]retprobe */
Song Liu	a6ca88b	2018-10-01 22:36:36 -0700	[diff] [blame]	9211	PERF_UPROBE_REF_CTR_OFFSET_BITS = 32,
				9212	PERF_UPROBE_REF_CTR_OFFSET_SHIFT = 64 - PERF_UPROBE_REF_CTR_OFFSET_BITS,
Song Liu	e12f03d	2017-12-06 14:45:15 -0800	[diff] [blame]	9213	};
				9214
				9215	PMU_FORMAT_ATTR(retprobe, "config:0");
Song Liu	a6ca88b	2018-10-01 22:36:36 -0700	[diff] [blame]	9216	#endif
Song Liu	e12f03d	2017-12-06 14:45:15 -0800	[diff] [blame]	9217
Song Liu	a6ca88b	2018-10-01 22:36:36 -0700	[diff] [blame]	9218	#ifdef CONFIG_KPROBE_EVENTS
				9219	static struct attribute *kprobe_attrs[] = {
Song Liu	e12f03d	2017-12-06 14:45:15 -0800	[diff] [blame]	9220	&format_attr_retprobe.attr,
				9221	NULL,
				9222	};
				9223
Song Liu	a6ca88b	2018-10-01 22:36:36 -0700	[diff] [blame]	9224	static struct attribute_group kprobe_format_group = {
Song Liu	e12f03d	2017-12-06 14:45:15 -0800	[diff] [blame]	9225	.name = "format",
Song Liu	a6ca88b	2018-10-01 22:36:36 -0700	[diff] [blame]	9226	.attrs = kprobe_attrs,
Song Liu	e12f03d	2017-12-06 14:45:15 -0800	[diff] [blame]	9227	};
				9228
Song Liu	a6ca88b	2018-10-01 22:36:36 -0700	[diff] [blame]	9229	static const struct attribute_group *kprobe_attr_groups[] = {
				9230	&kprobe_format_group,
Song Liu	e12f03d	2017-12-06 14:45:15 -0800	[diff] [blame]	9231	NULL,
				9232	};
				9233
				9234	static int perf_kprobe_event_init(struct perf_event *event);
				9235	static struct pmu perf_kprobe = {
				9236	.task_ctx_nr = perf_sw_context,
				9237	.event_init = perf_kprobe_event_init,
				9238	.add = perf_trace_add,
				9239	.del = perf_trace_del,
				9240	.start = perf_swevent_start,
				9241	.stop = perf_swevent_stop,
				9242	.read = perf_swevent_read,
Song Liu	a6ca88b	2018-10-01 22:36:36 -0700	[diff] [blame]	9243	.attr_groups = kprobe_attr_groups,
Song Liu	e12f03d	2017-12-06 14:45:15 -0800	[diff] [blame]	9244	};
				9245
				9246	static int perf_kprobe_event_init(struct perf_event *event)
				9247	{
				9248	int err;
				9249	bool is_retprobe;
				9250
				9251	if (event->attr.type != perf_kprobe.type)
				9252	return -ENOENT;
Song Liu	32e6e96	2018-04-11 18:02:37 +0000	[diff] [blame]	9253
				9254	if (!capable(CAP_SYS_ADMIN))
				9255	return -EACCES;
				9256
Song Liu	e12f03d	2017-12-06 14:45:15 -0800	[diff] [blame]	9257	/*
				9258	* no branch sampling for probe events
				9259	*/
				9260	if (has_branch_stack(event))
				9261	return -EOPNOTSUPP;
				9262
				9263	is_retprobe = event->attr.config & PERF_PROBE_CONFIG_IS_RETPROBE;
				9264	err = perf_kprobe_init(event, is_retprobe);
				9265	if (err)
				9266	return err;
				9267
				9268	event->destroy = perf_kprobe_destroy;
				9269
				9270	return 0;
				9271	}
				9272	#endif /* CONFIG_KPROBE_EVENTS */
				9273
Song Liu	33ea4b2	2017-12-06 14:45:16 -0800	[diff] [blame]	9274	#ifdef CONFIG_UPROBE_EVENTS
Song Liu	a6ca88b	2018-10-01 22:36:36 -0700	[diff] [blame]	9275	PMU_FORMAT_ATTR(ref_ctr_offset, "config:32-63");
				9276
				9277	static struct attribute *uprobe_attrs[] = {
				9278	&format_attr_retprobe.attr,
				9279	&format_attr_ref_ctr_offset.attr,
				9280	NULL,
				9281	};
				9282
				9283	static struct attribute_group uprobe_format_group = {
				9284	.name = "format",
				9285	.attrs = uprobe_attrs,
				9286	};
				9287
				9288	static const struct attribute_group *uprobe_attr_groups[] = {
				9289	&uprobe_format_group,
				9290	NULL,
				9291	};
				9292
Song Liu	33ea4b2	2017-12-06 14:45:16 -0800	[diff] [blame]	9293	static int perf_uprobe_event_init(struct perf_event *event);
				9294	static struct pmu perf_uprobe = {
				9295	.task_ctx_nr = perf_sw_context,
				9296	.event_init = perf_uprobe_event_init,
				9297	.add = perf_trace_add,
				9298	.del = perf_trace_del,
				9299	.start = perf_swevent_start,
				9300	.stop = perf_swevent_stop,
				9301	.read = perf_swevent_read,
Song Liu	a6ca88b	2018-10-01 22:36:36 -0700	[diff] [blame]	9302	.attr_groups = uprobe_attr_groups,
Song Liu	33ea4b2	2017-12-06 14:45:16 -0800	[diff] [blame]	9303	};
				9304
				9305	static int perf_uprobe_event_init(struct perf_event *event)
				9306	{
				9307	int err;
Song Liu	a6ca88b	2018-10-01 22:36:36 -0700	[diff] [blame]	9308	unsigned long ref_ctr_offset;
Song Liu	33ea4b2	2017-12-06 14:45:16 -0800	[diff] [blame]	9309	bool is_retprobe;
				9310
				9311	if (event->attr.type != perf_uprobe.type)
				9312	return -ENOENT;
Song Liu	32e6e96	2018-04-11 18:02:37 +0000	[diff] [blame]	9313
				9314	if (!capable(CAP_SYS_ADMIN))
				9315	return -EACCES;
				9316
Song Liu	33ea4b2	2017-12-06 14:45:16 -0800	[diff] [blame]	9317	/*
				9318	* no branch sampling for probe events
				9319	*/
				9320	if (has_branch_stack(event))
				9321	return -EOPNOTSUPP;
				9322
				9323	is_retprobe = event->attr.config & PERF_PROBE_CONFIG_IS_RETPROBE;
Song Liu	a6ca88b	2018-10-01 22:36:36 -0700	[diff] [blame]	9324	ref_ctr_offset = event->attr.config >> PERF_UPROBE_REF_CTR_OFFSET_SHIFT;
				9325	err = perf_uprobe_init(event, ref_ctr_offset, is_retprobe);
Song Liu	33ea4b2	2017-12-06 14:45:16 -0800	[diff] [blame]	9326	if (err)
				9327	return err;
				9328
				9329	event->destroy = perf_uprobe_destroy;
				9330
				9331	return 0;
				9332	}
				9333	#endif /* CONFIG_UPROBE_EVENTS */
				9334
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9335	static inline void perf_tp_register(void)
				9336	{
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	9337	perf_pmu_register(&perf_tracepoint, "tracepoint", PERF_TYPE_TRACEPOINT);
Song Liu	e12f03d	2017-12-06 14:45:15 -0800	[diff] [blame]	9338	#ifdef CONFIG_KPROBE_EVENTS
				9339	perf_pmu_register(&perf_kprobe, "kprobe", -1);
				9340	#endif
Song Liu	33ea4b2	2017-12-06 14:45:16 -0800	[diff] [blame]	9341	#ifdef CONFIG_UPROBE_EVENTS
				9342	perf_pmu_register(&perf_uprobe, "uprobe", -1);
				9343	#endif
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9344	}
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	9345
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	9346	static void perf_event_free_filter(struct perf_event *event)
				9347	{
				9348	ftrace_profile_free_filter(event);
				9349	}
				9350
Alexei Starovoitov	aa6a5f3	2016-09-01 18:37:24 -0700	[diff] [blame]	9351	#ifdef CONFIG_BPF_SYSCALL
				9352	static void bpf_overflow_handler(struct perf_event *event,
				9353	struct perf_sample_data *data,
				9354	struct pt_regs *regs)
				9355	{
				9356	struct bpf_perf_event_data_kern ctx = {
				9357	.data = data,
Yonghong Song	7d9285e	2017-10-05 09:19:19 -0700	[diff] [blame]	9358	.event = event,
Alexei Starovoitov	aa6a5f3	2016-09-01 18:37:24 -0700	[diff] [blame]	9359	};
				9360	int ret = 0;
				9361
Hendrik Brueckner	c895f6f	2017-12-04 10:56:44 +0100	[diff] [blame]	9362	ctx.regs = perf_arch_bpf_user_pt_regs(regs);
Alexei Starovoitov	aa6a5f3	2016-09-01 18:37:24 -0700	[diff] [blame]	9363	preempt_disable();
				9364	if (unlikely(__this_cpu_inc_return(bpf_prog_active) != 1))
				9365	goto out;
				9366	rcu_read_lock();
Daniel Borkmann	8857519	2016-11-26 01:28:04 +0100	[diff] [blame]	9367	ret = BPF_PROG_RUN(event->prog, &ctx);
Alexei Starovoitov	aa6a5f3	2016-09-01 18:37:24 -0700	[diff] [blame]	9368	rcu_read_unlock();
				9369	out:
				9370	__this_cpu_dec(bpf_prog_active);
				9371	preempt_enable();
				9372	if (!ret)
				9373	return;
				9374
				9375	event->orig_overflow_handler(event, data, regs);
				9376	}
				9377
				9378	static int perf_event_set_bpf_handler(struct perf_event *event, u32 prog_fd)
				9379	{
				9380	struct bpf_prog *prog;
				9381
				9382	if (event->overflow_handler_context)
				9383	/* hw breakpoint or kernel counter */
				9384	return -EINVAL;
				9385
				9386	if (event->prog)
				9387	return -EEXIST;
				9388
				9389	prog = bpf_prog_get_type(prog_fd, BPF_PROG_TYPE_PERF_EVENT);
				9390	if (IS_ERR(prog))
				9391	return PTR_ERR(prog);
				9392
				9393	event->prog = prog;
				9394	event->orig_overflow_handler = READ_ONCE(event->overflow_handler);
				9395	WRITE_ONCE(event->overflow_handler, bpf_overflow_handler);
				9396	return 0;
				9397	}
				9398
				9399	static void perf_event_free_bpf_handler(struct perf_event *event)
				9400	{
				9401	struct bpf_prog *prog = event->prog;
				9402
				9403	if (!prog)
				9404	return;
				9405
				9406	WRITE_ONCE(event->overflow_handler, event->orig_overflow_handler);
				9407	event->prog = NULL;
				9408	bpf_prog_put(prog);
				9409	}
				9410	#else
				9411	static int perf_event_set_bpf_handler(struct perf_event *event, u32 prog_fd)
				9412	{
				9413	return -EOPNOTSUPP;
				9414	}
				9415	static void perf_event_free_bpf_handler(struct perf_event *event)
				9416	{
				9417	}
				9418	#endif
				9419
Song Liu	e12f03d	2017-12-06 14:45:15 -0800	[diff] [blame]	9420	/*
				9421	* returns true if the event is a tracepoint, or a kprobe/upprobe created
				9422	* with perf_event_open()
				9423	*/
				9424	static inline bool perf_event_is_tracing(struct perf_event *event)
				9425	{
				9426	if (event->pmu == &perf_tracepoint)
				9427	return true;
				9428	#ifdef CONFIG_KPROBE_EVENTS
				9429	if (event->pmu == &perf_kprobe)
				9430	return true;
				9431	#endif
Song Liu	33ea4b2	2017-12-06 14:45:16 -0800	[diff] [blame]	9432	#ifdef CONFIG_UPROBE_EVENTS
				9433	if (event->pmu == &perf_uprobe)
				9434	return true;
				9435	#endif
Song Liu	e12f03d	2017-12-06 14:45:15 -0800	[diff] [blame]	9436	return false;
				9437	}
				9438
Alexei Starovoitov	2541517	2015-03-25 12:49:20 -0700	[diff] [blame]	9439	static int perf_event_set_bpf_prog(struct perf_event *event, u32 prog_fd)
				9440	{
Yonghong Song	cf5f5ce	2017-08-04 16:00:09 -0700	[diff] [blame]	9441	bool is_kprobe, is_tracepoint, is_syscall_tp;
Alexei Starovoitov	2541517	2015-03-25 12:49:20 -0700	[diff] [blame]	9442	struct bpf_prog *prog;
Yonghong Song	e87c6bc	2017-10-23 23:53:08 -0700	[diff] [blame]	9443	int ret;
Alexei Starovoitov	2541517	2015-03-25 12:49:20 -0700	[diff] [blame]	9444
Song Liu	e12f03d	2017-12-06 14:45:15 -0800	[diff] [blame]	9445	if (!perf_event_is_tracing(event))
Alexei Starovoitov	f91840a	2017-06-02 21:03:52 -0700	[diff] [blame]	9446	return perf_event_set_bpf_handler(event, prog_fd);
Alexei Starovoitov	2541517	2015-03-25 12:49:20 -0700	[diff] [blame]	9447
Alexei Starovoitov	98b5c2c	2016-04-06 18:43:25 -0700	[diff] [blame]	9448	is_kprobe = event->tp_event->flags & TRACE_EVENT_FL_UKPROBE;
				9449	is_tracepoint = event->tp_event->flags & TRACE_EVENT_FL_TRACEPOINT;
Yonghong Song	cf5f5ce	2017-08-04 16:00:09 -0700	[diff] [blame]	9450	is_syscall_tp = is_syscall_trace_event(event->tp_event);
				9451	if (!is_kprobe && !is_tracepoint && !is_syscall_tp)
Alexei Starovoitov	98b5c2c	2016-04-06 18:43:25 -0700	[diff] [blame]	9452	/* bpf programs can only be attached to u/kprobe or tracepoint */
Alexei Starovoitov	2541517	2015-03-25 12:49:20 -0700	[diff] [blame]	9453	return -EINVAL;
				9454
				9455	prog = bpf_prog_get(prog_fd);
				9456	if (IS_ERR(prog))
				9457	return PTR_ERR(prog);
				9458
Alexei Starovoitov	98b5c2c	2016-04-06 18:43:25 -0700	[diff] [blame]	9459	if ((is_kprobe && prog->type != BPF_PROG_TYPE_KPROBE) \|\|
Yonghong Song	cf5f5ce	2017-08-04 16:00:09 -0700	[diff] [blame]	9460	(is_tracepoint && prog->type != BPF_PROG_TYPE_TRACEPOINT) \|\|
				9461	(is_syscall_tp && prog->type != BPF_PROG_TYPE_TRACEPOINT)) {
Alexei Starovoitov	2541517	2015-03-25 12:49:20 -0700	[diff] [blame]	9462	/* valid fd, but invalid bpf program type */
				9463	bpf_prog_put(prog);
				9464	return -EINVAL;
				9465	}
				9466
Josef Bacik	9802d86	2017-12-11 11:36:48 -0500	[diff] [blame]	9467	/* Kprobe override only works for kprobes, not uprobes. */
				9468	if (prog->kprobe_override &&
				9469	!(event->tp_event->flags & TRACE_EVENT_FL_KPROBE)) {
				9470	bpf_prog_put(prog);
				9471	return -EINVAL;
				9472	}
				9473
Yonghong Song	cf5f5ce	2017-08-04 16:00:09 -0700	[diff] [blame]	9474	if (is_tracepoint \|\| is_syscall_tp) {
Alexei Starovoitov	32bbe00	2016-04-06 18:43:28 -0700	[diff] [blame]	9475	int off = trace_event_get_offsets(event->tp_event);
				9476
				9477	if (prog->aux->max_ctx_offset > off) {
				9478	bpf_prog_put(prog);
				9479	return -EACCES;
				9480	}
				9481	}
Alexei Starovoitov	2541517	2015-03-25 12:49:20 -0700	[diff] [blame]	9482
Yonghong Song	e87c6bc	2017-10-23 23:53:08 -0700	[diff] [blame]	9483	ret = perf_event_attach_bpf_prog(event, prog);
				9484	if (ret)
				9485	bpf_prog_put(prog);
				9486	return ret;
Alexei Starovoitov	2541517	2015-03-25 12:49:20 -0700	[diff] [blame]	9487	}
				9488
				9489	static void perf_event_free_bpf_prog(struct perf_event *event)
				9490	{
Song Liu	e12f03d	2017-12-06 14:45:15 -0800	[diff] [blame]	9491	if (!perf_event_is_tracing(event)) {
Yonghong Song	0b4c684	2017-10-23 23:53:07 -0700	[diff] [blame]	9492	perf_event_free_bpf_handler(event);
Alexei Starovoitov	2541517	2015-03-25 12:49:20 -0700	[diff] [blame]	9493	return;
Alexei Starovoitov	2541517	2015-03-25 12:49:20 -0700	[diff] [blame]	9494	}
Yonghong Song	e87c6bc	2017-10-23 23:53:08 -0700	[diff] [blame]	9495	perf_event_detach_bpf_prog(event);
Alexei Starovoitov	2541517	2015-03-25 12:49:20 -0700	[diff] [blame]	9496	}
				9497
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9498	#else
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	9499
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9500	static inline void perf_tp_register(void)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9501	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9502	}
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	9503
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	9504	static void perf_event_free_filter(struct perf_event *event)
				9505	{
				9506	}
				9507
Alexei Starovoitov	2541517	2015-03-25 12:49:20 -0700	[diff] [blame]	9508	static int perf_event_set_bpf_prog(struct perf_event *event, u32 prog_fd)
				9509	{
				9510	return -ENOENT;
				9511	}
				9512
				9513	static void perf_event_free_bpf_prog(struct perf_event *event)
				9514	{
				9515	}
Li Zefan	07b139c	2009-12-21 14:27:35 +0800	[diff] [blame]	9516	#endif /* CONFIG_EVENT_TRACING */
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9517
Frederic Weisbecker	24f1e32c	2009-09-09 19:22:48 +0200	[diff] [blame]	9518	#ifdef CONFIG_HAVE_HW_BREAKPOINT
Frederic Weisbecker	f5ffe02	2009-11-23 15:42:34 +0100	[diff] [blame]	9519	void perf_bp_event(struct perf_event bp, void data)
Frederic Weisbecker	24f1e32c	2009-09-09 19:22:48 +0200	[diff] [blame]	9520	{
Frederic Weisbecker	f5ffe02	2009-11-23 15:42:34 +0100	[diff] [blame]	9521	struct perf_sample_data sample;
				9522	struct pt_regs *regs = data;
				9523
Robert Richter	fd0d000	2012-04-02 20:19:08 +0200	[diff] [blame]	9524	perf_sample_data_init(&sample, bp->attr.bp_addr, 0);
Frederic Weisbecker	f5ffe02	2009-11-23 15:42:34 +0100	[diff] [blame]	9525
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	9526	if (!bp->hw.state && !perf_exclude_event(bp, regs))
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	9527	perf_swevent_event(bp, 1, &sample, regs);
Frederic Weisbecker	24f1e32c	2009-09-09 19:22:48 +0200	[diff] [blame]	9528	}
				9529	#endif
				9530
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9531	/*
				9532	* Allocate a new address filter
				9533	*/
				9534	static struct perf_addr_filter *
				9535	perf_addr_filter_new(struct perf_event event, struct list_head filters)
				9536	{
				9537	int node = cpu_to_node(event->cpu == -1 ? 0 : event->cpu);
				9538	struct perf_addr_filter *filter;
				9539
				9540	filter = kzalloc_node(sizeof(*filter), GFP_KERNEL, node);
				9541	if (!filter)
				9542	return NULL;
				9543
				9544	INIT_LIST_HEAD(&filter->entry);
				9545	list_add_tail(&filter->entry, filters);
				9546
				9547	return filter;
				9548	}
				9549
				9550	static void free_filters_list(struct list_head *filters)
				9551	{
				9552	struct perf_addr_filter filter, iter;
				9553
				9554	list_for_each_entry_safe(filter, iter, filters, entry) {
Song Liu	9511bce	2018-04-17 23:29:07 -0700	[diff] [blame]	9555	path_put(&filter->path);
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9556	list_del(&filter->entry);
				9557	kfree(filter);
				9558	}
				9559	}
				9560
				9561	/*
				9562	* Free existing address filters and optionally install new ones
				9563	*/
				9564	static void perf_addr_filters_splice(struct perf_event *event,
				9565	struct list_head *head)
				9566	{
				9567	unsigned long flags;
				9568	LIST_HEAD(list);
				9569
				9570	if (!has_addr_filter(event))
				9571	return;
				9572
				9573	/* don't bother with children, they don't have their own filters */
				9574	if (event->parent)
				9575	return;
				9576
				9577	raw_spin_lock_irqsave(&event->addr_filters.lock, flags);
				9578
				9579	list_splice_init(&event->addr_filters.list, &list);
				9580	if (head)
				9581	list_splice(head, &event->addr_filters.list);
				9582
				9583	raw_spin_unlock_irqrestore(&event->addr_filters.lock, flags);
				9584
				9585	free_filters_list(&list);
				9586	}
				9587
				9588	/*
				9589	* Scan through mm's vmas and see if one of them matches the
				9590	* @filter; if so, adjust filter's address range.
				9591	* Called with mm::mmap_sem down for reading.
				9592	*/
Alexander Shishkin	c60f83b	2019-02-15 13:56:55 +0200	[diff] [blame]	9593	static void perf_addr_filter_apply(struct perf_addr_filter *filter,
				9594	struct mm_struct *mm,
				9595	struct perf_addr_filter_range *fr)
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9596	{
				9597	struct vm_area_struct *vma;
				9598
				9599	for (vma = mm->mmap; vma; vma = vma->vm_next) {
Alexander Shishkin	c60f83b	2019-02-15 13:56:55 +0200	[diff] [blame]	9600	if (!vma->vm_file)
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9601	continue;
				9602
Alexander Shishkin	c60f83b	2019-02-15 13:56:55 +0200	[diff] [blame]	9603	if (perf_addr_filter_vma_adjust(filter, vma, fr))
				9604	return;
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9605	}
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9606	}
				9607
				9608	/*
				9609	* Update event's address range filters based on the
				9610	* task's existing mappings, if any.
				9611	*/
				9612	static void perf_event_addr_filters_apply(struct perf_event *event)
				9613	{
				9614	struct perf_addr_filters_head *ifh = perf_event_addr_filters(event);
				9615	struct task_struct *task = READ_ONCE(event->ctx->task);
				9616	struct perf_addr_filter *filter;
				9617	struct mm_struct *mm = NULL;
				9618	unsigned int count = 0;
				9619	unsigned long flags;
				9620
				9621	/*
				9622	* We may observe TASK_TOMBSTONE, which means that the event tear-down
				9623	* will stop on the parent's child_mutex that our caller is also holding
				9624	*/
				9625	if (task == TASK_TOMBSTONE)
				9626	return;
				9627
Alexander Shishkin	52a44f8	2019-03-29 11:12:12 +0200	[diff] [blame]	9628	if (ifh->nr_file_filters) {
				9629	mm = get_task_mm(event->ctx->task);
				9630	if (!mm)
				9631	goto restart;
Alexander Shishkin	6ce77bf	2017-01-26 11:40:57 +0200	[diff] [blame]	9632
Alexander Shishkin	52a44f8	2019-03-29 11:12:12 +0200	[diff] [blame]	9633	down_read(&mm->mmap_sem);
				9634	}
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9635
				9636	raw_spin_lock_irqsave(&ifh->lock, flags);
				9637	list_for_each_entry(filter, &ifh->list, entry) {
Alexander Shishkin	52a44f8	2019-03-29 11:12:12 +0200	[diff] [blame]	9638	if (filter->path.dentry) {
				9639	/*
				9640	* Adjust base offset if the filter is associated to a
				9641	* binary that needs to be mapped:
				9642	*/
				9643	event->addr_filter_ranges[count].start = 0;
				9644	event->addr_filter_ranges[count].size = 0;
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9645
Alexander Shishkin	c60f83b	2019-02-15 13:56:55 +0200	[diff] [blame]	9646	perf_addr_filter_apply(filter, mm, &event->addr_filter_ranges[count]);
Alexander Shishkin	52a44f8	2019-03-29 11:12:12 +0200	[diff] [blame]	9647	} else {
				9648	event->addr_filter_ranges[count].start = filter->offset;
				9649	event->addr_filter_ranges[count].size = filter->size;
				9650	}
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9651
				9652	count++;
				9653	}
				9654
				9655	event->addr_filters_gen++;
				9656	raw_spin_unlock_irqrestore(&ifh->lock, flags);
				9657
Alexander Shishkin	52a44f8	2019-03-29 11:12:12 +0200	[diff] [blame]	9658	if (ifh->nr_file_filters) {
				9659	up_read(&mm->mmap_sem);
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9660
Alexander Shishkin	52a44f8	2019-03-29 11:12:12 +0200	[diff] [blame]	9661	mmput(mm);
				9662	}
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9663
				9664	restart:
Alexander Shishkin	767ae08	2016-09-06 16:23:49 +0300	[diff] [blame]	9665	perf_event_stop(event, 1);
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9666	}
				9667
				9668	/*
				9669	* Address range filtering: limiting the data to certain
				9670	* instruction address ranges. Filters are ioctl()ed to us from
				9671	* userspace as ascii strings.
				9672	*
				9673	* Filter string format:
				9674	*
				9675	* ACTION RANGE_SPEC
				9676	* where ACTION is one of the
				9677	* * "filter": limit the trace to this region
				9678	* * "start": start tracing from this address
				9679	* * "stop": stop tracing at this address/region;
				9680	* RANGE_SPEC is
				9681	* * for kernel addresses: <start address>[/<size>]
				9682	* * for object files: <start address>[/<size>]@</path/to/object/file>
				9683	*
Alexander Shishkin	6ed70cf	2018-03-29 15:06:48 +0300	[diff] [blame]	9684	* if <size> is not specified or is zero, the range is treated as a single
				9685	* address; not valid for ACTION=="filter".
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9686	*/
				9687	enum {
Alexander Shishkin	e96271f	2016-11-18 13:38:43 +0200	[diff] [blame]	9688	IF_ACT_NONE = -1,
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9689	IF_ACT_FILTER,
				9690	IF_ACT_START,
				9691	IF_ACT_STOP,
				9692	IF_SRC_FILE,
				9693	IF_SRC_KERNEL,
				9694	IF_SRC_FILEADDR,
				9695	IF_SRC_KERNELADDR,
				9696	};
				9697
				9698	enum {
				9699	IF_STATE_ACTION = 0,
				9700	IF_STATE_SOURCE,
				9701	IF_STATE_END,
				9702	};
				9703
				9704	static const match_table_t if_tokens = {
				9705	{ IF_ACT_FILTER, "filter" },
				9706	{ IF_ACT_START, "start" },
				9707	{ IF_ACT_STOP, "stop" },
				9708	{ IF_SRC_FILE, "%u/%u@%s" },
				9709	{ IF_SRC_KERNEL, "%u/%u" },
				9710	{ IF_SRC_FILEADDR, "%u@%s" },
				9711	{ IF_SRC_KERNELADDR, "%u" },
Alexander Shishkin	e96271f	2016-11-18 13:38:43 +0200	[diff] [blame]	9712	{ IF_ACT_NONE, NULL },
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9713	};
				9714
				9715	/*
				9716	* Address filter string parser
				9717	*/
				9718	static int
				9719	perf_event_parse_addr_filter(struct perf_event event, char fstr,
				9720	struct list_head *filters)
				9721	{
				9722	struct perf_addr_filter *filter = NULL;
				9723	char start, orig, *filename = NULL;
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9724	substring_t args[MAX_OPT_ARGS];
				9725	int state = IF_STATE_ACTION, token;
				9726	unsigned int kernel = 0;
				9727	int ret = -EINVAL;
				9728
				9729	orig = fstr = kstrdup(fstr, GFP_KERNEL);
				9730	if (!fstr)
				9731	return -ENOMEM;
				9732
				9733	while ((start = strsep(&fstr, " ,\n")) != NULL) {
Alexander Shishkin	6ed70cf	2018-03-29 15:06:48 +0300	[diff] [blame]	9734	static const enum perf_addr_filter_action_t actions[] = {
				9735	[IF_ACT_FILTER] = PERF_ADDR_FILTER_ACTION_FILTER,
				9736	[IF_ACT_START] = PERF_ADDR_FILTER_ACTION_START,
				9737	[IF_ACT_STOP] = PERF_ADDR_FILTER_ACTION_STOP,
				9738	};
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9739	ret = -EINVAL;
				9740
				9741	if (!*start)
				9742	continue;
				9743
				9744	/* filter definition begins */
				9745	if (state == IF_STATE_ACTION) {
				9746	filter = perf_addr_filter_new(event, filters);
				9747	if (!filter)
				9748	goto fail;
				9749	}
				9750
				9751	token = match_token(start, if_tokens, args);
				9752	switch (token) {
				9753	case IF_ACT_FILTER:
				9754	case IF_ACT_START:
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9755	case IF_ACT_STOP:
				9756	if (state != IF_STATE_ACTION)
				9757	goto fail;
				9758
Alexander Shishkin	6ed70cf	2018-03-29 15:06:48 +0300	[diff] [blame]	9759	filter->action = actions[token];
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9760	state = IF_STATE_SOURCE;
				9761	break;
				9762
				9763	case IF_SRC_KERNELADDR:
				9764	case IF_SRC_KERNEL:
				9765	kernel = 1;
Gustavo A. R. Silva	10c3405	2019-02-12 14:54:30 -0600	[diff] [blame]	9766	/* fall through */
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9767
				9768	case IF_SRC_FILEADDR:
				9769	case IF_SRC_FILE:
				9770	if (state != IF_STATE_SOURCE)
				9771	goto fail;
				9772
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9773	*args[0].to = 0;
				9774	ret = kstrtoul(args[0].from, 0, &filter->offset);
				9775	if (ret)
				9776	goto fail;
				9777
Alexander Shishkin	6ed70cf	2018-03-29 15:06:48 +0300	[diff] [blame]	9778	if (token == IF_SRC_KERNEL \|\| token == IF_SRC_FILE) {
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9779	*args[1].to = 0;
				9780	ret = kstrtoul(args[1].from, 0, &filter->size);
				9781	if (ret)
				9782	goto fail;
				9783	}
				9784
Mathieu Poirier	4059ffd	2016-07-18 10:43:05 -0600	[diff] [blame]	9785	if (token == IF_SRC_FILE \|\| token == IF_SRC_FILEADDR) {
Alexander Shishkin	6ed70cf	2018-03-29 15:06:48 +0300	[diff] [blame]	9786	int fpos = token == IF_SRC_FILE ? 2 : 1;
Mathieu Poirier	4059ffd	2016-07-18 10:43:05 -0600	[diff] [blame]	9787
				9788	filename = match_strdup(&args[fpos]);
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9789	if (!filename) {
				9790	ret = -ENOMEM;
				9791	goto fail;
				9792	}
				9793	}
				9794
				9795	state = IF_STATE_END;
				9796	break;
				9797
				9798	default:
				9799	goto fail;
				9800	}
				9801
				9802	/*
				9803	* Filter definition is fully parsed, validate and install it.
				9804	* Make sure that it doesn't contradict itself or the event's
				9805	* attribute.
				9806	*/
				9807	if (state == IF_STATE_END) {
Alexander Shishkin	9ccbfbb	2017-01-26 11:40:56 +0200	[diff] [blame]	9808	ret = -EINVAL;
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9809	if (kernel && event->attr.exclude_kernel)
				9810	goto fail;
				9811
Alexander Shishkin	6ed70cf	2018-03-29 15:06:48 +0300	[diff] [blame]	9812	/*
				9813	* ACTION "filter" must have a non-zero length region
				9814	* specified.
				9815	*/
				9816	if (filter->action == PERF_ADDR_FILTER_ACTION_FILTER &&
				9817	!filter->size)
				9818	goto fail;
				9819
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9820	if (!kernel) {
				9821	if (!filename)
				9822	goto fail;
				9823
Alexander Shishkin	6ce77bf	2017-01-26 11:40:57 +0200	[diff] [blame]	9824	/*
				9825	* For now, we only support file-based filters
				9826	* in per-task events; doing so for CPU-wide
				9827	* events requires additional context switching
				9828	* trickery, since same object code will be
				9829	* mapped at different virtual addresses in
				9830	* different processes.
				9831	*/
				9832	ret = -EOPNOTSUPP;
				9833	if (!event->ctx->task)
				9834	goto fail_free_name;
				9835
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9836	/* look up the path and grab its inode */
Song Liu	9511bce	2018-04-17 23:29:07 -0700	[diff] [blame]	9837	ret = kern_path(filename, LOOKUP_FOLLOW,
				9838	&filter->path);
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9839	if (ret)
				9840	goto fail_free_name;
				9841
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9842	kfree(filename);
				9843	filename = NULL;
				9844
				9845	ret = -EINVAL;
Song Liu	9511bce	2018-04-17 23:29:07 -0700	[diff] [blame]	9846	if (!filter->path.dentry \|\|
				9847	!S_ISREG(d_inode(filter->path.dentry)
				9848	->i_mode))
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9849	goto fail;
Alexander Shishkin	6ce77bf	2017-01-26 11:40:57 +0200	[diff] [blame]	9850
				9851	event->addr_filters.nr_file_filters++;
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9852	}
				9853
				9854	/* ready to consume more filters */
				9855	state = IF_STATE_ACTION;
				9856	filter = NULL;
				9857	}
				9858	}
				9859
				9860	if (state != IF_STATE_ACTION)
				9861	goto fail;
				9862
				9863	kfree(orig);
				9864
				9865	return 0;
				9866
				9867	fail_free_name:
				9868	kfree(filename);
				9869	fail:
				9870	free_filters_list(filters);
				9871	kfree(orig);
				9872
				9873	return ret;
				9874	}
				9875
				9876	static int
				9877	perf_event_set_addr_filter(struct perf_event event, char filter_str)
				9878	{
				9879	LIST_HEAD(filters);
				9880	int ret;
				9881
				9882	/*
				9883	* Since this is called in perf_ioctl() path, we're already holding
				9884	* ctx::mutex.
				9885	*/
				9886	lockdep_assert_held(&event->ctx->mutex);
				9887
				9888	if (WARN_ON_ONCE(event->parent))
				9889	return -EINVAL;
				9890
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9891	ret = perf_event_parse_addr_filter(event, filter_str, &filters);
				9892	if (ret)
Alexander Shishkin	6ce77bf	2017-01-26 11:40:57 +0200	[diff] [blame]	9893	goto fail_clear_files;
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9894
				9895	ret = event->pmu->addr_filters_validate(&filters);
Alexander Shishkin	6ce77bf	2017-01-26 11:40:57 +0200	[diff] [blame]	9896	if (ret)
				9897	goto fail_free_filters;
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9898
				9899	/* remove existing filters, if any */
				9900	perf_addr_filters_splice(event, &filters);
				9901
				9902	/* install new filters */
				9903	perf_event_for_each_child(event, perf_event_addr_filters_apply);
				9904
				9905	return ret;
Alexander Shishkin	6ce77bf	2017-01-26 11:40:57 +0200	[diff] [blame]	9906
				9907	fail_free_filters:
				9908	free_filters_list(&filters);
				9909
				9910	fail_clear_files:
				9911	event->addr_filters.nr_file_filters = 0;
				9912
				9913	return ret;
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9914	}
				9915
Alexander Shishkin	c796bbb	2016-04-27 18:44:42 +0300	[diff] [blame]	9916	static int perf_event_set_filter(struct perf_event event, void __user arg)
				9917	{
Alexander Shishkin	c796bbb	2016-04-27 18:44:42 +0300	[diff] [blame]	9918	int ret = -EINVAL;
Song Liu	e12f03d	2017-12-06 14:45:15 -0800	[diff] [blame]	9919	char *filter_str;
Alexander Shishkin	c796bbb	2016-04-27 18:44:42 +0300	[diff] [blame]	9920
				9921	filter_str = strndup_user(arg, PAGE_SIZE);
				9922	if (IS_ERR(filter_str))
				9923	return PTR_ERR(filter_str);
				9924
Song Liu	e12f03d	2017-12-06 14:45:15 -0800	[diff] [blame]	9925	#ifdef CONFIG_EVENT_TRACING
				9926	if (perf_event_is_tracing(event)) {
				9927	struct perf_event_context *ctx = event->ctx;
				9928
				9929	/*
				9930	* Beware, here be dragons!!
				9931	*
				9932	* the tracepoint muck will deadlock against ctx->mutex, but
				9933	* the tracepoint stuff does not actually need it. So
				9934	* temporarily drop ctx->mutex. As per perf_event_ctx_lock() we
				9935	* already have a reference on ctx.
				9936	*
				9937	* This can result in event getting moved to a different ctx,
				9938	* but that does not affect the tracepoint state.
				9939	*/
				9940	mutex_unlock(&ctx->mutex);
				9941	ret = ftrace_profile_set_filter(event, event->attr.config, filter_str);
				9942	mutex_lock(&ctx->mutex);
				9943	} else
				9944	#endif
				9945	if (has_addr_filter(event))
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9946	ret = perf_event_set_addr_filter(event, filter_str);
Alexander Shishkin	c796bbb	2016-04-27 18:44:42 +0300	[diff] [blame]	9947
				9948	kfree(filter_str);
				9949	return ret;
				9950	}
				9951
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9952	/*
				9953	* hrtimer based swevent callback
				9954	*/
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9955
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9956	static enum hrtimer_restart perf_swevent_hrtimer(struct hrtimer *hrtimer)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9957	{
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9958	enum hrtimer_restart ret = HRTIMER_RESTART;
				9959	struct perf_sample_data data;
				9960	struct pt_regs *regs;
				9961	struct perf_event *event;
				9962	u64 period;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9963
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9964	event = container_of(hrtimer, struct perf_event, hw.hrtimer);
Peter Zijlstra	ba3dd36	2011-02-15 12:41:46 +0100	[diff] [blame]	9965
				9966	if (event->state != PERF_EVENT_STATE_ACTIVE)
				9967	return HRTIMER_NORESTART;
				9968
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9969	event->pmu->read(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9970
Robert Richter	fd0d000	2012-04-02 20:19:08 +0200	[diff] [blame]	9971	perf_sample_data_init(&data, 0, event->hw.last_period);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9972	regs = get_irq_regs();
				9973
				9974	if (regs && !perf_exclude_event(event, regs)) {
Paul E. McKenney	77aeeeb	2011-11-10 16:02:52 -0800	[diff] [blame]	9975	if (!(event->attr.exclude_idle && is_idle_task(current)))
Robert Richter	33b07b8	2012-04-05 18:24:43 +0200	[diff] [blame]	9976	if (__perf_event_overflow(event, 1, &data, regs))
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9977	ret = HRTIMER_NORESTART;
				9978	}
				9979
				9980	period = max_t(u64, 10000, event->hw.sample_period);
				9981	hrtimer_forward_now(hrtimer, ns_to_ktime(period));
				9982
				9983	return ret;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9984	}
				9985
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9986	static void perf_swevent_start_hrtimer(struct perf_event *event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9987	{
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9988	struct hw_perf_event *hwc = &event->hw;
Franck Bui-Huu	5d508e8	2010-11-23 16:21:45 +0100	[diff] [blame]	9989	s64 period;
				9990
				9991	if (!is_sampling_event(event))
				9992	return;
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9993
Franck Bui-Huu	5d508e8	2010-11-23 16:21:45 +0100	[diff] [blame]	9994	period = local64_read(&hwc->period_left);
				9995	if (period) {
				9996	if (period < 0)
				9997	period = 10000;
Peter Zijlstra	fa407f3	2010-06-24 12:35:12 +0200	[diff] [blame]	9998
Franck Bui-Huu	5d508e8	2010-11-23 16:21:45 +0100	[diff] [blame]	9999	local64_set(&hwc->period_left, 0);
				10000	} else {
				10001	period = max_t(u64, 10000, hwc->sample_period);
				10002	}
Thomas Gleixner	3497d20	2015-04-14 21:09:03 +0000	[diff] [blame]	10003	hrtimer_start(&hwc->hrtimer, ns_to_ktime(period),
Sebastian Andrzej Siewior	30f9028	2019-07-26 20:30:53 +0200	[diff] [blame]	10004	HRTIMER_MODE_REL_PINNED_HARD);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10005	}
				10006
				10007	static void perf_swevent_cancel_hrtimer(struct perf_event *event)
				10008	{
				10009	struct hw_perf_event *hwc = &event->hw;
				10010
Franck Bui-Huu	6c7e550	2010-11-23 16:21:43 +0100	[diff] [blame]	10011	if (is_sampling_event(event)) {
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10012	ktime_t remaining = hrtimer_get_remaining(&hwc->hrtimer);
Peter Zijlstra	fa407f3	2010-06-24 12:35:12 +0200	[diff] [blame]	10013	local64_set(&hwc->period_left, ktime_to_ns(remaining));
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10014
				10015	hrtimer_cancel(&hwc->hrtimer);
				10016	}
				10017	}
				10018
Peter Zijlstra	ba3dd36	2011-02-15 12:41:46 +0100	[diff] [blame]	10019	static void perf_swevent_init_hrtimer(struct perf_event *event)
				10020	{
				10021	struct hw_perf_event *hwc = &event->hw;
				10022
				10023	if (!is_sampling_event(event))
				10024	return;
				10025
Sebastian Andrzej Siewior	30f9028	2019-07-26 20:30:53 +0200	[diff] [blame]	10026	hrtimer_init(&hwc->hrtimer, CLOCK_MONOTONIC, HRTIMER_MODE_REL_HARD);
Peter Zijlstra	ba3dd36	2011-02-15 12:41:46 +0100	[diff] [blame]	10027	hwc->hrtimer.function = perf_swevent_hrtimer;
				10028
				10029	/*
				10030	* Since hrtimers have a fixed rate, we can do a static freq->period
				10031	* mapping and avoid the whole period adjust feedback stuff.
				10032	*/
				10033	if (event->attr.freq) {
				10034	long freq = event->attr.sample_freq;
				10035
				10036	event->attr.sample_period = NSEC_PER_SEC / freq;
				10037	hwc->sample_period = event->attr.sample_period;
				10038	local64_set(&hwc->period_left, hwc->sample_period);
Namhyung Kim	778141e	2013-03-18 11:41:46 +0900	[diff] [blame]	10039	hwc->last_period = hwc->sample_period;
Peter Zijlstra	ba3dd36	2011-02-15 12:41:46 +0100	[diff] [blame]	10040	event->attr.freq = 0;
				10041	}
				10042	}
				10043
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10044	/*
				10045	* Software event: cpu wall time clock
				10046	*/
				10047
				10048	static void cpu_clock_event_update(struct perf_event *event)
				10049	{
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10050	s64 prev;
				10051	u64 now;
				10052
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	10053	now = local_clock();
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10054	prev = local64_xchg(&event->hw.prev_count, now);
				10055	local64_add(now - prev, &event->count);
				10056	}
				10057
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	10058	static void cpu_clock_event_start(struct perf_event *event, int flags)
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10059	{
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	10060	local64_set(&event->hw.prev_count, local_clock());
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10061	perf_swevent_start_hrtimer(event);
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	10062	}
				10063
				10064	static void cpu_clock_event_stop(struct perf_event *event, int flags)
				10065	{
				10066	perf_swevent_cancel_hrtimer(event);
				10067	cpu_clock_event_update(event);
				10068	}
				10069
				10070	static int cpu_clock_event_add(struct perf_event *event, int flags)
				10071	{
				10072	if (flags & PERF_EF_START)
				10073	cpu_clock_event_start(event, flags);
Shaohua Li	6a694a6	2015-02-05 15:55:32 -0800	[diff] [blame]	10074	perf_event_update_userpage(event);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10075
				10076	return 0;
				10077	}
				10078
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	10079	static void cpu_clock_event_del(struct perf_event *event, int flags)
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10080	{
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	10081	cpu_clock_event_stop(event, flags);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10082	}
				10083
				10084	static void cpu_clock_event_read(struct perf_event *event)
				10085	{
				10086	cpu_clock_event_update(event);
				10087	}
				10088
				10089	static int cpu_clock_event_init(struct perf_event *event)
				10090	{
				10091	if (event->attr.type != PERF_TYPE_SOFTWARE)
				10092	return -ENOENT;
				10093
				10094	if (event->attr.config != PERF_COUNT_SW_CPU_CLOCK)
				10095	return -ENOENT;
				10096
Stephane Eranian	2481c5f	2012-02-09 23:20:59 +0100	[diff] [blame]	10097	/*
				10098	* no branch sampling for software events
				10099	*/
				10100	if (has_branch_stack(event))
				10101	return -EOPNOTSUPP;
				10102
Peter Zijlstra	ba3dd36	2011-02-15 12:41:46 +0100	[diff] [blame]	10103	perf_swevent_init_hrtimer(event);
				10104
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10105	return 0;
				10106	}
				10107
				10108	static struct pmu perf_cpu_clock = {
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	10109	.task_ctx_nr = perf_sw_context,
				10110
Peter Zijlstra	34f4392	2015-02-20 14:05:38 +0100	[diff] [blame]	10111	.capabilities = PERF_PMU_CAP_NO_NMI,
				10112
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10113	.event_init = cpu_clock_event_init,
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	10114	.add = cpu_clock_event_add,
				10115	.del = cpu_clock_event_del,
				10116	.start = cpu_clock_event_start,
				10117	.stop = cpu_clock_event_stop,
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10118	.read = cpu_clock_event_read,
				10119	};
				10120
				10121	/*
				10122	* Software event: task time clock
				10123	*/
				10124
				10125	static void task_clock_event_update(struct perf_event *event, u64 now)
				10126	{
				10127	u64 prev;
				10128	s64 delta;
				10129
				10130	prev = local64_xchg(&event->hw.prev_count, now);
				10131	delta = now - prev;
				10132	local64_add(delta, &event->count);
				10133	}
				10134
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	10135	static void task_clock_event_start(struct perf_event *event, int flags)
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10136	{
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	10137	local64_set(&event->hw.prev_count, event->ctx->time);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10138	perf_swevent_start_hrtimer(event);
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	10139	}
				10140
				10141	static void task_clock_event_stop(struct perf_event *event, int flags)
				10142	{
				10143	perf_swevent_cancel_hrtimer(event);
				10144	task_clock_event_update(event, event->ctx->time);
				10145	}
				10146
				10147	static int task_clock_event_add(struct perf_event *event, int flags)
				10148	{
				10149	if (flags & PERF_EF_START)
				10150	task_clock_event_start(event, flags);
Shaohua Li	6a694a6	2015-02-05 15:55:32 -0800	[diff] [blame]	10151	perf_event_update_userpage(event);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10152
				10153	return 0;
				10154	}
				10155
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	10156	static void task_clock_event_del(struct perf_event *event, int flags)
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10157	{
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	10158	task_clock_event_stop(event, PERF_EF_UPDATE);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10159	}
				10160
				10161	static void task_clock_event_read(struct perf_event *event)
				10162	{
Peter Zijlstra	768a06e	2011-02-22 16:52:24 +0100	[diff] [blame]	10163	u64 now = perf_clock();
				10164	u64 delta = now - event->ctx->timestamp;
				10165	u64 time = event->ctx->time + delta;
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10166
				10167	task_clock_event_update(event, time);
				10168	}
				10169
				10170	static int task_clock_event_init(struct perf_event *event)
				10171	{
				10172	if (event->attr.type != PERF_TYPE_SOFTWARE)
				10173	return -ENOENT;
				10174
				10175	if (event->attr.config != PERF_COUNT_SW_TASK_CLOCK)
				10176	return -ENOENT;
				10177
Stephane Eranian	2481c5f	2012-02-09 23:20:59 +0100	[diff] [blame]	10178	/*
				10179	* no branch sampling for software events
				10180	*/
				10181	if (has_branch_stack(event))
				10182	return -EOPNOTSUPP;
				10183
Peter Zijlstra	ba3dd36	2011-02-15 12:41:46 +0100	[diff] [blame]	10184	perf_swevent_init_hrtimer(event);
				10185
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10186	return 0;
				10187	}
				10188
				10189	static struct pmu perf_task_clock = {
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	10190	.task_ctx_nr = perf_sw_context,
				10191
Peter Zijlstra	34f4392	2015-02-20 14:05:38 +0100	[diff] [blame]	10192	.capabilities = PERF_PMU_CAP_NO_NMI,
				10193
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10194	.event_init = task_clock_event_init,
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	10195	.add = task_clock_event_add,
				10196	.del = task_clock_event_del,
				10197	.start = task_clock_event_start,
				10198	.stop = task_clock_event_stop,
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10199	.read = task_clock_event_read,
				10200	};
				10201
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	10202	static void perf_pmu_nop_void(struct pmu *pmu)
				10203	{
				10204	}
				10205
Sukadev Bhattiprolu	fbbe070	2015-09-03 20:07:45 -0700	[diff] [blame]	10206	static void perf_pmu_nop_txn(struct pmu *pmu, unsigned int flags)
				10207	{
				10208	}
				10209
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	10210	static int perf_pmu_nop_int(struct pmu *pmu)
				10211	{
				10212	return 0;
				10213	}
				10214
Jiri Olsa	81ec3f3	2019-02-04 13:35:32 +0100	[diff] [blame]	10215	static int perf_event_nop_int(struct perf_event *event, u64 value)
				10216	{
				10217	return 0;
				10218	}
				10219
Geliang Tang	18ab2cd	2015-09-27 23:25:50 +0800	[diff] [blame]	10220	static DEFINE_PER_CPU(unsigned int, nop_txn_flags);
Sukadev Bhattiprolu	fbbe070	2015-09-03 20:07:45 -0700	[diff] [blame]	10221
				10222	static void perf_pmu_start_txn(struct pmu *pmu, unsigned int flags)
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	10223	{
Sukadev Bhattiprolu	fbbe070	2015-09-03 20:07:45 -0700	[diff] [blame]	10224	__this_cpu_write(nop_txn_flags, flags);
				10225
				10226	if (flags & ~PERF_PMU_TXN_ADD)
				10227	return;
				10228
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	10229	perf_pmu_disable(pmu);
				10230	}
				10231
				10232	static int perf_pmu_commit_txn(struct pmu *pmu)
				10233	{
Sukadev Bhattiprolu	fbbe070	2015-09-03 20:07:45 -0700	[diff] [blame]	10234	unsigned int flags = __this_cpu_read(nop_txn_flags);
				10235
				10236	__this_cpu_write(nop_txn_flags, 0);
				10237
				10238	if (flags & ~PERF_PMU_TXN_ADD)
				10239	return 0;
				10240
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	10241	perf_pmu_enable(pmu);
				10242	return 0;
				10243	}
				10244
				10245	static void perf_pmu_cancel_txn(struct pmu *pmu)
				10246	{
Sukadev Bhattiprolu	fbbe070	2015-09-03 20:07:45 -0700	[diff] [blame]	10247	unsigned int flags = __this_cpu_read(nop_txn_flags);
				10248
				10249	__this_cpu_write(nop_txn_flags, 0);
				10250
				10251	if (flags & ~PERF_PMU_TXN_ADD)
				10252	return;
				10253
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	10254	perf_pmu_enable(pmu);
				10255	}
				10256
Peter Zijlstra	35edc2a	2011-11-20 20:36:02 +0100	[diff] [blame]	10257	static int perf_event_idx_default(struct perf_event *event)
				10258	{
Peter Zijlstra	c719f56	2014-10-21 11:10:21 +0200	[diff] [blame]	10259	return 0;
Peter Zijlstra	35edc2a	2011-11-20 20:36:02 +0100	[diff] [blame]	10260	}
				10261
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10262	/*
				10263	* Ensures all contexts with the same task_ctx_nr have the same
				10264	* pmu_cpu_context too.
				10265	*/
Mark Rutland	9e31704	2014-02-10 17:44:18 +0000	[diff] [blame]	10266	static struct perf_cpu_context __percpu *find_pmu_context(int ctxn)
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10267	{
				10268	struct pmu *pmu;
				10269
				10270	if (ctxn < 0)
				10271	return NULL;
				10272
				10273	list_for_each_entry(pmu, &pmus, entry) {
				10274	if (pmu->task_ctx_nr == ctxn)
				10275	return pmu->pmu_cpu_context;
				10276	}
				10277
				10278	return NULL;
				10279	}
				10280
Peter Zijlstra	5167695	2010-12-07 14:18:20 +0100	[diff] [blame]	10281	static void free_pmu_context(struct pmu *pmu)
				10282	{
Will Deacon	df0062b	2017-10-03 15:20:50 +0100	[diff] [blame]	10283	/*
				10284	* Static contexts such as perf_sw_context have a global lifetime
				10285	* and may be shared between different PMUs. Avoid freeing them
				10286	* when a single PMU is going away.
				10287	*/
				10288	if (pmu->task_ctx_nr > perf_invalid_context)
				10289	return;
				10290
Peter Zijlstra	5167695	2010-12-07 14:18:20 +0100	[diff] [blame]	10291	free_percpu(pmu->pmu_cpu_context);
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10292	}
Alexander Shishkin	6e855cd	2016-04-27 18:44:48 +0300	[diff] [blame]	10293
				10294	/*
				10295	* Let userspace know that this PMU supports address range filtering:
				10296	*/
				10297	static ssize_t nr_addr_filters_show(struct device *dev,
				10298	struct device_attribute *attr,
				10299	char *page)
				10300	{
				10301	struct pmu *pmu = dev_get_drvdata(dev);
				10302
				10303	return snprintf(page, PAGE_SIZE - 1, "%d\n", pmu->nr_addr_filters);
				10304	}
				10305	DEVICE_ATTR_RO(nr_addr_filters);
				10306
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	10307	static struct idr pmu_idr;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10308
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	10309	static ssize_t
				10310	type_show(struct device dev, struct device_attribute attr, char *page)
				10311	{
				10312	struct pmu *pmu = dev_get_drvdata(dev);
				10313
				10314	return snprintf(page, PAGE_SIZE-1, "%d\n", pmu->type);
				10315	}
Greg Kroah-Hartman	90826ca	2013-08-23 14:24:40 -0700	[diff] [blame]	10316	static DEVICE_ATTR_RO(type);
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	10317
Stephane Eranian	62b8563	2013-04-03 14:21:34 +0200	[diff] [blame]	10318	static ssize_t
				10319	perf_event_mux_interval_ms_show(struct device *dev,
				10320	struct device_attribute *attr,
				10321	char *page)
				10322	{
				10323	struct pmu *pmu = dev_get_drvdata(dev);
				10324
				10325	return snprintf(page, PAGE_SIZE-1, "%d\n", pmu->hrtimer_interval_ms);
				10326	}
				10327
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	10328	static DEFINE_MUTEX(mux_interval_mutex);
				10329
Stephane Eranian	62b8563	2013-04-03 14:21:34 +0200	[diff] [blame]	10330	static ssize_t
				10331	perf_event_mux_interval_ms_store(struct device *dev,
				10332	struct device_attribute *attr,
				10333	const char *buf, size_t count)
				10334	{
				10335	struct pmu *pmu = dev_get_drvdata(dev);
				10336	int timer, cpu, ret;
				10337
				10338	ret = kstrtoint(buf, 0, &timer);
				10339	if (ret)
				10340	return ret;
				10341
				10342	if (timer < 1)
				10343	return -EINVAL;
				10344
				10345	/* same value, noting to do */
				10346	if (timer == pmu->hrtimer_interval_ms)
				10347	return count;
				10348
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	10349	mutex_lock(&mux_interval_mutex);
Stephane Eranian	62b8563	2013-04-03 14:21:34 +0200	[diff] [blame]	10350	pmu->hrtimer_interval_ms = timer;
				10351
				10352	/* update all cpuctx for this PMU */
Thomas Gleixner	a63fbed	2017-05-24 10:15:34 +0200	[diff] [blame]	10353	cpus_read_lock();
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	10354	for_each_online_cpu(cpu) {
Stephane Eranian	62b8563	2013-04-03 14:21:34 +0200	[diff] [blame]	10355	struct perf_cpu_context *cpuctx;
				10356	cpuctx = per_cpu_ptr(pmu->pmu_cpu_context, cpu);
				10357	cpuctx->hrtimer_interval = ns_to_ktime(NSEC_PER_MSEC * timer);
				10358
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	10359	cpu_function_call(cpu,
				10360	(remote_function_f)perf_mux_hrtimer_restart, cpuctx);
Stephane Eranian	62b8563	2013-04-03 14:21:34 +0200	[diff] [blame]	10361	}
Thomas Gleixner	a63fbed	2017-05-24 10:15:34 +0200	[diff] [blame]	10362	cpus_read_unlock();
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	10363	mutex_unlock(&mux_interval_mutex);
Stephane Eranian	62b8563	2013-04-03 14:21:34 +0200	[diff] [blame]	10364
				10365	return count;
				10366	}
Greg Kroah-Hartman	90826ca	2013-08-23 14:24:40 -0700	[diff] [blame]	10367	static DEVICE_ATTR_RW(perf_event_mux_interval_ms);
Stephane Eranian	62b8563	2013-04-03 14:21:34 +0200	[diff] [blame]	10368
Greg Kroah-Hartman	90826ca	2013-08-23 14:24:40 -0700	[diff] [blame]	10369	static struct attribute *pmu_dev_attrs[] = {
				10370	&dev_attr_type.attr,
				10371	&dev_attr_perf_event_mux_interval_ms.attr,
				10372	NULL,
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	10373	};
Greg Kroah-Hartman	90826ca	2013-08-23 14:24:40 -0700	[diff] [blame]	10374	ATTRIBUTE_GROUPS(pmu_dev);
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	10375
				10376	static int pmu_bus_running;
				10377	static struct bus_type pmu_bus = {
				10378	.name = "event_source",
Greg Kroah-Hartman	90826ca	2013-08-23 14:24:40 -0700	[diff] [blame]	10379	.dev_groups = pmu_dev_groups,
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	10380	};
				10381
				10382	static void pmu_dev_release(struct device *dev)
				10383	{
				10384	kfree(dev);
				10385	}
				10386
				10387	static int pmu_dev_alloc(struct pmu *pmu)
				10388	{
				10389	int ret = -ENOMEM;
				10390
				10391	pmu->dev = kzalloc(sizeof(struct device), GFP_KERNEL);
				10392	if (!pmu->dev)
				10393	goto out;
				10394
Peter Zijlstra	0c9d42e	2011-11-20 23:30:47 +0100	[diff] [blame]	10395	pmu->dev->groups = pmu->attr_groups;
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	10396	device_initialize(pmu->dev);
				10397	ret = dev_set_name(pmu->dev, "%s", pmu->name);
				10398	if (ret)
				10399	goto free_dev;
				10400
				10401	dev_set_drvdata(pmu->dev, pmu);
				10402	pmu->dev->bus = &pmu_bus;
				10403	pmu->dev->release = pmu_dev_release;
				10404	ret = device_add(pmu->dev);
				10405	if (ret)
				10406	goto free_dev;
				10407
Alexander Shishkin	6e855cd	2016-04-27 18:44:48 +0300	[diff] [blame]	10408	/* For PMUs with address filters, throw in an extra attribute: */
				10409	if (pmu->nr_addr_filters)
				10410	ret = device_create_file(pmu->dev, &dev_attr_nr_addr_filters);
				10411
				10412	if (ret)
				10413	goto del_dev;
				10414
Jiri Olsa	f3a3a82	2019-05-12 17:55:11 +0200	[diff] [blame]	10415	if (pmu->attr_update)
				10416	ret = sysfs_update_groups(&pmu->dev->kobj, pmu->attr_update);
				10417
				10418	if (ret)
				10419	goto del_dev;
				10420
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	10421	out:
				10422	return ret;
				10423
Alexander Shishkin	6e855cd	2016-04-27 18:44:48 +0300	[diff] [blame]	10424	del_dev:
				10425	device_del(pmu->dev);
				10426
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	10427	free_dev:
				10428	put_device(pmu->dev);
				10429	goto out;
				10430	}
				10431
Peter Zijlstra	547e9fd	2011-01-19 12:51:39 +0100	[diff] [blame]	10432	static struct lock_class_key cpuctx_mutex;
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	10433	static struct lock_class_key cpuctx_lock;
Peter Zijlstra	547e9fd	2011-01-19 12:51:39 +0100	[diff] [blame]	10434
Mischa Jonker	03d8e80	2013-06-04 11:45:48 +0200	[diff] [blame]	10435	int perf_pmu_register(struct pmu pmu, const char name, int type)
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10436	{
Peter Zijlstra	66d258c	2019-10-17 20:31:03 +0200	[diff] [blame]	10437	int cpu, ret, max = PERF_TYPE_MAX;
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	10438
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10439	mutex_lock(&pmus_lock);
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	10440	ret = -ENOMEM;
				10441	pmu->pmu_disable_count = alloc_percpu(int);
				10442	if (!pmu->pmu_disable_count)
				10443	goto unlock;
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	10444
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	10445	pmu->type = -1;
				10446	if (!name)
				10447	goto skip_type;
				10448	pmu->name = name;
				10449
Peter Zijlstra	66d258c	2019-10-17 20:31:03 +0200	[diff] [blame]	10450	if (type != PERF_TYPE_SOFTWARE) {
				10451	if (type >= 0)
				10452	max = type;
				10453
				10454	ret = idr_alloc(&pmu_idr, pmu, max, 0, GFP_KERNEL);
				10455	if (ret < 0)
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	10456	goto free_pdc;
Peter Zijlstra	66d258c	2019-10-17 20:31:03 +0200	[diff] [blame]	10457
				10458	WARN_ON(type >= 0 && ret != type);
				10459
				10460	type = ret;
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	10461	}
				10462	pmu->type = type;
				10463
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	10464	if (pmu_bus_running) {
				10465	ret = pmu_dev_alloc(pmu);
				10466	if (ret)
				10467	goto free_idr;
				10468	}
				10469
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	10470	skip_type:
Peter Zijlstra	2665784	2016-03-22 22:09:18 +0100	[diff] [blame]	10471	if (pmu->task_ctx_nr == perf_hw_context) {
				10472	static int hw_context_taken = 0;
				10473
Mark Rutland	5101ef2	2016-04-26 11:33:46 +0100	[diff] [blame]	10474	/*
				10475	* Other than systems with heterogeneous CPUs, it never makes
				10476	* sense for two PMUs to share perf_hw_context. PMUs which are
				10477	* uncore must use perf_invalid_context.
				10478	*/
				10479	if (WARN_ON_ONCE(hw_context_taken &&
				10480	!(pmu->capabilities & PERF_PMU_CAP_HETEROGENEOUS_CPUS)))
Peter Zijlstra	2665784	2016-03-22 22:09:18 +0100	[diff] [blame]	10481	pmu->task_ctx_nr = perf_invalid_context;
				10482
				10483	hw_context_taken = 1;
				10484	}
				10485
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10486	pmu->pmu_cpu_context = find_pmu_context(pmu->task_ctx_nr);
				10487	if (pmu->pmu_cpu_context)
				10488	goto got_cpu_context;
				10489
Wei Yongjun	c481420	2013-04-12 11:05:54 +0800	[diff] [blame]	10490	ret = -ENOMEM;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	10491	pmu->pmu_cpu_context = alloc_percpu(struct perf_cpu_context);
				10492	if (!pmu->pmu_cpu_context)
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	10493	goto free_dev;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	10494
				10495	for_each_possible_cpu(cpu) {
				10496	struct perf_cpu_context *cpuctx;
				10497
				10498	cpuctx = per_cpu_ptr(pmu->pmu_cpu_context, cpu);
Peter Zijlstra	eb18447	2010-09-07 15:55:13 +0200	[diff] [blame]	10499	__perf_event_init_context(&cpuctx->ctx);
Peter Zijlstra	547e9fd	2011-01-19 12:51:39 +0100	[diff] [blame]	10500	lockdep_set_class(&cpuctx->ctx.mutex, &cpuctx_mutex);
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	10501	lockdep_set_class(&cpuctx->ctx.lock, &cpuctx_lock);
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	10502	cpuctx->ctx.pmu = pmu;
Thomas Gleixner	a63fbed	2017-05-24 10:15:34 +0200	[diff] [blame]	10503	cpuctx->online = cpumask_test_cpu(cpu, perf_online_mask);
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	10504
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	10505	__perf_mux_hrtimer_init(cpuctx, cpu);
Ian Rogers	836196be	2020-02-13 23:51:31 -0800	[diff] [blame]	10506
				10507	cpuctx->heap_size = ARRAY_SIZE(cpuctx->heap_default);
				10508	cpuctx->heap = cpuctx->heap_default;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	10509	}
				10510
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10511	got_cpu_context:
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	10512	if (!pmu->start_txn) {
				10513	if (pmu->pmu_enable) {
				10514	/*
				10515	* If we have pmu_enable/pmu_disable calls, install
				10516	* transaction stubs that use that to try and batch
				10517	* hardware accesses.
				10518	*/
				10519	pmu->start_txn = perf_pmu_start_txn;
				10520	pmu->commit_txn = perf_pmu_commit_txn;
				10521	pmu->cancel_txn = perf_pmu_cancel_txn;
				10522	} else {
Sukadev Bhattiprolu	fbbe070	2015-09-03 20:07:45 -0700	[diff] [blame]	10523	pmu->start_txn = perf_pmu_nop_txn;
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	10524	pmu->commit_txn = perf_pmu_nop_int;
				10525	pmu->cancel_txn = perf_pmu_nop_void;
				10526	}
				10527	}
				10528
				10529	if (!pmu->pmu_enable) {
				10530	pmu->pmu_enable = perf_pmu_nop_void;
				10531	pmu->pmu_disable = perf_pmu_nop_void;
				10532	}
				10533
Jiri Olsa	81ec3f3	2019-02-04 13:35:32 +0100	[diff] [blame]	10534	if (!pmu->check_period)
				10535	pmu->check_period = perf_event_nop_int;
				10536
Peter Zijlstra	35edc2a	2011-11-20 20:36:02 +0100	[diff] [blame]	10537	if (!pmu->event_idx)
				10538	pmu->event_idx = perf_event_idx_default;
				10539
Liang, Kan	d44f821	2019-10-22 11:13:09 +0200	[diff] [blame]	10540	/*
				10541	* Ensure the TYPE_SOFTWARE PMUs are at the head of the list,
				10542	* since these cannot be in the IDR. This way the linear search
				10543	* is fast, provided a valid software event is provided.
				10544	*/
				10545	if (type == PERF_TYPE_SOFTWARE \|\| !name)
				10546	list_add_rcu(&pmu->entry, &pmus);
				10547	else
				10548	list_add_tail_rcu(&pmu->entry, &pmus);
				10549
Alexander Shishkin	bed5b25	2015-01-30 12:31:06 +0200	[diff] [blame]	10550	atomic_set(&pmu->exclusive_cnt, 0);
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	10551	ret = 0;
				10552	unlock:
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10553	mutex_unlock(&pmus_lock);
				10554
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	10555	return ret;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	10556
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	10557	free_dev:
				10558	device_del(pmu->dev);
				10559	put_device(pmu->dev);
				10560
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	10561	free_idr:
Peter Zijlstra	66d258c	2019-10-17 20:31:03 +0200	[diff] [blame]	10562	if (pmu->type != PERF_TYPE_SOFTWARE)
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	10563	idr_remove(&pmu_idr, pmu->type);
				10564
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	10565	free_pdc:
				10566	free_percpu(pmu->pmu_disable_count);
				10567	goto unlock;
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10568	}
Yan, Zheng	c464c76	2014-03-18 16:56:41 +0800	[diff] [blame]	10569	EXPORT_SYMBOL_GPL(perf_pmu_register);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10570
				10571	void perf_pmu_unregister(struct pmu *pmu)
				10572	{
				10573	mutex_lock(&pmus_lock);
				10574	list_del_rcu(&pmu->entry);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10575
				10576	/*
Peter Zijlstra	cde8e88	2010-09-13 11:06:55 +0200	[diff] [blame]	10577	* We dereference the pmu list under both SRCU and regular RCU, so
				10578	* synchronize against both of those.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10579	*/
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10580	synchronize_srcu(&pmus_srcu);
Peter Zijlstra	cde8e88	2010-09-13 11:06:55 +0200	[diff] [blame]	10581	synchronize_rcu();
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10582
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	10583	free_percpu(pmu->pmu_disable_count);
Peter Zijlstra	66d258c	2019-10-17 20:31:03 +0200	[diff] [blame]	10584	if (pmu->type != PERF_TYPE_SOFTWARE)
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	10585	idr_remove(&pmu_idr, pmu->type);
Peter Zijlstra	a9f9772	2018-09-25 17:58:35 +0200	[diff] [blame]	10586	if (pmu_bus_running) {
Jiri Olsa	0933840	2016-10-20 13:10:11 +0200	[diff] [blame]	10587	if (pmu->nr_addr_filters)
				10588	device_remove_file(pmu->dev, &dev_attr_nr_addr_filters);
				10589	device_del(pmu->dev);
				10590	put_device(pmu->dev);
				10591	}
Peter Zijlstra	5167695	2010-12-07 14:18:20 +0100	[diff] [blame]	10592	free_pmu_context(pmu);
Peter Zijlstra	a9f9772	2018-09-25 17:58:35 +0200	[diff] [blame]	10593	mutex_unlock(&pmus_lock);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10594	}
Yan, Zheng	c464c76	2014-03-18 16:56:41 +0800	[diff] [blame]	10595	EXPORT_SYMBOL_GPL(perf_pmu_unregister);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10596
Kan Liang	e321d02	2019-05-28 15:08:30 -0700	[diff] [blame]	10597	static inline bool has_extended_regs(struct perf_event *event)
				10598	{
				10599	return (event->attr.sample_regs_user & PERF_REG_EXTENDED_MASK) \|\|
				10600	(event->attr.sample_regs_intr & PERF_REG_EXTENDED_MASK);
				10601	}
				10602
Mark Rutland	cc34b98	2015-01-07 14:56:51 +0000	[diff] [blame]	10603	static int perf_try_init_event(struct pmu pmu, struct perf_event event)
				10604	{
Peter Zijlstra	ccd41c8	2015-02-25 15:56:04 +0100	[diff] [blame]	10605	struct perf_event_context *ctx = NULL;
Mark Rutland	cc34b98	2015-01-07 14:56:51 +0000	[diff] [blame]	10606	int ret;
				10607
				10608	if (!try_module_get(pmu->module))
				10609	return -ENODEV;
Peter Zijlstra	ccd41c8	2015-02-25 15:56:04 +0100	[diff] [blame]	10610
Peter Zijlstra	0c7296c	2018-01-09 21:23:02 +0100	[diff] [blame]	10611	/*
				10612	* A number of pmu->event_init() methods iterate the sibling_list to,
				10613	* for example, validate if the group fits on the PMU. Therefore,
				10614	* if this is a sibling event, acquire the ctx->mutex to protect
				10615	* the sibling_list.
				10616	*/
				10617	if (event->group_leader != event && pmu->task_ctx_nr != perf_sw_context) {
Peter Zijlstra	8b10c5e	2015-05-01 16:08:46 +0200	[diff] [blame]	10618	/*
				10619	* This ctx->mutex can nest when we're called through
				10620	* inheritance. See the perf_event_ctx_lock_nested() comment.
				10621	*/
				10622	ctx = perf_event_ctx_lock_nested(event->group_leader,
				10623	SINGLE_DEPTH_NESTING);
Peter Zijlstra	ccd41c8	2015-02-25 15:56:04 +0100	[diff] [blame]	10624	BUG_ON(!ctx);
				10625	}
				10626
Mark Rutland	cc34b98	2015-01-07 14:56:51 +0000	[diff] [blame]	10627	event->pmu = pmu;
				10628	ret = pmu->event_init(event);
Peter Zijlstra	ccd41c8	2015-02-25 15:56:04 +0100	[diff] [blame]	10629
				10630	if (ctx)
				10631	perf_event_ctx_unlock(event->group_leader, ctx);
				10632
Andrew Murray	cc6795a	2019-01-10 13:53:25 +0000	[diff] [blame]	10633	if (!ret) {
Kan Liang	e321d02	2019-05-28 15:08:30 -0700	[diff] [blame]	10634	if (!(pmu->capabilities & PERF_PMU_CAP_EXTENDED_REGS) &&
				10635	has_extended_regs(event))
				10636	ret = -EOPNOTSUPP;
				10637
Andrew Murray	cc6795a	2019-01-10 13:53:25 +0000	[diff] [blame]	10638	if (pmu->capabilities & PERF_PMU_CAP_NO_EXCLUDE &&
Kan Liang	e321d02	2019-05-28 15:08:30 -0700	[diff] [blame]	10639	event_has_any_exclude_flag(event))
Andrew Murray	cc6795a	2019-01-10 13:53:25 +0000	[diff] [blame]	10640	ret = -EINVAL;
Kan Liang	e321d02	2019-05-28 15:08:30 -0700	[diff] [blame]	10641
				10642	if (ret && event->destroy)
				10643	event->destroy(event);
Andrew Murray	cc6795a	2019-01-10 13:53:25 +0000	[diff] [blame]	10644	}
				10645
Mark Rutland	cc34b98	2015-01-07 14:56:51 +0000	[diff] [blame]	10646	if (ret)
				10647	module_put(pmu->module);
				10648
				10649	return ret;
				10650	}
				10651
Geliang Tang	18ab2cd	2015-09-27 23:25:50 +0800	[diff] [blame]	10652	static struct pmu perf_init_event(struct perf_event event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10653	{
Peter Zijlstra	66d258c	2019-10-17 20:31:03 +0200	[diff] [blame]	10654	int idx, type, ret;
Dan Carpenter	85c617a	2017-05-22 12:03:49 +0300	[diff] [blame]	10655	struct pmu *pmu;
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	10656
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10657	idx = srcu_read_lock(&pmus_srcu);
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	10658
Kan Liang	4099931	2017-01-18 08:21:01 -0500	[diff] [blame]	10659	/* Try parent's PMU first: */
				10660	if (event->parent && event->parent->pmu) {
				10661	pmu = event->parent->pmu;
				10662	ret = perf_try_init_event(pmu, event);
				10663	if (!ret)
				10664	goto unlock;
				10665	}
				10666
Peter Zijlstra	66d258c	2019-10-17 20:31:03 +0200	[diff] [blame]	10667	/*
				10668	* PERF_TYPE_HARDWARE and PERF_TYPE_HW_CACHE
				10669	* are often aliases for PERF_TYPE_RAW.
				10670	*/
				10671	type = event->attr.type;
				10672	if (type == PERF_TYPE_HARDWARE \|\| type == PERF_TYPE_HW_CACHE)
				10673	type = PERF_TYPE_RAW;
				10674
				10675	again:
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	10676	rcu_read_lock();
Peter Zijlstra	66d258c	2019-10-17 20:31:03 +0200	[diff] [blame]	10677	pmu = idr_find(&pmu_idr, type);
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	10678	rcu_read_unlock();
Lin Ming	940c5b2	2011-02-27 21:13:31 +0800	[diff] [blame]	10679	if (pmu) {
Mark Rutland	cc34b98	2015-01-07 14:56:51 +0000	[diff] [blame]	10680	ret = perf_try_init_event(pmu, event);
Peter Zijlstra	66d258c	2019-10-17 20:31:03 +0200	[diff] [blame]	10681	if (ret == -ENOENT && event->attr.type != type) {
				10682	type = event->attr.type;
				10683	goto again;
				10684	}
				10685
Lin Ming	940c5b2	2011-02-27 21:13:31 +0800	[diff] [blame]	10686	if (ret)
				10687	pmu = ERR_PTR(ret);
Peter Zijlstra	66d258c	2019-10-17 20:31:03 +0200	[diff] [blame]	10688
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	10689	goto unlock;
Lin Ming	940c5b2	2011-02-27 21:13:31 +0800	[diff] [blame]	10690	}
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	10691
Sebastian Andrzej Siewior	9f0bff1	2019-11-19 13:14:29 +0100	[diff] [blame]	10692	list_for_each_entry_rcu(pmu, &pmus, entry, lockdep_is_held(&pmus_srcu)) {
Mark Rutland	cc34b98	2015-01-07 14:56:51 +0000	[diff] [blame]	10693	ret = perf_try_init_event(pmu, event);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10694	if (!ret)
Peter Zijlstra	e5f4d33	2010-09-10 17:38:06 +0200	[diff] [blame]	10695	goto unlock;
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	10696
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10697	if (ret != -ENOENT) {
				10698	pmu = ERR_PTR(ret);
Peter Zijlstra	e5f4d33	2010-09-10 17:38:06 +0200	[diff] [blame]	10699	goto unlock;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10700	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10701	}
Peter Zijlstra	e5f4d33	2010-09-10 17:38:06 +0200	[diff] [blame]	10702	pmu = ERR_PTR(-ENOENT);
				10703	unlock:
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10704	srcu_read_unlock(&pmus_srcu, idx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10705
				10706	return pmu;
				10707	}
				10708
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	10709	static void attach_sb_event(struct perf_event *event)
				10710	{
				10711	struct pmu_event_list *pel = per_cpu_ptr(&pmu_sb_events, event->cpu);
				10712
				10713	raw_spin_lock(&pel->lock);
				10714	list_add_rcu(&event->sb_list, &pel->list);
				10715	raw_spin_unlock(&pel->lock);
				10716	}
				10717
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	10718	/*
				10719	* We keep a list of all !task (and therefore per-cpu) events
				10720	* that need to receive side-band records.
				10721	*
				10722	* This avoids having to scan all the various PMU per-cpu contexts
				10723	* looking for them.
				10724	*/
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	10725	static void account_pmu_sb_event(struct perf_event *event)
				10726	{
David Carrillo-Cisneros	a4f144e	2016-06-01 12:33:05 -0700	[diff] [blame]	10727	if (is_sb_event(event))
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	10728	attach_sb_event(event);
				10729	}
				10730
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	10731	static void account_event_cpu(struct perf_event *event, int cpu)
				10732	{
				10733	if (event->parent)
				10734	return;
				10735
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	10736	if (is_cgroup_event(event))
				10737	atomic_inc(&per_cpu(perf_cgroup_events, cpu));
				10738	}
				10739
Frederic Weisbecker	555e0c1	2015-07-16 17:42:29 +0200	[diff] [blame]	10740	/* Freq events need the tick to stay alive (see perf_event_task_tick). */
				10741	static void account_freq_event_nohz(void)
				10742	{
				10743	#ifdef CONFIG_NO_HZ_FULL
				10744	/* Lock so we don't race with concurrent unaccount */
				10745	spin_lock(&nr_freq_lock);
				10746	if (atomic_inc_return(&nr_freq_events) == 1)
				10747	tick_nohz_dep_set(TICK_DEP_BIT_PERF_EVENTS);
				10748	spin_unlock(&nr_freq_lock);
				10749	#endif
				10750	}
				10751
				10752	static void account_freq_event(void)
				10753	{
				10754	if (tick_nohz_full_enabled())
				10755	account_freq_event_nohz();
				10756	else
				10757	atomic_inc(&nr_freq_events);
				10758	}
				10759
				10760
Frederic Weisbecker	766d6c0	2013-07-23 02:31:01 +0200	[diff] [blame]	10761	static void account_event(struct perf_event *event)
				10762	{
Peter Zijlstra	25432ae	2016-01-08 11:05:09 +0100	[diff] [blame]	10763	bool inc = false;
				10764
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	10765	if (event->parent)
				10766	return;
				10767
Frederic Weisbecker	766d6c0	2013-07-23 02:31:01 +0200	[diff] [blame]	10768	if (event->attach_state & PERF_ATTACH_TASK)
Peter Zijlstra	25432ae	2016-01-08 11:05:09 +0100	[diff] [blame]	10769	inc = true;
Frederic Weisbecker	766d6c0	2013-07-23 02:31:01 +0200	[diff] [blame]	10770	if (event->attr.mmap \|\| event->attr.mmap_data)
				10771	atomic_inc(&nr_mmap_events);
				10772	if (event->attr.comm)
				10773	atomic_inc(&nr_comm_events);
Hari Bathini	e422267	2017-03-08 02:11:36 +0530	[diff] [blame]	10774	if (event->attr.namespaces)
				10775	atomic_inc(&nr_namespaces_events);
Frederic Weisbecker	766d6c0	2013-07-23 02:31:01 +0200	[diff] [blame]	10776	if (event->attr.task)
				10777	atomic_inc(&nr_task_events);
Frederic Weisbecker	555e0c1	2015-07-16 17:42:29 +0200	[diff] [blame]	10778	if (event->attr.freq)
				10779	account_freq_event();
Adrian Hunter	45ac140	2015-07-21 12:44:02 +0300	[diff] [blame]	10780	if (event->attr.context_switch) {
				10781	atomic_inc(&nr_switch_events);
Peter Zijlstra	25432ae	2016-01-08 11:05:09 +0100	[diff] [blame]	10782	inc = true;
Adrian Hunter	45ac140	2015-07-21 12:44:02 +0300	[diff] [blame]	10783	}
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	10784	if (has_branch_stack(event))
Peter Zijlstra	25432ae	2016-01-08 11:05:09 +0100	[diff] [blame]	10785	inc = true;
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	10786	if (is_cgroup_event(event))
Peter Zijlstra	25432ae	2016-01-08 11:05:09 +0100	[diff] [blame]	10787	inc = true;
Song Liu	76193a9	2019-01-17 08:15:13 -0800	[diff] [blame]	10788	if (event->attr.ksymbol)
				10789	atomic_inc(&nr_ksymbol_events);
Song Liu	6ee52e2	2019-01-17 08:15:15 -0800	[diff] [blame]	10790	if (event->attr.bpf_event)
				10791	atomic_inc(&nr_bpf_events);
Peter Zijlstra	25432ae	2016-01-08 11:05:09 +0100	[diff] [blame]	10792
Peter Zijlstra	9107c89	2016-02-24 18:45:45 +0100	[diff] [blame]	10793	if (inc) {
Alexander Shishkin	5bce9db	2017-08-29 17:01:03 +0300	[diff] [blame]	10794	/*
				10795	* We need the mutex here because static_branch_enable()
				10796	* must complete before the perf_sched_count increment
				10797	* becomes visible.
				10798	*/
Peter Zijlstra	9107c89	2016-02-24 18:45:45 +0100	[diff] [blame]	10799	if (atomic_inc_not_zero(&perf_sched_count))
				10800	goto enabled;
				10801
				10802	mutex_lock(&perf_sched_mutex);
				10803	if (!atomic_read(&perf_sched_count)) {
				10804	static_branch_enable(&perf_sched_events);
				10805	/*
				10806	* Guarantee that all CPUs observe they key change and
				10807	* call the perf scheduling hooks before proceeding to
				10808	* install events that need them.
				10809	*/
Paul E. McKenney	0809d954	2018-11-06 19:20:05 -0800	[diff] [blame]	10810	synchronize_rcu();
Peter Zijlstra	9107c89	2016-02-24 18:45:45 +0100	[diff] [blame]	10811	}
				10812	/*
				10813	* Now that we have waited for the sync_sched(), allow further
				10814	* increments to by-pass the mutex.
				10815	*/
				10816	atomic_inc(&perf_sched_count);
				10817	mutex_unlock(&perf_sched_mutex);
				10818	}
				10819	enabled:
Frederic Weisbecker	766d6c0	2013-07-23 02:31:01 +0200	[diff] [blame]	10820
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	10821	account_event_cpu(event, event->cpu);
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	10822
				10823	account_pmu_sb_event(event);
Frederic Weisbecker	766d6c0	2013-07-23 02:31:01 +0200	[diff] [blame]	10824	}
				10825
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10826	/*
Tobias Tefke	788faab	2018-07-09 12:57:15 +0200	[diff] [blame]	10827	* Allocate and initialize an event structure
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10828	*/
				10829	static struct perf_event *
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	10830	perf_event_alloc(struct perf_event_attr *attr, int cpu,
Peter Zijlstra	d580ff8	2010-10-14 17:43:23 +0200	[diff] [blame]	10831	struct task_struct *task,
				10832	struct perf_event *group_leader,
				10833	struct perf_event *parent_event,
Avi Kivity	4dc0da8	2011-06-29 18:42:35 +0300	[diff] [blame]	10834	perf_overflow_handler_t overflow_handler,
Matt Fleming	79dff51	2015-01-23 18:45:42 +0000	[diff] [blame]	10835	void *context, int cgroup_fd)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10836	{
Peter Zijlstra	51b0fe3	2010-06-11 13:35:57 +0200	[diff] [blame]	10837	struct pmu *pmu;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10838	struct perf_event *event;
				10839	struct hw_perf_event *hwc;
Frederic Weisbecker	90983b1	2013-07-23 02:31:00 +0200	[diff] [blame]	10840	long err = -EINVAL;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10841
Oleg Nesterov	66832eb	2011-01-18 17:10:32 +0100	[diff] [blame]	10842	if ((unsigned)cpu >= nr_cpu_ids) {
				10843	if (!task \|\| cpu != -1)
				10844	return ERR_PTR(-EINVAL);
				10845	}
				10846
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	10847	event = kzalloc(sizeof(*event), GFP_KERNEL);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10848	if (!event)
				10849	return ERR_PTR(-ENOMEM);
				10850
				10851	/*
				10852	* Single events are their own group leaders, with an
				10853	* empty sibling list:
				10854	*/
				10855	if (!group_leader)
				10856	group_leader = event;
				10857
				10858	mutex_init(&event->child_mutex);
				10859	INIT_LIST_HEAD(&event->child_list);
				10860
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10861	INIT_LIST_HEAD(&event->event_entry);
				10862	INIT_LIST_HEAD(&event->sibling_list);
Peter Zijlstra	6668128	2017-11-13 14:28:38 +0100	[diff] [blame]	10863	INIT_LIST_HEAD(&event->active_list);
Alexey Budankov	8e1a203	2017-09-08 11:47:03 +0300	[diff] [blame]	10864	init_event_group(event);
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	10865	INIT_LIST_HEAD(&event->rb_entry);
Stephane Eranian	71ad88e	2013-11-12 17:58:48 +0100	[diff] [blame]	10866	INIT_LIST_HEAD(&event->active_entry);
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	10867	INIT_LIST_HEAD(&event->addr_filters.list);
Stephane Eranian	f3ae75d	2014-01-08 11:15:52 +0100	[diff] [blame]	10868	INIT_HLIST_NODE(&event->hlist_entry);
				10869
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	10870
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10871	init_waitqueue_head(&event->waitq);
Peter Zijlstra	1d54ad9	2019-04-04 15:03:00 +0200	[diff] [blame]	10872	event->pending_disable = -1;
Peter Zijlstra	e360adb	2010-10-14 14:01:34 +0800	[diff] [blame]	10873	init_irq_work(&event->pending, perf_pending_event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10874
				10875	mutex_init(&event->mmap_mutex);
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	10876	raw_spin_lock_init(&event->addr_filters.lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10877
Al Viro	a6fa941	2012-08-20 14:59:25 +0100	[diff] [blame]	10878	atomic_long_set(&event->refcount, 1);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10879	event->cpu = cpu;
				10880	event->attr = *attr;
				10881	event->group_leader = group_leader;
				10882	event->pmu = NULL;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10883	event->oncpu = -1;
				10884
				10885	event->parent = parent_event;
				10886
Eric W. Biederman	17cf22c	2010-03-02 14:51:53 -0800	[diff] [blame]	10887	event->ns = get_pid_ns(task_active_pid_ns(current));
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10888	event->id = atomic64_inc_return(&perf_event_id);
				10889
				10890	event->state = PERF_EVENT_STATE_INACTIVE;
				10891
Peter Zijlstra	d580ff8	2010-10-14 17:43:23 +0200	[diff] [blame]	10892	if (task) {
				10893	event->attach_state = PERF_ATTACH_TASK;
Peter Zijlstra	d580ff8	2010-10-14 17:43:23 +0200	[diff] [blame]	10894	/*
Peter Zijlstra	50f16a8	2015-03-05 22:10:19 +0100	[diff] [blame]	10895	* XXX pmu::event_init needs to know what task to account to
				10896	* and we cannot use the ctx information because we need the
				10897	* pmu before we get a ctx.
Peter Zijlstra	d580ff8	2010-10-14 17:43:23 +0200	[diff] [blame]	10898	*/
Matthew Wilcox (Oracle)	7b3c92b	2019-07-04 15:13:23 -0700	[diff] [blame]	10899	event->hw.target = get_task_struct(task);
Peter Zijlstra	d580ff8	2010-10-14 17:43:23 +0200	[diff] [blame]	10900	}
				10901
Peter Zijlstra	34f4392	2015-02-20 14:05:38 +0100	[diff] [blame]	10902	event->clock = &local_clock;
				10903	if (parent_event)
				10904	event->clock = parent_event->clock;
				10905
Avi Kivity	4dc0da8	2011-06-29 18:42:35 +0300	[diff] [blame]	10906	if (!overflow_handler && parent_event) {
Frederic Weisbecker	b326e95	2009-12-05 09:44:31 +0100	[diff] [blame]	10907	overflow_handler = parent_event->overflow_handler;
Avi Kivity	4dc0da8	2011-06-29 18:42:35 +0300	[diff] [blame]	10908	context = parent_event->overflow_handler_context;
Arnd Bergmann	f1e4ba5	2016-09-06 15:10:22 +0200	[diff] [blame]	10909	#if defined(CONFIG_BPF_SYSCALL) && defined(CONFIG_EVENT_TRACING)
Alexei Starovoitov	aa6a5f3	2016-09-01 18:37:24 -0700	[diff] [blame]	10910	if (overflow_handler == bpf_overflow_handler) {
Andrii Nakryiko	85192db	2019-11-17 09:28:03 -0800	[diff] [blame]	10911	struct bpf_prog *prog = parent_event->prog;
Alexei Starovoitov	aa6a5f3	2016-09-01 18:37:24 -0700	[diff] [blame]	10912
Andrii Nakryiko	85192db	2019-11-17 09:28:03 -0800	[diff] [blame]	10913	bpf_prog_inc(prog);
Alexei Starovoitov	aa6a5f3	2016-09-01 18:37:24 -0700	[diff] [blame]	10914	event->prog = prog;
				10915	event->orig_overflow_handler =
				10916	parent_event->orig_overflow_handler;
				10917	}
				10918	#endif
Avi Kivity	4dc0da8	2011-06-29 18:42:35 +0300	[diff] [blame]	10919	}
Oleg Nesterov	66832eb	2011-01-18 17:10:32 +0100	[diff] [blame]	10920
Wang Nan	1879445	2016-03-28 06:41:30 +0000	[diff] [blame]	10921	if (overflow_handler) {
				10922	event->overflow_handler = overflow_handler;
				10923	event->overflow_handler_context = context;
Wang Nan	9ecda41	2016-04-05 14:11:18 +0000	[diff] [blame]	10924	} else if (is_write_backward(event)){
				10925	event->overflow_handler = perf_event_output_backward;
				10926	event->overflow_handler_context = NULL;
Wang Nan	1879445	2016-03-28 06:41:30 +0000	[diff] [blame]	10927	} else {
Wang Nan	9ecda41	2016-04-05 14:11:18 +0000	[diff] [blame]	10928	event->overflow_handler = perf_event_output_forward;
Wang Nan	1879445	2016-03-28 06:41:30 +0000	[diff] [blame]	10929	event->overflow_handler_context = NULL;
				10930	}
Frederic Weisbecker	97eaf53	2009-10-18 15:33:50 +0200	[diff] [blame]	10931
Jiri Olsa	0231bb5	2013-02-01 11:23:45 +0100	[diff] [blame]	10932	perf_event__state_init(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10933
				10934	pmu = NULL;
				10935
				10936	hwc = &event->hw;
				10937	hwc->sample_period = attr->sample_period;
				10938	if (attr->freq && attr->sample_freq)
				10939	hwc->sample_period = 1;
				10940	hwc->last_period = hwc->sample_period;
				10941
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	10942	local64_set(&hwc->period_left, hwc->sample_period);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10943
				10944	/*
Peter Zijlstra	ba5213a	2017-05-30 11:45:12 +0200	[diff] [blame]	10945	* We currently do not support PERF_SAMPLE_READ on inherited events.
				10946	* See perf_output_read().
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10947	*/
Peter Zijlstra	ba5213a	2017-05-30 11:45:12 +0200	[diff] [blame]	10948	if (attr->inherit && (attr->sample_type & PERF_SAMPLE_READ))
Frederic Weisbecker	90983b1	2013-07-23 02:31:00 +0200	[diff] [blame]	10949	goto err_ns;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10950
Yan, Zheng	a46a230	2014-11-04 21:56:06 -0500	[diff] [blame]	10951	if (!has_branch_stack(event))
				10952	event->attr.branch_sample_type = 0;
				10953
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10954	pmu = perf_init_event(event);
Dan Carpenter	85c617a	2017-05-22 12:03:49 +0300	[diff] [blame]	10955	if (IS_ERR(pmu)) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10956	err = PTR_ERR(pmu);
Frederic Weisbecker	90983b1	2013-07-23 02:31:00 +0200	[diff] [blame]	10957	goto err_ns;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10958	}
				10959
Peter Zijlstra	09f4e8f	2019-11-06 12:51:04 +0100	[diff] [blame]	10960	/*
				10961	* Disallow uncore-cgroup events, they don't make sense as the cgroup will
				10962	* be different on other CPUs in the uncore mask.
				10963	*/
				10964	if (pmu->task_ctx_nr == perf_invalid_context && cgroup_fd != -1) {
				10965	err = -EINVAL;
				10966	goto err_pmu;
				10967	}
				10968
Alexander Shishkin	ab43762	2019-08-06 11:46:00 +0300	[diff] [blame]	10969	if (event->attr.aux_output &&
				10970	!(pmu->capabilities & PERF_PMU_CAP_AUX_OUTPUT)) {
				10971	err = -EOPNOTSUPP;
				10972	goto err_pmu;
				10973	}
				10974
Peter Zijlstra	98add2a	2020-02-13 23:51:28 -0800	[diff] [blame]	10975	if (cgroup_fd != -1) {
				10976	err = perf_cgroup_connect(cgroup_fd, event, attr, group_leader);
				10977	if (err)
				10978	goto err_pmu;
				10979	}
				10980
Alexander Shishkin	bed5b25	2015-01-30 12:31:06 +0200	[diff] [blame]	10981	err = exclusive_event_init(event);
				10982	if (err)
				10983	goto err_pmu;
				10984
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	10985	if (has_addr_filter(event)) {
Alexander Shishkin	c60f83b	2019-02-15 13:56:55 +0200	[diff] [blame]	10986	event->addr_filter_ranges = kcalloc(pmu->nr_addr_filters,
				10987	sizeof(struct perf_addr_filter_range),
				10988	GFP_KERNEL);
				10989	if (!event->addr_filter_ranges) {
Dan Carpenter	36cc2b9	2017-05-22 12:04:18 +0300	[diff] [blame]	10990	err = -ENOMEM;
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	10991	goto err_per_task;
Dan Carpenter	36cc2b9	2017-05-22 12:04:18 +0300	[diff] [blame]	10992	}
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	10993
Alexander Shishkin	18736ee	2019-02-15 13:56:54 +0200	[diff] [blame]	10994	/*
				10995	* Clone the parent's vma offsets: they are valid until exec()
				10996	* even if the mm is not shared with the parent.
				10997	*/
				10998	if (event->parent) {
				10999	struct perf_addr_filters_head *ifh = perf_event_addr_filters(event);
				11000
				11001	raw_spin_lock_irq(&ifh->lock);
Alexander Shishkin	c60f83b	2019-02-15 13:56:55 +0200	[diff] [blame]	11002	memcpy(event->addr_filter_ranges,
				11003	event->parent->addr_filter_ranges,
				11004	pmu->nr_addr_filters * sizeof(struct perf_addr_filter_range));
Alexander Shishkin	18736ee	2019-02-15 13:56:54 +0200	[diff] [blame]	11005	raw_spin_unlock_irq(&ifh->lock);
				11006	}
				11007
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	11008	/* force hw sync on the address filters */
				11009	event->addr_filters_gen = 1;
				11010	}
				11011
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11012	if (!event->parent) {
Frederic Weisbecker	927c7a9	2010-07-01 16:20:36 +0200	[diff] [blame]	11013	if (event->attr.sample_type & PERF_SAMPLE_CALLCHAIN) {
Arnaldo Carvalho de Melo	97c79a3	2016-04-28 13:16:33 -0300	[diff] [blame]	11014	err = get_callchain_buffers(attr->sample_max_stack);
Frederic Weisbecker	90983b1	2013-07-23 02:31:00 +0200	[diff] [blame]	11015	if (err)
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	11016	goto err_addr_filters;
Stephane Eranian	d010b33	2012-02-09 23:21:00 +0100	[diff] [blame]	11017	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11018	}
				11019
Joel Fernandes (Google)	da97e18	2019-10-14 13:03:08 -0400	[diff] [blame]	11020	err = security_perf_event_alloc(event);
				11021	if (err)
				11022	goto err_callchain_buffer;
				11023
Alexander Shishkin	927a557	2016-03-02 13:24:14 +0200	[diff] [blame]	11024	/* symmetric to unaccount_event() in _free_event() */
				11025	account_event(event);
				11026
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11027	return event;
Frederic Weisbecker	90983b1	2013-07-23 02:31:00 +0200	[diff] [blame]	11028
Joel Fernandes (Google)	da97e18	2019-10-14 13:03:08 -0400	[diff] [blame]	11029	err_callchain_buffer:
				11030	if (!event->parent) {
				11031	if (event->attr.sample_type & PERF_SAMPLE_CALLCHAIN)
				11032	put_callchain_buffers();
				11033	}
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	11034	err_addr_filters:
Alexander Shishkin	c60f83b	2019-02-15 13:56:55 +0200	[diff] [blame]	11035	kfree(event->addr_filter_ranges);
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	11036
Alexander Shishkin	bed5b25	2015-01-30 12:31:06 +0200	[diff] [blame]	11037	err_per_task:
				11038	exclusive_event_destroy(event);
				11039
Frederic Weisbecker	90983b1	2013-07-23 02:31:00 +0200	[diff] [blame]	11040	err_pmu:
Peter Zijlstra	98add2a	2020-02-13 23:51:28 -0800	[diff] [blame]	11041	if (is_cgroup_event(event))
				11042	perf_detach_cgroup(event);
Frederic Weisbecker	90983b1	2013-07-23 02:31:00 +0200	[diff] [blame]	11043	if (event->destroy)
				11044	event->destroy(event);
Yan, Zheng	c464c76	2014-03-18 16:56:41 +0800	[diff] [blame]	11045	module_put(pmu->module);
Frederic Weisbecker	90983b1	2013-07-23 02:31:00 +0200	[diff] [blame]	11046	err_ns:
				11047	if (event->ns)
				11048	put_pid_ns(event->ns);
Prashant Bhole	621b6d2	2018-04-09 19:03:46 +0900	[diff] [blame]	11049	if (event->hw.target)
				11050	put_task_struct(event->hw.target);
Frederic Weisbecker	90983b1	2013-07-23 02:31:00 +0200	[diff] [blame]	11051	kfree(event);
				11052
				11053	return ERR_PTR(err);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11054	}
				11055
				11056	static int perf_copy_attr(struct perf_event_attr __user *uattr,
				11057	struct perf_event_attr *attr)
				11058	{
				11059	u32 size;
				11060	int ret;
				11061
Aleksa Sarai	c2ba8f4	2019-10-01 11:10:55 +1000	[diff] [blame]	11062	/* Zero the full structure, so that a short copy will be nice. */
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11063	memset(attr, 0, sizeof(*attr));
				11064
				11065	ret = get_user(size, &uattr->size);
				11066	if (ret)
				11067	return ret;
				11068
Aleksa Sarai	c2ba8f4	2019-10-01 11:10:55 +1000	[diff] [blame]	11069	/* ABI compatibility quirk: */
				11070	if (!size)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11071	size = PERF_ATTR_SIZE_VER0;
Aleksa Sarai	c2ba8f4	2019-10-01 11:10:55 +1000	[diff] [blame]	11072	if (size < PERF_ATTR_SIZE_VER0 \|\| size > PAGE_SIZE)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11073	goto err_size;
				11074
Aleksa Sarai	c2ba8f4	2019-10-01 11:10:55 +1000	[diff] [blame]	11075	ret = copy_struct_from_user(attr, sizeof(*attr), uattr, size);
				11076	if (ret) {
				11077	if (ret == -E2BIG)
				11078	goto err_size;
				11079	return ret;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11080	}
				11081
Meng Xu	f12f42a	2017-08-23 17:07:50 -0400	[diff] [blame]	11082	attr->size = size;
				11083
Alexander Shishkin	a4faf00	2019-10-25 17:08:33 +0300	[diff] [blame]	11084	if (attr->__reserved_1 \|\| attr->__reserved_2 \|\| attr->__reserved_3)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11085	return -EINVAL;
				11086
				11087	if (attr->sample_type & ~(PERF_SAMPLE_MAX-1))
				11088	return -EINVAL;
				11089
				11090	if (attr->read_format & ~(PERF_FORMAT_MAX-1))
				11091	return -EINVAL;
				11092
Stephane Eranian	bce38cd	2012-02-09 23:20:51 +0100	[diff] [blame]	11093	if (attr->sample_type & PERF_SAMPLE_BRANCH_STACK) {
				11094	u64 mask = attr->branch_sample_type;
				11095
				11096	/* only using defined bits */
				11097	if (mask & ~(PERF_SAMPLE_BRANCH_MAX-1))
				11098	return -EINVAL;
				11099
				11100	/* at least one branch bit must be set */
				11101	if (!(mask & ~PERF_SAMPLE_BRANCH_PLM_ALL))
				11102	return -EINVAL;
				11103
Stephane Eranian	bce38cd	2012-02-09 23:20:51 +0100	[diff] [blame]	11104	/* propagate priv level, when not set for branch */
				11105	if (!(mask & PERF_SAMPLE_BRANCH_PLM_ALL)) {
				11106
				11107	/* exclude_kernel checked on syscall entry */
				11108	if (!attr->exclude_kernel)
				11109	mask \|= PERF_SAMPLE_BRANCH_KERNEL;
				11110
				11111	if (!attr->exclude_user)
				11112	mask \|= PERF_SAMPLE_BRANCH_USER;
				11113
				11114	if (!attr->exclude_hv)
				11115	mask \|= PERF_SAMPLE_BRANCH_HV;
				11116	/*
				11117	* adjust user setting (for HW filter setup)
				11118	*/
				11119	attr->branch_sample_type = mask;
				11120	}
Stephane Eranian	e712209	2013-06-06 11:02:04 +0200	[diff] [blame]	11121	/* privileged levels capture (kernel, hv): check permissions */
Joel Fernandes (Google)	da97e18	2019-10-14 13:03:08 -0400	[diff] [blame]	11122	if (mask & PERF_SAMPLE_BRANCH_PERM_PLM) {
				11123	ret = perf_allow_kernel(attr);
				11124	if (ret)
				11125	return ret;
				11126	}
Stephane Eranian	bce38cd	2012-02-09 23:20:51 +0100	[diff] [blame]	11127	}
Jiri Olsa	4018994	2012-08-07 15:20:37 +0200	[diff] [blame]	11128
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	11129	if (attr->sample_type & PERF_SAMPLE_REGS_USER) {
Jiri Olsa	4018994	2012-08-07 15:20:37 +0200	[diff] [blame]	11130	ret = perf_reg_validate(attr->sample_regs_user);
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	11131	if (ret)
				11132	return ret;
				11133	}
				11134
				11135	if (attr->sample_type & PERF_SAMPLE_STACK_USER) {
				11136	if (!arch_perf_have_user_stack_dump())
				11137	return -ENOSYS;
				11138
				11139	/*
				11140	* We have __u32 type for the size, but so far
				11141	* we can only use __u16 as maximum due to the
				11142	* __u16 sample size limit.
				11143	*/
				11144	if (attr->sample_stack_user >= USHRT_MAX)
Jiri Olsa	78b562f	2018-04-15 11:23:50 +0200	[diff] [blame]	11145	return -EINVAL;
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	11146	else if (!IS_ALIGNED(attr->sample_stack_user, sizeof(u64)))
Jiri Olsa	78b562f	2018-04-15 11:23:50 +0200	[diff] [blame]	11147	return -EINVAL;
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	11148	}
Jiri Olsa	4018994	2012-08-07 15:20:37 +0200	[diff] [blame]	11149
Jiri Olsa	5f97052	2018-03-12 14:45:46 +0100	[diff] [blame]	11150	if (!attr->sample_max_stack)
				11151	attr->sample_max_stack = sysctl_perf_event_max_stack;
				11152
Stephane Eranian	60e2364	2014-09-24 13:48:37 +0200	[diff] [blame]	11153	if (attr->sample_type & PERF_SAMPLE_REGS_INTR)
				11154	ret = perf_reg_validate(attr->sample_regs_intr);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11155	out:
				11156	return ret;
				11157
				11158	err_size:
				11159	put_user(sizeof(*attr), &uattr->size);
				11160	ret = -E2BIG;
				11161	goto out;
				11162	}
				11163
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	11164	static int
				11165	perf_event_set_output(struct perf_event event, struct perf_event output_event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11166	{
Steven Rostedt (VMware)	56de4e8	2019-12-13 13:21:30 -0500	[diff] [blame]	11167	struct perf_buffer *rb = NULL;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11168	int ret = -EINVAL;
				11169
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	11170	if (!output_event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11171	goto set;
				11172
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	11173	/* don't allow circular references */
				11174	if (event == output_event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11175	goto out;
				11176
Peter Zijlstra	0f13930	2010-05-20 14:35:15 +0200	[diff] [blame]	11177	/*
				11178	* Don't allow cross-cpu buffers
				11179	*/
				11180	if (output_event->cpu != event->cpu)
				11181	goto out;
				11182
				11183	/*
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	11184	* If its not a per-cpu rb, it must be the same task.
Peter Zijlstra	0f13930	2010-05-20 14:35:15 +0200	[diff] [blame]	11185	*/
				11186	if (output_event->cpu == -1 && output_event->ctx != event->ctx)
				11187	goto out;
				11188
Peter Zijlstra	34f4392	2015-02-20 14:05:38 +0100	[diff] [blame]	11189	/*
				11190	* Mixing clocks in the same buffer is trouble you don't need.
				11191	*/
				11192	if (output_event->clock != event->clock)
				11193	goto out;
				11194
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	11195	/*
Wang Nan	9ecda41	2016-04-05 14:11:18 +0000	[diff] [blame]	11196	* Either writing ring buffer from beginning or from end.
				11197	* Mixing is not allowed.
				11198	*/
				11199	if (is_write_backward(output_event) != is_write_backward(event))
				11200	goto out;
				11201
				11202	/*
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	11203	* If both events generate aux data, they must be on the same PMU
				11204	*/
				11205	if (has_aux(event) && has_aux(output_event) &&
				11206	event->pmu != output_event->pmu)
				11207	goto out;
				11208
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11209	set:
				11210	mutex_lock(&event->mmap_mutex);
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	11211	/* Can't redirect output if we've got an active mmap() */
				11212	if (atomic_read(&event->mmap_count))
				11213	goto unlock;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11214
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	11215	if (output_event) {
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	11216	/* get the rb we want to redirect to */
				11217	rb = ring_buffer_get(output_event);
				11218	if (!rb)
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	11219	goto unlock;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11220	}
				11221
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	11222	ring_buffer_attach(event, rb);
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	11223
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11224	ret = 0;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	11225	unlock:
				11226	mutex_unlock(&event->mmap_mutex);
				11227
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11228	out:
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11229	return ret;
				11230	}
				11231
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	11232	static void mutex_lock_double(struct mutex a, struct mutex b)
				11233	{
				11234	if (b < a)
				11235	swap(a, b);
				11236
				11237	mutex_lock(a);
				11238	mutex_lock_nested(b, SINGLE_DEPTH_NESTING);
				11239	}
				11240
Peter Zijlstra	34f4392	2015-02-20 14:05:38 +0100	[diff] [blame]	11241	static int perf_event_set_clock(struct perf_event *event, clockid_t clk_id)
				11242	{
				11243	bool nmi_safe = false;
				11244
				11245	switch (clk_id) {
				11246	case CLOCK_MONOTONIC:
				11247	event->clock = &ktime_get_mono_fast_ns;
				11248	nmi_safe = true;
				11249	break;
				11250
				11251	case CLOCK_MONOTONIC_RAW:
				11252	event->clock = &ktime_get_raw_fast_ns;
				11253	nmi_safe = true;
				11254	break;
				11255
				11256	case CLOCK_REALTIME:
				11257	event->clock = &ktime_get_real_ns;
				11258	break;
				11259
				11260	case CLOCK_BOOTTIME:
Jason A. Donenfeld	9285ec4	2019-06-21 22:32:48 +0200	[diff] [blame]	11261	event->clock = &ktime_get_boottime_ns;
Peter Zijlstra	34f4392	2015-02-20 14:05:38 +0100	[diff] [blame]	11262	break;
				11263
				11264	case CLOCK_TAI:
Jason A. Donenfeld	9285ec4	2019-06-21 22:32:48 +0200	[diff] [blame]	11265	event->clock = &ktime_get_clocktai_ns;
Peter Zijlstra	34f4392	2015-02-20 14:05:38 +0100	[diff] [blame]	11266	break;
				11267
				11268	default:
				11269	return -EINVAL;
				11270	}
				11271
				11272	if (!nmi_safe && !(event->pmu->capabilities & PERF_PMU_CAP_NO_NMI))
				11273	return -EINVAL;
				11274
				11275	return 0;
				11276	}
				11277
Peter Zijlstra	321027c	2017-01-11 21:09:50 +0100	[diff] [blame]	11278	/*
				11279	* Variation on perf_event_ctx_lock_nested(), except we take two context
				11280	* mutexes.
				11281	*/
				11282	static struct perf_event_context *
				11283	__perf_event_ctx_lock_double(struct perf_event *group_leader,
				11284	struct perf_event_context *ctx)
				11285	{
				11286	struct perf_event_context *gctx;
				11287
				11288	again:
				11289	rcu_read_lock();
				11290	gctx = READ_ONCE(group_leader->ctx);
Elena Reshetova	8c94abb	2019-01-28 14:27:26 +0200	[diff] [blame]	11291	if (!refcount_inc_not_zero(&gctx->refcount)) {
Peter Zijlstra	321027c	2017-01-11 21:09:50 +0100	[diff] [blame]	11292	rcu_read_unlock();
				11293	goto again;
				11294	}
				11295	rcu_read_unlock();
				11296
				11297	mutex_lock_double(&gctx->mutex, &ctx->mutex);
				11298
				11299	if (group_leader->ctx != gctx) {
				11300	mutex_unlock(&ctx->mutex);
				11301	mutex_unlock(&gctx->mutex);
				11302	put_ctx(gctx);
				11303	goto again;
				11304	}
				11305
				11306	return gctx;
				11307	}
				11308
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11309	/**
				11310	* sys_perf_event_open - open a performance event, associate it to a task/cpu
				11311	*
				11312	* @attr_uptr: event_id type attributes for monitoring/sampling
				11313	* @pid: target pid
				11314	* @cpu: target cpu
				11315	* @group_fd: group leader event fd
				11316	*/
				11317	SYSCALL_DEFINE5(perf_event_open,
				11318	struct perf_event_attr __user *, attr_uptr,
				11319	pid_t, pid, int, cpu, int, group_fd, unsigned long, flags)
				11320	{
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	11321	struct perf_event group_leader = NULL, output_event = NULL;
				11322	struct perf_event event, sibling;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11323	struct perf_event_attr attr;
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	11324	struct perf_event_context ctx, uninitialized_var(gctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11325	struct file *event_file = NULL;
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	11326	struct fd group = {NULL, 0};
Matt Helsley	38a81da	2010-09-13 13:01:20 -0700	[diff] [blame]	11327	struct task_struct *task = NULL;
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	11328	struct pmu *pmu;
Al Viro	ea635c6	2010-05-26 17:40:29 -0400	[diff] [blame]	11329	int event_fd;
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	11330	int move_group = 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11331	int err;
Yann Droneaud	a21b0b3	2014-01-05 21:36:33 +0100	[diff] [blame]	11332	int f_flags = O_RDWR;
Matt Fleming	79dff51	2015-01-23 18:45:42 +0000	[diff] [blame]	11333	int cgroup_fd = -1;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11334
				11335	/* for future expandability... */
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	11336	if (flags & ~PERF_FLAG_ALL)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11337	return -EINVAL;
				11338
Joel Fernandes (Google)	da97e18	2019-10-14 13:03:08 -0400	[diff] [blame]	11339	/* Do we allow access to perf_event_open(2) ? */
				11340	err = security_perf_event_open(&attr, PERF_SECURITY_OPEN);
				11341	if (err)
				11342	return err;
				11343
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11344	err = perf_copy_attr(attr_uptr, &attr);
				11345	if (err)
				11346	return err;
				11347
				11348	if (!attr.exclude_kernel) {
Joel Fernandes (Google)	da97e18	2019-10-14 13:03:08 -0400	[diff] [blame]	11349	err = perf_allow_kernel(&attr);
				11350	if (err)
				11351	return err;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11352	}
				11353
Hari Bathini	e422267	2017-03-08 02:11:36 +0530	[diff] [blame]	11354	if (attr.namespaces) {
				11355	if (!capable(CAP_SYS_ADMIN))
				11356	return -EACCES;
				11357	}
				11358
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11359	if (attr.freq) {
				11360	if (attr.sample_freq > sysctl_perf_event_sample_rate)
				11361	return -EINVAL;
Peter Zijlstra	0819b2e	2014-05-15 20:23:48 +0200	[diff] [blame]	11362	} else {
				11363	if (attr.sample_period & (1ULL << 63))
				11364	return -EINVAL;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11365	}
				11366
Kan Liang	fc7ce9c	2017-08-28 20:52:49 -0400	[diff] [blame]	11367	/* Only privileged users can get physical addresses */
Joel Fernandes (Google)	da97e18	2019-10-14 13:03:08 -0400	[diff] [blame]	11368	if ((attr.sample_type & PERF_SAMPLE_PHYS_ADDR)) {
				11369	err = perf_allow_kernel(&attr);
				11370	if (err)
				11371	return err;
				11372	}
Kan Liang	fc7ce9c	2017-08-28 20:52:49 -0400	[diff] [blame]	11373
David Howells	b0c8fdc	2019-08-19 17:18:00 -0700	[diff] [blame]	11374	err = security_locked_down(LOCKDOWN_PERF);
				11375	if (err && (attr.sample_type & PERF_SAMPLE_REGS_INTR))
				11376	/* REGS_INTR can leak data, lockdown must prevent this */
				11377	return err;
				11378
				11379	err = 0;
				11380
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	11381	/*
				11382	* In cgroup mode, the pid argument is used to pass the fd
				11383	* opened to the cgroup directory in cgroupfs. The cpu argument
				11384	* designates the cpu on which to monitor threads from that
				11385	* cgroup.
				11386	*/
				11387	if ((flags & PERF_FLAG_PID_CGROUP) && (pid == -1 \|\| cpu == -1))
				11388	return -EINVAL;
				11389
Yann Droneaud	a21b0b3	2014-01-05 21:36:33 +0100	[diff] [blame]	11390	if (flags & PERF_FLAG_FD_CLOEXEC)
				11391	f_flags \|= O_CLOEXEC;
				11392
				11393	event_fd = get_unused_fd_flags(f_flags);
Al Viro	ea635c6	2010-05-26 17:40:29 -0400	[diff] [blame]	11394	if (event_fd < 0)
				11395	return event_fd;
				11396
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	11397	if (group_fd != -1) {
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	11398	err = perf_fget_light(group_fd, &group);
				11399	if (err)
Stephane Eranian	d14b12d	2010-09-17 11:28:47 +0200	[diff] [blame]	11400	goto err_fd;
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	11401	group_leader = group.file->private_data;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	11402	if (flags & PERF_FLAG_FD_OUTPUT)
				11403	output_event = group_leader;
				11404	if (flags & PERF_FLAG_FD_NO_GROUP)
				11405	group_leader = NULL;
				11406	}
				11407
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	11408	if (pid != -1 && !(flags & PERF_FLAG_PID_CGROUP)) {
Peter Zijlstra	c6be5a5	2010-10-14 16:59:46 +0200	[diff] [blame]	11409	task = find_lively_task_by_vpid(pid);
				11410	if (IS_ERR(task)) {
				11411	err = PTR_ERR(task);
				11412	goto err_group_fd;
				11413	}
				11414	}
				11415
Peter Zijlstra	1f4ee50	2014-05-06 09:59:34 +0200	[diff] [blame]	11416	if (task && group_leader &&
				11417	group_leader->attr.inherit != attr.inherit) {
				11418	err = -EINVAL;
				11419	goto err_task;
				11420	}
				11421
Peter Zijlstra	79c9ce5	2016-04-26 11:36:53 +0200	[diff] [blame]	11422	if (task) {
				11423	err = mutex_lock_interruptible(&task->signal->cred_guard_mutex);
				11424	if (err)
Alexander Levin	e5aeee5	2017-06-03 03:39:13 +0000	[diff] [blame]	11425	goto err_task;
Peter Zijlstra	79c9ce5	2016-04-26 11:36:53 +0200	[diff] [blame]	11426
				11427	/*
				11428	* Reuse ptrace permission checks for now.
				11429	*
				11430	* We must hold cred_guard_mutex across this and any potential
				11431	* perf_install_in_context() call for this new event to
				11432	* serialize against exec() altering our credentials (and the
				11433	* perf_event_exit_task() that could imply).
				11434	*/
				11435	err = -EACCES;
				11436	if (!ptrace_may_access(task, PTRACE_MODE_READ_REALCREDS))
				11437	goto err_cred;
				11438	}
				11439
Matt Fleming	79dff51	2015-01-23 18:45:42 +0000	[diff] [blame]	11440	if (flags & PERF_FLAG_PID_CGROUP)
				11441	cgroup_fd = pid;
				11442
Avi Kivity	4dc0da8	2011-06-29 18:42:35 +0300	[diff] [blame]	11443	event = perf_event_alloc(&attr, cpu, task, group_leader, NULL,
Matt Fleming	79dff51	2015-01-23 18:45:42 +0000	[diff] [blame]	11444	NULL, NULL, cgroup_fd);
Stephane Eranian	d14b12d	2010-09-17 11:28:47 +0200	[diff] [blame]	11445	if (IS_ERR(event)) {
				11446	err = PTR_ERR(event);
Peter Zijlstra	79c9ce5	2016-04-26 11:36:53 +0200	[diff] [blame]	11447	goto err_cred;
Stephane Eranian	d14b12d	2010-09-17 11:28:47 +0200	[diff] [blame]	11448	}
				11449
Vince Weaver	53b2533	2014-05-16 17:12:12 -0400	[diff] [blame]	11450	if (is_sampling_event(event)) {
				11451	if (event->pmu->capabilities & PERF_PMU_CAP_NO_INTERRUPT) {
Vineet Gupta	a139655	2016-05-09 15:07:40 +0530	[diff] [blame]	11452	err = -EOPNOTSUPP;
Vince Weaver	53b2533	2014-05-16 17:12:12 -0400	[diff] [blame]	11453	goto err_alloc;
				11454	}
				11455	}
				11456
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11457	/*
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	11458	* Special case software events and allow them to be part of
				11459	* any hardware group.
				11460	*/
				11461	pmu = event->pmu;
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	11462
Peter Zijlstra	34f4392	2015-02-20 14:05:38 +0100	[diff] [blame]	11463	if (attr.use_clockid) {
				11464	err = perf_event_set_clock(event, attr.clockid);
				11465	if (err)
				11466	goto err_alloc;
				11467	}
				11468
David Carrillo-Cisneros	4ff6a8d	2016-08-17 13:55:05 -0700	[diff] [blame]	11469	if (pmu->task_ctx_nr == perf_sw_context)
				11470	event->event_caps \|= PERF_EV_CAP_SOFTWARE;
				11471
Song Liu	a1150c2	2018-05-03 12:47:16 -0700	[diff] [blame]	11472	if (group_leader) {
				11473	if (is_software_event(event) &&
				11474	!in_software_context(group_leader)) {
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	11475	/*
Song Liu	a1150c2	2018-05-03 12:47:16 -0700	[diff] [blame]	11476	* If the event is a sw event, but the group_leader
				11477	* is on hw context.
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	11478	*
Song Liu	a1150c2	2018-05-03 12:47:16 -0700	[diff] [blame]	11479	* Allow the addition of software events to hw
				11480	* groups, this is safe because software events
				11481	* never fail to schedule.
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	11482	*/
Song Liu	a1150c2	2018-05-03 12:47:16 -0700	[diff] [blame]	11483	pmu = group_leader->ctx->pmu;
				11484	} else if (!is_software_event(event) &&
				11485	is_software_event(group_leader) &&
David Carrillo-Cisneros	4ff6a8d	2016-08-17 13:55:05 -0700	[diff] [blame]	11486	(group_leader->group_caps & PERF_EV_CAP_SOFTWARE)) {
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	11487	/*
				11488	* In case the group is a pure software group, and we
				11489	* try to add a hardware event, move the whole group to
				11490	* the hardware context.
				11491	*/
				11492	move_group = 1;
				11493	}
				11494	}
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	11495
				11496	/*
				11497	* Get the target context (task or percpu):
				11498	*/
Yan, Zheng	4af57ef	2014-11-04 21:56:01 -0500	[diff] [blame]	11499	ctx = find_get_context(pmu, task, event);
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	11500	if (IS_ERR(ctx)) {
				11501	err = PTR_ERR(ctx);
Peter Zijlstra	c6be5a5	2010-10-14 16:59:46 +0200	[diff] [blame]	11502	goto err_alloc;
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	11503	}
				11504
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11505	/*
				11506	* Look up the group leader (we will attach this event to it):
				11507	*/
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	11508	if (group_leader) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11509	err = -EINVAL;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11510
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11511	/*
				11512	* Do not allow a recursive hierarchy (this new sibling
				11513	* becoming part of another group-sibling):
				11514	*/
				11515	if (group_leader->group_leader != group_leader)
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	11516	goto err_context;
Peter Zijlstra	34f4392	2015-02-20 14:05:38 +0100	[diff] [blame]	11517
				11518	/* All events in a group should have the same clock */
				11519	if (group_leader->clock != event->clock)
				11520	goto err_context;
				11521
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11522	/*
Mark Rutland	64aee2a	2017-06-22 15:41:38 +0100	[diff] [blame]	11523	* Make sure we're both events for the same CPU;
				11524	* grouping events for different CPUs is broken; since
				11525	* you can never concurrently schedule them anyhow.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11526	*/
Mark Rutland	64aee2a	2017-06-22 15:41:38 +0100	[diff] [blame]	11527	if (group_leader->cpu != event->cpu)
				11528	goto err_context;
Peter Zijlstra	c3c87e7	2015-01-23 11:19:48 +0100	[diff] [blame]	11529
Mark Rutland	64aee2a	2017-06-22 15:41:38 +0100	[diff] [blame]	11530	/*
				11531	* Make sure we're both on the same task, or both
				11532	* per-CPU events.
				11533	*/
				11534	if (group_leader->ctx->task != ctx->task)
				11535	goto err_context;
				11536
				11537	/*
				11538	* Do not allow to attach to a group in a different task
				11539	* or CPU context. If we're moving SW events, we'll fix
				11540	* this up later, so allow that.
				11541	*/
				11542	if (!move_group && group_leader->ctx != ctx)
				11543	goto err_context;
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	11544
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11545	/*
				11546	* Only a group leader can be exclusive or pinned
				11547	*/
				11548	if (attr.exclusive \|\| attr.pinned)
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	11549	goto err_context;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	11550	}
				11551
				11552	if (output_event) {
				11553	err = perf_event_set_output(event, output_event);
				11554	if (err)
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	11555	goto err_context;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	11556	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11557
Yann Droneaud	a21b0b3	2014-01-05 21:36:33 +0100	[diff] [blame]	11558	event_file = anon_inode_getfile("[perf_event]", &perf_fops, event,
				11559	f_flags);
Al Viro	ea635c6	2010-05-26 17:40:29 -0400	[diff] [blame]	11560	if (IS_ERR(event_file)) {
				11561	err = PTR_ERR(event_file);
Alexander Shishkin	201c2f8	2016-03-21 10:02:42 +0200	[diff] [blame]	11562	event_file = NULL;
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	11563	goto err_context;
Al Viro	ea635c6	2010-05-26 17:40:29 -0400	[diff] [blame]	11564	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11565
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	11566	if (move_group) {
Peter Zijlstra	321027c	2017-01-11 21:09:50 +0100	[diff] [blame]	11567	gctx = __perf_event_ctx_lock_double(group_leader, ctx);
				11568
Peter Zijlstra	84c4e62	2016-02-24 18:45:40 +0100	[diff] [blame]	11569	if (gctx->task == TASK_TOMBSTONE) {
				11570	err = -ESRCH;
				11571	goto err_locked;
				11572	}
Peter Zijlstra	321027c	2017-01-11 21:09:50 +0100	[diff] [blame]	11573
				11574	/*
				11575	* Check if we raced against another sys_perf_event_open() call
				11576	* moving the software group underneath us.
				11577	*/
				11578	if (!(group_leader->group_caps & PERF_EV_CAP_SOFTWARE)) {
				11579	/*
				11580	* If someone moved the group out from under us, check
				11581	* if this new event wound up on the same ctx, if so
				11582	* its the regular !move_group case, otherwise fail.
				11583	*/
				11584	if (gctx != ctx) {
				11585	err = -EINVAL;
				11586	goto err_locked;
				11587	} else {
				11588	perf_event_ctx_unlock(group_leader, gctx);
				11589	move_group = 0;
				11590	}
				11591	}
Alexander Shishkin	8a58dda	2019-07-01 14:07:55 +0300	[diff] [blame]	11592
				11593	/*
				11594	* Failure to create exclusive events returns -EBUSY.
				11595	*/
				11596	err = -EBUSY;
				11597	if (!exclusive_event_installable(group_leader, ctx))
				11598	goto err_locked;
				11599
				11600	for_each_sibling_event(sibling, group_leader) {
				11601	if (!exclusive_event_installable(sibling, ctx))
				11602	goto err_locked;
				11603	}
Peter Zijlstra	f55fc2a	2015-09-09 19:06:33 +0200	[diff] [blame]	11604	} else {
				11605	mutex_lock(&ctx->mutex);
				11606	}
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	11607
Peter Zijlstra	84c4e62	2016-02-24 18:45:40 +0100	[diff] [blame]	11608	if (ctx->task == TASK_TOMBSTONE) {
				11609	err = -ESRCH;
				11610	goto err_locked;
				11611	}
				11612
Peter Zijlstra	a723968	2015-09-09 19:06:33 +0200	[diff] [blame]	11613	if (!perf_event_validate_size(event)) {
				11614	err = -E2BIG;
				11615	goto err_locked;
				11616	}
				11617
Thomas Gleixner	a63fbed	2017-05-24 10:15:34 +0200	[diff] [blame]	11618	if (!task) {
				11619	/*
				11620	* Check if the @cpu we're creating an event for is online.
				11621	*
				11622	* We use the perf_cpu_context::ctx::mutex to serialize against
				11623	* the hotplug notifiers. See perf_event_{init,exit}_cpu().
				11624	*/
				11625	struct perf_cpu_context *cpuctx =
				11626	container_of(ctx, struct perf_cpu_context, ctx);
				11627
				11628	if (!cpuctx->online) {
				11629	err = -ENODEV;
				11630	goto err_locked;
				11631	}
				11632	}
				11633
Mark Rutland	da9ec3d	2020-01-06 12:03:39 +0000	[diff] [blame]	11634	if (perf_need_aux_event(event) && !perf_get_aux_event(event, group_leader)) {
				11635	err = -EINVAL;
Alexander Shishkin	ab43762	2019-08-06 11:46:00 +0300	[diff] [blame]	11636	goto err_locked;
Mark Rutland	da9ec3d	2020-01-06 12:03:39 +0000	[diff] [blame]	11637	}
Thomas Gleixner	a63fbed	2017-05-24 10:15:34 +0200	[diff] [blame]	11638
Peter Zijlstra	f55fc2a	2015-09-09 19:06:33 +0200	[diff] [blame]	11639	/*
				11640	* Must be under the same ctx::mutex as perf_install_in_context(),
				11641	* because we need to serialize with concurrent event creation.
				11642	*/
				11643	if (!exclusive_event_installable(event, ctx)) {
Peter Zijlstra	f55fc2a	2015-09-09 19:06:33 +0200	[diff] [blame]	11644	err = -EBUSY;
				11645	goto err_locked;
				11646	}
				11647
				11648	WARN_ON_ONCE(ctx->parent_ctx);
				11649
Peter Zijlstra	79c9ce5	2016-04-26 11:36:53 +0200	[diff] [blame]	11650	/*
				11651	* This is the point on no return; we cannot fail hereafter. This is
				11652	* where we start modifying current state.
				11653	*/
				11654
Peter Zijlstra	f55fc2a	2015-09-09 19:06:33 +0200	[diff] [blame]	11655	if (move_group) {
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	11656	/*
				11657	* See perf_event_ctx_lock() for comments on the details
				11658	* of swizzling perf_event::ctx.
				11659	*/
Peter Zijlstra	45a0e07	2016-01-26 13:09:48 +0100	[diff] [blame]	11660	perf_remove_from_context(group_leader, 0);
Peter Zijlstra	279b516	2017-02-16 10:28:37 +0100	[diff] [blame]	11661	put_ctx(gctx);
Jiri Olsa	0231bb5	2013-02-01 11:23:45 +0100	[diff] [blame]	11662
Peter Zijlstra	edb3959	2018-03-15 17:36:56 +0100	[diff] [blame]	11663	for_each_sibling_event(sibling, group_leader) {
Peter Zijlstra	45a0e07	2016-01-26 13:09:48 +0100	[diff] [blame]	11664	perf_remove_from_context(sibling, 0);
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	11665	put_ctx(gctx);
				11666	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11667
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	11668	/*
				11669	* Wait for everybody to stop referencing the events through
				11670	* the old lists, before installing it on new lists.
				11671	*/
Yan, Zheng	0cda4c0	2012-06-15 14:31:33 +0800	[diff] [blame]	11672	synchronize_rcu();
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	11673
Peter Zijlstra (Intel)	8f95b43	2015-01-27 11:53:12 +0100	[diff] [blame]	11674	/*
				11675	* Install the group siblings before the group leader.
				11676	*
				11677	* Because a group leader will try and install the entire group
				11678	* (through the sibling list, which is still in-tact), we can
				11679	* end up with siblings installed in the wrong context.
				11680	*
				11681	* By installing siblings first we NO-OP because they're not
				11682	* reachable through the group lists.
				11683	*/
Peter Zijlstra	edb3959	2018-03-15 17:36:56 +0100	[diff] [blame]	11684	for_each_sibling_event(sibling, group_leader) {
Peter Zijlstra (Intel)	8f95b43	2015-01-27 11:53:12 +0100	[diff] [blame]	11685	perf_event__state_init(sibling);
Jiri Olsa	9fc81d8	2014-12-10 21:23:51 +0100	[diff] [blame]	11686	perf_install_in_context(ctx, sibling, sibling->cpu);
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	11687	get_ctx(ctx);
				11688	}
Peter Zijlstra (Intel)	8f95b43	2015-01-27 11:53:12 +0100	[diff] [blame]	11689
				11690	/*
				11691	* Removing from the context ends up with disabled
				11692	* event. What we want here is event in the initial
				11693	* startup state, ready to be add into new context.
				11694	*/
				11695	perf_event__state_init(group_leader);
				11696	perf_install_in_context(ctx, group_leader, group_leader->cpu);
				11697	get_ctx(ctx);
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	11698	}
				11699
Peter Zijlstra	f73e22a	2015-09-09 20:48:22 +0200	[diff] [blame]	11700	/*
				11701	* Precalculate sample_data sizes; do while holding ctx::mutex such
				11702	* that we're serialized against further additions and before
				11703	* perf_install_in_context() which is the point the event is active and
				11704	* can use these values.
				11705	*/
				11706	perf_event__header_size(event);
				11707	perf_event__id_header_size(event);
Alexander Shishkin	bed5b25	2015-01-30 12:31:06 +0200	[diff] [blame]	11708
Peter Zijlstra	78cd2c7	2016-01-25 14:08:45 +0100	[diff] [blame]	11709	event->owner = current;
				11710
Yan, Zheng	e2d37cd	2012-06-15 14:31:32 +0800	[diff] [blame]	11711	perf_install_in_context(ctx, event, event->cpu);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	11712	perf_unpin_context(ctx);
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	11713
Peter Zijlstra	f55fc2a	2015-09-09 19:06:33 +0200	[diff] [blame]	11714	if (move_group)
Peter Zijlstra	321027c	2017-01-11 21:09:50 +0100	[diff] [blame]	11715	perf_event_ctx_unlock(group_leader, gctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11716	mutex_unlock(&ctx->mutex);
				11717
Peter Zijlstra	79c9ce5	2016-04-26 11:36:53 +0200	[diff] [blame]	11718	if (task) {
				11719	mutex_unlock(&task->signal->cred_guard_mutex);
				11720	put_task_struct(task);
				11721	}
				11722
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11723	mutex_lock(&current->perf_event_mutex);
				11724	list_add_tail(&event->owner_entry, &current->perf_event_list);
				11725	mutex_unlock(&current->perf_event_mutex);
				11726
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	11727	/*
				11728	* Drop the reference on the group_event after placing the
				11729	* new event on the sibling_list. This ensures destruction
				11730	* of the group leader will find the pointer to itself in
				11731	* perf_group_detach().
				11732	*/
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	11733	fdput(group);
Al Viro	ea635c6	2010-05-26 17:40:29 -0400	[diff] [blame]	11734	fd_install(event_fd, event_file);
				11735	return event_fd;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11736
Peter Zijlstra	f55fc2a	2015-09-09 19:06:33 +0200	[diff] [blame]	11737	err_locked:
				11738	if (move_group)
Peter Zijlstra	321027c	2017-01-11 21:09:50 +0100	[diff] [blame]	11739	perf_event_ctx_unlock(group_leader, gctx);
Peter Zijlstra	f55fc2a	2015-09-09 19:06:33 +0200	[diff] [blame]	11740	mutex_unlock(&ctx->mutex);
				11741	/* err_file: */
				11742	fput(event_file);
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	11743	err_context:
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	11744	perf_unpin_context(ctx);
Al Viro	ea635c6	2010-05-26 17:40:29 -0400	[diff] [blame]	11745	put_ctx(ctx);
Peter Zijlstra	c6be5a5	2010-10-14 16:59:46 +0200	[diff] [blame]	11746	err_alloc:
Peter Zijlstra	1300562	2016-02-24 18:45:41 +0100	[diff] [blame]	11747	/*
				11748	* If event_file is set, the fput() above will have called ->release()
				11749	* and that will take care of freeing the event.
				11750	*/
				11751	if (!event_file)
				11752	free_event(event);
Peter Zijlstra	79c9ce5	2016-04-26 11:36:53 +0200	[diff] [blame]	11753	err_cred:
				11754	if (task)
				11755	mutex_unlock(&task->signal->cred_guard_mutex);
Peter Zijlstra	1f4ee50	2014-05-06 09:59:34 +0200	[diff] [blame]	11756	err_task:
Peter Zijlstra	e7d0bc0	2010-10-14 16:54:51 +0200	[diff] [blame]	11757	if (task)
				11758	put_task_struct(task);
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	11759	err_group_fd:
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	11760	fdput(group);
Al Viro	ea635c6	2010-05-26 17:40:29 -0400	[diff] [blame]	11761	err_fd:
				11762	put_unused_fd(event_fd);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11763	return err;
				11764	}
				11765
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	11766	/**
				11767	* perf_event_create_kernel_counter
				11768	*
				11769	* @attr: attributes of the counter to create
				11770	* @cpu: cpu in which the counter is bound
Matt Helsley	38a81da	2010-09-13 13:01:20 -0700	[diff] [blame]	11771	* @task: task to profile (NULL for percpu)
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	11772	*/
				11773	struct perf_event *
				11774	perf_event_create_kernel_counter(struct perf_event_attr *attr, int cpu,
Matt Helsley	38a81da	2010-09-13 13:01:20 -0700	[diff] [blame]	11775	struct task_struct *task,
Avi Kivity	4dc0da8	2011-06-29 18:42:35 +0300	[diff] [blame]	11776	perf_overflow_handler_t overflow_handler,
				11777	void *context)
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	11778	{
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	11779	struct perf_event_context *ctx;
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	11780	struct perf_event *event;
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	11781	int err;
				11782
Alexander Shishkin	dce5aff	2019-10-30 15:47:31 +0200	[diff] [blame]	11783	/*
				11784	* Grouping is not supported for kernel events, neither is 'AUX',
				11785	* make sure the caller's intentions are adjusted.
				11786	*/
				11787	if (attr->aux_output)
				11788	return ERR_PTR(-EINVAL);
				11789
Avi Kivity	4dc0da8	2011-06-29 18:42:35 +0300	[diff] [blame]	11790	event = perf_event_alloc(attr, cpu, task, NULL, NULL,
Matt Fleming	79dff51	2015-01-23 18:45:42 +0000	[diff] [blame]	11791	overflow_handler, context, -1);
Frederic Weisbecker	c6567f6	2009-11-26 05:35:41 +0100	[diff] [blame]	11792	if (IS_ERR(event)) {
				11793	err = PTR_ERR(event);
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	11794	goto err;
				11795	}
				11796
Jiri Olsa	f869776	2014-08-01 14:33:01 +0200	[diff] [blame]	11797	/* Mark owner so we could distinguish it from user events. */
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	11798	event->owner = TASK_TOMBSTONE;
Jiri Olsa	f869776	2014-08-01 14:33:01 +0200	[diff] [blame]	11799
Alexander Shishkin	f25d8ba	2019-10-30 15:47:30 +0200	[diff] [blame]	11800	/*
				11801	* Get the target context (task or percpu):
				11802	*/
Yan, Zheng	4af57ef	2014-11-04 21:56:01 -0500	[diff] [blame]	11803	ctx = find_get_context(event->pmu, task, event);
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	11804	if (IS_ERR(ctx)) {
				11805	err = PTR_ERR(ctx);
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	11806	goto err_free;
Frederic Weisbecker	c6567f6	2009-11-26 05:35:41 +0100	[diff] [blame]	11807	}
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	11808
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	11809	WARN_ON_ONCE(ctx->parent_ctx);
				11810	mutex_lock(&ctx->mutex);
Peter Zijlstra	84c4e62	2016-02-24 18:45:40 +0100	[diff] [blame]	11811	if (ctx->task == TASK_TOMBSTONE) {
				11812	err = -ESRCH;
				11813	goto err_unlock;
				11814	}
				11815
Thomas Gleixner	a63fbed	2017-05-24 10:15:34 +0200	[diff] [blame]	11816	if (!task) {
				11817	/*
				11818	* Check if the @cpu we're creating an event for is online.
				11819	*
				11820	* We use the perf_cpu_context::ctx::mutex to serialize against
				11821	* the hotplug notifiers. See perf_event_{init,exit}_cpu().
				11822	*/
				11823	struct perf_cpu_context *cpuctx =
				11824	container_of(ctx, struct perf_cpu_context, ctx);
				11825	if (!cpuctx->online) {
				11826	err = -ENODEV;
				11827	goto err_unlock;
				11828	}
				11829	}
				11830
Alexander Shishkin	bed5b25	2015-01-30 12:31:06 +0200	[diff] [blame]	11831	if (!exclusive_event_installable(event, ctx)) {
Alexander Shishkin	bed5b25	2015-01-30 12:31:06 +0200	[diff] [blame]	11832	err = -EBUSY;
Peter Zijlstra	84c4e62	2016-02-24 18:45:40 +0100	[diff] [blame]	11833	goto err_unlock;
Alexander Shishkin	bed5b25	2015-01-30 12:31:06 +0200	[diff] [blame]	11834	}
				11835
Leonard Crestez	4ce54af	2019-07-24 15:53:24 +0300	[diff] [blame]	11836	perf_install_in_context(ctx, event, event->cpu);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	11837	perf_unpin_context(ctx);
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	11838	mutex_unlock(&ctx->mutex);
				11839
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	11840	return event;
				11841
Peter Zijlstra	84c4e62	2016-02-24 18:45:40 +0100	[diff] [blame]	11842	err_unlock:
				11843	mutex_unlock(&ctx->mutex);
				11844	perf_unpin_context(ctx);
				11845	put_ctx(ctx);
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	11846	err_free:
				11847	free_event(event);
				11848	err:
Frederic Weisbecker	c6567f6	2009-11-26 05:35:41 +0100	[diff] [blame]	11849	return ERR_PTR(err);
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	11850	}
				11851	EXPORT_SYMBOL_GPL(perf_event_create_kernel_counter);
				11852
Yan, Zheng	0cda4c0	2012-06-15 14:31:33 +0800	[diff] [blame]	11853	void perf_pmu_migrate_context(struct pmu *pmu, int src_cpu, int dst_cpu)
				11854	{
				11855	struct perf_event_context *src_ctx;
				11856	struct perf_event_context *dst_ctx;
				11857	struct perf_event event, tmp;
				11858	LIST_HEAD(events);
				11859
				11860	src_ctx = &per_cpu_ptr(pmu->pmu_cpu_context, src_cpu)->ctx;
				11861	dst_ctx = &per_cpu_ptr(pmu->pmu_cpu_context, dst_cpu)->ctx;
				11862
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	11863	/*
				11864	* See perf_event_ctx_lock() for comments on the details
				11865	* of swizzling perf_event::ctx.
				11866	*/
				11867	mutex_lock_double(&src_ctx->mutex, &dst_ctx->mutex);
Yan, Zheng	0cda4c0	2012-06-15 14:31:33 +0800	[diff] [blame]	11868	list_for_each_entry_safe(event, tmp, &src_ctx->event_list,
				11869	event_entry) {
Peter Zijlstra	45a0e07	2016-01-26 13:09:48 +0100	[diff] [blame]	11870	perf_remove_from_context(event, 0);
Frederic Weisbecker	9a545de	2013-07-23 02:31:03 +0200	[diff] [blame]	11871	unaccount_event_cpu(event, src_cpu);
Yan, Zheng	0cda4c0	2012-06-15 14:31:33 +0800	[diff] [blame]	11872	put_ctx(src_ctx);
Peter Zijlstra	9886167	2013-10-03 16:02:23 +0200	[diff] [blame]	11873	list_add(&event->migrate_entry, &events);
Yan, Zheng	0cda4c0	2012-06-15 14:31:33 +0800	[diff] [blame]	11874	}
Yan, Zheng	0cda4c0	2012-06-15 14:31:33 +0800	[diff] [blame]	11875
Peter Zijlstra (Intel)	8f95b43	2015-01-27 11:53:12 +0100	[diff] [blame]	11876	/*
				11877	* Wait for the events to quiesce before re-instating them.
				11878	*/
Yan, Zheng	0cda4c0	2012-06-15 14:31:33 +0800	[diff] [blame]	11879	synchronize_rcu();
				11880
Peter Zijlstra (Intel)	8f95b43	2015-01-27 11:53:12 +0100	[diff] [blame]	11881	/*
				11882	* Re-instate events in 2 passes.
				11883	*
				11884	* Skip over group leaders and only install siblings on this first
				11885	* pass, siblings will not get enabled without a leader, however a
				11886	* leader will enable its siblings, even if those are still on the old
				11887	* context.
				11888	*/
				11889	list_for_each_entry_safe(event, tmp, &events, migrate_entry) {
				11890	if (event->group_leader == event)
				11891	continue;
				11892
				11893	list_del(&event->migrate_entry);
				11894	if (event->state >= PERF_EVENT_STATE_OFF)
				11895	event->state = PERF_EVENT_STATE_INACTIVE;
				11896	account_event_cpu(event, dst_cpu);
				11897	perf_install_in_context(dst_ctx, event, dst_cpu);
				11898	get_ctx(dst_ctx);
				11899	}
				11900
				11901	/*
				11902	* Once all the siblings are setup properly, install the group leaders
				11903	* to make it go.
				11904	*/
Peter Zijlstra	9886167	2013-10-03 16:02:23 +0200	[diff] [blame]	11905	list_for_each_entry_safe(event, tmp, &events, migrate_entry) {
				11906	list_del(&event->migrate_entry);
Yan, Zheng	0cda4c0	2012-06-15 14:31:33 +0800	[diff] [blame]	11907	if (event->state >= PERF_EVENT_STATE_OFF)
				11908	event->state = PERF_EVENT_STATE_INACTIVE;
Frederic Weisbecker	9a545de	2013-07-23 02:31:03 +0200	[diff] [blame]	11909	account_event_cpu(event, dst_cpu);
Yan, Zheng	0cda4c0	2012-06-15 14:31:33 +0800	[diff] [blame]	11910	perf_install_in_context(dst_ctx, event, dst_cpu);
				11911	get_ctx(dst_ctx);
				11912	}
				11913	mutex_unlock(&dst_ctx->mutex);
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	11914	mutex_unlock(&src_ctx->mutex);
Yan, Zheng	0cda4c0	2012-06-15 14:31:33 +0800	[diff] [blame]	11915	}
				11916	EXPORT_SYMBOL_GPL(perf_pmu_migrate_context);
				11917
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11918	static void sync_child_event(struct perf_event *child_event,
				11919	struct task_struct *child)
				11920	{
				11921	struct perf_event *parent_event = child_event->parent;
				11922	u64 child_val;
				11923
				11924	if (child_event->attr.inherit_stat)
				11925	perf_event_read_event(child_event, child);
				11926
Peter Zijlstra	b5e5879	2010-05-21 14:43:12 +0200	[diff] [blame]	11927	child_val = perf_event_count(child_event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11928
				11929	/*
				11930	* Add back the child's count to the parent's count:
				11931	*/
Peter Zijlstra	a6e6dea	2010-05-21 14:27:58 +0200	[diff] [blame]	11932	atomic64_add(child_val, &parent_event->child_count);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11933	atomic64_add(child_event->total_time_enabled,
				11934	&parent_event->child_total_time_enabled);
				11935	atomic64_add(child_event->total_time_running,
				11936	&parent_event->child_total_time_running);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11937	}
				11938
				11939	static void
Peter Zijlstra	8ba289b	2016-01-26 13:06:56 +0100	[diff] [blame]	11940	perf_event_exit_event(struct perf_event *child_event,
				11941	struct perf_event_context *child_ctx,
				11942	struct task_struct *child)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11943	{
Peter Zijlstra	8ba289b	2016-01-26 13:06:56 +0100	[diff] [blame]	11944	struct perf_event *parent_event = child_event->parent;
				11945
Peter Zijlstra	1903d50	2014-07-15 17:27:27 +0200	[diff] [blame]	11946	/*
				11947	* Do not destroy the 'original' grouping; because of the context
				11948	* switch optimization the original events could've ended up in a
				11949	* random child task.
				11950	*
				11951	* If we were to destroy the original group, all group related
				11952	* operations would cease to function properly after this random
				11953	* child dies.
				11954	*
				11955	* Do destroy all inherited groups, we don't care about those
				11956	* and being thorough is better.
				11957	*/
Peter Zijlstra	32132a3	2016-01-11 15:40:59 +0100	[diff] [blame]	11958	raw_spin_lock_irq(&child_ctx->lock);
				11959	WARN_ON_ONCE(child_ctx->is_active);
				11960
Peter Zijlstra	8ba289b	2016-01-26 13:06:56 +0100	[diff] [blame]	11961	if (parent_event)
Peter Zijlstra	32132a3	2016-01-11 15:40:59 +0100	[diff] [blame]	11962	perf_group_detach(child_event);
				11963	list_del_event(child_event, child_ctx);
Peter Zijlstra	0d3d73a	2017-09-05 14:16:28 +0200	[diff] [blame]	11964	perf_event_set_state(child_event, PERF_EVENT_STATE_EXIT); /* is_event_hup() */
Peter Zijlstra	32132a3	2016-01-11 15:40:59 +0100	[diff] [blame]	11965	raw_spin_unlock_irq(&child_ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11966
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11967	/*
Peter Zijlstra	8ba289b	2016-01-26 13:06:56 +0100	[diff] [blame]	11968	* Parent events are governed by their filedesc, retain them.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11969	*/
Peter Zijlstra	8ba289b	2016-01-26 13:06:56 +0100	[diff] [blame]	11970	if (!parent_event) {
Jiri Olsa	179033b	2014-08-07 11:48:26 -0400	[diff] [blame]	11971	perf_event_wakeup(child_event);
Peter Zijlstra	8ba289b	2016-01-26 13:06:56 +0100	[diff] [blame]	11972	return;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11973	}
Peter Zijlstra	8ba289b	2016-01-26 13:06:56 +0100	[diff] [blame]	11974	/*
				11975	* Child events can be cleaned up.
				11976	*/
				11977
				11978	sync_child_event(child_event, child);
				11979
				11980	/*
				11981	* Remove this event from the parent's list
				11982	*/
				11983	WARN_ON_ONCE(parent_event->ctx->parent_ctx);
				11984	mutex_lock(&parent_event->child_mutex);
				11985	list_del_init(&child_event->child_list);
				11986	mutex_unlock(&parent_event->child_mutex);
				11987
				11988	/*
				11989	* Kick perf_poll() for is_event_hup().
				11990	*/
				11991	perf_event_wakeup(parent_event);
				11992	free_event(child_event);
				11993	put_event(parent_event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11994	}
				11995
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	11996	static void perf_event_exit_task_context(struct task_struct *child, int ctxn)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	11997	{
Peter Zijlstra	211de6e	2014-09-30 19:23:08 +0200	[diff] [blame]	11998	struct perf_event_context child_ctx, clone_ctx = NULL;
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	11999	struct perf_event child_event, next;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12000
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	12001	WARN_ON_ONCE(child != current);
				12002
Peter Zijlstra	6a3351b	2016-01-25 14:09:54 +0100	[diff] [blame]	12003	child_ctx = perf_pin_task_context(child, ctxn);
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	12004	if (!child_ctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12005	return;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12006
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12007	/*
Peter Zijlstra	6a3351b	2016-01-25 14:09:54 +0100	[diff] [blame]	12008	* In order to reduce the amount of tricky in ctx tear-down, we hold
				12009	* ctx::mutex over the entire thing. This serializes against almost
				12010	* everything that wants to access the ctx.
				12011	*
				12012	* The exception is sys_perf_event_open() /
				12013	* perf_event_create_kernel_count() which does find_get_context()
				12014	* without ctx::mutex (it cannot because of the move_group double mutex
				12015	* lock thing). See the comments in perf_install_in_context().
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12016	*/
Peter Zijlstra	6a3351b	2016-01-25 14:09:54 +0100	[diff] [blame]	12017	mutex_lock(&child_ctx->mutex);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12018
				12019	/*
Peter Zijlstra	6a3351b	2016-01-25 14:09:54 +0100	[diff] [blame]	12020	* In a single ctx::lock section, de-schedule the events and detach the
				12021	* context from the task such that we cannot ever get it scheduled back
				12022	* in.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12023	*/
Peter Zijlstra	6a3351b	2016-01-25 14:09:54 +0100	[diff] [blame]	12024	raw_spin_lock_irq(&child_ctx->lock);
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	12025	task_ctx_sched_out(__get_cpu_context(child_ctx), child_ctx, EVENT_ALL);
Peter Zijlstra	4a1c0f2	2014-06-23 16:12:42 +0200	[diff] [blame]	12026
				12027	/*
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	12028	* Now that the context is inactive, destroy the task <-> ctx relation
				12029	* and mark the context dead.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12030	*/
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	12031	RCU_INIT_POINTER(child->perf_event_ctxp[ctxn], NULL);
				12032	put_ctx(child_ctx); /* cannot be last */
				12033	WRITE_ONCE(child_ctx->task, TASK_TOMBSTONE);
				12034	put_task_struct(current); /* cannot be last */
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12035
Peter Zijlstra	211de6e	2014-09-30 19:23:08 +0200	[diff] [blame]	12036	clone_ctx = unclone_ctx(child_ctx);
Peter Zijlstra	6a3351b	2016-01-25 14:09:54 +0100	[diff] [blame]	12037	raw_spin_unlock_irq(&child_ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12038
Peter Zijlstra	211de6e	2014-09-30 19:23:08 +0200	[diff] [blame]	12039	if (clone_ctx)
				12040	put_ctx(clone_ctx);
Peter Zijlstra	4a1c0f2	2014-06-23 16:12:42 +0200	[diff] [blame]	12041
				12042	/*
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12043	* Report the task dead after unscheduling the events so that we
				12044	* won't get any samples after PERF_RECORD_EXIT. We can however still
				12045	* get a few PERF_RECORD_READ events.
				12046	*/
				12047	perf_event_task(child, child_ctx, 0);
				12048
Peter Zijlstra	ebf905f	2014-05-29 19:00:24 +0200	[diff] [blame]	12049	list_for_each_entry_safe(child_event, next, &child_ctx->event_list, event_entry)
Peter Zijlstra	8ba289b	2016-01-26 13:06:56 +0100	[diff] [blame]	12050	perf_event_exit_event(child_event, child_ctx, child);
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	12051
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12052	mutex_unlock(&child_ctx->mutex);
				12053
				12054	put_ctx(child_ctx);
				12055	}
				12056
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	12057	/*
				12058	* When a child task exits, feed back event values to parent events.
Peter Zijlstra	79c9ce5	2016-04-26 11:36:53 +0200	[diff] [blame]	12059	*
				12060	* Can be called with cred_guard_mutex held when called from
				12061	* install_exec_creds().
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	12062	*/
				12063	void perf_event_exit_task(struct task_struct *child)
				12064	{
Peter Zijlstra	8882135	2010-11-09 19:01:43 +0100	[diff] [blame]	12065	struct perf_event event, tmp;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	12066	int ctxn;
				12067
Peter Zijlstra	8882135	2010-11-09 19:01:43 +0100	[diff] [blame]	12068	mutex_lock(&child->perf_event_mutex);
				12069	list_for_each_entry_safe(event, tmp, &child->perf_event_list,
				12070	owner_entry) {
				12071	list_del_init(&event->owner_entry);
				12072
				12073	/*
				12074	* Ensure the list deletion is visible before we clear
				12075	* the owner, closes a race against perf_release() where
				12076	* we need to serialize on the owner->perf_event_mutex.
				12077	*/
Peter Zijlstra	f47c02c	2016-01-26 12:30:14 +0100	[diff] [blame]	12078	smp_store_release(&event->owner, NULL);
Peter Zijlstra	8882135	2010-11-09 19:01:43 +0100	[diff] [blame]	12079	}
				12080	mutex_unlock(&child->perf_event_mutex);
				12081
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	12082	for_each_task_context_nr(ctxn)
				12083	perf_event_exit_task_context(child, ctxn);
Jiri Olsa	4e93ad6	2015-11-04 16:00:05 +0100	[diff] [blame]	12084
				12085	/*
				12086	* The perf_event_exit_task_context calls perf_event_task
				12087	* with child's task_ctx, which generates EXIT events for
				12088	* child contexts and sets child->perf_event_ctxp[] to NULL.
				12089	* At this point we need to send EXIT events to cpu contexts.
				12090	*/
				12091	perf_event_task(child, NULL, 0);
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	12092	}
				12093
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	12094	static void perf_free_event(struct perf_event *event,
				12095	struct perf_event_context *ctx)
				12096	{
				12097	struct perf_event *parent = event->parent;
				12098
				12099	if (WARN_ON_ONCE(!parent))
				12100	return;
				12101
				12102	mutex_lock(&parent->child_mutex);
				12103	list_del_init(&event->child_list);
				12104	mutex_unlock(&parent->child_mutex);
				12105
Al Viro	a6fa941	2012-08-20 14:59:25 +0100	[diff] [blame]	12106	put_event(parent);
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	12107
Peter Zijlstra	652884f	2015-01-23 11:20:10 +0100	[diff] [blame]	12108	raw_spin_lock_irq(&ctx->lock);
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	12109	perf_group_detach(event);
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	12110	list_del_event(event, ctx);
Peter Zijlstra	652884f	2015-01-23 11:20:10 +0100	[diff] [blame]	12111	raw_spin_unlock_irq(&ctx->lock);
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	12112	free_event(event);
				12113	}
				12114
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12115	/*
Peter Zijlstra	1cf8dfe	2019-07-13 11:21:25 +0200	[diff] [blame]	12116	* Free a context as created by inheritance by perf_event_init_task() below,
				12117	* used by fork() in case of fail.
Peter Zijlstra	652884f	2015-01-23 11:20:10 +0100	[diff] [blame]	12118	*
Peter Zijlstra	1cf8dfe	2019-07-13 11:21:25 +0200	[diff] [blame]	12119	* Even though the task has never lived, the context and events have been
				12120	* exposed through the child_list, so we must take care tearing it all down.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12121	*/
				12122	void perf_event_free_task(struct task_struct *task)
				12123	{
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	12124	struct perf_event_context *ctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12125	struct perf_event event, tmp;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	12126	int ctxn;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12127
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	12128	for_each_task_context_nr(ctxn) {
				12129	ctx = task->perf_event_ctxp[ctxn];
				12130	if (!ctx)
				12131	continue;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12132
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	12133	mutex_lock(&ctx->mutex);
Peter Zijlstra	e552a83	2017-03-16 13:47:48 +0100	[diff] [blame]	12134	raw_spin_lock_irq(&ctx->lock);
				12135	/*
				12136	* Destroy the task <-> ctx relation and mark the context dead.
				12137	*
				12138	* This is important because even though the task hasn't been
				12139	* exposed yet the context has been (through child_list).
				12140	*/
				12141	RCU_INIT_POINTER(task->perf_event_ctxp[ctxn], NULL);
				12142	WRITE_ONCE(ctx->task, TASK_TOMBSTONE);
				12143	put_task_struct(task); /* cannot be last */
				12144	raw_spin_unlock_irq(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12145
Peter Zijlstra	15121c7	2017-03-16 13:47:50 +0100	[diff] [blame]	12146	list_for_each_entry_safe(event, tmp, &ctx->event_list, event_entry)
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	12147	perf_free_event(event, ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12148
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	12149	mutex_unlock(&ctx->mutex);
Peter Zijlstra	1cf8dfe	2019-07-13 11:21:25 +0200	[diff] [blame]	12150
				12151	/*
				12152	* perf_event_release_kernel() could've stolen some of our
				12153	* child events and still have them on its free_list. In that
				12154	* case we must wait for these events to have been freed (in
				12155	* particular all their references to this task must've been
				12156	* dropped).
				12157	*
				12158	* Without this copy_process() will unconditionally free this
				12159	* task (irrespective of its reference count) and
				12160	* _free_event()'s put_task_struct(event->hw.target) will be a
				12161	* use-after-free.
				12162	*
				12163	* Wait for all events to drop their context reference.
				12164	*/
				12165	wait_var_event(&ctx->refcount, refcount_read(&ctx->refcount) == 1);
				12166	put_ctx(ctx); /* must be last */
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	12167	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12168	}
				12169
Peter Zijlstra	4e231c7	2010-09-09 21:01:59 +0200	[diff] [blame]	12170	void perf_event_delayed_put(struct task_struct *task)
				12171	{
				12172	int ctxn;
				12173
				12174	for_each_task_context_nr(ctxn)
				12175	WARN_ON_ONCE(task->perf_event_ctxp[ctxn]);
				12176	}
				12177
Alexei Starovoitov	e03e7ee	2016-01-25 20:59:49 -0800	[diff] [blame]	12178	struct file *perf_event_get(unsigned int fd)
Kaixu Xia	ffe8690	2015-08-06 07:02:32 +0000	[diff] [blame]	12179	{
Al Viro	02e5ad9	2019-06-26 20:43:53 -0400	[diff] [blame]	12180	struct file *file = fget(fd);
Alexei Starovoitov	e03e7ee	2016-01-25 20:59:49 -0800	[diff] [blame]	12181	if (!file)
				12182	return ERR_PTR(-EBADF);
Kaixu Xia	ffe8690	2015-08-06 07:02:32 +0000	[diff] [blame]	12183
Alexei Starovoitov	e03e7ee	2016-01-25 20:59:49 -0800	[diff] [blame]	12184	if (file->f_op != &perf_fops) {
				12185	fput(file);
				12186	return ERR_PTR(-EBADF);
				12187	}
Kaixu Xia	ffe8690	2015-08-06 07:02:32 +0000	[diff] [blame]	12188
Alexei Starovoitov	e03e7ee	2016-01-25 20:59:49 -0800	[diff] [blame]	12189	return file;
Kaixu Xia	ffe8690	2015-08-06 07:02:32 +0000	[diff] [blame]	12190	}
				12191
Yonghong Song	f8d959a	2018-05-24 11:21:08 -0700	[diff] [blame]	12192	const struct perf_event perf_get_event(struct file file)
				12193	{
				12194	if (file->f_op != &perf_fops)
				12195	return ERR_PTR(-EINVAL);
				12196
				12197	return file->private_data;
				12198	}
				12199
Kaixu Xia	ffe8690	2015-08-06 07:02:32 +0000	[diff] [blame]	12200	const struct perf_event_attr perf_event_attrs(struct perf_event event)
				12201	{
				12202	if (!event)
				12203	return ERR_PTR(-EINVAL);
				12204
				12205	return &event->attr;
				12206	}
				12207
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	12208	/*
Tobias Tefke	788faab	2018-07-09 12:57:15 +0200	[diff] [blame]	12209	* Inherit an event from parent task to child task.
Peter Zijlstra	d8a8cfc	2017-03-16 13:47:51 +0100	[diff] [blame]	12210	*
				12211	* Returns:
				12212	* - valid pointer on success
				12213	* - NULL for orphaned events
				12214	* - IS_ERR() on error
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	12215	*/
				12216	static struct perf_event *
				12217	inherit_event(struct perf_event *parent_event,
				12218	struct task_struct *parent,
				12219	struct perf_event_context *parent_ctx,
				12220	struct task_struct *child,
				12221	struct perf_event *group_leader,
				12222	struct perf_event_context *child_ctx)
				12223	{
Peter Zijlstra	8ca2bd4	2017-09-05 14:12:35 +0200	[diff] [blame]	12224	enum perf_event_state parent_state = parent_event->state;
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	12225	struct perf_event *child_event;
Peter Zijlstra	cee010e	2010-09-10 12:51:54 +0200	[diff] [blame]	12226	unsigned long flags;
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	12227
				12228	/*
				12229	* Instead of creating recursive hierarchies of events,
				12230	* we link inherited events back to the original parent,
				12231	* which has a filp for sure, which we use as the reference
				12232	* count:
				12233	*/
				12234	if (parent_event->parent)
				12235	parent_event = parent_event->parent;
				12236
				12237	child_event = perf_event_alloc(&parent_event->attr,
				12238	parent_event->cpu,
Peter Zijlstra	d580ff8	2010-10-14 17:43:23 +0200	[diff] [blame]	12239	child,
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	12240	group_leader, parent_event,
Matt Fleming	79dff51	2015-01-23 18:45:42 +0000	[diff] [blame]	12241	NULL, NULL, -1);
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	12242	if (IS_ERR(child_event))
				12243	return child_event;
Al Viro	a6fa941	2012-08-20 14:59:25 +0100	[diff] [blame]	12244
Jiri Olsa	313ccb9	2018-01-07 17:03:47 +0100	[diff] [blame]	12245
				12246	if ((child_event->attach_state & PERF_ATTACH_TASK_DATA) &&
				12247	!child_ctx->task_ctx_data) {
				12248	struct pmu *pmu = child_event->pmu;
				12249
				12250	child_ctx->task_ctx_data = kzalloc(pmu->task_ctx_size,
				12251	GFP_KERNEL);
				12252	if (!child_ctx->task_ctx_data) {
				12253	free_event(child_event);
Alexander Shishkin	697d877	2019-11-05 09:57:02 +0200	[diff] [blame]	12254	return ERR_PTR(-ENOMEM);
Jiri Olsa	313ccb9	2018-01-07 17:03:47 +0100	[diff] [blame]	12255	}
				12256	}
				12257
Peter Zijlstra	c6e5b73	2016-01-15 16:07:41 +0200	[diff] [blame]	12258	/*
				12259	* is_orphaned_event() and list_add_tail(&parent_event->child_list)
				12260	* must be under the same lock in order to serialize against
				12261	* perf_event_release_kernel(), such that either we must observe
				12262	* is_orphaned_event() or they will observe us on the child_list.
				12263	*/
				12264	mutex_lock(&parent_event->child_mutex);
Jiri Olsa	fadfe7b	2014-08-01 14:33:02 +0200	[diff] [blame]	12265	if (is_orphaned_event(parent_event) \|\|
				12266	!atomic_long_inc_not_zero(&parent_event->refcount)) {
Peter Zijlstra	c6e5b73	2016-01-15 16:07:41 +0200	[diff] [blame]	12267	mutex_unlock(&parent_event->child_mutex);
Jiri Olsa	313ccb9	2018-01-07 17:03:47 +0100	[diff] [blame]	12268	/* task_ctx_data is freed with child_ctx */
Al Viro	a6fa941	2012-08-20 14:59:25 +0100	[diff] [blame]	12269	free_event(child_event);
				12270	return NULL;
				12271	}
				12272
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	12273	get_ctx(child_ctx);
				12274
				12275	/*
				12276	* Make the child state follow the state of the parent event,
				12277	* not its attr.disabled bit. We hold the parent's mutex,
				12278	* so we won't race with perf_event_{en, dis}able_family.
				12279	*/
Jiri Olsa	1929def	2014-09-12 13:18:27 +0200	[diff] [blame]	12280	if (parent_state >= PERF_EVENT_STATE_INACTIVE)
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	12281	child_event->state = PERF_EVENT_STATE_INACTIVE;
				12282	else
				12283	child_event->state = PERF_EVENT_STATE_OFF;
				12284
				12285	if (parent_event->attr.freq) {
				12286	u64 sample_period = parent_event->hw.sample_period;
				12287	struct hw_perf_event *hwc = &child_event->hw;
				12288
				12289	hwc->sample_period = sample_period;
				12290	hwc->last_period = sample_period;
				12291
				12292	local64_set(&hwc->period_left, sample_period);
				12293	}
				12294
				12295	child_event->ctx = child_ctx;
				12296	child_event->overflow_handler = parent_event->overflow_handler;
Avi Kivity	4dc0da8	2011-06-29 18:42:35 +0300	[diff] [blame]	12297	child_event->overflow_handler_context
				12298	= parent_event->overflow_handler_context;
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	12299
				12300	/*
Thomas Gleixner	614b678	2010-12-03 16:24:32 -0200	[diff] [blame]	12301	* Precalculate sample_data sizes
				12302	*/
				12303	perf_event__header_size(child_event);
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	12304	perf_event__id_header_size(child_event);
Thomas Gleixner	614b678	2010-12-03 16:24:32 -0200	[diff] [blame]	12305
				12306	/*
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	12307	* Link it up in the child's context:
				12308	*/
Peter Zijlstra	cee010e	2010-09-10 12:51:54 +0200	[diff] [blame]	12309	raw_spin_lock_irqsave(&child_ctx->lock, flags);
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	12310	add_event_to_ctx(child_event, child_ctx);
Peter Zijlstra	cee010e	2010-09-10 12:51:54 +0200	[diff] [blame]	12311	raw_spin_unlock_irqrestore(&child_ctx->lock, flags);
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	12312
				12313	/*
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	12314	* Link this into the parent event's child list
				12315	*/
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	12316	list_add_tail(&child_event->child_list, &parent_event->child_list);
				12317	mutex_unlock(&parent_event->child_mutex);
				12318
				12319	return child_event;
				12320	}
				12321
Peter Zijlstra	d8a8cfc	2017-03-16 13:47:51 +0100	[diff] [blame]	12322	/*
				12323	* Inherits an event group.
				12324	*
				12325	* This will quietly suppress orphaned events; !inherit_event() is not an error.
				12326	* This matches with perf_event_release_kernel() removing all child events.
				12327	*
				12328	* Returns:
				12329	* - 0 on success
				12330	* - <0 on error
				12331	*/
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	12332	static int inherit_group(struct perf_event *parent_event,
				12333	struct task_struct *parent,
				12334	struct perf_event_context *parent_ctx,
				12335	struct task_struct *child,
				12336	struct perf_event_context *child_ctx)
				12337	{
				12338	struct perf_event *leader;
				12339	struct perf_event *sub;
				12340	struct perf_event *child_ctr;
				12341
				12342	leader = inherit_event(parent_event, parent, parent_ctx,
				12343	child, NULL, child_ctx);
				12344	if (IS_ERR(leader))
				12345	return PTR_ERR(leader);
Peter Zijlstra	d8a8cfc	2017-03-16 13:47:51 +0100	[diff] [blame]	12346	/*
				12347	* @leader can be NULL here because of is_orphaned_event(). In this
				12348	* case inherit_event() will create individual events, similar to what
				12349	* perf_group_detach() would do anyway.
				12350	*/
Peter Zijlstra	edb3959	2018-03-15 17:36:56 +0100	[diff] [blame]	12351	for_each_sibling_event(sub, parent_event) {
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	12352	child_ctr = inherit_event(sub, parent, parent_ctx,
				12353	child, leader, child_ctx);
				12354	if (IS_ERR(child_ctr))
				12355	return PTR_ERR(child_ctr);
Alexander Shishkin	f733c6b	2019-10-04 15:57:29 +0300	[diff] [blame]	12356
Alexander Shishkin	00496fe	2019-11-01 17:12:48 +0200	[diff] [blame]	12357	if (sub->aux_event == parent_event && child_ctr &&
Alexander Shishkin	f733c6b	2019-10-04 15:57:29 +0300	[diff] [blame]	12358	!perf_get_aux_event(child_ctr, leader))
				12359	return -EINVAL;
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	12360	}
				12361	return 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12362	}
				12363
Peter Zijlstra	d8a8cfc	2017-03-16 13:47:51 +0100	[diff] [blame]	12364	/*
				12365	* Creates the child task context and tries to inherit the event-group.
				12366	*
				12367	* Clears @inherited_all on !attr.inherited or error. Note that we'll leave
				12368	* inherited_all set when we 'fail' to inherit an orphaned event; this is
				12369	* consistent with perf_event_release_kernel() removing all child events.
				12370	*
				12371	* Returns:
				12372	* - 0 on success
				12373	* - <0 on error
				12374	*/
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	12375	static int
				12376	inherit_task_group(struct perf_event event, struct task_struct parent,
				12377	struct perf_event_context *parent_ctx,
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	12378	struct task_struct *child, int ctxn,
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	12379	int *inherited_all)
				12380	{
				12381	int ret;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	12382	struct perf_event_context *child_ctx;
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	12383
				12384	if (!event->attr.inherit) {
				12385	*inherited_all = 0;
				12386	return 0;
				12387	}
				12388
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	12389	child_ctx = child->perf_event_ctxp[ctxn];
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	12390	if (!child_ctx) {
				12391	/*
				12392	* This is executed from the parent task context, so
				12393	* inherit events that have been marked for cloning.
				12394	* First allocate and initialize a context for the
				12395	* child.
				12396	*/
Jiri Olsa	734df5a	2013-07-09 17:44:10 +0200	[diff] [blame]	12397	child_ctx = alloc_perf_context(parent_ctx->pmu, child);
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	12398	if (!child_ctx)
				12399	return -ENOMEM;
				12400
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	12401	child->perf_event_ctxp[ctxn] = child_ctx;
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	12402	}
				12403
				12404	ret = inherit_group(event, parent, parent_ctx,
				12405	child, child_ctx);
				12406
				12407	if (ret)
				12408	*inherited_all = 0;
				12409
				12410	return ret;
				12411	}
				12412
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12413	/*
				12414	* Initialize the perf_event context in task_struct
				12415	*/
Jiri Olsa	985c8dc	2014-06-24 10:20:24 +0200	[diff] [blame]	12416	static int perf_event_init_context(struct task_struct *child, int ctxn)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12417	{
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	12418	struct perf_event_context child_ctx, parent_ctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12419	struct perf_event_context *cloned_ctx;
				12420	struct perf_event *event;
				12421	struct task_struct *parent = current;
				12422	int inherited_all = 1;
Thomas Gleixner	dddd337	2010-11-24 10:05:55 +0100	[diff] [blame]	12423	unsigned long flags;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12424	int ret = 0;
				12425
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	12426	if (likely(!parent->perf_event_ctxp[ctxn]))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12427	return 0;
				12428
				12429	/*
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12430	* If the parent's context is a clone, pin it so it won't get
				12431	* swapped under us.
				12432	*/
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	12433	parent_ctx = perf_pin_task_context(parent, ctxn);
Peter Zijlstra	ffb4ef2	2014-05-05 19:12:20 +0200	[diff] [blame]	12434	if (!parent_ctx)
				12435	return 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12436
				12437	/*
				12438	* No need to check if parent_ctx != NULL here; since we saw
				12439	* it non-NULL earlier, the only reason for it to become NULL
				12440	* is if we exit, and since we're currently in the middle of
				12441	* a fork we can't be exiting at the same time.
				12442	*/
				12443
				12444	/*
				12445	* Lock the parent list. No need to lock the child - not PID
				12446	* hashed yet and not running, so nobody can access it.
				12447	*/
				12448	mutex_lock(&parent_ctx->mutex);
				12449
				12450	/*
				12451	* We dont have to disable NMIs - we are only looking at
				12452	* the list, not manipulating it:
				12453	*/
Peter Zijlstra	6e6804d	2017-11-13 14:28:41 +0100	[diff] [blame]	12454	perf_event_groups_for_each(event, &parent_ctx->pinned_groups) {
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	12455	ret = inherit_task_group(event, parent, parent_ctx,
				12456	child, ctxn, &inherited_all);
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	12457	if (ret)
Peter Zijlstra	e7cc486	2017-03-16 13:47:49 +0100	[diff] [blame]	12458	goto out_unlock;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12459	}
				12460
Thomas Gleixner	dddd337	2010-11-24 10:05:55 +0100	[diff] [blame]	12461	/*
				12462	* We can't hold ctx->lock when iterating the ->flexible_group list due
				12463	* to allocations, but we need to prevent rotation because
				12464	* rotate_ctx() will change the list from interrupt context.
				12465	*/
				12466	raw_spin_lock_irqsave(&parent_ctx->lock, flags);
				12467	parent_ctx->rotate_disable = 1;
				12468	raw_spin_unlock_irqrestore(&parent_ctx->lock, flags);
				12469
Peter Zijlstra	6e6804d	2017-11-13 14:28:41 +0100	[diff] [blame]	12470	perf_event_groups_for_each(event, &parent_ctx->flexible_groups) {
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	12471	ret = inherit_task_group(event, parent, parent_ctx,
				12472	child, ctxn, &inherited_all);
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	12473	if (ret)
Peter Zijlstra	e7cc486	2017-03-16 13:47:49 +0100	[diff] [blame]	12474	goto out_unlock;
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	12475	}
				12476
Thomas Gleixner	dddd337	2010-11-24 10:05:55 +0100	[diff] [blame]	12477	raw_spin_lock_irqsave(&parent_ctx->lock, flags);
				12478	parent_ctx->rotate_disable = 0;
Thomas Gleixner	dddd337	2010-11-24 10:05:55 +0100	[diff] [blame]	12479
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	12480	child_ctx = child->perf_event_ctxp[ctxn];
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	12481
Peter Zijlstra	05cbaa2	2009-12-30 16:00:35 +0100	[diff] [blame]	12482	if (child_ctx && inherited_all) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12483	/*
				12484	* Mark the child context as a clone of the parent
				12485	* context, or of whatever the parent is a clone of.
Peter Zijlstra	c5ed514	2011-01-17 13:45:37 +0100	[diff] [blame]	12486	*
				12487	* Note that if the parent is a clone, the holding of
				12488	* parent_ctx->lock avoids it from being uncloned.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12489	*/
Peter Zijlstra	c5ed514	2011-01-17 13:45:37 +0100	[diff] [blame]	12490	cloned_ctx = parent_ctx->parent_ctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12491	if (cloned_ctx) {
				12492	child_ctx->parent_ctx = cloned_ctx;
				12493	child_ctx->parent_gen = parent_ctx->parent_gen;
				12494	} else {
				12495	child_ctx->parent_ctx = parent_ctx;
				12496	child_ctx->parent_gen = parent_ctx->generation;
				12497	}
				12498	get_ctx(child_ctx->parent_ctx);
				12499	}
				12500
Peter Zijlstra	c5ed514	2011-01-17 13:45:37 +0100	[diff] [blame]	12501	raw_spin_unlock_irqrestore(&parent_ctx->lock, flags);
Peter Zijlstra	e7cc486	2017-03-16 13:47:49 +0100	[diff] [blame]	12502	out_unlock:
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12503	mutex_unlock(&parent_ctx->mutex);
				12504
				12505	perf_unpin_context(parent_ctx);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	12506	put_ctx(parent_ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12507
				12508	return ret;
				12509	}
				12510
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	12511	/*
				12512	* Initialize the perf_event context in task_struct
				12513	*/
				12514	int perf_event_init_task(struct task_struct *child)
				12515	{
				12516	int ctxn, ret;
				12517
Oleg Nesterov	8550d7c	2011-01-19 19:22:28 +0100	[diff] [blame]	12518	memset(child->perf_event_ctxp, 0, sizeof(child->perf_event_ctxp));
				12519	mutex_init(&child->perf_event_mutex);
				12520	INIT_LIST_HEAD(&child->perf_event_list);
				12521
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	12522	for_each_task_context_nr(ctxn) {
				12523	ret = perf_event_init_context(child, ctxn);
Peter Zijlstra	6c72e350	2014-10-02 16:17:02 -0700	[diff] [blame]	12524	if (ret) {
				12525	perf_event_free_task(child);
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	12526	return ret;
Peter Zijlstra	6c72e350	2014-10-02 16:17:02 -0700	[diff] [blame]	12527	}
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	12528	}
				12529
				12530	return 0;
				12531	}
				12532
Paul Mackerras	220b140	2010-03-10 20:45:52 +1100	[diff] [blame]	12533	static void __init perf_event_init_all_cpus(void)
				12534	{
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	12535	struct swevent_htable *swhash;
Paul Mackerras	220b140	2010-03-10 20:45:52 +1100	[diff] [blame]	12536	int cpu;
Paul Mackerras	220b140	2010-03-10 20:45:52 +1100	[diff] [blame]	12537
Thomas Gleixner	a63fbed	2017-05-24 10:15:34 +0200	[diff] [blame]	12538	zalloc_cpumask_var(&perf_online_mask, GFP_KERNEL);
				12539
Paul Mackerras	220b140	2010-03-10 20:45:52 +1100	[diff] [blame]	12540	for_each_possible_cpu(cpu) {
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	12541	swhash = &per_cpu(swevent_htable, cpu);
				12542	mutex_init(&swhash->hlist_mutex);
Mark Rutland	2fde4f9	2015-01-07 15:01:54 +0000	[diff] [blame]	12543	INIT_LIST_HEAD(&per_cpu(active_ctx_list, cpu));
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	12544
				12545	INIT_LIST_HEAD(&per_cpu(pmu_sb_events.list, cpu));
				12546	raw_spin_lock_init(&per_cpu(pmu_sb_events.lock, cpu));
Peter Zijlstra	e48c178	2016-07-06 09:18:30 +0200	[diff] [blame]	12547
David Carrillo-Cisneros	058fe1c	2017-01-18 11:24:53 -0800	[diff] [blame]	12548	#ifdef CONFIG_CGROUP_PERF
				12549	INIT_LIST_HEAD(&per_cpu(cgrp_cpuctx_list, cpu));
				12550	#endif
Peter Zijlstra	e48c178	2016-07-06 09:18:30 +0200	[diff] [blame]	12551	INIT_LIST_HEAD(&per_cpu(sched_cb_list, cpu));
Paul Mackerras	220b140	2010-03-10 20:45:52 +1100	[diff] [blame]	12552	}
				12553	}
				12554
Valdis Kletnieks	d18bf42	2019-03-12 04:06:37 -0400	[diff] [blame]	12555	static void perf_swevent_init_cpu(unsigned int cpu)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12556	{
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	12557	struct swevent_htable *swhash = &per_cpu(swevent_htable, cpu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12558
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	12559	mutex_lock(&swhash->hlist_mutex);
Thomas Gleixner	059fcd8	2016-02-09 20:11:34 +0000	[diff] [blame]	12560	if (swhash->hlist_refcount > 0 && !swevent_hlist_deref(swhash)) {
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	12561	struct swevent_hlist *hlist;
				12562
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	12563	hlist = kzalloc_node(sizeof(*hlist), GFP_KERNEL, cpu_to_node(cpu));
				12564	WARN_ON(!hlist);
				12565	rcu_assign_pointer(swhash->swevent_hlist, hlist);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	12566	}
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	12567	mutex_unlock(&swhash->hlist_mutex);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12568	}
				12569
Dave Young	2965faa	2015-09-09 15:38:55 -0700	[diff] [blame]	12570	#if defined CONFIG_HOTPLUG_CPU \|\| defined CONFIG_KEXEC_CORE
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	12571	static void __perf_event_exit_context(void *__info)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12572	{
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	12573	struct perf_event_context *ctx = __info;
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	12574	struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
				12575	struct perf_event *event;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12576
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	12577	raw_spin_lock(&ctx->lock);
Peter Zijlstra	0ee098c	2017-09-05 13:24:28 +0200	[diff] [blame]	12578	ctx_sched_out(ctx, cpuctx, EVENT_TIME);
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	12579	list_for_each_entry(event, &ctx->event_list, event_entry)
Peter Zijlstra	45a0e07	2016-01-26 13:09:48 +0100	[diff] [blame]	12580	__perf_remove_from_context(event, cpuctx, ctx, (void *)DETACH_GROUP);
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	12581	raw_spin_unlock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12582	}
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	12583
				12584	static void perf_event_exit_cpu_context(int cpu)
				12585	{
Thomas Gleixner	a63fbed	2017-05-24 10:15:34 +0200	[diff] [blame]	12586	struct perf_cpu_context *cpuctx;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	12587	struct perf_event_context *ctx;
				12588	struct pmu *pmu;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	12589
Thomas Gleixner	a63fbed	2017-05-24 10:15:34 +0200	[diff] [blame]	12590	mutex_lock(&pmus_lock);
				12591	list_for_each_entry(pmu, &pmus, entry) {
				12592	cpuctx = per_cpu_ptr(pmu->pmu_cpu_context, cpu);
				12593	ctx = &cpuctx->ctx;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	12594
				12595	mutex_lock(&ctx->mutex);
				12596	smp_call_function_single(cpu, __perf_event_exit_context, ctx, 1);
Thomas Gleixner	a63fbed	2017-05-24 10:15:34 +0200	[diff] [blame]	12597	cpuctx->online = 0;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	12598	mutex_unlock(&ctx->mutex);
				12599	}
Thomas Gleixner	a63fbed	2017-05-24 10:15:34 +0200	[diff] [blame]	12600	cpumask_clear_cpu(cpu, perf_online_mask);
				12601	mutex_unlock(&pmus_lock);
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	12602	}
Thomas Gleixner	00e16c3	2016-07-13 17:16:09 +0000	[diff] [blame]	12603	#else
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	12604
Thomas Gleixner	00e16c3	2016-07-13 17:16:09 +0000	[diff] [blame]	12605	static void perf_event_exit_cpu_context(int cpu) { }
				12606
				12607	#endif
				12608
Thomas Gleixner	a63fbed	2017-05-24 10:15:34 +0200	[diff] [blame]	12609	int perf_event_init_cpu(unsigned int cpu)
				12610	{
				12611	struct perf_cpu_context *cpuctx;
				12612	struct perf_event_context *ctx;
				12613	struct pmu *pmu;
				12614
				12615	perf_swevent_init_cpu(cpu);
				12616
				12617	mutex_lock(&pmus_lock);
				12618	cpumask_set_cpu(cpu, perf_online_mask);
				12619	list_for_each_entry(pmu, &pmus, entry) {
				12620	cpuctx = per_cpu_ptr(pmu->pmu_cpu_context, cpu);
				12621	ctx = &cpuctx->ctx;
				12622
				12623	mutex_lock(&ctx->mutex);
				12624	cpuctx->online = 1;
				12625	mutex_unlock(&ctx->mutex);
				12626	}
				12627	mutex_unlock(&pmus_lock);
				12628
				12629	return 0;
				12630	}
				12631
Thomas Gleixner	00e16c3	2016-07-13 17:16:09 +0000	[diff] [blame]	12632	int perf_event_exit_cpu(unsigned int cpu)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12633	{
Peter Zijlstra	e3703f8	2014-02-24 12:06:12 +0100	[diff] [blame]	12634	perf_event_exit_cpu_context(cpu);
Thomas Gleixner	00e16c3	2016-07-13 17:16:09 +0000	[diff] [blame]	12635	return 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12636	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12637
Peter Zijlstra	c277443	2010-12-08 15:29:02 +0100	[diff] [blame]	12638	static int
				12639	perf_reboot(struct notifier_block notifier, unsigned long val, void v)
				12640	{
				12641	int cpu;
				12642
				12643	for_each_online_cpu(cpu)
				12644	perf_event_exit_cpu(cpu);
				12645
				12646	return NOTIFY_OK;
				12647	}
				12648
				12649	/*
				12650	* Run the perf reboot notifier at the very last possible moment so that
				12651	* the generic watchdog code runs as long as possible.
				12652	*/
				12653	static struct notifier_block perf_reboot_notifier = {
				12654	.notifier_call = perf_reboot,
				12655	.priority = INT_MIN,
				12656	};
				12657
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12658	void __init perf_event_init(void)
				12659	{
Jason Wessel	3c502e7	2010-11-04 17:33:01 -0500	[diff] [blame]	12660	int ret;
				12661
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	12662	idr_init(&pmu_idr);
				12663
Paul Mackerras	220b140	2010-03-10 20:45:52 +1100	[diff] [blame]	12664	perf_event_init_all_cpus();
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	12665	init_srcu_struct(&pmus_srcu);
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	12666	perf_pmu_register(&perf_swevent, "software", PERF_TYPE_SOFTWARE);
				12667	perf_pmu_register(&perf_cpu_clock, NULL, -1);
				12668	perf_pmu_register(&perf_task_clock, NULL, -1);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	12669	perf_tp_register();
Thomas Gleixner	00e16c3	2016-07-13 17:16:09 +0000	[diff] [blame]	12670	perf_event_init_cpu(smp_processor_id());
Peter Zijlstra	c277443	2010-12-08 15:29:02 +0100	[diff] [blame]	12671	register_reboot_notifier(&perf_reboot_notifier);
Jason Wessel	3c502e7	2010-11-04 17:33:01 -0500	[diff] [blame]	12672
				12673	ret = init_hw_breakpoint();
				12674	WARN(ret, "hw_breakpoint initialization failed with: %d", ret);
Gleb Natapov	b202952	2011-11-27 17:59:09 +0200	[diff] [blame]	12675
Jiri Olsa	b01c3a0	2012-03-23 15:41:20 +0100	[diff] [blame]	12676	/*
				12677	* Build time assertion that we keep the data_head at the intended
				12678	* location. IOW, validation we got the __reserved[] size right.
				12679	*/
				12680	BUILD_BUG_ON((offsetof(struct perf_event_mmap_page, data_head))
				12681	!= 1024);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	12682	}
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	12683
Cody P Schafer	fd979c0	2015-01-30 13:45:57 -0800	[diff] [blame]	12684	ssize_t perf_event_sysfs_show(struct device dev, struct device_attribute attr,
				12685	char *page)
				12686	{
				12687	struct perf_pmu_events_attr *pmu_attr =
				12688	container_of(attr, struct perf_pmu_events_attr, attr);
				12689
				12690	if (pmu_attr->event_str)
				12691	return sprintf(page, "%s\n", pmu_attr->event_str);
				12692
				12693	return 0;
				12694	}
Thomas Gleixner	675965b	2016-02-22 22:19:27 +0000	[diff] [blame]	12695	EXPORT_SYMBOL_GPL(perf_event_sysfs_show);
Cody P Schafer	fd979c0	2015-01-30 13:45:57 -0800	[diff] [blame]	12696
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	12697	static int __init perf_event_sysfs_init(void)
				12698	{
				12699	struct pmu *pmu;
				12700	int ret;
				12701
				12702	mutex_lock(&pmus_lock);
				12703
				12704	ret = bus_register(&pmu_bus);
				12705	if (ret)
				12706	goto unlock;
				12707
				12708	list_for_each_entry(pmu, &pmus, entry) {
				12709	if (!pmu->name \|\| pmu->type < 0)
				12710	continue;
				12711
				12712	ret = pmu_dev_alloc(pmu);
				12713	WARN(ret, "Failed to register pmu: %s, reason %d\n", pmu->name, ret);
				12714	}
				12715	pmu_bus_running = 1;
				12716	ret = 0;
				12717
				12718	unlock:
				12719	mutex_unlock(&pmus_lock);
				12720
				12721	return ret;
				12722	}
				12723	device_initcall(perf_event_sysfs_init);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	12724
				12725	#ifdef CONFIG_CGROUP_PERF
Tejun Heo	eb95419	2013-08-08 20:11:23 -0400	[diff] [blame]	12726	static struct cgroup_subsys_state *
				12727	perf_cgroup_css_alloc(struct cgroup_subsys_state *parent_css)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	12728	{
				12729	struct perf_cgroup *jc;
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	12730
Li Zefan	1b15d05	2011-03-03 14:26:06 +0800	[diff] [blame]	12731	jc = kzalloc(sizeof(*jc), GFP_KERNEL);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	12732	if (!jc)
				12733	return ERR_PTR(-ENOMEM);
				12734
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	12735	jc->info = alloc_percpu(struct perf_cgroup_info);
				12736	if (!jc->info) {
				12737	kfree(jc);
				12738	return ERR_PTR(-ENOMEM);
				12739	}
				12740
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	12741	return &jc->css;
				12742	}
				12743
Tejun Heo	eb95419	2013-08-08 20:11:23 -0400	[diff] [blame]	12744	static void perf_cgroup_css_free(struct cgroup_subsys_state *css)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	12745	{
Tejun Heo	eb95419	2013-08-08 20:11:23 -0400	[diff] [blame]	12746	struct perf_cgroup *jc = container_of(css, struct perf_cgroup, css);
				12747
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	12748	free_percpu(jc->info);
				12749	kfree(jc);
				12750	}
				12751
				12752	static int __perf_cgroup_move(void *info)
				12753	{
				12754	struct task_struct *task = info;
Stephane Eranian	ddaaf4e	2015-11-12 11:00:03 +0100	[diff] [blame]	12755	rcu_read_lock();
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	12756	perf_cgroup_switch(task, PERF_CGROUP_SWOUT \| PERF_CGROUP_SWIN);
Stephane Eranian	ddaaf4e	2015-11-12 11:00:03 +0100	[diff] [blame]	12757	rcu_read_unlock();
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	12758	return 0;
				12759	}
				12760
Tejun Heo	1f7dd3e5	2015-12-03 10:18:21 -0500	[diff] [blame]	12761	static void perf_cgroup_attach(struct cgroup_taskset *tset)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	12762	{
Tejun Heo	bb9d97b	2011-12-12 18:12:21 -0800	[diff] [blame]	12763	struct task_struct *task;
Tejun Heo	1f7dd3e5	2015-12-03 10:18:21 -0500	[diff] [blame]	12764	struct cgroup_subsys_state *css;
Tejun Heo	bb9d97b	2011-12-12 18:12:21 -0800	[diff] [blame]	12765
Tejun Heo	1f7dd3e5	2015-12-03 10:18:21 -0500	[diff] [blame]	12766	cgroup_taskset_for_each(task, css, tset)
Tejun Heo	bb9d97b	2011-12-12 18:12:21 -0800	[diff] [blame]	12767	task_function_call(task, __perf_cgroup_move, task);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	12768	}
				12769
Tejun Heo	073219e	2014-02-08 10:36:58 -0500	[diff] [blame]	12770	struct cgroup_subsys perf_event_cgrp_subsys = {
Tejun Heo	92fb974	2012-11-19 08:13:38 -0800	[diff] [blame]	12771	.css_alloc = perf_cgroup_css_alloc,
				12772	.css_free = perf_cgroup_css_free,
Tejun Heo	bb9d97b	2011-12-12 18:12:21 -0800	[diff] [blame]	12773	.attach = perf_cgroup_attach,
Tejun Heo	968ebff	2017-01-29 14:35:20 -0500	[diff] [blame]	12774	/*
				12775	* Implicitly enable on dfl hierarchy so that perf events can
				12776	* always be filtered by cgroup2 path as long as perf_event
				12777	* controller is not mounted on a legacy hierarchy.
				12778	*/
				12779	.implicit_on_dfl = true,
Tejun Heo	8cfd814	2017-07-21 11:14:51 -0400	[diff] [blame]	12780	.threaded = true,
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	12781	};
				12782	#endif /* CONFIG_CGROUP_PERF */