Blame - kernel/events/core.c - SHIFTPHONES/mainline/linux

blob: b2eb3542e829a10f911dfef8782500eb03f1c618 [file] [log] [blame]

Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1	/*
Ingo Molnar	57c0c15	2009-09-21 12:20:38 +0200	[diff] [blame]	2	* Performance events core code:
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3	*
				4	* Copyright (C) 2008 Thomas Gleixner <tglx@linutronix.de>
Ingo Molnar	e7e7ee2	2011-05-04 08:42:29 +0200	[diff] [blame]	5	* Copyright (C) 2008-2011 Red Hat, Inc., Ingo Molnar
Peter Zijlstra	90eec10	2015-11-16 11:08:45 +0100	[diff] [blame]	6	* Copyright (C) 2008-2011 Red Hat, Inc., Peter Zijlstra
Al Viro	d36b691	2011-12-29 17:09:01 -0500	[diff] [blame]	7	* Copyright © 2009 Paul Mackerras, IBM Corp. <paulus@au1.ibm.com>
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8	*
Ingo Molnar	57c0c15	2009-09-21 12:20:38 +0200	[diff] [blame]	9	* For licensing details see kernel-base/COPYING
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10	*/
				11
				12	#include <linux/fs.h>
				13	#include <linux/mm.h>
				14	#include <linux/cpu.h>
				15	#include <linux/smp.h>
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	16	#include <linux/idr.h>
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	17	#include <linux/file.h>
				18	#include <linux/poll.h>
Tejun Heo	5a0e3ad	2010-03-24 17:04:11 +0900	[diff] [blame]	19	#include <linux/slab.h>
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	20	#include <linux/hash.h>
Frederic Weisbecker	12351ef	2013-04-20 15:48:22 +0200	[diff] [blame]	21	#include <linux/tick.h>
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	22	#include <linux/sysfs.h>
				23	#include <linux/dcache.h>
				24	#include <linux/percpu.h>
				25	#include <linux/ptrace.h>
Peter Zijlstra	c277443	2010-12-08 15:29:02 +0100	[diff] [blame]	26	#include <linux/reboot.h>
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	27	#include <linux/vmstat.h>
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	28	#include <linux/device.h>
Paul Gortmaker	6e5fdee	2011-05-26 16:00:52 -0400	[diff] [blame]	29	#include <linux/export.h>
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	30	#include <linux/vmalloc.h>
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	31	#include <linux/hardirq.h>
				32	#include <linux/rculist.h>
				33	#include <linux/uaccess.h>
				34	#include <linux/syscalls.h>
				35	#include <linux/anon_inodes.h>
				36	#include <linux/kernel_stat.h>
Matt Fleming	39bed6c	2015-01-23 18:45:40 +0000	[diff] [blame]	37	#include <linux/cgroup.h>
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	38	#include <linux/perf_event.h>
Steven Rostedt (Red Hat)	af658dc	2015-04-29 14:36:05 -0400	[diff] [blame]	39	#include <linux/trace_events.h>
Jason Wessel	3c502e7	2010-11-04 17:33:01 -0500	[diff] [blame]	40	#include <linux/hw_breakpoint.h>
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	41	#include <linux/mm_types.h>
Yan, Zheng	c464c76	2014-03-18 16:56:41 +0800	[diff] [blame]	42	#include <linux/module.h>
Peter Zijlstra	f972eb6	2014-05-19 15:13:47 -0400	[diff] [blame]	43	#include <linux/mman.h>
Pawel Moll	b3f2078	2014-06-13 16:03:32 +0100	[diff] [blame]	44	#include <linux/compat.h>
Alexei Starovoitov	2541517	2015-03-25 12:49:20 -0700	[diff] [blame]	45	#include <linux/bpf.h>
				46	#include <linux/filter.h>
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	47	#include <linux/namei.h>
				48	#include <linux/parser.h>
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	49
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	50	#include "internal.h"
				51
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	52	#include <asm/irq_regs.h>
				53
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	54	typedef int (remote_function_f)(void );
				55
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	56	struct remote_function_call {
Ingo Molnar	e7e7ee2	2011-05-04 08:42:29 +0200	[diff] [blame]	57	struct task_struct *p;
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	58	remote_function_f func;
Ingo Molnar	e7e7ee2	2011-05-04 08:42:29 +0200	[diff] [blame]	59	void *info;
				60	int ret;
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	61	};
				62
				63	static void remote_function(void *data)
				64	{
				65	struct remote_function_call *tfc = data;
				66	struct task_struct *p = tfc->p;
				67
				68	if (p) {
Peter Zijlstra	0da4cf3	2016-02-24 18:45:51 +0100	[diff] [blame]	69	/* -EAGAIN */
				70	if (task_cpu(p) != smp_processor_id())
				71	return;
				72
				73	/*
				74	* Now that we're on right CPU with IRQs disabled, we can test
				75	* if we hit the right task without races.
				76	*/
				77
				78	tfc->ret = -ESRCH; /* No such (running) process */
				79	if (p != current)
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	80	return;
				81	}
				82
				83	tfc->ret = tfc->func(tfc->info);
				84	}
				85
				86	/**
				87	* task_function_call - call a function on the cpu on which a task runs
				88	* @p: the task to evaluate
				89	* @func: the function to be called
				90	* @info: the function call argument
				91	*
				92	* Calls the function @func when the task is currently running. This might
				93	* be on the current CPU, which just calls the function directly
				94	*
				95	* returns: @func return value, or
				96	* -ESRCH - when the process isn't running
				97	* -EAGAIN - when the process moved away
				98	*/
				99	static int
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	100	task_function_call(struct task_struct p, remote_function_f func, void info)
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	101	{
				102	struct remote_function_call data = {
Ingo Molnar	e7e7ee2	2011-05-04 08:42:29 +0200	[diff] [blame]	103	.p = p,
				104	.func = func,
				105	.info = info,
Peter Zijlstra	0da4cf3	2016-02-24 18:45:51 +0100	[diff] [blame]	106	.ret = -EAGAIN,
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	107	};
Peter Zijlstra	0da4cf3	2016-02-24 18:45:51 +0100	[diff] [blame]	108	int ret;
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	109
Peter Zijlstra	0da4cf3	2016-02-24 18:45:51 +0100	[diff] [blame]	110	do {
				111	ret = smp_call_function_single(task_cpu(p), remote_function, &data, 1);
				112	if (!ret)
				113	ret = data.ret;
				114	} while (ret == -EAGAIN);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	115
Peter Zijlstra	0da4cf3	2016-02-24 18:45:51 +0100	[diff] [blame]	116	return ret;
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	117	}
				118
				119	/**
				120	* cpu_function_call - call a function on the cpu
				121	* @func: the function to be called
				122	* @info: the function call argument
				123	*
				124	* Calls the function @func on the remote cpu.
				125	*
				126	* returns: @func return value or -ENXIO when the cpu is offline
				127	*/
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	128	static int cpu_function_call(int cpu, remote_function_f func, void *info)
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	129	{
				130	struct remote_function_call data = {
Ingo Molnar	e7e7ee2	2011-05-04 08:42:29 +0200	[diff] [blame]	131	.p = NULL,
				132	.func = func,
				133	.info = info,
				134	.ret = -ENXIO, /* No such CPU */
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	135	};
				136
				137	smp_call_function_single(cpu, remote_function, &data, 1);
				138
				139	return data.ret;
				140	}
				141
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	142	static inline struct perf_cpu_context *
				143	__get_cpu_context(struct perf_event_context *ctx)
				144	{
				145	return this_cpu_ptr(ctx->pmu->pmu_cpu_context);
				146	}
				147
				148	static void perf_ctx_lock(struct perf_cpu_context *cpuctx,
				149	struct perf_event_context *ctx)
				150	{
				151	raw_spin_lock(&cpuctx->ctx.lock);
				152	if (ctx)
				153	raw_spin_lock(&ctx->lock);
				154	}
				155
				156	static void perf_ctx_unlock(struct perf_cpu_context *cpuctx,
				157	struct perf_event_context *ctx)
				158	{
				159	if (ctx)
				160	raw_spin_unlock(&ctx->lock);
				161	raw_spin_unlock(&cpuctx->ctx.lock);
				162	}
				163
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	164	#define TASK_TOMBSTONE ((void *)-1L)
				165
				166	static bool is_kernel_event(struct perf_event *event)
				167	{
Peter Zijlstra	f47c02c	2016-01-26 12:30:14 +0100	[diff] [blame]	168	return READ_ONCE(event->owner) == TASK_TOMBSTONE;
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	169	}
				170
Peter Zijlstra	39a4364	2016-01-11 12:46:35 +0100	[diff] [blame]	171	/*
				172	* On task ctx scheduling...
				173	*
				174	* When !ctx->nr_events a task context will not be scheduled. This means
				175	* we can disable the scheduler hooks (for performance) without leaving
				176	* pending task ctx state.
				177	*
				178	* This however results in two special cases:
				179	*
				180	* - removing the last event from a task ctx; this is relatively straight
				181	* forward and is done in __perf_remove_from_context.
				182	*
				183	* - adding the first event to a task ctx; this is tricky because we cannot
				184	* rely on ctx->is_active and therefore cannot use event_function_call().
				185	* See perf_install_in_context().
				186	*
Peter Zijlstra	39a4364	2016-01-11 12:46:35 +0100	[diff] [blame]	187	* If ctx->nr_events, then ctx->is_active and cpuctx->task_ctx are set.
				188	*/
				189
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	190	typedef void (event_f)(struct perf_event , struct perf_cpu_context *,
				191	struct perf_event_context , void );
				192
				193	struct event_function_struct {
				194	struct perf_event *event;
				195	event_f func;
				196	void *data;
				197	};
				198
				199	static int event_function(void *info)
				200	{
				201	struct event_function_struct *efs = info;
				202	struct perf_event *event = efs->event;
				203	struct perf_event_context *ctx = event->ctx;
				204	struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
				205	struct perf_event_context *task_ctx = cpuctx->task_ctx;
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	206	int ret = 0;
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	207
				208	WARN_ON_ONCE(!irqs_disabled());
				209
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	210	perf_ctx_lock(cpuctx, task_ctx);
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	211	/*
				212	* Since we do the IPI call without holding ctx->lock things can have
				213	* changed, double check we hit the task we set out to hit.
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	214	*/
				215	if (ctx->task) {
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	216	if (ctx->task != current) {
Peter Zijlstra	0da4cf3	2016-02-24 18:45:51 +0100	[diff] [blame]	217	ret = -ESRCH;
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	218	goto unlock;
				219	}
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	220
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	221	/*
				222	* We only use event_function_call() on established contexts,
				223	* and event_function() is only ever called when active (or
				224	* rather, we'll have bailed in task_function_call() or the
				225	* above ctx->task != current test), therefore we must have
				226	* ctx->is_active here.
				227	*/
				228	WARN_ON_ONCE(!ctx->is_active);
				229	/*
				230	* And since we have ctx->is_active, cpuctx->task_ctx must
				231	* match.
				232	*/
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	233	WARN_ON_ONCE(task_ctx != ctx);
				234	} else {
				235	WARN_ON_ONCE(&cpuctx->ctx != ctx);
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	236	}
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	237
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	238	efs->func(event, cpuctx, ctx, efs->data);
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	239	unlock:
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	240	perf_ctx_unlock(cpuctx, task_ctx);
				241
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	242	return ret;
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	243	}
				244
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	245	static void event_function_call(struct perf_event event, event_f func, void data)
Peter Zijlstra	0017960	2015-11-30 16:26:35 +0100	[diff] [blame]	246	{
				247	struct perf_event_context *ctx = event->ctx;
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	248	struct task_struct task = READ_ONCE(ctx->task); / verified in event_function */
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	249	struct event_function_struct efs = {
				250	.event = event,
				251	.func = func,
				252	.data = data,
				253	};
Peter Zijlstra	0017960	2015-11-30 16:26:35 +0100	[diff] [blame]	254
Peter Zijlstra	c97f473	2016-01-14 10:51:03 +0100	[diff] [blame]	255	if (!event->parent) {
				256	/*
				257	* If this is a !child event, we must hold ctx::mutex to
				258	* stabilize the the event->ctx relation. See
				259	* perf_event_ctx_lock().
				260	*/
				261	lockdep_assert_held(&ctx->mutex);
				262	}
Peter Zijlstra	0017960	2015-11-30 16:26:35 +0100	[diff] [blame]	263
				264	if (!task) {
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	265	cpu_function_call(event->cpu, event_function, &efs);
Peter Zijlstra	0017960	2015-11-30 16:26:35 +0100	[diff] [blame]	266	return;
				267	}
				268
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	269	if (task == TASK_TOMBSTONE)
				270	return;
				271
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	272	again:
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	273	if (!task_function_call(task, event_function, &efs))
Peter Zijlstra	0017960	2015-11-30 16:26:35 +0100	[diff] [blame]	274	return;
				275
				276	raw_spin_lock_irq(&ctx->lock);
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	277	/*
				278	* Reload the task pointer, it might have been changed by
				279	* a concurrent perf_event_context_sched_out().
				280	*/
				281	task = ctx->task;
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	282	if (task == TASK_TOMBSTONE) {
				283	raw_spin_unlock_irq(&ctx->lock);
				284	return;
Peter Zijlstra	0017960	2015-11-30 16:26:35 +0100	[diff] [blame]	285	}
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	286	if (ctx->is_active) {
				287	raw_spin_unlock_irq(&ctx->lock);
				288	goto again;
				289	}
				290	func(event, NULL, ctx, data);
Peter Zijlstra	0017960	2015-11-30 16:26:35 +0100	[diff] [blame]	291	raw_spin_unlock_irq(&ctx->lock);
				292	}
				293
Peter Zijlstra	cca2094	2016-08-16 13:33:26 +0200	[diff] [blame]	294	/*
				295	* Similar to event_function_call() + event_function(), but hard assumes IRQs
				296	* are already disabled and we're on the right CPU.
				297	*/
				298	static void event_function_local(struct perf_event event, event_f func, void data)
				299	{
				300	struct perf_event_context *ctx = event->ctx;
				301	struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
				302	struct task_struct *task = READ_ONCE(ctx->task);
				303	struct perf_event_context *task_ctx = NULL;
				304
				305	WARN_ON_ONCE(!irqs_disabled());
				306
				307	if (task) {
				308	if (task == TASK_TOMBSTONE)
				309	return;
				310
				311	task_ctx = ctx;
				312	}
				313
				314	perf_ctx_lock(cpuctx, task_ctx);
				315
				316	task = ctx->task;
				317	if (task == TASK_TOMBSTONE)
				318	goto unlock;
				319
				320	if (task) {
				321	/*
				322	* We must be either inactive or active and the right task,
				323	* otherwise we're screwed, since we cannot IPI to somewhere
				324	* else.
				325	*/
				326	if (ctx->is_active) {
				327	if (WARN_ON_ONCE(task != current))
				328	goto unlock;
				329
				330	if (WARN_ON_ONCE(cpuctx->task_ctx != ctx))
				331	goto unlock;
				332	}
				333	} else {
				334	WARN_ON_ONCE(&cpuctx->ctx != ctx);
				335	}
				336
				337	func(event, cpuctx, ctx, data);
				338	unlock:
				339	perf_ctx_unlock(cpuctx, task_ctx);
				340	}
				341
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	342	#define PERF_FLAG_ALL (PERF_FLAG_FD_NO_GROUP \|\
				343	PERF_FLAG_FD_OUTPUT \|\
Yann Droneaud	a21b0b3	2014-01-05 21:36:33 +0100	[diff] [blame]	344	PERF_FLAG_PID_CGROUP \|\
				345	PERF_FLAG_FD_CLOEXEC)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	346
Stephane Eranian	bce38cd	2012-02-09 23:20:51 +0100	[diff] [blame]	347	/*
				348	* branch priv levels that need permission checks
				349	*/
				350	#define PERF_SAMPLE_BRANCH_PERM_PLM \
				351	(PERF_SAMPLE_BRANCH_KERNEL \|\
				352	PERF_SAMPLE_BRANCH_HV)
				353
Stephane Eranian	0b3fcf1	2011-01-03 18:20:01 +0200	[diff] [blame]	354	enum event_type_t {
				355	EVENT_FLEXIBLE = 0x1,
				356	EVENT_PINNED = 0x2,
Peter Zijlstra	3cbaa59	2016-02-24 18:45:47 +0100	[diff] [blame]	357	EVENT_TIME = 0x4,
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	358	/* see ctx_resched() for details */
				359	EVENT_CPU = 0x8,
Stephane Eranian	0b3fcf1	2011-01-03 18:20:01 +0200	[diff] [blame]	360	EVENT_ALL = EVENT_FLEXIBLE \| EVENT_PINNED,
				361	};
				362
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	363	/*
				364	* perf_sched_events : >0 events exist
				365	* perf_cgroup_events: >0 per-cpu cgroup events exist on this cpu
				366	*/
Peter Zijlstra	9107c89	2016-02-24 18:45:45 +0100	[diff] [blame]	367
				368	static void perf_sched_delayed(struct work_struct *work);
				369	DEFINE_STATIC_KEY_FALSE(perf_sched_events);
				370	static DECLARE_DELAYED_WORK(perf_sched_work, perf_sched_delayed);
				371	static DEFINE_MUTEX(perf_sched_mutex);
				372	static atomic_t perf_sched_count;
				373
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	374	static DEFINE_PER_CPU(atomic_t, perf_cgroup_events);
Yan, Zheng	ba53250	2014-11-04 21:55:58 -0500	[diff] [blame]	375	static DEFINE_PER_CPU(int, perf_sched_cb_usages);
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	376	static DEFINE_PER_CPU(struct pmu_event_list, pmu_sb_events);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	377
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	378	static atomic_t nr_mmap_events __read_mostly;
				379	static atomic_t nr_comm_events __read_mostly;
				380	static atomic_t nr_task_events __read_mostly;
Frederic Weisbecker	948b26b	2013-08-02 18:29:55 +0200	[diff] [blame]	381	static atomic_t nr_freq_events __read_mostly;
Adrian Hunter	45ac140	2015-07-21 12:44:02 +0300	[diff] [blame]	382	static atomic_t nr_switch_events __read_mostly;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	383
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	384	static LIST_HEAD(pmus);
				385	static DEFINE_MUTEX(pmus_lock);
				386	static struct srcu_struct pmus_srcu;
				387
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	388	/*
				389	* perf event paranoia level:
				390	* -1 - not paranoid at all
				391	* 0 - disallow raw tracepoint access for unpriv
				392	* 1 - disallow cpu events for unpriv
				393	* 2 - disallow kernel profiling for unpriv
				394	*/
Andy Lutomirski	0161028	2016-05-09 15:48:51 -0700	[diff] [blame]	395	int sysctl_perf_event_paranoid __read_mostly = 2;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	396
Frederic Weisbecker	2044338	2011-03-31 03:33:29 +0200	[diff] [blame]	397	/* Minimum for 512 kiB + 1 user control page */
				398	int sysctl_perf_event_mlock __read_mostly = 512 + (PAGE_SIZE / 1024); /* 'free' kiB per user */
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	399
				400	/*
				401	* max perf event sample rate
				402	*/
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	403	#define DEFAULT_MAX_SAMPLE_RATE 100000
				404	#define DEFAULT_SAMPLE_PERIOD_NS (NSEC_PER_SEC / DEFAULT_MAX_SAMPLE_RATE)
				405	#define DEFAULT_CPU_TIME_MAX_PERCENT 25
				406
				407	int sysctl_perf_event_sample_rate __read_mostly = DEFAULT_MAX_SAMPLE_RATE;
				408
				409	static int max_samples_per_tick __read_mostly = DIV_ROUND_UP(DEFAULT_MAX_SAMPLE_RATE, HZ);
				410	static int perf_sample_period_ns __read_mostly = DEFAULT_SAMPLE_PERIOD_NS;
				411
Peter Zijlstra	d9494cb	2013-10-17 15:36:19 +0200	[diff] [blame]	412	static int perf_sample_allowed_ns __read_mostly =
				413	DEFAULT_SAMPLE_PERIOD_NS * DEFAULT_CPU_TIME_MAX_PERCENT / 100;
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	414
Geliang Tang	18ab2cd	2015-09-27 23:25:50 +0800	[diff] [blame]	415	static void update_perf_cpu_limits(void)
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	416	{
				417	u64 tmp = perf_sample_period_ns;
				418
				419	tmp *= sysctl_perf_cpu_time_max_percent;
Peter Zijlstra	91a612e	2016-03-17 15:17:35 +0100	[diff] [blame]	420	tmp = div_u64(tmp, 100);
				421	if (!tmp)
				422	tmp = 1;
				423
				424	WRITE_ONCE(perf_sample_allowed_ns, tmp);
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	425	}
Peter Zijlstra	163ec43	2011-02-16 11:22:34 +0100	[diff] [blame]	426
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	427	static int perf_rotate_context(struct perf_cpu_context *cpuctx);
				428
Peter Zijlstra	163ec43	2011-02-16 11:22:34 +0100	[diff] [blame]	429	int perf_proc_update_handler(struct ctl_table *table, int write,
				430	void __user buffer, size_t lenp,
				431	loff_t *ppos)
				432	{
Knut Petersen	723478c	2013-09-25 14:29:37 +0200	[diff] [blame]	433	int ret = proc_dointvec_minmax(table, write, buffer, lenp, ppos);
Peter Zijlstra	163ec43	2011-02-16 11:22:34 +0100	[diff] [blame]	434
				435	if (ret \|\| !write)
				436	return ret;
				437
Kan Liang	ab7fdef	2016-05-03 00:26:06 -0700	[diff] [blame]	438	/*
				439	* If throttling is disabled don't allow the write:
				440	*/
				441	if (sysctl_perf_cpu_time_max_percent == 100 \|\|
				442	sysctl_perf_cpu_time_max_percent == 0)
				443	return -EINVAL;
				444
Peter Zijlstra	163ec43	2011-02-16 11:22:34 +0100	[diff] [blame]	445	max_samples_per_tick = DIV_ROUND_UP(sysctl_perf_event_sample_rate, HZ);
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	446	perf_sample_period_ns = NSEC_PER_SEC / sysctl_perf_event_sample_rate;
				447	update_perf_cpu_limits();
Peter Zijlstra	163ec43	2011-02-16 11:22:34 +0100	[diff] [blame]	448
				449	return 0;
				450	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	451
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	452	int sysctl_perf_cpu_time_max_percent __read_mostly = DEFAULT_CPU_TIME_MAX_PERCENT;
				453
				454	int perf_cpu_time_max_percent_handler(struct ctl_table *table, int write,
				455	void __user buffer, size_t lenp,
				456	loff_t *ppos)
				457	{
				458	int ret = proc_dointvec(table, write, buffer, lenp, ppos);
				459
				460	if (ret \|\| !write)
				461	return ret;
				462
Peter Zijlstra	b303e7c	2016-04-04 09:57:40 +0200	[diff] [blame]	463	if (sysctl_perf_cpu_time_max_percent == 100 \|\|
				464	sysctl_perf_cpu_time_max_percent == 0) {
Peter Zijlstra	91a612e	2016-03-17 15:17:35 +0100	[diff] [blame]	465	printk(KERN_WARNING
				466	"perf: Dynamic interrupt throttling disabled, can hang your system!\n");
				467	WRITE_ONCE(perf_sample_allowed_ns, 0);
				468	} else {
				469	update_perf_cpu_limits();
				470	}
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	471
				472	return 0;
				473	}
				474
				475	/*
				476	* perf samples are done in some very critical code paths (NMIs).
				477	* If they take too much CPU time, the system can lock up and not
				478	* get any real work done. This will drop the sample rate when
				479	* we detect that events are taking too long.
				480	*/
				481	#define NR_ACCUMULATED_SAMPLES 128
Peter Zijlstra	d9494cb	2013-10-17 15:36:19 +0200	[diff] [blame]	482	static DEFINE_PER_CPU(u64, running_sample_length);
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	483
Peter Zijlstra	91a612e	2016-03-17 15:17:35 +0100	[diff] [blame]	484	static u64 __report_avg;
				485	static u64 __report_allowed;
				486
Peter Zijlstra	6a02ad66	2014-02-03 18:11:08 +0100	[diff] [blame]	487	static void perf_duration_warn(struct irq_work *w)
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	488	{
David Ahern	0d87d7e	2016-08-01 13:49:29 -0700	[diff] [blame]	489	printk_ratelimited(KERN_INFO
Peter Zijlstra	91a612e	2016-03-17 15:17:35 +0100	[diff] [blame]	490	"perf: interrupt took too long (%lld > %lld), lowering "
				491	"kernel.perf_event_max_sample_rate to %d\n",
				492	__report_avg, __report_allowed,
				493	sysctl_perf_event_sample_rate);
Peter Zijlstra	6a02ad66	2014-02-03 18:11:08 +0100	[diff] [blame]	494	}
				495
				496	static DEFINE_IRQ_WORK(perf_duration_work, perf_duration_warn);
				497
				498	void perf_sample_event_took(u64 sample_len_ns)
				499	{
Peter Zijlstra	91a612e	2016-03-17 15:17:35 +0100	[diff] [blame]	500	u64 max_len = READ_ONCE(perf_sample_allowed_ns);
				501	u64 running_len;
				502	u64 avg_len;
				503	u32 max;
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	504
Peter Zijlstra	91a612e	2016-03-17 15:17:35 +0100	[diff] [blame]	505	if (max_len == 0)
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	506	return;
				507
Peter Zijlstra	91a612e	2016-03-17 15:17:35 +0100	[diff] [blame]	508	/* Decay the counter by 1 average sample. */
				509	running_len = __this_cpu_read(running_sample_length);
				510	running_len -= running_len/NR_ACCUMULATED_SAMPLES;
				511	running_len += sample_len_ns;
				512	__this_cpu_write(running_sample_length, running_len);
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	513
				514	/*
Peter Zijlstra	91a612e	2016-03-17 15:17:35 +0100	[diff] [blame]	515	* Note: this will be biased artifically low until we have
				516	* seen NR_ACCUMULATED_SAMPLES. Doing it this way keeps us
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	517	* from having to maintain a count.
				518	*/
Peter Zijlstra	91a612e	2016-03-17 15:17:35 +0100	[diff] [blame]	519	avg_len = running_len/NR_ACCUMULATED_SAMPLES;
				520	if (avg_len <= max_len)
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	521	return;
				522
Peter Zijlstra	91a612e	2016-03-17 15:17:35 +0100	[diff] [blame]	523	__report_avg = avg_len;
				524	__report_allowed = max_len;
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	525
Peter Zijlstra	91a612e	2016-03-17 15:17:35 +0100	[diff] [blame]	526	/*
				527	* Compute a throttle threshold 25% below the current duration.
				528	*/
				529	avg_len += avg_len / 4;
				530	max = (TICK_NSEC / 100) * sysctl_perf_cpu_time_max_percent;
				531	if (avg_len < max)
				532	max /= (u32)avg_len;
				533	else
				534	max = 1;
				535
				536	WRITE_ONCE(perf_sample_allowed_ns, avg_len);
				537	WRITE_ONCE(max_samples_per_tick, max);
				538
				539	sysctl_perf_event_sample_rate = max * HZ;
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	540	perf_sample_period_ns = NSEC_PER_SEC / sysctl_perf_event_sample_rate;
				541
Peter Zijlstra	cd578ab	2014-02-11 16:01:16 +0100	[diff] [blame]	542	if (!irq_work_queue(&perf_duration_work)) {
Peter Zijlstra	91a612e	2016-03-17 15:17:35 +0100	[diff] [blame]	543	early_printk("perf: interrupt took too long (%lld > %lld), lowering "
Peter Zijlstra	cd578ab	2014-02-11 16:01:16 +0100	[diff] [blame]	544	"kernel.perf_event_max_sample_rate to %d\n",
Peter Zijlstra	91a612e	2016-03-17 15:17:35 +0100	[diff] [blame]	545	__report_avg, __report_allowed,
Peter Zijlstra	cd578ab	2014-02-11 16:01:16 +0100	[diff] [blame]	546	sysctl_perf_event_sample_rate);
				547	}
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	548	}
				549
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	550	static atomic64_t perf_event_id;
				551
Stephane Eranian	0b3fcf1	2011-01-03 18:20:01 +0200	[diff] [blame]	552	static void cpu_ctx_sched_out(struct perf_cpu_context *cpuctx,
				553	enum event_type_t event_type);
				554
				555	static void cpu_ctx_sched_in(struct perf_cpu_context *cpuctx,
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	556	enum event_type_t event_type,
				557	struct task_struct *task);
				558
				559	static void update_context_time(struct perf_event_context *ctx);
				560	static u64 perf_event_time(struct perf_event *event);
Stephane Eranian	0b3fcf1	2011-01-03 18:20:01 +0200	[diff] [blame]	561
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	562	void __weak perf_event_print_debug(void) { }
				563
Matt Fleming	84c7991	2010-10-03 21:41:13 +0100	[diff] [blame]	564	extern __weak const char *perf_pmu_name(void)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	565	{
Matt Fleming	84c7991	2010-10-03 21:41:13 +0100	[diff] [blame]	566	return "pmu";
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	567	}
				568
Stephane Eranian	0b3fcf1	2011-01-03 18:20:01 +0200	[diff] [blame]	569	static inline u64 perf_clock(void)
				570	{
				571	return local_clock();
				572	}
				573
Peter Zijlstra	34f4392	2015-02-20 14:05:38 +0100	[diff] [blame]	574	static inline u64 perf_event_clock(struct perf_event *event)
				575	{
				576	return event->clock();
				577	}
				578
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	579	#ifdef CONFIG_CGROUP_PERF
				580
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	581	static inline bool
				582	perf_cgroup_match(struct perf_event *event)
				583	{
				584	struct perf_event_context *ctx = event->ctx;
				585	struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
				586
Tejun Heo	ef824fa	2013-04-08 19:00:38 -0700	[diff] [blame]	587	/* @event doesn't care about cgroup */
				588	if (!event->cgrp)
				589	return true;
				590
				591	/* wants specific cgroup scope but @cpuctx isn't associated with any */
				592	if (!cpuctx->cgrp)
				593	return false;
				594
				595	/*
				596	* Cgroup scoping is recursive. An event enabled for a cgroup is
				597	* also enabled for all its descendant cgroups. If @cpuctx's
				598	* cgroup is a descendant of @event's (the test covers identity
				599	* case), it's a match.
				600	*/
				601	return cgroup_is_descendant(cpuctx->cgrp->css.cgroup,
				602	event->cgrp->css.cgroup);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	603	}
				604
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	605	static inline void perf_detach_cgroup(struct perf_event *event)
				606	{
Zefan Li	4e2ba65	2014-09-19 16:53:14 +0800	[diff] [blame]	607	css_put(&event->cgrp->css);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	608	event->cgrp = NULL;
				609	}
				610
				611	static inline int is_cgroup_event(struct perf_event *event)
				612	{
				613	return event->cgrp != NULL;
				614	}
				615
				616	static inline u64 perf_cgroup_event_time(struct perf_event *event)
				617	{
				618	struct perf_cgroup_info *t;
				619
				620	t = per_cpu_ptr(event->cgrp->info, event->cpu);
				621	return t->time;
				622	}
				623
				624	static inline void __update_cgrp_time(struct perf_cgroup *cgrp)
				625	{
				626	struct perf_cgroup_info *info;
				627	u64 now;
				628
				629	now = perf_clock();
				630
				631	info = this_cpu_ptr(cgrp->info);
				632
				633	info->time += now - info->timestamp;
				634	info->timestamp = now;
				635	}
				636
				637	static inline void update_cgrp_time_from_cpuctx(struct perf_cpu_context *cpuctx)
				638	{
				639	struct perf_cgroup *cgrp_out = cpuctx->cgrp;
				640	if (cgrp_out)
				641	__update_cgrp_time(cgrp_out);
				642	}
				643
				644	static inline void update_cgrp_time_from_event(struct perf_event *event)
				645	{
Stephane Eranian	3f7cce3	2011-02-18 14:40:01 +0200	[diff] [blame]	646	struct perf_cgroup *cgrp;
				647
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	648	/*
Stephane Eranian	3f7cce3	2011-02-18 14:40:01 +0200	[diff] [blame]	649	* ensure we access cgroup data only when needed and
				650	* when we know the cgroup is pinned (css_get)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	651	*/
Stephane Eranian	3f7cce3	2011-02-18 14:40:01 +0200	[diff] [blame]	652	if (!is_cgroup_event(event))
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	653	return;
				654
Stephane Eranian	614e4c4	2015-11-12 11:00:04 +0100	[diff] [blame]	655	cgrp = perf_cgroup_from_task(current, event->ctx);
Stephane Eranian	3f7cce3	2011-02-18 14:40:01 +0200	[diff] [blame]	656	/*
				657	* Do not update time when cgroup is not active
				658	*/
				659	if (cgrp == event->cgrp)
				660	__update_cgrp_time(event->cgrp);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	661	}
				662
				663	static inline void
Stephane Eranian	3f7cce3	2011-02-18 14:40:01 +0200	[diff] [blame]	664	perf_cgroup_set_timestamp(struct task_struct *task,
				665	struct perf_event_context *ctx)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	666	{
				667	struct perf_cgroup *cgrp;
				668	struct perf_cgroup_info *info;
				669
Stephane Eranian	3f7cce3	2011-02-18 14:40:01 +0200	[diff] [blame]	670	/*
				671	* ctx->lock held by caller
				672	* ensure we do not access cgroup data
				673	* unless we have the cgroup pinned (css_get)
				674	*/
				675	if (!task \|\| !ctx->nr_cgroups)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	676	return;
				677
Stephane Eranian	614e4c4	2015-11-12 11:00:04 +0100	[diff] [blame]	678	cgrp = perf_cgroup_from_task(task, ctx);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	679	info = this_cpu_ptr(cgrp->info);
Stephane Eranian	3f7cce3	2011-02-18 14:40:01 +0200	[diff] [blame]	680	info->timestamp = ctx->timestamp;
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	681	}
				682
David Carrillo-Cisneros	058fe1c	2017-01-18 11:24:53 -0800	[diff] [blame]	683	static DEFINE_PER_CPU(struct list_head, cgrp_cpuctx_list);
				684
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	685	#define PERF_CGROUP_SWOUT 0x1 /* cgroup switch out every event */
				686	#define PERF_CGROUP_SWIN 0x2 /* cgroup switch in events based on task */
				687
				688	/*
				689	* reschedule events based on the cgroup constraint of task.
				690	*
				691	* mode SWOUT : schedule out everything
				692	* mode SWIN : schedule in based on cgroup for next
				693	*/
Geliang Tang	18ab2cd	2015-09-27 23:25:50 +0800	[diff] [blame]	694	static void perf_cgroup_switch(struct task_struct *task, int mode)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	695	{
				696	struct perf_cpu_context *cpuctx;
David Carrillo-Cisneros	058fe1c	2017-01-18 11:24:53 -0800	[diff] [blame]	697	struct list_head *list;
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	698	unsigned long flags;
				699
				700	/*
David Carrillo-Cisneros	058fe1c	2017-01-18 11:24:53 -0800	[diff] [blame]	701	* Disable interrupts and preemption to avoid this CPU's
				702	* cgrp_cpuctx_entry to change under us.
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	703	*/
				704	local_irq_save(flags);
				705
David Carrillo-Cisneros	058fe1c	2017-01-18 11:24:53 -0800	[diff] [blame]	706	list = this_cpu_ptr(&cgrp_cpuctx_list);
				707	list_for_each_entry(cpuctx, list, cgrp_cpuctx_entry) {
				708	WARN_ON_ONCE(cpuctx->ctx.nr_cgroups == 0);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	709
David Carrillo-Cisneros	058fe1c	2017-01-18 11:24:53 -0800	[diff] [blame]	710	perf_ctx_lock(cpuctx, cpuctx->task_ctx);
				711	perf_pmu_disable(cpuctx->ctx.pmu);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	712
David Carrillo-Cisneros	058fe1c	2017-01-18 11:24:53 -0800	[diff] [blame]	713	if (mode & PERF_CGROUP_SWOUT) {
				714	cpu_ctx_sched_out(cpuctx, EVENT_ALL);
				715	/*
				716	* must not be done before ctxswout due
				717	* to event_filter_match() in event_sched_out()
				718	*/
				719	cpuctx->cgrp = NULL;
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	720	}
David Carrillo-Cisneros	058fe1c	2017-01-18 11:24:53 -0800	[diff] [blame]	721
				722	if (mode & PERF_CGROUP_SWIN) {
				723	WARN_ON_ONCE(cpuctx->cgrp);
				724	/*
				725	* set cgrp before ctxsw in to allow
				726	* event_filter_match() to not have to pass
				727	* task around
				728	* we pass the cpuctx->ctx to perf_cgroup_from_task()
				729	* because cgorup events are only per-cpu
				730	*/
				731	cpuctx->cgrp = perf_cgroup_from_task(task,
				732	&cpuctx->ctx);
				733	cpu_ctx_sched_in(cpuctx, EVENT_ALL, task);
				734	}
				735	perf_pmu_enable(cpuctx->ctx.pmu);
				736	perf_ctx_unlock(cpuctx, cpuctx->task_ctx);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	737	}
				738
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	739	local_irq_restore(flags);
				740	}
				741
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	742	static inline void perf_cgroup_sched_out(struct task_struct *task,
				743	struct task_struct *next)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	744	{
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	745	struct perf_cgroup *cgrp1;
				746	struct perf_cgroup *cgrp2 = NULL;
				747
Stephane Eranian	ddaaf4e	2015-11-12 11:00:03 +0100	[diff] [blame]	748	rcu_read_lock();
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	749	/*
				750	* we come here when we know perf_cgroup_events > 0
Stephane Eranian	614e4c4	2015-11-12 11:00:04 +0100	[diff] [blame]	751	* we do not need to pass the ctx here because we know
				752	* we are holding the rcu lock
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	753	*/
Stephane Eranian	614e4c4	2015-11-12 11:00:04 +0100	[diff] [blame]	754	cgrp1 = perf_cgroup_from_task(task, NULL);
Peter Zijlstra	70a0165	2016-01-08 09:29:16 +0100	[diff] [blame]	755	cgrp2 = perf_cgroup_from_task(next, NULL);
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	756
				757	/*
				758	* only schedule out current cgroup events if we know
				759	* that we are switching to a different cgroup. Otherwise,
				760	* do no touch the cgroup events.
				761	*/
				762	if (cgrp1 != cgrp2)
				763	perf_cgroup_switch(task, PERF_CGROUP_SWOUT);
Stephane Eranian	ddaaf4e	2015-11-12 11:00:03 +0100	[diff] [blame]	764
				765	rcu_read_unlock();
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	766	}
				767
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	768	static inline void perf_cgroup_sched_in(struct task_struct *prev,
				769	struct task_struct *task)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	770	{
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	771	struct perf_cgroup *cgrp1;
				772	struct perf_cgroup *cgrp2 = NULL;
				773
Stephane Eranian	ddaaf4e	2015-11-12 11:00:03 +0100	[diff] [blame]	774	rcu_read_lock();
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	775	/*
				776	* we come here when we know perf_cgroup_events > 0
Stephane Eranian	614e4c4	2015-11-12 11:00:04 +0100	[diff] [blame]	777	* we do not need to pass the ctx here because we know
				778	* we are holding the rcu lock
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	779	*/
Stephane Eranian	614e4c4	2015-11-12 11:00:04 +0100	[diff] [blame]	780	cgrp1 = perf_cgroup_from_task(task, NULL);
Stephane Eranian	614e4c4	2015-11-12 11:00:04 +0100	[diff] [blame]	781	cgrp2 = perf_cgroup_from_task(prev, NULL);
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	782
				783	/*
				784	* only need to schedule in cgroup events if we are changing
				785	* cgroup during ctxsw. Cgroup events were not scheduled
				786	* out of ctxsw out if that was not the case.
				787	*/
				788	if (cgrp1 != cgrp2)
				789	perf_cgroup_switch(task, PERF_CGROUP_SWIN);
Stephane Eranian	ddaaf4e	2015-11-12 11:00:03 +0100	[diff] [blame]	790
				791	rcu_read_unlock();
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	792	}
				793
				794	static inline int perf_cgroup_connect(int fd, struct perf_event *event,
				795	struct perf_event_attr *attr,
				796	struct perf_event *group_leader)
				797	{
				798	struct perf_cgroup *cgrp;
				799	struct cgroup_subsys_state *css;
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	800	struct fd f = fdget(fd);
				801	int ret = 0;
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	802
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	803	if (!f.file)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	804	return -EBADF;
				805
Al Viro	b583043	2014-10-31 01:22:04 -0400	[diff] [blame]	806	css = css_tryget_online_from_dir(f.file->f_path.dentry,
Tejun Heo	ec903c0	2014-05-13 12:11:01 -0400	[diff] [blame]	807	&perf_event_cgrp_subsys);
Li Zefan	3db272c	2011-03-03 14:25:37 +0800	[diff] [blame]	808	if (IS_ERR(css)) {
				809	ret = PTR_ERR(css);
				810	goto out;
				811	}
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	812
				813	cgrp = container_of(css, struct perf_cgroup, css);
				814	event->cgrp = cgrp;
				815
				816	/*
				817	* all events in a group must monitor
				818	* the same cgroup because a task belongs
				819	* to only one perf cgroup at a time
				820	*/
				821	if (group_leader && group_leader->cgrp != cgrp) {
				822	perf_detach_cgroup(event);
				823	ret = -EINVAL;
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	824	}
Li Zefan	3db272c	2011-03-03 14:25:37 +0800	[diff] [blame]	825	out:
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	826	fdput(f);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	827	return ret;
				828	}
				829
				830	static inline void
				831	perf_cgroup_set_shadow_time(struct perf_event *event, u64 now)
				832	{
				833	struct perf_cgroup_info *t;
				834	t = per_cpu_ptr(event->cgrp->info, event->cpu);
				835	event->shadow_ctx_time = now - t->timestamp;
				836	}
				837
				838	static inline void
				839	perf_cgroup_defer_enabled(struct perf_event *event)
				840	{
				841	/*
				842	* when the current task's perf cgroup does not match
				843	* the event's, we need to remember to call the
				844	* perf_mark_enable() function the first time a task with
				845	* a matching perf cgroup is scheduled in.
				846	*/
				847	if (is_cgroup_event(event) && !perf_cgroup_match(event))
				848	event->cgrp_defer_enabled = 1;
				849	}
				850
				851	static inline void
				852	perf_cgroup_mark_enabled(struct perf_event *event,
				853	struct perf_event_context *ctx)
				854	{
				855	struct perf_event *sub;
				856	u64 tstamp = perf_event_time(event);
				857
				858	if (!event->cgrp_defer_enabled)
				859	return;
				860
				861	event->cgrp_defer_enabled = 0;
				862
				863	event->tstamp_enabled = tstamp - event->total_time_enabled;
				864	list_for_each_entry(sub, &event->sibling_list, group_entry) {
				865	if (sub->state >= PERF_EVENT_STATE_INACTIVE) {
				866	sub->tstamp_enabled = tstamp - sub->total_time_enabled;
				867	sub->cgrp_defer_enabled = 0;
				868	}
				869	}
				870	}
David Carrillo-Cisneros	db4a835	2016-08-02 00:48:12 -0700	[diff] [blame]	871
				872	/*
				873	* Update cpuctx->cgrp so that it is set when first cgroup event is added and
				874	* cleared when last cgroup event is removed.
				875	*/
				876	static inline void
				877	list_update_cgroup_event(struct perf_event *event,
				878	struct perf_event_context *ctx, bool add)
				879	{
				880	struct perf_cpu_context *cpuctx;
David Carrillo-Cisneros	058fe1c	2017-01-18 11:24:53 -0800	[diff] [blame]	881	struct list_head *cpuctx_entry;
David Carrillo-Cisneros	db4a835	2016-08-02 00:48:12 -0700	[diff] [blame]	882
				883	if (!is_cgroup_event(event))
				884	return;
				885
				886	if (add && ctx->nr_cgroups++)
				887	return;
				888	else if (!add && --ctx->nr_cgroups)
				889	return;
				890	/*
				891	* Because cgroup events are always per-cpu events,
				892	* this will always be called from the right CPU.
				893	*/
				894	cpuctx = __get_cpu_context(ctx);
David Carrillo-Cisneros	058fe1c	2017-01-18 11:24:53 -0800	[diff] [blame]	895	cpuctx_entry = &cpuctx->cgrp_cpuctx_entry;
				896	/* cpuctx->cgrp is NULL unless a cgroup event is active in this CPU .*/
				897	if (add) {
				898	list_add(cpuctx_entry, this_cpu_ptr(&cgrp_cpuctx_list));
				899	if (perf_cgroup_from_task(current, ctx) == event->cgrp)
				900	cpuctx->cgrp = event->cgrp;
				901	} else {
				902	list_del(cpuctx_entry);
David Carrillo-Cisneros	8fc31ce	2016-12-04 00:46:17 -0800	[diff] [blame]	903	cpuctx->cgrp = NULL;
David Carrillo-Cisneros	058fe1c	2017-01-18 11:24:53 -0800	[diff] [blame]	904	}
David Carrillo-Cisneros	db4a835	2016-08-02 00:48:12 -0700	[diff] [blame]	905	}
				906
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	907	#else /* !CONFIG_CGROUP_PERF */
				908
				909	static inline bool
				910	perf_cgroup_match(struct perf_event *event)
				911	{
				912	return true;
				913	}
				914
				915	static inline void perf_detach_cgroup(struct perf_event *event)
				916	{}
				917
				918	static inline int is_cgroup_event(struct perf_event *event)
				919	{
				920	return 0;
				921	}
				922
				923	static inline u64 perf_cgroup_event_cgrp_time(struct perf_event *event)
				924	{
				925	return 0;
				926	}
				927
				928	static inline void update_cgrp_time_from_event(struct perf_event *event)
				929	{
				930	}
				931
				932	static inline void update_cgrp_time_from_cpuctx(struct perf_cpu_context *cpuctx)
				933	{
				934	}
				935
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	936	static inline void perf_cgroup_sched_out(struct task_struct *task,
				937	struct task_struct *next)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	938	{
				939	}
				940
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	941	static inline void perf_cgroup_sched_in(struct task_struct *prev,
				942	struct task_struct *task)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	943	{
				944	}
				945
				946	static inline int perf_cgroup_connect(pid_t pid, struct perf_event *event,
				947	struct perf_event_attr *attr,
				948	struct perf_event *group_leader)
				949	{
				950	return -EINVAL;
				951	}
				952
				953	static inline void
Stephane Eranian	3f7cce3	2011-02-18 14:40:01 +0200	[diff] [blame]	954	perf_cgroup_set_timestamp(struct task_struct *task,
				955	struct perf_event_context *ctx)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	956	{
				957	}
				958
				959	void
				960	perf_cgroup_switch(struct task_struct task, struct task_struct next)
				961	{
				962	}
				963
				964	static inline void
				965	perf_cgroup_set_shadow_time(struct perf_event *event, u64 now)
				966	{
				967	}
				968
				969	static inline u64 perf_cgroup_event_time(struct perf_event *event)
				970	{
				971	return 0;
				972	}
				973
				974	static inline void
				975	perf_cgroup_defer_enabled(struct perf_event *event)
				976	{
				977	}
				978
				979	static inline void
				980	perf_cgroup_mark_enabled(struct perf_event *event,
				981	struct perf_event_context *ctx)
				982	{
				983	}
David Carrillo-Cisneros	db4a835	2016-08-02 00:48:12 -0700	[diff] [blame]	984
				985	static inline void
				986	list_update_cgroup_event(struct perf_event *event,
				987	struct perf_event_context *ctx, bool add)
				988	{
				989	}
				990
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	991	#endif
				992
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	993	/*
				994	* set default to be dependent on timer tick just
				995	* like original code
				996	*/
				997	#define PERF_CPU_HRTIMER (1000 / HZ)
				998	/*
				999	* function must be called with interrupts disbled
				1000	*/
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	1001	static enum hrtimer_restart perf_mux_hrtimer_handler(struct hrtimer *hr)
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1002	{
				1003	struct perf_cpu_context *cpuctx;
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1004	int rotations = 0;
				1005
				1006	WARN_ON(!irqs_disabled());
				1007
				1008	cpuctx = container_of(hr, struct perf_cpu_context, hrtimer);
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1009	rotations = perf_rotate_context(cpuctx);
				1010
Peter Zijlstra	4cfafd3	2015-05-14 12:23:11 +0200	[diff] [blame]	1011	raw_spin_lock(&cpuctx->hrtimer_lock);
				1012	if (rotations)
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1013	hrtimer_forward_now(hr, cpuctx->hrtimer_interval);
Peter Zijlstra	4cfafd3	2015-05-14 12:23:11 +0200	[diff] [blame]	1014	else
				1015	cpuctx->hrtimer_active = 0;
				1016	raw_spin_unlock(&cpuctx->hrtimer_lock);
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1017
Peter Zijlstra	4cfafd3	2015-05-14 12:23:11 +0200	[diff] [blame]	1018	return rotations ? HRTIMER_RESTART : HRTIMER_NORESTART;
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1019	}
				1020
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	1021	static void __perf_mux_hrtimer_init(struct perf_cpu_context *cpuctx, int cpu)
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1022	{
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	1023	struct hrtimer *timer = &cpuctx->hrtimer;
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1024	struct pmu *pmu = cpuctx->ctx.pmu;
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	1025	u64 interval;
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1026
				1027	/* no multiplexing needed for SW PMU */
				1028	if (pmu->task_ctx_nr == perf_sw_context)
				1029	return;
				1030
Stephane Eranian	62b8563	2013-04-03 14:21:34 +0200	[diff] [blame]	1031	/*
				1032	* check default is sane, if not set then force to
				1033	* default interval (1/tick)
				1034	*/
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	1035	interval = pmu->hrtimer_interval_ms;
				1036	if (interval < 1)
				1037	interval = pmu->hrtimer_interval_ms = PERF_CPU_HRTIMER;
Stephane Eranian	62b8563	2013-04-03 14:21:34 +0200	[diff] [blame]	1038
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	1039	cpuctx->hrtimer_interval = ns_to_ktime(NSEC_PER_MSEC * interval);
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1040
Peter Zijlstra	4cfafd3	2015-05-14 12:23:11 +0200	[diff] [blame]	1041	raw_spin_lock_init(&cpuctx->hrtimer_lock);
				1042	hrtimer_init(timer, CLOCK_MONOTONIC, HRTIMER_MODE_ABS_PINNED);
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	1043	timer->function = perf_mux_hrtimer_handler;
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1044	}
				1045
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	1046	static int perf_mux_hrtimer_restart(struct perf_cpu_context *cpuctx)
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1047	{
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	1048	struct hrtimer *timer = &cpuctx->hrtimer;
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1049	struct pmu *pmu = cpuctx->ctx.pmu;
Peter Zijlstra	4cfafd3	2015-05-14 12:23:11 +0200	[diff] [blame]	1050	unsigned long flags;
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1051
				1052	/* not for SW PMU */
				1053	if (pmu->task_ctx_nr == perf_sw_context)
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	1054	return 0;
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1055
Peter Zijlstra	4cfafd3	2015-05-14 12:23:11 +0200	[diff] [blame]	1056	raw_spin_lock_irqsave(&cpuctx->hrtimer_lock, flags);
				1057	if (!cpuctx->hrtimer_active) {
				1058	cpuctx->hrtimer_active = 1;
				1059	hrtimer_forward_now(timer, cpuctx->hrtimer_interval);
				1060	hrtimer_start_expires(timer, HRTIMER_MODE_ABS_PINNED);
				1061	}
				1062	raw_spin_unlock_irqrestore(&cpuctx->hrtimer_lock, flags);
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1063
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	1064	return 0;
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1065	}
				1066
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	1067	void perf_pmu_disable(struct pmu *pmu)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1068	{
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	1069	int *count = this_cpu_ptr(pmu->pmu_disable_count);
				1070	if (!(*count)++)
				1071	pmu->pmu_disable(pmu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1072	}
				1073
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	1074	void perf_pmu_enable(struct pmu *pmu)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1075	{
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	1076	int *count = this_cpu_ptr(pmu->pmu_disable_count);
				1077	if (!--(*count))
				1078	pmu->pmu_enable(pmu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1079	}
				1080
Mark Rutland	2fde4f9	2015-01-07 15:01:54 +0000	[diff] [blame]	1081	static DEFINE_PER_CPU(struct list_head, active_ctx_list);
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	1082
				1083	/*
Mark Rutland	2fde4f9	2015-01-07 15:01:54 +0000	[diff] [blame]	1084	* perf_event_ctx_activate(), perf_event_ctx_deactivate(), and
				1085	* perf_event_task_tick() are fully serialized because they're strictly cpu
				1086	* affine and perf_event_ctx{activate,deactivate} are called with IRQs
				1087	* disabled, while perf_event_task_tick is called from IRQ context.
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	1088	*/
Mark Rutland	2fde4f9	2015-01-07 15:01:54 +0000	[diff] [blame]	1089	static void perf_event_ctx_activate(struct perf_event_context *ctx)
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	1090	{
Mark Rutland	2fde4f9	2015-01-07 15:01:54 +0000	[diff] [blame]	1091	struct list_head *head = this_cpu_ptr(&active_ctx_list);
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	1092
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	1093	WARN_ON(!irqs_disabled());
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	1094
Mark Rutland	2fde4f9	2015-01-07 15:01:54 +0000	[diff] [blame]	1095	WARN_ON(!list_empty(&ctx->active_ctx_list));
				1096
				1097	list_add(&ctx->active_ctx_list, head);
				1098	}
				1099
				1100	static void perf_event_ctx_deactivate(struct perf_event_context *ctx)
				1101	{
				1102	WARN_ON(!irqs_disabled());
				1103
				1104	WARN_ON(list_empty(&ctx->active_ctx_list));
				1105
				1106	list_del_init(&ctx->active_ctx_list);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1107	}
				1108
				1109	static void get_ctx(struct perf_event_context *ctx)
				1110	{
				1111	WARN_ON(!atomic_inc_not_zero(&ctx->refcount));
				1112	}
				1113
Yan, Zheng	4af57ef	2014-11-04 21:56:01 -0500	[diff] [blame]	1114	static void free_ctx(struct rcu_head *head)
				1115	{
				1116	struct perf_event_context *ctx;
				1117
				1118	ctx = container_of(head, struct perf_event_context, rcu_head);
				1119	kfree(ctx->task_ctx_data);
				1120	kfree(ctx);
				1121	}
				1122
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1123	static void put_ctx(struct perf_event_context *ctx)
				1124	{
				1125	if (atomic_dec_and_test(&ctx->refcount)) {
				1126	if (ctx->parent_ctx)
				1127	put_ctx(ctx->parent_ctx);
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	1128	if (ctx->task && ctx->task != TASK_TOMBSTONE)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1129	put_task_struct(ctx->task);
Yan, Zheng	4af57ef	2014-11-04 21:56:01 -0500	[diff] [blame]	1130	call_rcu(&ctx->rcu_head, free_ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1131	}
				1132	}
				1133
Peter Zijlstra	211de6e	2014-09-30 19:23:08 +0200	[diff] [blame]	1134	/*
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	1135	* Because of perf_event::ctx migration in sys_perf_event_open::move_group and
				1136	* perf_pmu_migrate_context() we need some magic.
				1137	*
				1138	* Those places that change perf_event::ctx will hold both
				1139	* perf_event_ctx::mutex of the 'old' and 'new' ctx value.
				1140	*
Peter Zijlstra	8b10c5e	2015-05-01 16:08:46 +0200	[diff] [blame]	1141	* Lock ordering is by mutex address. There are two other sites where
				1142	* perf_event_context::mutex nests and those are:
				1143	*
				1144	* - perf_event_exit_task_context() [ child , 0 ]
Peter Zijlstra	8ba289b	2016-01-26 13:06:56 +0100	[diff] [blame]	1145	* perf_event_exit_event()
				1146	* put_event() [ parent, 1 ]
Peter Zijlstra	8b10c5e	2015-05-01 16:08:46 +0200	[diff] [blame]	1147	*
				1148	* - perf_event_init_context() [ parent, 0 ]
				1149	* inherit_task_group()
				1150	* inherit_group()
				1151	* inherit_event()
				1152	* perf_event_alloc()
				1153	* perf_init_event()
				1154	* perf_try_init_event() [ child , 1 ]
				1155	*
				1156	* While it appears there is an obvious deadlock here -- the parent and child
				1157	* nesting levels are inverted between the two. This is in fact safe because
				1158	* life-time rules separate them. That is an exiting task cannot fork, and a
				1159	* spawning task cannot (yet) exit.
				1160	*
				1161	* But remember that that these are parent<->child context relations, and
				1162	* migration does not affect children, therefore these two orderings should not
				1163	* interact.
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	1164	*
				1165	* The change in perf_event::ctx does not affect children (as claimed above)
				1166	* because the sys_perf_event_open() case will install a new event and break
				1167	* the ctx parent<->child relation, and perf_pmu_migrate_context() is only
				1168	* concerned with cpuctx and that doesn't have children.
				1169	*
				1170	* The places that change perf_event::ctx will issue:
				1171	*
				1172	* perf_remove_from_context();
				1173	* synchronize_rcu();
				1174	* perf_install_in_context();
				1175	*
				1176	* to affect the change. The remove_from_context() + synchronize_rcu() should
				1177	* quiesce the event, after which we can install it in the new location. This
				1178	* means that only external vectors (perf_fops, prctl) can perturb the event
				1179	* while in transit. Therefore all such accessors should also acquire
				1180	* perf_event_context::mutex to serialize against this.
				1181	*
				1182	* However; because event->ctx can change while we're waiting to acquire
				1183	* ctx->mutex we must be careful and use the below perf_event_ctx_lock()
				1184	* function.
				1185	*
				1186	* Lock order:
Peter Zijlstra	79c9ce5	2016-04-26 11:36:53 +0200	[diff] [blame]	1187	* cred_guard_mutex
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	1188	* task_struct::perf_event_mutex
				1189	* perf_event_context::mutex
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	1190	* perf_event::child_mutex;
Peter Zijlstra	07c4a77	2016-01-26 12:15:37 +0100	[diff] [blame]	1191	* perf_event_context::lock
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	1192	* perf_event::mmap_mutex
				1193	* mmap_sem
				1194	*/
Peter Zijlstra	a83fe28	2015-01-29 14:44:34 +0100	[diff] [blame]	1195	static struct perf_event_context *
				1196	perf_event_ctx_lock_nested(struct perf_event *event, int nesting)
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	1197	{
				1198	struct perf_event_context *ctx;
				1199
				1200	again:
				1201	rcu_read_lock();
				1202	ctx = ACCESS_ONCE(event->ctx);
				1203	if (!atomic_inc_not_zero(&ctx->refcount)) {
				1204	rcu_read_unlock();
				1205	goto again;
				1206	}
				1207	rcu_read_unlock();
				1208
Peter Zijlstra	a83fe28	2015-01-29 14:44:34 +0100	[diff] [blame]	1209	mutex_lock_nested(&ctx->mutex, nesting);
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	1210	if (event->ctx != ctx) {
				1211	mutex_unlock(&ctx->mutex);
				1212	put_ctx(ctx);
				1213	goto again;
				1214	}
				1215
				1216	return ctx;
				1217	}
				1218
Peter Zijlstra	a83fe28	2015-01-29 14:44:34 +0100	[diff] [blame]	1219	static inline struct perf_event_context *
				1220	perf_event_ctx_lock(struct perf_event *event)
				1221	{
				1222	return perf_event_ctx_lock_nested(event, 0);
				1223	}
				1224
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	1225	static void perf_event_ctx_unlock(struct perf_event *event,
				1226	struct perf_event_context *ctx)
				1227	{
				1228	mutex_unlock(&ctx->mutex);
				1229	put_ctx(ctx);
				1230	}
				1231
				1232	/*
Peter Zijlstra	211de6e	2014-09-30 19:23:08 +0200	[diff] [blame]	1233	* This must be done under the ctx->lock, such as to serialize against
				1234	* context_equiv(), therefore we cannot call put_ctx() since that might end up
				1235	* calling scheduler related locks and ctx->lock nests inside those.
				1236	*/
				1237	static __must_check struct perf_event_context *
				1238	unclone_ctx(struct perf_event_context *ctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1239	{
Peter Zijlstra	211de6e	2014-09-30 19:23:08 +0200	[diff] [blame]	1240	struct perf_event_context *parent_ctx = ctx->parent_ctx;
				1241
				1242	lockdep_assert_held(&ctx->lock);
				1243
				1244	if (parent_ctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1245	ctx->parent_ctx = NULL;
Peter Zijlstra	5a3126d	2013-10-07 17:12:48 +0200	[diff] [blame]	1246	ctx->generation++;
Peter Zijlstra	211de6e	2014-09-30 19:23:08 +0200	[diff] [blame]	1247
				1248	return parent_ctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1249	}
				1250
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	1251	static u32 perf_event_pid(struct perf_event event, struct task_struct p)
				1252	{
				1253	/*
				1254	* only top level events have the pid namespace they were created in
				1255	*/
				1256	if (event->parent)
				1257	event = event->parent;
				1258
				1259	return task_tgid_nr_ns(p, event->ns);
				1260	}
				1261
				1262	static u32 perf_event_tid(struct perf_event event, struct task_struct p)
				1263	{
				1264	/*
				1265	* only top level events have the pid namespace they were created in
				1266	*/
				1267	if (event->parent)
				1268	event = event->parent;
				1269
				1270	return task_pid_nr_ns(p, event->ns);
				1271	}
				1272
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1273	/*
				1274	* If we inherit events we want to return the parent event id
				1275	* to userspace.
				1276	*/
				1277	static u64 primary_event_id(struct perf_event *event)
				1278	{
				1279	u64 id = event->id;
				1280
				1281	if (event->parent)
				1282	id = event->parent->id;
				1283
				1284	return id;
				1285	}
				1286
				1287	/*
				1288	* Get the perf_event_context for a task and lock it.
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	1289	*
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1290	* This has to cope with with the fact that until it is locked,
				1291	* the context could get moved to another task.
				1292	*/
				1293	static struct perf_event_context *
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	1294	perf_lock_task_context(struct task_struct task, int ctxn, unsigned long flags)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1295	{
				1296	struct perf_event_context *ctx;
				1297
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	1298	retry:
Peter Zijlstra	058ebd0	2013-07-12 11:08:33 +0200	[diff] [blame]	1299	/*
				1300	* One of the few rules of preemptible RCU is that one cannot do
				1301	* rcu_read_unlock() while holding a scheduler (or nested) lock when
Paul E. McKenney	2fd5907	2015-11-04 05:48:38 -0800	[diff] [blame]	1302	* part of the read side critical section was irqs-enabled -- see
Peter Zijlstra	058ebd0	2013-07-12 11:08:33 +0200	[diff] [blame]	1303	* rcu_read_unlock_special().
				1304	*
				1305	* Since ctx->lock nests under rq->lock we must ensure the entire read
Paul E. McKenney	2fd5907	2015-11-04 05:48:38 -0800	[diff] [blame]	1306	* side critical section has interrupts disabled.
Peter Zijlstra	058ebd0	2013-07-12 11:08:33 +0200	[diff] [blame]	1307	*/
Paul E. McKenney	2fd5907	2015-11-04 05:48:38 -0800	[diff] [blame]	1308	local_irq_save(*flags);
Peter Zijlstra	058ebd0	2013-07-12 11:08:33 +0200	[diff] [blame]	1309	rcu_read_lock();
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	1310	ctx = rcu_dereference(task->perf_event_ctxp[ctxn]);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1311	if (ctx) {
				1312	/*
				1313	* If this context is a clone of another, it might
				1314	* get swapped for another underneath us by
				1315	* perf_event_task_sched_out, though the
				1316	* rcu_read_lock() protects us from any context
				1317	* getting freed. Lock the context and check if it
				1318	* got swapped before we could get the lock, and retry
				1319	* if so. If we locked the right context, then it
				1320	* can't get swapped on us any more.
				1321	*/
Paul E. McKenney	2fd5907	2015-11-04 05:48:38 -0800	[diff] [blame]	1322	raw_spin_lock(&ctx->lock);
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	1323	if (ctx != rcu_dereference(task->perf_event_ctxp[ctxn])) {
Paul E. McKenney	2fd5907	2015-11-04 05:48:38 -0800	[diff] [blame]	1324	raw_spin_unlock(&ctx->lock);
Peter Zijlstra	058ebd0	2013-07-12 11:08:33 +0200	[diff] [blame]	1325	rcu_read_unlock();
Paul E. McKenney	2fd5907	2015-11-04 05:48:38 -0800	[diff] [blame]	1326	local_irq_restore(*flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1327	goto retry;
				1328	}
				1329
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	1330	if (ctx->task == TASK_TOMBSTONE \|\|
				1331	!atomic_inc_not_zero(&ctx->refcount)) {
Paul E. McKenney	2fd5907	2015-11-04 05:48:38 -0800	[diff] [blame]	1332	raw_spin_unlock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1333	ctx = NULL;
Peter Zijlstra	828b6f0	2016-01-27 21:59:04 +0100	[diff] [blame]	1334	} else {
				1335	WARN_ON_ONCE(ctx->task != task);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1336	}
				1337	}
				1338	rcu_read_unlock();
Paul E. McKenney	2fd5907	2015-11-04 05:48:38 -0800	[diff] [blame]	1339	if (!ctx)
				1340	local_irq_restore(*flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1341	return ctx;
				1342	}
				1343
				1344	/*
				1345	* Get the context for a task and increment its pin_count so it
				1346	* can't get swapped to another task. This also increments its
				1347	* reference count so that the context can't get freed.
				1348	*/
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	1349	static struct perf_event_context *
				1350	perf_pin_task_context(struct task_struct *task, int ctxn)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1351	{
				1352	struct perf_event_context *ctx;
				1353	unsigned long flags;
				1354
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	1355	ctx = perf_lock_task_context(task, ctxn, &flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1356	if (ctx) {
				1357	++ctx->pin_count;
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1358	raw_spin_unlock_irqrestore(&ctx->lock, flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1359	}
				1360	return ctx;
				1361	}
				1362
				1363	static void perf_unpin_context(struct perf_event_context *ctx)
				1364	{
				1365	unsigned long flags;
				1366
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1367	raw_spin_lock_irqsave(&ctx->lock, flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1368	--ctx->pin_count;
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1369	raw_spin_unlock_irqrestore(&ctx->lock, flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1370	}
				1371
Peter Zijlstra	f67218c	2009-11-23 11:37:27 +0100	[diff] [blame]	1372	/*
				1373	* Update the record of the current time in a context.
				1374	*/
				1375	static void update_context_time(struct perf_event_context *ctx)
				1376	{
				1377	u64 now = perf_clock();
				1378
				1379	ctx->time += now - ctx->timestamp;
				1380	ctx->timestamp = now;
				1381	}
				1382
Stephane Eranian	4158755	2011-01-03 18:20:01 +0200	[diff] [blame]	1383	static u64 perf_event_time(struct perf_event *event)
				1384	{
				1385	struct perf_event_context *ctx = event->ctx;
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1386
				1387	if (is_cgroup_event(event))
				1388	return perf_cgroup_event_time(event);
				1389
Stephane Eranian	4158755	2011-01-03 18:20:01 +0200	[diff] [blame]	1390	return ctx ? ctx->time : 0;
				1391	}
				1392
Peter Zijlstra	f67218c	2009-11-23 11:37:27 +0100	[diff] [blame]	1393	/*
				1394	* Update the total_time_enabled and total_time_running fields for a event.
				1395	*/
				1396	static void update_event_times(struct perf_event *event)
				1397	{
				1398	struct perf_event_context *ctx = event->ctx;
				1399	u64 run_end;
				1400
Peter Zijlstra	3cbaa59	2016-02-24 18:45:47 +0100	[diff] [blame]	1401	lockdep_assert_held(&ctx->lock);
				1402
Peter Zijlstra	f67218c	2009-11-23 11:37:27 +0100	[diff] [blame]	1403	if (event->state < PERF_EVENT_STATE_INACTIVE \|\|
				1404	event->group_leader->state < PERF_EVENT_STATE_INACTIVE)
				1405	return;
Peter Zijlstra	3cbaa59	2016-02-24 18:45:47 +0100	[diff] [blame]	1406
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1407	/*
				1408	* in cgroup mode, time_enabled represents
				1409	* the time the event was enabled AND active
				1410	* tasks were in the monitored cgroup. This is
				1411	* independent of the activity of the context as
				1412	* there may be a mix of cgroup and non-cgroup events.
				1413	*
				1414	* That is why we treat cgroup events differently
				1415	* here.
				1416	*/
				1417	if (is_cgroup_event(event))
Namhyung Kim	46cd6a7f	2012-01-20 10:12:46 +0900	[diff] [blame]	1418	run_end = perf_cgroup_event_time(event);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1419	else if (ctx->is_active)
				1420	run_end = ctx->time;
Peter Zijlstra	acd1d7c	2009-11-23 15:00:36 +0100	[diff] [blame]	1421	else
				1422	run_end = event->tstamp_stopped;
				1423
				1424	event->total_time_enabled = run_end - event->tstamp_enabled;
Peter Zijlstra	f67218c	2009-11-23 11:37:27 +0100	[diff] [blame]	1425
				1426	if (event->state == PERF_EVENT_STATE_INACTIVE)
				1427	run_end = event->tstamp_stopped;
				1428	else
Stephane Eranian	4158755	2011-01-03 18:20:01 +0200	[diff] [blame]	1429	run_end = perf_event_time(event);
Peter Zijlstra	f67218c	2009-11-23 11:37:27 +0100	[diff] [blame]	1430
				1431	event->total_time_running = run_end - event->tstamp_running;
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1432
Peter Zijlstra	f67218c	2009-11-23 11:37:27 +0100	[diff] [blame]	1433	}
				1434
Peter Zijlstra	96c21a4	2010-05-11 16:19:10 +0200	[diff] [blame]	1435	/*
				1436	* Update total_time_enabled and total_time_running for all events in a group.
				1437	*/
				1438	static void update_group_times(struct perf_event *leader)
				1439	{
				1440	struct perf_event *event;
				1441
				1442	update_event_times(leader);
				1443	list_for_each_entry(event, &leader->sibling_list, group_entry)
				1444	update_event_times(event);
				1445	}
				1446
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	1447	static enum event_type_t get_event_type(struct perf_event *event)
				1448	{
				1449	struct perf_event_context *ctx = event->ctx;
				1450	enum event_type_t event_type;
				1451
				1452	lockdep_assert_held(&ctx->lock);
				1453
				1454	event_type = event->attr.pinned ? EVENT_PINNED : EVENT_FLEXIBLE;
				1455	if (!ctx->task)
				1456	event_type \|= EVENT_CPU;
				1457
				1458	return event_type;
				1459	}
				1460
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	1461	static struct list_head *
				1462	ctx_group_list(struct perf_event event, struct perf_event_context ctx)
				1463	{
				1464	if (event->attr.pinned)
				1465	return &ctx->pinned_groups;
				1466	else
				1467	return &ctx->flexible_groups;
				1468	}
				1469
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1470	/*
				1471	* Add a event from the lists for its context.
				1472	* Must be called with ctx->mutex and ctx->lock held.
				1473	*/
				1474	static void
				1475	list_add_event(struct perf_event event, struct perf_event_context ctx)
				1476	{
Peter Zijlstra	c994d61	2016-01-08 09:20:23 +0100	[diff] [blame]	1477	lockdep_assert_held(&ctx->lock);
				1478
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1479	WARN_ON_ONCE(event->attach_state & PERF_ATTACH_CONTEXT);
				1480	event->attach_state \|= PERF_ATTACH_CONTEXT;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1481
				1482	/*
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1483	* If we're a stand alone event or group leader, we go to the context
				1484	* list, group events are kept attached to the group so that
				1485	* perf_group_detach can, at all times, locate all siblings.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1486	*/
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1487	if (event->group_leader == event) {
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	1488	struct list_head *list;
				1489
David Carrillo-Cisneros	4ff6a8d	2016-08-17 13:55:05 -0700	[diff] [blame]	1490	event->group_caps = event->event_caps;
Frederic Weisbecker	d6f962b	2010-01-10 01:25:51 +0100	[diff] [blame]	1491
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	1492	list = ctx_group_list(event, ctx);
				1493	list_add_tail(&event->group_entry, list);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1494	}
				1495
David Carrillo-Cisneros	db4a835	2016-08-02 00:48:12 -0700	[diff] [blame]	1496	list_update_cgroup_event(event, ctx, true);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1497
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1498	list_add_rcu(&event->event_entry, &ctx->event_list);
				1499	ctx->nr_events++;
				1500	if (event->attr.inherit_stat)
				1501	ctx->nr_stat++;
Peter Zijlstra	5a3126d	2013-10-07 17:12:48 +0200	[diff] [blame]	1502
				1503	ctx->generation++;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1504	}
				1505
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1506	/*
Jiri Olsa	0231bb5	2013-02-01 11:23:45 +0100	[diff] [blame]	1507	* Initialize event state based on the perf_event_attr::disabled.
				1508	*/
				1509	static inline void perf_event__state_init(struct perf_event *event)
				1510	{
				1511	event->state = event->attr.disabled ? PERF_EVENT_STATE_OFF :
				1512	PERF_EVENT_STATE_INACTIVE;
				1513	}
				1514
Peter Zijlstra	a723968	2015-09-09 19:06:33 +0200	[diff] [blame]	1515	static void __perf_event_read_size(struct perf_event *event, int nr_siblings)
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1516	{
				1517	int entry = sizeof(u64); /* value */
				1518	int size = 0;
				1519	int nr = 1;
				1520
				1521	if (event->attr.read_format & PERF_FORMAT_TOTAL_TIME_ENABLED)
				1522	size += sizeof(u64);
				1523
				1524	if (event->attr.read_format & PERF_FORMAT_TOTAL_TIME_RUNNING)
				1525	size += sizeof(u64);
				1526
				1527	if (event->attr.read_format & PERF_FORMAT_ID)
				1528	entry += sizeof(u64);
				1529
				1530	if (event->attr.read_format & PERF_FORMAT_GROUP) {
Peter Zijlstra	a723968	2015-09-09 19:06:33 +0200	[diff] [blame]	1531	nr += nr_siblings;
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1532	size += sizeof(u64);
				1533	}
				1534
				1535	size += entry * nr;
				1536	event->read_size = size;
				1537	}
				1538
Peter Zijlstra	a723968	2015-09-09 19:06:33 +0200	[diff] [blame]	1539	static void __perf_event_header_size(struct perf_event *event, u64 sample_type)
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1540	{
				1541	struct perf_sample_data *data;
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1542	u16 size = 0;
				1543
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1544	if (sample_type & PERF_SAMPLE_IP)
				1545	size += sizeof(data->ip);
				1546
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	1547	if (sample_type & PERF_SAMPLE_ADDR)
				1548	size += sizeof(data->addr);
				1549
				1550	if (sample_type & PERF_SAMPLE_PERIOD)
				1551	size += sizeof(data->period);
				1552
Andi Kleen	c3feedf	2013-01-24 16:10:28 +0100	[diff] [blame]	1553	if (sample_type & PERF_SAMPLE_WEIGHT)
				1554	size += sizeof(data->weight);
				1555
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	1556	if (sample_type & PERF_SAMPLE_READ)
				1557	size += event->read_size;
				1558
Stephane Eranian	d6be9ad	2013-01-24 16:10:31 +0100	[diff] [blame]	1559	if (sample_type & PERF_SAMPLE_DATA_SRC)
				1560	size += sizeof(data->data_src.val);
				1561
Andi Kleen	fdfbbd0	2013-09-20 07:40:39 -0700	[diff] [blame]	1562	if (sample_type & PERF_SAMPLE_TRANSACTION)
				1563	size += sizeof(data->txn);
				1564
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	1565	event->header_size = size;
				1566	}
				1567
Peter Zijlstra	a723968	2015-09-09 19:06:33 +0200	[diff] [blame]	1568	/*
				1569	* Called at perf_event creation and when events are attached/detached from a
				1570	* group.
				1571	*/
				1572	static void perf_event__header_size(struct perf_event *event)
				1573	{
				1574	__perf_event_read_size(event,
				1575	event->group_leader->nr_siblings);
				1576	__perf_event_header_size(event, event->attr.sample_type);
				1577	}
				1578
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	1579	static void perf_event__id_header_size(struct perf_event *event)
				1580	{
				1581	struct perf_sample_data *data;
				1582	u64 sample_type = event->attr.sample_type;
				1583	u16 size = 0;
				1584
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1585	if (sample_type & PERF_SAMPLE_TID)
				1586	size += sizeof(data->tid_entry);
				1587
				1588	if (sample_type & PERF_SAMPLE_TIME)
				1589	size += sizeof(data->time);
				1590
Adrian Hunter	ff3d527	2013-08-27 11:23:07 +0300	[diff] [blame]	1591	if (sample_type & PERF_SAMPLE_IDENTIFIER)
				1592	size += sizeof(data->id);
				1593
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1594	if (sample_type & PERF_SAMPLE_ID)
				1595	size += sizeof(data->id);
				1596
				1597	if (sample_type & PERF_SAMPLE_STREAM_ID)
				1598	size += sizeof(data->stream_id);
				1599
				1600	if (sample_type & PERF_SAMPLE_CPU)
				1601	size += sizeof(data->cpu_entry);
				1602
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	1603	event->id_header_size = size;
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1604	}
				1605
Peter Zijlstra	a723968	2015-09-09 19:06:33 +0200	[diff] [blame]	1606	static bool perf_event_validate_size(struct perf_event *event)
				1607	{
				1608	/*
				1609	* The values computed here will be over-written when we actually
				1610	* attach the event.
				1611	*/
				1612	__perf_event_read_size(event, event->group_leader->nr_siblings + 1);
				1613	__perf_event_header_size(event, event->attr.sample_type & ~PERF_SAMPLE_READ);
				1614	perf_event__id_header_size(event);
				1615
				1616	/*
				1617	* Sum the lot; should not exceed the 64k limit we have on records.
				1618	* Conservative limit to allow for callchains and other variable fields.
				1619	*/
				1620	if (event->read_size + event->header_size +
				1621	event->id_header_size + sizeof(struct perf_event_header) >= 16*1024)
				1622	return false;
				1623
				1624	return true;
				1625	}
				1626
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1627	static void perf_group_attach(struct perf_event *event)
				1628	{
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1629	struct perf_event group_leader = event->group_leader, pos;
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1630
Peter Zijlstra	a76a82a	2017-01-26 16:39:55 +0100	[diff] [blame]	1631	lockdep_assert_held(&event->ctx->lock);
				1632
Peter Zijlstra	74c3337	2010-10-15 11:40:29 +0200	[diff] [blame]	1633	/*
				1634	* We can have double attach due to group movement in perf_event_open.
				1635	*/
				1636	if (event->attach_state & PERF_ATTACH_GROUP)
				1637	return;
				1638
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1639	event->attach_state \|= PERF_ATTACH_GROUP;
				1640
				1641	if (group_leader == event)
				1642	return;
				1643
Peter Zijlstra	652884f	2015-01-23 11:20:10 +0100	[diff] [blame]	1644	WARN_ON_ONCE(group_leader->ctx != event->ctx);
				1645
David Carrillo-Cisneros	4ff6a8d	2016-08-17 13:55:05 -0700	[diff] [blame]	1646	group_leader->group_caps &= event->event_caps;
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1647
				1648	list_add_tail(&event->group_entry, &group_leader->sibling_list);
				1649	group_leader->nr_siblings++;
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1650
				1651	perf_event__header_size(group_leader);
				1652
				1653	list_for_each_entry(pos, &group_leader->sibling_list, group_entry)
				1654	perf_event__header_size(pos);
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1655	}
				1656
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1657	/*
				1658	* Remove a event from the lists for its context.
				1659	* Must be called with ctx->mutex and ctx->lock held.
				1660	*/
				1661	static void
				1662	list_del_event(struct perf_event event, struct perf_event_context ctx)
				1663	{
Peter Zijlstra	652884f	2015-01-23 11:20:10 +0100	[diff] [blame]	1664	WARN_ON_ONCE(event->ctx != ctx);
				1665	lockdep_assert_held(&ctx->lock);
				1666
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1667	/*
				1668	* We can have double detach due to exit/hot-unplug + close.
				1669	*/
				1670	if (!(event->attach_state & PERF_ATTACH_CONTEXT))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1671	return;
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1672
				1673	event->attach_state &= ~PERF_ATTACH_CONTEXT;
				1674
David Carrillo-Cisneros	db4a835	2016-08-02 00:48:12 -0700	[diff] [blame]	1675	list_update_cgroup_event(event, ctx, false);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1676
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1677	ctx->nr_events--;
				1678	if (event->attr.inherit_stat)
				1679	ctx->nr_stat--;
				1680
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1681	list_del_rcu(&event->event_entry);
				1682
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1683	if (event->group_leader == event)
				1684	list_del_init(&event->group_entry);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1685
Peter Zijlstra	96c21a4	2010-05-11 16:19:10 +0200	[diff] [blame]	1686	update_group_times(event);
Stephane Eranian	b2e74a2	2009-11-26 09:24:30 -0800	[diff] [blame]	1687
				1688	/*
				1689	* If event was in error state, then keep it
				1690	* that way, otherwise bogus counts will be
				1691	* returned on read(). The only way to get out
				1692	* of error state is by explicit re-enabling
				1693	* of the event
				1694	*/
				1695	if (event->state > PERF_EVENT_STATE_OFF)
				1696	event->state = PERF_EVENT_STATE_OFF;
Peter Zijlstra	5a3126d	2013-10-07 17:12:48 +0200	[diff] [blame]	1697
				1698	ctx->generation++;
Peter Zijlstra	050735b	2010-05-11 11:51:53 +0200	[diff] [blame]	1699	}
				1700
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1701	static void perf_group_detach(struct perf_event *event)
Peter Zijlstra	050735b	2010-05-11 11:51:53 +0200	[diff] [blame]	1702	{
				1703	struct perf_event sibling, tmp;
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1704	struct list_head *list = NULL;
				1705
Peter Zijlstra	a76a82a	2017-01-26 16:39:55 +0100	[diff] [blame]	1706	lockdep_assert_held(&event->ctx->lock);
				1707
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1708	/*
				1709	* We can have double detach due to exit/hot-unplug + close.
				1710	*/
				1711	if (!(event->attach_state & PERF_ATTACH_GROUP))
				1712	return;
				1713
				1714	event->attach_state &= ~PERF_ATTACH_GROUP;
				1715
				1716	/*
				1717	* If this is a sibling, remove it from its group.
				1718	*/
				1719	if (event->group_leader != event) {
				1720	list_del_init(&event->group_entry);
				1721	event->group_leader->nr_siblings--;
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1722	goto out;
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1723	}
				1724
				1725	if (!list_empty(&event->group_entry))
				1726	list = &event->group_entry;
Peter Zijlstra	2e2af50	2009-11-23 11:37:25 +0100	[diff] [blame]	1727
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1728	/*
				1729	* If this was a group event with sibling events then
				1730	* upgrade the siblings to singleton events by adding them
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1731	* to whatever list we are on.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1732	*/
				1733	list_for_each_entry_safe(sibling, tmp, &event->sibling_list, group_entry) {
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1734	if (list)
				1735	list_move_tail(&sibling->group_entry, list);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1736	sibling->group_leader = sibling;
Frederic Weisbecker	d6f962b	2010-01-10 01:25:51 +0100	[diff] [blame]	1737
				1738	/* Inherit group flags from the previous leader */
David Carrillo-Cisneros	4ff6a8d	2016-08-17 13:55:05 -0700	[diff] [blame]	1739	sibling->group_caps = event->group_caps;
Peter Zijlstra	652884f	2015-01-23 11:20:10 +0100	[diff] [blame]	1740
				1741	WARN_ON_ONCE(sibling->ctx != event->ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1742	}
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1743
				1744	out:
				1745	perf_event__header_size(event->group_leader);
				1746
				1747	list_for_each_entry(tmp, &event->group_leader->sibling_list, group_entry)
				1748	perf_event__header_size(tmp);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1749	}
				1750
Jiri Olsa	fadfe7b	2014-08-01 14:33:02 +0200	[diff] [blame]	1751	static bool is_orphaned_event(struct perf_event *event)
				1752	{
Peter Zijlstra	a69b0ca	2016-02-24 18:45:44 +0100	[diff] [blame]	1753	return event->state == PERF_EVENT_STATE_DEAD;
Jiri Olsa	fadfe7b	2014-08-01 14:33:02 +0200	[diff] [blame]	1754	}
				1755
Mark Rutland	2c81a64	2016-06-14 16:10:41 +0100	[diff] [blame]	1756	static inline int __pmu_filter_match(struct perf_event *event)
Mark Rutland	66eb579	2015-05-13 17:12:23 +0100	[diff] [blame]	1757	{
				1758	struct pmu *pmu = event->pmu;
				1759	return pmu->filter_match ? pmu->filter_match(event) : 1;
				1760	}
				1761
Mark Rutland	2c81a64	2016-06-14 16:10:41 +0100	[diff] [blame]	1762	/*
				1763	* Check whether we should attempt to schedule an event group based on
				1764	* PMU-specific filtering. An event group can consist of HW and SW events,
				1765	* potentially with a SW leader, so we must check all the filters, to
				1766	* determine whether a group is schedulable:
				1767	*/
				1768	static inline int pmu_filter_match(struct perf_event *event)
				1769	{
				1770	struct perf_event *child;
				1771
				1772	if (!__pmu_filter_match(event))
				1773	return 0;
				1774
				1775	list_for_each_entry(child, &event->sibling_list, group_entry) {
				1776	if (!__pmu_filter_match(child))
				1777	return 0;
				1778	}
				1779
				1780	return 1;
				1781	}
				1782
Stephane Eranian	fa66f07	2010-08-26 16:40:01 +0200	[diff] [blame]	1783	static inline int
				1784	event_filter_match(struct perf_event *event)
				1785	{
Peter Zijlstra	0b8f1e2	2016-08-04 14:37:24 +0200	[diff] [blame]	1786	return (event->cpu == -1 \|\| event->cpu == smp_processor_id()) &&
				1787	perf_cgroup_match(event) && pmu_filter_match(event);
Stephane Eranian	fa66f07	2010-08-26 16:40:01 +0200	[diff] [blame]	1788	}
				1789
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	1790	static void
				1791	event_sched_out(struct perf_event *event,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1792	struct perf_cpu_context *cpuctx,
				1793	struct perf_event_context *ctx)
				1794	{
Stephane Eranian	4158755	2011-01-03 18:20:01 +0200	[diff] [blame]	1795	u64 tstamp = perf_event_time(event);
Stephane Eranian	fa66f07	2010-08-26 16:40:01 +0200	[diff] [blame]	1796	u64 delta;
Peter Zijlstra	652884f	2015-01-23 11:20:10 +0100	[diff] [blame]	1797
				1798	WARN_ON_ONCE(event->ctx != ctx);
				1799	lockdep_assert_held(&ctx->lock);
				1800
Stephane Eranian	fa66f07	2010-08-26 16:40:01 +0200	[diff] [blame]	1801	/*
				1802	* An event which could not be activated because of
				1803	* filter mismatch still needs to have its timings
				1804	* maintained, otherwise bogus information is return
				1805	* via read() for time_enabled, time_running:
				1806	*/
Peter Zijlstra	0b8f1e2	2016-08-04 14:37:24 +0200	[diff] [blame]	1807	if (event->state == PERF_EVENT_STATE_INACTIVE &&
				1808	!event_filter_match(event)) {
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1809	delta = tstamp - event->tstamp_stopped;
Stephane Eranian	fa66f07	2010-08-26 16:40:01 +0200	[diff] [blame]	1810	event->tstamp_running += delta;
Stephane Eranian	4158755	2011-01-03 18:20:01 +0200	[diff] [blame]	1811	event->tstamp_stopped = tstamp;
Stephane Eranian	fa66f07	2010-08-26 16:40:01 +0200	[diff] [blame]	1812	}
				1813
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1814	if (event->state != PERF_EVENT_STATE_ACTIVE)
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	1815	return;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1816
Alexander Shishkin	4437727	2013-12-16 14:17:36 +0200	[diff] [blame]	1817	perf_pmu_disable(event->pmu);
				1818
Peter Zijlstra	28a967c	2016-02-24 18:45:46 +0100	[diff] [blame]	1819	event->tstamp_stopped = tstamp;
				1820	event->pmu->del(event, 0);
				1821	event->oncpu = -1;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1822	event->state = PERF_EVENT_STATE_INACTIVE;
				1823	if (event->pending_disable) {
				1824	event->pending_disable = 0;
				1825	event->state = PERF_EVENT_STATE_OFF;
				1826	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1827
				1828	if (!is_software_event(event))
				1829	cpuctx->active_oncpu--;
Mark Rutland	2fde4f9	2015-01-07 15:01:54 +0000	[diff] [blame]	1830	if (!--ctx->nr_active)
				1831	perf_event_ctx_deactivate(ctx);
Peter Zijlstra	0f5a260	2011-11-16 14:38:16 +0100	[diff] [blame]	1832	if (event->attr.freq && event->attr.sample_freq)
				1833	ctx->nr_freq--;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1834	if (event->attr.exclusive \|\| !cpuctx->active_oncpu)
				1835	cpuctx->exclusive = 0;
Alexander Shishkin	4437727	2013-12-16 14:17:36 +0200	[diff] [blame]	1836
				1837	perf_pmu_enable(event->pmu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1838	}
				1839
				1840	static void
				1841	group_sched_out(struct perf_event *group_event,
				1842	struct perf_cpu_context *cpuctx,
				1843	struct perf_event_context *ctx)
				1844	{
				1845	struct perf_event *event;
Stephane Eranian	fa66f07	2010-08-26 16:40:01 +0200	[diff] [blame]	1846	int state = group_event->state;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1847
Mark Rutland	3f005e7	2016-07-26 18:12:21 +0100	[diff] [blame]	1848	perf_pmu_disable(ctx->pmu);
				1849
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1850	event_sched_out(group_event, cpuctx, ctx);
				1851
				1852	/*
				1853	* Schedule out siblings (if any):
				1854	*/
				1855	list_for_each_entry(event, &group_event->sibling_list, group_entry)
				1856	event_sched_out(event, cpuctx, ctx);
				1857
Mark Rutland	3f005e7	2016-07-26 18:12:21 +0100	[diff] [blame]	1858	perf_pmu_enable(ctx->pmu);
				1859
Stephane Eranian	fa66f07	2010-08-26 16:40:01 +0200	[diff] [blame]	1860	if (state == PERF_EVENT_STATE_ACTIVE && group_event->attr.exclusive)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1861	cpuctx->exclusive = 0;
				1862	}
				1863
Peter Zijlstra	45a0e07	2016-01-26 13:09:48 +0100	[diff] [blame]	1864	#define DETACH_GROUP 0x01UL
Peter Zijlstra	0017960	2015-11-30 16:26:35 +0100	[diff] [blame]	1865
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1866	/*
				1867	* Cross CPU call to remove a performance event
				1868	*
				1869	* We disable the event on the hardware level first. After that we
				1870	* remove it from the context list.
				1871	*/
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	1872	static void
				1873	__perf_remove_from_context(struct perf_event *event,
				1874	struct perf_cpu_context *cpuctx,
				1875	struct perf_event_context *ctx,
				1876	void *info)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1877	{
Peter Zijlstra	45a0e07	2016-01-26 13:09:48 +0100	[diff] [blame]	1878	unsigned long flags = (unsigned long)info;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1879
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1880	event_sched_out(event, cpuctx, ctx);
Peter Zijlstra	45a0e07	2016-01-26 13:09:48 +0100	[diff] [blame]	1881	if (flags & DETACH_GROUP)
Peter Zijlstra	46ce0fe	2014-05-02 16:56:01 +0200	[diff] [blame]	1882	perf_group_detach(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1883	list_del_event(event, ctx);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	1884
Peter Zijlstra	39a4364	2016-01-11 12:46:35 +0100	[diff] [blame]	1885	if (!ctx->nr_events && ctx->is_active) {
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	1886	ctx->is_active = 0;
Peter Zijlstra	39a4364	2016-01-11 12:46:35 +0100	[diff] [blame]	1887	if (ctx->task) {
				1888	WARN_ON_ONCE(cpuctx->task_ctx != ctx);
				1889	cpuctx->task_ctx = NULL;
				1890	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1891	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1892	}
				1893
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1894	/*
				1895	* Remove the event from a task's (or a CPU's) list of events.
				1896	*
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1897	* If event->ctx is a cloned context, callers must make sure that
				1898	* every task struct that event->ctx->task could possibly point to
				1899	* remains valid. This is OK when called from perf_release since
				1900	* that only calls us on the top-level context, which can't be a clone.
				1901	* When called from perf_event_exit_task, it's OK because the
				1902	* context has been detached from its task.
				1903	*/
Peter Zijlstra	45a0e07	2016-01-26 13:09:48 +0100	[diff] [blame]	1904	static void perf_remove_from_context(struct perf_event *event, unsigned long flags)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1905	{
Peter Zijlstra	a76a82a	2017-01-26 16:39:55 +0100	[diff] [blame]	1906	struct perf_event_context *ctx = event->ctx;
				1907
				1908	lockdep_assert_held(&ctx->mutex);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1909
Peter Zijlstra	45a0e07	2016-01-26 13:09:48 +0100	[diff] [blame]	1910	event_function_call(event, __perf_remove_from_context, (void *)flags);
Peter Zijlstra	a76a82a	2017-01-26 16:39:55 +0100	[diff] [blame]	1911
				1912	/*
				1913	* The above event_function_call() can NO-OP when it hits
				1914	* TASK_TOMBSTONE. In that case we must already have been detached
				1915	* from the context (by perf_event_exit_event()) but the grouping
				1916	* might still be in-tact.
				1917	*/
				1918	WARN_ON_ONCE(event->attach_state & PERF_ATTACH_CONTEXT);
				1919	if ((flags & DETACH_GROUP) &&
				1920	(event->attach_state & PERF_ATTACH_GROUP)) {
				1921	/*
				1922	* Since in that case we cannot possibly be scheduled, simply
				1923	* detach now.
				1924	*/
				1925	raw_spin_lock_irq(&ctx->lock);
				1926	perf_group_detach(event);
				1927	raw_spin_unlock_irq(&ctx->lock);
				1928	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1929	}
				1930
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1931	/*
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1932	* Cross CPU call to disable a performance event
				1933	*/
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	1934	static void __perf_event_disable(struct perf_event *event,
				1935	struct perf_cpu_context *cpuctx,
				1936	struct perf_event_context *ctx,
				1937	void *info)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1938	{
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	1939	if (event->state < PERF_EVENT_STATE_INACTIVE)
				1940	return;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1941
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	1942	update_context_time(ctx);
				1943	update_cgrp_time_from_event(event);
				1944	update_group_times(event);
				1945	if (event == event->group_leader)
				1946	group_sched_out(event, cpuctx, ctx);
				1947	else
				1948	event_sched_out(event, cpuctx, ctx);
				1949	event->state = PERF_EVENT_STATE_OFF;
Peter Zijlstra	7b64801	2015-12-03 18:35:21 +0100	[diff] [blame]	1950	}
				1951
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1952	/*
				1953	* Disable a event.
				1954	*
				1955	* If event->ctx is a cloned context, callers must make sure that
				1956	* every task struct that event->ctx->task could possibly point to
				1957	* remains valid. This condition is satisifed when called through
				1958	* perf_event_for_each_child or perf_event_for_each because they
				1959	* hold the top-level event's child_mutex, so any descendant that
Peter Zijlstra	8ba289b	2016-01-26 13:06:56 +0100	[diff] [blame]	1960	* goes to exit will block in perf_event_exit_event().
				1961	*
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1962	* When called from perf_pending_event it's OK because event->ctx
				1963	* is the current context on this CPU and preemption is disabled,
				1964	* hence we can't get into perf_event_task_sched_out for this context.
				1965	*/
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	1966	static void _perf_event_disable(struct perf_event *event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1967	{
				1968	struct perf_event_context *ctx = event->ctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1969
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1970	raw_spin_lock_irq(&ctx->lock);
Peter Zijlstra	7b64801	2015-12-03 18:35:21 +0100	[diff] [blame]	1971	if (event->state <= PERF_EVENT_STATE_OFF) {
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1972	raw_spin_unlock_irq(&ctx->lock);
Peter Zijlstra	7b64801	2015-12-03 18:35:21 +0100	[diff] [blame]	1973	return;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1974	}
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1975	raw_spin_unlock_irq(&ctx->lock);
Peter Zijlstra	7b64801	2015-12-03 18:35:21 +0100	[diff] [blame]	1976
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	1977	event_function_call(event, __perf_event_disable, NULL);
				1978	}
				1979
				1980	void perf_event_disable_local(struct perf_event *event)
				1981	{
				1982	event_function_local(event, __perf_event_disable, NULL);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1983	}
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	1984
				1985	/*
				1986	* Strictly speaking kernel users cannot create groups and therefore this
				1987	* interface does not need the perf_event_ctx_lock() magic.
				1988	*/
				1989	void perf_event_disable(struct perf_event *event)
				1990	{
				1991	struct perf_event_context *ctx;
				1992
				1993	ctx = perf_event_ctx_lock(event);
				1994	_perf_event_disable(event);
				1995	perf_event_ctx_unlock(event, ctx);
				1996	}
Robert Richter	dcfce4a	2011-10-11 17:11:08 +0200	[diff] [blame]	1997	EXPORT_SYMBOL_GPL(perf_event_disable);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1998
Jiri Olsa	5aab90c	2016-10-26 11:48:24 +0200	[diff] [blame]	1999	void perf_event_disable_inatomic(struct perf_event *event)
				2000	{
				2001	event->pending_disable = 1;
				2002	irq_work_queue(&event->pending);
				2003	}
				2004
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	2005	static void perf_set_shadow_time(struct perf_event *event,
				2006	struct perf_event_context *ctx,
				2007	u64 tstamp)
				2008	{
				2009	/*
				2010	* use the correct time source for the time snapshot
				2011	*
				2012	* We could get by without this by leveraging the
				2013	* fact that to get to this function, the caller
				2014	* has most likely already called update_context_time()
				2015	* and update_cgrp_time_xx() and thus both timestamp
				2016	* are identical (or very close). Given that tstamp is,
				2017	* already adjusted for cgroup, we could say that:
				2018	* tstamp - ctx->timestamp
				2019	* is equivalent to
				2020	* tstamp - cgrp->timestamp.
				2021	*
				2022	* Then, in perf_output_read(), the calculation would
				2023	* work with no changes because:
				2024	* - event is guaranteed scheduled in
				2025	* - no scheduled out in between
				2026	* - thus the timestamp would be the same
				2027	*
				2028	* But this is a bit hairy.
				2029	*
				2030	* So instead, we have an explicit cgroup call to remain
				2031	* within the time time source all along. We believe it
				2032	* is cleaner and simpler to understand.
				2033	*/
				2034	if (is_cgroup_event(event))
				2035	perf_cgroup_set_shadow_time(event, tstamp);
				2036	else
				2037	event->shadow_ctx_time = tstamp - ctx->timestamp;
				2038	}
				2039
Peter Zijlstra	4fe757d	2011-02-15 22:26:07 +0100	[diff] [blame]	2040	#define MAX_INTERRUPTS (~0ULL)
				2041
				2042	static void perf_log_throttle(struct perf_event *event, int enable);
Alexander Shishkin	ec0d772	2015-01-14 14:18:23 +0200	[diff] [blame]	2043	static void perf_log_itrace_start(struct perf_event *event);
Peter Zijlstra	4fe757d	2011-02-15 22:26:07 +0100	[diff] [blame]	2044
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2045	static int
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	2046	event_sched_in(struct perf_event *event,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2047	struct perf_cpu_context *cpuctx,
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	2048	struct perf_event_context *ctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2049	{
Stephane Eranian	4158755	2011-01-03 18:20:01 +0200	[diff] [blame]	2050	u64 tstamp = perf_event_time(event);
Alexander Shishkin	4437727	2013-12-16 14:17:36 +0200	[diff] [blame]	2051	int ret = 0;
Stephane Eranian	4158755	2011-01-03 18:20:01 +0200	[diff] [blame]	2052
Peter Zijlstra	6334241	2014-05-05 11:49:16 +0200	[diff] [blame]	2053	lockdep_assert_held(&ctx->lock);
				2054
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2055	if (event->state <= PERF_EVENT_STATE_OFF)
				2056	return 0;
				2057
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	2058	WRITE_ONCE(event->oncpu, smp_processor_id());
				2059	/*
				2060	* Order event::oncpu write to happen before the ACTIVE state
				2061	* is visible.
				2062	*/
				2063	smp_wmb();
				2064	WRITE_ONCE(event->state, PERF_EVENT_STATE_ACTIVE);
Peter Zijlstra	4fe757d	2011-02-15 22:26:07 +0100	[diff] [blame]	2065
				2066	/*
				2067	* Unthrottle events, since we scheduled we might have missed several
				2068	* ticks already, also for a heavily scheduling task there is little
				2069	* guarantee it'll get a tick in a timely manner.
				2070	*/
				2071	if (unlikely(event->hw.interrupts == MAX_INTERRUPTS)) {
				2072	perf_log_throttle(event, 1);
				2073	event->hw.interrupts = 0;
				2074	}
				2075
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2076	/*
				2077	* The new state must be visible before we turn it on in the hardware:
				2078	*/
				2079	smp_wmb();
				2080
Alexander Shishkin	4437727	2013-12-16 14:17:36 +0200	[diff] [blame]	2081	perf_pmu_disable(event->pmu);
				2082
Shaohua Li	72f669c	2015-02-05 15:55:31 -0800	[diff] [blame]	2083	perf_set_shadow_time(event, ctx, tstamp);
				2084
Alexander Shishkin	ec0d772	2015-01-14 14:18:23 +0200	[diff] [blame]	2085	perf_log_itrace_start(event);
				2086
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	2087	if (event->pmu->add(event, PERF_EF_START)) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2088	event->state = PERF_EVENT_STATE_INACTIVE;
				2089	event->oncpu = -1;
Alexander Shishkin	4437727	2013-12-16 14:17:36 +0200	[diff] [blame]	2090	ret = -EAGAIN;
				2091	goto out;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2092	}
				2093
Peter Zijlstra	00a2916	2015-07-27 10:35:07 +0200	[diff] [blame]	2094	event->tstamp_running += tstamp - event->tstamp_stopped;
				2095
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2096	if (!is_software_event(event))
				2097	cpuctx->active_oncpu++;
Mark Rutland	2fde4f9	2015-01-07 15:01:54 +0000	[diff] [blame]	2098	if (!ctx->nr_active++)
				2099	perf_event_ctx_activate(ctx);
Peter Zijlstra	0f5a260	2011-11-16 14:38:16 +0100	[diff] [blame]	2100	if (event->attr.freq && event->attr.sample_freq)
				2101	ctx->nr_freq++;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2102
				2103	if (event->attr.exclusive)
				2104	cpuctx->exclusive = 1;
				2105
Alexander Shishkin	4437727	2013-12-16 14:17:36 +0200	[diff] [blame]	2106	out:
				2107	perf_pmu_enable(event->pmu);
				2108
				2109	return ret;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2110	}
				2111
				2112	static int
				2113	group_sched_in(struct perf_event *group_event,
				2114	struct perf_cpu_context *cpuctx,
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	2115	struct perf_event_context *ctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2116	{
Lin Ming	6bde9b6	2010-04-23 13:56:00 +0800	[diff] [blame]	2117	struct perf_event event, partial_group = NULL;
Peter Zijlstra	4a23459	2014-02-24 12:43:31 +0100	[diff] [blame]	2118	struct pmu *pmu = ctx->pmu;
Stephane Eranian	d7842da	2010-10-20 15:25:01 +0200	[diff] [blame]	2119	u64 now = ctx->time;
				2120	bool simulate = false;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2121
				2122	if (group_event->state == PERF_EVENT_STATE_OFF)
				2123	return 0;
				2124
Sukadev Bhattiprolu	fbbe070	2015-09-03 20:07:45 -0700	[diff] [blame]	2125	pmu->start_txn(pmu, PERF_PMU_TXN_ADD);
Lin Ming	6bde9b6	2010-04-23 13:56:00 +0800	[diff] [blame]	2126
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	2127	if (event_sched_in(group_event, cpuctx, ctx)) {
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	2128	pmu->cancel_txn(pmu);
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	2129	perf_mux_hrtimer_restart(cpuctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2130	return -EAGAIN;
Stephane Eranian	90151c35	2010-05-25 16:23:10 +0200	[diff] [blame]	2131	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2132
				2133	/*
				2134	* Schedule in siblings as one group (if any):
				2135	*/
				2136	list_for_each_entry(event, &group_event->sibling_list, group_entry) {
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	2137	if (event_sched_in(event, cpuctx, ctx)) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2138	partial_group = event;
				2139	goto group_error;
				2140	}
				2141	}
				2142
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	2143	if (!pmu->commit_txn(pmu))
Paul Mackerras	6e85158	2010-05-08 20:58:00 +1000	[diff] [blame]	2144	return 0;
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	2145
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2146	group_error:
				2147	/*
				2148	* Groups can be scheduled in as one unit only, so undo any
				2149	* partial group before returning:
Stephane Eranian	d7842da	2010-10-20 15:25:01 +0200	[diff] [blame]	2150	* The events up to the failed event are scheduled out normally,
				2151	* tstamp_stopped will be updated.
				2152	*
				2153	* The failed events and the remaining siblings need to have
				2154	* their timings updated as if they had gone thru event_sched_in()
				2155	* and event_sched_out(). This is required to get consistent timings
				2156	* across the group. This also takes care of the case where the group
				2157	* could never be scheduled by ensuring tstamp_stopped is set to mark
				2158	* the time the event was actually stopped, such that time delta
				2159	* calculation in update_event_times() is correct.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2160	*/
				2161	list_for_each_entry(event, &group_event->sibling_list, group_entry) {
				2162	if (event == partial_group)
Stephane Eranian	d7842da	2010-10-20 15:25:01 +0200	[diff] [blame]	2163	simulate = true;
				2164
				2165	if (simulate) {
				2166	event->tstamp_running += now - event->tstamp_stopped;
				2167	event->tstamp_stopped = now;
				2168	} else {
				2169	event_sched_out(event, cpuctx, ctx);
				2170	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2171	}
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	2172	event_sched_out(group_event, cpuctx, ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2173
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	2174	pmu->cancel_txn(pmu);
Stephane Eranian	90151c35	2010-05-25 16:23:10 +0200	[diff] [blame]	2175
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	2176	perf_mux_hrtimer_restart(cpuctx);
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	2177
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2178	return -EAGAIN;
				2179	}
				2180
				2181	/*
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2182	* Work out whether we can put this event group on the CPU now.
				2183	*/
				2184	static int group_can_go_on(struct perf_event *event,
				2185	struct perf_cpu_context *cpuctx,
				2186	int can_add_hw)
				2187	{
				2188	/*
				2189	* Groups consisting entirely of software events can always go on.
				2190	*/
David Carrillo-Cisneros	4ff6a8d	2016-08-17 13:55:05 -0700	[diff] [blame]	2191	if (event->group_caps & PERF_EV_CAP_SOFTWARE)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2192	return 1;
				2193	/*
				2194	* If an exclusive group is already on, no other hardware
				2195	* events can go on.
				2196	*/
				2197	if (cpuctx->exclusive)
				2198	return 0;
				2199	/*
				2200	* If this group is exclusive and there are already
				2201	* events on the CPU, it can't go on.
				2202	*/
				2203	if (event->attr.exclusive && cpuctx->active_oncpu)
				2204	return 0;
				2205	/*
				2206	* Otherwise, try to add it if all previous groups were able
				2207	* to go on.
				2208	*/
				2209	return can_add_hw;
				2210	}
				2211
				2212	static void add_event_to_ctx(struct perf_event *event,
				2213	struct perf_event_context *ctx)
				2214	{
Stephane Eranian	4158755	2011-01-03 18:20:01 +0200	[diff] [blame]	2215	u64 tstamp = perf_event_time(event);
				2216
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2217	list_add_event(event, ctx);
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	2218	perf_group_attach(event);
Stephane Eranian	4158755	2011-01-03 18:20:01 +0200	[diff] [blame]	2219	event->tstamp_enabled = tstamp;
				2220	event->tstamp_running = tstamp;
				2221	event->tstamp_stopped = tstamp;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2222	}
				2223
Peter Zijlstra	bd2afa4	2016-02-24 18:45:49 +0100	[diff] [blame]	2224	static void ctx_sched_out(struct perf_event_context *ctx,
				2225	struct perf_cpu_context *cpuctx,
				2226	enum event_type_t event_type);
Peter Zijlstra	2c29ef0	2011-04-09 21:17:44 +0200	[diff] [blame]	2227	static void
				2228	ctx_sched_in(struct perf_event_context *ctx,
				2229	struct perf_cpu_context *cpuctx,
				2230	enum event_type_t event_type,
				2231	struct task_struct *task);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	2232
Peter Zijlstra	bd2afa4	2016-02-24 18:45:49 +0100	[diff] [blame]	2233	static void task_ctx_sched_out(struct perf_cpu_context *cpuctx,
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	2234	struct perf_event_context *ctx,
				2235	enum event_type_t event_type)
Peter Zijlstra	bd2afa4	2016-02-24 18:45:49 +0100	[diff] [blame]	2236	{
				2237	if (!cpuctx->task_ctx)
				2238	return;
				2239
				2240	if (WARN_ON_ONCE(ctx != cpuctx->task_ctx))
				2241	return;
				2242
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	2243	ctx_sched_out(ctx, cpuctx, event_type);
Peter Zijlstra	bd2afa4	2016-02-24 18:45:49 +0100	[diff] [blame]	2244	}
				2245
Peter Zijlstra	dce5855	2011-04-09 21:17:46 +0200	[diff] [blame]	2246	static void perf_event_sched_in(struct perf_cpu_context *cpuctx,
				2247	struct perf_event_context *ctx,
				2248	struct task_struct *task)
				2249	{
				2250	cpu_ctx_sched_in(cpuctx, EVENT_PINNED, task);
				2251	if (ctx)
				2252	ctx_sched_in(ctx, cpuctx, EVENT_PINNED, task);
				2253	cpu_ctx_sched_in(cpuctx, EVENT_FLEXIBLE, task);
				2254	if (ctx)
				2255	ctx_sched_in(ctx, cpuctx, EVENT_FLEXIBLE, task);
				2256	}
				2257
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	2258	/*
				2259	* We want to maintain the following priority of scheduling:
				2260	* - CPU pinned (EVENT_CPU \| EVENT_PINNED)
				2261	* - task pinned (EVENT_PINNED)
				2262	* - CPU flexible (EVENT_CPU \| EVENT_FLEXIBLE)
				2263	* - task flexible (EVENT_FLEXIBLE).
				2264	*
				2265	* In order to avoid unscheduling and scheduling back in everything every
				2266	* time an event is added, only do it for the groups of equal priority and
				2267	* below.
				2268	*
				2269	* This can be called after a batch operation on task events, in which case
				2270	* event_type is a bit mask of the types of events involved. For CPU events,
				2271	* event_type is only either EVENT_PINNED or EVENT_FLEXIBLE.
				2272	*/
Peter Zijlstra	3e34950	2016-01-08 10:01:18 +0100	[diff] [blame]	2273	static void ctx_resched(struct perf_cpu_context *cpuctx,
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	2274	struct perf_event_context *task_ctx,
				2275	enum event_type_t event_type)
Peter Zijlstra	0017960	2015-11-30 16:26:35 +0100	[diff] [blame]	2276	{
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	2277	enum event_type_t ctx_event_type = event_type & EVENT_ALL;
				2278	bool cpu_event = !!(event_type & EVENT_CPU);
				2279
				2280	/*
				2281	* If pinned groups are involved, flexible groups also need to be
				2282	* scheduled out.
				2283	*/
				2284	if (event_type & EVENT_PINNED)
				2285	event_type \|= EVENT_FLEXIBLE;
				2286
Peter Zijlstra	3e34950	2016-01-08 10:01:18 +0100	[diff] [blame]	2287	perf_pmu_disable(cpuctx->ctx.pmu);
				2288	if (task_ctx)
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	2289	task_ctx_sched_out(cpuctx, task_ctx, event_type);
				2290
				2291	/*
				2292	* Decide which cpu ctx groups to schedule out based on the types
				2293	* of events that caused rescheduling:
				2294	* - EVENT_CPU: schedule out corresponding groups;
				2295	* - EVENT_PINNED task events: schedule out EVENT_FLEXIBLE groups;
				2296	* - otherwise, do nothing more.
				2297	*/
				2298	if (cpu_event)
				2299	cpu_ctx_sched_out(cpuctx, ctx_event_type);
				2300	else if (ctx_event_type & EVENT_PINNED)
				2301	cpu_ctx_sched_out(cpuctx, EVENT_FLEXIBLE);
				2302
Peter Zijlstra	3e34950	2016-01-08 10:01:18 +0100	[diff] [blame]	2303	perf_event_sched_in(cpuctx, task_ctx, current);
				2304	perf_pmu_enable(cpuctx->ctx.pmu);
Peter Zijlstra	0017960	2015-11-30 16:26:35 +0100	[diff] [blame]	2305	}
				2306
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2307	/*
				2308	* Cross CPU call to install and enable a performance event
				2309	*
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2310	* Very similar to remote_function() + event_function() but cannot assume that
				2311	* things like ctx->is_active and cpuctx->task_ctx are set.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2312	*/
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	2313	static int __perf_install_in_context(void *info)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2314	{
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2315	struct perf_event *event = info;
				2316	struct perf_event_context *ctx = event->ctx;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	2317	struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
Peter Zijlstra	2c29ef0	2011-04-09 21:17:44 +0200	[diff] [blame]	2318	struct perf_event_context *task_ctx = cpuctx->task_ctx;
Peter Zijlstra	63cae12	2016-12-09 14:59:00 +0100	[diff] [blame]	2319	bool reprogram = true;
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2320	int ret = 0;
Peter Zijlstra	2c29ef0	2011-04-09 21:17:44 +0200	[diff] [blame]	2321
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	2322	raw_spin_lock(&cpuctx->ctx.lock);
Peter Zijlstra	39a4364	2016-01-11 12:46:35 +0100	[diff] [blame]	2323	if (ctx->task) {
Peter Zijlstra	b58f6b0	2011-06-07 00:23:28 +0200	[diff] [blame]	2324	raw_spin_lock(&ctx->lock);
				2325	task_ctx = ctx;
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2326
Peter Zijlstra	63cae12	2016-12-09 14:59:00 +0100	[diff] [blame]	2327	reprogram = (ctx->task == current);
				2328
				2329	/*
				2330	* If the task is running, it must be running on this CPU,
				2331	* otherwise we cannot reprogram things.
				2332	*
				2333	* If its not running, we don't care, ctx->lock will
				2334	* serialize against it becoming runnable.
				2335	*/
				2336	if (task_curr(ctx->task) && !reprogram) {
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2337	ret = -ESRCH;
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	2338	goto unlock;
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2339	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2340
Peter Zijlstra	63cae12	2016-12-09 14:59:00 +0100	[diff] [blame]	2341	WARN_ON_ONCE(reprogram && cpuctx->task_ctx && cpuctx->task_ctx != ctx);
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	2342	} else if (task_ctx) {
				2343	raw_spin_lock(&task_ctx->lock);
Peter Zijlstra	b58f6b0	2011-06-07 00:23:28 +0200	[diff] [blame]	2344	}
				2345
Peter Zijlstra	63cae12	2016-12-09 14:59:00 +0100	[diff] [blame]	2346	if (reprogram) {
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2347	ctx_sched_out(ctx, cpuctx, EVENT_TIME);
				2348	add_event_to_ctx(event, ctx);
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	2349	ctx_resched(cpuctx, task_ctx, get_event_type(event));
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2350	} else {
				2351	add_event_to_ctx(event, ctx);
				2352	}
				2353
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	2354	unlock:
Peter Zijlstra	2c29ef0	2011-04-09 21:17:44 +0200	[diff] [blame]	2355	perf_ctx_unlock(cpuctx, task_ctx);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	2356
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2357	return ret;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2358	}
				2359
				2360	/*
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2361	* Attach a performance event to a context.
				2362	*
				2363	* Very similar to event_function_call, see comment there.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2364	*/
				2365	static void
				2366	perf_install_in_context(struct perf_event_context *ctx,
				2367	struct perf_event *event,
				2368	int cpu)
				2369	{
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2370	struct task_struct *task = READ_ONCE(ctx->task);
Peter Zijlstra	39a4364	2016-01-11 12:46:35 +0100	[diff] [blame]	2371
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	2372	lockdep_assert_held(&ctx->mutex);
				2373
Yan, Zheng	0cda4c0	2012-06-15 14:31:33 +0800	[diff] [blame]	2374	if (event->cpu != -1)
				2375	event->cpu = cpu;
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	2376
Peter Zijlstra	0b8f1e2	2016-08-04 14:37:24 +0200	[diff] [blame]	2377	/*
				2378	* Ensures that if we can observe event->ctx, both the event and ctx
				2379	* will be 'complete'. See perf_iterate_sb_cpu().
				2380	*/
				2381	smp_store_release(&event->ctx, ctx);
				2382
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2383	if (!task) {
				2384	cpu_function_call(cpu, __perf_install_in_context, event);
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	2385	return;
				2386	}
Peter Zijlstra	6f932e5	2016-02-24 18:45:43 +0100	[diff] [blame]	2387
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2388	/*
				2389	* Should not happen, we validate the ctx is still alive before calling.
				2390	*/
				2391	if (WARN_ON_ONCE(task == TASK_TOMBSTONE))
				2392	return;
				2393
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2394	/*
				2395	* Installing events is tricky because we cannot rely on ctx->is_active
				2396	* to be set in case this is the nr_events 0 -> 1 transition.
Peter Zijlstra	63cae12	2016-12-09 14:59:00 +0100	[diff] [blame]	2397	*
				2398	* Instead we use task_curr(), which tells us if the task is running.
				2399	* However, since we use task_curr() outside of rq::lock, we can race
				2400	* against the actual state. This means the result can be wrong.
				2401	*
				2402	* If we get a false positive, we retry, this is harmless.
				2403	*
				2404	* If we get a false negative, things are complicated. If we are after
				2405	* perf_event_context_sched_in() ctx::lock will serialize us, and the
				2406	* value must be correct. If we're before, it doesn't matter since
				2407	* perf_event_context_sched_in() will program the counter.
				2408	*
				2409	* However, this hinges on the remote context switch having observed
				2410	* our task->perf_event_ctxp[] store, such that it will in fact take
				2411	* ctx::lock in perf_event_context_sched_in().
				2412	*
				2413	* We do this by task_function_call(), if the IPI fails to hit the task
				2414	* we know any future context switch of task must see the
				2415	* perf_event_ctpx[] store.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2416	*/
Peter Zijlstra	63cae12	2016-12-09 14:59:00 +0100	[diff] [blame]	2417
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2418	/*
Peter Zijlstra	63cae12	2016-12-09 14:59:00 +0100	[diff] [blame]	2419	* This smp_mb() orders the task->perf_event_ctxp[] store with the
				2420	* task_cpu() load, such that if the IPI then does not find the task
				2421	* running, a future context switch of that task must observe the
				2422	* store.
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2423	*/
Peter Zijlstra	63cae12	2016-12-09 14:59:00 +0100	[diff] [blame]	2424	smp_mb();
				2425	again:
				2426	if (!task_function_call(task, __perf_install_in_context, event))
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2427	return;
				2428
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2429	raw_spin_lock_irq(&ctx->lock);
				2430	task = ctx->task;
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2431	if (WARN_ON_ONCE(task == TASK_TOMBSTONE)) {
				2432	/*
				2433	* Cannot happen because we already checked above (which also
				2434	* cannot happen), and we hold ctx->mutex, which serializes us
				2435	* against perf_event_exit_task_context().
				2436	*/
Peter Zijlstra	39a4364	2016-01-11 12:46:35 +0100	[diff] [blame]	2437	raw_spin_unlock_irq(&ctx->lock);
				2438	return;
				2439	}
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2440	/*
Peter Zijlstra	63cae12	2016-12-09 14:59:00 +0100	[diff] [blame]	2441	* If the task is not running, ctx->lock will avoid it becoming so,
				2442	* thus we can safely install the event.
Peter Zijlstra	a096309	2016-02-24 18:45:50 +0100	[diff] [blame]	2443	*/
Peter Zijlstra	63cae12	2016-12-09 14:59:00 +0100	[diff] [blame]	2444	if (task_curr(task)) {
				2445	raw_spin_unlock_irq(&ctx->lock);
				2446	goto again;
				2447	}
				2448	add_event_to_ctx(event, ctx);
				2449	raw_spin_unlock_irq(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2450	}
				2451
				2452	/*
				2453	* Put a event into inactive state and update time fields.
				2454	* Enabling the leader of a group effectively enables all
				2455	* the group members that aren't explicitly disabled, so we
				2456	* have to update their ->tstamp_enabled also.
				2457	* Note: this works for group members as well as group leaders
				2458	* since the non-leader members' sibling_lists will be empty.
				2459	*/
Peter Zijlstra	1d9b482	2011-11-23 12:34:20 +0100	[diff] [blame]	2460	static void __perf_event_mark_enabled(struct perf_event *event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2461	{
				2462	struct perf_event *sub;
Stephane Eranian	4158755	2011-01-03 18:20:01 +0200	[diff] [blame]	2463	u64 tstamp = perf_event_time(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2464
				2465	event->state = PERF_EVENT_STATE_INACTIVE;
Stephane Eranian	4158755	2011-01-03 18:20:01 +0200	[diff] [blame]	2466	event->tstamp_enabled = tstamp - event->total_time_enabled;
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	2467	list_for_each_entry(sub, &event->sibling_list, group_entry) {
Stephane Eranian	4158755	2011-01-03 18:20:01 +0200	[diff] [blame]	2468	if (sub->state >= PERF_EVENT_STATE_INACTIVE)
				2469	sub->tstamp_enabled = tstamp - sub->total_time_enabled;
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	2470	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2471	}
				2472
				2473	/*
				2474	* Cross CPU call to enable a performance event
				2475	*/
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	2476	static void __perf_event_enable(struct perf_event *event,
				2477	struct perf_cpu_context *cpuctx,
				2478	struct perf_event_context *ctx,
				2479	void *info)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2480	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2481	struct perf_event *leader = event->group_leader;
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	2482	struct perf_event_context *task_ctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2483
Peter Zijlstra	6e801e01	2016-01-26 12:17:08 +0100	[diff] [blame]	2484	if (event->state >= PERF_EVENT_STATE_INACTIVE \|\|
				2485	event->state <= PERF_EVENT_STATE_ERROR)
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	2486	return;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2487
Peter Zijlstra	bd2afa4	2016-02-24 18:45:49 +0100	[diff] [blame]	2488	if (ctx->is_active)
				2489	ctx_sched_out(ctx, cpuctx, EVENT_TIME);
				2490
Peter Zijlstra	1d9b482	2011-11-23 12:34:20 +0100	[diff] [blame]	2491	__perf_event_mark_enabled(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2492
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	2493	if (!ctx->is_active)
				2494	return;
				2495
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	2496	if (!event_filter_match(event)) {
Peter Zijlstra	bd2afa4	2016-02-24 18:45:49 +0100	[diff] [blame]	2497	if (is_cgroup_event(event))
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	2498	perf_cgroup_defer_enabled(event);
Peter Zijlstra	bd2afa4	2016-02-24 18:45:49 +0100	[diff] [blame]	2499	ctx_sched_in(ctx, cpuctx, EVENT_TIME, current);
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	2500	return;
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	2501	}
Peter Zijlstra	f4c4176	2009-12-16 17:55:54 +0100	[diff] [blame]	2502
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2503	/*
				2504	* If the event is in a group and isn't the group leader,
				2505	* then don't put it on unless the group is on.
				2506	*/
Peter Zijlstra	bd2afa4	2016-02-24 18:45:49 +0100	[diff] [blame]	2507	if (leader != event && leader->state != PERF_EVENT_STATE_ACTIVE) {
				2508	ctx_sched_in(ctx, cpuctx, EVENT_TIME, current);
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	2509	return;
Peter Zijlstra	bd2afa4	2016-02-24 18:45:49 +0100	[diff] [blame]	2510	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2511
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	2512	task_ctx = cpuctx->task_ctx;
				2513	if (ctx->task)
				2514	WARN_ON_ONCE(task_ctx != ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2515
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	2516	ctx_resched(cpuctx, task_ctx, get_event_type(event));
Peter Zijlstra	7b64801	2015-12-03 18:35:21 +0100	[diff] [blame]	2517	}
				2518
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2519	/*
				2520	* Enable a event.
				2521	*
				2522	* If event->ctx is a cloned context, callers must make sure that
				2523	* every task struct that event->ctx->task could possibly point to
				2524	* remains valid. This condition is satisfied when called through
				2525	* perf_event_for_each_child or perf_event_for_each as described
				2526	* for perf_event_disable.
				2527	*/
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	2528	static void _perf_event_enable(struct perf_event *event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2529	{
				2530	struct perf_event_context *ctx = event->ctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2531
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	2532	raw_spin_lock_irq(&ctx->lock);
Peter Zijlstra	6e801e01	2016-01-26 12:17:08 +0100	[diff] [blame]	2533	if (event->state >= PERF_EVENT_STATE_INACTIVE \|\|
				2534	event->state < PERF_EVENT_STATE_ERROR) {
Peter Zijlstra	7b64801	2015-12-03 18:35:21 +0100	[diff] [blame]	2535	raw_spin_unlock_irq(&ctx->lock);
				2536	return;
				2537	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2538
				2539	/*
				2540	* If the event is in error state, clear that first.
Peter Zijlstra	7b64801	2015-12-03 18:35:21 +0100	[diff] [blame]	2541	*
				2542	* That way, if we see the event in error state below, we know that it
				2543	* has gone back into error state, as distinct from the task having
				2544	* been scheduled away before the cross-call arrived.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2545	*/
				2546	if (event->state == PERF_EVENT_STATE_ERROR)
				2547	event->state = PERF_EVENT_STATE_OFF;
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	2548	raw_spin_unlock_irq(&ctx->lock);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	2549
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	2550	event_function_call(event, __perf_event_enable, NULL);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2551	}
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	2552
				2553	/*
				2554	* See perf_event_disable();
				2555	*/
				2556	void perf_event_enable(struct perf_event *event)
				2557	{
				2558	struct perf_event_context *ctx;
				2559
				2560	ctx = perf_event_ctx_lock(event);
				2561	_perf_event_enable(event);
				2562	perf_event_ctx_unlock(event, ctx);
				2563	}
Robert Richter	dcfce4a	2011-10-11 17:11:08 +0200	[diff] [blame]	2564	EXPORT_SYMBOL_GPL(perf_event_enable);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2565
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	2566	struct stop_event_data {
				2567	struct perf_event *event;
				2568	unsigned int restart;
				2569	};
				2570
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	2571	static int __perf_event_stop(void *info)
				2572	{
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	2573	struct stop_event_data *sd = info;
				2574	struct perf_event *event = sd->event;
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	2575
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	2576	/* if it's already INACTIVE, do nothing */
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	2577	if (READ_ONCE(event->state) != PERF_EVENT_STATE_ACTIVE)
				2578	return 0;
				2579
				2580	/* matches smp_wmb() in event_sched_in() */
				2581	smp_rmb();
				2582
				2583	/*
				2584	* There is a window with interrupts enabled before we get here,
				2585	* so we need to check again lest we try to stop another CPU's event.
				2586	*/
				2587	if (READ_ONCE(event->oncpu) != smp_processor_id())
				2588	return -EAGAIN;
				2589
				2590	event->pmu->stop(event, PERF_EF_UPDATE);
				2591
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	2592	/*
				2593	* May race with the actual stop (through perf_pmu_output_stop()),
				2594	* but it is only used for events with AUX ring buffer, and such
				2595	* events will refuse to restart because of rb::aux_mmap_count==0,
				2596	* see comments in perf_aux_output_begin().
				2597	*
				2598	* Since this is happening on a event-local CPU, no trace is lost
				2599	* while restarting.
				2600	*/
				2601	if (sd->restart)
Will Deacon	c9bbdd4	2016-08-15 11:42:45 +0100	[diff] [blame]	2602	event->pmu->start(event, 0);
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	2603
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	2604	return 0;
				2605	}
				2606
Alexander Shishkin	767ae08	2016-09-06 16:23:49 +0300	[diff] [blame]	2607	static int perf_event_stop(struct perf_event *event, int restart)
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	2608	{
				2609	struct stop_event_data sd = {
				2610	.event = event,
Alexander Shishkin	767ae08	2016-09-06 16:23:49 +0300	[diff] [blame]	2611	.restart = restart,
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	2612	};
				2613	int ret = 0;
				2614
				2615	do {
				2616	if (READ_ONCE(event->state) != PERF_EVENT_STATE_ACTIVE)
				2617	return 0;
				2618
				2619	/* matches smp_wmb() in event_sched_in() */
				2620	smp_rmb();
				2621
				2622	/*
				2623	* We only want to restart ACTIVE events, so if the event goes
				2624	* inactive here (event->oncpu==-1), there's nothing more to do;
				2625	* fall through with ret==-ENXIO.
				2626	*/
				2627	ret = cpu_function_call(READ_ONCE(event->oncpu),
				2628	__perf_event_stop, &sd);
				2629	} while (ret == -EAGAIN);
				2630
				2631	return ret;
				2632	}
				2633
				2634	/*
				2635	* In order to contain the amount of racy and tricky in the address filter
				2636	* configuration management, it is a two part process:
				2637	*
				2638	* (p1) when userspace mappings change as a result of (1) or (2) or (3) below,
				2639	* we update the addresses of corresponding vmas in
				2640	* event::addr_filters_offs array and bump the event::addr_filters_gen;
				2641	* (p2) when an event is scheduled in (pmu::add), it calls
				2642	* perf_event_addr_filters_sync() which calls pmu::addr_filters_sync()
				2643	* if the generation has changed since the previous call.
				2644	*
				2645	* If (p1) happens while the event is active, we restart it to force (p2).
				2646	*
				2647	* (1) perf_addr_filters_apply(): adjusting filters' offsets based on
				2648	* pre-existing mappings, called once when new filters arrive via SET_FILTER
				2649	* ioctl;
				2650	* (2) perf_addr_filters_adjust(): adjusting filters' offsets based on newly
				2651	* registered mapping, called for every new mmap(), with mm::mmap_sem down
				2652	* for reading;
				2653	* (3) perf_event_addr_filters_exec(): clearing filters' offsets in the process
				2654	* of exec.
				2655	*/
				2656	void perf_event_addr_filters_sync(struct perf_event *event)
				2657	{
				2658	struct perf_addr_filters_head *ifh = perf_event_addr_filters(event);
				2659
				2660	if (!has_addr_filter(event))
				2661	return;
				2662
				2663	raw_spin_lock(&ifh->lock);
				2664	if (event->addr_filters_gen != event->hw.addr_filters_gen) {
				2665	event->pmu->addr_filters_sync(event);
				2666	event->hw.addr_filters_gen = event->addr_filters_gen;
				2667	}
				2668	raw_spin_unlock(&ifh->lock);
				2669	}
				2670	EXPORT_SYMBOL_GPL(perf_event_addr_filters_sync);
				2671
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	2672	static int _perf_event_refresh(struct perf_event *event, int refresh)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2673	{
				2674	/*
				2675	* not supported on inherited events
				2676	*/
Franck Bui-Huu	2e939d1	2010-11-23 16:21:44 +0100	[diff] [blame]	2677	if (event->attr.inherit \|\| !is_sampling_event(event))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2678	return -EINVAL;
				2679
				2680	atomic_add(refresh, &event->event_limit);
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	2681	_perf_event_enable(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2682
				2683	return 0;
				2684	}
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	2685
				2686	/*
				2687	* See perf_event_disable()
				2688	*/
				2689	int perf_event_refresh(struct perf_event *event, int refresh)
				2690	{
				2691	struct perf_event_context *ctx;
				2692	int ret;
				2693
				2694	ctx = perf_event_ctx_lock(event);
				2695	ret = _perf_event_refresh(event, refresh);
				2696	perf_event_ctx_unlock(event, ctx);
				2697
				2698	return ret;
				2699	}
Avi Kivity	26ca5c1	2011-06-29 18:42:37 +0300	[diff] [blame]	2700	EXPORT_SYMBOL_GPL(perf_event_refresh);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2701
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	2702	static void ctx_sched_out(struct perf_event_context *ctx,
				2703	struct perf_cpu_context *cpuctx,
				2704	enum event_type_t event_type)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2705	{
Peter Zijlstra	db24d33	2011-04-09 21:17:45 +0200	[diff] [blame]	2706	int is_active = ctx->is_active;
Peter Zijlstra	c994d61	2016-01-08 09:20:23 +0100	[diff] [blame]	2707	struct perf_event *event;
				2708
				2709	lockdep_assert_held(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2710
Peter Zijlstra	39a4364	2016-01-11 12:46:35 +0100	[diff] [blame]	2711	if (likely(!ctx->nr_events)) {
				2712	/*
				2713	* See __perf_remove_from_context().
				2714	*/
				2715	WARN_ON_ONCE(ctx->is_active);
				2716	if (ctx->task)
				2717	WARN_ON_ONCE(cpuctx->task_ctx);
				2718	return;
				2719	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2720
Peter Zijlstra	db24d33	2011-04-09 21:17:45 +0200	[diff] [blame]	2721	ctx->is_active &= ~event_type;
Peter Zijlstra	3cbaa59	2016-02-24 18:45:47 +0100	[diff] [blame]	2722	if (!(ctx->is_active & EVENT_ALL))
				2723	ctx->is_active = 0;
				2724
Peter Zijlstra	63e30d3	2016-01-08 11:39:10 +0100	[diff] [blame]	2725	if (ctx->task) {
				2726	WARN_ON_ONCE(cpuctx->task_ctx != ctx);
				2727	if (!ctx->is_active)
				2728	cpuctx->task_ctx = NULL;
				2729	}
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	2730
Peter Zijlstra	8fdc653	2016-03-29 09:26:44 +0200	[diff] [blame]	2731	/*
				2732	* Always update time if it was set; not only when it changes.
				2733	* Otherwise we can 'forget' to update time for any but the last
				2734	* context we sched out. For example:
				2735	*
				2736	* ctx_sched_out(.event_type = EVENT_FLEXIBLE)
				2737	* ctx_sched_out(.event_type = EVENT_PINNED)
				2738	*
				2739	* would only update time for the pinned events.
				2740	*/
Peter Zijlstra	3cbaa59	2016-02-24 18:45:47 +0100	[diff] [blame]	2741	if (is_active & EVENT_TIME) {
				2742	/* update (and stop) ctx time */
				2743	update_context_time(ctx);
				2744	update_cgrp_time_from_cpuctx(cpuctx);
				2745	}
				2746
Peter Zijlstra	8fdc653	2016-03-29 09:26:44 +0200	[diff] [blame]	2747	is_active ^= ctx->is_active; /* changed bits */
				2748
Peter Zijlstra	3cbaa59	2016-02-24 18:45:47 +0100	[diff] [blame]	2749	if (!ctx->nr_active \|\| !(is_active & EVENT_ALL))
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	2750	return;
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	2751
Peter Zijlstra	075e0b0	2011-04-09 21:17:40 +0200	[diff] [blame]	2752	perf_pmu_disable(ctx->pmu);
Peter Zijlstra	3cbaa59	2016-02-24 18:45:47 +0100	[diff] [blame]	2753	if (is_active & EVENT_PINNED) {
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	2754	list_for_each_entry(event, &ctx->pinned_groups, group_entry)
				2755	group_sched_out(event, cpuctx, ctx);
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	2756	}
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	2757
Peter Zijlstra	3cbaa59	2016-02-24 18:45:47 +0100	[diff] [blame]	2758	if (is_active & EVENT_FLEXIBLE) {
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	2759	list_for_each_entry(event, &ctx->flexible_groups, group_entry)
Xiao Guangrong	8c9ed8e	2009-09-25 13:51:17 +0800	[diff] [blame]	2760	group_sched_out(event, cpuctx, ctx);
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	2761	}
Peter Zijlstra	1b9a644	2010-09-07 18:32:22 +0200	[diff] [blame]	2762	perf_pmu_enable(ctx->pmu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2763	}
				2764
				2765	/*
Peter Zijlstra	5a3126d	2013-10-07 17:12:48 +0200	[diff] [blame]	2766	* Test whether two contexts are equivalent, i.e. whether they have both been
				2767	* cloned from the same version of the same context.
				2768	*
				2769	* Equivalence is measured using a generation number in the context that is
				2770	* incremented on each modification to it; see unclone_ctx(), list_add_event()
				2771	* and list_del_event().
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2772	*/
				2773	static int context_equiv(struct perf_event_context *ctx1,
				2774	struct perf_event_context *ctx2)
				2775	{
Peter Zijlstra	211de6e	2014-09-30 19:23:08 +0200	[diff] [blame]	2776	lockdep_assert_held(&ctx1->lock);
				2777	lockdep_assert_held(&ctx2->lock);
				2778
Peter Zijlstra	5a3126d	2013-10-07 17:12:48 +0200	[diff] [blame]	2779	/* Pinning disables the swap optimization */
				2780	if (ctx1->pin_count \|\| ctx2->pin_count)
				2781	return 0;
				2782
				2783	/* If ctx1 is the parent of ctx2 */
				2784	if (ctx1 == ctx2->parent_ctx && ctx1->generation == ctx2->parent_gen)
				2785	return 1;
				2786
				2787	/* If ctx2 is the parent of ctx1 */
				2788	if (ctx1->parent_ctx == ctx2 && ctx1->parent_gen == ctx2->generation)
				2789	return 1;
				2790
				2791	/*
				2792	* If ctx1 and ctx2 have the same parent; we flatten the parent
				2793	* hierarchy, see perf_event_init_context().
				2794	*/
				2795	if (ctx1->parent_ctx && ctx1->parent_ctx == ctx2->parent_ctx &&
				2796	ctx1->parent_gen == ctx2->parent_gen)
				2797	return 1;
				2798
				2799	/* Unmatched */
				2800	return 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2801	}
				2802
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2803	static void __perf_event_sync_stat(struct perf_event *event,
				2804	struct perf_event *next_event)
				2805	{
				2806	u64 value;
				2807
				2808	if (!event->attr.inherit_stat)
				2809	return;
				2810
				2811	/*
				2812	* Update the event value, we cannot use perf_event_read()
				2813	* because we're in the middle of a context switch and have IRQs
				2814	* disabled, which upsets smp_call_function_single(), however
				2815	* we know the event must be on the current CPU, therefore we
				2816	* don't need to use it.
				2817	*/
				2818	switch (event->state) {
				2819	case PERF_EVENT_STATE_ACTIVE:
Peter Zijlstra	3dbebf1	2009-11-20 22:19:52 +0100	[diff] [blame]	2820	event->pmu->read(event);
				2821	/* fall-through */
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2822
				2823	case PERF_EVENT_STATE_INACTIVE:
				2824	update_event_times(event);
				2825	break;
				2826
				2827	default:
				2828	break;
				2829	}
				2830
				2831	/*
				2832	* In order to keep per-task stats reliable we need to flip the event
				2833	* values when we flip the contexts.
				2834	*/
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	2835	value = local64_read(&next_event->count);
				2836	value = local64_xchg(&event->count, value);
				2837	local64_set(&next_event->count, value);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2838
				2839	swap(event->total_time_enabled, next_event->total_time_enabled);
				2840	swap(event->total_time_running, next_event->total_time_running);
				2841
				2842	/*
				2843	* Since we swizzled the values, update the user visible data too.
				2844	*/
				2845	perf_event_update_userpage(event);
				2846	perf_event_update_userpage(next_event);
				2847	}
				2848
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2849	static void perf_event_sync_stat(struct perf_event_context *ctx,
				2850	struct perf_event_context *next_ctx)
				2851	{
				2852	struct perf_event event, next_event;
				2853
				2854	if (!ctx->nr_stat)
				2855	return;
				2856
Peter Zijlstra	02ffdbc	2009-11-20 22:19:50 +0100	[diff] [blame]	2857	update_context_time(ctx);
				2858
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2859	event = list_first_entry(&ctx->event_list,
				2860	struct perf_event, event_entry);
				2861
				2862	next_event = list_first_entry(&next_ctx->event_list,
				2863	struct perf_event, event_entry);
				2864
				2865	while (&event->event_entry != &ctx->event_list &&
				2866	&next_event->event_entry != &next_ctx->event_list) {
				2867
				2868	__perf_event_sync_stat(event, next_event);
				2869
				2870	event = list_next_entry(event, event_entry);
				2871	next_event = list_next_entry(next_event, event_entry);
				2872	}
				2873	}
				2874
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	2875	static void perf_event_context_sched_out(struct task_struct *task, int ctxn,
				2876	struct task_struct *next)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2877	{
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	2878	struct perf_event_context *ctx = task->perf_event_ctxp[ctxn];
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2879	struct perf_event_context *next_ctx;
Peter Zijlstra	5a3126d	2013-10-07 17:12:48 +0200	[diff] [blame]	2880	struct perf_event_context parent, next_parent;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	2881	struct perf_cpu_context *cpuctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2882	int do_switch = 1;
				2883
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	2884	if (likely(!ctx))
				2885	return;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2886
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	2887	cpuctx = __get_cpu_context(ctx);
				2888	if (!cpuctx->task_ctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2889	return;
				2890
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2891	rcu_read_lock();
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	2892	next_ctx = next->perf_event_ctxp[ctxn];
Peter Zijlstra	5a3126d	2013-10-07 17:12:48 +0200	[diff] [blame]	2893	if (!next_ctx)
				2894	goto unlock;
				2895
				2896	parent = rcu_dereference(ctx->parent_ctx);
				2897	next_parent = rcu_dereference(next_ctx->parent_ctx);
				2898
				2899	/* If neither context have a parent context; they cannot be clones. */
Jiri Olsa	802c8a6	2014-09-12 13:18:28 +0200	[diff] [blame]	2900	if (!parent && !next_parent)
Peter Zijlstra	5a3126d	2013-10-07 17:12:48 +0200	[diff] [blame]	2901	goto unlock;
				2902
				2903	if (next_parent == ctx \|\| next_ctx == parent \|\| next_parent == parent) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2904	/*
				2905	* Looks like the two contexts are clones, so we might be
				2906	* able to optimize the context switch. We lock both
				2907	* contexts and check that they are clones under the
				2908	* lock (including re-checking that neither has been
				2909	* uncloned in the meantime). It doesn't matter which
				2910	* order we take the locks because no other cpu could
				2911	* be trying to lock both of these tasks.
				2912	*/
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	2913	raw_spin_lock(&ctx->lock);
				2914	raw_spin_lock_nested(&next_ctx->lock, SINGLE_DEPTH_NESTING);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2915	if (context_equiv(ctx, next_ctx)) {
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	2916	WRITE_ONCE(ctx->task, next);
				2917	WRITE_ONCE(next_ctx->task, task);
Yan, Zheng	5a158c3	2014-11-04 21:56:02 -0500	[diff] [blame]	2918
				2919	swap(ctx->task_ctx_data, next_ctx->task_ctx_data);
				2920
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	2921	/*
				2922	* RCU_INIT_POINTER here is safe because we've not
				2923	* modified the ctx and the above modification of
				2924	* ctx->task and ctx->task_ctx_data are immaterial
				2925	* since those values are always verified under
				2926	* ctx->lock which we're now holding.
				2927	*/
				2928	RCU_INIT_POINTER(task->perf_event_ctxp[ctxn], next_ctx);
				2929	RCU_INIT_POINTER(next->perf_event_ctxp[ctxn], ctx);
				2930
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2931	do_switch = 0;
				2932
				2933	perf_event_sync_stat(ctx, next_ctx);
				2934	}
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	2935	raw_spin_unlock(&next_ctx->lock);
				2936	raw_spin_unlock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2937	}
Peter Zijlstra	5a3126d	2013-10-07 17:12:48 +0200	[diff] [blame]	2938	unlock:
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2939	rcu_read_unlock();
				2940
				2941	if (do_switch) {
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	2942	raw_spin_lock(&ctx->lock);
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	2943	task_ctx_sched_out(cpuctx, ctx, EVENT_ALL);
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	2944	raw_spin_unlock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2945	}
				2946	}
				2947
Peter Zijlstra	e48c178	2016-07-06 09:18:30 +0200	[diff] [blame]	2948	static DEFINE_PER_CPU(struct list_head, sched_cb_list);
				2949
Yan, Zheng	ba53250	2014-11-04 21:55:58 -0500	[diff] [blame]	2950	void perf_sched_cb_dec(struct pmu *pmu)
				2951	{
Peter Zijlstra	e48c178	2016-07-06 09:18:30 +0200	[diff] [blame]	2952	struct perf_cpu_context *cpuctx = this_cpu_ptr(pmu->pmu_cpu_context);
				2953
Yan, Zheng	ba53250	2014-11-04 21:55:58 -0500	[diff] [blame]	2954	this_cpu_dec(perf_sched_cb_usages);
Peter Zijlstra	e48c178	2016-07-06 09:18:30 +0200	[diff] [blame]	2955
				2956	if (!--cpuctx->sched_cb_usage)
				2957	list_del(&cpuctx->sched_cb_entry);
Yan, Zheng	ba53250	2014-11-04 21:55:58 -0500	[diff] [blame]	2958	}
				2959
Peter Zijlstra	e48c178	2016-07-06 09:18:30 +0200	[diff] [blame]	2960
Yan, Zheng	ba53250	2014-11-04 21:55:58 -0500	[diff] [blame]	2961	void perf_sched_cb_inc(struct pmu *pmu)
				2962	{
Peter Zijlstra	e48c178	2016-07-06 09:18:30 +0200	[diff] [blame]	2963	struct perf_cpu_context *cpuctx = this_cpu_ptr(pmu->pmu_cpu_context);
				2964
				2965	if (!cpuctx->sched_cb_usage++)
				2966	list_add(&cpuctx->sched_cb_entry, this_cpu_ptr(&sched_cb_list));
				2967
Yan, Zheng	ba53250	2014-11-04 21:55:58 -0500	[diff] [blame]	2968	this_cpu_inc(perf_sched_cb_usages);
				2969	}
				2970
				2971	/*
				2972	* This function provides the context switch callback to the lower code
				2973	* layer. It is invoked ONLY when the context switch callback is enabled.
Peter Zijlstra	09e61b4f	2016-07-06 18:02:43 +0200	[diff] [blame]	2974	*
				2975	* This callback is relevant even to per-cpu events; for example multi event
				2976	* PEBS requires this to provide PID/TID information. This requires we flush
				2977	* all queued PEBS records before we context switch to a new task.
Yan, Zheng	ba53250	2014-11-04 21:55:58 -0500	[diff] [blame]	2978	*/
				2979	static void perf_pmu_sched_task(struct task_struct *prev,
				2980	struct task_struct *next,
				2981	bool sched_in)
				2982	{
				2983	struct perf_cpu_context *cpuctx;
				2984	struct pmu *pmu;
Yan, Zheng	ba53250	2014-11-04 21:55:58 -0500	[diff] [blame]	2985
				2986	if (prev == next)
				2987	return;
				2988
Peter Zijlstra	e48c178	2016-07-06 09:18:30 +0200	[diff] [blame]	2989	list_for_each_entry(cpuctx, this_cpu_ptr(&sched_cb_list), sched_cb_entry) {
David Carrillo-Cisneros	1fd7e41	2017-01-18 11:24:54 -0800	[diff] [blame]	2990	pmu = cpuctx->ctx.pmu; /* software PMUs will not have sched_task */
Yan, Zheng	ba53250	2014-11-04 21:55:58 -0500	[diff] [blame]	2991
Peter Zijlstra	e48c178	2016-07-06 09:18:30 +0200	[diff] [blame]	2992	if (WARN_ON_ONCE(!pmu->sched_task))
				2993	continue;
Yan, Zheng	ba53250	2014-11-04 21:55:58 -0500	[diff] [blame]	2994
Peter Zijlstra	e48c178	2016-07-06 09:18:30 +0200	[diff] [blame]	2995	perf_ctx_lock(cpuctx, cpuctx->task_ctx);
				2996	perf_pmu_disable(pmu);
Yan, Zheng	ba53250	2014-11-04 21:55:58 -0500	[diff] [blame]	2997
Peter Zijlstra	e48c178	2016-07-06 09:18:30 +0200	[diff] [blame]	2998	pmu->sched_task(cpuctx->task_ctx, sched_in);
Yan, Zheng	ba53250	2014-11-04 21:55:58 -0500	[diff] [blame]	2999
Peter Zijlstra	e48c178	2016-07-06 09:18:30 +0200	[diff] [blame]	3000	perf_pmu_enable(pmu);
				3001	perf_ctx_unlock(cpuctx, cpuctx->task_ctx);
Yan, Zheng	ba53250	2014-11-04 21:55:58 -0500	[diff] [blame]	3002	}
Yan, Zheng	ba53250	2014-11-04 21:55:58 -0500	[diff] [blame]	3003	}
				3004
Adrian Hunter	45ac140	2015-07-21 12:44:02 +0300	[diff] [blame]	3005	static void perf_event_switch(struct task_struct *task,
				3006	struct task_struct *next_prev, bool sched_in);
				3007
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3008	#define for_each_task_context_nr(ctxn) \
				3009	for ((ctxn) = 0; (ctxn) < perf_nr_task_contexts; (ctxn)++)
				3010
				3011	/*
				3012	* Called from scheduler to remove the events of the current task,
				3013	* with interrupts disabled.
				3014	*
				3015	* We stop each event and update the event value in event->count.
				3016	*
				3017	* This does not protect us against NMI, but disable()
				3018	* sets the disabled bit in the control field of event _before_
				3019	* accessing the event control register. If a NMI hits, then it will
				3020	* not restart the event.
				3021	*/
Jiri Olsa	ab0cce5	2012-05-23 13:13:02 +0200	[diff] [blame]	3022	void __perf_event_task_sched_out(struct task_struct *task,
				3023	struct task_struct *next)
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3024	{
				3025	int ctxn;
				3026
Yan, Zheng	ba53250	2014-11-04 21:55:58 -0500	[diff] [blame]	3027	if (__this_cpu_read(perf_sched_cb_usages))
				3028	perf_pmu_sched_task(task, next, false);
				3029
Adrian Hunter	45ac140	2015-07-21 12:44:02 +0300	[diff] [blame]	3030	if (atomic_read(&nr_switch_events))
				3031	perf_event_switch(task, next, false);
				3032
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3033	for_each_task_context_nr(ctxn)
				3034	perf_event_context_sched_out(task, ctxn, next);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	3035
				3036	/*
				3037	* if cgroup events exist on this CPU, then we need
				3038	* to check if we have to switch out PMU state.
				3039	* cgroup event are system-wide mode only
				3040	*/
Christoph Lameter	4a32fea	2014-08-17 12:30:27 -0500	[diff] [blame]	3041	if (atomic_read(this_cpu_ptr(&perf_cgroup_events)))
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	3042	perf_cgroup_sched_out(task, next);
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3043	}
				3044
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3045	/*
				3046	* Called with IRQs disabled
				3047	*/
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	3048	static void cpu_ctx_sched_out(struct perf_cpu_context *cpuctx,
				3049	enum event_type_t event_type)
				3050	{
				3051	ctx_sched_out(&cpuctx->ctx, cpuctx, event_type);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3052	}
				3053
				3054	static void
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	3055	ctx_pinned_sched_in(struct perf_event_context *ctx,
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	3056	struct perf_cpu_context *cpuctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3057	{
				3058	struct perf_event *event;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3059
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	3060	list_for_each_entry(event, &ctx->pinned_groups, group_entry) {
				3061	if (event->state <= PERF_EVENT_STATE_OFF)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3062	continue;
Stephane Eranian	5632ab1	2011-01-03 18:20:01 +0200	[diff] [blame]	3063	if (!event_filter_match(event))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3064	continue;
				3065
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	3066	/* may need to reset tstamp_enabled */
				3067	if (is_cgroup_event(event))
				3068	perf_cgroup_mark_enabled(event, ctx);
				3069
Xiao Guangrong	8c9ed8e	2009-09-25 13:51:17 +0800	[diff] [blame]	3070	if (group_can_go_on(event, cpuctx, 1))
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	3071	group_sched_in(event, cpuctx, ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3072
				3073	/*
				3074	* If this pinned group hasn't been scheduled,
				3075	* put it in error state.
				3076	*/
				3077	if (event->state == PERF_EVENT_STATE_INACTIVE) {
				3078	update_group_times(event);
				3079	event->state = PERF_EVENT_STATE_ERROR;
				3080	}
				3081	}
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	3082	}
				3083
				3084	static void
				3085	ctx_flexible_sched_in(struct perf_event_context *ctx,
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	3086	struct perf_cpu_context *cpuctx)
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	3087	{
				3088	struct perf_event *event;
				3089	int can_add_hw = 1;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3090
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	3091	list_for_each_entry(event, &ctx->flexible_groups, group_entry) {
				3092	/* Ignore events in OFF or ERROR state */
				3093	if (event->state <= PERF_EVENT_STATE_OFF)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3094	continue;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3095	/*
				3096	* Listen to the 'cpu' scheduling filter constraint
				3097	* of events:
				3098	*/
Stephane Eranian	5632ab1	2011-01-03 18:20:01 +0200	[diff] [blame]	3099	if (!event_filter_match(event))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3100	continue;
				3101
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	3102	/* may need to reset tstamp_enabled */
				3103	if (is_cgroup_event(event))
				3104	perf_cgroup_mark_enabled(event, ctx);
				3105
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	3106	if (group_can_go_on(event, cpuctx, can_add_hw)) {
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	3107	if (group_sched_in(event, cpuctx, ctx))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3108	can_add_hw = 0;
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	3109	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3110	}
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	3111	}
				3112
				3113	static void
				3114	ctx_sched_in(struct perf_event_context *ctx,
				3115	struct perf_cpu_context *cpuctx,
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	3116	enum event_type_t event_type,
				3117	struct task_struct *task)
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	3118	{
Peter Zijlstra	db24d33	2011-04-09 21:17:45 +0200	[diff] [blame]	3119	int is_active = ctx->is_active;
Peter Zijlstra	c994d61	2016-01-08 09:20:23 +0100	[diff] [blame]	3120	u64 now;
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	3121
Peter Zijlstra	c994d61	2016-01-08 09:20:23 +0100	[diff] [blame]	3122	lockdep_assert_held(&ctx->lock);
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	3123
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	3124	if (likely(!ctx->nr_events))
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	3125	return;
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	3126
Peter Zijlstra	3cbaa59	2016-02-24 18:45:47 +0100	[diff] [blame]	3127	ctx->is_active \|= (event_type \| EVENT_TIME);
Peter Zijlstra	63e30d3	2016-01-08 11:39:10 +0100	[diff] [blame]	3128	if (ctx->task) {
				3129	if (!is_active)
				3130	cpuctx->task_ctx = ctx;
				3131	else
				3132	WARN_ON_ONCE(cpuctx->task_ctx != ctx);
				3133	}
				3134
Peter Zijlstra	3cbaa59	2016-02-24 18:45:47 +0100	[diff] [blame]	3135	is_active ^= ctx->is_active; /* changed bits */
				3136
				3137	if (is_active & EVENT_TIME) {
				3138	/* start ctx time */
				3139	now = perf_clock();
				3140	ctx->timestamp = now;
				3141	perf_cgroup_set_timestamp(task, ctx);
				3142	}
				3143
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	3144	/*
				3145	* First go through the list and put on any pinned groups
				3146	* in order to give them the best chance of going on.
				3147	*/
Peter Zijlstra	3cbaa59	2016-02-24 18:45:47 +0100	[diff] [blame]	3148	if (is_active & EVENT_PINNED)
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	3149	ctx_pinned_sched_in(ctx, cpuctx);
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	3150
				3151	/* Then walk through the lower prio flexible groups */
Peter Zijlstra	3cbaa59	2016-02-24 18:45:47 +0100	[diff] [blame]	3152	if (is_active & EVENT_FLEXIBLE)
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	3153	ctx_flexible_sched_in(ctx, cpuctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3154	}
				3155
Frederic Weisbecker	329c0e0	2010-01-17 12:56:05 +0100	[diff] [blame]	3156	static void cpu_ctx_sched_in(struct perf_cpu_context *cpuctx,
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	3157	enum event_type_t event_type,
				3158	struct task_struct *task)
Frederic Weisbecker	329c0e0	2010-01-17 12:56:05 +0100	[diff] [blame]	3159	{
				3160	struct perf_event_context *ctx = &cpuctx->ctx;
				3161
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	3162	ctx_sched_in(ctx, cpuctx, event_type, task);
Frederic Weisbecker	329c0e0	2010-01-17 12:56:05 +0100	[diff] [blame]	3163	}
				3164
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	3165	static void perf_event_context_sched_in(struct perf_event_context *ctx,
				3166	struct task_struct *task)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3167	{
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3168	struct perf_cpu_context *cpuctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3169
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	3170	cpuctx = __get_cpu_context(ctx);
Frederic Weisbecker	329c0e0	2010-01-17 12:56:05 +0100	[diff] [blame]	3171	if (cpuctx->task_ctx == ctx)
				3172	return;
				3173
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	3174	perf_ctx_lock(cpuctx, ctx);
Peter Zijlstra	1b9a644	2010-09-07 18:32:22 +0200	[diff] [blame]	3175	perf_pmu_disable(ctx->pmu);
Frederic Weisbecker	329c0e0	2010-01-17 12:56:05 +0100	[diff] [blame]	3176	/*
				3177	* We want to keep the following priority order:
				3178	* cpu pinned (that don't need to move), task pinned,
				3179	* cpu flexible, task flexible.
Alexander Shishkin	fe45baf	2017-01-19 18:43:29 +0200	[diff] [blame]	3180	*
				3181	* However, if task's ctx is not carrying any pinned
				3182	* events, no need to flip the cpuctx's events around.
Frederic Weisbecker	329c0e0	2010-01-17 12:56:05 +0100	[diff] [blame]	3183	*/
Alexander Shishkin	fe45baf	2017-01-19 18:43:29 +0200	[diff] [blame]	3184	if (!list_empty(&ctx->pinned_groups))
				3185	cpu_ctx_sched_out(cpuctx, EVENT_FLEXIBLE);
Peter Zijlstra	63e30d3	2016-01-08 11:39:10 +0100	[diff] [blame]	3186	perf_event_sched_in(cpuctx, ctx, task);
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	3187	perf_pmu_enable(ctx->pmu);
				3188	perf_ctx_unlock(cpuctx, ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3189	}
				3190
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3191	/*
				3192	* Called from scheduler to add the events of the current task
				3193	* with interrupts disabled.
				3194	*
				3195	* We restore the event value and then enable it.
				3196	*
				3197	* This does not protect us against NMI, but enable()
				3198	* sets the enabled bit in the control field of event _before_
				3199	* accessing the event control register. If a NMI hits, then it will
				3200	* keep the event running.
				3201	*/
Jiri Olsa	ab0cce5	2012-05-23 13:13:02 +0200	[diff] [blame]	3202	void __perf_event_task_sched_in(struct task_struct *prev,
				3203	struct task_struct *task)
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3204	{
				3205	struct perf_event_context *ctx;
				3206	int ctxn;
				3207
Peter Zijlstra	7e41d17	2016-01-08 09:21:40 +0100	[diff] [blame]	3208	/*
				3209	* If cgroup events exist on this CPU, then we need to check if we have
				3210	* to switch in PMU state; cgroup event are system-wide mode only.
				3211	*
				3212	* Since cgroup events are CPU events, we must schedule these in before
				3213	* we schedule in the task events.
				3214	*/
				3215	if (atomic_read(this_cpu_ptr(&perf_cgroup_events)))
				3216	perf_cgroup_sched_in(prev, task);
				3217
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3218	for_each_task_context_nr(ctxn) {
				3219	ctx = task->perf_event_ctxp[ctxn];
				3220	if (likely(!ctx))
				3221	continue;
				3222
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	3223	perf_event_context_sched_in(ctx, task);
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3224	}
Stephane Eranian	d010b33	2012-02-09 23:21:00 +0100	[diff] [blame]	3225
Adrian Hunter	45ac140	2015-07-21 12:44:02 +0300	[diff] [blame]	3226	if (atomic_read(&nr_switch_events))
				3227	perf_event_switch(task, prev, true);
				3228
Yan, Zheng	ba53250	2014-11-04 21:55:58 -0500	[diff] [blame]	3229	if (__this_cpu_read(perf_sched_cb_usages))
				3230	perf_pmu_sched_task(prev, task, true);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3231	}
				3232
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	3233	static u64 perf_calculate_period(struct perf_event *event, u64 nsec, u64 count)
				3234	{
				3235	u64 frequency = event->attr.sample_freq;
				3236	u64 sec = NSEC_PER_SEC;
				3237	u64 divisor, dividend;
				3238
				3239	int count_fls, nsec_fls, frequency_fls, sec_fls;
				3240
				3241	count_fls = fls64(count);
				3242	nsec_fls = fls64(nsec);
				3243	frequency_fls = fls64(frequency);
				3244	sec_fls = 30;
				3245
				3246	/*
				3247	* We got @count in @nsec, with a target of sample_freq HZ
				3248	* the target period becomes:
				3249	*
				3250	* @count * 10^9
				3251	* period = -------------------
				3252	* @nsec * sample_freq
				3253	*
				3254	*/
				3255
				3256	/*
				3257	* Reduce accuracy by one bit such that @a and @b converge
				3258	* to a similar magnitude.
				3259	*/
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	3260	#define REDUCE_FLS(a, b) \
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	3261	do { \
				3262	if (a##_fls > b##_fls) { \
				3263	a >>= 1; \
				3264	a##_fls--; \
				3265	} else { \
				3266	b >>= 1; \
				3267	b##_fls--; \
				3268	} \
				3269	} while (0)
				3270
				3271	/*
				3272	* Reduce accuracy until either term fits in a u64, then proceed with
				3273	* the other, so that finally we can do a u64/u64 division.
				3274	*/
				3275	while (count_fls + sec_fls > 64 && nsec_fls + frequency_fls > 64) {
				3276	REDUCE_FLS(nsec, frequency);
				3277	REDUCE_FLS(sec, count);
				3278	}
				3279
				3280	if (count_fls + sec_fls > 64) {
				3281	divisor = nsec * frequency;
				3282
				3283	while (count_fls + sec_fls > 64) {
				3284	REDUCE_FLS(count, sec);
				3285	divisor >>= 1;
				3286	}
				3287
				3288	dividend = count * sec;
				3289	} else {
				3290	dividend = count * sec;
				3291
				3292	while (nsec_fls + frequency_fls > 64) {
				3293	REDUCE_FLS(nsec, frequency);
				3294	dividend >>= 1;
				3295	}
				3296
				3297	divisor = nsec * frequency;
				3298	}
				3299
Peter Zijlstra	f6ab91ad	2010-06-04 15:18:01 +0200	[diff] [blame]	3300	if (!divisor)
				3301	return dividend;
				3302
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	3303	return div64_u64(dividend, divisor);
				3304	}
				3305
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3306	static DEFINE_PER_CPU(int, perf_throttled_count);
				3307	static DEFINE_PER_CPU(u64, perf_throttled_seq);
				3308
Stephane Eranian	f39d47f	2012-02-07 14:39:57 +0100	[diff] [blame]	3309	static void perf_adjust_period(struct perf_event *event, u64 nsec, u64 count, bool disable)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3310	{
				3311	struct hw_perf_event *hwc = &event->hw;
Peter Zijlstra	f6ab91ad	2010-06-04 15:18:01 +0200	[diff] [blame]	3312	s64 period, sample_period;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3313	s64 delta;
				3314
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	3315	period = perf_calculate_period(event, nsec, count);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3316
				3317	delta = (s64)(period - hwc->sample_period);
				3318	delta = (delta + 7) / 8; /* low pass filter */
				3319
				3320	sample_period = hwc->sample_period + delta;
				3321
				3322	if (!sample_period)
				3323	sample_period = 1;
				3324
				3325	hwc->sample_period = sample_period;
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	3326
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	3327	if (local64_read(&hwc->period_left) > 8*sample_period) {
Stephane Eranian	f39d47f	2012-02-07 14:39:57 +0100	[diff] [blame]	3328	if (disable)
				3329	event->pmu->stop(event, PERF_EF_UPDATE);
				3330
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	3331	local64_set(&hwc->period_left, 0);
Stephane Eranian	f39d47f	2012-02-07 14:39:57 +0100	[diff] [blame]	3332
				3333	if (disable)
				3334	event->pmu->start(event, PERF_EF_RELOAD);
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	3335	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3336	}
				3337
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3338	/*
				3339	* combine freq adjustment with unthrottling to avoid two passes over the
				3340	* events. At the same time, make sure, having freq events does not change
				3341	* the rate of unthrottling as that would introduce bias.
				3342	*/
				3343	static void perf_adjust_freq_unthr_context(struct perf_event_context *ctx,
				3344	int needs_unthr)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3345	{
				3346	struct perf_event *event;
				3347	struct hw_perf_event *hwc;
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3348	u64 now, period = TICK_NSEC;
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	3349	s64 delta;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3350
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3351	/*
				3352	* only need to iterate over all events iff:
				3353	* - context have events in frequency mode (needs freq adjust)
				3354	* - there are events to unthrottle on this cpu
				3355	*/
				3356	if (!(ctx->nr_freq \|\| needs_unthr))
Peter Zijlstra	0f5a260	2011-11-16 14:38:16 +0100	[diff] [blame]	3357	return;
				3358
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3359	raw_spin_lock(&ctx->lock);
Stephane Eranian	f39d47f	2012-02-07 14:39:57 +0100	[diff] [blame]	3360	perf_pmu_disable(ctx->pmu);
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3361
Paul Mackerras	03541f8	2009-10-14 16:58:03 +1100	[diff] [blame]	3362	list_for_each_entry_rcu(event, &ctx->event_list, event_entry) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3363	if (event->state != PERF_EVENT_STATE_ACTIVE)
				3364	continue;
				3365
Stephane Eranian	5632ab1	2011-01-03 18:20:01 +0200	[diff] [blame]	3366	if (!event_filter_match(event))
Peter Zijlstra	5d27c23	2009-12-17 13:16:32 +0100	[diff] [blame]	3367	continue;
				3368
Alexander Shishkin	4437727	2013-12-16 14:17:36 +0200	[diff] [blame]	3369	perf_pmu_disable(event->pmu);
				3370
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3371	hwc = &event->hw;
				3372
Jiri Olsa	ae23bff	2013-08-24 16:45:54 +0200	[diff] [blame]	3373	if (hwc->interrupts == MAX_INTERRUPTS) {
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3374	hwc->interrupts = 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3375	perf_log_throttle(event, 1);
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	3376	event->pmu->start(event, 0);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3377	}
				3378
				3379	if (!event->attr.freq \|\| !event->attr.sample_freq)
Alexander Shishkin	4437727	2013-12-16 14:17:36 +0200	[diff] [blame]	3380	goto next;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3381
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3382	/*
				3383	* stop the event and update event->count
				3384	*/
				3385	event->pmu->stop(event, PERF_EF_UPDATE);
				3386
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	3387	now = local64_read(&event->count);
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	3388	delta = now - hwc->freq_count_stamp;
				3389	hwc->freq_count_stamp = now;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3390
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3391	/*
				3392	* restart the event
				3393	* reload only if value has changed
Stephane Eranian	f39d47f	2012-02-07 14:39:57 +0100	[diff] [blame]	3394	* we have stopped the event so tell that
				3395	* to perf_adjust_period() to avoid stopping it
				3396	* twice.
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3397	*/
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	3398	if (delta > 0)
Stephane Eranian	f39d47f	2012-02-07 14:39:57 +0100	[diff] [blame]	3399	perf_adjust_period(event, period, delta, false);
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3400
				3401	event->pmu->start(event, delta > 0 ? PERF_EF_RELOAD : 0);
Alexander Shishkin	4437727	2013-12-16 14:17:36 +0200	[diff] [blame]	3402	next:
				3403	perf_pmu_enable(event->pmu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3404	}
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3405
Stephane Eranian	f39d47f	2012-02-07 14:39:57 +0100	[diff] [blame]	3406	perf_pmu_enable(ctx->pmu);
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3407	raw_spin_unlock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3408	}
				3409
				3410	/*
				3411	* Round-robin a context's events:
				3412	*/
				3413	static void rotate_ctx(struct perf_event_context *ctx)
				3414	{
Thomas Gleixner	dddd337	2010-11-24 10:05:55 +0100	[diff] [blame]	3415	/*
				3416	* Rotate the first entry last of non-pinned groups. Rotation might be
				3417	* disabled by the inheritance code.
				3418	*/
				3419	if (!ctx->rotate_disable)
				3420	list_rotate_left(&ctx->flexible_groups);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3421	}
				3422
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	3423	static int perf_rotate_context(struct perf_cpu_context *cpuctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3424	{
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3425	struct perf_event_context *ctx = NULL;
Mark Rutland	2fde4f9	2015-01-07 15:01:54 +0000	[diff] [blame]	3426	int rotate = 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3427
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	3428	if (cpuctx->ctx.nr_events) {
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	3429	if (cpuctx->ctx.nr_events != cpuctx->ctx.nr_active)
				3430	rotate = 1;
				3431	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3432
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3433	ctx = cpuctx->task_ctx;
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	3434	if (ctx && ctx->nr_events) {
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	3435	if (ctx->nr_events != ctx->nr_active)
				3436	rotate = 1;
				3437	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3438
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3439	if (!rotate)
Peter Zijlstra	0f5a260	2011-11-16 14:38:16 +0100	[diff] [blame]	3440	goto done;
				3441
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	3442	perf_ctx_lock(cpuctx, cpuctx->task_ctx);
Peter Zijlstra	1b9a644	2010-09-07 18:32:22 +0200	[diff] [blame]	3443	perf_pmu_disable(cpuctx->ctx.pmu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3444
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3445	cpu_ctx_sched_out(cpuctx, EVENT_FLEXIBLE);
				3446	if (ctx)
				3447	ctx_sched_out(ctx, cpuctx, EVENT_FLEXIBLE);
Peter Zijlstra	d4944a0	2010-03-08 13:51:20 +0100	[diff] [blame]	3448
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3449	rotate_ctx(&cpuctx->ctx);
				3450	if (ctx)
				3451	rotate_ctx(ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3452
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3453	perf_event_sched_in(cpuctx, ctx, current);
Peter Zijlstra	0f5a260	2011-11-16 14:38:16 +0100	[diff] [blame]	3454
				3455	perf_pmu_enable(cpuctx->ctx.pmu);
				3456	perf_ctx_unlock(cpuctx, cpuctx->task_ctx);
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	3457	done:
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	3458
				3459	return rotate;
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	3460	}
				3461
				3462	void perf_event_task_tick(void)
				3463	{
Mark Rutland	2fde4f9	2015-01-07 15:01:54 +0000	[diff] [blame]	3464	struct list_head *head = this_cpu_ptr(&active_ctx_list);
				3465	struct perf_event_context ctx, tmp;
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3466	int throttled;
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	3467
				3468	WARN_ON(!irqs_disabled());
				3469
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3470	__this_cpu_inc(perf_throttled_seq);
				3471	throttled = __this_cpu_xchg(perf_throttled_count, 0);
Frederic Weisbecker	555e0c1	2015-07-16 17:42:29 +0200	[diff] [blame]	3472	tick_dep_clear_cpu(smp_processor_id(), TICK_DEP_BIT_PERF_EVENTS);
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3473
Mark Rutland	2fde4f9	2015-01-07 15:01:54 +0000	[diff] [blame]	3474	list_for_each_entry_safe(ctx, tmp, head, active_ctx_list)
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	3475	perf_adjust_freq_unthr_context(ctx, throttled);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3476	}
				3477
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	3478	static int event_enable_on_exec(struct perf_event *event,
				3479	struct perf_event_context *ctx)
				3480	{
				3481	if (!event->attr.enable_on_exec)
				3482	return 0;
				3483
				3484	event->attr.enable_on_exec = 0;
				3485	if (event->state >= PERF_EVENT_STATE_INACTIVE)
				3486	return 0;
				3487
Peter Zijlstra	1d9b482	2011-11-23 12:34:20 +0100	[diff] [blame]	3488	__perf_event_mark_enabled(event);
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	3489
				3490	return 1;
				3491	}
				3492
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3493	/*
				3494	* Enable all of a task's events that have been marked enable-on-exec.
				3495	* This expects task == current.
				3496	*/
Peter Zijlstra	c127449	2015-12-10 20:57:40 +0100	[diff] [blame]	3497	static void perf_event_enable_on_exec(int ctxn)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3498	{
Peter Zijlstra	c127449	2015-12-10 20:57:40 +0100	[diff] [blame]	3499	struct perf_event_context ctx, clone_ctx = NULL;
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	3500	enum event_type_t event_type = 0;
Peter Zijlstra	3e34950	2016-01-08 10:01:18 +0100	[diff] [blame]	3501	struct perf_cpu_context *cpuctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3502	struct perf_event *event;
				3503	unsigned long flags;
				3504	int enabled = 0;
				3505
				3506	local_irq_save(flags);
Peter Zijlstra	c127449	2015-12-10 20:57:40 +0100	[diff] [blame]	3507	ctx = current->perf_event_ctxp[ctxn];
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3508	if (!ctx \|\| !ctx->nr_events)
				3509	goto out;
				3510
Peter Zijlstra	3e34950	2016-01-08 10:01:18 +0100	[diff] [blame]	3511	cpuctx = __get_cpu_context(ctx);
				3512	perf_ctx_lock(cpuctx, ctx);
Peter Zijlstra	7fce250	2016-02-24 18:45:48 +0100	[diff] [blame]	3513	ctx_sched_out(ctx, cpuctx, EVENT_TIME);
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	3514	list_for_each_entry(event, &ctx->event_list, event_entry) {
Peter Zijlstra	3e34950	2016-01-08 10:01:18 +0100	[diff] [blame]	3515	enabled \|= event_enable_on_exec(event, ctx);
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	3516	event_type \|= get_event_type(event);
				3517	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3518
				3519	/*
Peter Zijlstra	3e34950	2016-01-08 10:01:18 +0100	[diff] [blame]	3520	* Unclone and reschedule this context if we enabled any event.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3521	*/
Peter Zijlstra	3e34950	2016-01-08 10:01:18 +0100	[diff] [blame]	3522	if (enabled) {
Peter Zijlstra	211de6e	2014-09-30 19:23:08 +0200	[diff] [blame]	3523	clone_ctx = unclone_ctx(ctx);
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	3524	ctx_resched(cpuctx, ctx, event_type);
Peter Zijlstra	3e34950	2016-01-08 10:01:18 +0100	[diff] [blame]	3525	}
				3526	perf_ctx_unlock(cpuctx, ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3527
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	3528	out:
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3529	local_irq_restore(flags);
Peter Zijlstra	211de6e	2014-09-30 19:23:08 +0200	[diff] [blame]	3530
				3531	if (clone_ctx)
				3532	put_ctx(clone_ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3533	}
				3534
Peter Zijlstra	0492d4c	2015-09-03 20:07:48 -0700	[diff] [blame]	3535	struct perf_read_data {
				3536	struct perf_event *event;
				3537	bool group;
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	3538	int ret;
Peter Zijlstra	0492d4c	2015-09-03 20:07:48 -0700	[diff] [blame]	3539	};
				3540
Peter Zijlstra	451d24d	2017-01-31 11:27:10 +0100	[diff] [blame]	3541	static int __perf_event_read_cpu(struct perf_event *event, int event_cpu)
David Carrillo-Cisneros	d6a2f903	2016-08-17 13:55:06 -0700	[diff] [blame]	3542	{
David Carrillo-Cisneros	d6a2f903	2016-08-17 13:55:06 -0700	[diff] [blame]	3543	u16 local_pkg, event_pkg;
				3544
				3545	if (event->group_caps & PERF_EV_CAP_READ_ACTIVE_PKG) {
Peter Zijlstra	451d24d	2017-01-31 11:27:10 +0100	[diff] [blame]	3546	int local_cpu = smp_processor_id();
				3547
				3548	event_pkg = topology_physical_package_id(event_cpu);
				3549	local_pkg = topology_physical_package_id(local_cpu);
David Carrillo-Cisneros	d6a2f903	2016-08-17 13:55:06 -0700	[diff] [blame]	3550
				3551	if (event_pkg == local_pkg)
				3552	return local_cpu;
				3553	}
				3554
				3555	return event_cpu;
				3556	}
				3557
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3558	/*
				3559	* Cross CPU call to read the hardware event
				3560	*/
				3561	static void __perf_event_read(void *info)
				3562	{
Peter Zijlstra	0492d4c	2015-09-03 20:07:48 -0700	[diff] [blame]	3563	struct perf_read_data *data = info;
				3564	struct perf_event sub, event = data->event;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3565	struct perf_event_context *ctx = event->ctx;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	3566	struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
Sukadev Bhattiprolu	4a00c16	2015-09-03 20:07:51 -0700	[diff] [blame]	3567	struct pmu *pmu = event->pmu;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3568
				3569	/*
				3570	* If this is a task context, we need to check whether it is
				3571	* the current task context of this cpu. If not it has been
				3572	* scheduled out before the smp call arrived. In that case
				3573	* event->count would have been updated to a recent sample
				3574	* when the event was scheduled out.
				3575	*/
				3576	if (ctx->task && cpuctx->task_ctx != ctx)
				3577	return;
				3578
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	3579	raw_spin_lock(&ctx->lock);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	3580	if (ctx->is_active) {
Peter Zijlstra	542e72f	2011-01-26 15:38:35 +0100	[diff] [blame]	3581	update_context_time(ctx);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	3582	update_cgrp_time_from_event(event);
				3583	}
Peter Zijlstra	0492d4c	2015-09-03 20:07:48 -0700	[diff] [blame]	3584
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3585	update_event_times(event);
Sukadev Bhattiprolu	4a00c16	2015-09-03 20:07:51 -0700	[diff] [blame]	3586	if (event->state != PERF_EVENT_STATE_ACTIVE)
Peter Zijlstra	0492d4c	2015-09-03 20:07:48 -0700	[diff] [blame]	3587	goto unlock;
				3588
Sukadev Bhattiprolu	4a00c16	2015-09-03 20:07:51 -0700	[diff] [blame]	3589	if (!data->group) {
				3590	pmu->read(event);
				3591	data->ret = 0;
				3592	goto unlock;
				3593	}
				3594
				3595	pmu->start_txn(pmu, PERF_PMU_TXN_READ);
				3596
				3597	pmu->read(event);
				3598
Peter Zijlstra	0492d4c	2015-09-03 20:07:48 -0700	[diff] [blame]	3599	list_for_each_entry(sub, &event->sibling_list, group_entry) {
				3600	update_event_times(sub);
Sukadev Bhattiprolu	4a00c16	2015-09-03 20:07:51 -0700	[diff] [blame]	3601	if (sub->state == PERF_EVENT_STATE_ACTIVE) {
				3602	/*
				3603	* Use sibling's PMU rather than @event's since
				3604	* sibling could be on different (eg: software) PMU.
				3605	*/
Peter Zijlstra	0492d4c	2015-09-03 20:07:48 -0700	[diff] [blame]	3606	sub->pmu->read(sub);
Sukadev Bhattiprolu	4a00c16	2015-09-03 20:07:51 -0700	[diff] [blame]	3607	}
Peter Zijlstra	0492d4c	2015-09-03 20:07:48 -0700	[diff] [blame]	3608	}
Sukadev Bhattiprolu	4a00c16	2015-09-03 20:07:51 -0700	[diff] [blame]	3609
				3610	data->ret = pmu->commit_txn(pmu);
Peter Zijlstra	0492d4c	2015-09-03 20:07:48 -0700	[diff] [blame]	3611
				3612	unlock:
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	3613	raw_spin_unlock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3614	}
				3615
Peter Zijlstra	b5e5879	2010-05-21 14:43:12 +0200	[diff] [blame]	3616	static inline u64 perf_event_count(struct perf_event *event)
				3617	{
Matt Fleming	eacd3ec	2015-01-23 18:45:41 +0000	[diff] [blame]	3618	if (event->pmu->count)
				3619	return event->pmu->count(event);
				3620
				3621	return __perf_event_count(event);
Peter Zijlstra	b5e5879	2010-05-21 14:43:12 +0200	[diff] [blame]	3622	}
				3623
Kaixu Xia	ffe8690	2015-08-06 07:02:32 +0000	[diff] [blame]	3624	/*
				3625	* NMI-safe method to read a local event, that is an event that
				3626	* is:
				3627	* - either for the current task, or for this CPU
				3628	* - does not have inherit set, for inherited task events
				3629	* will not be local and we cannot read them atomically
				3630	* - must not have a pmu::count method
				3631	*/
				3632	u64 perf_event_read_local(struct perf_event *event)
				3633	{
				3634	unsigned long flags;
				3635	u64 val;
				3636
				3637	/*
				3638	* Disabling interrupts avoids all counter scheduling (context
				3639	* switches, timer based rotation and IPIs).
				3640	*/
				3641	local_irq_save(flags);
				3642
				3643	/* If this is a per-task event, it must be for current */
				3644	WARN_ON_ONCE((event->attach_state & PERF_ATTACH_TASK) &&
				3645	event->hw.target != current);
				3646
				3647	/* If this is a per-CPU event, it must be for this CPU */
				3648	WARN_ON_ONCE(!(event->attach_state & PERF_ATTACH_TASK) &&
				3649	event->cpu != smp_processor_id());
				3650
				3651	/*
				3652	* It must not be an event with inherit set, we cannot read
				3653	* all child counters from atomic context.
				3654	*/
				3655	WARN_ON_ONCE(event->attr.inherit);
				3656
				3657	/*
				3658	* It must not have a pmu::count method, those are not
				3659	* NMI safe.
				3660	*/
				3661	WARN_ON_ONCE(event->pmu->count);
				3662
				3663	/*
				3664	* If the event is currently on this CPU, its either a per-task event,
				3665	* or local to this CPU. Furthermore it means its ACTIVE (otherwise
				3666	* oncpu == -1).
				3667	*/
				3668	if (event->oncpu == smp_processor_id())
				3669	event->pmu->read(event);
				3670
				3671	val = local64_read(&event->count);
				3672	local_irq_restore(flags);
				3673
				3674	return val;
				3675	}
				3676
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	3677	static int perf_event_read(struct perf_event *event, bool group)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3678	{
Peter Zijlstra	451d24d	2017-01-31 11:27:10 +0100	[diff] [blame]	3679	int event_cpu, ret = 0;
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	3680
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3681	/*
				3682	* If event is enabled and currently active on a CPU, update the
				3683	* value in the event structure:
				3684	*/
				3685	if (event->state == PERF_EVENT_STATE_ACTIVE) {
Peter Zijlstra	0492d4c	2015-09-03 20:07:48 -0700	[diff] [blame]	3686	struct perf_read_data data = {
				3687	.event = event,
				3688	.group = group,
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	3689	.ret = 0,
Peter Zijlstra	0492d4c	2015-09-03 20:07:48 -0700	[diff] [blame]	3690	};
David Carrillo-Cisneros	d6a2f903	2016-08-17 13:55:06 -0700	[diff] [blame]	3691
Peter Zijlstra	451d24d	2017-01-31 11:27:10 +0100	[diff] [blame]	3692	event_cpu = READ_ONCE(event->oncpu);
				3693	if ((unsigned)event_cpu >= nr_cpu_ids)
				3694	return 0;
				3695
				3696	preempt_disable();
				3697	event_cpu = __perf_event_read_cpu(event, event_cpu);
David Carrillo-Cisneros	d6a2f903	2016-08-17 13:55:06 -0700	[diff] [blame]	3698
Peter Zijlstra	5876314	2016-08-30 10:15:03 +0200	[diff] [blame]	3699	/*
				3700	* Purposely ignore the smp_call_function_single() return
				3701	* value.
				3702	*
Peter Zijlstra	451d24d	2017-01-31 11:27:10 +0100	[diff] [blame]	3703	* If event_cpu isn't a valid CPU it means the event got
Peter Zijlstra	5876314	2016-08-30 10:15:03 +0200	[diff] [blame]	3704	* scheduled out and that will have updated the event count.
				3705	*
				3706	* Therefore, either way, we'll have an up-to-date event count
				3707	* after this.
				3708	*/
Peter Zijlstra	451d24d	2017-01-31 11:27:10 +0100	[diff] [blame]	3709	(void)smp_call_function_single(event_cpu, __perf_event_read, &data, 1);
				3710	preempt_enable();
Peter Zijlstra	5876314	2016-08-30 10:15:03 +0200	[diff] [blame]	3711	ret = data.ret;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3712	} else if (event->state == PERF_EVENT_STATE_INACTIVE) {
Peter Zijlstra	2b8988c	2009-11-20 22:19:54 +0100	[diff] [blame]	3713	struct perf_event_context *ctx = event->ctx;
				3714	unsigned long flags;
				3715
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	3716	raw_spin_lock_irqsave(&ctx->lock, flags);
Stephane Eranian	c530ccd	2010-10-15 15:26:01 +0200	[diff] [blame]	3717	/*
				3718	* may read while context is not active
				3719	* (e.g., thread is blocked), in that case
				3720	* we cannot update context time
				3721	*/
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	3722	if (ctx->is_active) {
Stephane Eranian	c530ccd	2010-10-15 15:26:01 +0200	[diff] [blame]	3723	update_context_time(ctx);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	3724	update_cgrp_time_from_event(event);
				3725	}
Peter Zijlstra	0492d4c	2015-09-03 20:07:48 -0700	[diff] [blame]	3726	if (group)
				3727	update_group_times(event);
				3728	else
				3729	update_event_times(event);
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	3730	raw_spin_unlock_irqrestore(&ctx->lock, flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3731	}
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	3732
				3733	return ret;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3734	}
				3735
				3736	/*
				3737	* Initialize the perf_event context in a task_struct:
				3738	*/
Peter Zijlstra	eb18447	2010-09-07 15:55:13 +0200	[diff] [blame]	3739	static void __perf_event_init_context(struct perf_event_context *ctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3740	{
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	3741	raw_spin_lock_init(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3742	mutex_init(&ctx->mutex);
Mark Rutland	2fde4f9	2015-01-07 15:01:54 +0000	[diff] [blame]	3743	INIT_LIST_HEAD(&ctx->active_ctx_list);
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	3744	INIT_LIST_HEAD(&ctx->pinned_groups);
				3745	INIT_LIST_HEAD(&ctx->flexible_groups);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3746	INIT_LIST_HEAD(&ctx->event_list);
				3747	atomic_set(&ctx->refcount, 1);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3748	}
				3749
Peter Zijlstra	eb18447	2010-09-07 15:55:13 +0200	[diff] [blame]	3750	static struct perf_event_context *
				3751	alloc_perf_context(struct pmu pmu, struct task_struct task)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3752	{
				3753	struct perf_event_context *ctx;
Peter Zijlstra	eb18447	2010-09-07 15:55:13 +0200	[diff] [blame]	3754
				3755	ctx = kzalloc(sizeof(struct perf_event_context), GFP_KERNEL);
				3756	if (!ctx)
				3757	return NULL;
				3758
				3759	__perf_event_init_context(ctx);
				3760	if (task) {
				3761	ctx->task = task;
				3762	get_task_struct(task);
				3763	}
				3764	ctx->pmu = pmu;
				3765
				3766	return ctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3767	}
				3768
Matt Helsley	2ebd4ff	2010-09-13 13:01:19 -0700	[diff] [blame]	3769	static struct task_struct *
				3770	find_lively_task_by_vpid(pid_t vpid)
				3771	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3772	struct task_struct *task;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3773
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3774	rcu_read_lock();
Matt Helsley	2ebd4ff	2010-09-13 13:01:19 -0700	[diff] [blame]	3775	if (!vpid)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3776	task = current;
				3777	else
Matt Helsley	2ebd4ff	2010-09-13 13:01:19 -0700	[diff] [blame]	3778	task = find_task_by_vpid(vpid);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3779	if (task)
				3780	get_task_struct(task);
				3781	rcu_read_unlock();
				3782
				3783	if (!task)
				3784	return ERR_PTR(-ESRCH);
				3785
Matt Helsley	2ebd4ff	2010-09-13 13:01:19 -0700	[diff] [blame]	3786	return task;
Matt Helsley	2ebd4ff	2010-09-13 13:01:19 -0700	[diff] [blame]	3787	}
				3788
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	3789	/*
				3790	* Returns a matching context with refcount and pincount.
				3791	*/
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	3792	static struct perf_event_context *
Yan, Zheng	4af57ef	2014-11-04 21:56:01 -0500	[diff] [blame]	3793	find_get_context(struct pmu pmu, struct task_struct task,
				3794	struct perf_event *event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3795	{
Peter Zijlstra	211de6e	2014-09-30 19:23:08 +0200	[diff] [blame]	3796	struct perf_event_context ctx, clone_ctx = NULL;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3797	struct perf_cpu_context *cpuctx;
Yan, Zheng	4af57ef	2014-11-04 21:56:01 -0500	[diff] [blame]	3798	void *task_ctx_data = NULL;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3799	unsigned long flags;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3800	int ctxn, err;
Yan, Zheng	4af57ef	2014-11-04 21:56:01 -0500	[diff] [blame]	3801	int cpu = event->cpu;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3802
Oleg Nesterov	22a4ec7	2011-01-18 17:10:08 +0100	[diff] [blame]	3803	if (!task) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3804	/* Must be root to operate on a CPU event: */
				3805	if (perf_paranoid_cpu() && !capable(CAP_SYS_ADMIN))
				3806	return ERR_PTR(-EACCES);
				3807
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3808	/*
				3809	* We could be clever and allow to attach a event to an
				3810	* offline CPU and activate it when the CPU comes up, but
				3811	* that's for later.
				3812	*/
				3813	if (!cpu_online(cpu))
				3814	return ERR_PTR(-ENODEV);
				3815
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	3816	cpuctx = per_cpu_ptr(pmu->pmu_cpu_context, cpu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3817	ctx = &cpuctx->ctx;
				3818	get_ctx(ctx);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	3819	++ctx->pin_count;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3820
				3821	return ctx;
				3822	}
				3823
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3824	err = -EINVAL;
				3825	ctxn = pmu->task_ctx_nr;
				3826	if (ctxn < 0)
				3827	goto errout;
				3828
Yan, Zheng	4af57ef	2014-11-04 21:56:01 -0500	[diff] [blame]	3829	if (event->attach_state & PERF_ATTACH_TASK_DATA) {
				3830	task_ctx_data = kzalloc(pmu->task_ctx_size, GFP_KERNEL);
				3831	if (!task_ctx_data) {
				3832	err = -ENOMEM;
				3833	goto errout;
				3834	}
				3835	}
				3836
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	3837	retry:
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3838	ctx = perf_lock_task_context(task, ctxn, &flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3839	if (ctx) {
Peter Zijlstra	211de6e	2014-09-30 19:23:08 +0200	[diff] [blame]	3840	clone_ctx = unclone_ctx(ctx);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	3841	++ctx->pin_count;
Yan, Zheng	4af57ef	2014-11-04 21:56:01 -0500	[diff] [blame]	3842
				3843	if (task_ctx_data && !ctx->task_ctx_data) {
				3844	ctx->task_ctx_data = task_ctx_data;
				3845	task_ctx_data = NULL;
				3846	}
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	3847	raw_spin_unlock_irqrestore(&ctx->lock, flags);
Peter Zijlstra	211de6e	2014-09-30 19:23:08 +0200	[diff] [blame]	3848
				3849	if (clone_ctx)
				3850	put_ctx(clone_ctx);
Peter Zijlstra	9137fb2	2011-04-09 21:17:41 +0200	[diff] [blame]	3851	} else {
Peter Zijlstra	eb18447	2010-09-07 15:55:13 +0200	[diff] [blame]	3852	ctx = alloc_perf_context(pmu, task);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3853	err = -ENOMEM;
				3854	if (!ctx)
				3855	goto errout;
Peter Zijlstra	eb18447	2010-09-07 15:55:13 +0200	[diff] [blame]	3856
Yan, Zheng	4af57ef	2014-11-04 21:56:01 -0500	[diff] [blame]	3857	if (task_ctx_data) {
				3858	ctx->task_ctx_data = task_ctx_data;
				3859	task_ctx_data = NULL;
				3860	}
				3861
Oleg Nesterov	dbe08d8	2011-01-19 19:22:07 +0100	[diff] [blame]	3862	err = 0;
				3863	mutex_lock(&task->perf_event_mutex);
				3864	/*
				3865	* If it has already passed perf_event_exit_task().
				3866	* we must see PF_EXITING, it takes this mutex too.
				3867	*/
				3868	if (task->flags & PF_EXITING)
				3869	err = -ESRCH;
				3870	else if (task->perf_event_ctxp[ctxn])
				3871	err = -EAGAIN;
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	3872	else {
Peter Zijlstra	9137fb2	2011-04-09 21:17:41 +0200	[diff] [blame]	3873	get_ctx(ctx);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	3874	++ctx->pin_count;
Oleg Nesterov	dbe08d8	2011-01-19 19:22:07 +0100	[diff] [blame]	3875	rcu_assign_pointer(task->perf_event_ctxp[ctxn], ctx);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	3876	}
Oleg Nesterov	dbe08d8	2011-01-19 19:22:07 +0100	[diff] [blame]	3877	mutex_unlock(&task->perf_event_mutex);
				3878
				3879	if (unlikely(err)) {
Peter Zijlstra	9137fb2	2011-04-09 21:17:41 +0200	[diff] [blame]	3880	put_ctx(ctx);
Oleg Nesterov	dbe08d8	2011-01-19 19:22:07 +0100	[diff] [blame]	3881
				3882	if (err == -EAGAIN)
				3883	goto retry;
				3884	goto errout;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3885	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3886	}
				3887
Yan, Zheng	4af57ef	2014-11-04 21:56:01 -0500	[diff] [blame]	3888	kfree(task_ctx_data);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3889	return ctx;
				3890
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	3891	errout:
Yan, Zheng	4af57ef	2014-11-04 21:56:01 -0500	[diff] [blame]	3892	kfree(task_ctx_data);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3893	return ERR_PTR(err);
				3894	}
				3895
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	3896	static void perf_event_free_filter(struct perf_event *event);
Alexei Starovoitov	2541517	2015-03-25 12:49:20 -0700	[diff] [blame]	3897	static void perf_event_free_bpf_prog(struct perf_event *event);
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	3898
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3899	static void free_event_rcu(struct rcu_head *head)
				3900	{
				3901	struct perf_event *event;
				3902
				3903	event = container_of(head, struct perf_event, rcu_head);
				3904	if (event->ns)
				3905	put_pid_ns(event->ns);
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	3906	perf_event_free_filter(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3907	kfree(event);
				3908	}
				3909
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	3910	static void ring_buffer_attach(struct perf_event *event,
				3911	struct ring_buffer *rb);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3912
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	3913	static void detach_sb_event(struct perf_event *event)
				3914	{
				3915	struct pmu_event_list *pel = per_cpu_ptr(&pmu_sb_events, event->cpu);
				3916
				3917	raw_spin_lock(&pel->lock);
				3918	list_del_rcu(&event->sb_list);
				3919	raw_spin_unlock(&pel->lock);
				3920	}
				3921
David Carrillo-Cisneros	a4f144e	2016-06-01 12:33:05 -0700	[diff] [blame]	3922	static bool is_sb_event(struct perf_event *event)
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	3923	{
David Carrillo-Cisneros	a4f144e	2016-06-01 12:33:05 -0700	[diff] [blame]	3924	struct perf_event_attr *attr = &event->attr;
				3925
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	3926	if (event->parent)
David Carrillo-Cisneros	a4f144e	2016-06-01 12:33:05 -0700	[diff] [blame]	3927	return false;
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	3928
				3929	if (event->attach_state & PERF_ATTACH_TASK)
David Carrillo-Cisneros	a4f144e	2016-06-01 12:33:05 -0700	[diff] [blame]	3930	return false;
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	3931
David Carrillo-Cisneros	a4f144e	2016-06-01 12:33:05 -0700	[diff] [blame]	3932	if (attr->mmap \|\| attr->mmap_data \|\| attr->mmap2 \|\|
				3933	attr->comm \|\| attr->comm_exec \|\|
				3934	attr->task \|\|
				3935	attr->context_switch)
				3936	return true;
				3937	return false;
				3938	}
				3939
				3940	static void unaccount_pmu_sb_event(struct perf_event *event)
				3941	{
				3942	if (is_sb_event(event))
				3943	detach_sb_event(event);
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	3944	}
				3945
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	3946	static void unaccount_event_cpu(struct perf_event *event, int cpu)
				3947	{
				3948	if (event->parent)
				3949	return;
				3950
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	3951	if (is_cgroup_event(event))
				3952	atomic_dec(&per_cpu(perf_cgroup_events, cpu));
				3953	}
				3954
Frederic Weisbecker	555e0c1	2015-07-16 17:42:29 +0200	[diff] [blame]	3955	#ifdef CONFIG_NO_HZ_FULL
				3956	static DEFINE_SPINLOCK(nr_freq_lock);
				3957	#endif
				3958
				3959	static void unaccount_freq_event_nohz(void)
				3960	{
				3961	#ifdef CONFIG_NO_HZ_FULL
				3962	spin_lock(&nr_freq_lock);
				3963	if (atomic_dec_and_test(&nr_freq_events))
				3964	tick_nohz_dep_clear(TICK_DEP_BIT_PERF_EVENTS);
				3965	spin_unlock(&nr_freq_lock);
				3966	#endif
				3967	}
				3968
				3969	static void unaccount_freq_event(void)
				3970	{
				3971	if (tick_nohz_full_enabled())
				3972	unaccount_freq_event_nohz();
				3973	else
				3974	atomic_dec(&nr_freq_events);
				3975	}
				3976
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	3977	static void unaccount_event(struct perf_event *event)
				3978	{
Peter Zijlstra	25432ae	2016-01-08 11:05:09 +0100	[diff] [blame]	3979	bool dec = false;
				3980
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	3981	if (event->parent)
				3982	return;
				3983
				3984	if (event->attach_state & PERF_ATTACH_TASK)
Peter Zijlstra	25432ae	2016-01-08 11:05:09 +0100	[diff] [blame]	3985	dec = true;
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	3986	if (event->attr.mmap \|\| event->attr.mmap_data)
				3987	atomic_dec(&nr_mmap_events);
				3988	if (event->attr.comm)
				3989	atomic_dec(&nr_comm_events);
				3990	if (event->attr.task)
				3991	atomic_dec(&nr_task_events);
Frederic Weisbecker	948b26b	2013-08-02 18:29:55 +0200	[diff] [blame]	3992	if (event->attr.freq)
Frederic Weisbecker	555e0c1	2015-07-16 17:42:29 +0200	[diff] [blame]	3993	unaccount_freq_event();
Adrian Hunter	45ac140	2015-07-21 12:44:02 +0300	[diff] [blame]	3994	if (event->attr.context_switch) {
Peter Zijlstra	25432ae	2016-01-08 11:05:09 +0100	[diff] [blame]	3995	dec = true;
Adrian Hunter	45ac140	2015-07-21 12:44:02 +0300	[diff] [blame]	3996	atomic_dec(&nr_switch_events);
				3997	}
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	3998	if (is_cgroup_event(event))
Peter Zijlstra	25432ae	2016-01-08 11:05:09 +0100	[diff] [blame]	3999	dec = true;
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	4000	if (has_branch_stack(event))
Peter Zijlstra	25432ae	2016-01-08 11:05:09 +0100	[diff] [blame]	4001	dec = true;
				4002
Peter Zijlstra	9107c89	2016-02-24 18:45:45 +0100	[diff] [blame]	4003	if (dec) {
				4004	if (!atomic_add_unless(&perf_sched_count, -1, 1))
				4005	schedule_delayed_work(&perf_sched_work, HZ);
				4006	}
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	4007
				4008	unaccount_event_cpu(event, event->cpu);
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	4009
				4010	unaccount_pmu_sb_event(event);
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	4011	}
				4012
Peter Zijlstra	9107c89	2016-02-24 18:45:45 +0100	[diff] [blame]	4013	static void perf_sched_delayed(struct work_struct *work)
				4014	{
				4015	mutex_lock(&perf_sched_mutex);
				4016	if (atomic_dec_and_test(&perf_sched_count))
				4017	static_branch_disable(&perf_sched_events);
				4018	mutex_unlock(&perf_sched_mutex);
				4019	}
				4020
Alexander Shishkin	bed5b25	2015-01-30 12:31:06 +0200	[diff] [blame]	4021	/*
				4022	* The following implement mutual exclusion of events on "exclusive" pmus
				4023	* (PERF_PMU_CAP_EXCLUSIVE). Such pmus can only have one event scheduled
				4024	* at a time, so we disallow creating events that might conflict, namely:
				4025	*
				4026	* 1) cpu-wide events in the presence of per-task events,
				4027	* 2) per-task events in the presence of cpu-wide events,
				4028	* 3) two matching events on the same context.
				4029	*
				4030	* The former two cases are handled in the allocation path (perf_event_alloc(),
Peter Zijlstra	a0733e6	2016-01-26 12:14:40 +0100	[diff] [blame]	4031	* _free_event()), the latter -- before the first perf_install_in_context().
Alexander Shishkin	bed5b25	2015-01-30 12:31:06 +0200	[diff] [blame]	4032	*/
				4033	static int exclusive_event_init(struct perf_event *event)
				4034	{
				4035	struct pmu *pmu = event->pmu;
				4036
				4037	if (!(pmu->capabilities & PERF_PMU_CAP_EXCLUSIVE))
				4038	return 0;
				4039
				4040	/*
				4041	* Prevent co-existence of per-task and cpu-wide events on the
				4042	* same exclusive pmu.
				4043	*
				4044	* Negative pmu::exclusive_cnt means there are cpu-wide
				4045	* events on this "exclusive" pmu, positive means there are
				4046	* per-task events.
				4047	*
				4048	* Since this is called in perf_event_alloc() path, event::ctx
				4049	* doesn't exist yet; it is, however, safe to use PERF_ATTACH_TASK
				4050	* to mean "per-task event", because unlike other attach states it
				4051	* never gets cleared.
				4052	*/
				4053	if (event->attach_state & PERF_ATTACH_TASK) {
				4054	if (!atomic_inc_unless_negative(&pmu->exclusive_cnt))
				4055	return -EBUSY;
				4056	} else {
				4057	if (!atomic_dec_unless_positive(&pmu->exclusive_cnt))
				4058	return -EBUSY;
				4059	}
				4060
				4061	return 0;
				4062	}
				4063
				4064	static void exclusive_event_destroy(struct perf_event *event)
				4065	{
				4066	struct pmu *pmu = event->pmu;
				4067
				4068	if (!(pmu->capabilities & PERF_PMU_CAP_EXCLUSIVE))
				4069	return;
				4070
				4071	/* see comment in exclusive_event_init() */
				4072	if (event->attach_state & PERF_ATTACH_TASK)
				4073	atomic_dec(&pmu->exclusive_cnt);
				4074	else
				4075	atomic_inc(&pmu->exclusive_cnt);
				4076	}
				4077
				4078	static bool exclusive_event_match(struct perf_event e1, struct perf_event e2)
				4079	{
Alexander Shishkin	3bf6215	2016-09-20 18:48:11 +0300	[diff] [blame]	4080	if ((e1->pmu == e2->pmu) &&
Alexander Shishkin	bed5b25	2015-01-30 12:31:06 +0200	[diff] [blame]	4081	(e1->cpu == e2->cpu \|\|
				4082	e1->cpu == -1 \|\|
				4083	e2->cpu == -1))
				4084	return true;
				4085	return false;
				4086	}
				4087
				4088	/* Called under the same ctx::mutex as perf_install_in_context() */
				4089	static bool exclusive_event_installable(struct perf_event *event,
				4090	struct perf_event_context *ctx)
				4091	{
				4092	struct perf_event *iter_event;
				4093	struct pmu *pmu = event->pmu;
				4094
				4095	if (!(pmu->capabilities & PERF_PMU_CAP_EXCLUSIVE))
				4096	return true;
				4097
				4098	list_for_each_entry(iter_event, &ctx->event_list, event_entry) {
				4099	if (exclusive_event_match(iter_event, event))
				4100	return false;
				4101	}
				4102
				4103	return true;
				4104	}
				4105
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	4106	static void perf_addr_filters_splice(struct perf_event *event,
				4107	struct list_head *head);
				4108
Peter Zijlstra	683ede4	2014-05-05 12:11:24 +0200	[diff] [blame]	4109	static void _free_event(struct perf_event *event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4110	{
Peter Zijlstra	e360adb	2010-10-14 14:01:34 +0800	[diff] [blame]	4111	irq_work_sync(&event->pending);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4112
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	4113	unaccount_event(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4114
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	4115	if (event->rb) {
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	4116	/*
				4117	* Can happen when we close an event with re-directed output.
				4118	*
				4119	* Since we have a 0 refcount, perf_mmap_close() will skip
				4120	* over us; possibly making our ring_buffer_put() the last.
				4121	*/
				4122	mutex_lock(&event->mmap_mutex);
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	4123	ring_buffer_attach(event, NULL);
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	4124	mutex_unlock(&event->mmap_mutex);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4125	}
				4126
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	4127	if (is_cgroup_event(event))
				4128	perf_detach_cgroup(event);
				4129
Peter Zijlstra	a0733e6	2016-01-26 12:14:40 +0100	[diff] [blame]	4130	if (!event->parent) {
				4131	if (event->attr.sample_type & PERF_SAMPLE_CALLCHAIN)
				4132	put_callchain_buffers();
				4133	}
				4134
				4135	perf_event_free_bpf_prog(event);
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	4136	perf_addr_filters_splice(event, NULL);
				4137	kfree(event->addr_filters_offs);
Peter Zijlstra	a0733e6	2016-01-26 12:14:40 +0100	[diff] [blame]	4138
				4139	if (event->destroy)
				4140	event->destroy(event);
				4141
				4142	if (event->ctx)
				4143	put_ctx(event->ctx);
				4144
Alexander Shishkin	62a92c8	2016-06-07 15:44:15 +0300	[diff] [blame]	4145	exclusive_event_destroy(event);
				4146	module_put(event->pmu->module);
Peter Zijlstra	a0733e6	2016-01-26 12:14:40 +0100	[diff] [blame]	4147
				4148	call_rcu(&event->rcu_head, free_event_rcu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4149	}
				4150
Peter Zijlstra	683ede4	2014-05-05 12:11:24 +0200	[diff] [blame]	4151	/*
				4152	* Used to free events which have a known refcount of 1, such as in error paths
				4153	* where the event isn't exposed yet and inherited events.
				4154	*/
				4155	static void free_event(struct perf_event *event)
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	4156	{
Peter Zijlstra	683ede4	2014-05-05 12:11:24 +0200	[diff] [blame]	4157	if (WARN(atomic_long_cmpxchg(&event->refcount, 1, 0) != 1,
				4158	"unexpected event refcount: %ld; ptr=%p\n",
				4159	atomic_long_read(&event->refcount), event)) {
				4160	/* leak to avoid use-after-free */
				4161	return;
				4162	}
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	4163
Peter Zijlstra	683ede4	2014-05-05 12:11:24 +0200	[diff] [blame]	4164	_free_event(event);
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	4165	}
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	4166
Peter Zijlstra	a66a305	2009-11-23 11:37:23 +0100	[diff] [blame]	4167	/*
Jiri Olsa	f869776	2014-08-01 14:33:01 +0200	[diff] [blame]	4168	* Remove user event from the owner task.
Peter Zijlstra	a66a305	2009-11-23 11:37:23 +0100	[diff] [blame]	4169	*/
Jiri Olsa	f869776	2014-08-01 14:33:01 +0200	[diff] [blame]	4170	static void perf_remove_from_owner(struct perf_event *event)
Peter Zijlstra	a66a305	2009-11-23 11:37:23 +0100	[diff] [blame]	4171	{
Peter Zijlstra	8882135	2010-11-09 19:01:43 +0100	[diff] [blame]	4172	struct task_struct *owner;
Peter Zijlstra	a66a305	2009-11-23 11:37:23 +0100	[diff] [blame]	4173
Peter Zijlstra	8882135	2010-11-09 19:01:43 +0100	[diff] [blame]	4174	rcu_read_lock();
Peter Zijlstra	8882135	2010-11-09 19:01:43 +0100	[diff] [blame]	4175	/*
Peter Zijlstra	f47c02c	2016-01-26 12:30:14 +0100	[diff] [blame]	4176	* Matches the smp_store_release() in perf_event_exit_task(). If we
				4177	* observe !owner it means the list deletion is complete and we can
				4178	* indeed free this event, otherwise we need to serialize on
Peter Zijlstra	8882135	2010-11-09 19:01:43 +0100	[diff] [blame]	4179	* owner->perf_event_mutex.
				4180	*/
Peter Zijlstra	f47c02c	2016-01-26 12:30:14 +0100	[diff] [blame]	4181	owner = lockless_dereference(event->owner);
Peter Zijlstra	8882135	2010-11-09 19:01:43 +0100	[diff] [blame]	4182	if (owner) {
				4183	/*
				4184	* Since delayed_put_task_struct() also drops the last
				4185	* task reference we can safely take a new reference
				4186	* while holding the rcu_read_lock().
				4187	*/
				4188	get_task_struct(owner);
				4189	}
				4190	rcu_read_unlock();
				4191
				4192	if (owner) {
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	4193	/*
				4194	* If we're here through perf_event_exit_task() we're already
				4195	* holding ctx->mutex which would be an inversion wrt. the
				4196	* normal lock order.
				4197	*
				4198	* However we can safely take this lock because its the child
				4199	* ctx->mutex.
				4200	*/
				4201	mutex_lock_nested(&owner->perf_event_mutex, SINGLE_DEPTH_NESTING);
				4202
Peter Zijlstra	8882135	2010-11-09 19:01:43 +0100	[diff] [blame]	4203	/*
				4204	* We have to re-check the event->owner field, if it is cleared
				4205	* we raced with perf_event_exit_task(), acquiring the mutex
				4206	* ensured they're done, and we can proceed with freeing the
				4207	* event.
				4208	*/
Peter Zijlstra	f47c02c	2016-01-26 12:30:14 +0100	[diff] [blame]	4209	if (event->owner) {
Peter Zijlstra	8882135	2010-11-09 19:01:43 +0100	[diff] [blame]	4210	list_del_init(&event->owner_entry);
Peter Zijlstra	f47c02c	2016-01-26 12:30:14 +0100	[diff] [blame]	4211	smp_store_release(&event->owner, NULL);
				4212	}
Peter Zijlstra	8882135	2010-11-09 19:01:43 +0100	[diff] [blame]	4213	mutex_unlock(&owner->perf_event_mutex);
				4214	put_task_struct(owner);
				4215	}
Jiri Olsa	f869776	2014-08-01 14:33:01 +0200	[diff] [blame]	4216	}
				4217
Jiri Olsa	f869776	2014-08-01 14:33:01 +0200	[diff] [blame]	4218	static void put_event(struct perf_event *event)
				4219	{
Jiri Olsa	f869776	2014-08-01 14:33:01 +0200	[diff] [blame]	4220	if (!atomic_long_dec_and_test(&event->refcount))
				4221	return;
				4222
Peter Zijlstra	683ede4	2014-05-05 12:11:24 +0200	[diff] [blame]	4223	_free_event(event);
Al Viro	a6fa941	2012-08-20 14:59:25 +0100	[diff] [blame]	4224	}
				4225
Peter Zijlstra	c6e5b73	2016-01-15 16:07:41 +0200	[diff] [blame]	4226	/*
				4227	* Kill an event dead; while event:refcount will preserve the event
				4228	* object, it will not preserve its functionality. Once the last 'user'
				4229	* gives up the object, we'll destroy the thing.
				4230	*/
Peter Zijlstra	683ede4	2014-05-05 12:11:24 +0200	[diff] [blame]	4231	int perf_event_release_kernel(struct perf_event *event)
				4232	{
Peter Zijlstra	a4f4bb6	2016-02-24 18:45:42 +0100	[diff] [blame]	4233	struct perf_event_context *ctx = event->ctx;
Peter Zijlstra	c6e5b73	2016-01-15 16:07:41 +0200	[diff] [blame]	4234	struct perf_event child, tmp;
				4235
Peter Zijlstra	a4f4bb6	2016-02-24 18:45:42 +0100	[diff] [blame]	4236	/*
				4237	* If we got here through err_file: fput(event_file); we will not have
				4238	* attached to a context yet.
				4239	*/
				4240	if (!ctx) {
				4241	WARN_ON_ONCE(event->attach_state &
				4242	(PERF_ATTACH_CONTEXT\|PERF_ATTACH_GROUP));
				4243	goto no_ctx;
				4244	}
				4245
Peter Zijlstra	8882135	2010-11-09 19:01:43 +0100	[diff] [blame]	4246	if (!is_kernel_event(event))
				4247	perf_remove_from_owner(event);
				4248
Peter Zijlstra	5fa7c8e	2016-01-26 15:25:15 +0100	[diff] [blame]	4249	ctx = perf_event_ctx_lock(event);
Peter Zijlstra	683ede4	2014-05-05 12:11:24 +0200	[diff] [blame]	4250	WARN_ON_ONCE(ctx->parent_ctx);
Peter Zijlstra	a69b0ca	2016-02-24 18:45:44 +0100	[diff] [blame]	4251	perf_remove_from_context(event, DETACH_GROUP);
Peter Zijlstra	8882135	2010-11-09 19:01:43 +0100	[diff] [blame]	4252
Peter Zijlstra	a69b0ca	2016-02-24 18:45:44 +0100	[diff] [blame]	4253	raw_spin_lock_irq(&ctx->lock);
Peter Zijlstra	60beda8	2016-01-26 14:55:02 +0100	[diff] [blame]	4254	/*
Peter Zijlstra	a69b0ca	2016-02-24 18:45:44 +0100	[diff] [blame]	4255	* Mark this even as STATE_DEAD, there is no external reference to it
				4256	* anymore.
Peter Zijlstra	c6e5b73	2016-01-15 16:07:41 +0200	[diff] [blame]	4257	*
Peter Zijlstra	a69b0ca	2016-02-24 18:45:44 +0100	[diff] [blame]	4258	* Anybody acquiring event->child_mutex after the below loop _must_
				4259	* also see this, most importantly inherit_event() which will avoid
				4260	* placing more children on the list.
Peter Zijlstra	c6e5b73	2016-01-15 16:07:41 +0200	[diff] [blame]	4261	*
				4262	* Thus this guarantees that we will in fact observe and kill _ALL_
				4263	* child events.
Peter Zijlstra	60beda8	2016-01-26 14:55:02 +0100	[diff] [blame]	4264	*/
Peter Zijlstra	a69b0ca	2016-02-24 18:45:44 +0100	[diff] [blame]	4265	event->state = PERF_EVENT_STATE_DEAD;
				4266	raw_spin_unlock_irq(&ctx->lock);
				4267
				4268	perf_event_ctx_unlock(event, ctx);
Peter Zijlstra	60beda8	2016-01-26 14:55:02 +0100	[diff] [blame]	4269
Peter Zijlstra	c6e5b73	2016-01-15 16:07:41 +0200	[diff] [blame]	4270	again:
				4271	mutex_lock(&event->child_mutex);
				4272	list_for_each_entry(child, &event->child_list, child_list) {
Al Viro	a6fa941	2012-08-20 14:59:25 +0100	[diff] [blame]	4273
Peter Zijlstra	c6e5b73	2016-01-15 16:07:41 +0200	[diff] [blame]	4274	/*
				4275	* Cannot change, child events are not migrated, see the
				4276	* comment with perf_event_ctx_lock_nested().
				4277	*/
				4278	ctx = lockless_dereference(child->ctx);
				4279	/*
				4280	* Since child_mutex nests inside ctx::mutex, we must jump
				4281	* through hoops. We start by grabbing a reference on the ctx.
				4282	*
				4283	* Since the event cannot get freed while we hold the
				4284	* child_mutex, the context must also exist and have a !0
				4285	* reference count.
				4286	*/
				4287	get_ctx(ctx);
				4288
				4289	/*
				4290	* Now that we have a ctx ref, we can drop child_mutex, and
				4291	* acquire ctx::mutex without fear of it going away. Then we
				4292	* can re-acquire child_mutex.
				4293	*/
				4294	mutex_unlock(&event->child_mutex);
				4295	mutex_lock(&ctx->mutex);
				4296	mutex_lock(&event->child_mutex);
				4297
				4298	/*
				4299	* Now that we hold ctx::mutex and child_mutex, revalidate our
				4300	* state, if child is still the first entry, it didn't get freed
				4301	* and we can continue doing so.
				4302	*/
				4303	tmp = list_first_entry_or_null(&event->child_list,
				4304	struct perf_event, child_list);
				4305	if (tmp == child) {
				4306	perf_remove_from_context(child, DETACH_GROUP);
				4307	list_del(&child->child_list);
				4308	free_event(child);
				4309	/*
				4310	* This matches the refcount bump in inherit_event();
				4311	* this can't be the last reference.
				4312	*/
				4313	put_event(event);
				4314	}
				4315
				4316	mutex_unlock(&event->child_mutex);
				4317	mutex_unlock(&ctx->mutex);
				4318	put_ctx(ctx);
				4319	goto again;
				4320	}
				4321	mutex_unlock(&event->child_mutex);
				4322
Peter Zijlstra	a4f4bb6	2016-02-24 18:45:42 +0100	[diff] [blame]	4323	no_ctx:
				4324	put_event(event); /* Must be the 'last' reference */
Peter Zijlstra	683ede4	2014-05-05 12:11:24 +0200	[diff] [blame]	4325	return 0;
				4326	}
				4327	EXPORT_SYMBOL_GPL(perf_event_release_kernel);
				4328
Peter Zijlstra	8b10c5e	2015-05-01 16:08:46 +0200	[diff] [blame]	4329	/*
				4330	* Called when the last reference to the file is gone.
				4331	*/
Al Viro	a6fa941	2012-08-20 14:59:25 +0100	[diff] [blame]	4332	static int perf_release(struct inode inode, struct file file)
				4333	{
Peter Zijlstra	c6e5b73	2016-01-15 16:07:41 +0200	[diff] [blame]	4334	perf_event_release_kernel(file->private_data);
Al Viro	a6fa941	2012-08-20 14:59:25 +0100	[diff] [blame]	4335	return 0;
Peter Zijlstra	a66a305	2009-11-23 11:37:23 +0100	[diff] [blame]	4336	}
				4337
Peter Zijlstra	59ed446	2009-11-20 22:19:55 +0100	[diff] [blame]	4338	u64 perf_event_read_value(struct perf_event event, u64 enabled, u64 *running)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4339	{
				4340	struct perf_event *child;
				4341	u64 total = 0;
				4342
Peter Zijlstra	59ed446	2009-11-20 22:19:55 +0100	[diff] [blame]	4343	*enabled = 0;
				4344	*running = 0;
				4345
Peter Zijlstra	6f10581	2009-11-20 22:19:56 +0100	[diff] [blame]	4346	mutex_lock(&event->child_mutex);
Sukadev Bhattiprolu	01add3e	2015-09-03 20:07:46 -0700	[diff] [blame]	4347
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	4348	(void)perf_event_read(event, false);
Sukadev Bhattiprolu	01add3e	2015-09-03 20:07:46 -0700	[diff] [blame]	4349	total += perf_event_count(event);
				4350
Peter Zijlstra	59ed446	2009-11-20 22:19:55 +0100	[diff] [blame]	4351	*enabled += event->total_time_enabled +
				4352	atomic64_read(&event->child_total_time_enabled);
				4353	*running += event->total_time_running +
				4354	atomic64_read(&event->child_total_time_running);
				4355
				4356	list_for_each_entry(child, &event->child_list, child_list) {
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	4357	(void)perf_event_read(child, false);
Sukadev Bhattiprolu	01add3e	2015-09-03 20:07:46 -0700	[diff] [blame]	4358	total += perf_event_count(child);
Peter Zijlstra	59ed446	2009-11-20 22:19:55 +0100	[diff] [blame]	4359	*enabled += child->total_time_enabled;
				4360	*running += child->total_time_running;
				4361	}
Peter Zijlstra	6f10581	2009-11-20 22:19:56 +0100	[diff] [blame]	4362	mutex_unlock(&event->child_mutex);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4363
				4364	return total;
				4365	}
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	4366	EXPORT_SYMBOL_GPL(perf_event_read_value);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4367
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	4368	static int __perf_read_group_add(struct perf_event *leader,
Peter Zijlstra	fa8c269	2015-09-03 20:07:49 -0700	[diff] [blame]	4369	u64 read_format, u64 *values)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4370	{
Peter Zijlstra	fa8c269	2015-09-03 20:07:49 -0700	[diff] [blame]	4371	struct perf_event *sub;
				4372	int n = 1; /* skip @nr */
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	4373	int ret;
Peter Zijlstra	abf4868	2009-11-20 22:19:49 +0100	[diff] [blame]	4374
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	4375	ret = perf_event_read(leader, true);
				4376	if (ret)
				4377	return ret;
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	4378
Peter Zijlstra	fa8c269	2015-09-03 20:07:49 -0700	[diff] [blame]	4379	/*
				4380	* Since we co-schedule groups, {enabled,running} times of siblings
				4381	* will be identical to those of the leader, so we only publish one
				4382	* set.
				4383	*/
				4384	if (read_format & PERF_FORMAT_TOTAL_TIME_ENABLED) {
				4385	values[n++] += leader->total_time_enabled +
				4386	atomic64_read(&leader->child_total_time_enabled);
				4387	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4388
Peter Zijlstra	fa8c269	2015-09-03 20:07:49 -0700	[diff] [blame]	4389	if (read_format & PERF_FORMAT_TOTAL_TIME_RUNNING) {
				4390	values[n++] += leader->total_time_running +
				4391	atomic64_read(&leader->child_total_time_running);
				4392	}
				4393
				4394	/*
				4395	* Write {count,id} tuples for every sibling.
				4396	*/
				4397	values[n++] += perf_event_count(leader);
Peter Zijlstra	abf4868	2009-11-20 22:19:49 +0100	[diff] [blame]	4398	if (read_format & PERF_FORMAT_ID)
				4399	values[n++] = primary_event_id(leader);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4400
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4401	list_for_each_entry(sub, &leader->sibling_list, group_entry) {
Peter Zijlstra	fa8c269	2015-09-03 20:07:49 -0700	[diff] [blame]	4402	values[n++] += perf_event_count(sub);
Peter Zijlstra	abf4868	2009-11-20 22:19:49 +0100	[diff] [blame]	4403	if (read_format & PERF_FORMAT_ID)
				4404	values[n++] = primary_event_id(sub);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4405	}
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	4406
				4407	return 0;
Peter Zijlstra	fa8c269	2015-09-03 20:07:49 -0700	[diff] [blame]	4408	}
				4409
				4410	static int perf_read_group(struct perf_event *event,
				4411	u64 read_format, char __user *buf)
				4412	{
				4413	struct perf_event leader = event->group_leader, child;
				4414	struct perf_event_context *ctx = leader->ctx;
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	4415	int ret;
Peter Zijlstra	fa8c269	2015-09-03 20:07:49 -0700	[diff] [blame]	4416	u64 *values;
				4417
				4418	lockdep_assert_held(&ctx->mutex);
				4419
				4420	values = kzalloc(event->read_size, GFP_KERNEL);
				4421	if (!values)
				4422	return -ENOMEM;
				4423
				4424	values[0] = 1 + leader->nr_siblings;
				4425
				4426	/*
				4427	* By locking the child_mutex of the leader we effectively
				4428	* lock the child list of all siblings.. XXX explain how.
				4429	*/
				4430	mutex_lock(&leader->child_mutex);
				4431
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	4432	ret = __perf_read_group_add(leader, read_format, values);
				4433	if (ret)
				4434	goto unlock;
				4435
				4436	list_for_each_entry(child, &leader->child_list, child_list) {
				4437	ret = __perf_read_group_add(child, read_format, values);
				4438	if (ret)
				4439	goto unlock;
				4440	}
Peter Zijlstra	fa8c269	2015-09-03 20:07:49 -0700	[diff] [blame]	4441
				4442	mutex_unlock(&leader->child_mutex);
				4443
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	4444	ret = event->read_size;
Peter Zijlstra	fa8c269	2015-09-03 20:07:49 -0700	[diff] [blame]	4445	if (copy_to_user(buf, values, event->read_size))
				4446	ret = -EFAULT;
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	4447	goto out;
Peter Zijlstra	fa8c269	2015-09-03 20:07:49 -0700	[diff] [blame]	4448
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	4449	unlock:
				4450	mutex_unlock(&leader->child_mutex);
				4451	out:
Peter Zijlstra	fa8c269	2015-09-03 20:07:49 -0700	[diff] [blame]	4452	kfree(values);
Peter Zijlstra	abf4868	2009-11-20 22:19:49 +0100	[diff] [blame]	4453	return ret;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4454	}
				4455
Peter Zijlstra (Intel)	b15f495	2015-09-03 20:07:47 -0700	[diff] [blame]	4456	static int perf_read_one(struct perf_event *event,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4457	u64 read_format, char __user *buf)
				4458	{
Peter Zijlstra	59ed446	2009-11-20 22:19:55 +0100	[diff] [blame]	4459	u64 enabled, running;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4460	u64 values[4];
				4461	int n = 0;
				4462
Peter Zijlstra	59ed446	2009-11-20 22:19:55 +0100	[diff] [blame]	4463	values[n++] = perf_event_read_value(event, &enabled, &running);
				4464	if (read_format & PERF_FORMAT_TOTAL_TIME_ENABLED)
				4465	values[n++] = enabled;
				4466	if (read_format & PERF_FORMAT_TOTAL_TIME_RUNNING)
				4467	values[n++] = running;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4468	if (read_format & PERF_FORMAT_ID)
				4469	values[n++] = primary_event_id(event);
				4470
				4471	if (copy_to_user(buf, values, n * sizeof(u64)))
				4472	return -EFAULT;
				4473
				4474	return n * sizeof(u64);
				4475	}
				4476
Jiri Olsa	dc63398	2014-09-12 13:18:26 +0200	[diff] [blame]	4477	static bool is_event_hup(struct perf_event *event)
				4478	{
				4479	bool no_children;
				4480
Peter Zijlstra	a69b0ca	2016-02-24 18:45:44 +0100	[diff] [blame]	4481	if (event->state > PERF_EVENT_STATE_EXIT)
Jiri Olsa	dc63398	2014-09-12 13:18:26 +0200	[diff] [blame]	4482	return false;
				4483
				4484	mutex_lock(&event->child_mutex);
				4485	no_children = list_empty(&event->child_list);
				4486	mutex_unlock(&event->child_mutex);
				4487	return no_children;
				4488	}
				4489
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4490	/*
				4491	* Read the performance event - simple non blocking version for now
				4492	*/
				4493	static ssize_t
Peter Zijlstra (Intel)	b15f495	2015-09-03 20:07:47 -0700	[diff] [blame]	4494	__perf_read(struct perf_event event, char __user buf, size_t count)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4495	{
				4496	u64 read_format = event->attr.read_format;
				4497	int ret;
				4498
				4499	/*
				4500	* Return end-of-file for a read on a event that is in
				4501	* error state (i.e. because it was pinned but it couldn't be
				4502	* scheduled on to the CPU at some point).
				4503	*/
				4504	if (event->state == PERF_EVENT_STATE_ERROR)
				4505	return 0;
				4506
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	4507	if (count < event->read_size)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4508	return -ENOSPC;
				4509
				4510	WARN_ON_ONCE(event->ctx->parent_ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4511	if (read_format & PERF_FORMAT_GROUP)
Peter Zijlstra (Intel)	b15f495	2015-09-03 20:07:47 -0700	[diff] [blame]	4512	ret = perf_read_group(event, read_format, buf);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4513	else
Peter Zijlstra (Intel)	b15f495	2015-09-03 20:07:47 -0700	[diff] [blame]	4514	ret = perf_read_one(event, read_format, buf);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4515
				4516	return ret;
				4517	}
				4518
				4519	static ssize_t
				4520	perf_read(struct file file, char __user buf, size_t count, loff_t *ppos)
				4521	{
				4522	struct perf_event *event = file->private_data;
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	4523	struct perf_event_context *ctx;
				4524	int ret;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4525
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	4526	ctx = perf_event_ctx_lock(event);
Peter Zijlstra (Intel)	b15f495	2015-09-03 20:07:47 -0700	[diff] [blame]	4527	ret = __perf_read(event, buf, count);
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	4528	perf_event_ctx_unlock(event, ctx);
				4529
				4530	return ret;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4531	}
				4532
				4533	static unsigned int perf_poll(struct file file, poll_table wait)
				4534	{
				4535	struct perf_event *event = file->private_data;
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	4536	struct ring_buffer *rb;
Jiri Olsa	61b6768	2014-08-13 19:39:56 +0200	[diff] [blame]	4537	unsigned int events = POLLHUP;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4538
Sebastian Andrzej Siewior	e708d7a	2014-08-04 15:31:08 +0200	[diff] [blame]	4539	poll_wait(file, &event->waitq, wait);
Jiri Olsa	179033b	2014-08-07 11:48:26 -0400	[diff] [blame]	4540
Jiri Olsa	dc63398	2014-09-12 13:18:26 +0200	[diff] [blame]	4541	if (is_event_hup(event))
Jiri Olsa	179033b	2014-08-07 11:48:26 -0400	[diff] [blame]	4542	return events;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4543
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	4544	/*
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	4545	* Pin the event->rb by taking event->mmap_mutex; otherwise
				4546	* perf_event_set_output() can swizzle our rb and make us miss wakeups.
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	4547	*/
				4548	mutex_lock(&event->mmap_mutex);
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	4549	rb = event->rb;
				4550	if (rb)
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	4551	events = atomic_xchg(&rb->poll, 0);
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	4552	mutex_unlock(&event->mmap_mutex);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4553	return events;
				4554	}
				4555
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	4556	static void _perf_event_reset(struct perf_event *event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4557	{
Sukadev Bhattiprolu	7d88962	2015-09-03 20:07:50 -0700	[diff] [blame]	4558	(void)perf_event_read(event, false);
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	4559	local64_set(&event->count, 0);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4560	perf_event_update_userpage(event);
				4561	}
				4562
				4563	/*
				4564	* Holding the top-level event's child_mutex means that any
				4565	* descendant process that has inherited this event will block
Peter Zijlstra	8ba289b	2016-01-26 13:06:56 +0100	[diff] [blame]	4566	* in perf_event_exit_event() if it goes to exit, thus satisfying the
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4567	* task existence requirements of perf_event_enable/disable.
				4568	*/
				4569	static void perf_event_for_each_child(struct perf_event *event,
				4570	void (func)(struct perf_event ))
				4571	{
				4572	struct perf_event *child;
				4573
				4574	WARN_ON_ONCE(event->ctx->parent_ctx);
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	4575
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4576	mutex_lock(&event->child_mutex);
				4577	func(event);
				4578	list_for_each_entry(child, &event->child_list, child_list)
				4579	func(child);
				4580	mutex_unlock(&event->child_mutex);
				4581	}
				4582
				4583	static void perf_event_for_each(struct perf_event *event,
				4584	void (func)(struct perf_event ))
				4585	{
				4586	struct perf_event_context *ctx = event->ctx;
				4587	struct perf_event *sibling;
				4588
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	4589	lockdep_assert_held(&ctx->mutex);
				4590
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4591	event = event->group_leader;
				4592
				4593	perf_event_for_each_child(event, func);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4594	list_for_each_entry(sibling, &event->sibling_list, group_entry)
Michael Ellerman	724b6da	2012-04-11 11:54:13 +1000	[diff] [blame]	4595	perf_event_for_each_child(sibling, func);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4596	}
				4597
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	4598	static void __perf_event_period(struct perf_event *event,
				4599	struct perf_cpu_context *cpuctx,
				4600	struct perf_event_context *ctx,
				4601	void *info)
Peter Zijlstra	0017960	2015-11-30 16:26:35 +0100	[diff] [blame]	4602	{
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	4603	u64 value = ((u64 )info);
Peter Zijlstra	c7999c6	2015-08-04 19:22:49 +0200	[diff] [blame]	4604	bool active;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4605
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4606	if (event->attr.freq) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4607	event->attr.sample_freq = value;
				4608	} else {
				4609	event->attr.sample_period = value;
				4610	event->hw.sample_period = value;
				4611	}
Peter Zijlstra	bad7192	2013-11-27 13:54:38 +0000	[diff] [blame]	4612
				4613	active = (event->state == PERF_EVENT_STATE_ACTIVE);
				4614	if (active) {
				4615	perf_pmu_disable(ctx->pmu);
Peter Zijlstra	1e02cd4	2016-03-10 15:39:24 +0100	[diff] [blame]	4616	/*
				4617	* We could be throttled; unthrottle now to avoid the tick
				4618	* trying to unthrottle while we already re-started the event.
				4619	*/
				4620	if (event->hw.interrupts == MAX_INTERRUPTS) {
				4621	event->hw.interrupts = 0;
				4622	perf_log_throttle(event, 1);
				4623	}
Peter Zijlstra	bad7192	2013-11-27 13:54:38 +0000	[diff] [blame]	4624	event->pmu->stop(event, PERF_EF_UPDATE);
				4625	}
				4626
				4627	local64_set(&event->hw.period_left, 0);
				4628
				4629	if (active) {
				4630	event->pmu->start(event, PERF_EF_RELOAD);
				4631	perf_pmu_enable(ctx->pmu);
				4632	}
Peter Zijlstra	c7999c6	2015-08-04 19:22:49 +0200	[diff] [blame]	4633	}
				4634
				4635	static int perf_event_period(struct perf_event event, u64 __user arg)
				4636	{
Peter Zijlstra	c7999c6	2015-08-04 19:22:49 +0200	[diff] [blame]	4637	u64 value;
				4638
				4639	if (!is_sampling_event(event))
				4640	return -EINVAL;
				4641
				4642	if (copy_from_user(&value, arg, sizeof(value)))
				4643	return -EFAULT;
				4644
				4645	if (!value)
				4646	return -EINVAL;
				4647
				4648	if (event->attr.freq && value > sysctl_perf_event_sample_rate)
				4649	return -EINVAL;
				4650
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	4651	event_function_call(event, __perf_event_period, &value);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4652
Peter Zijlstra	c7999c6	2015-08-04 19:22:49 +0200	[diff] [blame]	4653	return 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4654	}
				4655
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	4656	static const struct file_operations perf_fops;
				4657
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	4658	static inline int perf_fget_light(int fd, struct fd *p)
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	4659	{
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	4660	struct fd f = fdget(fd);
				4661	if (!f.file)
				4662	return -EBADF;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	4663
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	4664	if (f.file->f_op != &perf_fops) {
				4665	fdput(f);
				4666	return -EBADF;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	4667	}
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	4668	*p = f;
				4669	return 0;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	4670	}
				4671
				4672	static int perf_event_set_output(struct perf_event *event,
				4673	struct perf_event *output_event);
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	4674	static int perf_event_set_filter(struct perf_event event, void __user arg);
Alexei Starovoitov	2541517	2015-03-25 12:49:20 -0700	[diff] [blame]	4675	static int perf_event_set_bpf_prog(struct perf_event *event, u32 prog_fd);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4676
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	4677	static long _perf_ioctl(struct perf_event *event, unsigned int cmd, unsigned long arg)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4678	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4679	void (func)(struct perf_event );
				4680	u32 flags = arg;
				4681
				4682	switch (cmd) {
				4683	case PERF_EVENT_IOC_ENABLE:
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	4684	func = _perf_event_enable;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4685	break;
				4686	case PERF_EVENT_IOC_DISABLE:
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	4687	func = _perf_event_disable;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4688	break;
				4689	case PERF_EVENT_IOC_RESET:
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	4690	func = _perf_event_reset;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4691	break;
				4692
				4693	case PERF_EVENT_IOC_REFRESH:
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	4694	return _perf_event_refresh(event, arg);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4695
				4696	case PERF_EVENT_IOC_PERIOD:
				4697	return perf_event_period(event, (u64 __user *)arg);
				4698
Jiri Olsa	cf4957f	2012-10-24 13:37:58 +0200	[diff] [blame]	4699	case PERF_EVENT_IOC_ID:
				4700	{
				4701	u64 id = primary_event_id(event);
				4702
				4703	if (copy_to_user((void __user *)arg, &id, sizeof(id)))
				4704	return -EFAULT;
				4705	return 0;
				4706	}
				4707
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4708	case PERF_EVENT_IOC_SET_OUTPUT:
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	4709	{
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	4710	int ret;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	4711	if (arg != -1) {
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	4712	struct perf_event *output_event;
				4713	struct fd output;
				4714	ret = perf_fget_light(arg, &output);
				4715	if (ret)
				4716	return ret;
				4717	output_event = output.file->private_data;
				4718	ret = perf_event_set_output(event, output_event);
				4719	fdput(output);
				4720	} else {
				4721	ret = perf_event_set_output(event, NULL);
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	4722	}
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	4723	return ret;
				4724	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4725
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	4726	case PERF_EVENT_IOC_SET_FILTER:
				4727	return perf_event_set_filter(event, (void __user *)arg);
				4728
Alexei Starovoitov	2541517	2015-03-25 12:49:20 -0700	[diff] [blame]	4729	case PERF_EVENT_IOC_SET_BPF:
				4730	return perf_event_set_bpf_prog(event, arg);
				4731
Wang Nan	86e7972	2016-03-28 06:41:29 +0000	[diff] [blame]	4732	case PERF_EVENT_IOC_PAUSE_OUTPUT: {
				4733	struct ring_buffer *rb;
				4734
				4735	rcu_read_lock();
				4736	rb = rcu_dereference(event->rb);
				4737	if (!rb \|\| !rb->nr_pages) {
				4738	rcu_read_unlock();
				4739	return -EINVAL;
				4740	}
				4741	rb_toggle_paused(rb, !!arg);
				4742	rcu_read_unlock();
				4743	return 0;
				4744	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4745	default:
				4746	return -ENOTTY;
				4747	}
				4748
				4749	if (flags & PERF_IOC_FLAG_GROUP)
				4750	perf_event_for_each(event, func);
				4751	else
				4752	perf_event_for_each_child(event, func);
				4753
				4754	return 0;
				4755	}
				4756
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	4757	static long perf_ioctl(struct file *file, unsigned int cmd, unsigned long arg)
				4758	{
				4759	struct perf_event *event = file->private_data;
				4760	struct perf_event_context *ctx;
				4761	long ret;
				4762
				4763	ctx = perf_event_ctx_lock(event);
				4764	ret = _perf_ioctl(event, cmd, arg);
				4765	perf_event_ctx_unlock(event, ctx);
				4766
				4767	return ret;
				4768	}
				4769
Pawel Moll	b3f2078	2014-06-13 16:03:32 +0100	[diff] [blame]	4770	#ifdef CONFIG_COMPAT
				4771	static long perf_compat_ioctl(struct file *file, unsigned int cmd,
				4772	unsigned long arg)
				4773	{
				4774	switch (_IOC_NR(cmd)) {
				4775	case _IOC_NR(PERF_EVENT_IOC_SET_FILTER):
				4776	case _IOC_NR(PERF_EVENT_IOC_ID):
				4777	/* Fix up pointer size (usually 4 -> 8 in 32-on-64-bit case */
				4778	if (_IOC_SIZE(cmd) == sizeof(compat_uptr_t)) {
				4779	cmd &= ~IOCSIZE_MASK;
				4780	cmd \|= sizeof(void *) << IOCSIZE_SHIFT;
				4781	}
				4782	break;
				4783	}
				4784	return perf_ioctl(file, cmd, arg);
				4785	}
				4786	#else
				4787	# define perf_compat_ioctl NULL
				4788	#endif
				4789
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4790	int perf_event_task_enable(void)
				4791	{
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	4792	struct perf_event_context *ctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4793	struct perf_event *event;
				4794
				4795	mutex_lock(&current->perf_event_mutex);
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	4796	list_for_each_entry(event, &current->perf_event_list, owner_entry) {
				4797	ctx = perf_event_ctx_lock(event);
				4798	perf_event_for_each_child(event, _perf_event_enable);
				4799	perf_event_ctx_unlock(event, ctx);
				4800	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4801	mutex_unlock(&current->perf_event_mutex);
				4802
				4803	return 0;
				4804	}
				4805
				4806	int perf_event_task_disable(void)
				4807	{
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	4808	struct perf_event_context *ctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4809	struct perf_event *event;
				4810
				4811	mutex_lock(&current->perf_event_mutex);
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	4812	list_for_each_entry(event, &current->perf_event_list, owner_entry) {
				4813	ctx = perf_event_ctx_lock(event);
				4814	perf_event_for_each_child(event, _perf_event_disable);
				4815	perf_event_ctx_unlock(event, ctx);
				4816	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4817	mutex_unlock(&current->perf_event_mutex);
				4818
				4819	return 0;
				4820	}
				4821
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4822	static int perf_event_index(struct perf_event *event)
				4823	{
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	4824	if (event->hw.state & PERF_HES_STOPPED)
				4825	return 0;
				4826
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4827	if (event->state != PERF_EVENT_STATE_ACTIVE)
				4828	return 0;
				4829
Peter Zijlstra	35edc2a	2011-11-20 20:36:02 +0100	[diff] [blame]	4830	return event->pmu->event_idx(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4831	}
				4832
Eric B Munson	c479429	2011-06-23 16:34:38 -0400	[diff] [blame]	4833	static void calc_timer_values(struct perf_event *event,
Peter Zijlstra	e3f3541	2011-11-21 11:43:53 +0100	[diff] [blame]	4834	u64 *now,
Eric B Munson	7f310a5	2011-06-23 16:34:38 -0400	[diff] [blame]	4835	u64 *enabled,
				4836	u64 *running)
Eric B Munson	c479429	2011-06-23 16:34:38 -0400	[diff] [blame]	4837	{
Peter Zijlstra	e3f3541	2011-11-21 11:43:53 +0100	[diff] [blame]	4838	u64 ctx_time;
Eric B Munson	c479429	2011-06-23 16:34:38 -0400	[diff] [blame]	4839
Peter Zijlstra	e3f3541	2011-11-21 11:43:53 +0100	[diff] [blame]	4840	*now = perf_clock();
				4841	ctx_time = event->shadow_ctx_time + *now;
Eric B Munson	c479429	2011-06-23 16:34:38 -0400	[diff] [blame]	4842	*enabled = ctx_time - event->tstamp_enabled;
				4843	*running = ctx_time - event->tstamp_running;
				4844	}
				4845
Peter Zijlstra	fa731587	2013-09-19 10:16:42 +0200	[diff] [blame]	4846	static void perf_event_init_userpage(struct perf_event *event)
				4847	{
				4848	struct perf_event_mmap_page *userpg;
				4849	struct ring_buffer *rb;
				4850
				4851	rcu_read_lock();
				4852	rb = rcu_dereference(event->rb);
				4853	if (!rb)
				4854	goto unlock;
				4855
				4856	userpg = rb->user_page;
				4857
				4858	/* Allow new userspace to detect that bit 0 is deprecated */
				4859	userpg->cap_bit0_is_deprecated = 1;
				4860	userpg->size = offsetof(struct perf_event_mmap_page, __reserved);
Alexander Shishkin	e8c6dea	2015-01-14 14:18:10 +0200	[diff] [blame]	4861	userpg->data_offset = PAGE_SIZE;
				4862	userpg->data_size = perf_data_size(rb);
Peter Zijlstra	fa731587	2013-09-19 10:16:42 +0200	[diff] [blame]	4863
				4864	unlock:
				4865	rcu_read_unlock();
				4866	}
				4867
Andy Lutomirski	c1317ec	2014-10-24 15:58:11 -0700	[diff] [blame]	4868	void __weak arch_perf_update_userpage(
				4869	struct perf_event event, struct perf_event_mmap_page userpg, u64 now)
Peter Zijlstra	e3f3541	2011-11-21 11:43:53 +0100	[diff] [blame]	4870	{
				4871	}
				4872
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4873	/*
				4874	* Callers need to ensure there can be no nesting of this function, otherwise
				4875	* the seqlock logic goes bad. We can not serialize this because the arch
				4876	* code calls this from NMI context.
				4877	*/
				4878	void perf_event_update_userpage(struct perf_event *event)
				4879	{
				4880	struct perf_event_mmap_page *userpg;
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	4881	struct ring_buffer *rb;
Peter Zijlstra	e3f3541	2011-11-21 11:43:53 +0100	[diff] [blame]	4882	u64 enabled, running, now;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4883
				4884	rcu_read_lock();
Peter Zijlstra	5ec4c59	2013-08-02 21:16:30 +0200	[diff] [blame]	4885	rb = rcu_dereference(event->rb);
				4886	if (!rb)
				4887	goto unlock;
				4888
Eric B Munson	0d64120	2011-06-24 12:26:26 -0400	[diff] [blame]	4889	/*
				4890	* compute total_time_enabled, total_time_running
				4891	* based on snapshot values taken when the event
				4892	* was last scheduled in.
				4893	*
				4894	* we cannot simply called update_context_time()
				4895	* because of locking issue as we can be called in
				4896	* NMI context
				4897	*/
Peter Zijlstra	e3f3541	2011-11-21 11:43:53 +0100	[diff] [blame]	4898	calc_timer_values(event, &now, &enabled, &running);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4899
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	4900	userpg = rb->user_page;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4901	/*
				4902	* Disable preemption so as to not let the corresponding user-space
				4903	* spin too long if we get preempted.
				4904	*/
				4905	preempt_disable();
				4906	++userpg->lock;
				4907	barrier();
				4908	userpg->index = perf_event_index(event);
Peter Zijlstra	b5e5879	2010-05-21 14:43:12 +0200	[diff] [blame]	4909	userpg->offset = perf_event_count(event);
Peter Zijlstra	365a403	2011-11-21 20:58:59 +0100	[diff] [blame]	4910	if (userpg->index)
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	4911	userpg->offset -= local64_read(&event->hw.prev_count);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4912
Eric B Munson	0d64120	2011-06-24 12:26:26 -0400	[diff] [blame]	4913	userpg->time_enabled = enabled +
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4914	atomic64_read(&event->child_total_time_enabled);
				4915
Eric B Munson	0d64120	2011-06-24 12:26:26 -0400	[diff] [blame]	4916	userpg->time_running = running +
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4917	atomic64_read(&event->child_total_time_running);
				4918
Andy Lutomirski	c1317ec	2014-10-24 15:58:11 -0700	[diff] [blame]	4919	arch_perf_update_userpage(event, userpg, now);
Peter Zijlstra	e3f3541	2011-11-21 11:43:53 +0100	[diff] [blame]	4920
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4921	barrier();
				4922	++userpg->lock;
				4923	preempt_enable();
				4924	unlock:
				4925	rcu_read_unlock();
				4926	}
				4927
Dave Jiang	11bac80	2017-02-24 14:56:41 -0800	[diff] [blame^]	4928	static int perf_mmap_fault(struct vm_fault *vmf)
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	4929	{
Dave Jiang	11bac80	2017-02-24 14:56:41 -0800	[diff] [blame^]	4930	struct perf_event *event = vmf->vma->vm_file->private_data;
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	4931	struct ring_buffer *rb;
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	4932	int ret = VM_FAULT_SIGBUS;
				4933
				4934	if (vmf->flags & FAULT_FLAG_MKWRITE) {
				4935	if (vmf->pgoff == 0)
				4936	ret = 0;
				4937	return ret;
				4938	}
				4939
				4940	rcu_read_lock();
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	4941	rb = rcu_dereference(event->rb);
				4942	if (!rb)
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	4943	goto unlock;
				4944
				4945	if (vmf->pgoff && (vmf->flags & FAULT_FLAG_WRITE))
				4946	goto unlock;
				4947
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	4948	vmf->page = perf_mmap_to_page(rb, vmf->pgoff);
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	4949	if (!vmf->page)
				4950	goto unlock;
				4951
				4952	get_page(vmf->page);
Dave Jiang	11bac80	2017-02-24 14:56:41 -0800	[diff] [blame^]	4953	vmf->page->mapping = vmf->vma->vm_file->f_mapping;
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	4954	vmf->page->index = vmf->pgoff;
				4955
				4956	ret = 0;
				4957	unlock:
				4958	rcu_read_unlock();
				4959
				4960	return ret;
				4961	}
				4962
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	4963	static void ring_buffer_attach(struct perf_event *event,
				4964	struct ring_buffer *rb)
				4965	{
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	4966	struct ring_buffer *old_rb = NULL;
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	4967	unsigned long flags;
				4968
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	4969	if (event->rb) {
				4970	/*
				4971	* Should be impossible, we set this when removing
				4972	* event->rb_entry and wait/clear when adding event->rb_entry.
				4973	*/
				4974	WARN_ON_ONCE(event->rcu_pending);
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	4975
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	4976	old_rb = event->rb;
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	4977	spin_lock_irqsave(&old_rb->event_lock, flags);
				4978	list_del_rcu(&event->rb_entry);
				4979	spin_unlock_irqrestore(&old_rb->event_lock, flags);
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	4980
Oleg Nesterov	2f993cf	2015-05-30 22:04:25 +0200	[diff] [blame]	4981	event->rcu_batches = get_state_synchronize_rcu();
				4982	event->rcu_pending = 1;
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	4983	}
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	4984
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	4985	if (rb) {
Oleg Nesterov	2f993cf	2015-05-30 22:04:25 +0200	[diff] [blame]	4986	if (event->rcu_pending) {
				4987	cond_synchronize_rcu(event->rcu_batches);
				4988	event->rcu_pending = 0;
				4989	}
				4990
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	4991	spin_lock_irqsave(&rb->event_lock, flags);
				4992	list_add_rcu(&event->rb_entry, &rb->event_list);
				4993	spin_unlock_irqrestore(&rb->event_lock, flags);
				4994	}
				4995
Alexander Shishkin	767ae08	2016-09-06 16:23:49 +0300	[diff] [blame]	4996	/*
				4997	* Avoid racing with perf_mmap_close(AUX): stop the event
				4998	* before swizzling the event::rb pointer; if it's getting
				4999	* unmapped, its aux_mmap_count will be 0 and it won't
				5000	* restart. See the comment in __perf_pmu_output_stop().
				5001	*
				5002	* Data will inevitably be lost when set_output is done in
				5003	* mid-air, but then again, whoever does it like this is
				5004	* not in for the data anyway.
				5005	*/
				5006	if (has_aux(event))
				5007	perf_event_stop(event, 0);
				5008
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	5009	rcu_assign_pointer(event->rb, rb);
				5010
				5011	if (old_rb) {
				5012	ring_buffer_put(old_rb);
				5013	/*
				5014	* Since we detached before setting the new rb, so that we
				5015	* could attach the new rb, we could have missed a wakeup.
				5016	* Provide it now.
				5017	*/
				5018	wake_up_all(&event->waitq);
				5019	}
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	5020	}
				5021
				5022	static void ring_buffer_wakeup(struct perf_event *event)
				5023	{
				5024	struct ring_buffer *rb;
				5025
				5026	rcu_read_lock();
				5027	rb = rcu_dereference(event->rb);
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	5028	if (rb) {
				5029	list_for_each_entry_rcu(event, &rb->event_list, rb_entry)
				5030	wake_up_all(&event->waitq);
				5031	}
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	5032	rcu_read_unlock();
				5033	}
				5034
Alexander Shishkin	fdc2670	2015-01-14 14:18:16 +0200	[diff] [blame]	5035	struct ring_buffer ring_buffer_get(struct perf_event event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5036	{
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	5037	struct ring_buffer *rb;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5038
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5039	rcu_read_lock();
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	5040	rb = rcu_dereference(event->rb);
				5041	if (rb) {
				5042	if (!atomic_inc_not_zero(&rb->refcount))
				5043	rb = NULL;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5044	}
				5045	rcu_read_unlock();
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5046
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	5047	return rb;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5048	}
				5049
Alexander Shishkin	fdc2670	2015-01-14 14:18:16 +0200	[diff] [blame]	5050	void ring_buffer_put(struct ring_buffer *rb)
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5051	{
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	5052	if (!atomic_dec_and_test(&rb->refcount))
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5053	return;
				5054
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	5055	WARN_ON_ONCE(!list_empty(&rb->event_list));
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	5056
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	5057	call_rcu(&rb->rcu_head, rb_free_rcu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5058	}
				5059
				5060	static void perf_mmap_open(struct vm_area_struct *vma)
				5061	{
				5062	struct perf_event *event = vma->vm_file->private_data;
				5063
				5064	atomic_inc(&event->mmap_count);
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	5065	atomic_inc(&event->rb->mmap_count);
Andy Lutomirski	1e0fb9e	2014-10-24 15:58:10 -0700	[diff] [blame]	5066
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	5067	if (vma->vm_pgoff)
				5068	atomic_inc(&event->rb->aux_mmap_count);
				5069
Andy Lutomirski	1e0fb9e	2014-10-24 15:58:10 -0700	[diff] [blame]	5070	if (event->pmu->event_mapped)
				5071	event->pmu->event_mapped(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5072	}
				5073
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	5074	static void perf_pmu_output_stop(struct perf_event *event);
				5075
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	5076	/*
				5077	* A buffer can be mmap()ed multiple times; either directly through the same
				5078	* event, or through other events by use of perf_event_set_output().
				5079	*
				5080	* In order to undo the VM accounting done by perf_mmap() we need to destroy
				5081	* the buffer here, where we still have a VM context. This means we need
				5082	* to detach all events redirecting to us.
				5083	*/
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5084	static void perf_mmap_close(struct vm_area_struct *vma)
				5085	{
				5086	struct perf_event *event = vma->vm_file->private_data;
				5087
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	5088	struct ring_buffer *rb = ring_buffer_get(event);
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	5089	struct user_struct *mmap_user = rb->mmap_user;
				5090	int mmap_locked = rb->mmap_locked;
				5091	unsigned long size = perf_data_size(rb);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5092
Andy Lutomirski	1e0fb9e	2014-10-24 15:58:10 -0700	[diff] [blame]	5093	if (event->pmu->event_unmapped)
				5094	event->pmu->event_unmapped(event);
				5095
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	5096	/*
				5097	* rb->aux_mmap_count will always drop before rb->mmap_count and
				5098	* event->mmap_count, so it is ok to use event->mmap_mutex to
				5099	* serialize with perf_mmap here.
				5100	*/
				5101	if (rb_has_aux(rb) && vma->vm_pgoff == rb->aux_pgoff &&
				5102	atomic_dec_and_mutex_lock(&rb->aux_mmap_count, &event->mmap_mutex)) {
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	5103	/*
				5104	* Stop all AUX events that are writing to this buffer,
				5105	* so that we can free its AUX pages and corresponding PMU
				5106	* data. Note that after rb::aux_mmap_count dropped to zero,
				5107	* they won't start any more (see perf_aux_output_begin()).
				5108	*/
				5109	perf_pmu_output_stop(event);
				5110
				5111	/* now it's safe to free the pages */
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	5112	atomic_long_sub(rb->aux_nr_pages, &mmap_user->locked_vm);
				5113	vma->vm_mm->pinned_vm -= rb->aux_mmap_locked;
				5114
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	5115	/* this has to be the last one */
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	5116	rb_free_aux(rb);
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	5117	WARN_ON_ONCE(atomic_read(&rb->aux_refcount));
				5118
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	5119	mutex_unlock(&event->mmap_mutex);
				5120	}
				5121
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	5122	atomic_dec(&rb->mmap_count);
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5123
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	5124	if (!atomic_dec_and_mutex_lock(&event->mmap_count, &event->mmap_mutex))
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	5125	goto out_put;
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	5126
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	5127	ring_buffer_attach(event, NULL);
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	5128	mutex_unlock(&event->mmap_mutex);
				5129
				5130	/* If there's still other mmap()s of this buffer, we're done. */
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	5131	if (atomic_read(&rb->mmap_count))
				5132	goto out_put;
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	5133
				5134	/*
				5135	* No other mmap()s, detach from all other events that might redirect
				5136	* into the now unreachable buffer. Somewhat complicated by the
				5137	* fact that rb::event_lock otherwise nests inside mmap_mutex.
				5138	*/
				5139	again:
				5140	rcu_read_lock();
				5141	list_for_each_entry_rcu(event, &rb->event_list, rb_entry) {
				5142	if (!atomic_long_inc_not_zero(&event->refcount)) {
				5143	/*
				5144	* This event is en-route to free_event() which will
				5145	* detach it and remove it from the list.
				5146	*/
				5147	continue;
				5148	}
				5149	rcu_read_unlock();
				5150
				5151	mutex_lock(&event->mmap_mutex);
				5152	/*
				5153	* Check we didn't race with perf_event_set_output() which can
				5154	* swizzle the rb from under us while we were waiting to
				5155	* acquire mmap_mutex.
				5156	*
				5157	* If we find a different rb; ignore this event, a next
				5158	* iteration will no longer find it on the list. We have to
				5159	* still restart the iteration to make sure we're not now
				5160	* iterating the wrong list.
				5161	*/
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	5162	if (event->rb == rb)
				5163	ring_buffer_attach(event, NULL);
				5164
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	5165	mutex_unlock(&event->mmap_mutex);
				5166	put_event(event);
				5167
				5168	/*
				5169	* Restart the iteration; either we're on the wrong list or
				5170	* destroyed its integrity by doing a deletion.
				5171	*/
				5172	goto again;
				5173	}
				5174	rcu_read_unlock();
				5175
				5176	/*
				5177	* It could be there's still a few 0-ref events on the list; they'll
				5178	* get cleaned up by free_event() -- they'll also still have their
				5179	* ref on the rb and will free it whenever they are done with it.
				5180	*
				5181	* Aside from that, this buffer is 'fully' detached and unmapped,
				5182	* undo the VM accounting.
				5183	*/
				5184
				5185	atomic_long_sub((size >> PAGE_SHIFT) + 1, &mmap_user->locked_vm);
				5186	vma->vm_mm->pinned_vm -= mmap_locked;
				5187	free_uid(mmap_user);
				5188
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	5189	out_put:
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	5190	ring_buffer_put(rb); /* could be last */
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5191	}
				5192
Alexey Dobriyan	f0f37e2f	2009-09-27 22:29:37 +0400	[diff] [blame]	5193	static const struct vm_operations_struct perf_mmap_vmops = {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5194	.open = perf_mmap_open,
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	5195	.close = perf_mmap_close, /* non mergable */
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5196	.fault = perf_mmap_fault,
				5197	.page_mkwrite = perf_mmap_fault,
				5198	};
				5199
				5200	static int perf_mmap(struct file file, struct vm_area_struct vma)
				5201	{
				5202	struct perf_event *event = file->private_data;
				5203	unsigned long user_locked, user_lock_limit;
				5204	struct user_struct *user = current_user();
				5205	unsigned long locked, lock_limit;
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	5206	struct ring_buffer *rb = NULL;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5207	unsigned long vma_size;
				5208	unsigned long nr_pages;
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	5209	long user_extra = 0, extra = 0;
Peter Zijlstra	d57e34f	2010-05-28 19:41:35 +0200	[diff] [blame]	5210	int ret = 0, flags = 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5211
Peter Zijlstra	c792061	2010-05-18 10:33:24 +0200	[diff] [blame]	5212	/*
				5213	* Don't allow mmap() of inherited per-task counters. This would
				5214	* create a performance issue due to all children writing to the
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	5215	* same rb.
Peter Zijlstra	c792061	2010-05-18 10:33:24 +0200	[diff] [blame]	5216	*/
				5217	if (event->cpu == -1 && event->attr.inherit)
				5218	return -EINVAL;
				5219
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5220	if (!(vma->vm_flags & VM_SHARED))
				5221	return -EINVAL;
				5222
				5223	vma_size = vma->vm_end - vma->vm_start;
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	5224
				5225	if (vma->vm_pgoff == 0) {
				5226	nr_pages = (vma_size / PAGE_SIZE) - 1;
				5227	} else {
				5228	/*
				5229	* AUX area mapping: if rb->aux_nr_pages != 0, it's already
				5230	* mapped, all subsequent mappings should have the same size
				5231	* and offset. Must be above the normal perf buffer.
				5232	*/
				5233	u64 aux_offset, aux_size;
				5234
				5235	if (!event->rb)
				5236	return -EINVAL;
				5237
				5238	nr_pages = vma_size / PAGE_SIZE;
				5239
				5240	mutex_lock(&event->mmap_mutex);
				5241	ret = -EINVAL;
				5242
				5243	rb = event->rb;
				5244	if (!rb)
				5245	goto aux_unlock;
				5246
				5247	aux_offset = ACCESS_ONCE(rb->user_page->aux_offset);
				5248	aux_size = ACCESS_ONCE(rb->user_page->aux_size);
				5249
				5250	if (aux_offset < perf_data_size(rb) + PAGE_SIZE)
				5251	goto aux_unlock;
				5252
				5253	if (aux_offset != vma->vm_pgoff << PAGE_SHIFT)
				5254	goto aux_unlock;
				5255
				5256	/* already mapped with a different offset */
				5257	if (rb_has_aux(rb) && rb->aux_pgoff != vma->vm_pgoff)
				5258	goto aux_unlock;
				5259
				5260	if (aux_size != vma_size \|\| aux_size != nr_pages * PAGE_SIZE)
				5261	goto aux_unlock;
				5262
				5263	/* already mapped with a different size */
				5264	if (rb_has_aux(rb) && rb->aux_nr_pages != nr_pages)
				5265	goto aux_unlock;
				5266
				5267	if (!is_power_of_2(nr_pages))
				5268	goto aux_unlock;
				5269
				5270	if (!atomic_inc_not_zero(&rb->mmap_count))
				5271	goto aux_unlock;
				5272
				5273	if (rb_has_aux(rb)) {
				5274	atomic_inc(&rb->aux_mmap_count);
				5275	ret = 0;
				5276	goto unlock;
				5277	}
				5278
				5279	atomic_set(&rb->aux_mmap_count, 1);
				5280	user_extra = nr_pages;
				5281
				5282	goto accounting;
				5283	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5284
				5285	/*
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	5286	* If we have rb pages ensure they're a power-of-two number, so we
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5287	* can do bitmasks instead of modulo.
				5288	*/
Kan Liang	2ed1131	2015-03-02 02:14:26 -0500	[diff] [blame]	5289	if (nr_pages != 0 && !is_power_of_2(nr_pages))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5290	return -EINVAL;
				5291
				5292	if (vma_size != PAGE_SIZE * (1 + nr_pages))
				5293	return -EINVAL;
				5294
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5295	WARN_ON_ONCE(event->ctx->parent_ctx);
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	5296	again:
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5297	mutex_lock(&event->mmap_mutex);
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	5298	if (event->rb) {
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	5299	if (event->rb->nr_pages != nr_pages) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5300	ret = -EINVAL;
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	5301	goto unlock;
				5302	}
				5303
				5304	if (!atomic_inc_not_zero(&event->rb->mmap_count)) {
				5305	/*
				5306	* Raced against perf_mmap_close() through
				5307	* perf_event_set_output(). Try again, hope for better
				5308	* luck.
				5309	*/
				5310	mutex_unlock(&event->mmap_mutex);
				5311	goto again;
				5312	}
				5313
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5314	goto unlock;
				5315	}
				5316
				5317	user_extra = nr_pages + 1;
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	5318
				5319	accounting:
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5320	user_lock_limit = sysctl_perf_event_mlock >> (PAGE_SHIFT - 10);
				5321
				5322	/*
				5323	* Increase the limit linearly with more CPUs:
				5324	*/
				5325	user_lock_limit *= num_online_cpus();
				5326
				5327	user_locked = atomic_long_read(&user->locked_vm) + user_extra;
				5328
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5329	if (user_locked > user_lock_limit)
				5330	extra = user_locked - user_lock_limit;
				5331
Jiri Slaby	78d7d40	2010-03-05 13:42:54 -0800	[diff] [blame]	5332	lock_limit = rlimit(RLIMIT_MEMLOCK);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5333	lock_limit >>= PAGE_SHIFT;
Christoph Lameter	bc3e53f	2011-10-31 17:07:30 -0700	[diff] [blame]	5334	locked = vma->vm_mm->pinned_vm + extra;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5335
				5336	if ((locked > lock_limit) && perf_paranoid_tracepoint_raw() &&
				5337	!capable(CAP_IPC_LOCK)) {
				5338	ret = -EPERM;
				5339	goto unlock;
				5340	}
				5341
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	5342	WARN_ON(!rb && event->rb);
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	5343
Peter Zijlstra	d57e34f	2010-05-28 19:41:35 +0200	[diff] [blame]	5344	if (vma->vm_flags & VM_WRITE)
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	5345	flags \|= RING_BUFFER_WRITABLE;
Peter Zijlstra	d57e34f	2010-05-28 19:41:35 +0200	[diff] [blame]	5346
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	5347	if (!rb) {
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	5348	rb = rb_alloc(nr_pages,
				5349	event->attr.watermark ? event->attr.wakeup_watermark : 0,
				5350	event->cpu, flags);
				5351
				5352	if (!rb) {
				5353	ret = -ENOMEM;
				5354	goto unlock;
				5355	}
				5356
				5357	atomic_set(&rb->mmap_count, 1);
				5358	rb->mmap_user = get_current_user();
				5359	rb->mmap_locked = extra;
				5360
				5361	ring_buffer_attach(event, rb);
				5362
				5363	perf_event_init_userpage(event);
				5364	perf_event_update_userpage(event);
				5365	} else {
Alexander Shishkin	1a59413	2015-01-14 14:18:18 +0200	[diff] [blame]	5366	ret = rb_alloc_aux(rb, event, vma->vm_pgoff, nr_pages,
				5367	event->attr.aux_watermark, flags);
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	5368	if (!ret)
				5369	rb->aux_mmap_locked = extra;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5370	}
Peter Zijlstra	26cb63a	2013-05-28 10:55:48 +0200	[diff] [blame]	5371
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5372	unlock:
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	5373	if (!ret) {
				5374	atomic_long_add(user_extra, &user->locked_vm);
				5375	vma->vm_mm->pinned_vm += extra;
				5376
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5377	atomic_inc(&event->mmap_count);
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	5378	} else if (rb) {
				5379	atomic_dec(&rb->mmap_count);
				5380	}
				5381	aux_unlock:
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5382	mutex_unlock(&event->mmap_mutex);
				5383
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	5384	/*
				5385	* Since pinned accounting is per vm we cannot allow fork() to copy our
				5386	* vma.
				5387	*/
Peter Zijlstra	26cb63a	2013-05-28 10:55:48 +0200	[diff] [blame]	5388	vma->vm_flags \|= VM_DONTCOPY \| VM_DONTEXPAND \| VM_DONTDUMP;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5389	vma->vm_ops = &perf_mmap_vmops;
				5390
Andy Lutomirski	1e0fb9e	2014-10-24 15:58:10 -0700	[diff] [blame]	5391	if (event->pmu->event_mapped)
				5392	event->pmu->event_mapped(event);
				5393
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5394	return ret;
				5395	}
				5396
				5397	static int perf_fasync(int fd, struct file *filp, int on)
				5398	{
Al Viro	496ad9a	2013-01-23 17:07:38 -0500	[diff] [blame]	5399	struct inode *inode = file_inode(filp);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5400	struct perf_event *event = filp->private_data;
				5401	int retval;
				5402
Al Viro	5955102	2016-01-22 15:40:57 -0500	[diff] [blame]	5403	inode_lock(inode);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5404	retval = fasync_helper(fd, filp, on, &event->fasync);
Al Viro	5955102	2016-01-22 15:40:57 -0500	[diff] [blame]	5405	inode_unlock(inode);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5406
				5407	if (retval < 0)
				5408	return retval;
				5409
				5410	return 0;
				5411	}
				5412
				5413	static const struct file_operations perf_fops = {
Arnd Bergmann	3326c1c	2010-03-23 19:09:33 +0100	[diff] [blame]	5414	.llseek = no_llseek,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5415	.release = perf_release,
				5416	.read = perf_read,
				5417	.poll = perf_poll,
				5418	.unlocked_ioctl = perf_ioctl,
Pawel Moll	b3f2078	2014-06-13 16:03:32 +0100	[diff] [blame]	5419	.compat_ioctl = perf_compat_ioctl,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5420	.mmap = perf_mmap,
				5421	.fasync = perf_fasync,
				5422	};
				5423
				5424	/*
				5425	* Perf event wakeup
				5426	*
				5427	* If there's data, ensure we set the poll() state and publish everything
				5428	* to user-space before waking everybody up.
				5429	*/
				5430
Peter Zijlstra	fed66e2cd	2015-06-11 10:32:01 +0200	[diff] [blame]	5431	static inline struct fasync_struct *perf_event_fasync(struct perf_event event)
				5432	{
				5433	/* only the parent has fasync state */
				5434	if (event->parent)
				5435	event = event->parent;
				5436	return &event->fasync;
				5437	}
				5438
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5439	void perf_event_wakeup(struct perf_event *event)
				5440	{
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	5441	ring_buffer_wakeup(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5442
				5443	if (event->pending_kill) {
Peter Zijlstra	fed66e2cd	2015-06-11 10:32:01 +0200	[diff] [blame]	5444	kill_fasync(perf_event_fasync(event), SIGIO, event->pending_kill);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5445	event->pending_kill = 0;
				5446	}
				5447	}
				5448
Peter Zijlstra	e360adb	2010-10-14 14:01:34 +0800	[diff] [blame]	5449	static void perf_pending_event(struct irq_work *entry)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5450	{
				5451	struct perf_event *event = container_of(entry,
				5452	struct perf_event, pending);
Peter Zijlstra	d525211	2015-02-19 18:03:11 +0100	[diff] [blame]	5453	int rctx;
				5454
				5455	rctx = perf_swevent_get_recursion_context();
				5456	/*
				5457	* If we 'fail' here, that's OK, it means recursion is already disabled
				5458	* and we won't recurse 'further'.
				5459	*/
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5460
				5461	if (event->pending_disable) {
				5462	event->pending_disable = 0;
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	5463	perf_event_disable_local(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5464	}
				5465
				5466	if (event->pending_wakeup) {
				5467	event->pending_wakeup = 0;
				5468	perf_event_wakeup(event);
				5469	}
Peter Zijlstra	d525211	2015-02-19 18:03:11 +0100	[diff] [blame]	5470
				5471	if (rctx >= 0)
				5472	perf_swevent_put_recursion_context(rctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5473	}
				5474
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5475	/*
Zhang, Yanmin	39447b3	2010-04-19 13:32:41 +0800	[diff] [blame]	5476	* We assume there is only KVM supporting the callbacks.
				5477	* Later on, we might change it to a list if there is
				5478	* another virtualization implementation supporting the callbacks.
				5479	*/
				5480	struct perf_guest_info_callbacks *perf_guest_cbs;
				5481
				5482	int perf_register_guest_info_callbacks(struct perf_guest_info_callbacks *cbs)
				5483	{
				5484	perf_guest_cbs = cbs;
				5485	return 0;
				5486	}
				5487	EXPORT_SYMBOL_GPL(perf_register_guest_info_callbacks);
				5488
				5489	int perf_unregister_guest_info_callbacks(struct perf_guest_info_callbacks *cbs)
				5490	{
				5491	perf_guest_cbs = NULL;
				5492	return 0;
				5493	}
				5494	EXPORT_SYMBOL_GPL(perf_unregister_guest_info_callbacks);
				5495
Jiri Olsa	4018994	2012-08-07 15:20:37 +0200	[diff] [blame]	5496	static void
				5497	perf_output_sample_regs(struct perf_output_handle *handle,
				5498	struct pt_regs *regs, u64 mask)
				5499	{
				5500	int bit;
Madhavan Srinivasan	29dd328	2016-08-17 15:06:08 +0530	[diff] [blame]	5501	DECLARE_BITMAP(_mask, 64);
Jiri Olsa	4018994	2012-08-07 15:20:37 +0200	[diff] [blame]	5502
Madhavan Srinivasan	29dd328	2016-08-17 15:06:08 +0530	[diff] [blame]	5503	bitmap_from_u64(_mask, mask);
				5504	for_each_set_bit(bit, _mask, sizeof(mask) * BITS_PER_BYTE) {
Jiri Olsa	4018994	2012-08-07 15:20:37 +0200	[diff] [blame]	5505	u64 val;
				5506
				5507	val = perf_reg_value(regs, bit);
				5508	perf_output_put(handle, val);
				5509	}
				5510	}
				5511
Stephane Eranian	60e2364	2014-09-24 13:48:37 +0200	[diff] [blame]	5512	static void perf_sample_regs_user(struct perf_regs *regs_user,
Andy Lutomirski	88a7c26	2015-01-04 10:36:19 -0800	[diff] [blame]	5513	struct pt_regs *regs,
				5514	struct pt_regs *regs_user_copy)
Jiri Olsa	4018994	2012-08-07 15:20:37 +0200	[diff] [blame]	5515	{
Andy Lutomirski	88a7c26	2015-01-04 10:36:19 -0800	[diff] [blame]	5516	if (user_mode(regs)) {
				5517	regs_user->abi = perf_reg_abi(current);
Peter Zijlstra	2565711	2014-09-24 13:48:42 +0200	[diff] [blame]	5518	regs_user->regs = regs;
Andy Lutomirski	88a7c26	2015-01-04 10:36:19 -0800	[diff] [blame]	5519	} else if (current->mm) {
				5520	perf_get_regs_user(regs_user, regs, regs_user_copy);
Peter Zijlstra	2565711	2014-09-24 13:48:42 +0200	[diff] [blame]	5521	} else {
				5522	regs_user->abi = PERF_SAMPLE_REGS_ABI_NONE;
				5523	regs_user->regs = NULL;
Jiri Olsa	4018994	2012-08-07 15:20:37 +0200	[diff] [blame]	5524	}
				5525	}
				5526
Stephane Eranian	60e2364	2014-09-24 13:48:37 +0200	[diff] [blame]	5527	static void perf_sample_regs_intr(struct perf_regs *regs_intr,
				5528	struct pt_regs *regs)
				5529	{
				5530	regs_intr->regs = regs;
				5531	regs_intr->abi = perf_reg_abi(current);
				5532	}
				5533
				5534
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	5535	/*
				5536	* Get remaining task size from user stack pointer.
				5537	*
				5538	* It'd be better to take stack vma map and limit this more
				5539	* precisly, but there's no way to get it safely under interrupt,
				5540	* so using TASK_SIZE as limit.
				5541	*/
				5542	static u64 perf_ustack_task_size(struct pt_regs *regs)
				5543	{
				5544	unsigned long addr = perf_user_stack_pointer(regs);
				5545
				5546	if (!addr \|\| addr >= TASK_SIZE)
				5547	return 0;
				5548
				5549	return TASK_SIZE - addr;
				5550	}
				5551
				5552	static u16
				5553	perf_sample_ustack_size(u16 stack_size, u16 header_size,
				5554	struct pt_regs *regs)
				5555	{
				5556	u64 task_size;
				5557
				5558	/* No regs, no stack pointer, no dump. */
				5559	if (!regs)
				5560	return 0;
				5561
				5562	/*
				5563	* Check if we fit in with the requested stack size into the:
				5564	* - TASK_SIZE
				5565	* If we don't, we limit the size to the TASK_SIZE.
				5566	*
				5567	* - remaining sample size
				5568	* If we don't, we customize the stack size to
				5569	* fit in to the remaining sample size.
				5570	*/
				5571
				5572	task_size = min((u64) USHRT_MAX, perf_ustack_task_size(regs));
				5573	stack_size = min(stack_size, (u16) task_size);
				5574
				5575	/* Current header size plus static size and dynamic size. */
				5576	header_size += 2 * sizeof(u64);
				5577
				5578	/* Do we fit in with the current stack dump size? */
				5579	if ((u16) (header_size + stack_size) < header_size) {
				5580	/*
				5581	* If we overflow the maximum size for the sample,
				5582	* we customize the stack dump size to fit in.
				5583	*/
				5584	stack_size = USHRT_MAX - header_size - sizeof(u64);
				5585	stack_size = round_up(stack_size, sizeof(u64));
				5586	}
				5587
				5588	return stack_size;
				5589	}
				5590
				5591	static void
				5592	perf_output_sample_ustack(struct perf_output_handle *handle, u64 dump_size,
				5593	struct pt_regs *regs)
				5594	{
				5595	/* Case of a kernel thread, nothing to dump */
				5596	if (!regs) {
				5597	u64 size = 0;
				5598	perf_output_put(handle, size);
				5599	} else {
				5600	unsigned long sp;
				5601	unsigned int rem;
				5602	u64 dyn_size;
				5603
				5604	/*
				5605	* We dump:
				5606	* static size
				5607	* - the size requested by user or the best one we can fit
				5608	* in to the sample max size
				5609	* data
				5610	* - user stack dump data
				5611	* dynamic size
				5612	* - the actual dumped size
				5613	*/
				5614
				5615	/* Static size. */
				5616	perf_output_put(handle, dump_size);
				5617
				5618	/* Data. */
				5619	sp = perf_user_stack_pointer(regs);
				5620	rem = __output_copy_user(handle, (void *) sp, dump_size);
				5621	dyn_size = dump_size - rem;
				5622
				5623	perf_output_skip(handle, rem);
				5624
				5625	/* Dynamic size. */
				5626	perf_output_put(handle, dyn_size);
				5627	}
				5628	}
				5629
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	5630	static void __perf_event_header__init_id(struct perf_event_header *header,
				5631	struct perf_sample_data *data,
				5632	struct perf_event *event)
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	5633	{
				5634	u64 sample_type = event->attr.sample_type;
				5635
				5636	data->type = sample_type;
				5637	header->size += event->id_header_size;
				5638
				5639	if (sample_type & PERF_SAMPLE_TID) {
				5640	/* namespace issues */
				5641	data->tid_entry.pid = perf_event_pid(event, current);
				5642	data->tid_entry.tid = perf_event_tid(event, current);
				5643	}
				5644
				5645	if (sample_type & PERF_SAMPLE_TIME)
Peter Zijlstra	34f4392	2015-02-20 14:05:38 +0100	[diff] [blame]	5646	data->time = perf_event_clock(event);
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	5647
Adrian Hunter	ff3d527	2013-08-27 11:23:07 +0300	[diff] [blame]	5648	if (sample_type & (PERF_SAMPLE_ID \| PERF_SAMPLE_IDENTIFIER))
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	5649	data->id = primary_event_id(event);
				5650
				5651	if (sample_type & PERF_SAMPLE_STREAM_ID)
				5652	data->stream_id = event->id;
				5653
				5654	if (sample_type & PERF_SAMPLE_CPU) {
				5655	data->cpu_entry.cpu = raw_smp_processor_id();
				5656	data->cpu_entry.reserved = 0;
				5657	}
				5658	}
				5659
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	5660	void perf_event_header__init_id(struct perf_event_header *header,
				5661	struct perf_sample_data *data,
				5662	struct perf_event *event)
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	5663	{
				5664	if (event->attr.sample_id_all)
				5665	__perf_event_header__init_id(header, data, event);
				5666	}
				5667
				5668	static void __perf_event__output_id_sample(struct perf_output_handle *handle,
				5669	struct perf_sample_data *data)
				5670	{
				5671	u64 sample_type = data->type;
				5672
				5673	if (sample_type & PERF_SAMPLE_TID)
				5674	perf_output_put(handle, data->tid_entry);
				5675
				5676	if (sample_type & PERF_SAMPLE_TIME)
				5677	perf_output_put(handle, data->time);
				5678
				5679	if (sample_type & PERF_SAMPLE_ID)
				5680	perf_output_put(handle, data->id);
				5681
				5682	if (sample_type & PERF_SAMPLE_STREAM_ID)
				5683	perf_output_put(handle, data->stream_id);
				5684
				5685	if (sample_type & PERF_SAMPLE_CPU)
				5686	perf_output_put(handle, data->cpu_entry);
Adrian Hunter	ff3d527	2013-08-27 11:23:07 +0300	[diff] [blame]	5687
				5688	if (sample_type & PERF_SAMPLE_IDENTIFIER)
				5689	perf_output_put(handle, data->id);
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	5690	}
				5691
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	5692	void perf_event__output_id_sample(struct perf_event *event,
				5693	struct perf_output_handle *handle,
				5694	struct perf_sample_data *sample)
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	5695	{
				5696	if (event->attr.sample_id_all)
				5697	__perf_event__output_id_sample(handle, sample);
				5698	}
				5699
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5700	static void perf_output_read_one(struct perf_output_handle *handle,
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	5701	struct perf_event *event,
				5702	u64 enabled, u64 running)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5703	{
				5704	u64 read_format = event->attr.read_format;
				5705	u64 values[4];
				5706	int n = 0;
				5707
Peter Zijlstra	b5e5879	2010-05-21 14:43:12 +0200	[diff] [blame]	5708	values[n++] = perf_event_count(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5709	if (read_format & PERF_FORMAT_TOTAL_TIME_ENABLED) {
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	5710	values[n++] = enabled +
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5711	atomic64_read(&event->child_total_time_enabled);
				5712	}
				5713	if (read_format & PERF_FORMAT_TOTAL_TIME_RUNNING) {
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	5714	values[n++] = running +
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5715	atomic64_read(&event->child_total_time_running);
				5716	}
				5717	if (read_format & PERF_FORMAT_ID)
				5718	values[n++] = primary_event_id(event);
				5719
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	5720	__output_copy(handle, values, n * sizeof(u64));
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5721	}
				5722
				5723	/*
				5724	* XXX PERF_FORMAT_GROUP vs inherited events seems difficult.
				5725	*/
				5726	static void perf_output_read_group(struct perf_output_handle *handle,
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	5727	struct perf_event *event,
				5728	u64 enabled, u64 running)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5729	{
				5730	struct perf_event leader = event->group_leader, sub;
				5731	u64 read_format = event->attr.read_format;
				5732	u64 values[5];
				5733	int n = 0;
				5734
				5735	values[n++] = 1 + leader->nr_siblings;
				5736
				5737	if (read_format & PERF_FORMAT_TOTAL_TIME_ENABLED)
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	5738	values[n++] = enabled;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5739
				5740	if (read_format & PERF_FORMAT_TOTAL_TIME_RUNNING)
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	5741	values[n++] = running;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5742
				5743	if (leader != event)
				5744	leader->pmu->read(leader);
				5745
Peter Zijlstra	b5e5879	2010-05-21 14:43:12 +0200	[diff] [blame]	5746	values[n++] = perf_event_count(leader);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5747	if (read_format & PERF_FORMAT_ID)
				5748	values[n++] = primary_event_id(leader);
				5749
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	5750	__output_copy(handle, values, n * sizeof(u64));
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5751
				5752	list_for_each_entry(sub, &leader->sibling_list, group_entry) {
				5753	n = 0;
				5754
Jiri Olsa	6f5ab00	2012-10-15 20:13:45 +0200	[diff] [blame]	5755	if ((sub != event) &&
				5756	(sub->state == PERF_EVENT_STATE_ACTIVE))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5757	sub->pmu->read(sub);
				5758
Peter Zijlstra	b5e5879	2010-05-21 14:43:12 +0200	[diff] [blame]	5759	values[n++] = perf_event_count(sub);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5760	if (read_format & PERF_FORMAT_ID)
				5761	values[n++] = primary_event_id(sub);
				5762
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	5763	__output_copy(handle, values, n * sizeof(u64));
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5764	}
				5765	}
				5766
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	5767	#define PERF_FORMAT_TOTAL_TIMES (PERF_FORMAT_TOTAL_TIME_ENABLED\|\
				5768	PERF_FORMAT_TOTAL_TIME_RUNNING)
				5769
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5770	static void perf_output_read(struct perf_output_handle *handle,
				5771	struct perf_event *event)
				5772	{
Peter Zijlstra	e3f3541	2011-11-21 11:43:53 +0100	[diff] [blame]	5773	u64 enabled = 0, running = 0, now;
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	5774	u64 read_format = event->attr.read_format;
				5775
				5776	/*
				5777	* compute total_time_enabled, total_time_running
				5778	* based on snapshot values taken when the event
				5779	* was last scheduled in.
				5780	*
				5781	* we cannot simply called update_context_time()
				5782	* because of locking issue as we are called in
				5783	* NMI context
				5784	*/
Eric B Munson	c479429	2011-06-23 16:34:38 -0400	[diff] [blame]	5785	if (read_format & PERF_FORMAT_TOTAL_TIMES)
Peter Zijlstra	e3f3541	2011-11-21 11:43:53 +0100	[diff] [blame]	5786	calc_timer_values(event, &now, &enabled, &running);
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	5787
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5788	if (event->attr.read_format & PERF_FORMAT_GROUP)
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	5789	perf_output_read_group(handle, event, enabled, running);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5790	else
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	5791	perf_output_read_one(handle, event, enabled, running);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5792	}
				5793
				5794	void perf_output_sample(struct perf_output_handle *handle,
				5795	struct perf_event_header *header,
				5796	struct perf_sample_data *data,
				5797	struct perf_event *event)
				5798	{
				5799	u64 sample_type = data->type;
				5800
				5801	perf_output_put(handle, *header);
				5802
Adrian Hunter	ff3d527	2013-08-27 11:23:07 +0300	[diff] [blame]	5803	if (sample_type & PERF_SAMPLE_IDENTIFIER)
				5804	perf_output_put(handle, data->id);
				5805
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5806	if (sample_type & PERF_SAMPLE_IP)
				5807	perf_output_put(handle, data->ip);
				5808
				5809	if (sample_type & PERF_SAMPLE_TID)
				5810	perf_output_put(handle, data->tid_entry);
				5811
				5812	if (sample_type & PERF_SAMPLE_TIME)
				5813	perf_output_put(handle, data->time);
				5814
				5815	if (sample_type & PERF_SAMPLE_ADDR)
				5816	perf_output_put(handle, data->addr);
				5817
				5818	if (sample_type & PERF_SAMPLE_ID)
				5819	perf_output_put(handle, data->id);
				5820
				5821	if (sample_type & PERF_SAMPLE_STREAM_ID)
				5822	perf_output_put(handle, data->stream_id);
				5823
				5824	if (sample_type & PERF_SAMPLE_CPU)
				5825	perf_output_put(handle, data->cpu_entry);
				5826
				5827	if (sample_type & PERF_SAMPLE_PERIOD)
				5828	perf_output_put(handle, data->period);
				5829
				5830	if (sample_type & PERF_SAMPLE_READ)
				5831	perf_output_read(handle, event);
				5832
				5833	if (sample_type & PERF_SAMPLE_CALLCHAIN) {
				5834	if (data->callchain) {
				5835	int size = 1;
				5836
				5837	if (data->callchain)
				5838	size += data->callchain->nr;
				5839
				5840	size *= sizeof(u64);
				5841
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	5842	__output_copy(handle, data->callchain, size);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5843	} else {
				5844	u64 nr = 0;
				5845	perf_output_put(handle, nr);
				5846	}
				5847	}
				5848
				5849	if (sample_type & PERF_SAMPLE_RAW) {
Daniel Borkmann	7e3f977	2016-07-14 18:08:03 +0200	[diff] [blame]	5850	struct perf_raw_record *raw = data->raw;
Alexei Starovoitov	fa128e6	2015-10-20 20:02:33 -0700	[diff] [blame]	5851
Daniel Borkmann	7e3f977	2016-07-14 18:08:03 +0200	[diff] [blame]	5852	if (raw) {
				5853	struct perf_raw_frag *frag = &raw->frag;
				5854
				5855	perf_output_put(handle, raw->size);
				5856	do {
				5857	if (frag->copy) {
				5858	__output_custom(handle, frag->copy,
				5859	frag->data, frag->size);
				5860	} else {
				5861	__output_copy(handle, frag->data,
				5862	frag->size);
				5863	}
				5864	if (perf_raw_frag_last(frag))
				5865	break;
				5866	frag = frag->next;
				5867	} while (1);
				5868	if (frag->pad)
				5869	__output_skip(handle, NULL, frag->pad);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5870	} else {
				5871	struct {
				5872	u32 size;
				5873	u32 data;
				5874	} raw = {
				5875	.size = sizeof(u32),
				5876	.data = 0,
				5877	};
				5878	perf_output_put(handle, raw);
				5879	}
				5880	}
Peter Zijlstra	a7ac67e	2011-06-27 16:47:16 +0200	[diff] [blame]	5881
Stephane Eranian	bce38cd	2012-02-09 23:20:51 +0100	[diff] [blame]	5882	if (sample_type & PERF_SAMPLE_BRANCH_STACK) {
				5883	if (data->br_stack) {
				5884	size_t size;
				5885
				5886	size = data->br_stack->nr
				5887	* sizeof(struct perf_branch_entry);
				5888
				5889	perf_output_put(handle, data->br_stack->nr);
				5890	perf_output_copy(handle, data->br_stack->entries, size);
				5891	} else {
				5892	/*
				5893	* we always store at least the value of nr
				5894	*/
				5895	u64 nr = 0;
				5896	perf_output_put(handle, nr);
				5897	}
				5898	}
Jiri Olsa	4018994	2012-08-07 15:20:37 +0200	[diff] [blame]	5899
				5900	if (sample_type & PERF_SAMPLE_REGS_USER) {
				5901	u64 abi = data->regs_user.abi;
				5902
				5903	/*
				5904	* If there are no regs to dump, notice it through
				5905	* first u64 being zero (PERF_SAMPLE_REGS_ABI_NONE).
				5906	*/
				5907	perf_output_put(handle, abi);
				5908
				5909	if (abi) {
				5910	u64 mask = event->attr.sample_regs_user;
				5911	perf_output_sample_regs(handle,
				5912	data->regs_user.regs,
				5913	mask);
				5914	}
				5915	}
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	5916
Peter Zijlstra	a5cdd40	2013-07-16 17:09:07 +0200	[diff] [blame]	5917	if (sample_type & PERF_SAMPLE_STACK_USER) {
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	5918	perf_output_sample_ustack(handle,
				5919	data->stack_user_size,
				5920	data->regs_user.regs);
Peter Zijlstra	a5cdd40	2013-07-16 17:09:07 +0200	[diff] [blame]	5921	}
Andi Kleen	c3feedf	2013-01-24 16:10:28 +0100	[diff] [blame]	5922
				5923	if (sample_type & PERF_SAMPLE_WEIGHT)
				5924	perf_output_put(handle, data->weight);
Stephane Eranian	d6be9ad	2013-01-24 16:10:31 +0100	[diff] [blame]	5925
				5926	if (sample_type & PERF_SAMPLE_DATA_SRC)
				5927	perf_output_put(handle, data->data_src.val);
Peter Zijlstra	a5cdd40	2013-07-16 17:09:07 +0200	[diff] [blame]	5928
Andi Kleen	fdfbbd0	2013-09-20 07:40:39 -0700	[diff] [blame]	5929	if (sample_type & PERF_SAMPLE_TRANSACTION)
				5930	perf_output_put(handle, data->txn);
				5931
Stephane Eranian	60e2364	2014-09-24 13:48:37 +0200	[diff] [blame]	5932	if (sample_type & PERF_SAMPLE_REGS_INTR) {
				5933	u64 abi = data->regs_intr.abi;
				5934	/*
				5935	* If there are no regs to dump, notice it through
				5936	* first u64 being zero (PERF_SAMPLE_REGS_ABI_NONE).
				5937	*/
				5938	perf_output_put(handle, abi);
				5939
				5940	if (abi) {
				5941	u64 mask = event->attr.sample_regs_intr;
				5942
				5943	perf_output_sample_regs(handle,
				5944	data->regs_intr.regs,
				5945	mask);
				5946	}
				5947	}
				5948
Peter Zijlstra	a5cdd40	2013-07-16 17:09:07 +0200	[diff] [blame]	5949	if (!event->attr.watermark) {
				5950	int wakeup_events = event->attr.wakeup_events;
				5951
				5952	if (wakeup_events) {
				5953	struct ring_buffer *rb = handle->rb;
				5954	int events = local_inc_return(&rb->events);
				5955
				5956	if (events >= wakeup_events) {
				5957	local_sub(wakeup_events, &rb->events);
				5958	local_inc(&rb->wakeup);
				5959	}
				5960	}
				5961	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5962	}
				5963
				5964	void perf_prepare_sample(struct perf_event_header *header,
				5965	struct perf_sample_data *data,
				5966	struct perf_event *event,
				5967	struct pt_regs *regs)
				5968	{
				5969	u64 sample_type = event->attr.sample_type;
				5970
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5971	header->type = PERF_RECORD_SAMPLE;
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	5972	header->size = sizeof(*header) + event->header_size;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5973
				5974	header->misc = 0;
				5975	header->misc \|= perf_misc_flags(regs);
				5976
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	5977	__perf_event_header__init_id(header, data, event);
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	5978
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	5979	if (sample_type & PERF_SAMPLE_IP)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5980	data->ip = perf_instruction_pointer(regs);
				5981
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5982	if (sample_type & PERF_SAMPLE_CALLCHAIN) {
				5983	int size = 1;
				5984
Andrew Vagin	e6dab5f	2012-07-11 18:14:58 +0400	[diff] [blame]	5985	data->callchain = perf_callchain(event, regs);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5986
				5987	if (data->callchain)
				5988	size += data->callchain->nr;
				5989
				5990	header->size += size * sizeof(u64);
				5991	}
				5992
				5993	if (sample_type & PERF_SAMPLE_RAW) {
Daniel Borkmann	7e3f977	2016-07-14 18:08:03 +0200	[diff] [blame]	5994	struct perf_raw_record *raw = data->raw;
				5995	int size;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5996
Daniel Borkmann	7e3f977	2016-07-14 18:08:03 +0200	[diff] [blame]	5997	if (raw) {
				5998	struct perf_raw_frag *frag = &raw->frag;
				5999	u32 sum = 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6000
Daniel Borkmann	7e3f977	2016-07-14 18:08:03 +0200	[diff] [blame]	6001	do {
				6002	sum += frag->size;
				6003	if (perf_raw_frag_last(frag))
				6004	break;
				6005	frag = frag->next;
				6006	} while (1);
				6007
				6008	size = round_up(sum + sizeof(u32), sizeof(u64));
				6009	raw->size = size - sizeof(u32);
				6010	frag->pad = raw->size - sum;
				6011	} else {
				6012	size = sizeof(u64);
				6013	}
				6014
				6015	header->size += size;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6016	}
Stephane Eranian	bce38cd	2012-02-09 23:20:51 +0100	[diff] [blame]	6017
				6018	if (sample_type & PERF_SAMPLE_BRANCH_STACK) {
				6019	int size = sizeof(u64); /* nr */
				6020	if (data->br_stack) {
				6021	size += data->br_stack->nr
				6022	* sizeof(struct perf_branch_entry);
				6023	}
				6024	header->size += size;
				6025	}
Jiri Olsa	4018994	2012-08-07 15:20:37 +0200	[diff] [blame]	6026
Peter Zijlstra	2565711	2014-09-24 13:48:42 +0200	[diff] [blame]	6027	if (sample_type & (PERF_SAMPLE_REGS_USER \| PERF_SAMPLE_STACK_USER))
Andy Lutomirski	88a7c26	2015-01-04 10:36:19 -0800	[diff] [blame]	6028	perf_sample_regs_user(&data->regs_user, regs,
				6029	&data->regs_user_copy);
Peter Zijlstra	2565711	2014-09-24 13:48:42 +0200	[diff] [blame]	6030
Jiri Olsa	4018994	2012-08-07 15:20:37 +0200	[diff] [blame]	6031	if (sample_type & PERF_SAMPLE_REGS_USER) {
				6032	/* regs dump ABI info */
				6033	int size = sizeof(u64);
				6034
Jiri Olsa	4018994	2012-08-07 15:20:37 +0200	[diff] [blame]	6035	if (data->regs_user.regs) {
				6036	u64 mask = event->attr.sample_regs_user;
				6037	size += hweight64(mask) * sizeof(u64);
				6038	}
				6039
				6040	header->size += size;
				6041	}
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	6042
				6043	if (sample_type & PERF_SAMPLE_STACK_USER) {
				6044	/*
				6045	* Either we need PERF_SAMPLE_STACK_USER bit to be allways
				6046	* processed as the last one or have additional check added
				6047	* in case new sample type is added, because we could eat
				6048	* up the rest of the sample size.
				6049	*/
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	6050	u16 stack_size = event->attr.sample_stack_user;
				6051	u16 size = sizeof(u64);
				6052
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	6053	stack_size = perf_sample_ustack_size(stack_size, header->size,
Peter Zijlstra	2565711	2014-09-24 13:48:42 +0200	[diff] [blame]	6054	data->regs_user.regs);
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	6055
				6056	/*
				6057	* If there is something to dump, add space for the dump
				6058	* itself and for the field that tells the dynamic size,
				6059	* which is how many have been actually dumped.
				6060	*/
				6061	if (stack_size)
				6062	size += sizeof(u64) + stack_size;
				6063
				6064	data->stack_user_size = stack_size;
				6065	header->size += size;
				6066	}
Stephane Eranian	60e2364	2014-09-24 13:48:37 +0200	[diff] [blame]	6067
				6068	if (sample_type & PERF_SAMPLE_REGS_INTR) {
				6069	/* regs dump ABI info */
				6070	int size = sizeof(u64);
				6071
				6072	perf_sample_regs_intr(&data->regs_intr, regs);
				6073
				6074	if (data->regs_intr.regs) {
				6075	u64 mask = event->attr.sample_regs_intr;
				6076
				6077	size += hweight64(mask) * sizeof(u64);
				6078	}
				6079
				6080	header->size += size;
				6081	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6082	}
				6083
Wang Nan	9ecda41	2016-04-05 14:11:18 +0000	[diff] [blame]	6084	static void __always_inline
				6085	__perf_event_output(struct perf_event *event,
				6086	struct perf_sample_data *data,
				6087	struct pt_regs *regs,
				6088	int (output_begin)(struct perf_output_handle ,
				6089	struct perf_event *,
				6090	unsigned int))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6091	{
				6092	struct perf_output_handle handle;
				6093	struct perf_event_header header;
				6094
Frederic Weisbecker	927c7a9	2010-07-01 16:20:36 +0200	[diff] [blame]	6095	/* protect the callchain buffers */
				6096	rcu_read_lock();
				6097
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6098	perf_prepare_sample(&header, data, event, regs);
				6099
Wang Nan	9ecda41	2016-04-05 14:11:18 +0000	[diff] [blame]	6100	if (output_begin(&handle, event, header.size))
Frederic Weisbecker	927c7a9	2010-07-01 16:20:36 +0200	[diff] [blame]	6101	goto exit;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6102
				6103	perf_output_sample(&handle, &header, data, event);
				6104
				6105	perf_output_end(&handle);
Frederic Weisbecker	927c7a9	2010-07-01 16:20:36 +0200	[diff] [blame]	6106
				6107	exit:
				6108	rcu_read_unlock();
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6109	}
				6110
Wang Nan	9ecda41	2016-04-05 14:11:18 +0000	[diff] [blame]	6111	void
				6112	perf_event_output_forward(struct perf_event *event,
				6113	struct perf_sample_data *data,
				6114	struct pt_regs *regs)
				6115	{
				6116	__perf_event_output(event, data, regs, perf_output_begin_forward);
				6117	}
				6118
				6119	void
				6120	perf_event_output_backward(struct perf_event *event,
				6121	struct perf_sample_data *data,
				6122	struct pt_regs *regs)
				6123	{
				6124	__perf_event_output(event, data, regs, perf_output_begin_backward);
				6125	}
				6126
				6127	void
				6128	perf_event_output(struct perf_event *event,
				6129	struct perf_sample_data *data,
				6130	struct pt_regs *regs)
				6131	{
				6132	__perf_event_output(event, data, regs, perf_output_begin);
				6133	}
				6134
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6135	/*
				6136	* read event_id
				6137	*/
				6138
				6139	struct perf_read_event {
				6140	struct perf_event_header header;
				6141
				6142	u32 pid;
				6143	u32 tid;
				6144	};
				6145
				6146	static void
				6147	perf_event_read_event(struct perf_event *event,
				6148	struct task_struct *task)
				6149	{
				6150	struct perf_output_handle handle;
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	6151	struct perf_sample_data sample;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6152	struct perf_read_event read_event = {
				6153	.header = {
				6154	.type = PERF_RECORD_READ,
				6155	.misc = 0,
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	6156	.size = sizeof(read_event) + event->read_size,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6157	},
				6158	.pid = perf_event_pid(event, task),
				6159	.tid = perf_event_tid(event, task),
				6160	};
				6161	int ret;
				6162
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	6163	perf_event_header__init_id(&read_event.header, &sample, event);
Peter Zijlstra	a7ac67e	2011-06-27 16:47:16 +0200	[diff] [blame]	6164	ret = perf_output_begin(&handle, event, read_event.header.size);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6165	if (ret)
				6166	return;
				6167
				6168	perf_output_put(&handle, read_event);
				6169	perf_output_read(&handle, event);
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	6170	perf_event__output_id_sample(event, &handle, &sample);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6171
				6172	perf_output_end(&handle);
				6173	}
				6174
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	6175	typedef void (perf_iterate_f)(struct perf_event event, void data);
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	6176
				6177	static void
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	6178	perf_iterate_ctx(struct perf_event_context *ctx,
				6179	perf_iterate_f output,
Alexander Shishkin	b73e4fe	2016-04-27 18:44:45 +0300	[diff] [blame]	6180	void *data, bool all)
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	6181	{
				6182	struct perf_event *event;
				6183
				6184	list_for_each_entry_rcu(event, &ctx->event_list, event_entry) {
Alexander Shishkin	b73e4fe	2016-04-27 18:44:45 +0300	[diff] [blame]	6185	if (!all) {
				6186	if (event->state < PERF_EVENT_STATE_INACTIVE)
				6187	continue;
				6188	if (!event_filter_match(event))
				6189	continue;
				6190	}
				6191
Jiri Olsa	6751684	2013-07-09 18:56:31 +0200	[diff] [blame]	6192	output(event, data);
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	6193	}
				6194	}
				6195
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	6196	static void perf_iterate_sb_cpu(perf_iterate_f output, void *data)
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	6197	{
				6198	struct pmu_event_list *pel = this_cpu_ptr(&pmu_sb_events);
				6199	struct perf_event *event;
				6200
				6201	list_for_each_entry_rcu(event, &pel->list, sb_list) {
Peter Zijlstra	0b8f1e2	2016-08-04 14:37:24 +0200	[diff] [blame]	6202	/*
				6203	* Skip events that are not fully formed yet; ensure that
				6204	* if we observe event->ctx, both event and ctx will be
				6205	* complete enough. See perf_install_in_context().
				6206	*/
				6207	if (!smp_load_acquire(&event->ctx))
				6208	continue;
				6209
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	6210	if (event->state < PERF_EVENT_STATE_INACTIVE)
				6211	continue;
				6212	if (!event_filter_match(event))
				6213	continue;
				6214	output(event, data);
				6215	}
				6216	}
				6217
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	6218	/*
				6219	* Iterate all events that need to receive side-band events.
				6220	*
				6221	* For new callers; ensure that account_pmu_sb_event() includes
				6222	* your event, otherwise it might not get delivered.
				6223	*/
Jiri Olsa	4e93ad6	2015-11-04 16:00:05 +0100	[diff] [blame]	6224	static void
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	6225	perf_iterate_sb(perf_iterate_f output, void *data,
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	6226	struct perf_event_context *task_ctx)
				6227	{
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	6228	struct perf_event_context *ctx;
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	6229	int ctxn;
				6230
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	6231	rcu_read_lock();
				6232	preempt_disable();
				6233
Jiri Olsa	4e93ad6	2015-11-04 16:00:05 +0100	[diff] [blame]	6234	/*
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	6235	* If we have task_ctx != NULL we only notify the task context itself.
				6236	* The task_ctx is set only for EXIT events before releasing task
Jiri Olsa	4e93ad6	2015-11-04 16:00:05 +0100	[diff] [blame]	6237	* context.
				6238	*/
				6239	if (task_ctx) {
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	6240	perf_iterate_ctx(task_ctx, output, data, false);
				6241	goto done;
Jiri Olsa	4e93ad6	2015-11-04 16:00:05 +0100	[diff] [blame]	6242	}
				6243
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	6244	perf_iterate_sb_cpu(output, data);
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	6245
				6246	for_each_task_context_nr(ctxn) {
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	6247	ctx = rcu_dereference(current->perf_event_ctxp[ctxn]);
				6248	if (ctx)
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	6249	perf_iterate_ctx(ctx, output, data, false);
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	6250	}
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	6251	done:
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	6252	preempt_enable();
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	6253	rcu_read_unlock();
				6254	}
				6255
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	6256	/*
				6257	* Clear all file-based filters at exec, they'll have to be
				6258	* re-instated when/if these objects are mmapped again.
				6259	*/
				6260	static void perf_event_addr_filters_exec(struct perf_event event, void data)
				6261	{
				6262	struct perf_addr_filters_head *ifh = perf_event_addr_filters(event);
				6263	struct perf_addr_filter *filter;
				6264	unsigned int restart = 0, count = 0;
				6265	unsigned long flags;
				6266
				6267	if (!has_addr_filter(event))
				6268	return;
				6269
				6270	raw_spin_lock_irqsave(&ifh->lock, flags);
				6271	list_for_each_entry(filter, &ifh->list, entry) {
				6272	if (filter->inode) {
				6273	event->addr_filters_offs[count] = 0;
				6274	restart++;
				6275	}
				6276
				6277	count++;
				6278	}
				6279
				6280	if (restart)
				6281	event->addr_filters_gen++;
				6282	raw_spin_unlock_irqrestore(&ifh->lock, flags);
				6283
				6284	if (restart)
Alexander Shishkin	767ae08	2016-09-06 16:23:49 +0300	[diff] [blame]	6285	perf_event_stop(event, 1);
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	6286	}
				6287
				6288	void perf_event_exec(void)
				6289	{
				6290	struct perf_event_context *ctx;
				6291	int ctxn;
				6292
				6293	rcu_read_lock();
				6294	for_each_task_context_nr(ctxn) {
				6295	ctx = current->perf_event_ctxp[ctxn];
				6296	if (!ctx)
				6297	continue;
				6298
				6299	perf_event_enable_on_exec(ctxn);
				6300
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	6301	perf_iterate_ctx(ctx, perf_event_addr_filters_exec, NULL,
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	6302	true);
				6303	}
				6304	rcu_read_unlock();
				6305	}
				6306
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	6307	struct remote_output {
				6308	struct ring_buffer *rb;
				6309	int err;
				6310	};
				6311
				6312	static void __perf_event_output_stop(struct perf_event event, void data)
				6313	{
				6314	struct perf_event *parent = event->parent;
				6315	struct remote_output *ro = data;
				6316	struct ring_buffer *rb = ro->rb;
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	6317	struct stop_event_data sd = {
				6318	.event = event,
				6319	};
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	6320
				6321	if (!has_aux(event))
				6322	return;
				6323
				6324	if (!parent)
				6325	parent = event;
				6326
				6327	/*
				6328	* In case of inheritance, it will be the parent that links to the
Alexander Shishkin	767ae08	2016-09-06 16:23:49 +0300	[diff] [blame]	6329	* ring-buffer, but it will be the child that's actually using it.
				6330	*
				6331	* We are using event::rb to determine if the event should be stopped,
				6332	* however this may race with ring_buffer_attach() (through set_output),
				6333	* which will make us skip the event that actually needs to be stopped.
				6334	* So ring_buffer_attach() has to stop an aux event before re-assigning
				6335	* its rb pointer.
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	6336	*/
				6337	if (rcu_dereference(parent->rb) == rb)
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	6338	ro->err = __perf_event_stop(&sd);
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	6339	}
				6340
				6341	static int __perf_pmu_output_stop(void *info)
				6342	{
				6343	struct perf_event *event = info;
				6344	struct pmu *pmu = event->pmu;
Will Deacon	8b6a3fe	2016-08-24 10:07:14 +0100	[diff] [blame]	6345	struct perf_cpu_context *cpuctx = this_cpu_ptr(pmu->pmu_cpu_context);
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	6346	struct remote_output ro = {
				6347	.rb = event->rb,
				6348	};
				6349
				6350	rcu_read_lock();
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	6351	perf_iterate_ctx(&cpuctx->ctx, __perf_event_output_stop, &ro, false);
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	6352	if (cpuctx->task_ctx)
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	6353	perf_iterate_ctx(cpuctx->task_ctx, __perf_event_output_stop,
Alexander Shishkin	b73e4fe	2016-04-27 18:44:45 +0300	[diff] [blame]	6354	&ro, false);
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	6355	rcu_read_unlock();
				6356
				6357	return ro.err;
				6358	}
				6359
				6360	static void perf_pmu_output_stop(struct perf_event *event)
				6361	{
				6362	struct perf_event *iter;
				6363	int err, cpu;
				6364
				6365	restart:
				6366	rcu_read_lock();
				6367	list_for_each_entry_rcu(iter, &event->rb->event_list, rb_entry) {
				6368	/*
				6369	* For per-CPU events, we need to make sure that neither they
				6370	* nor their children are running; for cpu==-1 events it's
				6371	* sufficient to stop the event itself if it's active, since
				6372	* it can't have children.
				6373	*/
				6374	cpu = iter->cpu;
				6375	if (cpu == -1)
				6376	cpu = READ_ONCE(iter->oncpu);
				6377
				6378	if (cpu == -1)
				6379	continue;
				6380
				6381	err = cpu_function_call(cpu, __perf_pmu_output_stop, event);
				6382	if (err == -EAGAIN) {
				6383	rcu_read_unlock();
				6384	goto restart;
				6385	}
				6386	}
				6387	rcu_read_unlock();
				6388	}
				6389
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6390	/*
				6391	* task tracking -- fork/exit
				6392	*
Stephane Eranian	13d7a24	2013-08-21 12:10:24 +0200	[diff] [blame]	6393	* enabled by: attr.comm \| attr.mmap \| attr.mmap2 \| attr.mmap_data \| attr.task
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6394	*/
				6395
				6396	struct perf_task_event {
				6397	struct task_struct *task;
				6398	struct perf_event_context *task_ctx;
				6399
				6400	struct {
				6401	struct perf_event_header header;
				6402
				6403	u32 pid;
				6404	u32 ppid;
				6405	u32 tid;
				6406	u32 ptid;
				6407	u64 time;
				6408	} event_id;
				6409	};
				6410
Jiri Olsa	6751684	2013-07-09 18:56:31 +0200	[diff] [blame]	6411	static int perf_event_task_match(struct perf_event *event)
				6412	{
Stephane Eranian	13d7a24	2013-08-21 12:10:24 +0200	[diff] [blame]	6413	return event->attr.comm \|\| event->attr.mmap \|\|
				6414	event->attr.mmap2 \|\| event->attr.mmap_data \|\|
				6415	event->attr.task;
Jiri Olsa	6751684	2013-07-09 18:56:31 +0200	[diff] [blame]	6416	}
				6417
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6418	static void perf_event_task_output(struct perf_event *event,
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	6419	void *data)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6420	{
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	6421	struct perf_task_event *task_event = data;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6422	struct perf_output_handle handle;
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	6423	struct perf_sample_data sample;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6424	struct task_struct *task = task_event->task;
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	6425	int ret, size = task_event->event_id.header.size;
Mike Galbraith	8bb39f9	2010-03-26 11:11:33 +0100	[diff] [blame]	6426
Jiri Olsa	6751684	2013-07-09 18:56:31 +0200	[diff] [blame]	6427	if (!perf_event_task_match(event))
				6428	return;
				6429
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	6430	perf_event_header__init_id(&task_event->event_id.header, &sample, event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6431
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	6432	ret = perf_output_begin(&handle, event,
Peter Zijlstra	a7ac67e	2011-06-27 16:47:16 +0200	[diff] [blame]	6433	task_event->event_id.header.size);
Peter Zijlstra	ef60777	2010-05-18 10:50:41 +0200	[diff] [blame]	6434	if (ret)
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	6435	goto out;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6436
				6437	task_event->event_id.pid = perf_event_pid(event, task);
				6438	task_event->event_id.ppid = perf_event_pid(event, current);
				6439
				6440	task_event->event_id.tid = perf_event_tid(event, task);
				6441	task_event->event_id.ptid = perf_event_tid(event, current);
				6442
Peter Zijlstra	34f4392	2015-02-20 14:05:38 +0100	[diff] [blame]	6443	task_event->event_id.time = perf_event_clock(event);
				6444
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6445	perf_output_put(&handle, task_event->event_id);
				6446
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	6447	perf_event__output_id_sample(event, &handle, &sample);
				6448
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6449	perf_output_end(&handle);
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	6450	out:
				6451	task_event->event_id.header.size = size;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6452	}
				6453
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6454	static void perf_event_task(struct task_struct *task,
				6455	struct perf_event_context *task_ctx,
				6456	int new)
				6457	{
				6458	struct perf_task_event task_event;
				6459
				6460	if (!atomic_read(&nr_comm_events) &&
				6461	!atomic_read(&nr_mmap_events) &&
				6462	!atomic_read(&nr_task_events))
				6463	return;
				6464
				6465	task_event = (struct perf_task_event){
				6466	.task = task,
				6467	.task_ctx = task_ctx,
				6468	.event_id = {
				6469	.header = {
				6470	.type = new ? PERF_RECORD_FORK : PERF_RECORD_EXIT,
				6471	.misc = 0,
				6472	.size = sizeof(task_event.event_id),
				6473	},
				6474	/* .pid */
				6475	/* .ppid */
				6476	/* .tid */
				6477	/* .ptid */
Peter Zijlstra	34f4392	2015-02-20 14:05:38 +0100	[diff] [blame]	6478	/* .time */
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6479	},
				6480	};
				6481
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	6482	perf_iterate_sb(perf_event_task_output,
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	6483	&task_event,
				6484	task_ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6485	}
				6486
				6487	void perf_event_fork(struct task_struct *task)
				6488	{
				6489	perf_event_task(task, NULL, 1);
				6490	}
				6491
				6492	/*
				6493	* comm tracking
				6494	*/
				6495
				6496	struct perf_comm_event {
				6497	struct task_struct *task;
				6498	char *comm;
				6499	int comm_size;
				6500
				6501	struct {
				6502	struct perf_event_header header;
				6503
				6504	u32 pid;
				6505	u32 tid;
				6506	} event_id;
				6507	};
				6508
Jiri Olsa	6751684	2013-07-09 18:56:31 +0200	[diff] [blame]	6509	static int perf_event_comm_match(struct perf_event *event)
				6510	{
				6511	return event->attr.comm;
				6512	}
				6513
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6514	static void perf_event_comm_output(struct perf_event *event,
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	6515	void *data)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6516	{
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	6517	struct perf_comm_event *comm_event = data;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6518	struct perf_output_handle handle;
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	6519	struct perf_sample_data sample;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6520	int size = comm_event->event_id.header.size;
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	6521	int ret;
				6522
Jiri Olsa	6751684	2013-07-09 18:56:31 +0200	[diff] [blame]	6523	if (!perf_event_comm_match(event))
				6524	return;
				6525
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	6526	perf_event_header__init_id(&comm_event->event_id.header, &sample, event);
				6527	ret = perf_output_begin(&handle, event,
Peter Zijlstra	a7ac67e	2011-06-27 16:47:16 +0200	[diff] [blame]	6528	comm_event->event_id.header.size);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6529
				6530	if (ret)
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	6531	goto out;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6532
				6533	comm_event->event_id.pid = perf_event_pid(event, comm_event->task);
				6534	comm_event->event_id.tid = perf_event_tid(event, comm_event->task);
				6535
				6536	perf_output_put(&handle, comm_event->event_id);
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	6537	__output_copy(&handle, comm_event->comm,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6538	comm_event->comm_size);
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	6539
				6540	perf_event__output_id_sample(event, &handle, &sample);
				6541
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6542	perf_output_end(&handle);
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	6543	out:
				6544	comm_event->event_id.header.size = size;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6545	}
				6546
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6547	static void perf_event_comm_event(struct perf_comm_event *comm_event)
				6548	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6549	char comm[TASK_COMM_LEN];
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6550	unsigned int size;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6551
				6552	memset(comm, 0, sizeof(comm));
Márton Németh	96b02d7	2009-11-21 23:10:15 +0100	[diff] [blame]	6553	strlcpy(comm, comm_event->task->comm, sizeof(comm));
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6554	size = ALIGN(strlen(comm)+1, sizeof(u64));
				6555
				6556	comm_event->comm = comm;
				6557	comm_event->comm_size = size;
				6558
				6559	comm_event->event_id.header.size = sizeof(comm_event->event_id) + size;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	6560
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	6561	perf_iterate_sb(perf_event_comm_output,
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	6562	comm_event,
				6563	NULL);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6564	}
				6565
Adrian Hunter	82b8977	2014-05-28 11:45:04 +0300	[diff] [blame]	6566	void perf_event_comm(struct task_struct *task, bool exec)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6567	{
				6568	struct perf_comm_event comm_event;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6569
				6570	if (!atomic_read(&nr_comm_events))
				6571	return;
				6572
				6573	comm_event = (struct perf_comm_event){
				6574	.task = task,
				6575	/* .comm */
				6576	/* .comm_size */
				6577	.event_id = {
				6578	.header = {
				6579	.type = PERF_RECORD_COMM,
Adrian Hunter	82b8977	2014-05-28 11:45:04 +0300	[diff] [blame]	6580	.misc = exec ? PERF_RECORD_MISC_COMM_EXEC : 0,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6581	/* .size */
				6582	},
				6583	/* .pid */
				6584	/* .tid */
				6585	},
				6586	};
				6587
				6588	perf_event_comm_event(&comm_event);
				6589	}
				6590
				6591	/*
				6592	* mmap tracking
				6593	*/
				6594
				6595	struct perf_mmap_event {
				6596	struct vm_area_struct *vma;
				6597
				6598	const char *file_name;
				6599	int file_size;
Stephane Eranian	13d7a24	2013-08-21 12:10:24 +0200	[diff] [blame]	6600	int maj, min;
				6601	u64 ino;
				6602	u64 ino_generation;
Peter Zijlstra	f972eb6	2014-05-19 15:13:47 -0400	[diff] [blame]	6603	u32 prot, flags;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6604
				6605	struct {
				6606	struct perf_event_header header;
				6607
				6608	u32 pid;
				6609	u32 tid;
				6610	u64 start;
				6611	u64 len;
				6612	u64 pgoff;
				6613	} event_id;
				6614	};
				6615
Jiri Olsa	6751684	2013-07-09 18:56:31 +0200	[diff] [blame]	6616	static int perf_event_mmap_match(struct perf_event *event,
				6617	void *data)
				6618	{
				6619	struct perf_mmap_event *mmap_event = data;
				6620	struct vm_area_struct *vma = mmap_event->vma;
				6621	int executable = vma->vm_flags & VM_EXEC;
				6622
				6623	return (!executable && event->attr.mmap_data) \|\|
Stephane Eranian	13d7a24	2013-08-21 12:10:24 +0200	[diff] [blame]	6624	(executable && (event->attr.mmap \|\| event->attr.mmap2));
Jiri Olsa	6751684	2013-07-09 18:56:31 +0200	[diff] [blame]	6625	}
				6626
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6627	static void perf_event_mmap_output(struct perf_event *event,
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	6628	void *data)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6629	{
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	6630	struct perf_mmap_event *mmap_event = data;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6631	struct perf_output_handle handle;
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	6632	struct perf_sample_data sample;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6633	int size = mmap_event->event_id.header.size;
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	6634	int ret;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6635
Jiri Olsa	6751684	2013-07-09 18:56:31 +0200	[diff] [blame]	6636	if (!perf_event_mmap_match(event, data))
				6637	return;
				6638
Stephane Eranian	13d7a24	2013-08-21 12:10:24 +0200	[diff] [blame]	6639	if (event->attr.mmap2) {
				6640	mmap_event->event_id.header.type = PERF_RECORD_MMAP2;
				6641	mmap_event->event_id.header.size += sizeof(mmap_event->maj);
				6642	mmap_event->event_id.header.size += sizeof(mmap_event->min);
				6643	mmap_event->event_id.header.size += sizeof(mmap_event->ino);
Arnaldo Carvalho de Melo	d008d52	2013-09-10 10:24:05 -0300	[diff] [blame]	6644	mmap_event->event_id.header.size += sizeof(mmap_event->ino_generation);
Peter Zijlstra	f972eb6	2014-05-19 15:13:47 -0400	[diff] [blame]	6645	mmap_event->event_id.header.size += sizeof(mmap_event->prot);
				6646	mmap_event->event_id.header.size += sizeof(mmap_event->flags);
Stephane Eranian	13d7a24	2013-08-21 12:10:24 +0200	[diff] [blame]	6647	}
				6648
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	6649	perf_event_header__init_id(&mmap_event->event_id.header, &sample, event);
				6650	ret = perf_output_begin(&handle, event,
Peter Zijlstra	a7ac67e	2011-06-27 16:47:16 +0200	[diff] [blame]	6651	mmap_event->event_id.header.size);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6652	if (ret)
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	6653	goto out;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6654
				6655	mmap_event->event_id.pid = perf_event_pid(event, current);
				6656	mmap_event->event_id.tid = perf_event_tid(event, current);
				6657
				6658	perf_output_put(&handle, mmap_event->event_id);
Stephane Eranian	13d7a24	2013-08-21 12:10:24 +0200	[diff] [blame]	6659
				6660	if (event->attr.mmap2) {
				6661	perf_output_put(&handle, mmap_event->maj);
				6662	perf_output_put(&handle, mmap_event->min);
				6663	perf_output_put(&handle, mmap_event->ino);
				6664	perf_output_put(&handle, mmap_event->ino_generation);
Peter Zijlstra	f972eb6	2014-05-19 15:13:47 -0400	[diff] [blame]	6665	perf_output_put(&handle, mmap_event->prot);
				6666	perf_output_put(&handle, mmap_event->flags);
Stephane Eranian	13d7a24	2013-08-21 12:10:24 +0200	[diff] [blame]	6667	}
				6668
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	6669	__output_copy(&handle, mmap_event->file_name,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6670	mmap_event->file_size);
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	6671
				6672	perf_event__output_id_sample(event, &handle, &sample);
				6673
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6674	perf_output_end(&handle);
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	6675	out:
				6676	mmap_event->event_id.header.size = size;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6677	}
				6678
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6679	static void perf_event_mmap_event(struct perf_mmap_event *mmap_event)
				6680	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6681	struct vm_area_struct *vma = mmap_event->vma;
				6682	struct file *file = vma->vm_file;
Stephane Eranian	13d7a24	2013-08-21 12:10:24 +0200	[diff] [blame]	6683	int maj = 0, min = 0;
				6684	u64 ino = 0, gen = 0;
Peter Zijlstra	f972eb6	2014-05-19 15:13:47 -0400	[diff] [blame]	6685	u32 prot = 0, flags = 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6686	unsigned int size;
				6687	char tmp[16];
				6688	char *buf = NULL;
Peter Zijlstra	2c42cfbf	2013-10-17 00:06:46 +0200	[diff] [blame]	6689	char *name;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6690
Peter Zijlstra	0b3589b	2017-01-26 23:15:08 +0100	[diff] [blame]	6691	if (vma->vm_flags & VM_READ)
				6692	prot \|= PROT_READ;
				6693	if (vma->vm_flags & VM_WRITE)
				6694	prot \|= PROT_WRITE;
				6695	if (vma->vm_flags & VM_EXEC)
				6696	prot \|= PROT_EXEC;
				6697
				6698	if (vma->vm_flags & VM_MAYSHARE)
				6699	flags = MAP_SHARED;
				6700	else
				6701	flags = MAP_PRIVATE;
				6702
				6703	if (vma->vm_flags & VM_DENYWRITE)
				6704	flags \|= MAP_DENYWRITE;
				6705	if (vma->vm_flags & VM_MAYEXEC)
				6706	flags \|= MAP_EXECUTABLE;
				6707	if (vma->vm_flags & VM_LOCKED)
				6708	flags \|= MAP_LOCKED;
				6709	if (vma->vm_flags & VM_HUGETLB)
				6710	flags \|= MAP_HUGETLB;
				6711
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6712	if (file) {
Stephane Eranian	13d7a24	2013-08-21 12:10:24 +0200	[diff] [blame]	6713	struct inode *inode;
				6714	dev_t dev;
Oleg Nesterov	3ea2f2b	2013-10-16 22:10:04 +0200	[diff] [blame]	6715
Peter Zijlstra	2c42cfbf	2013-10-17 00:06:46 +0200	[diff] [blame]	6716	buf = kmalloc(PATH_MAX, GFP_KERNEL);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6717	if (!buf) {
Oleg Nesterov	c7e548b	2013-10-17 20:24:17 +0200	[diff] [blame]	6718	name = "//enomem";
				6719	goto cpy_name;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6720	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6721	/*
Oleg Nesterov	3ea2f2b	2013-10-16 22:10:04 +0200	[diff] [blame]	6722	* d_path() works from the end of the rb backwards, so we
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6723	* need to add enough zero bytes after the string to handle
				6724	* the 64bit alignment we do later.
				6725	*/
Miklos Szeredi	9bf39ab	2015-06-19 10:29:13 +0200	[diff] [blame]	6726	name = file_path(file, buf, PATH_MAX - sizeof(u64));
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6727	if (IS_ERR(name)) {
Oleg Nesterov	c7e548b	2013-10-17 20:24:17 +0200	[diff] [blame]	6728	name = "//toolong";
				6729	goto cpy_name;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6730	}
Stephane Eranian	13d7a24	2013-08-21 12:10:24 +0200	[diff] [blame]	6731	inode = file_inode(vma->vm_file);
				6732	dev = inode->i_sb->s_dev;
				6733	ino = inode->i_ino;
				6734	gen = inode->i_generation;
				6735	maj = MAJOR(dev);
				6736	min = MINOR(dev);
Peter Zijlstra	f972eb6	2014-05-19 15:13:47 -0400	[diff] [blame]	6737
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6738	goto got_name;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6739	} else {
Jiri Olsa	fbe26ab	2014-07-14 17:57:19 +0200	[diff] [blame]	6740	if (vma->vm_ops && vma->vm_ops->name) {
				6741	name = (char *) vma->vm_ops->name(vma);
				6742	if (name)
				6743	goto cpy_name;
				6744	}
				6745
Peter Zijlstra	2c42cfbf	2013-10-17 00:06:46 +0200	[diff] [blame]	6746	name = (char *)arch_vma_name(vma);
Oleg Nesterov	c7e548b	2013-10-17 20:24:17 +0200	[diff] [blame]	6747	if (name)
				6748	goto cpy_name;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6749
Oleg Nesterov	32c5fb7	2013-10-16 22:09:45 +0200	[diff] [blame]	6750	if (vma->vm_start <= vma->vm_mm->start_brk &&
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6751	vma->vm_end >= vma->vm_mm->brk) {
Oleg Nesterov	c7e548b	2013-10-17 20:24:17 +0200	[diff] [blame]	6752	name = "[heap]";
				6753	goto cpy_name;
Oleg Nesterov	32c5fb7	2013-10-16 22:09:45 +0200	[diff] [blame]	6754	}
				6755	if (vma->vm_start <= vma->vm_mm->start_stack &&
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6756	vma->vm_end >= vma->vm_mm->start_stack) {
Oleg Nesterov	c7e548b	2013-10-17 20:24:17 +0200	[diff] [blame]	6757	name = "[stack]";
				6758	goto cpy_name;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6759	}
				6760
Oleg Nesterov	c7e548b	2013-10-17 20:24:17 +0200	[diff] [blame]	6761	name = "//anon";
				6762	goto cpy_name;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6763	}
				6764
Oleg Nesterov	c7e548b	2013-10-17 20:24:17 +0200	[diff] [blame]	6765	cpy_name:
				6766	strlcpy(tmp, name, sizeof(tmp));
				6767	name = tmp;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6768	got_name:
Peter Zijlstra	2c42cfbf	2013-10-17 00:06:46 +0200	[diff] [blame]	6769	/*
				6770	* Since our buffer works in 8 byte units we need to align our string
				6771	* size to a multiple of 8. However, we must guarantee the tail end is
				6772	* zero'd out to avoid leaking random bits to userspace.
				6773	*/
				6774	size = strlen(name)+1;
				6775	while (!IS_ALIGNED(size, sizeof(u64)))
				6776	name[size++] = '\0';
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6777
				6778	mmap_event->file_name = name;
				6779	mmap_event->file_size = size;
Stephane Eranian	13d7a24	2013-08-21 12:10:24 +0200	[diff] [blame]	6780	mmap_event->maj = maj;
				6781	mmap_event->min = min;
				6782	mmap_event->ino = ino;
				6783	mmap_event->ino_generation = gen;
Peter Zijlstra	f972eb6	2014-05-19 15:13:47 -0400	[diff] [blame]	6784	mmap_event->prot = prot;
				6785	mmap_event->flags = flags;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6786
Stephane Eranian	2fe8542	2013-01-24 16:10:39 +0100	[diff] [blame]	6787	if (!(vma->vm_flags & VM_EXEC))
				6788	mmap_event->event_id.header.misc \|= PERF_RECORD_MISC_MMAP_DATA;
				6789
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6790	mmap_event->event_id.header.size = sizeof(mmap_event->event_id) + size;
				6791
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	6792	perf_iterate_sb(perf_event_mmap_output,
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	6793	mmap_event,
				6794	NULL);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6795
				6796	kfree(buf);
				6797	}
				6798
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	6799	/*
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	6800	* Check whether inode and address range match filter criteria.
				6801	*/
				6802	static bool perf_addr_filter_match(struct perf_addr_filter *filter,
				6803	struct file *file, unsigned long offset,
				6804	unsigned long size)
				6805	{
Al Viro	4506309	2016-12-04 18:24:56 -0500	[diff] [blame]	6806	if (filter->inode != file_inode(file))
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	6807	return false;
				6808
				6809	if (filter->offset > offset + size)
				6810	return false;
				6811
				6812	if (filter->offset + filter->size < offset)
				6813	return false;
				6814
				6815	return true;
				6816	}
				6817
				6818	static void __perf_addr_filters_adjust(struct perf_event event, void data)
				6819	{
				6820	struct perf_addr_filters_head *ifh = perf_event_addr_filters(event);
				6821	struct vm_area_struct *vma = data;
				6822	unsigned long off = vma->vm_pgoff << PAGE_SHIFT, flags;
				6823	struct file *file = vma->vm_file;
				6824	struct perf_addr_filter *filter;
				6825	unsigned int restart = 0, count = 0;
				6826
				6827	if (!has_addr_filter(event))
				6828	return;
				6829
				6830	if (!file)
				6831	return;
				6832
				6833	raw_spin_lock_irqsave(&ifh->lock, flags);
				6834	list_for_each_entry(filter, &ifh->list, entry) {
				6835	if (perf_addr_filter_match(filter, file, off,
				6836	vma->vm_end - vma->vm_start)) {
				6837	event->addr_filters_offs[count] = vma->vm_start;
				6838	restart++;
				6839	}
				6840
				6841	count++;
				6842	}
				6843
				6844	if (restart)
				6845	event->addr_filters_gen++;
				6846	raw_spin_unlock_irqrestore(&ifh->lock, flags);
				6847
				6848	if (restart)
Alexander Shishkin	767ae08	2016-09-06 16:23:49 +0300	[diff] [blame]	6849	perf_event_stop(event, 1);
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	6850	}
				6851
				6852	/*
				6853	* Adjust all task's events' filters to the new vma
				6854	*/
				6855	static void perf_addr_filters_adjust(struct vm_area_struct *vma)
				6856	{
				6857	struct perf_event_context *ctx;
				6858	int ctxn;
				6859
Mathieu Poirier	12b40a2	2016-07-18 10:43:06 -0600	[diff] [blame]	6860	/*
				6861	* Data tracing isn't supported yet and as such there is no need
				6862	* to keep track of anything that isn't related to executable code:
				6863	*/
				6864	if (!(vma->vm_flags & VM_EXEC))
				6865	return;
				6866
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	6867	rcu_read_lock();
				6868	for_each_task_context_nr(ctxn) {
				6869	ctx = rcu_dereference(current->perf_event_ctxp[ctxn]);
				6870	if (!ctx)
				6871	continue;
				6872
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	6873	perf_iterate_ctx(ctx, __perf_addr_filters_adjust, vma, true);
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	6874	}
				6875	rcu_read_unlock();
				6876	}
				6877
Eric B Munson	3af9e85	2010-05-18 15:30:49 +0100	[diff] [blame]	6878	void perf_event_mmap(struct vm_area_struct *vma)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6879	{
				6880	struct perf_mmap_event mmap_event;
				6881
				6882	if (!atomic_read(&nr_mmap_events))
				6883	return;
				6884
				6885	mmap_event = (struct perf_mmap_event){
				6886	.vma = vma,
				6887	/* .file_name */
				6888	/* .file_size */
				6889	.event_id = {
				6890	.header = {
				6891	.type = PERF_RECORD_MMAP,
Zhang, Yanmin	39447b3	2010-04-19 13:32:41 +0800	[diff] [blame]	6892	.misc = PERF_RECORD_MISC_USER,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6893	/* .size */
				6894	},
				6895	/* .pid */
				6896	/* .tid */
				6897	.start = vma->vm_start,
				6898	.len = vma->vm_end - vma->vm_start,
Peter Zijlstra	3a0304e	2010-02-26 10:33:41 +0100	[diff] [blame]	6899	.pgoff = (u64)vma->vm_pgoff << PAGE_SHIFT,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6900	},
Stephane Eranian	13d7a24	2013-08-21 12:10:24 +0200	[diff] [blame]	6901	/* .maj (attr_mmap2 only) */
				6902	/* .min (attr_mmap2 only) */
				6903	/* .ino (attr_mmap2 only) */
				6904	/* .ino_generation (attr_mmap2 only) */
Peter Zijlstra	f972eb6	2014-05-19 15:13:47 -0400	[diff] [blame]	6905	/* .prot (attr_mmap2 only) */
				6906	/* .flags (attr_mmap2 only) */
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6907	};
				6908
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	6909	perf_addr_filters_adjust(vma);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6910	perf_event_mmap_event(&mmap_event);
				6911	}
				6912
Alexander Shishkin	68db7e9	2015-01-14 14:18:15 +0200	[diff] [blame]	6913	void perf_event_aux_event(struct perf_event *event, unsigned long head,
				6914	unsigned long size, u64 flags)
				6915	{
				6916	struct perf_output_handle handle;
				6917	struct perf_sample_data sample;
				6918	struct perf_aux_event {
				6919	struct perf_event_header header;
				6920	u64 offset;
				6921	u64 size;
				6922	u64 flags;
				6923	} rec = {
				6924	.header = {
				6925	.type = PERF_RECORD_AUX,
				6926	.misc = 0,
				6927	.size = sizeof(rec),
				6928	},
				6929	.offset = head,
				6930	.size = size,
				6931	.flags = flags,
				6932	};
				6933	int ret;
				6934
				6935	perf_event_header__init_id(&rec.header, &sample, event);
				6936	ret = perf_output_begin(&handle, event, rec.header.size);
				6937
				6938	if (ret)
				6939	return;
				6940
				6941	perf_output_put(&handle, rec);
				6942	perf_event__output_id_sample(event, &handle, &sample);
				6943
				6944	perf_output_end(&handle);
				6945	}
				6946
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6947	/*
Kan Liang	f38b0db	2015-05-10 15:13:14 -0400	[diff] [blame]	6948	* Lost/dropped samples logging
				6949	*/
				6950	void perf_log_lost_samples(struct perf_event *event, u64 lost)
				6951	{
				6952	struct perf_output_handle handle;
				6953	struct perf_sample_data sample;
				6954	int ret;
				6955
				6956	struct {
				6957	struct perf_event_header header;
				6958	u64 lost;
				6959	} lost_samples_event = {
				6960	.header = {
				6961	.type = PERF_RECORD_LOST_SAMPLES,
				6962	.misc = 0,
				6963	.size = sizeof(lost_samples_event),
				6964	},
				6965	.lost = lost,
				6966	};
				6967
				6968	perf_event_header__init_id(&lost_samples_event.header, &sample, event);
				6969
				6970	ret = perf_output_begin(&handle, event,
				6971	lost_samples_event.header.size);
				6972	if (ret)
				6973	return;
				6974
				6975	perf_output_put(&handle, lost_samples_event);
				6976	perf_event__output_id_sample(event, &handle, &sample);
				6977	perf_output_end(&handle);
				6978	}
				6979
				6980	/*
Adrian Hunter	45ac140	2015-07-21 12:44:02 +0300	[diff] [blame]	6981	* context_switch tracking
				6982	*/
				6983
				6984	struct perf_switch_event {
				6985	struct task_struct *task;
				6986	struct task_struct *next_prev;
				6987
				6988	struct {
				6989	struct perf_event_header header;
				6990	u32 next_prev_pid;
				6991	u32 next_prev_tid;
				6992	} event_id;
				6993	};
				6994
				6995	static int perf_event_switch_match(struct perf_event *event)
				6996	{
				6997	return event->attr.context_switch;
				6998	}
				6999
				7000	static void perf_event_switch_output(struct perf_event event, void data)
				7001	{
				7002	struct perf_switch_event *se = data;
				7003	struct perf_output_handle handle;
				7004	struct perf_sample_data sample;
				7005	int ret;
				7006
				7007	if (!perf_event_switch_match(event))
				7008	return;
				7009
				7010	/* Only CPU-wide events are allowed to see next/prev pid/tid */
				7011	if (event->ctx->task) {
				7012	se->event_id.header.type = PERF_RECORD_SWITCH;
				7013	se->event_id.header.size = sizeof(se->event_id.header);
				7014	} else {
				7015	se->event_id.header.type = PERF_RECORD_SWITCH_CPU_WIDE;
				7016	se->event_id.header.size = sizeof(se->event_id);
				7017	se->event_id.next_prev_pid =
				7018	perf_event_pid(event, se->next_prev);
				7019	se->event_id.next_prev_tid =
				7020	perf_event_tid(event, se->next_prev);
				7021	}
				7022
				7023	perf_event_header__init_id(&se->event_id.header, &sample, event);
				7024
				7025	ret = perf_output_begin(&handle, event, se->event_id.header.size);
				7026	if (ret)
				7027	return;
				7028
				7029	if (event->ctx->task)
				7030	perf_output_put(&handle, se->event_id.header);
				7031	else
				7032	perf_output_put(&handle, se->event_id);
				7033
				7034	perf_event__output_id_sample(event, &handle, &sample);
				7035
				7036	perf_output_end(&handle);
				7037	}
				7038
				7039	static void perf_event_switch(struct task_struct *task,
				7040	struct task_struct *next_prev, bool sched_in)
				7041	{
				7042	struct perf_switch_event switch_event;
				7043
				7044	/* N.B. caller checks nr_switch_events != 0 */
				7045
				7046	switch_event = (struct perf_switch_event){
				7047	.task = task,
				7048	.next_prev = next_prev,
				7049	.event_id = {
				7050	.header = {
				7051	/* .type */
				7052	.misc = sched_in ? 0 : PERF_RECORD_MISC_SWITCH_OUT,
				7053	/* .size */
				7054	},
				7055	/* .next_prev_pid */
				7056	/* .next_prev_tid */
				7057	},
				7058	};
				7059
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	7060	perf_iterate_sb(perf_event_switch_output,
Adrian Hunter	45ac140	2015-07-21 12:44:02 +0300	[diff] [blame]	7061	&switch_event,
				7062	NULL);
				7063	}
				7064
				7065	/*
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7066	* IRQ throttle logging
				7067	*/
				7068
				7069	static void perf_log_throttle(struct perf_event *event, int enable)
				7070	{
				7071	struct perf_output_handle handle;
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	7072	struct perf_sample_data sample;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7073	int ret;
				7074
				7075	struct {
				7076	struct perf_event_header header;
				7077	u64 time;
				7078	u64 id;
				7079	u64 stream_id;
				7080	} throttle_event = {
				7081	.header = {
				7082	.type = PERF_RECORD_THROTTLE,
				7083	.misc = 0,
				7084	.size = sizeof(throttle_event),
				7085	},
Peter Zijlstra	34f4392	2015-02-20 14:05:38 +0100	[diff] [blame]	7086	.time = perf_event_clock(event),
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7087	.id = primary_event_id(event),
				7088	.stream_id = event->id,
				7089	};
				7090
				7091	if (enable)
				7092	throttle_event.header.type = PERF_RECORD_UNTHROTTLE;
				7093
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	7094	perf_event_header__init_id(&throttle_event.header, &sample, event);
				7095
				7096	ret = perf_output_begin(&handle, event,
Peter Zijlstra	a7ac67e	2011-06-27 16:47:16 +0200	[diff] [blame]	7097	throttle_event.header.size);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7098	if (ret)
				7099	return;
				7100
				7101	perf_output_put(&handle, throttle_event);
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	7102	perf_event__output_id_sample(event, &handle, &sample);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7103	perf_output_end(&handle);
				7104	}
				7105
Alexander Shishkin	ec0d772	2015-01-14 14:18:23 +0200	[diff] [blame]	7106	static void perf_log_itrace_start(struct perf_event *event)
				7107	{
				7108	struct perf_output_handle handle;
				7109	struct perf_sample_data sample;
				7110	struct perf_aux_event {
				7111	struct perf_event_header header;
				7112	u32 pid;
				7113	u32 tid;
				7114	} rec;
				7115	int ret;
				7116
				7117	if (event->parent)
				7118	event = event->parent;
				7119
				7120	if (!(event->pmu->capabilities & PERF_PMU_CAP_ITRACE) \|\|
				7121	event->hw.itrace_started)
				7122	return;
				7123
Alexander Shishkin	ec0d772	2015-01-14 14:18:23 +0200	[diff] [blame]	7124	rec.header.type = PERF_RECORD_ITRACE_START;
				7125	rec.header.misc = 0;
				7126	rec.header.size = sizeof(rec);
				7127	rec.pid = perf_event_pid(event, current);
				7128	rec.tid = perf_event_tid(event, current);
				7129
				7130	perf_event_header__init_id(&rec.header, &sample, event);
				7131	ret = perf_output_begin(&handle, event, rec.header.size);
				7132
				7133	if (ret)
				7134	return;
				7135
				7136	perf_output_put(&handle, rec);
				7137	perf_event__output_id_sample(event, &handle, &sample);
				7138
				7139	perf_output_end(&handle);
				7140	}
				7141
Jiri Olsa	475113d	2016-12-28 14:31:03 +0100	[diff] [blame]	7142	static int
				7143	__perf_event_account_interrupt(struct perf_event *event, int throttle)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7144	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7145	struct hw_perf_event *hwc = &event->hw;
				7146	int ret = 0;
Jiri Olsa	475113d	2016-12-28 14:31:03 +0100	[diff] [blame]	7147	u64 seq;
Peter Zijlstra	9639882	2010-11-24 18:55:29 +0100	[diff] [blame]	7148
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	7149	seq = __this_cpu_read(perf_throttled_seq);
				7150	if (seq != hwc->interrupts_seq) {
				7151	hwc->interrupts_seq = seq;
				7152	hwc->interrupts = 1;
				7153	} else {
				7154	hwc->interrupts++;
				7155	if (unlikely(throttle
				7156	&& hwc->interrupts >= max_samples_per_tick)) {
				7157	__this_cpu_inc(perf_throttled_count);
Frederic Weisbecker	555e0c1	2015-07-16 17:42:29 +0200	[diff] [blame]	7158	tick_dep_set_cpu(smp_processor_id(), TICK_DEP_BIT_PERF_EVENTS);
Peter Zijlstra	163ec43	2011-02-16 11:22:34 +0100	[diff] [blame]	7159	hwc->interrupts = MAX_INTERRUPTS;
				7160	perf_log_throttle(event, 0);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7161	ret = 1;
				7162	}
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	7163	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7164
				7165	if (event->attr.freq) {
				7166	u64 now = perf_clock();
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	7167	s64 delta = now - hwc->freq_time_stamp;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7168
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	7169	hwc->freq_time_stamp = now;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7170
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	7171	if (delta > 0 && delta < 2*TICK_NSEC)
Stephane Eranian	f39d47f	2012-02-07 14:39:57 +0100	[diff] [blame]	7172	perf_adjust_period(event, delta, hwc->last_period, true);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7173	}
				7174
Jiri Olsa	475113d	2016-12-28 14:31:03 +0100	[diff] [blame]	7175	return ret;
				7176	}
				7177
				7178	int perf_event_account_interrupt(struct perf_event *event)
				7179	{
				7180	return __perf_event_account_interrupt(event, 1);
				7181	}
				7182
				7183	/*
				7184	* Generic event overflow handling, sampling.
				7185	*/
				7186
				7187	static int __perf_event_overflow(struct perf_event *event,
				7188	int throttle, struct perf_sample_data *data,
				7189	struct pt_regs *regs)
				7190	{
				7191	int events = atomic_read(&event->event_limit);
				7192	int ret = 0;
				7193
				7194	/*
				7195	* Non-sampling counters might still use the PMI to fold short
				7196	* hardware counters, ignore those.
				7197	*/
				7198	if (unlikely(!is_sampling_event(event)))
				7199	return 0;
				7200
				7201	ret = __perf_event_account_interrupt(event, throttle);
				7202
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7203	/*
				7204	* XXX event_limit might not quite work as expected on inherited
				7205	* events
				7206	*/
				7207
				7208	event->pending_kill = POLL_IN;
				7209	if (events && atomic_dec_and_test(&event->event_limit)) {
				7210	ret = 1;
				7211	event->pending_kill = POLL_HUP;
Jiri Olsa	5aab90c	2016-10-26 11:48:24 +0200	[diff] [blame]	7212
				7213	perf_event_disable_inatomic(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7214	}
				7215
Alexei Starovoitov	aa6a5f3	2016-09-01 18:37:24 -0700	[diff] [blame]	7216	READ_ONCE(event->overflow_handler)(event, data, regs);
Peter Zijlstra	453f19e	2009-11-20 22:19:43 +0100	[diff] [blame]	7217
Peter Zijlstra	fed66e2cd	2015-06-11 10:32:01 +0200	[diff] [blame]	7218	if (*perf_event_fasync(event) && event->pending_kill) {
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	7219	event->pending_wakeup = 1;
				7220	irq_work_queue(&event->pending);
Peter Zijlstra	f506b3d	2011-05-26 17:02:53 +0200	[diff] [blame]	7221	}
				7222
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7223	return ret;
				7224	}
				7225
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	7226	int perf_event_overflow(struct perf_event *event,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7227	struct perf_sample_data *data,
				7228	struct pt_regs *regs)
				7229	{
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	7230	return __perf_event_overflow(event, 1, data, regs);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7231	}
				7232
				7233	/*
				7234	* Generic software event infrastructure
				7235	*/
				7236
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	7237	struct swevent_htable {
				7238	struct swevent_hlist *swevent_hlist;
				7239	struct mutex hlist_mutex;
				7240	int hlist_refcount;
				7241
				7242	/* Recursion avoidance in each contexts */
				7243	int recursion[PERF_NR_CONTEXTS];
				7244	};
				7245
				7246	static DEFINE_PER_CPU(struct swevent_htable, swevent_htable);
				7247
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7248	/*
				7249	* We directly increment event->count and keep a second value in
				7250	* event->hw.period_left to count intervals. This period event
				7251	* is kept in the range [-sample_period, 0] so that we can use the
				7252	* sign as trigger.
				7253	*/
				7254
Jiri Olsa	ab57384	2013-05-01 17:25:44 +0200	[diff] [blame]	7255	u64 perf_swevent_set_period(struct perf_event *event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7256	{
				7257	struct hw_perf_event *hwc = &event->hw;
				7258	u64 period = hwc->last_period;
				7259	u64 nr, offset;
				7260	s64 old, val;
				7261
				7262	hwc->last_period = hwc->sample_period;
				7263
				7264	again:
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	7265	old = val = local64_read(&hwc->period_left);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7266	if (val < 0)
				7267	return 0;
				7268
				7269	nr = div64_u64(period + val, period);
				7270	offset = nr * period;
				7271	val -= offset;
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	7272	if (local64_cmpxchg(&hwc->period_left, old, val) != old)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7273	goto again;
				7274
				7275	return nr;
				7276	}
				7277
Peter Zijlstra	0cff784	2009-11-20 22:19:44 +0100	[diff] [blame]	7278	static void perf_swevent_overflow(struct perf_event *event, u64 overflow,
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	7279	struct perf_sample_data *data,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7280	struct pt_regs *regs)
				7281	{
				7282	struct hw_perf_event *hwc = &event->hw;
				7283	int throttle = 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7284
Peter Zijlstra	0cff784	2009-11-20 22:19:44 +0100	[diff] [blame]	7285	if (!overflow)
				7286	overflow = perf_swevent_set_period(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7287
				7288	if (hwc->interrupts == MAX_INTERRUPTS)
				7289	return;
				7290
				7291	for (; overflow; overflow--) {
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	7292	if (__perf_event_overflow(event, throttle,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7293	data, regs)) {
				7294	/*
				7295	* We inhibit the overflow from happening when
				7296	* hwc->interrupts == MAX_INTERRUPTS.
				7297	*/
				7298	break;
				7299	}
				7300	throttle = 1;
				7301	}
				7302	}
				7303
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	7304	static void perf_swevent_event(struct perf_event *event, u64 nr,
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	7305	struct perf_sample_data *data,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7306	struct pt_regs *regs)
				7307	{
				7308	struct hw_perf_event *hwc = &event->hw;
				7309
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	7310	local64_add(nr, &event->count);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7311
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7312	if (!regs)
				7313	return;
				7314
Franck Bui-Huu	6c7e550	2010-11-23 16:21:43 +0100	[diff] [blame]	7315	if (!is_sampling_event(event))
Peter Zijlstra	0cff784	2009-11-20 22:19:44 +0100	[diff] [blame]	7316	return;
				7317
Andrew Vagin	5d81e5c	2011-11-07 15:54:12 +0300	[diff] [blame]	7318	if ((event->attr.sample_type & PERF_SAMPLE_PERIOD) && !event->attr.freq) {
				7319	data->period = nr;
				7320	return perf_swevent_overflow(event, 1, data, regs);
				7321	} else
				7322	data->period = event->hw.last_period;
				7323
Peter Zijlstra	0cff784	2009-11-20 22:19:44 +0100	[diff] [blame]	7324	if (nr == 1 && hwc->sample_period == 1 && !event->attr.freq)
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	7325	return perf_swevent_overflow(event, 1, data, regs);
Peter Zijlstra	0cff784	2009-11-20 22:19:44 +0100	[diff] [blame]	7326
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	7327	if (local64_add_negative(nr, &hwc->period_left))
Peter Zijlstra	0cff784	2009-11-20 22:19:44 +0100	[diff] [blame]	7328	return;
				7329
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	7330	perf_swevent_overflow(event, 0, data, regs);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7331	}
				7332
Frederic Weisbecker	f5ffe02	2009-11-23 15:42:34 +0100	[diff] [blame]	7333	static int perf_exclude_event(struct perf_event *event,
				7334	struct pt_regs *regs)
				7335	{
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	7336	if (event->hw.state & PERF_HES_STOPPED)
Frederic Weisbecker	91b2f48	2011-03-07 21:27:08 +0100	[diff] [blame]	7337	return 1;
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	7338
Frederic Weisbecker	f5ffe02	2009-11-23 15:42:34 +0100	[diff] [blame]	7339	if (regs) {
				7340	if (event->attr.exclude_user && user_mode(regs))
				7341	return 1;
				7342
				7343	if (event->attr.exclude_kernel && !user_mode(regs))
				7344	return 1;
				7345	}
				7346
				7347	return 0;
				7348	}
				7349
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7350	static int perf_swevent_match(struct perf_event *event,
				7351	enum perf_type_id type,
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	7352	u32 event_id,
				7353	struct perf_sample_data *data,
				7354	struct pt_regs *regs)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7355	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7356	if (event->attr.type != type)
				7357	return 0;
Frederic Weisbecker	f5ffe02	2009-11-23 15:42:34 +0100	[diff] [blame]	7358
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7359	if (event->attr.config != event_id)
				7360	return 0;
				7361
Frederic Weisbecker	f5ffe02	2009-11-23 15:42:34 +0100	[diff] [blame]	7362	if (perf_exclude_event(event, regs))
				7363	return 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7364
				7365	return 1;
				7366	}
				7367
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7368	static inline u64 swevent_hash(u64 type, u32 event_id)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7369	{
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7370	u64 val = event_id \| (type << 32);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7371
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7372	return hash_64(val, SWEVENT_HLIST_BITS);
				7373	}
				7374
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	7375	static inline struct hlist_head *
				7376	__find_swevent_head(struct swevent_hlist *hlist, u64 type, u32 event_id)
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7377	{
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	7378	u64 hash = swevent_hash(type, event_id);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7379
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	7380	return &hlist->heads[hash];
				7381	}
				7382
				7383	/* For the read side: events when they trigger */
				7384	static inline struct hlist_head *
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	7385	find_swevent_head_rcu(struct swevent_htable *swhash, u64 type, u32 event_id)
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	7386	{
				7387	struct swevent_hlist *hlist;
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7388
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	7389	hlist = rcu_dereference(swhash->swevent_hlist);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7390	if (!hlist)
				7391	return NULL;
				7392
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	7393	return __find_swevent_head(hlist, type, event_id);
				7394	}
				7395
				7396	/* For the event head insertion and removal in the hlist */
				7397	static inline struct hlist_head *
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	7398	find_swevent_head(struct swevent_htable swhash, struct perf_event event)
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	7399	{
				7400	struct swevent_hlist *hlist;
				7401	u32 event_id = event->attr.config;
				7402	u64 type = event->attr.type;
				7403
				7404	/*
				7405	* Event scheduling is always serialized against hlist allocation
				7406	* and release. Which makes the protected version suitable here.
				7407	* The context lock guarantees that.
				7408	*/
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	7409	hlist = rcu_dereference_protected(swhash->swevent_hlist,
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	7410	lockdep_is_held(&event->ctx->lock));
				7411	if (!hlist)
				7412	return NULL;
				7413
				7414	return __find_swevent_head(hlist, type, event_id);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7415	}
				7416
				7417	static void do_perf_sw_event(enum perf_type_id type, u32 event_id,
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	7418	u64 nr,
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7419	struct perf_sample_data *data,
				7420	struct pt_regs *regs)
				7421	{
Christoph Lameter	4a32fea	2014-08-17 12:30:27 -0500	[diff] [blame]	7422	struct swevent_htable *swhash = this_cpu_ptr(&swevent_htable);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7423	struct perf_event *event;
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7424	struct hlist_head *head;
				7425
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7426	rcu_read_lock();
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	7427	head = find_swevent_head_rcu(swhash, type, event_id);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7428	if (!head)
				7429	goto end;
				7430
Sasha Levin	b67bfe0	2013-02-27 17:06:00 -0800	[diff] [blame]	7431	hlist_for_each_entry_rcu(event, head, hlist_entry) {
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	7432	if (perf_swevent_match(event, type, event_id, data, regs))
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	7433	perf_swevent_event(event, nr, data, regs);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7434	}
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7435	end:
				7436	rcu_read_unlock();
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7437	}
				7438
Peter Zijlstra (Intel)	86038c5	2014-12-16 12:47:34 +0100	[diff] [blame]	7439	DEFINE_PER_CPU(struct pt_regs, __perf_regs[4]);
				7440
Peter Zijlstra	4ed7c92	2009-11-23 11:37:29 +0100	[diff] [blame]	7441	int perf_swevent_get_recursion_context(void)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7442	{
Christoph Lameter	4a32fea	2014-08-17 12:30:27 -0500	[diff] [blame]	7443	struct swevent_htable *swhash = this_cpu_ptr(&swevent_htable);
Frederic Weisbecker	ce71b9d	2009-11-22 05:26:55 +0100	[diff] [blame]	7444
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	7445	return get_recursion_context(swhash->recursion);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7446	}
Ingo Molnar	645e8cc	2009-11-22 12:20:19 +0100	[diff] [blame]	7447	EXPORT_SYMBOL_GPL(perf_swevent_get_recursion_context);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7448
Alexei Starovoitov	98b5c2c	2016-04-06 18:43:25 -0700	[diff] [blame]	7449	void perf_swevent_put_recursion_context(int rctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7450	{
Christoph Lameter	4a32fea	2014-08-17 12:30:27 -0500	[diff] [blame]	7451	struct swevent_htable *swhash = this_cpu_ptr(&swevent_htable);
Frederic Weisbecker	927c7a9	2010-07-01 16:20:36 +0200	[diff] [blame]	7452
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	7453	put_recursion_context(swhash->recursion, rctx);
Frederic Weisbecker	ce71b9d	2009-11-22 05:26:55 +0100	[diff] [blame]	7454	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7455
Peter Zijlstra (Intel)	86038c5	2014-12-16 12:47:34 +0100	[diff] [blame]	7456	void ___perf_sw_event(u32 event_id, u64 nr, struct pt_regs *regs, u64 addr)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7457	{
Ingo Molnar	a4234bf	2009-11-23 10:57:59 +0100	[diff] [blame]	7458	struct perf_sample_data data;
Peter Zijlstra (Intel)	86038c5	2014-12-16 12:47:34 +0100	[diff] [blame]	7459
				7460	if (WARN_ON_ONCE(!regs))
				7461	return;
				7462
				7463	perf_sample_data_init(&data, addr, 0);
				7464	do_perf_sw_event(PERF_TYPE_SOFTWARE, event_id, nr, &data, regs);
				7465	}
				7466
				7467	void __perf_sw_event(u32 event_id, u64 nr, struct pt_regs *regs, u64 addr)
				7468	{
Peter Zijlstra	4ed7c92	2009-11-23 11:37:29 +0100	[diff] [blame]	7469	int rctx;
				7470
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	7471	preempt_disable_notrace();
Peter Zijlstra	4ed7c92	2009-11-23 11:37:29 +0100	[diff] [blame]	7472	rctx = perf_swevent_get_recursion_context();
Peter Zijlstra (Intel)	86038c5	2014-12-16 12:47:34 +0100	[diff] [blame]	7473	if (unlikely(rctx < 0))
				7474	goto fail;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7475
Peter Zijlstra (Intel)	86038c5	2014-12-16 12:47:34 +0100	[diff] [blame]	7476	___perf_sw_event(event_id, nr, regs, addr);
Peter Zijlstra	4ed7c92	2009-11-23 11:37:29 +0100	[diff] [blame]	7477
				7478	perf_swevent_put_recursion_context(rctx);
Peter Zijlstra (Intel)	86038c5	2014-12-16 12:47:34 +0100	[diff] [blame]	7479	fail:
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	7480	preempt_enable_notrace();
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7481	}
				7482
				7483	static void perf_swevent_read(struct perf_event *event)
				7484	{
				7485	}
				7486
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	7487	static int perf_swevent_add(struct perf_event *event, int flags)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7488	{
Christoph Lameter	4a32fea	2014-08-17 12:30:27 -0500	[diff] [blame]	7489	struct swevent_htable *swhash = this_cpu_ptr(&swevent_htable);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7490	struct hw_perf_event *hwc = &event->hw;
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7491	struct hlist_head *head;
				7492
Franck Bui-Huu	6c7e550	2010-11-23 16:21:43 +0100	[diff] [blame]	7493	if (is_sampling_event(event)) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7494	hwc->last_period = hwc->sample_period;
				7495	perf_swevent_set_period(event);
				7496	}
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7497
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	7498	hwc->state = !(flags & PERF_EF_START);
				7499
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	7500	head = find_swevent_head(swhash, event);
Peter Zijlstra	12ca6ad	2015-12-15 13:49:05 +0100	[diff] [blame]	7501	if (WARN_ON_ONCE(!head))
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7502	return -EINVAL;
				7503
				7504	hlist_add_head_rcu(&event->hlist_entry, head);
Shaohua Li	6a694a6	2015-02-05 15:55:32 -0800	[diff] [blame]	7505	perf_event_update_userpage(event);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7506
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7507	return 0;
				7508	}
				7509
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	7510	static void perf_swevent_del(struct perf_event *event, int flags)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7511	{
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7512	hlist_del_rcu(&event->hlist_entry);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7513	}
				7514
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	7515	static void perf_swevent_start(struct perf_event *event, int flags)
Peter Zijlstra	c6df8d5	2010-06-03 11:21:20 +0200	[diff] [blame]	7516	{
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	7517	event->hw.state = 0;
Peter Zijlstra	c6df8d5	2010-06-03 11:21:20 +0200	[diff] [blame]	7518	}
				7519
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	7520	static void perf_swevent_stop(struct perf_event *event, int flags)
Peter Zijlstra	c6df8d5	2010-06-03 11:21:20 +0200	[diff] [blame]	7521	{
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	7522	event->hw.state = PERF_HES_STOPPED;
Peter Zijlstra	c6df8d5	2010-06-03 11:21:20 +0200	[diff] [blame]	7523	}
				7524
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	7525	/* Deref the hlist from the update side */
				7526	static inline struct swevent_hlist *
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	7527	swevent_hlist_deref(struct swevent_htable *swhash)
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	7528	{
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	7529	return rcu_dereference_protected(swhash->swevent_hlist,
				7530	lockdep_is_held(&swhash->hlist_mutex));
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	7531	}
				7532
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	7533	static void swevent_hlist_release(struct swevent_htable *swhash)
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7534	{
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	7535	struct swevent_hlist *hlist = swevent_hlist_deref(swhash);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7536
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	7537	if (!hlist)
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7538	return;
				7539
Andreea-Cristina Bernat	70691d4	2014-08-22 16:26:05 +0300	[diff] [blame]	7540	RCU_INIT_POINTER(swhash->swevent_hlist, NULL);
Lai Jiangshan	fa4bbc4	2011-03-18 12:08:29 +0800	[diff] [blame]	7541	kfree_rcu(hlist, rcu_head);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7542	}
				7543
Thomas Gleixner	3b364d7	2016-02-09 20:11:40 +0000	[diff] [blame]	7544	static void swevent_hlist_put_cpu(int cpu)
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7545	{
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	7546	struct swevent_htable *swhash = &per_cpu(swevent_htable, cpu);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7547
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	7548	mutex_lock(&swhash->hlist_mutex);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7549
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	7550	if (!--swhash->hlist_refcount)
				7551	swevent_hlist_release(swhash);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7552
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	7553	mutex_unlock(&swhash->hlist_mutex);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7554	}
				7555
Thomas Gleixner	3b364d7	2016-02-09 20:11:40 +0000	[diff] [blame]	7556	static void swevent_hlist_put(void)
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7557	{
				7558	int cpu;
				7559
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7560	for_each_possible_cpu(cpu)
Thomas Gleixner	3b364d7	2016-02-09 20:11:40 +0000	[diff] [blame]	7561	swevent_hlist_put_cpu(cpu);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7562	}
				7563
Thomas Gleixner	3b364d7	2016-02-09 20:11:40 +0000	[diff] [blame]	7564	static int swevent_hlist_get_cpu(int cpu)
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7565	{
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	7566	struct swevent_htable *swhash = &per_cpu(swevent_htable, cpu);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7567	int err = 0;
				7568
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	7569	mutex_lock(&swhash->hlist_mutex);
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	7570	if (!swevent_hlist_deref(swhash) && cpu_online(cpu)) {
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7571	struct swevent_hlist *hlist;
				7572
				7573	hlist = kzalloc(sizeof(*hlist), GFP_KERNEL);
				7574	if (!hlist) {
				7575	err = -ENOMEM;
				7576	goto exit;
				7577	}
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	7578	rcu_assign_pointer(swhash->swevent_hlist, hlist);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7579	}
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	7580	swhash->hlist_refcount++;
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	7581	exit:
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	7582	mutex_unlock(&swhash->hlist_mutex);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7583
				7584	return err;
				7585	}
				7586
Thomas Gleixner	3b364d7	2016-02-09 20:11:40 +0000	[diff] [blame]	7587	static int swevent_hlist_get(void)
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7588	{
Thomas Gleixner	3b364d7	2016-02-09 20:11:40 +0000	[diff] [blame]	7589	int err, cpu, failed_cpu;
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7590
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7591	get_online_cpus();
				7592	for_each_possible_cpu(cpu) {
Thomas Gleixner	3b364d7	2016-02-09 20:11:40 +0000	[diff] [blame]	7593	err = swevent_hlist_get_cpu(cpu);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7594	if (err) {
				7595	failed_cpu = cpu;
				7596	goto fail;
				7597	}
				7598	}
				7599	put_online_cpus();
				7600
				7601	return 0;
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	7602	fail:
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7603	for_each_possible_cpu(cpu) {
				7604	if (cpu == failed_cpu)
				7605	break;
Thomas Gleixner	3b364d7	2016-02-09 20:11:40 +0000	[diff] [blame]	7606	swevent_hlist_put_cpu(cpu);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7607	}
				7608
				7609	put_online_cpus();
				7610	return err;
				7611	}
				7612
Ingo Molnar	c5905af	2012-02-24 08:31:31 +0100	[diff] [blame]	7613	struct static_key perf_swevent_enabled[PERF_COUNT_SW_MAX];
Frederic Weisbecker	95476b6	2010-04-14 23:42:18 +0200	[diff] [blame]	7614
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	7615	static void sw_perf_event_destroy(struct perf_event *event)
				7616	{
				7617	u64 event_id = event->attr.config;
				7618
				7619	WARN_ON(event->parent);
				7620
Ingo Molnar	c5905af	2012-02-24 08:31:31 +0100	[diff] [blame]	7621	static_key_slow_dec(&perf_swevent_enabled[event_id]);
Thomas Gleixner	3b364d7	2016-02-09 20:11:40 +0000	[diff] [blame]	7622	swevent_hlist_put();
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	7623	}
				7624
				7625	static int perf_swevent_init(struct perf_event *event)
				7626	{
Tommi Rantala	8176cce	2013-04-13 22:49:14 +0300	[diff] [blame]	7627	u64 event_id = event->attr.config;
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	7628
				7629	if (event->attr.type != PERF_TYPE_SOFTWARE)
				7630	return -ENOENT;
				7631
Stephane Eranian	2481c5f	2012-02-09 23:20:59 +0100	[diff] [blame]	7632	/*
				7633	* no branch sampling for software events
				7634	*/
				7635	if (has_branch_stack(event))
				7636	return -EOPNOTSUPP;
				7637
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	7638	switch (event_id) {
				7639	case PERF_COUNT_SW_CPU_CLOCK:
				7640	case PERF_COUNT_SW_TASK_CLOCK:
				7641	return -ENOENT;
				7642
				7643	default:
				7644	break;
				7645	}
				7646
Dan Carpenter	ce67783	2010-10-24 21:50:42 +0200	[diff] [blame]	7647	if (event_id >= PERF_COUNT_SW_MAX)
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	7648	return -ENOENT;
				7649
				7650	if (!event->parent) {
				7651	int err;
				7652
Thomas Gleixner	3b364d7	2016-02-09 20:11:40 +0000	[diff] [blame]	7653	err = swevent_hlist_get();
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	7654	if (err)
				7655	return err;
				7656
Ingo Molnar	c5905af	2012-02-24 08:31:31 +0100	[diff] [blame]	7657	static_key_slow_inc(&perf_swevent_enabled[event_id]);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	7658	event->destroy = sw_perf_event_destroy;
				7659	}
				7660
				7661	return 0;
				7662	}
				7663
				7664	static struct pmu perf_swevent = {
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	7665	.task_ctx_nr = perf_sw_context,
				7666
Peter Zijlstra	34f4392	2015-02-20 14:05:38 +0100	[diff] [blame]	7667	.capabilities = PERF_PMU_CAP_NO_NMI,
				7668
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	7669	.event_init = perf_swevent_init,
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	7670	.add = perf_swevent_add,
				7671	.del = perf_swevent_del,
				7672	.start = perf_swevent_start,
				7673	.stop = perf_swevent_stop,
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	7674	.read = perf_swevent_read,
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	7675	};
Frederic Weisbecker	95476b6	2010-04-14 23:42:18 +0200	[diff] [blame]	7676
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	7677	#ifdef CONFIG_EVENT_TRACING
				7678
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	7679	static int perf_tp_filter_match(struct perf_event *event,
Frederic Weisbecker	95476b6	2010-04-14 23:42:18 +0200	[diff] [blame]	7680	struct perf_sample_data *data)
				7681	{
Daniel Borkmann	7e3f977	2016-07-14 18:08:03 +0200	[diff] [blame]	7682	void *record = data->raw->frag.data;
Frederic Weisbecker	95476b6	2010-04-14 23:42:18 +0200	[diff] [blame]	7683
Peter Zijlstra	b71b437	2015-11-02 10:50:51 +0100	[diff] [blame]	7684	/* only top level events have filters set */
				7685	if (event->parent)
				7686	event = event->parent;
				7687
Frederic Weisbecker	95476b6	2010-04-14 23:42:18 +0200	[diff] [blame]	7688	if (likely(!event->filter) \|\| filter_match_preds(event->filter, record))
				7689	return 1;
				7690	return 0;
				7691	}
				7692
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	7693	static int perf_tp_event_match(struct perf_event *event,
				7694	struct perf_sample_data *data,
				7695	struct pt_regs *regs)
				7696	{
Frederic Weisbecker	a0f7d0f	2011-03-07 21:27:09 +0100	[diff] [blame]	7697	if (event->hw.state & PERF_HES_STOPPED)
				7698	return 0;
Peter Zijlstra	580d607	2010-05-20 20:54:31 +0200	[diff] [blame]	7699	/*
				7700	* All tracepoints are from kernel-space.
				7701	*/
				7702	if (event->attr.exclude_kernel)
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	7703	return 0;
				7704
				7705	if (!perf_tp_filter_match(event, data))
				7706	return 0;
				7707
				7708	return 1;
				7709	}
				7710
Alexei Starovoitov	85b67bc	2016-04-18 20:11:50 -0700	[diff] [blame]	7711	void perf_trace_run_bpf_submit(void *raw_data, int size, int rctx,
				7712	struct trace_event_call *call, u64 count,
				7713	struct pt_regs regs, struct hlist_head head,
				7714	struct task_struct *task)
				7715	{
				7716	struct bpf_prog *prog = call->prog;
				7717
				7718	if (prog) {
				7719	(struct pt_regs *)raw_data = regs;
				7720	if (!trace_call_bpf(prog, raw_data) \|\| hlist_empty(head)) {
				7721	perf_swevent_put_recursion_context(rctx);
				7722	return;
				7723	}
				7724	}
				7725	perf_tp_event(call->event.type, count, raw_data, size, regs, head,
				7726	rctx, task);
				7727	}
				7728	EXPORT_SYMBOL_GPL(perf_trace_run_bpf_submit);
				7729
Alexei Starovoitov	1e1dcd9	2016-04-06 18:43:24 -0700	[diff] [blame]	7730	void perf_tp_event(u16 event_type, u64 count, void *record, int entry_size,
Andrew Vagin	e6dab5f	2012-07-11 18:14:58 +0400	[diff] [blame]	7731	struct pt_regs regs, struct hlist_head head, int rctx,
				7732	struct task_struct *task)
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	7733	{
				7734	struct perf_sample_data data;
				7735	struct perf_event *event;
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	7736
				7737	struct perf_raw_record raw = {
Daniel Borkmann	7e3f977	2016-07-14 18:08:03 +0200	[diff] [blame]	7738	.frag = {
				7739	.size = entry_size,
				7740	.data = record,
				7741	},
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	7742	};
				7743
Alexei Starovoitov	1e1dcd9	2016-04-06 18:43:24 -0700	[diff] [blame]	7744	perf_sample_data_init(&data, 0, 0);
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	7745	data.raw = &raw;
				7746
Alexei Starovoitov	1e1dcd9	2016-04-06 18:43:24 -0700	[diff] [blame]	7747	perf_trace_buf_update(record, event_type);
				7748
Sasha Levin	b67bfe0	2013-02-27 17:06:00 -0800	[diff] [blame]	7749	hlist_for_each_entry_rcu(event, head, hlist_entry) {
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	7750	if (perf_tp_event_match(event, &data, regs))
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	7751	perf_swevent_event(event, count, &data, regs);
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	7752	}
Peter Zijlstra	ecc55f8	2010-05-21 15:11:34 +0200	[diff] [blame]	7753
Andrew Vagin	e6dab5f	2012-07-11 18:14:58 +0400	[diff] [blame]	7754	/*
				7755	* If we got specified a target task, also iterate its context and
				7756	* deliver this event there too.
				7757	*/
				7758	if (task && task != current) {
				7759	struct perf_event_context *ctx;
				7760	struct trace_entry *entry = record;
				7761
				7762	rcu_read_lock();
				7763	ctx = rcu_dereference(task->perf_event_ctxp[perf_sw_context]);
				7764	if (!ctx)
				7765	goto unlock;
				7766
				7767	list_for_each_entry_rcu(event, &ctx->event_list, event_entry) {
				7768	if (event->attr.type != PERF_TYPE_TRACEPOINT)
				7769	continue;
				7770	if (event->attr.config != entry->type)
				7771	continue;
				7772	if (perf_tp_event_match(event, &data, regs))
				7773	perf_swevent_event(event, count, &data, regs);
				7774	}
				7775	unlock:
				7776	rcu_read_unlock();
				7777	}
				7778
Peter Zijlstra	ecc55f8	2010-05-21 15:11:34 +0200	[diff] [blame]	7779	perf_swevent_put_recursion_context(rctx);
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	7780	}
				7781	EXPORT_SYMBOL_GPL(perf_tp_event);
				7782
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7783	static void tp_perf_event_destroy(struct perf_event *event)
				7784	{
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	7785	perf_trace_destroy(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7786	}
				7787
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	7788	static int perf_tp_event_init(struct perf_event *event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7789	{
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7790	int err;
				7791
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	7792	if (event->attr.type != PERF_TYPE_TRACEPOINT)
				7793	return -ENOENT;
				7794
Stephane Eranian	2481c5f	2012-02-09 23:20:59 +0100	[diff] [blame]	7795	/*
				7796	* no branch sampling for tracepoint events
				7797	*/
				7798	if (has_branch_stack(event))
				7799	return -EOPNOTSUPP;
				7800
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	7801	err = perf_trace_init(event);
				7802	if (err)
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	7803	return err;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7804
				7805	event->destroy = tp_perf_event_destroy;
				7806
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	7807	return 0;
				7808	}
				7809
				7810	static struct pmu perf_tracepoint = {
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	7811	.task_ctx_nr = perf_sw_context,
				7812
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	7813	.event_init = perf_tp_event_init,
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	7814	.add = perf_trace_add,
				7815	.del = perf_trace_del,
				7816	.start = perf_swevent_start,
				7817	.stop = perf_swevent_stop,
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	7818	.read = perf_swevent_read,
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	7819	};
				7820
				7821	static inline void perf_tp_register(void)
				7822	{
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	7823	perf_pmu_register(&perf_tracepoint, "tracepoint", PERF_TYPE_TRACEPOINT);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7824	}
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	7825
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	7826	static void perf_event_free_filter(struct perf_event *event)
				7827	{
				7828	ftrace_profile_free_filter(event);
				7829	}
				7830
Alexei Starovoitov	aa6a5f3	2016-09-01 18:37:24 -0700	[diff] [blame]	7831	#ifdef CONFIG_BPF_SYSCALL
				7832	static void bpf_overflow_handler(struct perf_event *event,
				7833	struct perf_sample_data *data,
				7834	struct pt_regs *regs)
				7835	{
				7836	struct bpf_perf_event_data_kern ctx = {
				7837	.data = data,
				7838	.regs = regs,
				7839	};
				7840	int ret = 0;
				7841
				7842	preempt_disable();
				7843	if (unlikely(__this_cpu_inc_return(bpf_prog_active) != 1))
				7844	goto out;
				7845	rcu_read_lock();
Daniel Borkmann	8857519	2016-11-26 01:28:04 +0100	[diff] [blame]	7846	ret = BPF_PROG_RUN(event->prog, &ctx);
Alexei Starovoitov	aa6a5f3	2016-09-01 18:37:24 -0700	[diff] [blame]	7847	rcu_read_unlock();
				7848	out:
				7849	__this_cpu_dec(bpf_prog_active);
				7850	preempt_enable();
				7851	if (!ret)
				7852	return;
				7853
				7854	event->orig_overflow_handler(event, data, regs);
				7855	}
				7856
				7857	static int perf_event_set_bpf_handler(struct perf_event *event, u32 prog_fd)
				7858	{
				7859	struct bpf_prog *prog;
				7860
				7861	if (event->overflow_handler_context)
				7862	/* hw breakpoint or kernel counter */
				7863	return -EINVAL;
				7864
				7865	if (event->prog)
				7866	return -EEXIST;
				7867
				7868	prog = bpf_prog_get_type(prog_fd, BPF_PROG_TYPE_PERF_EVENT);
				7869	if (IS_ERR(prog))
				7870	return PTR_ERR(prog);
				7871
				7872	event->prog = prog;
				7873	event->orig_overflow_handler = READ_ONCE(event->overflow_handler);
				7874	WRITE_ONCE(event->overflow_handler, bpf_overflow_handler);
				7875	return 0;
				7876	}
				7877
				7878	static void perf_event_free_bpf_handler(struct perf_event *event)
				7879	{
				7880	struct bpf_prog *prog = event->prog;
				7881
				7882	if (!prog)
				7883	return;
				7884
				7885	WRITE_ONCE(event->overflow_handler, event->orig_overflow_handler);
				7886	event->prog = NULL;
				7887	bpf_prog_put(prog);
				7888	}
				7889	#else
				7890	static int perf_event_set_bpf_handler(struct perf_event *event, u32 prog_fd)
				7891	{
				7892	return -EOPNOTSUPP;
				7893	}
				7894	static void perf_event_free_bpf_handler(struct perf_event *event)
				7895	{
				7896	}
				7897	#endif
				7898
Alexei Starovoitov	2541517	2015-03-25 12:49:20 -0700	[diff] [blame]	7899	static int perf_event_set_bpf_prog(struct perf_event *event, u32 prog_fd)
				7900	{
Alexei Starovoitov	98b5c2c	2016-04-06 18:43:25 -0700	[diff] [blame]	7901	bool is_kprobe, is_tracepoint;
Alexei Starovoitov	2541517	2015-03-25 12:49:20 -0700	[diff] [blame]	7902	struct bpf_prog *prog;
				7903
Alexei Starovoitov	aa6a5f3	2016-09-01 18:37:24 -0700	[diff] [blame]	7904	if (event->attr.type == PERF_TYPE_HARDWARE \|\|
				7905	event->attr.type == PERF_TYPE_SOFTWARE)
				7906	return perf_event_set_bpf_handler(event, prog_fd);
				7907
Alexei Starovoitov	2541517	2015-03-25 12:49:20 -0700	[diff] [blame]	7908	if (event->attr.type != PERF_TYPE_TRACEPOINT)
				7909	return -EINVAL;
				7910
				7911	if (event->tp_event->prog)
				7912	return -EEXIST;
				7913
Alexei Starovoitov	98b5c2c	2016-04-06 18:43:25 -0700	[diff] [blame]	7914	is_kprobe = event->tp_event->flags & TRACE_EVENT_FL_UKPROBE;
				7915	is_tracepoint = event->tp_event->flags & TRACE_EVENT_FL_TRACEPOINT;
				7916	if (!is_kprobe && !is_tracepoint)
				7917	/* bpf programs can only be attached to u/kprobe or tracepoint */
Alexei Starovoitov	2541517	2015-03-25 12:49:20 -0700	[diff] [blame]	7918	return -EINVAL;
				7919
				7920	prog = bpf_prog_get(prog_fd);
				7921	if (IS_ERR(prog))
				7922	return PTR_ERR(prog);
				7923
Alexei Starovoitov	98b5c2c	2016-04-06 18:43:25 -0700	[diff] [blame]	7924	if ((is_kprobe && prog->type != BPF_PROG_TYPE_KPROBE) \|\|
				7925	(is_tracepoint && prog->type != BPF_PROG_TYPE_TRACEPOINT)) {
Alexei Starovoitov	2541517	2015-03-25 12:49:20 -0700	[diff] [blame]	7926	/* valid fd, but invalid bpf program type */
				7927	bpf_prog_put(prog);
				7928	return -EINVAL;
				7929	}
				7930
Alexei Starovoitov	32bbe00	2016-04-06 18:43:28 -0700	[diff] [blame]	7931	if (is_tracepoint) {
				7932	int off = trace_event_get_offsets(event->tp_event);
				7933
				7934	if (prog->aux->max_ctx_offset > off) {
				7935	bpf_prog_put(prog);
				7936	return -EACCES;
				7937	}
				7938	}
Alexei Starovoitov	2541517	2015-03-25 12:49:20 -0700	[diff] [blame]	7939	event->tp_event->prog = prog;
				7940
				7941	return 0;
				7942	}
				7943
				7944	static void perf_event_free_bpf_prog(struct perf_event *event)
				7945	{
				7946	struct bpf_prog *prog;
				7947
Alexei Starovoitov	aa6a5f3	2016-09-01 18:37:24 -0700	[diff] [blame]	7948	perf_event_free_bpf_handler(event);
				7949
Alexei Starovoitov	2541517	2015-03-25 12:49:20 -0700	[diff] [blame]	7950	if (!event->tp_event)
				7951	return;
				7952
				7953	prog = event->tp_event->prog;
				7954	if (prog) {
				7955	event->tp_event->prog = NULL;
Daniel Borkmann	1aacde3	2016-06-30 17:24:43 +0200	[diff] [blame]	7956	bpf_prog_put(prog);
Alexei Starovoitov	2541517	2015-03-25 12:49:20 -0700	[diff] [blame]	7957	}
				7958	}
				7959
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7960	#else
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	7961
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	7962	static inline void perf_tp_register(void)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7963	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7964	}
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	7965
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	7966	static void perf_event_free_filter(struct perf_event *event)
				7967	{
				7968	}
				7969
Alexei Starovoitov	2541517	2015-03-25 12:49:20 -0700	[diff] [blame]	7970	static int perf_event_set_bpf_prog(struct perf_event *event, u32 prog_fd)
				7971	{
				7972	return -ENOENT;
				7973	}
				7974
				7975	static void perf_event_free_bpf_prog(struct perf_event *event)
				7976	{
				7977	}
Li Zefan	07b139c	2009-12-21 14:27:35 +0800	[diff] [blame]	7978	#endif /* CONFIG_EVENT_TRACING */
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7979
Frederic Weisbecker	24f1e32c	2009-09-09 19:22:48 +0200	[diff] [blame]	7980	#ifdef CONFIG_HAVE_HW_BREAKPOINT
Frederic Weisbecker	f5ffe02	2009-11-23 15:42:34 +0100	[diff] [blame]	7981	void perf_bp_event(struct perf_event bp, void data)
Frederic Weisbecker	24f1e32c	2009-09-09 19:22:48 +0200	[diff] [blame]	7982	{
Frederic Weisbecker	f5ffe02	2009-11-23 15:42:34 +0100	[diff] [blame]	7983	struct perf_sample_data sample;
				7984	struct pt_regs *regs = data;
				7985
Robert Richter	fd0d000	2012-04-02 20:19:08 +0200	[diff] [blame]	7986	perf_sample_data_init(&sample, bp->attr.bp_addr, 0);
Frederic Weisbecker	f5ffe02	2009-11-23 15:42:34 +0100	[diff] [blame]	7987
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	7988	if (!bp->hw.state && !perf_exclude_event(bp, regs))
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	7989	perf_swevent_event(bp, 1, &sample, regs);
Frederic Weisbecker	24f1e32c	2009-09-09 19:22:48 +0200	[diff] [blame]	7990	}
				7991	#endif
				7992
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	7993	/*
				7994	* Allocate a new address filter
				7995	*/
				7996	static struct perf_addr_filter *
				7997	perf_addr_filter_new(struct perf_event event, struct list_head filters)
				7998	{
				7999	int node = cpu_to_node(event->cpu == -1 ? 0 : event->cpu);
				8000	struct perf_addr_filter *filter;
				8001
				8002	filter = kzalloc_node(sizeof(*filter), GFP_KERNEL, node);
				8003	if (!filter)
				8004	return NULL;
				8005
				8006	INIT_LIST_HEAD(&filter->entry);
				8007	list_add_tail(&filter->entry, filters);
				8008
				8009	return filter;
				8010	}
				8011
				8012	static void free_filters_list(struct list_head *filters)
				8013	{
				8014	struct perf_addr_filter filter, iter;
				8015
				8016	list_for_each_entry_safe(filter, iter, filters, entry) {
				8017	if (filter->inode)
				8018	iput(filter->inode);
				8019	list_del(&filter->entry);
				8020	kfree(filter);
				8021	}
				8022	}
				8023
				8024	/*
				8025	* Free existing address filters and optionally install new ones
				8026	*/
				8027	static void perf_addr_filters_splice(struct perf_event *event,
				8028	struct list_head *head)
				8029	{
				8030	unsigned long flags;
				8031	LIST_HEAD(list);
				8032
				8033	if (!has_addr_filter(event))
				8034	return;
				8035
				8036	/* don't bother with children, they don't have their own filters */
				8037	if (event->parent)
				8038	return;
				8039
				8040	raw_spin_lock_irqsave(&event->addr_filters.lock, flags);
				8041
				8042	list_splice_init(&event->addr_filters.list, &list);
				8043	if (head)
				8044	list_splice(head, &event->addr_filters.list);
				8045
				8046	raw_spin_unlock_irqrestore(&event->addr_filters.lock, flags);
				8047
				8048	free_filters_list(&list);
				8049	}
				8050
				8051	/*
				8052	* Scan through mm's vmas and see if one of them matches the
				8053	* @filter; if so, adjust filter's address range.
				8054	* Called with mm::mmap_sem down for reading.
				8055	*/
				8056	static unsigned long perf_addr_filter_apply(struct perf_addr_filter *filter,
				8057	struct mm_struct *mm)
				8058	{
				8059	struct vm_area_struct *vma;
				8060
				8061	for (vma = mm->mmap; vma; vma = vma->vm_next) {
				8062	struct file *file = vma->vm_file;
				8063	unsigned long off = vma->vm_pgoff << PAGE_SHIFT;
				8064	unsigned long vma_size = vma->vm_end - vma->vm_start;
				8065
				8066	if (!file)
				8067	continue;
				8068
				8069	if (!perf_addr_filter_match(filter, file, off, vma_size))
				8070	continue;
				8071
				8072	return vma->vm_start;
				8073	}
				8074
				8075	return 0;
				8076	}
				8077
				8078	/*
				8079	* Update event's address range filters based on the
				8080	* task's existing mappings, if any.
				8081	*/
				8082	static void perf_event_addr_filters_apply(struct perf_event *event)
				8083	{
				8084	struct perf_addr_filters_head *ifh = perf_event_addr_filters(event);
				8085	struct task_struct *task = READ_ONCE(event->ctx->task);
				8086	struct perf_addr_filter *filter;
				8087	struct mm_struct *mm = NULL;
				8088	unsigned int count = 0;
				8089	unsigned long flags;
				8090
				8091	/*
				8092	* We may observe TASK_TOMBSTONE, which means that the event tear-down
				8093	* will stop on the parent's child_mutex that our caller is also holding
				8094	*/
				8095	if (task == TASK_TOMBSTONE)
				8096	return;
				8097
Alexander Shishkin	6ce77bf	2017-01-26 11:40:57 +0200	[diff] [blame]	8098	if (!ifh->nr_file_filters)
				8099	return;
				8100
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	8101	mm = get_task_mm(event->ctx->task);
				8102	if (!mm)
				8103	goto restart;
				8104
				8105	down_read(&mm->mmap_sem);
				8106
				8107	raw_spin_lock_irqsave(&ifh->lock, flags);
				8108	list_for_each_entry(filter, &ifh->list, entry) {
				8109	event->addr_filters_offs[count] = 0;
				8110
Mathieu Poirier	99f5bc9	2016-07-18 10:43:07 -0600	[diff] [blame]	8111	/*
				8112	* Adjust base offset if the filter is associated to a binary
				8113	* that needs to be mapped:
				8114	*/
				8115	if (filter->inode)
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	8116	event->addr_filters_offs[count] =
				8117	perf_addr_filter_apply(filter, mm);
				8118
				8119	count++;
				8120	}
				8121
				8122	event->addr_filters_gen++;
				8123	raw_spin_unlock_irqrestore(&ifh->lock, flags);
				8124
				8125	up_read(&mm->mmap_sem);
				8126
				8127	mmput(mm);
				8128
				8129	restart:
Alexander Shishkin	767ae08	2016-09-06 16:23:49 +0300	[diff] [blame]	8130	perf_event_stop(event, 1);
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	8131	}
				8132
				8133	/*
				8134	* Address range filtering: limiting the data to certain
				8135	* instruction address ranges. Filters are ioctl()ed to us from
				8136	* userspace as ascii strings.
				8137	*
				8138	* Filter string format:
				8139	*
				8140	* ACTION RANGE_SPEC
				8141	* where ACTION is one of the
				8142	* * "filter": limit the trace to this region
				8143	* * "start": start tracing from this address
				8144	* * "stop": stop tracing at this address/region;
				8145	* RANGE_SPEC is
				8146	* * for kernel addresses: <start address>[/<size>]
				8147	* * for object files: <start address>[/<size>]@</path/to/object/file>
				8148	*
				8149	* if <size> is not specified, the range is treated as a single address.
				8150	*/
				8151	enum {
Alexander Shishkin	e96271f	2016-11-18 13:38:43 +0200	[diff] [blame]	8152	IF_ACT_NONE = -1,
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	8153	IF_ACT_FILTER,
				8154	IF_ACT_START,
				8155	IF_ACT_STOP,
				8156	IF_SRC_FILE,
				8157	IF_SRC_KERNEL,
				8158	IF_SRC_FILEADDR,
				8159	IF_SRC_KERNELADDR,
				8160	};
				8161
				8162	enum {
				8163	IF_STATE_ACTION = 0,
				8164	IF_STATE_SOURCE,
				8165	IF_STATE_END,
				8166	};
				8167
				8168	static const match_table_t if_tokens = {
				8169	{ IF_ACT_FILTER, "filter" },
				8170	{ IF_ACT_START, "start" },
				8171	{ IF_ACT_STOP, "stop" },
				8172	{ IF_SRC_FILE, "%u/%u@%s" },
				8173	{ IF_SRC_KERNEL, "%u/%u" },
				8174	{ IF_SRC_FILEADDR, "%u@%s" },
				8175	{ IF_SRC_KERNELADDR, "%u" },
Alexander Shishkin	e96271f	2016-11-18 13:38:43 +0200	[diff] [blame]	8176	{ IF_ACT_NONE, NULL },
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	8177	};
				8178
				8179	/*
				8180	* Address filter string parser
				8181	*/
				8182	static int
				8183	perf_event_parse_addr_filter(struct perf_event event, char fstr,
				8184	struct list_head *filters)
				8185	{
				8186	struct perf_addr_filter *filter = NULL;
				8187	char start, orig, *filename = NULL;
				8188	struct path path;
				8189	substring_t args[MAX_OPT_ARGS];
				8190	int state = IF_STATE_ACTION, token;
				8191	unsigned int kernel = 0;
				8192	int ret = -EINVAL;
				8193
				8194	orig = fstr = kstrdup(fstr, GFP_KERNEL);
				8195	if (!fstr)
				8196	return -ENOMEM;
				8197
				8198	while ((start = strsep(&fstr, " ,\n")) != NULL) {
				8199	ret = -EINVAL;
				8200
				8201	if (!*start)
				8202	continue;
				8203
				8204	/* filter definition begins */
				8205	if (state == IF_STATE_ACTION) {
				8206	filter = perf_addr_filter_new(event, filters);
				8207	if (!filter)
				8208	goto fail;
				8209	}
				8210
				8211	token = match_token(start, if_tokens, args);
				8212	switch (token) {
				8213	case IF_ACT_FILTER:
				8214	case IF_ACT_START:
				8215	filter->filter = 1;
				8216
				8217	case IF_ACT_STOP:
				8218	if (state != IF_STATE_ACTION)
				8219	goto fail;
				8220
				8221	state = IF_STATE_SOURCE;
				8222	break;
				8223
				8224	case IF_SRC_KERNELADDR:
				8225	case IF_SRC_KERNEL:
				8226	kernel = 1;
				8227
				8228	case IF_SRC_FILEADDR:
				8229	case IF_SRC_FILE:
				8230	if (state != IF_STATE_SOURCE)
				8231	goto fail;
				8232
				8233	if (token == IF_SRC_FILE \|\| token == IF_SRC_KERNEL)
				8234	filter->range = 1;
				8235
				8236	*args[0].to = 0;
				8237	ret = kstrtoul(args[0].from, 0, &filter->offset);
				8238	if (ret)
				8239	goto fail;
				8240
				8241	if (filter->range) {
				8242	*args[1].to = 0;
				8243	ret = kstrtoul(args[1].from, 0, &filter->size);
				8244	if (ret)
				8245	goto fail;
				8246	}
				8247
Mathieu Poirier	4059ffd	2016-07-18 10:43:05 -0600	[diff] [blame]	8248	if (token == IF_SRC_FILE \|\| token == IF_SRC_FILEADDR) {
				8249	int fpos = filter->range ? 2 : 1;
				8250
				8251	filename = match_strdup(&args[fpos]);
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	8252	if (!filename) {
				8253	ret = -ENOMEM;
				8254	goto fail;
				8255	}
				8256	}
				8257
				8258	state = IF_STATE_END;
				8259	break;
				8260
				8261	default:
				8262	goto fail;
				8263	}
				8264
				8265	/*
				8266	* Filter definition is fully parsed, validate and install it.
				8267	* Make sure that it doesn't contradict itself or the event's
				8268	* attribute.
				8269	*/
				8270	if (state == IF_STATE_END) {
Alexander Shishkin	9ccbfbb	2017-01-26 11:40:56 +0200	[diff] [blame]	8271	ret = -EINVAL;
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	8272	if (kernel && event->attr.exclude_kernel)
				8273	goto fail;
				8274
				8275	if (!kernel) {
				8276	if (!filename)
				8277	goto fail;
				8278
Alexander Shishkin	6ce77bf	2017-01-26 11:40:57 +0200	[diff] [blame]	8279	/*
				8280	* For now, we only support file-based filters
				8281	* in per-task events; doing so for CPU-wide
				8282	* events requires additional context switching
				8283	* trickery, since same object code will be
				8284	* mapped at different virtual addresses in
				8285	* different processes.
				8286	*/
				8287	ret = -EOPNOTSUPP;
				8288	if (!event->ctx->task)
				8289	goto fail_free_name;
				8290
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	8291	/* look up the path and grab its inode */
				8292	ret = kern_path(filename, LOOKUP_FOLLOW, &path);
				8293	if (ret)
				8294	goto fail_free_name;
				8295
				8296	filter->inode = igrab(d_inode(path.dentry));
				8297	path_put(&path);
				8298	kfree(filename);
				8299	filename = NULL;
				8300
				8301	ret = -EINVAL;
				8302	if (!filter->inode \|\|
				8303	!S_ISREG(filter->inode->i_mode))
				8304	/* free_filters_list() will iput() */
				8305	goto fail;
Alexander Shishkin	6ce77bf	2017-01-26 11:40:57 +0200	[diff] [blame]	8306
				8307	event->addr_filters.nr_file_filters++;
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	8308	}
				8309
				8310	/* ready to consume more filters */
				8311	state = IF_STATE_ACTION;
				8312	filter = NULL;
				8313	}
				8314	}
				8315
				8316	if (state != IF_STATE_ACTION)
				8317	goto fail;
				8318
				8319	kfree(orig);
				8320
				8321	return 0;
				8322
				8323	fail_free_name:
				8324	kfree(filename);
				8325	fail:
				8326	free_filters_list(filters);
				8327	kfree(orig);
				8328
				8329	return ret;
				8330	}
				8331
				8332	static int
				8333	perf_event_set_addr_filter(struct perf_event event, char filter_str)
				8334	{
				8335	LIST_HEAD(filters);
				8336	int ret;
				8337
				8338	/*
				8339	* Since this is called in perf_ioctl() path, we're already holding
				8340	* ctx::mutex.
				8341	*/
				8342	lockdep_assert_held(&event->ctx->mutex);
				8343
				8344	if (WARN_ON_ONCE(event->parent))
				8345	return -EINVAL;
				8346
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	8347	ret = perf_event_parse_addr_filter(event, filter_str, &filters);
				8348	if (ret)
Alexander Shishkin	6ce77bf	2017-01-26 11:40:57 +0200	[diff] [blame]	8349	goto fail_clear_files;
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	8350
				8351	ret = event->pmu->addr_filters_validate(&filters);
Alexander Shishkin	6ce77bf	2017-01-26 11:40:57 +0200	[diff] [blame]	8352	if (ret)
				8353	goto fail_free_filters;
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	8354
				8355	/* remove existing filters, if any */
				8356	perf_addr_filters_splice(event, &filters);
				8357
				8358	/* install new filters */
				8359	perf_event_for_each_child(event, perf_event_addr_filters_apply);
				8360
				8361	return ret;
Alexander Shishkin	6ce77bf	2017-01-26 11:40:57 +0200	[diff] [blame]	8362
				8363	fail_free_filters:
				8364	free_filters_list(&filters);
				8365
				8366	fail_clear_files:
				8367	event->addr_filters.nr_file_filters = 0;
				8368
				8369	return ret;
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	8370	}
				8371
Alexander Shishkin	c796bbb	2016-04-27 18:44:42 +0300	[diff] [blame]	8372	static int perf_event_set_filter(struct perf_event event, void __user arg)
				8373	{
				8374	char *filter_str;
				8375	int ret = -EINVAL;
				8376
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	8377	if ((event->attr.type != PERF_TYPE_TRACEPOINT \|\|
				8378	!IS_ENABLED(CONFIG_EVENT_TRACING)) &&
				8379	!has_addr_filter(event))
Alexander Shishkin	c796bbb	2016-04-27 18:44:42 +0300	[diff] [blame]	8380	return -EINVAL;
				8381
				8382	filter_str = strndup_user(arg, PAGE_SIZE);
				8383	if (IS_ERR(filter_str))
				8384	return PTR_ERR(filter_str);
				8385
				8386	if (IS_ENABLED(CONFIG_EVENT_TRACING) &&
				8387	event->attr.type == PERF_TYPE_TRACEPOINT)
				8388	ret = ftrace_profile_set_filter(event, event->attr.config,
				8389	filter_str);
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	8390	else if (has_addr_filter(event))
				8391	ret = perf_event_set_addr_filter(event, filter_str);
Alexander Shishkin	c796bbb	2016-04-27 18:44:42 +0300	[diff] [blame]	8392
				8393	kfree(filter_str);
				8394	return ret;
				8395	}
				8396
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8397	/*
				8398	* hrtimer based swevent callback
				8399	*/
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8400
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8401	static enum hrtimer_restart perf_swevent_hrtimer(struct hrtimer *hrtimer)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8402	{
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8403	enum hrtimer_restart ret = HRTIMER_RESTART;
				8404	struct perf_sample_data data;
				8405	struct pt_regs *regs;
				8406	struct perf_event *event;
				8407	u64 period;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8408
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8409	event = container_of(hrtimer, struct perf_event, hw.hrtimer);
Peter Zijlstra	ba3dd36	2011-02-15 12:41:46 +0100	[diff] [blame]	8410
				8411	if (event->state != PERF_EVENT_STATE_ACTIVE)
				8412	return HRTIMER_NORESTART;
				8413
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8414	event->pmu->read(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8415
Robert Richter	fd0d000	2012-04-02 20:19:08 +0200	[diff] [blame]	8416	perf_sample_data_init(&data, 0, event->hw.last_period);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8417	regs = get_irq_regs();
				8418
				8419	if (regs && !perf_exclude_event(event, regs)) {
Paul E. McKenney	77aeeeb	2011-11-10 16:02:52 -0800	[diff] [blame]	8420	if (!(event->attr.exclude_idle && is_idle_task(current)))
Robert Richter	33b07b8	2012-04-05 18:24:43 +0200	[diff] [blame]	8421	if (__perf_event_overflow(event, 1, &data, regs))
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8422	ret = HRTIMER_NORESTART;
				8423	}
				8424
				8425	period = max_t(u64, 10000, event->hw.sample_period);
				8426	hrtimer_forward_now(hrtimer, ns_to_ktime(period));
				8427
				8428	return ret;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8429	}
				8430
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8431	static void perf_swevent_start_hrtimer(struct perf_event *event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8432	{
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8433	struct hw_perf_event *hwc = &event->hw;
Franck Bui-Huu	5d508e8	2010-11-23 16:21:45 +0100	[diff] [blame]	8434	s64 period;
				8435
				8436	if (!is_sampling_event(event))
				8437	return;
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8438
Franck Bui-Huu	5d508e8	2010-11-23 16:21:45 +0100	[diff] [blame]	8439	period = local64_read(&hwc->period_left);
				8440	if (period) {
				8441	if (period < 0)
				8442	period = 10000;
Peter Zijlstra	fa407f3	2010-06-24 12:35:12 +0200	[diff] [blame]	8443
Franck Bui-Huu	5d508e8	2010-11-23 16:21:45 +0100	[diff] [blame]	8444	local64_set(&hwc->period_left, 0);
				8445	} else {
				8446	period = max_t(u64, 10000, hwc->sample_period);
				8447	}
Thomas Gleixner	3497d20	2015-04-14 21:09:03 +0000	[diff] [blame]	8448	hrtimer_start(&hwc->hrtimer, ns_to_ktime(period),
				8449	HRTIMER_MODE_REL_PINNED);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8450	}
				8451
				8452	static void perf_swevent_cancel_hrtimer(struct perf_event *event)
				8453	{
				8454	struct hw_perf_event *hwc = &event->hw;
				8455
Franck Bui-Huu	6c7e550	2010-11-23 16:21:43 +0100	[diff] [blame]	8456	if (is_sampling_event(event)) {
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8457	ktime_t remaining = hrtimer_get_remaining(&hwc->hrtimer);
Peter Zijlstra	fa407f3	2010-06-24 12:35:12 +0200	[diff] [blame]	8458	local64_set(&hwc->period_left, ktime_to_ns(remaining));
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8459
				8460	hrtimer_cancel(&hwc->hrtimer);
				8461	}
				8462	}
				8463
Peter Zijlstra	ba3dd36	2011-02-15 12:41:46 +0100	[diff] [blame]	8464	static void perf_swevent_init_hrtimer(struct perf_event *event)
				8465	{
				8466	struct hw_perf_event *hwc = &event->hw;
				8467
				8468	if (!is_sampling_event(event))
				8469	return;
				8470
				8471	hrtimer_init(&hwc->hrtimer, CLOCK_MONOTONIC, HRTIMER_MODE_REL);
				8472	hwc->hrtimer.function = perf_swevent_hrtimer;
				8473
				8474	/*
				8475	* Since hrtimers have a fixed rate, we can do a static freq->period
				8476	* mapping and avoid the whole period adjust feedback stuff.
				8477	*/
				8478	if (event->attr.freq) {
				8479	long freq = event->attr.sample_freq;
				8480
				8481	event->attr.sample_period = NSEC_PER_SEC / freq;
				8482	hwc->sample_period = event->attr.sample_period;
				8483	local64_set(&hwc->period_left, hwc->sample_period);
Namhyung Kim	778141e	2013-03-18 11:41:46 +0900	[diff] [blame]	8484	hwc->last_period = hwc->sample_period;
Peter Zijlstra	ba3dd36	2011-02-15 12:41:46 +0100	[diff] [blame]	8485	event->attr.freq = 0;
				8486	}
				8487	}
				8488
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8489	/*
				8490	* Software event: cpu wall time clock
				8491	*/
				8492
				8493	static void cpu_clock_event_update(struct perf_event *event)
				8494	{
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8495	s64 prev;
				8496	u64 now;
				8497
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	8498	now = local_clock();
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8499	prev = local64_xchg(&event->hw.prev_count, now);
				8500	local64_add(now - prev, &event->count);
				8501	}
				8502
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	8503	static void cpu_clock_event_start(struct perf_event *event, int flags)
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8504	{
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	8505	local64_set(&event->hw.prev_count, local_clock());
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8506	perf_swevent_start_hrtimer(event);
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	8507	}
				8508
				8509	static void cpu_clock_event_stop(struct perf_event *event, int flags)
				8510	{
				8511	perf_swevent_cancel_hrtimer(event);
				8512	cpu_clock_event_update(event);
				8513	}
				8514
				8515	static int cpu_clock_event_add(struct perf_event *event, int flags)
				8516	{
				8517	if (flags & PERF_EF_START)
				8518	cpu_clock_event_start(event, flags);
Shaohua Li	6a694a6	2015-02-05 15:55:32 -0800	[diff] [blame]	8519	perf_event_update_userpage(event);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8520
				8521	return 0;
				8522	}
				8523
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	8524	static void cpu_clock_event_del(struct perf_event *event, int flags)
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8525	{
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	8526	cpu_clock_event_stop(event, flags);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8527	}
				8528
				8529	static void cpu_clock_event_read(struct perf_event *event)
				8530	{
				8531	cpu_clock_event_update(event);
				8532	}
				8533
				8534	static int cpu_clock_event_init(struct perf_event *event)
				8535	{
				8536	if (event->attr.type != PERF_TYPE_SOFTWARE)
				8537	return -ENOENT;
				8538
				8539	if (event->attr.config != PERF_COUNT_SW_CPU_CLOCK)
				8540	return -ENOENT;
				8541
Stephane Eranian	2481c5f	2012-02-09 23:20:59 +0100	[diff] [blame]	8542	/*
				8543	* no branch sampling for software events
				8544	*/
				8545	if (has_branch_stack(event))
				8546	return -EOPNOTSUPP;
				8547
Peter Zijlstra	ba3dd36	2011-02-15 12:41:46 +0100	[diff] [blame]	8548	perf_swevent_init_hrtimer(event);
				8549
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8550	return 0;
				8551	}
				8552
				8553	static struct pmu perf_cpu_clock = {
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	8554	.task_ctx_nr = perf_sw_context,
				8555
Peter Zijlstra	34f4392	2015-02-20 14:05:38 +0100	[diff] [blame]	8556	.capabilities = PERF_PMU_CAP_NO_NMI,
				8557
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8558	.event_init = cpu_clock_event_init,
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	8559	.add = cpu_clock_event_add,
				8560	.del = cpu_clock_event_del,
				8561	.start = cpu_clock_event_start,
				8562	.stop = cpu_clock_event_stop,
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8563	.read = cpu_clock_event_read,
				8564	};
				8565
				8566	/*
				8567	* Software event: task time clock
				8568	*/
				8569
				8570	static void task_clock_event_update(struct perf_event *event, u64 now)
				8571	{
				8572	u64 prev;
				8573	s64 delta;
				8574
				8575	prev = local64_xchg(&event->hw.prev_count, now);
				8576	delta = now - prev;
				8577	local64_add(delta, &event->count);
				8578	}
				8579
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	8580	static void task_clock_event_start(struct perf_event *event, int flags)
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8581	{
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	8582	local64_set(&event->hw.prev_count, event->ctx->time);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8583	perf_swevent_start_hrtimer(event);
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	8584	}
				8585
				8586	static void task_clock_event_stop(struct perf_event *event, int flags)
				8587	{
				8588	perf_swevent_cancel_hrtimer(event);
				8589	task_clock_event_update(event, event->ctx->time);
				8590	}
				8591
				8592	static int task_clock_event_add(struct perf_event *event, int flags)
				8593	{
				8594	if (flags & PERF_EF_START)
				8595	task_clock_event_start(event, flags);
Shaohua Li	6a694a6	2015-02-05 15:55:32 -0800	[diff] [blame]	8596	perf_event_update_userpage(event);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8597
				8598	return 0;
				8599	}
				8600
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	8601	static void task_clock_event_del(struct perf_event *event, int flags)
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8602	{
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	8603	task_clock_event_stop(event, PERF_EF_UPDATE);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8604	}
				8605
				8606	static void task_clock_event_read(struct perf_event *event)
				8607	{
Peter Zijlstra	768a06e	2011-02-22 16:52:24 +0100	[diff] [blame]	8608	u64 now = perf_clock();
				8609	u64 delta = now - event->ctx->timestamp;
				8610	u64 time = event->ctx->time + delta;
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8611
				8612	task_clock_event_update(event, time);
				8613	}
				8614
				8615	static int task_clock_event_init(struct perf_event *event)
				8616	{
				8617	if (event->attr.type != PERF_TYPE_SOFTWARE)
				8618	return -ENOENT;
				8619
				8620	if (event->attr.config != PERF_COUNT_SW_TASK_CLOCK)
				8621	return -ENOENT;
				8622
Stephane Eranian	2481c5f	2012-02-09 23:20:59 +0100	[diff] [blame]	8623	/*
				8624	* no branch sampling for software events
				8625	*/
				8626	if (has_branch_stack(event))
				8627	return -EOPNOTSUPP;
				8628
Peter Zijlstra	ba3dd36	2011-02-15 12:41:46 +0100	[diff] [blame]	8629	perf_swevent_init_hrtimer(event);
				8630
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8631	return 0;
				8632	}
				8633
				8634	static struct pmu perf_task_clock = {
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	8635	.task_ctx_nr = perf_sw_context,
				8636
Peter Zijlstra	34f4392	2015-02-20 14:05:38 +0100	[diff] [blame]	8637	.capabilities = PERF_PMU_CAP_NO_NMI,
				8638
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8639	.event_init = task_clock_event_init,
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	8640	.add = task_clock_event_add,
				8641	.del = task_clock_event_del,
				8642	.start = task_clock_event_start,
				8643	.stop = task_clock_event_stop,
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8644	.read = task_clock_event_read,
				8645	};
				8646
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	8647	static void perf_pmu_nop_void(struct pmu *pmu)
				8648	{
				8649	}
				8650
Sukadev Bhattiprolu	fbbe070	2015-09-03 20:07:45 -0700	[diff] [blame]	8651	static void perf_pmu_nop_txn(struct pmu *pmu, unsigned int flags)
				8652	{
				8653	}
				8654
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	8655	static int perf_pmu_nop_int(struct pmu *pmu)
				8656	{
				8657	return 0;
				8658	}
				8659
Geliang Tang	18ab2cd	2015-09-27 23:25:50 +0800	[diff] [blame]	8660	static DEFINE_PER_CPU(unsigned int, nop_txn_flags);
Sukadev Bhattiprolu	fbbe070	2015-09-03 20:07:45 -0700	[diff] [blame]	8661
				8662	static void perf_pmu_start_txn(struct pmu *pmu, unsigned int flags)
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	8663	{
Sukadev Bhattiprolu	fbbe070	2015-09-03 20:07:45 -0700	[diff] [blame]	8664	__this_cpu_write(nop_txn_flags, flags);
				8665
				8666	if (flags & ~PERF_PMU_TXN_ADD)
				8667	return;
				8668
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	8669	perf_pmu_disable(pmu);
				8670	}
				8671
				8672	static int perf_pmu_commit_txn(struct pmu *pmu)
				8673	{
Sukadev Bhattiprolu	fbbe070	2015-09-03 20:07:45 -0700	[diff] [blame]	8674	unsigned int flags = __this_cpu_read(nop_txn_flags);
				8675
				8676	__this_cpu_write(nop_txn_flags, 0);
				8677
				8678	if (flags & ~PERF_PMU_TXN_ADD)
				8679	return 0;
				8680
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	8681	perf_pmu_enable(pmu);
				8682	return 0;
				8683	}
				8684
				8685	static void perf_pmu_cancel_txn(struct pmu *pmu)
				8686	{
Sukadev Bhattiprolu	fbbe070	2015-09-03 20:07:45 -0700	[diff] [blame]	8687	unsigned int flags = __this_cpu_read(nop_txn_flags);
				8688
				8689	__this_cpu_write(nop_txn_flags, 0);
				8690
				8691	if (flags & ~PERF_PMU_TXN_ADD)
				8692	return;
				8693
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	8694	perf_pmu_enable(pmu);
				8695	}
				8696
Peter Zijlstra	35edc2a	2011-11-20 20:36:02 +0100	[diff] [blame]	8697	static int perf_event_idx_default(struct perf_event *event)
				8698	{
Peter Zijlstra	c719f56	2014-10-21 11:10:21 +0200	[diff] [blame]	8699	return 0;
Peter Zijlstra	35edc2a	2011-11-20 20:36:02 +0100	[diff] [blame]	8700	}
				8701
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	8702	/*
				8703	* Ensures all contexts with the same task_ctx_nr have the same
				8704	* pmu_cpu_context too.
				8705	*/
Mark Rutland	9e31704	2014-02-10 17:44:18 +0000	[diff] [blame]	8706	static struct perf_cpu_context __percpu *find_pmu_context(int ctxn)
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	8707	{
				8708	struct pmu *pmu;
				8709
				8710	if (ctxn < 0)
				8711	return NULL;
				8712
				8713	list_for_each_entry(pmu, &pmus, entry) {
				8714	if (pmu->task_ctx_nr == ctxn)
				8715	return pmu->pmu_cpu_context;
				8716	}
				8717
				8718	return NULL;
				8719	}
				8720
Peter Zijlstra	5167695	2010-12-07 14:18:20 +0100	[diff] [blame]	8721	static void free_pmu_context(struct pmu *pmu)
				8722	{
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	8723	mutex_lock(&pmus_lock);
Peter Zijlstra	5167695	2010-12-07 14:18:20 +0100	[diff] [blame]	8724	free_percpu(pmu->pmu_cpu_context);
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	8725	mutex_unlock(&pmus_lock);
				8726	}
Alexander Shishkin	6e855cd	2016-04-27 18:44:48 +0300	[diff] [blame]	8727
				8728	/*
				8729	* Let userspace know that this PMU supports address range filtering:
				8730	*/
				8731	static ssize_t nr_addr_filters_show(struct device *dev,
				8732	struct device_attribute *attr,
				8733	char *page)
				8734	{
				8735	struct pmu *pmu = dev_get_drvdata(dev);
				8736
				8737	return snprintf(page, PAGE_SIZE - 1, "%d\n", pmu->nr_addr_filters);
				8738	}
				8739	DEVICE_ATTR_RO(nr_addr_filters);
				8740
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	8741	static struct idr pmu_idr;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	8742
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	8743	static ssize_t
				8744	type_show(struct device dev, struct device_attribute attr, char *page)
				8745	{
				8746	struct pmu *pmu = dev_get_drvdata(dev);
				8747
				8748	return snprintf(page, PAGE_SIZE-1, "%d\n", pmu->type);
				8749	}
Greg Kroah-Hartman	90826ca	2013-08-23 14:24:40 -0700	[diff] [blame]	8750	static DEVICE_ATTR_RO(type);
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	8751
Stephane Eranian	62b8563	2013-04-03 14:21:34 +0200	[diff] [blame]	8752	static ssize_t
				8753	perf_event_mux_interval_ms_show(struct device *dev,
				8754	struct device_attribute *attr,
				8755	char *page)
				8756	{
				8757	struct pmu *pmu = dev_get_drvdata(dev);
				8758
				8759	return snprintf(page, PAGE_SIZE-1, "%d\n", pmu->hrtimer_interval_ms);
				8760	}
				8761
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	8762	static DEFINE_MUTEX(mux_interval_mutex);
				8763
Stephane Eranian	62b8563	2013-04-03 14:21:34 +0200	[diff] [blame]	8764	static ssize_t
				8765	perf_event_mux_interval_ms_store(struct device *dev,
				8766	struct device_attribute *attr,
				8767	const char *buf, size_t count)
				8768	{
				8769	struct pmu *pmu = dev_get_drvdata(dev);
				8770	int timer, cpu, ret;
				8771
				8772	ret = kstrtoint(buf, 0, &timer);
				8773	if (ret)
				8774	return ret;
				8775
				8776	if (timer < 1)
				8777	return -EINVAL;
				8778
				8779	/* same value, noting to do */
				8780	if (timer == pmu->hrtimer_interval_ms)
				8781	return count;
				8782
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	8783	mutex_lock(&mux_interval_mutex);
Stephane Eranian	62b8563	2013-04-03 14:21:34 +0200	[diff] [blame]	8784	pmu->hrtimer_interval_ms = timer;
				8785
				8786	/* update all cpuctx for this PMU */
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	8787	get_online_cpus();
				8788	for_each_online_cpu(cpu) {
Stephane Eranian	62b8563	2013-04-03 14:21:34 +0200	[diff] [blame]	8789	struct perf_cpu_context *cpuctx;
				8790	cpuctx = per_cpu_ptr(pmu->pmu_cpu_context, cpu);
				8791	cpuctx->hrtimer_interval = ns_to_ktime(NSEC_PER_MSEC * timer);
				8792
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	8793	cpu_function_call(cpu,
				8794	(remote_function_f)perf_mux_hrtimer_restart, cpuctx);
Stephane Eranian	62b8563	2013-04-03 14:21:34 +0200	[diff] [blame]	8795	}
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	8796	put_online_cpus();
				8797	mutex_unlock(&mux_interval_mutex);
Stephane Eranian	62b8563	2013-04-03 14:21:34 +0200	[diff] [blame]	8798
				8799	return count;
				8800	}
Greg Kroah-Hartman	90826ca	2013-08-23 14:24:40 -0700	[diff] [blame]	8801	static DEVICE_ATTR_RW(perf_event_mux_interval_ms);
Stephane Eranian	62b8563	2013-04-03 14:21:34 +0200	[diff] [blame]	8802
Greg Kroah-Hartman	90826ca	2013-08-23 14:24:40 -0700	[diff] [blame]	8803	static struct attribute *pmu_dev_attrs[] = {
				8804	&dev_attr_type.attr,
				8805	&dev_attr_perf_event_mux_interval_ms.attr,
				8806	NULL,
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	8807	};
Greg Kroah-Hartman	90826ca	2013-08-23 14:24:40 -0700	[diff] [blame]	8808	ATTRIBUTE_GROUPS(pmu_dev);
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	8809
				8810	static int pmu_bus_running;
				8811	static struct bus_type pmu_bus = {
				8812	.name = "event_source",
Greg Kroah-Hartman	90826ca	2013-08-23 14:24:40 -0700	[diff] [blame]	8813	.dev_groups = pmu_dev_groups,
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	8814	};
				8815
				8816	static void pmu_dev_release(struct device *dev)
				8817	{
				8818	kfree(dev);
				8819	}
				8820
				8821	static int pmu_dev_alloc(struct pmu *pmu)
				8822	{
				8823	int ret = -ENOMEM;
				8824
				8825	pmu->dev = kzalloc(sizeof(struct device), GFP_KERNEL);
				8826	if (!pmu->dev)
				8827	goto out;
				8828
Peter Zijlstra	0c9d42e	2011-11-20 23:30:47 +0100	[diff] [blame]	8829	pmu->dev->groups = pmu->attr_groups;
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	8830	device_initialize(pmu->dev);
				8831	ret = dev_set_name(pmu->dev, "%s", pmu->name);
				8832	if (ret)
				8833	goto free_dev;
				8834
				8835	dev_set_drvdata(pmu->dev, pmu);
				8836	pmu->dev->bus = &pmu_bus;
				8837	pmu->dev->release = pmu_dev_release;
				8838	ret = device_add(pmu->dev);
				8839	if (ret)
				8840	goto free_dev;
				8841
Alexander Shishkin	6e855cd	2016-04-27 18:44:48 +0300	[diff] [blame]	8842	/* For PMUs with address filters, throw in an extra attribute: */
				8843	if (pmu->nr_addr_filters)
				8844	ret = device_create_file(pmu->dev, &dev_attr_nr_addr_filters);
				8845
				8846	if (ret)
				8847	goto del_dev;
				8848
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	8849	out:
				8850	return ret;
				8851
Alexander Shishkin	6e855cd	2016-04-27 18:44:48 +0300	[diff] [blame]	8852	del_dev:
				8853	device_del(pmu->dev);
				8854
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	8855	free_dev:
				8856	put_device(pmu->dev);
				8857	goto out;
				8858	}
				8859
Peter Zijlstra	547e9fd	2011-01-19 12:51:39 +0100	[diff] [blame]	8860	static struct lock_class_key cpuctx_mutex;
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	8861	static struct lock_class_key cpuctx_lock;
Peter Zijlstra	547e9fd	2011-01-19 12:51:39 +0100	[diff] [blame]	8862
Mischa Jonker	03d8e80	2013-06-04 11:45:48 +0200	[diff] [blame]	8863	int perf_pmu_register(struct pmu pmu, const char name, int type)
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8864	{
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	8865	int cpu, ret;
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	8866
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8867	mutex_lock(&pmus_lock);
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	8868	ret = -ENOMEM;
				8869	pmu->pmu_disable_count = alloc_percpu(int);
				8870	if (!pmu->pmu_disable_count)
				8871	goto unlock;
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	8872
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	8873	pmu->type = -1;
				8874	if (!name)
				8875	goto skip_type;
				8876	pmu->name = name;
				8877
				8878	if (type < 0) {
Tejun Heo	0e9c3be	2013-02-27 17:04:55 -0800	[diff] [blame]	8879	type = idr_alloc(&pmu_idr, pmu, PERF_TYPE_MAX, 0, GFP_KERNEL);
				8880	if (type < 0) {
				8881	ret = type;
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	8882	goto free_pdc;
				8883	}
				8884	}
				8885	pmu->type = type;
				8886
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	8887	if (pmu_bus_running) {
				8888	ret = pmu_dev_alloc(pmu);
				8889	if (ret)
				8890	goto free_idr;
				8891	}
				8892
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	8893	skip_type:
Peter Zijlstra	2665784	2016-03-22 22:09:18 +0100	[diff] [blame]	8894	if (pmu->task_ctx_nr == perf_hw_context) {
				8895	static int hw_context_taken = 0;
				8896
Mark Rutland	5101ef2	2016-04-26 11:33:46 +0100	[diff] [blame]	8897	/*
				8898	* Other than systems with heterogeneous CPUs, it never makes
				8899	* sense for two PMUs to share perf_hw_context. PMUs which are
				8900	* uncore must use perf_invalid_context.
				8901	*/
				8902	if (WARN_ON_ONCE(hw_context_taken &&
				8903	!(pmu->capabilities & PERF_PMU_CAP_HETEROGENEOUS_CPUS)))
Peter Zijlstra	2665784	2016-03-22 22:09:18 +0100	[diff] [blame]	8904	pmu->task_ctx_nr = perf_invalid_context;
				8905
				8906	hw_context_taken = 1;
				8907	}
				8908
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	8909	pmu->pmu_cpu_context = find_pmu_context(pmu->task_ctx_nr);
				8910	if (pmu->pmu_cpu_context)
				8911	goto got_cpu_context;
				8912
Wei Yongjun	c481420	2013-04-12 11:05:54 +0800	[diff] [blame]	8913	ret = -ENOMEM;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	8914	pmu->pmu_cpu_context = alloc_percpu(struct perf_cpu_context);
				8915	if (!pmu->pmu_cpu_context)
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	8916	goto free_dev;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	8917
				8918	for_each_possible_cpu(cpu) {
				8919	struct perf_cpu_context *cpuctx;
				8920
				8921	cpuctx = per_cpu_ptr(pmu->pmu_cpu_context, cpu);
Peter Zijlstra	eb18447	2010-09-07 15:55:13 +0200	[diff] [blame]	8922	__perf_event_init_context(&cpuctx->ctx);
Peter Zijlstra	547e9fd	2011-01-19 12:51:39 +0100	[diff] [blame]	8923	lockdep_set_class(&cpuctx->ctx.mutex, &cpuctx_mutex);
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	8924	lockdep_set_class(&cpuctx->ctx.lock, &cpuctx_lock);
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	8925	cpuctx->ctx.pmu = pmu;
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	8926
Peter Zijlstra	272325c	2015-04-15 11:41:58 +0200	[diff] [blame]	8927	__perf_mux_hrtimer_init(cpuctx, cpu);
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	8928	}
				8929
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	8930	got_cpu_context:
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	8931	if (!pmu->start_txn) {
				8932	if (pmu->pmu_enable) {
				8933	/*
				8934	* If we have pmu_enable/pmu_disable calls, install
				8935	* transaction stubs that use that to try and batch
				8936	* hardware accesses.
				8937	*/
				8938	pmu->start_txn = perf_pmu_start_txn;
				8939	pmu->commit_txn = perf_pmu_commit_txn;
				8940	pmu->cancel_txn = perf_pmu_cancel_txn;
				8941	} else {
Sukadev Bhattiprolu	fbbe070	2015-09-03 20:07:45 -0700	[diff] [blame]	8942	pmu->start_txn = perf_pmu_nop_txn;
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	8943	pmu->commit_txn = perf_pmu_nop_int;
				8944	pmu->cancel_txn = perf_pmu_nop_void;
				8945	}
				8946	}
				8947
				8948	if (!pmu->pmu_enable) {
				8949	pmu->pmu_enable = perf_pmu_nop_void;
				8950	pmu->pmu_disable = perf_pmu_nop_void;
				8951	}
				8952
Peter Zijlstra	35edc2a	2011-11-20 20:36:02 +0100	[diff] [blame]	8953	if (!pmu->event_idx)
				8954	pmu->event_idx = perf_event_idx_default;
				8955
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8956	list_add_rcu(&pmu->entry, &pmus);
Alexander Shishkin	bed5b25	2015-01-30 12:31:06 +0200	[diff] [blame]	8957	atomic_set(&pmu->exclusive_cnt, 0);
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	8958	ret = 0;
				8959	unlock:
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8960	mutex_unlock(&pmus_lock);
				8961
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	8962	return ret;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	8963
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	8964	free_dev:
				8965	device_del(pmu->dev);
				8966	put_device(pmu->dev);
				8967
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	8968	free_idr:
				8969	if (pmu->type >= PERF_TYPE_MAX)
				8970	idr_remove(&pmu_idr, pmu->type);
				8971
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	8972	free_pdc:
				8973	free_percpu(pmu->pmu_disable_count);
				8974	goto unlock;
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8975	}
Yan, Zheng	c464c76	2014-03-18 16:56:41 +0800	[diff] [blame]	8976	EXPORT_SYMBOL_GPL(perf_pmu_register);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8977
				8978	void perf_pmu_unregister(struct pmu *pmu)
				8979	{
Jiri Olsa	0933840	2016-10-20 13:10:11 +0200	[diff] [blame]	8980	int remove_device;
				8981
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8982	mutex_lock(&pmus_lock);
Jiri Olsa	0933840	2016-10-20 13:10:11 +0200	[diff] [blame]	8983	remove_device = pmu_bus_running;
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8984	list_del_rcu(&pmu->entry);
				8985	mutex_unlock(&pmus_lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8986
				8987	/*
Peter Zijlstra	cde8e88	2010-09-13 11:06:55 +0200	[diff] [blame]	8988	* We dereference the pmu list under both SRCU and regular RCU, so
				8989	* synchronize against both of those.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8990	*/
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	8991	synchronize_srcu(&pmus_srcu);
Peter Zijlstra	cde8e88	2010-09-13 11:06:55 +0200	[diff] [blame]	8992	synchronize_rcu();
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8993
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	8994	free_percpu(pmu->pmu_disable_count);
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	8995	if (pmu->type >= PERF_TYPE_MAX)
				8996	idr_remove(&pmu_idr, pmu->type);
Jiri Olsa	0933840	2016-10-20 13:10:11 +0200	[diff] [blame]	8997	if (remove_device) {
				8998	if (pmu->nr_addr_filters)
				8999	device_remove_file(pmu->dev, &dev_attr_nr_addr_filters);
				9000	device_del(pmu->dev);
				9001	put_device(pmu->dev);
				9002	}
Peter Zijlstra	5167695	2010-12-07 14:18:20 +0100	[diff] [blame]	9003	free_pmu_context(pmu);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9004	}
Yan, Zheng	c464c76	2014-03-18 16:56:41 +0800	[diff] [blame]	9005	EXPORT_SYMBOL_GPL(perf_pmu_unregister);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9006
Mark Rutland	cc34b98	2015-01-07 14:56:51 +0000	[diff] [blame]	9007	static int perf_try_init_event(struct pmu pmu, struct perf_event event)
				9008	{
Peter Zijlstra	ccd41c8	2015-02-25 15:56:04 +0100	[diff] [blame]	9009	struct perf_event_context *ctx = NULL;
Mark Rutland	cc34b98	2015-01-07 14:56:51 +0000	[diff] [blame]	9010	int ret;
				9011
				9012	if (!try_module_get(pmu->module))
				9013	return -ENODEV;
Peter Zijlstra	ccd41c8	2015-02-25 15:56:04 +0100	[diff] [blame]	9014
				9015	if (event->group_leader != event) {
Peter Zijlstra	8b10c5e	2015-05-01 16:08:46 +0200	[diff] [blame]	9016	/*
				9017	* This ctx->mutex can nest when we're called through
				9018	* inheritance. See the perf_event_ctx_lock_nested() comment.
				9019	*/
				9020	ctx = perf_event_ctx_lock_nested(event->group_leader,
				9021	SINGLE_DEPTH_NESTING);
Peter Zijlstra	ccd41c8	2015-02-25 15:56:04 +0100	[diff] [blame]	9022	BUG_ON(!ctx);
				9023	}
				9024
Mark Rutland	cc34b98	2015-01-07 14:56:51 +0000	[diff] [blame]	9025	event->pmu = pmu;
				9026	ret = pmu->event_init(event);
Peter Zijlstra	ccd41c8	2015-02-25 15:56:04 +0100	[diff] [blame]	9027
				9028	if (ctx)
				9029	perf_event_ctx_unlock(event->group_leader, ctx);
				9030
Mark Rutland	cc34b98	2015-01-07 14:56:51 +0000	[diff] [blame]	9031	if (ret)
				9032	module_put(pmu->module);
				9033
				9034	return ret;
				9035	}
				9036
Geliang Tang	18ab2cd	2015-09-27 23:25:50 +0800	[diff] [blame]	9037	static struct pmu perf_init_event(struct perf_event event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9038	{
Peter Zijlstra	51b0fe3	2010-06-11 13:35:57 +0200	[diff] [blame]	9039	struct pmu *pmu = NULL;
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9040	int idx;
Lin Ming	940c5b2	2011-02-27 21:13:31 +0800	[diff] [blame]	9041	int ret;
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	9042
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9043	idx = srcu_read_lock(&pmus_srcu);
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	9044
Kan Liang	4099931	2017-01-18 08:21:01 -0500	[diff] [blame]	9045	/* Try parent's PMU first: */
				9046	if (event->parent && event->parent->pmu) {
				9047	pmu = event->parent->pmu;
				9048	ret = perf_try_init_event(pmu, event);
				9049	if (!ret)
				9050	goto unlock;
				9051	}
				9052
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	9053	rcu_read_lock();
				9054	pmu = idr_find(&pmu_idr, event->attr.type);
				9055	rcu_read_unlock();
Lin Ming	940c5b2	2011-02-27 21:13:31 +0800	[diff] [blame]	9056	if (pmu) {
Mark Rutland	cc34b98	2015-01-07 14:56:51 +0000	[diff] [blame]	9057	ret = perf_try_init_event(pmu, event);
Lin Ming	940c5b2	2011-02-27 21:13:31 +0800	[diff] [blame]	9058	if (ret)
				9059	pmu = ERR_PTR(ret);
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	9060	goto unlock;
Lin Ming	940c5b2	2011-02-27 21:13:31 +0800	[diff] [blame]	9061	}
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	9062
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9063	list_for_each_entry_rcu(pmu, &pmus, entry) {
Mark Rutland	cc34b98	2015-01-07 14:56:51 +0000	[diff] [blame]	9064	ret = perf_try_init_event(pmu, event);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9065	if (!ret)
Peter Zijlstra	e5f4d33	2010-09-10 17:38:06 +0200	[diff] [blame]	9066	goto unlock;
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	9067
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9068	if (ret != -ENOENT) {
				9069	pmu = ERR_PTR(ret);
Peter Zijlstra	e5f4d33	2010-09-10 17:38:06 +0200	[diff] [blame]	9070	goto unlock;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9071	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9072	}
Peter Zijlstra	e5f4d33	2010-09-10 17:38:06 +0200	[diff] [blame]	9073	pmu = ERR_PTR(-ENOENT);
				9074	unlock:
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9075	srcu_read_unlock(&pmus_srcu, idx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9076
				9077	return pmu;
				9078	}
				9079
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	9080	static void attach_sb_event(struct perf_event *event)
				9081	{
				9082	struct pmu_event_list *pel = per_cpu_ptr(&pmu_sb_events, event->cpu);
				9083
				9084	raw_spin_lock(&pel->lock);
				9085	list_add_rcu(&event->sb_list, &pel->list);
				9086	raw_spin_unlock(&pel->lock);
				9087	}
				9088
Peter Zijlstra	aab5b71	2016-05-12 17:26:46 +0200	[diff] [blame]	9089	/*
				9090	* We keep a list of all !task (and therefore per-cpu) events
				9091	* that need to receive side-band records.
				9092	*
				9093	* This avoids having to scan all the various PMU per-cpu contexts
				9094	* looking for them.
				9095	*/
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	9096	static void account_pmu_sb_event(struct perf_event *event)
				9097	{
David Carrillo-Cisneros	a4f144e	2016-06-01 12:33:05 -0700	[diff] [blame]	9098	if (is_sb_event(event))
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	9099	attach_sb_event(event);
				9100	}
				9101
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	9102	static void account_event_cpu(struct perf_event *event, int cpu)
				9103	{
				9104	if (event->parent)
				9105	return;
				9106
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	9107	if (is_cgroup_event(event))
				9108	atomic_inc(&per_cpu(perf_cgroup_events, cpu));
				9109	}
				9110
Frederic Weisbecker	555e0c1	2015-07-16 17:42:29 +0200	[diff] [blame]	9111	/* Freq events need the tick to stay alive (see perf_event_task_tick). */
				9112	static void account_freq_event_nohz(void)
				9113	{
				9114	#ifdef CONFIG_NO_HZ_FULL
				9115	/* Lock so we don't race with concurrent unaccount */
				9116	spin_lock(&nr_freq_lock);
				9117	if (atomic_inc_return(&nr_freq_events) == 1)
				9118	tick_nohz_dep_set(TICK_DEP_BIT_PERF_EVENTS);
				9119	spin_unlock(&nr_freq_lock);
				9120	#endif
				9121	}
				9122
				9123	static void account_freq_event(void)
				9124	{
				9125	if (tick_nohz_full_enabled())
				9126	account_freq_event_nohz();
				9127	else
				9128	atomic_inc(&nr_freq_events);
				9129	}
				9130
				9131
Frederic Weisbecker	766d6c0	2013-07-23 02:31:01 +0200	[diff] [blame]	9132	static void account_event(struct perf_event *event)
				9133	{
Peter Zijlstra	25432ae	2016-01-08 11:05:09 +0100	[diff] [blame]	9134	bool inc = false;
				9135
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	9136	if (event->parent)
				9137	return;
				9138
Frederic Weisbecker	766d6c0	2013-07-23 02:31:01 +0200	[diff] [blame]	9139	if (event->attach_state & PERF_ATTACH_TASK)
Peter Zijlstra	25432ae	2016-01-08 11:05:09 +0100	[diff] [blame]	9140	inc = true;
Frederic Weisbecker	766d6c0	2013-07-23 02:31:01 +0200	[diff] [blame]	9141	if (event->attr.mmap \|\| event->attr.mmap_data)
				9142	atomic_inc(&nr_mmap_events);
				9143	if (event->attr.comm)
				9144	atomic_inc(&nr_comm_events);
				9145	if (event->attr.task)
				9146	atomic_inc(&nr_task_events);
Frederic Weisbecker	555e0c1	2015-07-16 17:42:29 +0200	[diff] [blame]	9147	if (event->attr.freq)
				9148	account_freq_event();
Adrian Hunter	45ac140	2015-07-21 12:44:02 +0300	[diff] [blame]	9149	if (event->attr.context_switch) {
				9150	atomic_inc(&nr_switch_events);
Peter Zijlstra	25432ae	2016-01-08 11:05:09 +0100	[diff] [blame]	9151	inc = true;
Adrian Hunter	45ac140	2015-07-21 12:44:02 +0300	[diff] [blame]	9152	}
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	9153	if (has_branch_stack(event))
Peter Zijlstra	25432ae	2016-01-08 11:05:09 +0100	[diff] [blame]	9154	inc = true;
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	9155	if (is_cgroup_event(event))
Peter Zijlstra	25432ae	2016-01-08 11:05:09 +0100	[diff] [blame]	9156	inc = true;
				9157
Peter Zijlstra	9107c89	2016-02-24 18:45:45 +0100	[diff] [blame]	9158	if (inc) {
				9159	if (atomic_inc_not_zero(&perf_sched_count))
				9160	goto enabled;
				9161
				9162	mutex_lock(&perf_sched_mutex);
				9163	if (!atomic_read(&perf_sched_count)) {
				9164	static_branch_enable(&perf_sched_events);
				9165	/*
				9166	* Guarantee that all CPUs observe they key change and
				9167	* call the perf scheduling hooks before proceeding to
				9168	* install events that need them.
				9169	*/
				9170	synchronize_sched();
				9171	}
				9172	/*
				9173	* Now that we have waited for the sync_sched(), allow further
				9174	* increments to by-pass the mutex.
				9175	*/
				9176	atomic_inc(&perf_sched_count);
				9177	mutex_unlock(&perf_sched_mutex);
				9178	}
				9179	enabled:
Frederic Weisbecker	766d6c0	2013-07-23 02:31:01 +0200	[diff] [blame]	9180
Frederic Weisbecker	4beb31f	2013-07-23 02:31:02 +0200	[diff] [blame]	9181	account_event_cpu(event, event->cpu);
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	9182
				9183	account_pmu_sb_event(event);
Frederic Weisbecker	766d6c0	2013-07-23 02:31:01 +0200	[diff] [blame]	9184	}
				9185
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9186	/*
				9187	* Allocate and initialize a event structure
				9188	*/
				9189	static struct perf_event *
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	9190	perf_event_alloc(struct perf_event_attr *attr, int cpu,
Peter Zijlstra	d580ff8	2010-10-14 17:43:23 +0200	[diff] [blame]	9191	struct task_struct *task,
				9192	struct perf_event *group_leader,
				9193	struct perf_event *parent_event,
Avi Kivity	4dc0da8	2011-06-29 18:42:35 +0300	[diff] [blame]	9194	perf_overflow_handler_t overflow_handler,
Matt Fleming	79dff51	2015-01-23 18:45:42 +0000	[diff] [blame]	9195	void *context, int cgroup_fd)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9196	{
Peter Zijlstra	51b0fe3	2010-06-11 13:35:57 +0200	[diff] [blame]	9197	struct pmu *pmu;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9198	struct perf_event *event;
				9199	struct hw_perf_event *hwc;
Frederic Weisbecker	90983b1	2013-07-23 02:31:00 +0200	[diff] [blame]	9200	long err = -EINVAL;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9201
Oleg Nesterov	66832eb	2011-01-18 17:10:32 +0100	[diff] [blame]	9202	if ((unsigned)cpu >= nr_cpu_ids) {
				9203	if (!task \|\| cpu != -1)
				9204	return ERR_PTR(-EINVAL);
				9205	}
				9206
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	9207	event = kzalloc(sizeof(*event), GFP_KERNEL);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9208	if (!event)
				9209	return ERR_PTR(-ENOMEM);
				9210
				9211	/*
				9212	* Single events are their own group leaders, with an
				9213	* empty sibling list:
				9214	*/
				9215	if (!group_leader)
				9216	group_leader = event;
				9217
				9218	mutex_init(&event->child_mutex);
				9219	INIT_LIST_HEAD(&event->child_list);
				9220
				9221	INIT_LIST_HEAD(&event->group_entry);
				9222	INIT_LIST_HEAD(&event->event_entry);
				9223	INIT_LIST_HEAD(&event->sibling_list);
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	9224	INIT_LIST_HEAD(&event->rb_entry);
Stephane Eranian	71ad88e	2013-11-12 17:58:48 +0100	[diff] [blame]	9225	INIT_LIST_HEAD(&event->active_entry);
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9226	INIT_LIST_HEAD(&event->addr_filters.list);
Stephane Eranian	f3ae75d	2014-01-08 11:15:52 +0100	[diff] [blame]	9227	INIT_HLIST_NODE(&event->hlist_entry);
				9228
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	9229
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9230	init_waitqueue_head(&event->waitq);
Peter Zijlstra	e360adb	2010-10-14 14:01:34 +0800	[diff] [blame]	9231	init_irq_work(&event->pending, perf_pending_event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9232
				9233	mutex_init(&event->mmap_mutex);
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9234	raw_spin_lock_init(&event->addr_filters.lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9235
Al Viro	a6fa941	2012-08-20 14:59:25 +0100	[diff] [blame]	9236	atomic_long_set(&event->refcount, 1);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9237	event->cpu = cpu;
				9238	event->attr = *attr;
				9239	event->group_leader = group_leader;
				9240	event->pmu = NULL;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9241	event->oncpu = -1;
				9242
				9243	event->parent = parent_event;
				9244
Eric W. Biederman	17cf22c	2010-03-02 14:51:53 -0800	[diff] [blame]	9245	event->ns = get_pid_ns(task_active_pid_ns(current));
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9246	event->id = atomic64_inc_return(&perf_event_id);
				9247
				9248	event->state = PERF_EVENT_STATE_INACTIVE;
				9249
Peter Zijlstra	d580ff8	2010-10-14 17:43:23 +0200	[diff] [blame]	9250	if (task) {
				9251	event->attach_state = PERF_ATTACH_TASK;
Peter Zijlstra	d580ff8	2010-10-14 17:43:23 +0200	[diff] [blame]	9252	/*
Peter Zijlstra	50f16a8	2015-03-05 22:10:19 +0100	[diff] [blame]	9253	* XXX pmu::event_init needs to know what task to account to
				9254	* and we cannot use the ctx information because we need the
				9255	* pmu before we get a ctx.
Peter Zijlstra	d580ff8	2010-10-14 17:43:23 +0200	[diff] [blame]	9256	*/
Peter Zijlstra	50f16a8	2015-03-05 22:10:19 +0100	[diff] [blame]	9257	event->hw.target = task;
Peter Zijlstra	d580ff8	2010-10-14 17:43:23 +0200	[diff] [blame]	9258	}
				9259
Peter Zijlstra	34f4392	2015-02-20 14:05:38 +0100	[diff] [blame]	9260	event->clock = &local_clock;
				9261	if (parent_event)
				9262	event->clock = parent_event->clock;
				9263
Avi Kivity	4dc0da8	2011-06-29 18:42:35 +0300	[diff] [blame]	9264	if (!overflow_handler && parent_event) {
Frederic Weisbecker	b326e95	2009-12-05 09:44:31 +0100	[diff] [blame]	9265	overflow_handler = parent_event->overflow_handler;
Avi Kivity	4dc0da8	2011-06-29 18:42:35 +0300	[diff] [blame]	9266	context = parent_event->overflow_handler_context;
Arnd Bergmann	f1e4ba5	2016-09-06 15:10:22 +0200	[diff] [blame]	9267	#if defined(CONFIG_BPF_SYSCALL) && defined(CONFIG_EVENT_TRACING)
Alexei Starovoitov	aa6a5f3	2016-09-01 18:37:24 -0700	[diff] [blame]	9268	if (overflow_handler == bpf_overflow_handler) {
				9269	struct bpf_prog *prog = bpf_prog_inc(parent_event->prog);
				9270
				9271	if (IS_ERR(prog)) {
				9272	err = PTR_ERR(prog);
				9273	goto err_ns;
				9274	}
				9275	event->prog = prog;
				9276	event->orig_overflow_handler =
				9277	parent_event->orig_overflow_handler;
				9278	}
				9279	#endif
Avi Kivity	4dc0da8	2011-06-29 18:42:35 +0300	[diff] [blame]	9280	}
Oleg Nesterov	66832eb	2011-01-18 17:10:32 +0100	[diff] [blame]	9281
Wang Nan	1879445	2016-03-28 06:41:30 +0000	[diff] [blame]	9282	if (overflow_handler) {
				9283	event->overflow_handler = overflow_handler;
				9284	event->overflow_handler_context = context;
Wang Nan	9ecda41	2016-04-05 14:11:18 +0000	[diff] [blame]	9285	} else if (is_write_backward(event)){
				9286	event->overflow_handler = perf_event_output_backward;
				9287	event->overflow_handler_context = NULL;
Wang Nan	1879445	2016-03-28 06:41:30 +0000	[diff] [blame]	9288	} else {
Wang Nan	9ecda41	2016-04-05 14:11:18 +0000	[diff] [blame]	9289	event->overflow_handler = perf_event_output_forward;
Wang Nan	1879445	2016-03-28 06:41:30 +0000	[diff] [blame]	9290	event->overflow_handler_context = NULL;
				9291	}
Frederic Weisbecker	97eaf53	2009-10-18 15:33:50 +0200	[diff] [blame]	9292
Jiri Olsa	0231bb5	2013-02-01 11:23:45 +0100	[diff] [blame]	9293	perf_event__state_init(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9294
				9295	pmu = NULL;
				9296
				9297	hwc = &event->hw;
				9298	hwc->sample_period = attr->sample_period;
				9299	if (attr->freq && attr->sample_freq)
				9300	hwc->sample_period = 1;
				9301	hwc->last_period = hwc->sample_period;
				9302
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	9303	local64_set(&hwc->period_left, hwc->sample_period);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9304
				9305	/*
				9306	* we currently do not support PERF_FORMAT_GROUP on inherited events
				9307	*/
				9308	if (attr->inherit && (attr->read_format & PERF_FORMAT_GROUP))
Frederic Weisbecker	90983b1	2013-07-23 02:31:00 +0200	[diff] [blame]	9309	goto err_ns;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9310
Yan, Zheng	a46a230	2014-11-04 21:56:06 -0500	[diff] [blame]	9311	if (!has_branch_stack(event))
				9312	event->attr.branch_sample_type = 0;
				9313
Matt Fleming	79dff51	2015-01-23 18:45:42 +0000	[diff] [blame]	9314	if (cgroup_fd != -1) {
				9315	err = perf_cgroup_connect(cgroup_fd, event, attr, group_leader);
				9316	if (err)
				9317	goto err_ns;
				9318	}
				9319
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	9320	pmu = perf_init_event(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9321	if (!pmu)
Frederic Weisbecker	90983b1	2013-07-23 02:31:00 +0200	[diff] [blame]	9322	goto err_ns;
				9323	else if (IS_ERR(pmu)) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9324	err = PTR_ERR(pmu);
Frederic Weisbecker	90983b1	2013-07-23 02:31:00 +0200	[diff] [blame]	9325	goto err_ns;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9326	}
				9327
Alexander Shishkin	bed5b25	2015-01-30 12:31:06 +0200	[diff] [blame]	9328	err = exclusive_event_init(event);
				9329	if (err)
				9330	goto err_pmu;
				9331
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9332	if (has_addr_filter(event)) {
				9333	event->addr_filters_offs = kcalloc(pmu->nr_addr_filters,
				9334	sizeof(unsigned long),
				9335	GFP_KERNEL);
				9336	if (!event->addr_filters_offs)
				9337	goto err_per_task;
				9338
				9339	/* force hw sync on the address filters */
				9340	event->addr_filters_gen = 1;
				9341	}
				9342
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9343	if (!event->parent) {
Frederic Weisbecker	927c7a9	2010-07-01 16:20:36 +0200	[diff] [blame]	9344	if (event->attr.sample_type & PERF_SAMPLE_CALLCHAIN) {
Arnaldo Carvalho de Melo	97c79a3	2016-04-28 13:16:33 -0300	[diff] [blame]	9345	err = get_callchain_buffers(attr->sample_max_stack);
Frederic Weisbecker	90983b1	2013-07-23 02:31:00 +0200	[diff] [blame]	9346	if (err)
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9347	goto err_addr_filters;
Stephane Eranian	d010b33	2012-02-09 23:21:00 +0100	[diff] [blame]	9348	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9349	}
				9350
Alexander Shishkin	927a557	2016-03-02 13:24:14 +0200	[diff] [blame]	9351	/* symmetric to unaccount_event() in _free_event() */
				9352	account_event(event);
				9353
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9354	return event;
Frederic Weisbecker	90983b1	2013-07-23 02:31:00 +0200	[diff] [blame]	9355
Alexander Shishkin	375637b	2016-04-27 18:44:46 +0300	[diff] [blame]	9356	err_addr_filters:
				9357	kfree(event->addr_filters_offs);
				9358
Alexander Shishkin	bed5b25	2015-01-30 12:31:06 +0200	[diff] [blame]	9359	err_per_task:
				9360	exclusive_event_destroy(event);
				9361
Frederic Weisbecker	90983b1	2013-07-23 02:31:00 +0200	[diff] [blame]	9362	err_pmu:
				9363	if (event->destroy)
				9364	event->destroy(event);
Yan, Zheng	c464c76	2014-03-18 16:56:41 +0800	[diff] [blame]	9365	module_put(pmu->module);
Frederic Weisbecker	90983b1	2013-07-23 02:31:00 +0200	[diff] [blame]	9366	err_ns:
Matt Fleming	79dff51	2015-01-23 18:45:42 +0000	[diff] [blame]	9367	if (is_cgroup_event(event))
				9368	perf_detach_cgroup(event);
Frederic Weisbecker	90983b1	2013-07-23 02:31:00 +0200	[diff] [blame]	9369	if (event->ns)
				9370	put_pid_ns(event->ns);
				9371	kfree(event);
				9372
				9373	return ERR_PTR(err);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9374	}
				9375
				9376	static int perf_copy_attr(struct perf_event_attr __user *uattr,
				9377	struct perf_event_attr *attr)
				9378	{
				9379	u32 size;
				9380	int ret;
				9381
				9382	if (!access_ok(VERIFY_WRITE, uattr, PERF_ATTR_SIZE_VER0))
				9383	return -EFAULT;
				9384
				9385	/*
				9386	* zero the full structure, so that a short copy will be nice.
				9387	*/
				9388	memset(attr, 0, sizeof(*attr));
				9389
				9390	ret = get_user(size, &uattr->size);
				9391	if (ret)
				9392	return ret;
				9393
				9394	if (size > PAGE_SIZE) /* silly large */
				9395	goto err_size;
				9396
				9397	if (!size) /* abi compat */
				9398	size = PERF_ATTR_SIZE_VER0;
				9399
				9400	if (size < PERF_ATTR_SIZE_VER0)
				9401	goto err_size;
				9402
				9403	/*
				9404	* If we're handed a bigger struct than we know of,
				9405	* ensure all the unknown bits are 0 - i.e. new
				9406	* user-space does not rely on any kernel feature
				9407	* extensions we dont know about yet.
				9408	*/
				9409	if (size > sizeof(*attr)) {
				9410	unsigned char __user *addr;
				9411	unsigned char __user *end;
				9412	unsigned char val;
				9413
				9414	addr = (void __user )uattr + sizeof(attr);
				9415	end = (void __user *)uattr + size;
				9416
				9417	for (; addr < end; addr++) {
				9418	ret = get_user(val, addr);
				9419	if (ret)
				9420	return ret;
				9421	if (val)
				9422	goto err_size;
				9423	}
				9424	size = sizeof(*attr);
				9425	}
				9426
				9427	ret = copy_from_user(attr, uattr, size);
				9428	if (ret)
				9429	return -EFAULT;
				9430
Mahesh Salgaonkar	cd75764	2010-01-30 10:25:18 +0530	[diff] [blame]	9431	if (attr->__reserved_1)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9432	return -EINVAL;
				9433
				9434	if (attr->sample_type & ~(PERF_SAMPLE_MAX-1))
				9435	return -EINVAL;
				9436
				9437	if (attr->read_format & ~(PERF_FORMAT_MAX-1))
				9438	return -EINVAL;
				9439
Stephane Eranian	bce38cd	2012-02-09 23:20:51 +0100	[diff] [blame]	9440	if (attr->sample_type & PERF_SAMPLE_BRANCH_STACK) {
				9441	u64 mask = attr->branch_sample_type;
				9442
				9443	/* only using defined bits */
				9444	if (mask & ~(PERF_SAMPLE_BRANCH_MAX-1))
				9445	return -EINVAL;
				9446
				9447	/* at least one branch bit must be set */
				9448	if (!(mask & ~PERF_SAMPLE_BRANCH_PLM_ALL))
				9449	return -EINVAL;
				9450
Stephane Eranian	bce38cd	2012-02-09 23:20:51 +0100	[diff] [blame]	9451	/* propagate priv level, when not set for branch */
				9452	if (!(mask & PERF_SAMPLE_BRANCH_PLM_ALL)) {
				9453
				9454	/* exclude_kernel checked on syscall entry */
				9455	if (!attr->exclude_kernel)
				9456	mask \|= PERF_SAMPLE_BRANCH_KERNEL;
				9457
				9458	if (!attr->exclude_user)
				9459	mask \|= PERF_SAMPLE_BRANCH_USER;
				9460
				9461	if (!attr->exclude_hv)
				9462	mask \|= PERF_SAMPLE_BRANCH_HV;
				9463	/*
				9464	* adjust user setting (for HW filter setup)
				9465	*/
				9466	attr->branch_sample_type = mask;
				9467	}
Stephane Eranian	e712209	2013-06-06 11:02:04 +0200	[diff] [blame]	9468	/* privileged levels capture (kernel, hv): check permissions */
				9469	if ((mask & PERF_SAMPLE_BRANCH_PERM_PLM)
Stephane Eranian	2b923c8	2013-05-21 12:53:37 +0200	[diff] [blame]	9470	&& perf_paranoid_kernel() && !capable(CAP_SYS_ADMIN))
				9471	return -EACCES;
Stephane Eranian	bce38cd	2012-02-09 23:20:51 +0100	[diff] [blame]	9472	}
Jiri Olsa	4018994	2012-08-07 15:20:37 +0200	[diff] [blame]	9473
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	9474	if (attr->sample_type & PERF_SAMPLE_REGS_USER) {
Jiri Olsa	4018994	2012-08-07 15:20:37 +0200	[diff] [blame]	9475	ret = perf_reg_validate(attr->sample_regs_user);
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	9476	if (ret)
				9477	return ret;
				9478	}
				9479
				9480	if (attr->sample_type & PERF_SAMPLE_STACK_USER) {
				9481	if (!arch_perf_have_user_stack_dump())
				9482	return -ENOSYS;
				9483
				9484	/*
				9485	* We have __u32 type for the size, but so far
				9486	* we can only use __u16 as maximum due to the
				9487	* __u16 sample size limit.
				9488	*/
				9489	if (attr->sample_stack_user >= USHRT_MAX)
				9490	ret = -EINVAL;
				9491	else if (!IS_ALIGNED(attr->sample_stack_user, sizeof(u64)))
				9492	ret = -EINVAL;
				9493	}
Jiri Olsa	4018994	2012-08-07 15:20:37 +0200	[diff] [blame]	9494
Stephane Eranian	60e2364	2014-09-24 13:48:37 +0200	[diff] [blame]	9495	if (attr->sample_type & PERF_SAMPLE_REGS_INTR)
				9496	ret = perf_reg_validate(attr->sample_regs_intr);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9497	out:
				9498	return ret;
				9499
				9500	err_size:
				9501	put_user(sizeof(*attr), &uattr->size);
				9502	ret = -E2BIG;
				9503	goto out;
				9504	}
				9505
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	9506	static int
				9507	perf_event_set_output(struct perf_event event, struct perf_event output_event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9508	{
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	9509	struct ring_buffer *rb = NULL;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9510	int ret = -EINVAL;
				9511
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	9512	if (!output_event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9513	goto set;
				9514
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	9515	/* don't allow circular references */
				9516	if (event == output_event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9517	goto out;
				9518
Peter Zijlstra	0f13930	2010-05-20 14:35:15 +0200	[diff] [blame]	9519	/*
				9520	* Don't allow cross-cpu buffers
				9521	*/
				9522	if (output_event->cpu != event->cpu)
				9523	goto out;
				9524
				9525	/*
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	9526	* If its not a per-cpu rb, it must be the same task.
Peter Zijlstra	0f13930	2010-05-20 14:35:15 +0200	[diff] [blame]	9527	*/
				9528	if (output_event->cpu == -1 && output_event->ctx != event->ctx)
				9529	goto out;
				9530
Peter Zijlstra	34f4392	2015-02-20 14:05:38 +0100	[diff] [blame]	9531	/*
				9532	* Mixing clocks in the same buffer is trouble you don't need.
				9533	*/
				9534	if (output_event->clock != event->clock)
				9535	goto out;
				9536
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	9537	/*
Wang Nan	9ecda41	2016-04-05 14:11:18 +0000	[diff] [blame]	9538	* Either writing ring buffer from beginning or from end.
				9539	* Mixing is not allowed.
				9540	*/
				9541	if (is_write_backward(output_event) != is_write_backward(event))
				9542	goto out;
				9543
				9544	/*
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	9545	* If both events generate aux data, they must be on the same PMU
				9546	*/
				9547	if (has_aux(event) && has_aux(output_event) &&
				9548	event->pmu != output_event->pmu)
				9549	goto out;
				9550
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9551	set:
				9552	mutex_lock(&event->mmap_mutex);
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	9553	/* Can't redirect output if we've got an active mmap() */
				9554	if (atomic_read(&event->mmap_count))
				9555	goto unlock;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9556
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	9557	if (output_event) {
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	9558	/* get the rb we want to redirect to */
				9559	rb = ring_buffer_get(output_event);
				9560	if (!rb)
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	9561	goto unlock;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9562	}
				9563
Peter Zijlstra	b69cf53	2014-03-14 10:50:33 +0100	[diff] [blame]	9564	ring_buffer_attach(event, rb);
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	9565
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9566	ret = 0;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	9567	unlock:
				9568	mutex_unlock(&event->mmap_mutex);
				9569
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9570	out:
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9571	return ret;
				9572	}
				9573
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	9574	static void mutex_lock_double(struct mutex a, struct mutex b)
				9575	{
				9576	if (b < a)
				9577	swap(a, b);
				9578
				9579	mutex_lock(a);
				9580	mutex_lock_nested(b, SINGLE_DEPTH_NESTING);
				9581	}
				9582
Peter Zijlstra	34f4392	2015-02-20 14:05:38 +0100	[diff] [blame]	9583	static int perf_event_set_clock(struct perf_event *event, clockid_t clk_id)
				9584	{
				9585	bool nmi_safe = false;
				9586
				9587	switch (clk_id) {
				9588	case CLOCK_MONOTONIC:
				9589	event->clock = &ktime_get_mono_fast_ns;
				9590	nmi_safe = true;
				9591	break;
				9592
				9593	case CLOCK_MONOTONIC_RAW:
				9594	event->clock = &ktime_get_raw_fast_ns;
				9595	nmi_safe = true;
				9596	break;
				9597
				9598	case CLOCK_REALTIME:
				9599	event->clock = &ktime_get_real_ns;
				9600	break;
				9601
				9602	case CLOCK_BOOTTIME:
				9603	event->clock = &ktime_get_boot_ns;
				9604	break;
				9605
				9606	case CLOCK_TAI:
				9607	event->clock = &ktime_get_tai_ns;
				9608	break;
				9609
				9610	default:
				9611	return -EINVAL;
				9612	}
				9613
				9614	if (!nmi_safe && !(event->pmu->capabilities & PERF_PMU_CAP_NO_NMI))
				9615	return -EINVAL;
				9616
				9617	return 0;
				9618	}
				9619
Peter Zijlstra	321027c	2017-01-11 21:09:50 +0100	[diff] [blame]	9620	/*
				9621	* Variation on perf_event_ctx_lock_nested(), except we take two context
				9622	* mutexes.
				9623	*/
				9624	static struct perf_event_context *
				9625	__perf_event_ctx_lock_double(struct perf_event *group_leader,
				9626	struct perf_event_context *ctx)
				9627	{
				9628	struct perf_event_context *gctx;
				9629
				9630	again:
				9631	rcu_read_lock();
				9632	gctx = READ_ONCE(group_leader->ctx);
				9633	if (!atomic_inc_not_zero(&gctx->refcount)) {
				9634	rcu_read_unlock();
				9635	goto again;
				9636	}
				9637	rcu_read_unlock();
				9638
				9639	mutex_lock_double(&gctx->mutex, &ctx->mutex);
				9640
				9641	if (group_leader->ctx != gctx) {
				9642	mutex_unlock(&ctx->mutex);
				9643	mutex_unlock(&gctx->mutex);
				9644	put_ctx(gctx);
				9645	goto again;
				9646	}
				9647
				9648	return gctx;
				9649	}
				9650
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9651	/**
				9652	* sys_perf_event_open - open a performance event, associate it to a task/cpu
				9653	*
				9654	* @attr_uptr: event_id type attributes for monitoring/sampling
				9655	* @pid: target pid
				9656	* @cpu: target cpu
				9657	* @group_fd: group leader event fd
				9658	*/
				9659	SYSCALL_DEFINE5(perf_event_open,
				9660	struct perf_event_attr __user *, attr_uptr,
				9661	pid_t, pid, int, cpu, int, group_fd, unsigned long, flags)
				9662	{
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	9663	struct perf_event group_leader = NULL, output_event = NULL;
				9664	struct perf_event event, sibling;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9665	struct perf_event_attr attr;
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	9666	struct perf_event_context ctx, uninitialized_var(gctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9667	struct file *event_file = NULL;
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	9668	struct fd group = {NULL, 0};
Matt Helsley	38a81da	2010-09-13 13:01:20 -0700	[diff] [blame]	9669	struct task_struct *task = NULL;
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	9670	struct pmu *pmu;
Al Viro	ea635c6	2010-05-26 17:40:29 -0400	[diff] [blame]	9671	int event_fd;
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	9672	int move_group = 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9673	int err;
Yann Droneaud	a21b0b3	2014-01-05 21:36:33 +0100	[diff] [blame]	9674	int f_flags = O_RDWR;
Matt Fleming	79dff51	2015-01-23 18:45:42 +0000	[diff] [blame]	9675	int cgroup_fd = -1;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9676
				9677	/* for future expandability... */
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	9678	if (flags & ~PERF_FLAG_ALL)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9679	return -EINVAL;
				9680
				9681	err = perf_copy_attr(attr_uptr, &attr);
				9682	if (err)
				9683	return err;
				9684
				9685	if (!attr.exclude_kernel) {
				9686	if (perf_paranoid_kernel() && !capable(CAP_SYS_ADMIN))
				9687	return -EACCES;
				9688	}
				9689
				9690	if (attr.freq) {
				9691	if (attr.sample_freq > sysctl_perf_event_sample_rate)
				9692	return -EINVAL;
Peter Zijlstra	0819b2e	2014-05-15 20:23:48 +0200	[diff] [blame]	9693	} else {
				9694	if (attr.sample_period & (1ULL << 63))
				9695	return -EINVAL;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9696	}
				9697
Arnaldo Carvalho de Melo	97c79a3	2016-04-28 13:16:33 -0300	[diff] [blame]	9698	if (!attr.sample_max_stack)
				9699	attr.sample_max_stack = sysctl_perf_event_max_stack;
				9700
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	9701	/*
				9702	* In cgroup mode, the pid argument is used to pass the fd
				9703	* opened to the cgroup directory in cgroupfs. The cpu argument
				9704	* designates the cpu on which to monitor threads from that
				9705	* cgroup.
				9706	*/
				9707	if ((flags & PERF_FLAG_PID_CGROUP) && (pid == -1 \|\| cpu == -1))
				9708	return -EINVAL;
				9709
Yann Droneaud	a21b0b3	2014-01-05 21:36:33 +0100	[diff] [blame]	9710	if (flags & PERF_FLAG_FD_CLOEXEC)
				9711	f_flags \|= O_CLOEXEC;
				9712
				9713	event_fd = get_unused_fd_flags(f_flags);
Al Viro	ea635c6	2010-05-26 17:40:29 -0400	[diff] [blame]	9714	if (event_fd < 0)
				9715	return event_fd;
				9716
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	9717	if (group_fd != -1) {
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	9718	err = perf_fget_light(group_fd, &group);
				9719	if (err)
Stephane Eranian	d14b12d	2010-09-17 11:28:47 +0200	[diff] [blame]	9720	goto err_fd;
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	9721	group_leader = group.file->private_data;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	9722	if (flags & PERF_FLAG_FD_OUTPUT)
				9723	output_event = group_leader;
				9724	if (flags & PERF_FLAG_FD_NO_GROUP)
				9725	group_leader = NULL;
				9726	}
				9727
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	9728	if (pid != -1 && !(flags & PERF_FLAG_PID_CGROUP)) {
Peter Zijlstra	c6be5a5	2010-10-14 16:59:46 +0200	[diff] [blame]	9729	task = find_lively_task_by_vpid(pid);
				9730	if (IS_ERR(task)) {
				9731	err = PTR_ERR(task);
				9732	goto err_group_fd;
				9733	}
				9734	}
				9735
Peter Zijlstra	1f4ee50	2014-05-06 09:59:34 +0200	[diff] [blame]	9736	if (task && group_leader &&
				9737	group_leader->attr.inherit != attr.inherit) {
				9738	err = -EINVAL;
				9739	goto err_task;
				9740	}
				9741
Yan, Zheng	fbfc623	2012-06-15 14:31:31 +0800	[diff] [blame]	9742	get_online_cpus();
				9743
Peter Zijlstra	79c9ce5	2016-04-26 11:36:53 +0200	[diff] [blame]	9744	if (task) {
				9745	err = mutex_lock_interruptible(&task->signal->cred_guard_mutex);
				9746	if (err)
				9747	goto err_cpus;
				9748
				9749	/*
				9750	* Reuse ptrace permission checks for now.
				9751	*
				9752	* We must hold cred_guard_mutex across this and any potential
				9753	* perf_install_in_context() call for this new event to
				9754	* serialize against exec() altering our credentials (and the
				9755	* perf_event_exit_task() that could imply).
				9756	*/
				9757	err = -EACCES;
				9758	if (!ptrace_may_access(task, PTRACE_MODE_READ_REALCREDS))
				9759	goto err_cred;
				9760	}
				9761
Matt Fleming	79dff51	2015-01-23 18:45:42 +0000	[diff] [blame]	9762	if (flags & PERF_FLAG_PID_CGROUP)
				9763	cgroup_fd = pid;
				9764
Avi Kivity	4dc0da8	2011-06-29 18:42:35 +0300	[diff] [blame]	9765	event = perf_event_alloc(&attr, cpu, task, group_leader, NULL,
Matt Fleming	79dff51	2015-01-23 18:45:42 +0000	[diff] [blame]	9766	NULL, NULL, cgroup_fd);
Stephane Eranian	d14b12d	2010-09-17 11:28:47 +0200	[diff] [blame]	9767	if (IS_ERR(event)) {
				9768	err = PTR_ERR(event);
Peter Zijlstra	79c9ce5	2016-04-26 11:36:53 +0200	[diff] [blame]	9769	goto err_cred;
Stephane Eranian	d14b12d	2010-09-17 11:28:47 +0200	[diff] [blame]	9770	}
				9771
Vince Weaver	53b2533	2014-05-16 17:12:12 -0400	[diff] [blame]	9772	if (is_sampling_event(event)) {
				9773	if (event->pmu->capabilities & PERF_PMU_CAP_NO_INTERRUPT) {
Vineet Gupta	a139655	2016-05-09 15:07:40 +0530	[diff] [blame]	9774	err = -EOPNOTSUPP;
Vince Weaver	53b2533	2014-05-16 17:12:12 -0400	[diff] [blame]	9775	goto err_alloc;
				9776	}
				9777	}
				9778
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9779	/*
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	9780	* Special case software events and allow them to be part of
				9781	* any hardware group.
				9782	*/
				9783	pmu = event->pmu;
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	9784
Peter Zijlstra	34f4392	2015-02-20 14:05:38 +0100	[diff] [blame]	9785	if (attr.use_clockid) {
				9786	err = perf_event_set_clock(event, attr.clockid);
				9787	if (err)
				9788	goto err_alloc;
				9789	}
				9790
David Carrillo-Cisneros	4ff6a8d	2016-08-17 13:55:05 -0700	[diff] [blame]	9791	if (pmu->task_ctx_nr == perf_sw_context)
				9792	event->event_caps \|= PERF_EV_CAP_SOFTWARE;
				9793
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	9794	if (group_leader &&
				9795	(is_software_event(event) != is_software_event(group_leader))) {
				9796	if (is_software_event(event)) {
				9797	/*
				9798	* If event and group_leader are not both a software
				9799	* event, and event is, then group leader is not.
				9800	*
				9801	* Allow the addition of software events to !software
				9802	* groups, this is safe because software events never
				9803	* fail to schedule.
				9804	*/
				9805	pmu = group_leader->pmu;
				9806	} else if (is_software_event(group_leader) &&
David Carrillo-Cisneros	4ff6a8d	2016-08-17 13:55:05 -0700	[diff] [blame]	9807	(group_leader->group_caps & PERF_EV_CAP_SOFTWARE)) {
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	9808	/*
				9809	* In case the group is a pure software group, and we
				9810	* try to add a hardware event, move the whole group to
				9811	* the hardware context.
				9812	*/
				9813	move_group = 1;
				9814	}
				9815	}
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	9816
				9817	/*
				9818	* Get the target context (task or percpu):
				9819	*/
Yan, Zheng	4af57ef	2014-11-04 21:56:01 -0500	[diff] [blame]	9820	ctx = find_get_context(pmu, task, event);
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	9821	if (IS_ERR(ctx)) {
				9822	err = PTR_ERR(ctx);
Peter Zijlstra	c6be5a5	2010-10-14 16:59:46 +0200	[diff] [blame]	9823	goto err_alloc;
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	9824	}
				9825
Alexander Shishkin	bed5b25	2015-01-30 12:31:06 +0200	[diff] [blame]	9826	if ((pmu->capabilities & PERF_PMU_CAP_EXCLUSIVE) && group_leader) {
				9827	err = -EBUSY;
				9828	goto err_context;
				9829	}
				9830
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9831	/*
				9832	* Look up the group leader (we will attach this event to it):
				9833	*/
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	9834	if (group_leader) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9835	err = -EINVAL;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9836
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9837	/*
				9838	* Do not allow a recursive hierarchy (this new sibling
				9839	* becoming part of another group-sibling):
				9840	*/
				9841	if (group_leader->group_leader != group_leader)
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	9842	goto err_context;
Peter Zijlstra	34f4392	2015-02-20 14:05:38 +0100	[diff] [blame]	9843
				9844	/* All events in a group should have the same clock */
				9845	if (group_leader->clock != event->clock)
				9846	goto err_context;
				9847
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9848	/*
				9849	* Do not allow to attach to a group in a different
				9850	* task or CPU context:
				9851	*/
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	9852	if (move_group) {
Peter Zijlstra	c3c87e7	2015-01-23 11:19:48 +0100	[diff] [blame]	9853	/*
				9854	* Make sure we're both on the same task, or both
				9855	* per-cpu events.
				9856	*/
				9857	if (group_leader->ctx->task != ctx->task)
				9858	goto err_context;
				9859
				9860	/*
				9861	* Make sure we're both events for the same CPU;
				9862	* grouping events for different CPUs is broken; since
				9863	* you can never concurrently schedule them anyhow.
				9864	*/
				9865	if (group_leader->cpu != event->cpu)
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	9866	goto err_context;
				9867	} else {
				9868	if (group_leader->ctx != ctx)
				9869	goto err_context;
				9870	}
				9871
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9872	/*
				9873	* Only a group leader can be exclusive or pinned
				9874	*/
				9875	if (attr.exclusive \|\| attr.pinned)
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	9876	goto err_context;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	9877	}
				9878
				9879	if (output_event) {
				9880	err = perf_event_set_output(event, output_event);
				9881	if (err)
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	9882	goto err_context;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	9883	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9884
Yann Droneaud	a21b0b3	2014-01-05 21:36:33 +0100	[diff] [blame]	9885	event_file = anon_inode_getfile("[perf_event]", &perf_fops, event,
				9886	f_flags);
Al Viro	ea635c6	2010-05-26 17:40:29 -0400	[diff] [blame]	9887	if (IS_ERR(event_file)) {
				9888	err = PTR_ERR(event_file);
Alexander Shishkin	201c2f8	2016-03-21 10:02:42 +0200	[diff] [blame]	9889	event_file = NULL;
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	9890	goto err_context;
Al Viro	ea635c6	2010-05-26 17:40:29 -0400	[diff] [blame]	9891	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9892
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	9893	if (move_group) {
Peter Zijlstra	321027c	2017-01-11 21:09:50 +0100	[diff] [blame]	9894	gctx = __perf_event_ctx_lock_double(group_leader, ctx);
				9895
Peter Zijlstra	84c4e62	2016-02-24 18:45:40 +0100	[diff] [blame]	9896	if (gctx->task == TASK_TOMBSTONE) {
				9897	err = -ESRCH;
				9898	goto err_locked;
				9899	}
Peter Zijlstra	321027c	2017-01-11 21:09:50 +0100	[diff] [blame]	9900
				9901	/*
				9902	* Check if we raced against another sys_perf_event_open() call
				9903	* moving the software group underneath us.
				9904	*/
				9905	if (!(group_leader->group_caps & PERF_EV_CAP_SOFTWARE)) {
				9906	/*
				9907	* If someone moved the group out from under us, check
				9908	* if this new event wound up on the same ctx, if so
				9909	* its the regular !move_group case, otherwise fail.
				9910	*/
				9911	if (gctx != ctx) {
				9912	err = -EINVAL;
				9913	goto err_locked;
				9914	} else {
				9915	perf_event_ctx_unlock(group_leader, gctx);
				9916	move_group = 0;
				9917	}
				9918	}
Peter Zijlstra	f55fc2a	2015-09-09 19:06:33 +0200	[diff] [blame]	9919	} else {
				9920	mutex_lock(&ctx->mutex);
				9921	}
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	9922
Peter Zijlstra	84c4e62	2016-02-24 18:45:40 +0100	[diff] [blame]	9923	if (ctx->task == TASK_TOMBSTONE) {
				9924	err = -ESRCH;
				9925	goto err_locked;
				9926	}
				9927
Peter Zijlstra	a723968	2015-09-09 19:06:33 +0200	[diff] [blame]	9928	if (!perf_event_validate_size(event)) {
				9929	err = -E2BIG;
				9930	goto err_locked;
				9931	}
				9932
Peter Zijlstra	f55fc2a	2015-09-09 19:06:33 +0200	[diff] [blame]	9933	/*
				9934	* Must be under the same ctx::mutex as perf_install_in_context(),
				9935	* because we need to serialize with concurrent event creation.
				9936	*/
				9937	if (!exclusive_event_installable(event, ctx)) {
				9938	/* exclusive and group stuff are assumed mutually exclusive */
				9939	WARN_ON_ONCE(move_group);
				9940
				9941	err = -EBUSY;
				9942	goto err_locked;
				9943	}
				9944
				9945	WARN_ON_ONCE(ctx->parent_ctx);
				9946
Peter Zijlstra	79c9ce5	2016-04-26 11:36:53 +0200	[diff] [blame]	9947	/*
				9948	* This is the point on no return; we cannot fail hereafter. This is
				9949	* where we start modifying current state.
				9950	*/
				9951
Peter Zijlstra	f55fc2a	2015-09-09 19:06:33 +0200	[diff] [blame]	9952	if (move_group) {
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	9953	/*
				9954	* See perf_event_ctx_lock() for comments on the details
				9955	* of swizzling perf_event::ctx.
				9956	*/
Peter Zijlstra	45a0e07	2016-01-26 13:09:48 +0100	[diff] [blame]	9957	perf_remove_from_context(group_leader, 0);
Jiri Olsa	0231bb5	2013-02-01 11:23:45 +0100	[diff] [blame]	9958
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	9959	list_for_each_entry(sibling, &group_leader->sibling_list,
				9960	group_entry) {
Peter Zijlstra	45a0e07	2016-01-26 13:09:48 +0100	[diff] [blame]	9961	perf_remove_from_context(sibling, 0);
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	9962	put_ctx(gctx);
				9963	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	9964
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	9965	/*
				9966	* Wait for everybody to stop referencing the events through
				9967	* the old lists, before installing it on new lists.
				9968	*/
Yan, Zheng	0cda4c0	2012-06-15 14:31:33 +0800	[diff] [blame]	9969	synchronize_rcu();
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	9970
Peter Zijlstra (Intel)	8f95b43	2015-01-27 11:53:12 +0100	[diff] [blame]	9971	/*
				9972	* Install the group siblings before the group leader.
				9973	*
				9974	* Because a group leader will try and install the entire group
				9975	* (through the sibling list, which is still in-tact), we can
				9976	* end up with siblings installed in the wrong context.
				9977	*
				9978	* By installing siblings first we NO-OP because they're not
				9979	* reachable through the group lists.
				9980	*/
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	9981	list_for_each_entry(sibling, &group_leader->sibling_list,
				9982	group_entry) {
Peter Zijlstra (Intel)	8f95b43	2015-01-27 11:53:12 +0100	[diff] [blame]	9983	perf_event__state_init(sibling);
Jiri Olsa	9fc81d8	2014-12-10 21:23:51 +0100	[diff] [blame]	9984	perf_install_in_context(ctx, sibling, sibling->cpu);
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	9985	get_ctx(ctx);
				9986	}
Peter Zijlstra (Intel)	8f95b43	2015-01-27 11:53:12 +0100	[diff] [blame]	9987
				9988	/*
				9989	* Removing from the context ends up with disabled
				9990	* event. What we want here is event in the initial
				9991	* startup state, ready to be add into new context.
				9992	*/
				9993	perf_event__state_init(group_leader);
				9994	perf_install_in_context(ctx, group_leader, group_leader->cpu);
				9995	get_ctx(ctx);
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	9996
Peter Zijlstra	f55fc2a	2015-09-09 19:06:33 +0200	[diff] [blame]	9997	/*
				9998	* Now that all events are installed in @ctx, nothing
				9999	* references @gctx anymore, so drop the last reference we have
				10000	* on it.
				10001	*/
				10002	put_ctx(gctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10003	}
				10004
Peter Zijlstra	f73e22a	2015-09-09 20:48:22 +0200	[diff] [blame]	10005	/*
				10006	* Precalculate sample_data sizes; do while holding ctx::mutex such
				10007	* that we're serialized against further additions and before
				10008	* perf_install_in_context() which is the point the event is active and
				10009	* can use these values.
				10010	*/
				10011	perf_event__header_size(event);
				10012	perf_event__id_header_size(event);
Alexander Shishkin	bed5b25	2015-01-30 12:31:06 +0200	[diff] [blame]	10013
Peter Zijlstra	78cd2c7	2016-01-25 14:08:45 +0100	[diff] [blame]	10014	event->owner = current;
				10015
Yan, Zheng	e2d37cd	2012-06-15 14:31:32 +0800	[diff] [blame]	10016	perf_install_in_context(ctx, event, event->cpu);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	10017	perf_unpin_context(ctx);
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	10018
Peter Zijlstra	f55fc2a	2015-09-09 19:06:33 +0200	[diff] [blame]	10019	if (move_group)
Peter Zijlstra	321027c	2017-01-11 21:09:50 +0100	[diff] [blame]	10020	perf_event_ctx_unlock(group_leader, gctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10021	mutex_unlock(&ctx->mutex);
				10022
Peter Zijlstra	79c9ce5	2016-04-26 11:36:53 +0200	[diff] [blame]	10023	if (task) {
				10024	mutex_unlock(&task->signal->cred_guard_mutex);
				10025	put_task_struct(task);
				10026	}
				10027
Yan, Zheng	fbfc623	2012-06-15 14:31:31 +0800	[diff] [blame]	10028	put_online_cpus();
				10029
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10030	mutex_lock(&current->perf_event_mutex);
				10031	list_add_tail(&event->owner_entry, &current->perf_event_list);
				10032	mutex_unlock(&current->perf_event_mutex);
				10033
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	10034	/*
				10035	* Drop the reference on the group_event after placing the
				10036	* new event on the sibling_list. This ensures destruction
				10037	* of the group leader will find the pointer to itself in
				10038	* perf_group_detach().
				10039	*/
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	10040	fdput(group);
Al Viro	ea635c6	2010-05-26 17:40:29 -0400	[diff] [blame]	10041	fd_install(event_fd, event_file);
				10042	return event_fd;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10043
Peter Zijlstra	f55fc2a	2015-09-09 19:06:33 +0200	[diff] [blame]	10044	err_locked:
				10045	if (move_group)
Peter Zijlstra	321027c	2017-01-11 21:09:50 +0100	[diff] [blame]	10046	perf_event_ctx_unlock(group_leader, gctx);
Peter Zijlstra	f55fc2a	2015-09-09 19:06:33 +0200	[diff] [blame]	10047	mutex_unlock(&ctx->mutex);
				10048	/* err_file: */
				10049	fput(event_file);
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	10050	err_context:
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	10051	perf_unpin_context(ctx);
Al Viro	ea635c6	2010-05-26 17:40:29 -0400	[diff] [blame]	10052	put_ctx(ctx);
Peter Zijlstra	c6be5a5	2010-10-14 16:59:46 +0200	[diff] [blame]	10053	err_alloc:
Peter Zijlstra	1300562	2016-02-24 18:45:41 +0100	[diff] [blame]	10054	/*
				10055	* If event_file is set, the fput() above will have called ->release()
				10056	* and that will take care of freeing the event.
				10057	*/
				10058	if (!event_file)
				10059	free_event(event);
Peter Zijlstra	79c9ce5	2016-04-26 11:36:53 +0200	[diff] [blame]	10060	err_cred:
				10061	if (task)
				10062	mutex_unlock(&task->signal->cred_guard_mutex);
Peter Zijlstra	1f4ee50	2014-05-06 09:59:34 +0200	[diff] [blame]	10063	err_cpus:
Yan, Zheng	fbfc623	2012-06-15 14:31:31 +0800	[diff] [blame]	10064	put_online_cpus();
Peter Zijlstra	1f4ee50	2014-05-06 09:59:34 +0200	[diff] [blame]	10065	err_task:
Peter Zijlstra	e7d0bc0	2010-10-14 16:54:51 +0200	[diff] [blame]	10066	if (task)
				10067	put_task_struct(task);
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	10068	err_group_fd:
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	10069	fdput(group);
Al Viro	ea635c6	2010-05-26 17:40:29 -0400	[diff] [blame]	10070	err_fd:
				10071	put_unused_fd(event_fd);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10072	return err;
				10073	}
				10074
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	10075	/**
				10076	* perf_event_create_kernel_counter
				10077	*
				10078	* @attr: attributes of the counter to create
				10079	* @cpu: cpu in which the counter is bound
Matt Helsley	38a81da	2010-09-13 13:01:20 -0700	[diff] [blame]	10080	* @task: task to profile (NULL for percpu)
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	10081	*/
				10082	struct perf_event *
				10083	perf_event_create_kernel_counter(struct perf_event_attr *attr, int cpu,
Matt Helsley	38a81da	2010-09-13 13:01:20 -0700	[diff] [blame]	10084	struct task_struct *task,
Avi Kivity	4dc0da8	2011-06-29 18:42:35 +0300	[diff] [blame]	10085	perf_overflow_handler_t overflow_handler,
				10086	void *context)
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	10087	{
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	10088	struct perf_event_context *ctx;
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	10089	struct perf_event *event;
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	10090	int err;
				10091
				10092	/*
				10093	* Get the target context (task or percpu):
				10094	*/
				10095
Avi Kivity	4dc0da8	2011-06-29 18:42:35 +0300	[diff] [blame]	10096	event = perf_event_alloc(attr, cpu, task, NULL, NULL,
Matt Fleming	79dff51	2015-01-23 18:45:42 +0000	[diff] [blame]	10097	overflow_handler, context, -1);
Frederic Weisbecker	c6567f6	2009-11-26 05:35:41 +0100	[diff] [blame]	10098	if (IS_ERR(event)) {
				10099	err = PTR_ERR(event);
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	10100	goto err;
				10101	}
				10102
Jiri Olsa	f869776	2014-08-01 14:33:01 +0200	[diff] [blame]	10103	/* Mark owner so we could distinguish it from user events. */
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	10104	event->owner = TASK_TOMBSTONE;
Jiri Olsa	f869776	2014-08-01 14:33:01 +0200	[diff] [blame]	10105
Yan, Zheng	4af57ef	2014-11-04 21:56:01 -0500	[diff] [blame]	10106	ctx = find_get_context(event->pmu, task, event);
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	10107	if (IS_ERR(ctx)) {
				10108	err = PTR_ERR(ctx);
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	10109	goto err_free;
Frederic Weisbecker	c6567f6	2009-11-26 05:35:41 +0100	[diff] [blame]	10110	}
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	10111
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	10112	WARN_ON_ONCE(ctx->parent_ctx);
				10113	mutex_lock(&ctx->mutex);
Peter Zijlstra	84c4e62	2016-02-24 18:45:40 +0100	[diff] [blame]	10114	if (ctx->task == TASK_TOMBSTONE) {
				10115	err = -ESRCH;
				10116	goto err_unlock;
				10117	}
				10118
Alexander Shishkin	bed5b25	2015-01-30 12:31:06 +0200	[diff] [blame]	10119	if (!exclusive_event_installable(event, ctx)) {
Alexander Shishkin	bed5b25	2015-01-30 12:31:06 +0200	[diff] [blame]	10120	err = -EBUSY;
Peter Zijlstra	84c4e62	2016-02-24 18:45:40 +0100	[diff] [blame]	10121	goto err_unlock;
Alexander Shishkin	bed5b25	2015-01-30 12:31:06 +0200	[diff] [blame]	10122	}
				10123
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	10124	perf_install_in_context(ctx, event, cpu);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	10125	perf_unpin_context(ctx);
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	10126	mutex_unlock(&ctx->mutex);
				10127
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	10128	return event;
				10129
Peter Zijlstra	84c4e62	2016-02-24 18:45:40 +0100	[diff] [blame]	10130	err_unlock:
				10131	mutex_unlock(&ctx->mutex);
				10132	perf_unpin_context(ctx);
				10133	put_ctx(ctx);
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	10134	err_free:
				10135	free_event(event);
				10136	err:
Frederic Weisbecker	c6567f6	2009-11-26 05:35:41 +0100	[diff] [blame]	10137	return ERR_PTR(err);
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	10138	}
				10139	EXPORT_SYMBOL_GPL(perf_event_create_kernel_counter);
				10140
Yan, Zheng	0cda4c0	2012-06-15 14:31:33 +0800	[diff] [blame]	10141	void perf_pmu_migrate_context(struct pmu *pmu, int src_cpu, int dst_cpu)
				10142	{
				10143	struct perf_event_context *src_ctx;
				10144	struct perf_event_context *dst_ctx;
				10145	struct perf_event event, tmp;
				10146	LIST_HEAD(events);
				10147
				10148	src_ctx = &per_cpu_ptr(pmu->pmu_cpu_context, src_cpu)->ctx;
				10149	dst_ctx = &per_cpu_ptr(pmu->pmu_cpu_context, dst_cpu)->ctx;
				10150
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	10151	/*
				10152	* See perf_event_ctx_lock() for comments on the details
				10153	* of swizzling perf_event::ctx.
				10154	*/
				10155	mutex_lock_double(&src_ctx->mutex, &dst_ctx->mutex);
Yan, Zheng	0cda4c0	2012-06-15 14:31:33 +0800	[diff] [blame]	10156	list_for_each_entry_safe(event, tmp, &src_ctx->event_list,
				10157	event_entry) {
Peter Zijlstra	45a0e07	2016-01-26 13:09:48 +0100	[diff] [blame]	10158	perf_remove_from_context(event, 0);
Frederic Weisbecker	9a545de	2013-07-23 02:31:03 +0200	[diff] [blame]	10159	unaccount_event_cpu(event, src_cpu);
Yan, Zheng	0cda4c0	2012-06-15 14:31:33 +0800	[diff] [blame]	10160	put_ctx(src_ctx);
Peter Zijlstra	9886167	2013-10-03 16:02:23 +0200	[diff] [blame]	10161	list_add(&event->migrate_entry, &events);
Yan, Zheng	0cda4c0	2012-06-15 14:31:33 +0800	[diff] [blame]	10162	}
Yan, Zheng	0cda4c0	2012-06-15 14:31:33 +0800	[diff] [blame]	10163
Peter Zijlstra (Intel)	8f95b43	2015-01-27 11:53:12 +0100	[diff] [blame]	10164	/*
				10165	* Wait for the events to quiesce before re-instating them.
				10166	*/
Yan, Zheng	0cda4c0	2012-06-15 14:31:33 +0800	[diff] [blame]	10167	synchronize_rcu();
				10168
Peter Zijlstra (Intel)	8f95b43	2015-01-27 11:53:12 +0100	[diff] [blame]	10169	/*
				10170	* Re-instate events in 2 passes.
				10171	*
				10172	* Skip over group leaders and only install siblings on this first
				10173	* pass, siblings will not get enabled without a leader, however a
				10174	* leader will enable its siblings, even if those are still on the old
				10175	* context.
				10176	*/
				10177	list_for_each_entry_safe(event, tmp, &events, migrate_entry) {
				10178	if (event->group_leader == event)
				10179	continue;
				10180
				10181	list_del(&event->migrate_entry);
				10182	if (event->state >= PERF_EVENT_STATE_OFF)
				10183	event->state = PERF_EVENT_STATE_INACTIVE;
				10184	account_event_cpu(event, dst_cpu);
				10185	perf_install_in_context(dst_ctx, event, dst_cpu);
				10186	get_ctx(dst_ctx);
				10187	}
				10188
				10189	/*
				10190	* Once all the siblings are setup properly, install the group leaders
				10191	* to make it go.
				10192	*/
Peter Zijlstra	9886167	2013-10-03 16:02:23 +0200	[diff] [blame]	10193	list_for_each_entry_safe(event, tmp, &events, migrate_entry) {
				10194	list_del(&event->migrate_entry);
Yan, Zheng	0cda4c0	2012-06-15 14:31:33 +0800	[diff] [blame]	10195	if (event->state >= PERF_EVENT_STATE_OFF)
				10196	event->state = PERF_EVENT_STATE_INACTIVE;
Frederic Weisbecker	9a545de	2013-07-23 02:31:03 +0200	[diff] [blame]	10197	account_event_cpu(event, dst_cpu);
Yan, Zheng	0cda4c0	2012-06-15 14:31:33 +0800	[diff] [blame]	10198	perf_install_in_context(dst_ctx, event, dst_cpu);
				10199	get_ctx(dst_ctx);
				10200	}
				10201	mutex_unlock(&dst_ctx->mutex);
Peter Zijlstra	f63a8da	2015-01-23 12:24:14 +0100	[diff] [blame]	10202	mutex_unlock(&src_ctx->mutex);
Yan, Zheng	0cda4c0	2012-06-15 14:31:33 +0800	[diff] [blame]	10203	}
				10204	EXPORT_SYMBOL_GPL(perf_pmu_migrate_context);
				10205
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10206	static void sync_child_event(struct perf_event *child_event,
				10207	struct task_struct *child)
				10208	{
				10209	struct perf_event *parent_event = child_event->parent;
				10210	u64 child_val;
				10211
				10212	if (child_event->attr.inherit_stat)
				10213	perf_event_read_event(child_event, child);
				10214
Peter Zijlstra	b5e5879	2010-05-21 14:43:12 +0200	[diff] [blame]	10215	child_val = perf_event_count(child_event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10216
				10217	/*
				10218	* Add back the child's count to the parent's count:
				10219	*/
Peter Zijlstra	a6e6dea	2010-05-21 14:27:58 +0200	[diff] [blame]	10220	atomic64_add(child_val, &parent_event->child_count);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10221	atomic64_add(child_event->total_time_enabled,
				10222	&parent_event->child_total_time_enabled);
				10223	atomic64_add(child_event->total_time_running,
				10224	&parent_event->child_total_time_running);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10225	}
				10226
				10227	static void
Peter Zijlstra	8ba289b	2016-01-26 13:06:56 +0100	[diff] [blame]	10228	perf_event_exit_event(struct perf_event *child_event,
				10229	struct perf_event_context *child_ctx,
				10230	struct task_struct *child)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10231	{
Peter Zijlstra	8ba289b	2016-01-26 13:06:56 +0100	[diff] [blame]	10232	struct perf_event *parent_event = child_event->parent;
				10233
Peter Zijlstra	1903d50	2014-07-15 17:27:27 +0200	[diff] [blame]	10234	/*
				10235	* Do not destroy the 'original' grouping; because of the context
				10236	* switch optimization the original events could've ended up in a
				10237	* random child task.
				10238	*
				10239	* If we were to destroy the original group, all group related
				10240	* operations would cease to function properly after this random
				10241	* child dies.
				10242	*
				10243	* Do destroy all inherited groups, we don't care about those
				10244	* and being thorough is better.
				10245	*/
Peter Zijlstra	32132a3	2016-01-11 15:40:59 +0100	[diff] [blame]	10246	raw_spin_lock_irq(&child_ctx->lock);
				10247	WARN_ON_ONCE(child_ctx->is_active);
				10248
Peter Zijlstra	8ba289b	2016-01-26 13:06:56 +0100	[diff] [blame]	10249	if (parent_event)
Peter Zijlstra	32132a3	2016-01-11 15:40:59 +0100	[diff] [blame]	10250	perf_group_detach(child_event);
				10251	list_del_event(child_event, child_ctx);
Peter Zijlstra	a69b0ca	2016-02-24 18:45:44 +0100	[diff] [blame]	10252	child_event->state = PERF_EVENT_STATE_EXIT; /* is_event_hup() */
Peter Zijlstra	32132a3	2016-01-11 15:40:59 +0100	[diff] [blame]	10253	raw_spin_unlock_irq(&child_ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10254
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10255	/*
Peter Zijlstra	8ba289b	2016-01-26 13:06:56 +0100	[diff] [blame]	10256	* Parent events are governed by their filedesc, retain them.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10257	*/
Peter Zijlstra	8ba289b	2016-01-26 13:06:56 +0100	[diff] [blame]	10258	if (!parent_event) {
Jiri Olsa	179033b	2014-08-07 11:48:26 -0400	[diff] [blame]	10259	perf_event_wakeup(child_event);
Peter Zijlstra	8ba289b	2016-01-26 13:06:56 +0100	[diff] [blame]	10260	return;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10261	}
Peter Zijlstra	8ba289b	2016-01-26 13:06:56 +0100	[diff] [blame]	10262	/*
				10263	* Child events can be cleaned up.
				10264	*/
				10265
				10266	sync_child_event(child_event, child);
				10267
				10268	/*
				10269	* Remove this event from the parent's list
				10270	*/
				10271	WARN_ON_ONCE(parent_event->ctx->parent_ctx);
				10272	mutex_lock(&parent_event->child_mutex);
				10273	list_del_init(&child_event->child_list);
				10274	mutex_unlock(&parent_event->child_mutex);
				10275
				10276	/*
				10277	* Kick perf_poll() for is_event_hup().
				10278	*/
				10279	perf_event_wakeup(parent_event);
				10280	free_event(child_event);
				10281	put_event(parent_event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10282	}
				10283
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10284	static void perf_event_exit_task_context(struct task_struct *child, int ctxn)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10285	{
Peter Zijlstra	211de6e	2014-09-30 19:23:08 +0200	[diff] [blame]	10286	struct perf_event_context child_ctx, clone_ctx = NULL;
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	10287	struct perf_event child_event, next;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10288
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	10289	WARN_ON_ONCE(child != current);
				10290
Peter Zijlstra	6a3351b	2016-01-25 14:09:54 +0100	[diff] [blame]	10291	child_ctx = perf_pin_task_context(child, ctxn);
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	10292	if (!child_ctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10293	return;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10294
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10295	/*
Peter Zijlstra	6a3351b	2016-01-25 14:09:54 +0100	[diff] [blame]	10296	* In order to reduce the amount of tricky in ctx tear-down, we hold
				10297	* ctx::mutex over the entire thing. This serializes against almost
				10298	* everything that wants to access the ctx.
				10299	*
				10300	* The exception is sys_perf_event_open() /
				10301	* perf_event_create_kernel_count() which does find_get_context()
				10302	* without ctx::mutex (it cannot because of the move_group double mutex
				10303	* lock thing). See the comments in perf_install_in_context().
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10304	*/
Peter Zijlstra	6a3351b	2016-01-25 14:09:54 +0100	[diff] [blame]	10305	mutex_lock(&child_ctx->mutex);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10306
				10307	/*
Peter Zijlstra	6a3351b	2016-01-25 14:09:54 +0100	[diff] [blame]	10308	* In a single ctx::lock section, de-schedule the events and detach the
				10309	* context from the task such that we cannot ever get it scheduled back
				10310	* in.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10311	*/
Peter Zijlstra	6a3351b	2016-01-25 14:09:54 +0100	[diff] [blame]	10312	raw_spin_lock_irq(&child_ctx->lock);
Alexander Shishkin	487f05e	2017-01-19 18:43:30 +0200	[diff] [blame]	10313	task_ctx_sched_out(__get_cpu_context(child_ctx), child_ctx, EVENT_ALL);
Peter Zijlstra	4a1c0f2	2014-06-23 16:12:42 +0200	[diff] [blame]	10314
				10315	/*
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	10316	* Now that the context is inactive, destroy the task <-> ctx relation
				10317	* and mark the context dead.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10318	*/
Peter Zijlstra	63b6da3	2016-01-14 16:05:37 +0100	[diff] [blame]	10319	RCU_INIT_POINTER(child->perf_event_ctxp[ctxn], NULL);
				10320	put_ctx(child_ctx); /* cannot be last */
				10321	WRITE_ONCE(child_ctx->task, TASK_TOMBSTONE);
				10322	put_task_struct(current); /* cannot be last */
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10323
Peter Zijlstra	211de6e	2014-09-30 19:23:08 +0200	[diff] [blame]	10324	clone_ctx = unclone_ctx(child_ctx);
Peter Zijlstra	6a3351b	2016-01-25 14:09:54 +0100	[diff] [blame]	10325	raw_spin_unlock_irq(&child_ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10326
Peter Zijlstra	211de6e	2014-09-30 19:23:08 +0200	[diff] [blame]	10327	if (clone_ctx)
				10328	put_ctx(clone_ctx);
Peter Zijlstra	4a1c0f2	2014-06-23 16:12:42 +0200	[diff] [blame]	10329
				10330	/*
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10331	* Report the task dead after unscheduling the events so that we
				10332	* won't get any samples after PERF_RECORD_EXIT. We can however still
				10333	* get a few PERF_RECORD_READ events.
				10334	*/
				10335	perf_event_task(child, child_ctx, 0);
				10336
Peter Zijlstra	ebf905f	2014-05-29 19:00:24 +0200	[diff] [blame]	10337	list_for_each_entry_safe(child_event, next, &child_ctx->event_list, event_entry)
Peter Zijlstra	8ba289b	2016-01-26 13:06:56 +0100	[diff] [blame]	10338	perf_event_exit_event(child_event, child_ctx, child);
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	10339
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10340	mutex_unlock(&child_ctx->mutex);
				10341
				10342	put_ctx(child_ctx);
				10343	}
				10344
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10345	/*
				10346	* When a child task exits, feed back event values to parent events.
Peter Zijlstra	79c9ce5	2016-04-26 11:36:53 +0200	[diff] [blame]	10347	*
				10348	* Can be called with cred_guard_mutex held when called from
				10349	* install_exec_creds().
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10350	*/
				10351	void perf_event_exit_task(struct task_struct *child)
				10352	{
Peter Zijlstra	8882135	2010-11-09 19:01:43 +0100	[diff] [blame]	10353	struct perf_event event, tmp;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10354	int ctxn;
				10355
Peter Zijlstra	8882135	2010-11-09 19:01:43 +0100	[diff] [blame]	10356	mutex_lock(&child->perf_event_mutex);
				10357	list_for_each_entry_safe(event, tmp, &child->perf_event_list,
				10358	owner_entry) {
				10359	list_del_init(&event->owner_entry);
				10360
				10361	/*
				10362	* Ensure the list deletion is visible before we clear
				10363	* the owner, closes a race against perf_release() where
				10364	* we need to serialize on the owner->perf_event_mutex.
				10365	*/
Peter Zijlstra	f47c02c	2016-01-26 12:30:14 +0100	[diff] [blame]	10366	smp_store_release(&event->owner, NULL);
Peter Zijlstra	8882135	2010-11-09 19:01:43 +0100	[diff] [blame]	10367	}
				10368	mutex_unlock(&child->perf_event_mutex);
				10369
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10370	for_each_task_context_nr(ctxn)
				10371	perf_event_exit_task_context(child, ctxn);
Jiri Olsa	4e93ad6	2015-11-04 16:00:05 +0100	[diff] [blame]	10372
				10373	/*
				10374	* The perf_event_exit_task_context calls perf_event_task
				10375	* with child's task_ctx, which generates EXIT events for
				10376	* child contexts and sets child->perf_event_ctxp[] to NULL.
				10377	* At this point we need to send EXIT events to cpu contexts.
				10378	*/
				10379	perf_event_task(child, NULL, 0);
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10380	}
				10381
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	10382	static void perf_free_event(struct perf_event *event,
				10383	struct perf_event_context *ctx)
				10384	{
				10385	struct perf_event *parent = event->parent;
				10386
				10387	if (WARN_ON_ONCE(!parent))
				10388	return;
				10389
				10390	mutex_lock(&parent->child_mutex);
				10391	list_del_init(&event->child_list);
				10392	mutex_unlock(&parent->child_mutex);
				10393
Al Viro	a6fa941	2012-08-20 14:59:25 +0100	[diff] [blame]	10394	put_event(parent);
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	10395
Peter Zijlstra	652884f	2015-01-23 11:20:10 +0100	[diff] [blame]	10396	raw_spin_lock_irq(&ctx->lock);
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	10397	perf_group_detach(event);
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	10398	list_del_event(event, ctx);
Peter Zijlstra	652884f	2015-01-23 11:20:10 +0100	[diff] [blame]	10399	raw_spin_unlock_irq(&ctx->lock);
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	10400	free_event(event);
				10401	}
				10402
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10403	/*
Peter Zijlstra	652884f	2015-01-23 11:20:10 +0100	[diff] [blame]	10404	* Free an unexposed, unused context as created by inheritance by
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10405	* perf_event_init_task below, used by fork() in case of fail.
Peter Zijlstra	652884f	2015-01-23 11:20:10 +0100	[diff] [blame]	10406	*
				10407	* Not all locks are strictly required, but take them anyway to be nice and
				10408	* help out with the lockdep assertions.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10409	*/
				10410	void perf_event_free_task(struct task_struct *task)
				10411	{
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10412	struct perf_event_context *ctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10413	struct perf_event event, tmp;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10414	int ctxn;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10415
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10416	for_each_task_context_nr(ctxn) {
				10417	ctx = task->perf_event_ctxp[ctxn];
				10418	if (!ctx)
				10419	continue;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10420
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10421	mutex_lock(&ctx->mutex);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10422	again:
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10423	list_for_each_entry_safe(event, tmp, &ctx->pinned_groups,
				10424	group_entry)
				10425	perf_free_event(event, ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10426
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10427	list_for_each_entry_safe(event, tmp, &ctx->flexible_groups,
				10428	group_entry)
				10429	perf_free_event(event, ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10430
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10431	if (!list_empty(&ctx->pinned_groups) \|\|
				10432	!list_empty(&ctx->flexible_groups))
				10433	goto again;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10434
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10435	mutex_unlock(&ctx->mutex);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10436
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10437	put_ctx(ctx);
				10438	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10439	}
				10440
Peter Zijlstra	4e231c7	2010-09-09 21:01:59 +0200	[diff] [blame]	10441	void perf_event_delayed_put(struct task_struct *task)
				10442	{
				10443	int ctxn;
				10444
				10445	for_each_task_context_nr(ctxn)
				10446	WARN_ON_ONCE(task->perf_event_ctxp[ctxn]);
				10447	}
				10448
Alexei Starovoitov	e03e7ee	2016-01-25 20:59:49 -0800	[diff] [blame]	10449	struct file *perf_event_get(unsigned int fd)
Kaixu Xia	ffe8690	2015-08-06 07:02:32 +0000	[diff] [blame]	10450	{
Alexei Starovoitov	e03e7ee	2016-01-25 20:59:49 -0800	[diff] [blame]	10451	struct file *file;
Kaixu Xia	ffe8690	2015-08-06 07:02:32 +0000	[diff] [blame]	10452
Alexei Starovoitov	e03e7ee	2016-01-25 20:59:49 -0800	[diff] [blame]	10453	file = fget_raw(fd);
				10454	if (!file)
				10455	return ERR_PTR(-EBADF);
Kaixu Xia	ffe8690	2015-08-06 07:02:32 +0000	[diff] [blame]	10456
Alexei Starovoitov	e03e7ee	2016-01-25 20:59:49 -0800	[diff] [blame]	10457	if (file->f_op != &perf_fops) {
				10458	fput(file);
				10459	return ERR_PTR(-EBADF);
				10460	}
Kaixu Xia	ffe8690	2015-08-06 07:02:32 +0000	[diff] [blame]	10461
Alexei Starovoitov	e03e7ee	2016-01-25 20:59:49 -0800	[diff] [blame]	10462	return file;
Kaixu Xia	ffe8690	2015-08-06 07:02:32 +0000	[diff] [blame]	10463	}
				10464
				10465	const struct perf_event_attr perf_event_attrs(struct perf_event event)
				10466	{
				10467	if (!event)
				10468	return ERR_PTR(-EINVAL);
				10469
				10470	return &event->attr;
				10471	}
				10472
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	10473	/*
				10474	* inherit a event from parent task to child task:
				10475	*/
				10476	static struct perf_event *
				10477	inherit_event(struct perf_event *parent_event,
				10478	struct task_struct *parent,
				10479	struct perf_event_context *parent_ctx,
				10480	struct task_struct *child,
				10481	struct perf_event *group_leader,
				10482	struct perf_event_context *child_ctx)
				10483	{
Jiri Olsa	1929def	2014-09-12 13:18:27 +0200	[diff] [blame]	10484	enum perf_event_active_state parent_state = parent_event->state;
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	10485	struct perf_event *child_event;
Peter Zijlstra	cee010e	2010-09-10 12:51:54 +0200	[diff] [blame]	10486	unsigned long flags;
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	10487
				10488	/*
				10489	* Instead of creating recursive hierarchies of events,
				10490	* we link inherited events back to the original parent,
				10491	* which has a filp for sure, which we use as the reference
				10492	* count:
				10493	*/
				10494	if (parent_event->parent)
				10495	parent_event = parent_event->parent;
				10496
				10497	child_event = perf_event_alloc(&parent_event->attr,
				10498	parent_event->cpu,
Peter Zijlstra	d580ff8	2010-10-14 17:43:23 +0200	[diff] [blame]	10499	child,
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	10500	group_leader, parent_event,
Matt Fleming	79dff51	2015-01-23 18:45:42 +0000	[diff] [blame]	10501	NULL, NULL, -1);
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	10502	if (IS_ERR(child_event))
				10503	return child_event;
Al Viro	a6fa941	2012-08-20 14:59:25 +0100	[diff] [blame]	10504
Peter Zijlstra	c6e5b73	2016-01-15 16:07:41 +0200	[diff] [blame]	10505	/*
				10506	* is_orphaned_event() and list_add_tail(&parent_event->child_list)
				10507	* must be under the same lock in order to serialize against
				10508	* perf_event_release_kernel(), such that either we must observe
				10509	* is_orphaned_event() or they will observe us on the child_list.
				10510	*/
				10511	mutex_lock(&parent_event->child_mutex);
Jiri Olsa	fadfe7b	2014-08-01 14:33:02 +0200	[diff] [blame]	10512	if (is_orphaned_event(parent_event) \|\|
				10513	!atomic_long_inc_not_zero(&parent_event->refcount)) {
Peter Zijlstra	c6e5b73	2016-01-15 16:07:41 +0200	[diff] [blame]	10514	mutex_unlock(&parent_event->child_mutex);
Al Viro	a6fa941	2012-08-20 14:59:25 +0100	[diff] [blame]	10515	free_event(child_event);
				10516	return NULL;
				10517	}
				10518
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	10519	get_ctx(child_ctx);
				10520
				10521	/*
				10522	* Make the child state follow the state of the parent event,
				10523	* not its attr.disabled bit. We hold the parent's mutex,
				10524	* so we won't race with perf_event_{en, dis}able_family.
				10525	*/
Jiri Olsa	1929def	2014-09-12 13:18:27 +0200	[diff] [blame]	10526	if (parent_state >= PERF_EVENT_STATE_INACTIVE)
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	10527	child_event->state = PERF_EVENT_STATE_INACTIVE;
				10528	else
				10529	child_event->state = PERF_EVENT_STATE_OFF;
				10530
				10531	if (parent_event->attr.freq) {
				10532	u64 sample_period = parent_event->hw.sample_period;
				10533	struct hw_perf_event *hwc = &child_event->hw;
				10534
				10535	hwc->sample_period = sample_period;
				10536	hwc->last_period = sample_period;
				10537
				10538	local64_set(&hwc->period_left, sample_period);
				10539	}
				10540
				10541	child_event->ctx = child_ctx;
				10542	child_event->overflow_handler = parent_event->overflow_handler;
Avi Kivity	4dc0da8	2011-06-29 18:42:35 +0300	[diff] [blame]	10543	child_event->overflow_handler_context
				10544	= parent_event->overflow_handler_context;
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	10545
				10546	/*
Thomas Gleixner	614b678	2010-12-03 16:24:32 -0200	[diff] [blame]	10547	* Precalculate sample_data sizes
				10548	*/
				10549	perf_event__header_size(child_event);
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	10550	perf_event__id_header_size(child_event);
Thomas Gleixner	614b678	2010-12-03 16:24:32 -0200	[diff] [blame]	10551
				10552	/*
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	10553	* Link it up in the child's context:
				10554	*/
Peter Zijlstra	cee010e	2010-09-10 12:51:54 +0200	[diff] [blame]	10555	raw_spin_lock_irqsave(&child_ctx->lock, flags);
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	10556	add_event_to_ctx(child_event, child_ctx);
Peter Zijlstra	cee010e	2010-09-10 12:51:54 +0200	[diff] [blame]	10557	raw_spin_unlock_irqrestore(&child_ctx->lock, flags);
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	10558
				10559	/*
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	10560	* Link this into the parent event's child list
				10561	*/
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	10562	list_add_tail(&child_event->child_list, &parent_event->child_list);
				10563	mutex_unlock(&parent_event->child_mutex);
				10564
				10565	return child_event;
				10566	}
				10567
				10568	static int inherit_group(struct perf_event *parent_event,
				10569	struct task_struct *parent,
				10570	struct perf_event_context *parent_ctx,
				10571	struct task_struct *child,
				10572	struct perf_event_context *child_ctx)
				10573	{
				10574	struct perf_event *leader;
				10575	struct perf_event *sub;
				10576	struct perf_event *child_ctr;
				10577
				10578	leader = inherit_event(parent_event, parent, parent_ctx,
				10579	child, NULL, child_ctx);
				10580	if (IS_ERR(leader))
				10581	return PTR_ERR(leader);
				10582	list_for_each_entry(sub, &parent_event->sibling_list, group_entry) {
				10583	child_ctr = inherit_event(sub, parent, parent_ctx,
				10584	child, leader, child_ctx);
				10585	if (IS_ERR(child_ctr))
				10586	return PTR_ERR(child_ctr);
				10587	}
				10588	return 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10589	}
				10590
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	10591	static int
				10592	inherit_task_group(struct perf_event event, struct task_struct parent,
				10593	struct perf_event_context *parent_ctx,
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10594	struct task_struct *child, int ctxn,
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	10595	int *inherited_all)
				10596	{
				10597	int ret;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10598	struct perf_event_context *child_ctx;
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	10599
				10600	if (!event->attr.inherit) {
				10601	*inherited_all = 0;
				10602	return 0;
				10603	}
				10604
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	10605	child_ctx = child->perf_event_ctxp[ctxn];
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	10606	if (!child_ctx) {
				10607	/*
				10608	* This is executed from the parent task context, so
				10609	* inherit events that have been marked for cloning.
				10610	* First allocate and initialize a context for the
				10611	* child.
				10612	*/
				10613
Jiri Olsa	734df5a	2013-07-09 17:44:10 +0200	[diff] [blame]	10614	child_ctx = alloc_perf_context(parent_ctx->pmu, child);
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	10615	if (!child_ctx)
				10616	return -ENOMEM;
				10617
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10618	child->perf_event_ctxp[ctxn] = child_ctx;
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	10619	}
				10620
				10621	ret = inherit_group(event, parent, parent_ctx,
				10622	child, child_ctx);
				10623
				10624	if (ret)
				10625	*inherited_all = 0;
				10626
				10627	return ret;
				10628	}
				10629
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10630	/*
				10631	* Initialize the perf_event context in task_struct
				10632	*/
Jiri Olsa	985c8dc	2014-06-24 10:20:24 +0200	[diff] [blame]	10633	static int perf_event_init_context(struct task_struct *child, int ctxn)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10634	{
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	10635	struct perf_event_context child_ctx, parent_ctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10636	struct perf_event_context *cloned_ctx;
				10637	struct perf_event *event;
				10638	struct task_struct *parent = current;
				10639	int inherited_all = 1;
Thomas Gleixner	dddd337	2010-11-24 10:05:55 +0100	[diff] [blame]	10640	unsigned long flags;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10641	int ret = 0;
				10642
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10643	if (likely(!parent->perf_event_ctxp[ctxn]))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10644	return 0;
				10645
				10646	/*
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10647	* If the parent's context is a clone, pin it so it won't get
				10648	* swapped under us.
				10649	*/
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10650	parent_ctx = perf_pin_task_context(parent, ctxn);
Peter Zijlstra	ffb4ef2	2014-05-05 19:12:20 +0200	[diff] [blame]	10651	if (!parent_ctx)
				10652	return 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10653
				10654	/*
				10655	* No need to check if parent_ctx != NULL here; since we saw
				10656	* it non-NULL earlier, the only reason for it to become NULL
				10657	* is if we exit, and since we're currently in the middle of
				10658	* a fork we can't be exiting at the same time.
				10659	*/
				10660
				10661	/*
				10662	* Lock the parent list. No need to lock the child - not PID
				10663	* hashed yet and not running, so nobody can access it.
				10664	*/
				10665	mutex_lock(&parent_ctx->mutex);
				10666
				10667	/*
				10668	* We dont have to disable NMIs - we are only looking at
				10669	* the list, not manipulating it:
				10670	*/
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	10671	list_for_each_entry(event, &parent_ctx->pinned_groups, group_entry) {
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10672	ret = inherit_task_group(event, parent, parent_ctx,
				10673	child, ctxn, &inherited_all);
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	10674	if (ret)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10675	break;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10676	}
				10677
Thomas Gleixner	dddd337	2010-11-24 10:05:55 +0100	[diff] [blame]	10678	/*
				10679	* We can't hold ctx->lock when iterating the ->flexible_group list due
				10680	* to allocations, but we need to prevent rotation because
				10681	* rotate_ctx() will change the list from interrupt context.
				10682	*/
				10683	raw_spin_lock_irqsave(&parent_ctx->lock, flags);
				10684	parent_ctx->rotate_disable = 1;
				10685	raw_spin_unlock_irqrestore(&parent_ctx->lock, flags);
				10686
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	10687	list_for_each_entry(event, &parent_ctx->flexible_groups, group_entry) {
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10688	ret = inherit_task_group(event, parent, parent_ctx,
				10689	child, ctxn, &inherited_all);
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	10690	if (ret)
				10691	break;
				10692	}
				10693
Thomas Gleixner	dddd337	2010-11-24 10:05:55 +0100	[diff] [blame]	10694	raw_spin_lock_irqsave(&parent_ctx->lock, flags);
				10695	parent_ctx->rotate_disable = 0;
Thomas Gleixner	dddd337	2010-11-24 10:05:55 +0100	[diff] [blame]	10696
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10697	child_ctx = child->perf_event_ctxp[ctxn];
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	10698
Peter Zijlstra	05cbaa2	2009-12-30 16:00:35 +0100	[diff] [blame]	10699	if (child_ctx && inherited_all) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10700	/*
				10701	* Mark the child context as a clone of the parent
				10702	* context, or of whatever the parent is a clone of.
Peter Zijlstra	c5ed514	2011-01-17 13:45:37 +0100	[diff] [blame]	10703	*
				10704	* Note that if the parent is a clone, the holding of
				10705	* parent_ctx->lock avoids it from being uncloned.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10706	*/
Peter Zijlstra	c5ed514	2011-01-17 13:45:37 +0100	[diff] [blame]	10707	cloned_ctx = parent_ctx->parent_ctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10708	if (cloned_ctx) {
				10709	child_ctx->parent_ctx = cloned_ctx;
				10710	child_ctx->parent_gen = parent_ctx->parent_gen;
				10711	} else {
				10712	child_ctx->parent_ctx = parent_ctx;
				10713	child_ctx->parent_gen = parent_ctx->generation;
				10714	}
				10715	get_ctx(child_ctx->parent_ctx);
				10716	}
				10717
Peter Zijlstra	c5ed514	2011-01-17 13:45:37 +0100	[diff] [blame]	10718	raw_spin_unlock_irqrestore(&parent_ctx->lock, flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10719	mutex_unlock(&parent_ctx->mutex);
				10720
				10721	perf_unpin_context(parent_ctx);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	10722	put_ctx(parent_ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10723
				10724	return ret;
				10725	}
				10726
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10727	/*
				10728	* Initialize the perf_event context in task_struct
				10729	*/
				10730	int perf_event_init_task(struct task_struct *child)
				10731	{
				10732	int ctxn, ret;
				10733
Oleg Nesterov	8550d7c	2011-01-19 19:22:28 +0100	[diff] [blame]	10734	memset(child->perf_event_ctxp, 0, sizeof(child->perf_event_ctxp));
				10735	mutex_init(&child->perf_event_mutex);
				10736	INIT_LIST_HEAD(&child->perf_event_list);
				10737
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10738	for_each_task_context_nr(ctxn) {
				10739	ret = perf_event_init_context(child, ctxn);
Peter Zijlstra	6c72e350	2014-10-02 16:17:02 -0700	[diff] [blame]	10740	if (ret) {
				10741	perf_event_free_task(child);
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10742	return ret;
Peter Zijlstra	6c72e350	2014-10-02 16:17:02 -0700	[diff] [blame]	10743	}
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	10744	}
				10745
				10746	return 0;
				10747	}
				10748
Paul Mackerras	220b140	2010-03-10 20:45:52 +1100	[diff] [blame]	10749	static void __init perf_event_init_all_cpus(void)
				10750	{
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	10751	struct swevent_htable *swhash;
Paul Mackerras	220b140	2010-03-10 20:45:52 +1100	[diff] [blame]	10752	int cpu;
Paul Mackerras	220b140	2010-03-10 20:45:52 +1100	[diff] [blame]	10753
				10754	for_each_possible_cpu(cpu) {
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	10755	swhash = &per_cpu(swevent_htable, cpu);
				10756	mutex_init(&swhash->hlist_mutex);
Mark Rutland	2fde4f9	2015-01-07 15:01:54 +0000	[diff] [blame]	10757	INIT_LIST_HEAD(&per_cpu(active_ctx_list, cpu));
Kan Liang	f2fb6be	2016-03-23 11:24:37 -0700	[diff] [blame]	10758
				10759	INIT_LIST_HEAD(&per_cpu(pmu_sb_events.list, cpu));
				10760	raw_spin_lock_init(&per_cpu(pmu_sb_events.lock, cpu));
Peter Zijlstra	e48c178	2016-07-06 09:18:30 +0200	[diff] [blame]	10761
David Carrillo-Cisneros	058fe1c	2017-01-18 11:24:53 -0800	[diff] [blame]	10762	#ifdef CONFIG_CGROUP_PERF
				10763	INIT_LIST_HEAD(&per_cpu(cgrp_cpuctx_list, cpu));
				10764	#endif
Peter Zijlstra	e48c178	2016-07-06 09:18:30 +0200	[diff] [blame]	10765	INIT_LIST_HEAD(&per_cpu(sched_cb_list, cpu));
Paul Mackerras	220b140	2010-03-10 20:45:52 +1100	[diff] [blame]	10766	}
				10767	}
				10768
Thomas Gleixner	00e16c3	2016-07-13 17:16:09 +0000	[diff] [blame]	10769	int perf_event_init_cpu(unsigned int cpu)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10770	{
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	10771	struct swevent_htable *swhash = &per_cpu(swevent_htable, cpu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10772
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	10773	mutex_lock(&swhash->hlist_mutex);
Thomas Gleixner	059fcd8	2016-02-09 20:11:34 +0000	[diff] [blame]	10774	if (swhash->hlist_refcount > 0 && !swevent_hlist_deref(swhash)) {
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	10775	struct swevent_hlist *hlist;
				10776
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	10777	hlist = kzalloc_node(sizeof(*hlist), GFP_KERNEL, cpu_to_node(cpu));
				10778	WARN_ON(!hlist);
				10779	rcu_assign_pointer(swhash->swevent_hlist, hlist);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	10780	}
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	10781	mutex_unlock(&swhash->hlist_mutex);
Thomas Gleixner	00e16c3	2016-07-13 17:16:09 +0000	[diff] [blame]	10782	return 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10783	}
				10784
Dave Young	2965faa	2015-09-09 15:38:55 -0700	[diff] [blame]	10785	#if defined CONFIG_HOTPLUG_CPU \|\| defined CONFIG_KEXEC_CORE
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	10786	static void __perf_event_exit_context(void *__info)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10787	{
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	10788	struct perf_event_context *ctx = __info;
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	10789	struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
				10790	struct perf_event *event;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10791
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	10792	raw_spin_lock(&ctx->lock);
				10793	list_for_each_entry(event, &ctx->event_list, event_entry)
Peter Zijlstra	45a0e07	2016-01-26 13:09:48 +0100	[diff] [blame]	10794	__perf_remove_from_context(event, cpuctx, ctx, (void *)DETACH_GROUP);
Peter Zijlstra	fae3fde	2016-01-11 15:00:50 +0100	[diff] [blame]	10795	raw_spin_unlock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10796	}
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	10797
				10798	static void perf_event_exit_cpu_context(int cpu)
				10799	{
				10800	struct perf_event_context *ctx;
				10801	struct pmu *pmu;
				10802	int idx;
				10803
				10804	idx = srcu_read_lock(&pmus_srcu);
				10805	list_for_each_entry_rcu(pmu, &pmus, entry) {
Peter Zijlstra	917bdd1	2010-09-17 11:28:49 +0200	[diff] [blame]	10806	ctx = &per_cpu_ptr(pmu->pmu_cpu_context, cpu)->ctx;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	10807
				10808	mutex_lock(&ctx->mutex);
				10809	smp_call_function_single(cpu, __perf_event_exit_context, ctx, 1);
				10810	mutex_unlock(&ctx->mutex);
				10811	}
				10812	srcu_read_unlock(&pmus_srcu, idx);
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	10813	}
Thomas Gleixner	00e16c3	2016-07-13 17:16:09 +0000	[diff] [blame]	10814	#else
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	10815
Thomas Gleixner	00e16c3	2016-07-13 17:16:09 +0000	[diff] [blame]	10816	static void perf_event_exit_cpu_context(int cpu) { }
				10817
				10818	#endif
				10819
				10820	int perf_event_exit_cpu(unsigned int cpu)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10821	{
Peter Zijlstra	e3703f8	2014-02-24 12:06:12 +0100	[diff] [blame]	10822	perf_event_exit_cpu_context(cpu);
Thomas Gleixner	00e16c3	2016-07-13 17:16:09 +0000	[diff] [blame]	10823	return 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10824	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10825
Peter Zijlstra	c277443	2010-12-08 15:29:02 +0100	[diff] [blame]	10826	static int
				10827	perf_reboot(struct notifier_block notifier, unsigned long val, void v)
				10828	{
				10829	int cpu;
				10830
				10831	for_each_online_cpu(cpu)
				10832	perf_event_exit_cpu(cpu);
				10833
				10834	return NOTIFY_OK;
				10835	}
				10836
				10837	/*
				10838	* Run the perf reboot notifier at the very last possible moment so that
				10839	* the generic watchdog code runs as long as possible.
				10840	*/
				10841	static struct notifier_block perf_reboot_notifier = {
				10842	.notifier_call = perf_reboot,
				10843	.priority = INT_MIN,
				10844	};
				10845
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10846	void __init perf_event_init(void)
				10847	{
Jason Wessel	3c502e7	2010-11-04 17:33:01 -0500	[diff] [blame]	10848	int ret;
				10849
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	10850	idr_init(&pmu_idr);
				10851
Paul Mackerras	220b140	2010-03-10 20:45:52 +1100	[diff] [blame]	10852	perf_event_init_all_cpus();
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10853	init_srcu_struct(&pmus_srcu);
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	10854	perf_pmu_register(&perf_swevent, "software", PERF_TYPE_SOFTWARE);
				10855	perf_pmu_register(&perf_cpu_clock, NULL, -1);
				10856	perf_pmu_register(&perf_task_clock, NULL, -1);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	10857	perf_tp_register();
Thomas Gleixner	00e16c3	2016-07-13 17:16:09 +0000	[diff] [blame]	10858	perf_event_init_cpu(smp_processor_id());
Peter Zijlstra	c277443	2010-12-08 15:29:02 +0100	[diff] [blame]	10859	register_reboot_notifier(&perf_reboot_notifier);
Jason Wessel	3c502e7	2010-11-04 17:33:01 -0500	[diff] [blame]	10860
				10861	ret = init_hw_breakpoint();
				10862	WARN(ret, "hw_breakpoint initialization failed with: %d", ret);
Gleb Natapov	b202952	2011-11-27 17:59:09 +0200	[diff] [blame]	10863
Jiri Olsa	b01c3a0	2012-03-23 15:41:20 +0100	[diff] [blame]	10864	/*
				10865	* Build time assertion that we keep the data_head at the intended
				10866	* location. IOW, validation we got the __reserved[] size right.
				10867	*/
				10868	BUILD_BUG_ON((offsetof(struct perf_event_mmap_page, data_head))
				10869	!= 1024);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10870	}
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	10871
Cody P Schafer	fd979c0	2015-01-30 13:45:57 -0800	[diff] [blame]	10872	ssize_t perf_event_sysfs_show(struct device dev, struct device_attribute attr,
				10873	char *page)
				10874	{
				10875	struct perf_pmu_events_attr *pmu_attr =
				10876	container_of(attr, struct perf_pmu_events_attr, attr);
				10877
				10878	if (pmu_attr->event_str)
				10879	return sprintf(page, "%s\n", pmu_attr->event_str);
				10880
				10881	return 0;
				10882	}
Thomas Gleixner	675965b	2016-02-22 22:19:27 +0000	[diff] [blame]	10883	EXPORT_SYMBOL_GPL(perf_event_sysfs_show);
Cody P Schafer	fd979c0	2015-01-30 13:45:57 -0800	[diff] [blame]	10884
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	10885	static int __init perf_event_sysfs_init(void)
				10886	{
				10887	struct pmu *pmu;
				10888	int ret;
				10889
				10890	mutex_lock(&pmus_lock);
				10891
				10892	ret = bus_register(&pmu_bus);
				10893	if (ret)
				10894	goto unlock;
				10895
				10896	list_for_each_entry(pmu, &pmus, entry) {
				10897	if (!pmu->name \|\| pmu->type < 0)
				10898	continue;
				10899
				10900	ret = pmu_dev_alloc(pmu);
				10901	WARN(ret, "Failed to register pmu: %s, reason %d\n", pmu->name, ret);
				10902	}
				10903	pmu_bus_running = 1;
				10904	ret = 0;
				10905
				10906	unlock:
				10907	mutex_unlock(&pmus_lock);
				10908
				10909	return ret;
				10910	}
				10911	device_initcall(perf_event_sysfs_init);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	10912
				10913	#ifdef CONFIG_CGROUP_PERF
Tejun Heo	eb95419	2013-08-08 20:11:23 -0400	[diff] [blame]	10914	static struct cgroup_subsys_state *
				10915	perf_cgroup_css_alloc(struct cgroup_subsys_state *parent_css)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	10916	{
				10917	struct perf_cgroup *jc;
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	10918
Li Zefan	1b15d05	2011-03-03 14:26:06 +0800	[diff] [blame]	10919	jc = kzalloc(sizeof(*jc), GFP_KERNEL);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	10920	if (!jc)
				10921	return ERR_PTR(-ENOMEM);
				10922
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	10923	jc->info = alloc_percpu(struct perf_cgroup_info);
				10924	if (!jc->info) {
				10925	kfree(jc);
				10926	return ERR_PTR(-ENOMEM);
				10927	}
				10928
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	10929	return &jc->css;
				10930	}
				10931
Tejun Heo	eb95419	2013-08-08 20:11:23 -0400	[diff] [blame]	10932	static void perf_cgroup_css_free(struct cgroup_subsys_state *css)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	10933	{
Tejun Heo	eb95419	2013-08-08 20:11:23 -0400	[diff] [blame]	10934	struct perf_cgroup *jc = container_of(css, struct perf_cgroup, css);
				10935
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	10936	free_percpu(jc->info);
				10937	kfree(jc);
				10938	}
				10939
				10940	static int __perf_cgroup_move(void *info)
				10941	{
				10942	struct task_struct *task = info;
Stephane Eranian	ddaaf4e	2015-11-12 11:00:03 +0100	[diff] [blame]	10943	rcu_read_lock();
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	10944	perf_cgroup_switch(task, PERF_CGROUP_SWOUT \| PERF_CGROUP_SWIN);
Stephane Eranian	ddaaf4e	2015-11-12 11:00:03 +0100	[diff] [blame]	10945	rcu_read_unlock();
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	10946	return 0;
				10947	}
				10948
Tejun Heo	1f7dd3e5	2015-12-03 10:18:21 -0500	[diff] [blame]	10949	static void perf_cgroup_attach(struct cgroup_taskset *tset)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	10950	{
Tejun Heo	bb9d97b	2011-12-12 18:12:21 -0800	[diff] [blame]	10951	struct task_struct *task;
Tejun Heo	1f7dd3e5	2015-12-03 10:18:21 -0500	[diff] [blame]	10952	struct cgroup_subsys_state *css;
Tejun Heo	bb9d97b	2011-12-12 18:12:21 -0800	[diff] [blame]	10953
Tejun Heo	1f7dd3e5	2015-12-03 10:18:21 -0500	[diff] [blame]	10954	cgroup_taskset_for_each(task, css, tset)
Tejun Heo	bb9d97b	2011-12-12 18:12:21 -0800	[diff] [blame]	10955	task_function_call(task, __perf_cgroup_move, task);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	10956	}
				10957
Tejun Heo	073219e	2014-02-08 10:36:58 -0500	[diff] [blame]	10958	struct cgroup_subsys perf_event_cgrp_subsys = {
Tejun Heo	92fb974	2012-11-19 08:13:38 -0800	[diff] [blame]	10959	.css_alloc = perf_cgroup_css_alloc,
				10960	.css_free = perf_cgroup_css_free,
Tejun Heo	bb9d97b	2011-12-12 18:12:21 -0800	[diff] [blame]	10961	.attach = perf_cgroup_attach,
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	10962	};
				10963	#endif /* CONFIG_CGROUP_PERF */