Blame - kernel/events/core.c - SHIFTPHONES/mainline/linux

blob: f3e9dce39bc919b8c812be7593bdb45ee0a65f7c [file] [log] [blame]

Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1	/*
Ingo Molnar	57c0c15	2009-09-21 12:20:38 +0200	[diff] [blame]	2	* Performance events core code:
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3	*
				4	* Copyright (C) 2008 Thomas Gleixner <tglx@linutronix.de>
Ingo Molnar	e7e7ee2	2011-05-04 08:42:29 +0200	[diff] [blame]	5	* Copyright (C) 2008-2011 Red Hat, Inc., Ingo Molnar
				6	* Copyright (C) 2008-2011 Red Hat, Inc., Peter Zijlstra <pzijlstr@redhat.com>
Al Viro	d36b691	2011-12-29 17:09:01 -0500	[diff] [blame]	7	* Copyright © 2009 Paul Mackerras, IBM Corp. <paulus@au1.ibm.com>
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	8	*
Ingo Molnar	57c0c15	2009-09-21 12:20:38 +0200	[diff] [blame]	9	* For licensing details see kernel-base/COPYING
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10	*/
				11
				12	#include <linux/fs.h>
				13	#include <linux/mm.h>
				14	#include <linux/cpu.h>
				15	#include <linux/smp.h>
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	16	#include <linux/idr.h>
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	17	#include <linux/file.h>
				18	#include <linux/poll.h>
Tejun Heo	5a0e3ad	2010-03-24 17:04:11 +0900	[diff] [blame]	19	#include <linux/slab.h>
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	20	#include <linux/hash.h>
Frederic Weisbecker	12351ef	2013-04-20 15:48:22 +0200	[diff] [blame]	21	#include <linux/tick.h>
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	22	#include <linux/sysfs.h>
				23	#include <linux/dcache.h>
				24	#include <linux/percpu.h>
				25	#include <linux/ptrace.h>
Peter Zijlstra	c277443	2010-12-08 15:29:02 +0100	[diff] [blame]	26	#include <linux/reboot.h>
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	27	#include <linux/vmstat.h>
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	28	#include <linux/device.h>
Paul Gortmaker	6e5fdee	2011-05-26 16:00:52 -0400	[diff] [blame]	29	#include <linux/export.h>
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	30	#include <linux/vmalloc.h>
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	31	#include <linux/hardirq.h>
				32	#include <linux/rculist.h>
				33	#include <linux/uaccess.h>
				34	#include <linux/syscalls.h>
				35	#include <linux/anon_inodes.h>
				36	#include <linux/kernel_stat.h>
				37	#include <linux/perf_event.h>
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	38	#include <linux/ftrace_event.h>
Jason Wessel	3c502e7	2010-11-04 17:33:01 -0500	[diff] [blame]	39	#include <linux/hw_breakpoint.h>
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	40	#include <linux/mm_types.h>
Li Zefan	877c685	2013-03-05 11:38:08 +0800	[diff] [blame]	41	#include <linux/cgroup.h>
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	42
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	43	#include "internal.h"
				44
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	45	#include <asm/irq_regs.h>
				46
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	47	struct remote_function_call {
Ingo Molnar	e7e7ee2	2011-05-04 08:42:29 +0200	[diff] [blame]	48	struct task_struct *p;
				49	int (func)(void info);
				50	void *info;
				51	int ret;
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	52	};
				53
				54	static void remote_function(void *data)
				55	{
				56	struct remote_function_call *tfc = data;
				57	struct task_struct *p = tfc->p;
				58
				59	if (p) {
				60	tfc->ret = -EAGAIN;
				61	if (task_cpu(p) != smp_processor_id() \|\| !task_curr(p))
				62	return;
				63	}
				64
				65	tfc->ret = tfc->func(tfc->info);
				66	}
				67
				68	/**
				69	* task_function_call - call a function on the cpu on which a task runs
				70	* @p: the task to evaluate
				71	* @func: the function to be called
				72	* @info: the function call argument
				73	*
				74	* Calls the function @func when the task is currently running. This might
				75	* be on the current CPU, which just calls the function directly
				76	*
				77	* returns: @func return value, or
				78	* -ESRCH - when the process isn't running
				79	* -EAGAIN - when the process moved away
				80	*/
				81	static int
				82	task_function_call(struct task_struct p, int (func) (void info), void info)
				83	{
				84	struct remote_function_call data = {
Ingo Molnar	e7e7ee2	2011-05-04 08:42:29 +0200	[diff] [blame]	85	.p = p,
				86	.func = func,
				87	.info = info,
				88	.ret = -ESRCH, /* No such (running) process */
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	89	};
				90
				91	if (task_curr(p))
				92	smp_call_function_single(task_cpu(p), remote_function, &data, 1);
				93
				94	return data.ret;
				95	}
				96
				97	/**
				98	* cpu_function_call - call a function on the cpu
				99	* @func: the function to be called
				100	* @info: the function call argument
				101	*
				102	* Calls the function @func on the remote cpu.
				103	*
				104	* returns: @func return value or -ENXIO when the cpu is offline
				105	*/
				106	static int cpu_function_call(int cpu, int (func) (void info), void *info)
				107	{
				108	struct remote_function_call data = {
Ingo Molnar	e7e7ee2	2011-05-04 08:42:29 +0200	[diff] [blame]	109	.p = NULL,
				110	.func = func,
				111	.info = info,
				112	.ret = -ENXIO, /* No such CPU */
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	113	};
				114
				115	smp_call_function_single(cpu, remote_function, &data, 1);
				116
				117	return data.ret;
				118	}
				119
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	120	#define PERF_FLAG_ALL (PERF_FLAG_FD_NO_GROUP \|\
				121	PERF_FLAG_FD_OUTPUT \|\
				122	PERF_FLAG_PID_CGROUP)
				123
Stephane Eranian	bce38cd	2012-02-09 23:20:51 +0100	[diff] [blame]	124	/*
				125	* branch priv levels that need permission checks
				126	*/
				127	#define PERF_SAMPLE_BRANCH_PERM_PLM \
				128	(PERF_SAMPLE_BRANCH_KERNEL \|\
				129	PERF_SAMPLE_BRANCH_HV)
				130
Stephane Eranian	0b3fcf1	2011-01-03 18:20:01 +0200	[diff] [blame]	131	enum event_type_t {
				132	EVENT_FLEXIBLE = 0x1,
				133	EVENT_PINNED = 0x2,
				134	EVENT_ALL = EVENT_FLEXIBLE \| EVENT_PINNED,
				135	};
				136
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	137	/*
				138	* perf_sched_events : >0 events exist
				139	* perf_cgroup_events: >0 per-cpu cgroup events exist on this cpu
				140	*/
Ingo Molnar	c5905af	2012-02-24 08:31:31 +0100	[diff] [blame]	141	struct static_key_deferred perf_sched_events __read_mostly;
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	142	static DEFINE_PER_CPU(atomic_t, perf_cgroup_events);
Stephane Eranian	d010b33	2012-02-09 23:21:00 +0100	[diff] [blame]	143	static DEFINE_PER_CPU(atomic_t, perf_branch_stack_events);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	144
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	145	static atomic_t nr_mmap_events __read_mostly;
				146	static atomic_t nr_comm_events __read_mostly;
				147	static atomic_t nr_task_events __read_mostly;
				148
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	149	static LIST_HEAD(pmus);
				150	static DEFINE_MUTEX(pmus_lock);
				151	static struct srcu_struct pmus_srcu;
				152
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	153	/*
				154	* perf event paranoia level:
				155	* -1 - not paranoid at all
				156	* 0 - disallow raw tracepoint access for unpriv
				157	* 1 - disallow cpu events for unpriv
				158	* 2 - disallow kernel profiling for unpriv
				159	*/
				160	int sysctl_perf_event_paranoid __read_mostly = 1;
				161
Frederic Weisbecker	2044338	2011-03-31 03:33:29 +0200	[diff] [blame]	162	/* Minimum for 512 kiB + 1 user control page */
				163	int sysctl_perf_event_mlock __read_mostly = 512 + (PAGE_SIZE / 1024); /* 'free' kiB per user */
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	164
				165	/*
				166	* max perf event sample rate
				167	*/
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	168	#define DEFAULT_MAX_SAMPLE_RATE 100000
				169	#define DEFAULT_SAMPLE_PERIOD_NS (NSEC_PER_SEC / DEFAULT_MAX_SAMPLE_RATE)
				170	#define DEFAULT_CPU_TIME_MAX_PERCENT 25
				171
				172	int sysctl_perf_event_sample_rate __read_mostly = DEFAULT_MAX_SAMPLE_RATE;
				173
				174	static int max_samples_per_tick __read_mostly = DIV_ROUND_UP(DEFAULT_MAX_SAMPLE_RATE, HZ);
				175	static int perf_sample_period_ns __read_mostly = DEFAULT_SAMPLE_PERIOD_NS;
				176
				177	static atomic_t perf_sample_allowed_ns __read_mostly =
				178	ATOMIC_INIT( DEFAULT_SAMPLE_PERIOD_NS * DEFAULT_CPU_TIME_MAX_PERCENT / 100);
				179
				180	void update_perf_cpu_limits(void)
				181	{
				182	u64 tmp = perf_sample_period_ns;
				183
				184	tmp *= sysctl_perf_cpu_time_max_percent;
Stephane Eranian	e530292	2013-07-05 00:30:11 +0200	[diff] [blame]	185	do_div(tmp, 100);
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	186	atomic_set(&perf_sample_allowed_ns, tmp);
				187	}
Peter Zijlstra	163ec43	2011-02-16 11:22:34 +0100	[diff] [blame]	188
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	189	static int perf_rotate_context(struct perf_cpu_context *cpuctx);
				190
Peter Zijlstra	163ec43	2011-02-16 11:22:34 +0100	[diff] [blame]	191	int perf_proc_update_handler(struct ctl_table *table, int write,
				192	void __user buffer, size_t lenp,
				193	loff_t *ppos)
				194	{
				195	int ret = proc_dointvec(table, write, buffer, lenp, ppos);
				196
				197	if (ret \|\| !write)
				198	return ret;
				199
				200	max_samples_per_tick = DIV_ROUND_UP(sysctl_perf_event_sample_rate, HZ);
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	201	perf_sample_period_ns = NSEC_PER_SEC / sysctl_perf_event_sample_rate;
				202	update_perf_cpu_limits();
Peter Zijlstra	163ec43	2011-02-16 11:22:34 +0100	[diff] [blame]	203
				204	return 0;
				205	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	206
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	207	int sysctl_perf_cpu_time_max_percent __read_mostly = DEFAULT_CPU_TIME_MAX_PERCENT;
				208
				209	int perf_cpu_time_max_percent_handler(struct ctl_table *table, int write,
				210	void __user buffer, size_t lenp,
				211	loff_t *ppos)
				212	{
				213	int ret = proc_dointvec(table, write, buffer, lenp, ppos);
				214
				215	if (ret \|\| !write)
				216	return ret;
				217
				218	update_perf_cpu_limits();
				219
				220	return 0;
				221	}
				222
				223	/*
				224	* perf samples are done in some very critical code paths (NMIs).
				225	* If they take too much CPU time, the system can lock up and not
				226	* get any real work done. This will drop the sample rate when
				227	* we detect that events are taking too long.
				228	*/
				229	#define NR_ACCUMULATED_SAMPLES 128
				230	DEFINE_PER_CPU(u64, running_sample_length);
				231
				232	void perf_sample_event_took(u64 sample_len_ns)
				233	{
				234	u64 avg_local_sample_len;
Stephane Eranian	e530292	2013-07-05 00:30:11 +0200	[diff] [blame]	235	u64 local_samples_len;
Dave Hansen	14c63f1	2013-06-21 08:51:36 -0700	[diff] [blame]	236
				237	if (atomic_read(&perf_sample_allowed_ns) == 0)
				238	return;
				239
				240	/* decay the counter by 1 average sample */
				241	local_samples_len = __get_cpu_var(running_sample_length);
				242	local_samples_len -= local_samples_len/NR_ACCUMULATED_SAMPLES;
				243	local_samples_len += sample_len_ns;
				244	__get_cpu_var(running_sample_length) = local_samples_len;
				245
				246	/*
				247	* note: this will be biased artifically low until we have
				248	* seen NR_ACCUMULATED_SAMPLES. Doing it this way keeps us
				249	* from having to maintain a count.
				250	*/
				251	avg_local_sample_len = local_samples_len/NR_ACCUMULATED_SAMPLES;
				252
				253	if (avg_local_sample_len <= atomic_read(&perf_sample_allowed_ns))
				254	return;
				255
				256	if (max_samples_per_tick <= 1)
				257	return;
				258
				259	max_samples_per_tick = DIV_ROUND_UP(max_samples_per_tick, 2);
				260	sysctl_perf_event_sample_rate = max_samples_per_tick * HZ;
				261	perf_sample_period_ns = NSEC_PER_SEC / sysctl_perf_event_sample_rate;
				262
				263	printk_ratelimited(KERN_WARNING
				264	"perf samples too long (%lld > %d), lowering "
				265	"kernel.perf_event_max_sample_rate to %d\n",
				266	avg_local_sample_len,
				267	atomic_read(&perf_sample_allowed_ns),
				268	sysctl_perf_event_sample_rate);
				269
				270	update_perf_cpu_limits();
				271	}
				272
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	273	static atomic64_t perf_event_id;
				274
Stephane Eranian	0b3fcf1	2011-01-03 18:20:01 +0200	[diff] [blame]	275	static void cpu_ctx_sched_out(struct perf_cpu_context *cpuctx,
				276	enum event_type_t event_type);
				277
				278	static void cpu_ctx_sched_in(struct perf_cpu_context *cpuctx,
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	279	enum event_type_t event_type,
				280	struct task_struct *task);
				281
				282	static void update_context_time(struct perf_event_context *ctx);
				283	static u64 perf_event_time(struct perf_event *event);
Stephane Eranian	0b3fcf1	2011-01-03 18:20:01 +0200	[diff] [blame]	284
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	285	void __weak perf_event_print_debug(void) { }
				286
Matt Fleming	84c7991	2010-10-03 21:41:13 +0100	[diff] [blame]	287	extern __weak const char *perf_pmu_name(void)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	288	{
Matt Fleming	84c7991	2010-10-03 21:41:13 +0100	[diff] [blame]	289	return "pmu";
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	290	}
				291
Stephane Eranian	0b3fcf1	2011-01-03 18:20:01 +0200	[diff] [blame]	292	static inline u64 perf_clock(void)
				293	{
				294	return local_clock();
				295	}
				296
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	297	static inline struct perf_cpu_context *
				298	__get_cpu_context(struct perf_event_context *ctx)
				299	{
				300	return this_cpu_ptr(ctx->pmu->pmu_cpu_context);
				301	}
				302
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	303	static void perf_ctx_lock(struct perf_cpu_context *cpuctx,
				304	struct perf_event_context *ctx)
				305	{
				306	raw_spin_lock(&cpuctx->ctx.lock);
				307	if (ctx)
				308	raw_spin_lock(&ctx->lock);
				309	}
				310
				311	static void perf_ctx_unlock(struct perf_cpu_context *cpuctx,
				312	struct perf_event_context *ctx)
				313	{
				314	if (ctx)
				315	raw_spin_unlock(&ctx->lock);
				316	raw_spin_unlock(&cpuctx->ctx.lock);
				317	}
				318
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	319	#ifdef CONFIG_CGROUP_PERF
				320
Stephane Eranian	3f7cce3	2011-02-18 14:40:01 +0200	[diff] [blame]	321	/*
Li Zefan	877c685	2013-03-05 11:38:08 +0800	[diff] [blame]	322	* perf_cgroup_info keeps track of time_enabled for a cgroup.
				323	* This is a per-cpu dynamically allocated data structure.
				324	*/
				325	struct perf_cgroup_info {
				326	u64 time;
				327	u64 timestamp;
				328	};
				329
				330	struct perf_cgroup {
				331	struct cgroup_subsys_state css;
Namhyung Kim	86e213e	2013-03-18 18:56:34 +0900	[diff] [blame]	332	struct perf_cgroup_info __percpu *info;
Li Zefan	877c685	2013-03-05 11:38:08 +0800	[diff] [blame]	333	};
				334
				335	/*
Stephane Eranian	3f7cce3	2011-02-18 14:40:01 +0200	[diff] [blame]	336	* Must ensure cgroup is pinned (css_get) before calling
				337	* this function. In other words, we cannot call this function
				338	* if there is no cgroup event for the current CPU context.
				339	*/
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	340	static inline struct perf_cgroup *
				341	perf_cgroup_from_task(struct task_struct *task)
				342	{
				343	return container_of(task_subsys_state(task, perf_subsys_id),
				344	struct perf_cgroup, css);
				345	}
				346
				347	static inline bool
				348	perf_cgroup_match(struct perf_event *event)
				349	{
				350	struct perf_event_context *ctx = event->ctx;
				351	struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
				352
Tejun Heo	ef824fa	2013-04-08 19:00:38 -0700	[diff] [blame]	353	/* @event doesn't care about cgroup */
				354	if (!event->cgrp)
				355	return true;
				356
				357	/* wants specific cgroup scope but @cpuctx isn't associated with any */
				358	if (!cpuctx->cgrp)
				359	return false;
				360
				361	/*
				362	* Cgroup scoping is recursive. An event enabled for a cgroup is
				363	* also enabled for all its descendant cgroups. If @cpuctx's
				364	* cgroup is a descendant of @event's (the test covers identity
				365	* case), it's a match.
				366	*/
				367	return cgroup_is_descendant(cpuctx->cgrp->css.cgroup,
				368	event->cgrp->css.cgroup);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	369	}
				370
Salman Qazi	9c5da09	2012-06-14 15:31:09 -0700	[diff] [blame]	371	static inline bool perf_tryget_cgroup(struct perf_event *event)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	372	{
Salman Qazi	9c5da09	2012-06-14 15:31:09 -0700	[diff] [blame]	373	return css_tryget(&event->cgrp->css);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	374	}
				375
				376	static inline void perf_put_cgroup(struct perf_event *event)
				377	{
				378	css_put(&event->cgrp->css);
				379	}
				380
				381	static inline void perf_detach_cgroup(struct perf_event *event)
				382	{
				383	perf_put_cgroup(event);
				384	event->cgrp = NULL;
				385	}
				386
				387	static inline int is_cgroup_event(struct perf_event *event)
				388	{
				389	return event->cgrp != NULL;
				390	}
				391
				392	static inline u64 perf_cgroup_event_time(struct perf_event *event)
				393	{
				394	struct perf_cgroup_info *t;
				395
				396	t = per_cpu_ptr(event->cgrp->info, event->cpu);
				397	return t->time;
				398	}
				399
				400	static inline void __update_cgrp_time(struct perf_cgroup *cgrp)
				401	{
				402	struct perf_cgroup_info *info;
				403	u64 now;
				404
				405	now = perf_clock();
				406
				407	info = this_cpu_ptr(cgrp->info);
				408
				409	info->time += now - info->timestamp;
				410	info->timestamp = now;
				411	}
				412
				413	static inline void update_cgrp_time_from_cpuctx(struct perf_cpu_context *cpuctx)
				414	{
				415	struct perf_cgroup *cgrp_out = cpuctx->cgrp;
				416	if (cgrp_out)
				417	__update_cgrp_time(cgrp_out);
				418	}
				419
				420	static inline void update_cgrp_time_from_event(struct perf_event *event)
				421	{
Stephane Eranian	3f7cce3	2011-02-18 14:40:01 +0200	[diff] [blame]	422	struct perf_cgroup *cgrp;
				423
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	424	/*
Stephane Eranian	3f7cce3	2011-02-18 14:40:01 +0200	[diff] [blame]	425	* ensure we access cgroup data only when needed and
				426	* when we know the cgroup is pinned (css_get)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	427	*/
Stephane Eranian	3f7cce3	2011-02-18 14:40:01 +0200	[diff] [blame]	428	if (!is_cgroup_event(event))
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	429	return;
				430
Stephane Eranian	3f7cce3	2011-02-18 14:40:01 +0200	[diff] [blame]	431	cgrp = perf_cgroup_from_task(current);
				432	/*
				433	* Do not update time when cgroup is not active
				434	*/
				435	if (cgrp == event->cgrp)
				436	__update_cgrp_time(event->cgrp);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	437	}
				438
				439	static inline void
Stephane Eranian	3f7cce3	2011-02-18 14:40:01 +0200	[diff] [blame]	440	perf_cgroup_set_timestamp(struct task_struct *task,
				441	struct perf_event_context *ctx)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	442	{
				443	struct perf_cgroup *cgrp;
				444	struct perf_cgroup_info *info;
				445
Stephane Eranian	3f7cce3	2011-02-18 14:40:01 +0200	[diff] [blame]	446	/*
				447	* ctx->lock held by caller
				448	* ensure we do not access cgroup data
				449	* unless we have the cgroup pinned (css_get)
				450	*/
				451	if (!task \|\| !ctx->nr_cgroups)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	452	return;
				453
				454	cgrp = perf_cgroup_from_task(task);
				455	info = this_cpu_ptr(cgrp->info);
Stephane Eranian	3f7cce3	2011-02-18 14:40:01 +0200	[diff] [blame]	456	info->timestamp = ctx->timestamp;
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	457	}
				458
				459	#define PERF_CGROUP_SWOUT 0x1 /* cgroup switch out every event */
				460	#define PERF_CGROUP_SWIN 0x2 /* cgroup switch in events based on task */
				461
				462	/*
				463	* reschedule events based on the cgroup constraint of task.
				464	*
				465	* mode SWOUT : schedule out everything
				466	* mode SWIN : schedule in based on cgroup for next
				467	*/
				468	void perf_cgroup_switch(struct task_struct *task, int mode)
				469	{
				470	struct perf_cpu_context *cpuctx;
				471	struct pmu *pmu;
				472	unsigned long flags;
				473
				474	/*
				475	* disable interrupts to avoid geting nr_cgroup
				476	* changes via __perf_event_disable(). Also
				477	* avoids preemption.
				478	*/
				479	local_irq_save(flags);
				480
				481	/*
				482	* we reschedule only in the presence of cgroup
				483	* constrained events.
				484	*/
				485	rcu_read_lock();
				486
				487	list_for_each_entry_rcu(pmu, &pmus, entry) {
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	488	cpuctx = this_cpu_ptr(pmu->pmu_cpu_context);
Peter Zijlstra	95cf59e	2012-10-02 15:41:23 +0200	[diff] [blame]	489	if (cpuctx->unique_pmu != pmu)
				490	continue; /* ensure we process each cpuctx once */
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	491
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	492	/*
				493	* perf_cgroup_events says at least one
				494	* context on this CPU has cgroup events.
				495	*
				496	* ctx->nr_cgroups reports the number of cgroup
				497	* events for a context.
				498	*/
				499	if (cpuctx->ctx.nr_cgroups > 0) {
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	500	perf_ctx_lock(cpuctx, cpuctx->task_ctx);
				501	perf_pmu_disable(cpuctx->ctx.pmu);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	502
				503	if (mode & PERF_CGROUP_SWOUT) {
				504	cpu_ctx_sched_out(cpuctx, EVENT_ALL);
				505	/*
				506	* must not be done before ctxswout due
				507	* to event_filter_match() in event_sched_out()
				508	*/
				509	cpuctx->cgrp = NULL;
				510	}
				511
				512	if (mode & PERF_CGROUP_SWIN) {
Stephane Eranian	e566b76	2011-04-06 02:54:54 +0200	[diff] [blame]	513	WARN_ON_ONCE(cpuctx->cgrp);
Peter Zijlstra	95cf59e	2012-10-02 15:41:23 +0200	[diff] [blame]	514	/*
				515	* set cgrp before ctxsw in to allow
				516	* event_filter_match() to not have to pass
				517	* task around
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	518	*/
				519	cpuctx->cgrp = perf_cgroup_from_task(task);
				520	cpu_ctx_sched_in(cpuctx, EVENT_ALL, task);
				521	}
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	522	perf_pmu_enable(cpuctx->ctx.pmu);
				523	perf_ctx_unlock(cpuctx, cpuctx->task_ctx);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	524	}
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	525	}
				526
				527	rcu_read_unlock();
				528
				529	local_irq_restore(flags);
				530	}
				531
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	532	static inline void perf_cgroup_sched_out(struct task_struct *task,
				533	struct task_struct *next)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	534	{
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	535	struct perf_cgroup *cgrp1;
				536	struct perf_cgroup *cgrp2 = NULL;
				537
				538	/*
				539	* we come here when we know perf_cgroup_events > 0
				540	*/
				541	cgrp1 = perf_cgroup_from_task(task);
				542
				543	/*
				544	* next is NULL when called from perf_event_enable_on_exec()
				545	* that will systematically cause a cgroup_switch()
				546	*/
				547	if (next)
				548	cgrp2 = perf_cgroup_from_task(next);
				549
				550	/*
				551	* only schedule out current cgroup events if we know
				552	* that we are switching to a different cgroup. Otherwise,
				553	* do no touch the cgroup events.
				554	*/
				555	if (cgrp1 != cgrp2)
				556	perf_cgroup_switch(task, PERF_CGROUP_SWOUT);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	557	}
				558
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	559	static inline void perf_cgroup_sched_in(struct task_struct *prev,
				560	struct task_struct *task)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	561	{
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	562	struct perf_cgroup *cgrp1;
				563	struct perf_cgroup *cgrp2 = NULL;
				564
				565	/*
				566	* we come here when we know perf_cgroup_events > 0
				567	*/
				568	cgrp1 = perf_cgroup_from_task(task);
				569
				570	/* prev can never be NULL */
				571	cgrp2 = perf_cgroup_from_task(prev);
				572
				573	/*
				574	* only need to schedule in cgroup events if we are changing
				575	* cgroup during ctxsw. Cgroup events were not scheduled
				576	* out of ctxsw out if that was not the case.
				577	*/
				578	if (cgrp1 != cgrp2)
				579	perf_cgroup_switch(task, PERF_CGROUP_SWIN);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	580	}
				581
				582	static inline int perf_cgroup_connect(int fd, struct perf_event *event,
				583	struct perf_event_attr *attr,
				584	struct perf_event *group_leader)
				585	{
				586	struct perf_cgroup *cgrp;
				587	struct cgroup_subsys_state *css;
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	588	struct fd f = fdget(fd);
				589	int ret = 0;
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	590
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	591	if (!f.file)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	592	return -EBADF;
				593
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	594	css = cgroup_css_from_dir(f.file, perf_subsys_id);
Li Zefan	3db272c	2011-03-03 14:25:37 +0800	[diff] [blame]	595	if (IS_ERR(css)) {
				596	ret = PTR_ERR(css);
				597	goto out;
				598	}
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	599
				600	cgrp = container_of(css, struct perf_cgroup, css);
				601	event->cgrp = cgrp;
				602
Li Zefan	f75e18c	2011-03-03 14:25:50 +0800	[diff] [blame]	603	/* must be done before we fput() the file */
Salman Qazi	9c5da09	2012-06-14 15:31:09 -0700	[diff] [blame]	604	if (!perf_tryget_cgroup(event)) {
				605	event->cgrp = NULL;
				606	ret = -ENOENT;
				607	goto out;
				608	}
Li Zefan	f75e18c	2011-03-03 14:25:50 +0800	[diff] [blame]	609
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	610	/*
				611	* all events in a group must monitor
				612	* the same cgroup because a task belongs
				613	* to only one perf cgroup at a time
				614	*/
				615	if (group_leader && group_leader->cgrp != cgrp) {
				616	perf_detach_cgroup(event);
				617	ret = -EINVAL;
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	618	}
Li Zefan	3db272c	2011-03-03 14:25:37 +0800	[diff] [blame]	619	out:
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	620	fdput(f);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	621	return ret;
				622	}
				623
				624	static inline void
				625	perf_cgroup_set_shadow_time(struct perf_event *event, u64 now)
				626	{
				627	struct perf_cgroup_info *t;
				628	t = per_cpu_ptr(event->cgrp->info, event->cpu);
				629	event->shadow_ctx_time = now - t->timestamp;
				630	}
				631
				632	static inline void
				633	perf_cgroup_defer_enabled(struct perf_event *event)
				634	{
				635	/*
				636	* when the current task's perf cgroup does not match
				637	* the event's, we need to remember to call the
				638	* perf_mark_enable() function the first time a task with
				639	* a matching perf cgroup is scheduled in.
				640	*/
				641	if (is_cgroup_event(event) && !perf_cgroup_match(event))
				642	event->cgrp_defer_enabled = 1;
				643	}
				644
				645	static inline void
				646	perf_cgroup_mark_enabled(struct perf_event *event,
				647	struct perf_event_context *ctx)
				648	{
				649	struct perf_event *sub;
				650	u64 tstamp = perf_event_time(event);
				651
				652	if (!event->cgrp_defer_enabled)
				653	return;
				654
				655	event->cgrp_defer_enabled = 0;
				656
				657	event->tstamp_enabled = tstamp - event->total_time_enabled;
				658	list_for_each_entry(sub, &event->sibling_list, group_entry) {
				659	if (sub->state >= PERF_EVENT_STATE_INACTIVE) {
				660	sub->tstamp_enabled = tstamp - sub->total_time_enabled;
				661	sub->cgrp_defer_enabled = 0;
				662	}
				663	}
				664	}
				665	#else /* !CONFIG_CGROUP_PERF */
				666
				667	static inline bool
				668	perf_cgroup_match(struct perf_event *event)
				669	{
				670	return true;
				671	}
				672
				673	static inline void perf_detach_cgroup(struct perf_event *event)
				674	{}
				675
				676	static inline int is_cgroup_event(struct perf_event *event)
				677	{
				678	return 0;
				679	}
				680
				681	static inline u64 perf_cgroup_event_cgrp_time(struct perf_event *event)
				682	{
				683	return 0;
				684	}
				685
				686	static inline void update_cgrp_time_from_event(struct perf_event *event)
				687	{
				688	}
				689
				690	static inline void update_cgrp_time_from_cpuctx(struct perf_cpu_context *cpuctx)
				691	{
				692	}
				693
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	694	static inline void perf_cgroup_sched_out(struct task_struct *task,
				695	struct task_struct *next)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	696	{
				697	}
				698
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	699	static inline void perf_cgroup_sched_in(struct task_struct *prev,
				700	struct task_struct *task)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	701	{
				702	}
				703
				704	static inline int perf_cgroup_connect(pid_t pid, struct perf_event *event,
				705	struct perf_event_attr *attr,
				706	struct perf_event *group_leader)
				707	{
				708	return -EINVAL;
				709	}
				710
				711	static inline void
Stephane Eranian	3f7cce3	2011-02-18 14:40:01 +0200	[diff] [blame]	712	perf_cgroup_set_timestamp(struct task_struct *task,
				713	struct perf_event_context *ctx)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	714	{
				715	}
				716
				717	void
				718	perf_cgroup_switch(struct task_struct task, struct task_struct next)
				719	{
				720	}
				721
				722	static inline void
				723	perf_cgroup_set_shadow_time(struct perf_event *event, u64 now)
				724	{
				725	}
				726
				727	static inline u64 perf_cgroup_event_time(struct perf_event *event)
				728	{
				729	return 0;
				730	}
				731
				732	static inline void
				733	perf_cgroup_defer_enabled(struct perf_event *event)
				734	{
				735	}
				736
				737	static inline void
				738	perf_cgroup_mark_enabled(struct perf_event *event,
				739	struct perf_event_context *ctx)
				740	{
				741	}
				742	#endif
				743
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	744	/*
				745	* set default to be dependent on timer tick just
				746	* like original code
				747	*/
				748	#define PERF_CPU_HRTIMER (1000 / HZ)
				749	/*
				750	* function must be called with interrupts disbled
				751	*/
				752	static enum hrtimer_restart perf_cpu_hrtimer_handler(struct hrtimer *hr)
				753	{
				754	struct perf_cpu_context *cpuctx;
				755	enum hrtimer_restart ret = HRTIMER_NORESTART;
				756	int rotations = 0;
				757
				758	WARN_ON(!irqs_disabled());
				759
				760	cpuctx = container_of(hr, struct perf_cpu_context, hrtimer);
				761
				762	rotations = perf_rotate_context(cpuctx);
				763
				764	/*
				765	* arm timer if needed
				766	*/
				767	if (rotations) {
				768	hrtimer_forward_now(hr, cpuctx->hrtimer_interval);
				769	ret = HRTIMER_RESTART;
				770	}
				771
				772	return ret;
				773	}
				774
				775	/* CPU is going down */
				776	void perf_cpu_hrtimer_cancel(int cpu)
				777	{
				778	struct perf_cpu_context *cpuctx;
				779	struct pmu *pmu;
				780	unsigned long flags;
				781
				782	if (WARN_ON(cpu != smp_processor_id()))
				783	return;
				784
				785	local_irq_save(flags);
				786
				787	rcu_read_lock();
				788
				789	list_for_each_entry_rcu(pmu, &pmus, entry) {
				790	cpuctx = this_cpu_ptr(pmu->pmu_cpu_context);
				791
				792	if (pmu->task_ctx_nr == perf_sw_context)
				793	continue;
				794
				795	hrtimer_cancel(&cpuctx->hrtimer);
				796	}
				797
				798	rcu_read_unlock();
				799
				800	local_irq_restore(flags);
				801	}
				802
				803	static void __perf_cpu_hrtimer_init(struct perf_cpu_context *cpuctx, int cpu)
				804	{
				805	struct hrtimer *hr = &cpuctx->hrtimer;
				806	struct pmu *pmu = cpuctx->ctx.pmu;
Stephane Eranian	62b8563	2013-04-03 14:21:34 +0200	[diff] [blame]	807	int timer;
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	808
				809	/* no multiplexing needed for SW PMU */
				810	if (pmu->task_ctx_nr == perf_sw_context)
				811	return;
				812
Stephane Eranian	62b8563	2013-04-03 14:21:34 +0200	[diff] [blame]	813	/*
				814	* check default is sane, if not set then force to
				815	* default interval (1/tick)
				816	*/
				817	timer = pmu->hrtimer_interval_ms;
				818	if (timer < 1)
				819	timer = pmu->hrtimer_interval_ms = PERF_CPU_HRTIMER;
				820
				821	cpuctx->hrtimer_interval = ns_to_ktime(NSEC_PER_MSEC * timer);
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	822
				823	hrtimer_init(hr, CLOCK_MONOTONIC, HRTIMER_MODE_REL_PINNED);
				824	hr->function = perf_cpu_hrtimer_handler;
				825	}
				826
				827	static void perf_cpu_hrtimer_restart(struct perf_cpu_context *cpuctx)
				828	{
				829	struct hrtimer *hr = &cpuctx->hrtimer;
				830	struct pmu *pmu = cpuctx->ctx.pmu;
				831
				832	/* not for SW PMU */
				833	if (pmu->task_ctx_nr == perf_sw_context)
				834	return;
				835
				836	if (hrtimer_active(hr))
				837	return;
				838
				839	if (!hrtimer_callback_running(hr))
				840	__hrtimer_start_range_ns(hr, cpuctx->hrtimer_interval,
				841	0, HRTIMER_MODE_REL_PINNED, 0);
				842	}
				843
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	844	void perf_pmu_disable(struct pmu *pmu)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	845	{
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	846	int *count = this_cpu_ptr(pmu->pmu_disable_count);
				847	if (!(*count)++)
				848	pmu->pmu_disable(pmu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	849	}
				850
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	851	void perf_pmu_enable(struct pmu *pmu)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	852	{
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	853	int *count = this_cpu_ptr(pmu->pmu_disable_count);
				854	if (!--(*count))
				855	pmu->pmu_enable(pmu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	856	}
				857
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	858	static DEFINE_PER_CPU(struct list_head, rotation_list);
				859
				860	/*
				861	* perf_pmu_rotate_start() and perf_rotate_context() are fully serialized
				862	* because they're strictly cpu affine and rotate_start is called with IRQs
				863	* disabled, while rotate_context is called from IRQ context.
				864	*/
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	865	static void perf_pmu_rotate_start(struct pmu *pmu)
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	866	{
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	867	struct perf_cpu_context *cpuctx = this_cpu_ptr(pmu->pmu_cpu_context);
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	868	struct list_head *head = &__get_cpu_var(rotation_list);
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	869
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	870	WARN_ON(!irqs_disabled());
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	871
Frederic Weisbecker	12351ef	2013-04-20 15:48:22 +0200	[diff] [blame]	872	if (list_empty(&cpuctx->rotation_list)) {
				873	int was_empty = list_empty(head);
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	874	list_add(&cpuctx->rotation_list, head);
Frederic Weisbecker	12351ef	2013-04-20 15:48:22 +0200	[diff] [blame]	875	if (was_empty)
				876	tick_nohz_full_kick();
				877	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	878	}
				879
				880	static void get_ctx(struct perf_event_context *ctx)
				881	{
				882	WARN_ON(!atomic_inc_not_zero(&ctx->refcount));
				883	}
				884
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	885	static void put_ctx(struct perf_event_context *ctx)
				886	{
				887	if (atomic_dec_and_test(&ctx->refcount)) {
				888	if (ctx->parent_ctx)
				889	put_ctx(ctx->parent_ctx);
				890	if (ctx->task)
				891	put_task_struct(ctx->task);
Lai Jiangshan	cb796ff	2011-03-18 12:07:41 +0800	[diff] [blame]	892	kfree_rcu(ctx, rcu_head);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	893	}
				894	}
				895
				896	static void unclone_ctx(struct perf_event_context *ctx)
				897	{
				898	if (ctx->parent_ctx) {
				899	put_ctx(ctx->parent_ctx);
				900	ctx->parent_ctx = NULL;
				901	}
				902	}
				903
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	904	static u32 perf_event_pid(struct perf_event event, struct task_struct p)
				905	{
				906	/*
				907	* only top level events have the pid namespace they were created in
				908	*/
				909	if (event->parent)
				910	event = event->parent;
				911
				912	return task_tgid_nr_ns(p, event->ns);
				913	}
				914
				915	static u32 perf_event_tid(struct perf_event event, struct task_struct p)
				916	{
				917	/*
				918	* only top level events have the pid namespace they were created in
				919	*/
				920	if (event->parent)
				921	event = event->parent;
				922
				923	return task_pid_nr_ns(p, event->ns);
				924	}
				925
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	926	/*
				927	* If we inherit events we want to return the parent event id
				928	* to userspace.
				929	*/
				930	static u64 primary_event_id(struct perf_event *event)
				931	{
				932	u64 id = event->id;
				933
				934	if (event->parent)
				935	id = event->parent->id;
				936
				937	return id;
				938	}
				939
				940	/*
				941	* Get the perf_event_context for a task and lock it.
				942	* This has to cope with with the fact that until it is locked,
				943	* the context could get moved to another task.
				944	*/
				945	static struct perf_event_context *
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	946	perf_lock_task_context(struct task_struct task, int ctxn, unsigned long flags)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	947	{
				948	struct perf_event_context *ctx;
				949
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	950	retry:
Peter Zijlstra	058ebd0	2013-07-12 11:08:33 +0200	[diff] [blame]	951	/*
				952	* One of the few rules of preemptible RCU is that one cannot do
				953	* rcu_read_unlock() while holding a scheduler (or nested) lock when
				954	* part of the read side critical section was preemptible -- see
				955	* rcu_read_unlock_special().
				956	*
				957	* Since ctx->lock nests under rq->lock we must ensure the entire read
				958	* side critical section is non-preemptible.
				959	*/
				960	preempt_disable();
				961	rcu_read_lock();
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	962	ctx = rcu_dereference(task->perf_event_ctxp[ctxn]);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	963	if (ctx) {
				964	/*
				965	* If this context is a clone of another, it might
				966	* get swapped for another underneath us by
				967	* perf_event_task_sched_out, though the
				968	* rcu_read_lock() protects us from any context
				969	* getting freed. Lock the context and check if it
				970	* got swapped before we could get the lock, and retry
				971	* if so. If we locked the right context, then it
				972	* can't get swapped on us any more.
				973	*/
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	974	raw_spin_lock_irqsave(&ctx->lock, *flags);
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	975	if (ctx != rcu_dereference(task->perf_event_ctxp[ctxn])) {
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	976	raw_spin_unlock_irqrestore(&ctx->lock, *flags);
Peter Zijlstra	058ebd0	2013-07-12 11:08:33 +0200	[diff] [blame]	977	rcu_read_unlock();
				978	preempt_enable();
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	979	goto retry;
				980	}
				981
				982	if (!atomic_inc_not_zero(&ctx->refcount)) {
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	983	raw_spin_unlock_irqrestore(&ctx->lock, *flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	984	ctx = NULL;
				985	}
				986	}
				987	rcu_read_unlock();
Peter Zijlstra	058ebd0	2013-07-12 11:08:33 +0200	[diff] [blame]	988	preempt_enable();
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	989	return ctx;
				990	}
				991
				992	/*
				993	* Get the context for a task and increment its pin_count so it
				994	* can't get swapped to another task. This also increments its
				995	* reference count so that the context can't get freed.
				996	*/
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	997	static struct perf_event_context *
				998	perf_pin_task_context(struct task_struct *task, int ctxn)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	999	{
				1000	struct perf_event_context *ctx;
				1001	unsigned long flags;
				1002
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	1003	ctx = perf_lock_task_context(task, ctxn, &flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1004	if (ctx) {
				1005	++ctx->pin_count;
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1006	raw_spin_unlock_irqrestore(&ctx->lock, flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1007	}
				1008	return ctx;
				1009	}
				1010
				1011	static void perf_unpin_context(struct perf_event_context *ctx)
				1012	{
				1013	unsigned long flags;
				1014
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1015	raw_spin_lock_irqsave(&ctx->lock, flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1016	--ctx->pin_count;
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1017	raw_spin_unlock_irqrestore(&ctx->lock, flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1018	}
				1019
Peter Zijlstra	f67218c	2009-11-23 11:37:27 +0100	[diff] [blame]	1020	/*
				1021	* Update the record of the current time in a context.
				1022	*/
				1023	static void update_context_time(struct perf_event_context *ctx)
				1024	{
				1025	u64 now = perf_clock();
				1026
				1027	ctx->time += now - ctx->timestamp;
				1028	ctx->timestamp = now;
				1029	}
				1030
Stephane Eranian	4158755	2011-01-03 18:20:01 +0200	[diff] [blame]	1031	static u64 perf_event_time(struct perf_event *event)
				1032	{
				1033	struct perf_event_context *ctx = event->ctx;
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1034
				1035	if (is_cgroup_event(event))
				1036	return perf_cgroup_event_time(event);
				1037
Stephane Eranian	4158755	2011-01-03 18:20:01 +0200	[diff] [blame]	1038	return ctx ? ctx->time : 0;
				1039	}
				1040
Peter Zijlstra	f67218c	2009-11-23 11:37:27 +0100	[diff] [blame]	1041	/*
				1042	* Update the total_time_enabled and total_time_running fields for a event.
Eric B Munson	b7526f0	2011-06-23 16:34:37 -0400	[diff] [blame]	1043	* The caller of this function needs to hold the ctx->lock.
Peter Zijlstra	f67218c	2009-11-23 11:37:27 +0100	[diff] [blame]	1044	*/
				1045	static void update_event_times(struct perf_event *event)
				1046	{
				1047	struct perf_event_context *ctx = event->ctx;
				1048	u64 run_end;
				1049
				1050	if (event->state < PERF_EVENT_STATE_INACTIVE \|\|
				1051	event->group_leader->state < PERF_EVENT_STATE_INACTIVE)
				1052	return;
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1053	/*
				1054	* in cgroup mode, time_enabled represents
				1055	* the time the event was enabled AND active
				1056	* tasks were in the monitored cgroup. This is
				1057	* independent of the activity of the context as
				1058	* there may be a mix of cgroup and non-cgroup events.
				1059	*
				1060	* That is why we treat cgroup events differently
				1061	* here.
				1062	*/
				1063	if (is_cgroup_event(event))
Namhyung Kim	46cd6a7f	2012-01-20 10:12:46 +0900	[diff] [blame]	1064	run_end = perf_cgroup_event_time(event);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1065	else if (ctx->is_active)
				1066	run_end = ctx->time;
Peter Zijlstra	acd1d7c	2009-11-23 15:00:36 +0100	[diff] [blame]	1067	else
				1068	run_end = event->tstamp_stopped;
				1069
				1070	event->total_time_enabled = run_end - event->tstamp_enabled;
Peter Zijlstra	f67218c	2009-11-23 11:37:27 +0100	[diff] [blame]	1071
				1072	if (event->state == PERF_EVENT_STATE_INACTIVE)
				1073	run_end = event->tstamp_stopped;
				1074	else
Stephane Eranian	4158755	2011-01-03 18:20:01 +0200	[diff] [blame]	1075	run_end = perf_event_time(event);
Peter Zijlstra	f67218c	2009-11-23 11:37:27 +0100	[diff] [blame]	1076
				1077	event->total_time_running = run_end - event->tstamp_running;
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1078
Peter Zijlstra	f67218c	2009-11-23 11:37:27 +0100	[diff] [blame]	1079	}
				1080
Peter Zijlstra	96c21a4	2010-05-11 16:19:10 +0200	[diff] [blame]	1081	/*
				1082	* Update total_time_enabled and total_time_running for all events in a group.
				1083	*/
				1084	static void update_group_times(struct perf_event *leader)
				1085	{
				1086	struct perf_event *event;
				1087
				1088	update_event_times(leader);
				1089	list_for_each_entry(event, &leader->sibling_list, group_entry)
				1090	update_event_times(event);
				1091	}
				1092
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	1093	static struct list_head *
				1094	ctx_group_list(struct perf_event event, struct perf_event_context ctx)
				1095	{
				1096	if (event->attr.pinned)
				1097	return &ctx->pinned_groups;
				1098	else
				1099	return &ctx->flexible_groups;
				1100	}
				1101
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1102	/*
				1103	* Add a event from the lists for its context.
				1104	* Must be called with ctx->mutex and ctx->lock held.
				1105	*/
				1106	static void
				1107	list_add_event(struct perf_event event, struct perf_event_context ctx)
				1108	{
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1109	WARN_ON_ONCE(event->attach_state & PERF_ATTACH_CONTEXT);
				1110	event->attach_state \|= PERF_ATTACH_CONTEXT;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1111
				1112	/*
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1113	* If we're a stand alone event or group leader, we go to the context
				1114	* list, group events are kept attached to the group so that
				1115	* perf_group_detach can, at all times, locate all siblings.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1116	*/
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1117	if (event->group_leader == event) {
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	1118	struct list_head *list;
				1119
Frederic Weisbecker	d6f962b	2010-01-10 01:25:51 +0100	[diff] [blame]	1120	if (is_software_event(event))
				1121	event->group_flags \|= PERF_GROUP_SOFTWARE;
				1122
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	1123	list = ctx_group_list(event, ctx);
				1124	list_add_tail(&event->group_entry, list);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1125	}
				1126
Peter Zijlstra	0830937	2011-03-03 11:31:20 +0100	[diff] [blame]	1127	if (is_cgroup_event(event))
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1128	ctx->nr_cgroups++;
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1129
Stephane Eranian	d010b33	2012-02-09 23:21:00 +0100	[diff] [blame]	1130	if (has_branch_stack(event))
				1131	ctx->nr_branch_stack++;
				1132
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1133	list_add_rcu(&event->event_entry, &ctx->event_list);
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	1134	if (!ctx->nr_events)
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	1135	perf_pmu_rotate_start(ctx->pmu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1136	ctx->nr_events++;
				1137	if (event->attr.inherit_stat)
				1138	ctx->nr_stat++;
				1139	}
				1140
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1141	/*
Jiri Olsa	0231bb5	2013-02-01 11:23:45 +0100	[diff] [blame]	1142	* Initialize event state based on the perf_event_attr::disabled.
				1143	*/
				1144	static inline void perf_event__state_init(struct perf_event *event)
				1145	{
				1146	event->state = event->attr.disabled ? PERF_EVENT_STATE_OFF :
				1147	PERF_EVENT_STATE_INACTIVE;
				1148	}
				1149
				1150	/*
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1151	* Called at perf_event creation and when events are attached/detached from a
				1152	* group.
				1153	*/
				1154	static void perf_event__read_size(struct perf_event *event)
				1155	{
				1156	int entry = sizeof(u64); /* value */
				1157	int size = 0;
				1158	int nr = 1;
				1159
				1160	if (event->attr.read_format & PERF_FORMAT_TOTAL_TIME_ENABLED)
				1161	size += sizeof(u64);
				1162
				1163	if (event->attr.read_format & PERF_FORMAT_TOTAL_TIME_RUNNING)
				1164	size += sizeof(u64);
				1165
				1166	if (event->attr.read_format & PERF_FORMAT_ID)
				1167	entry += sizeof(u64);
				1168
				1169	if (event->attr.read_format & PERF_FORMAT_GROUP) {
				1170	nr += event->group_leader->nr_siblings;
				1171	size += sizeof(u64);
				1172	}
				1173
				1174	size += entry * nr;
				1175	event->read_size = size;
				1176	}
				1177
				1178	static void perf_event__header_size(struct perf_event *event)
				1179	{
				1180	struct perf_sample_data *data;
				1181	u64 sample_type = event->attr.sample_type;
				1182	u16 size = 0;
				1183
				1184	perf_event__read_size(event);
				1185
				1186	if (sample_type & PERF_SAMPLE_IP)
				1187	size += sizeof(data->ip);
				1188
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	1189	if (sample_type & PERF_SAMPLE_ADDR)
				1190	size += sizeof(data->addr);
				1191
				1192	if (sample_type & PERF_SAMPLE_PERIOD)
				1193	size += sizeof(data->period);
				1194
Andi Kleen	c3feedf	2013-01-24 16:10:28 +0100	[diff] [blame]	1195	if (sample_type & PERF_SAMPLE_WEIGHT)
				1196	size += sizeof(data->weight);
				1197
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	1198	if (sample_type & PERF_SAMPLE_READ)
				1199	size += event->read_size;
				1200
Stephane Eranian	d6be9ad	2013-01-24 16:10:31 +0100	[diff] [blame]	1201	if (sample_type & PERF_SAMPLE_DATA_SRC)
				1202	size += sizeof(data->data_src.val);
				1203
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	1204	event->header_size = size;
				1205	}
				1206
				1207	static void perf_event__id_header_size(struct perf_event *event)
				1208	{
				1209	struct perf_sample_data *data;
				1210	u64 sample_type = event->attr.sample_type;
				1211	u16 size = 0;
				1212
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1213	if (sample_type & PERF_SAMPLE_TID)
				1214	size += sizeof(data->tid_entry);
				1215
				1216	if (sample_type & PERF_SAMPLE_TIME)
				1217	size += sizeof(data->time);
				1218
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1219	if (sample_type & PERF_SAMPLE_ID)
				1220	size += sizeof(data->id);
				1221
				1222	if (sample_type & PERF_SAMPLE_STREAM_ID)
				1223	size += sizeof(data->stream_id);
				1224
				1225	if (sample_type & PERF_SAMPLE_CPU)
				1226	size += sizeof(data->cpu_entry);
				1227
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	1228	event->id_header_size = size;
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1229	}
				1230
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1231	static void perf_group_attach(struct perf_event *event)
				1232	{
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1233	struct perf_event group_leader = event->group_leader, pos;
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1234
Peter Zijlstra	74c3337	2010-10-15 11:40:29 +0200	[diff] [blame]	1235	/*
				1236	* We can have double attach due to group movement in perf_event_open.
				1237	*/
				1238	if (event->attach_state & PERF_ATTACH_GROUP)
				1239	return;
				1240
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1241	event->attach_state \|= PERF_ATTACH_GROUP;
				1242
				1243	if (group_leader == event)
				1244	return;
				1245
				1246	if (group_leader->group_flags & PERF_GROUP_SOFTWARE &&
				1247	!is_software_event(event))
				1248	group_leader->group_flags &= ~PERF_GROUP_SOFTWARE;
				1249
				1250	list_add_tail(&event->group_entry, &group_leader->sibling_list);
				1251	group_leader->nr_siblings++;
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1252
				1253	perf_event__header_size(group_leader);
				1254
				1255	list_for_each_entry(pos, &group_leader->sibling_list, group_entry)
				1256	perf_event__header_size(pos);
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1257	}
				1258
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1259	/*
				1260	* Remove a event from the lists for its context.
				1261	* Must be called with ctx->mutex and ctx->lock held.
				1262	*/
				1263	static void
				1264	list_del_event(struct perf_event event, struct perf_event_context ctx)
				1265	{
Stephane Eranian	68cacd2	2011-03-23 16:03:06 +0100	[diff] [blame]	1266	struct perf_cpu_context *cpuctx;
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1267	/*
				1268	* We can have double detach due to exit/hot-unplug + close.
				1269	*/
				1270	if (!(event->attach_state & PERF_ATTACH_CONTEXT))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1271	return;
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1272
				1273	event->attach_state &= ~PERF_ATTACH_CONTEXT;
				1274
Stephane Eranian	68cacd2	2011-03-23 16:03:06 +0100	[diff] [blame]	1275	if (is_cgroup_event(event)) {
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1276	ctx->nr_cgroups--;
Stephane Eranian	68cacd2	2011-03-23 16:03:06 +0100	[diff] [blame]	1277	cpuctx = __get_cpu_context(ctx);
				1278	/*
				1279	* if there are no more cgroup events
				1280	* then cler cgrp to avoid stale pointer
				1281	* in update_cgrp_time_from_cpuctx()
				1282	*/
				1283	if (!ctx->nr_cgroups)
				1284	cpuctx->cgrp = NULL;
				1285	}
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1286
Stephane Eranian	d010b33	2012-02-09 23:21:00 +0100	[diff] [blame]	1287	if (has_branch_stack(event))
				1288	ctx->nr_branch_stack--;
				1289
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1290	ctx->nr_events--;
				1291	if (event->attr.inherit_stat)
				1292	ctx->nr_stat--;
				1293
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1294	list_del_rcu(&event->event_entry);
				1295
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1296	if (event->group_leader == event)
				1297	list_del_init(&event->group_entry);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1298
Peter Zijlstra	96c21a4	2010-05-11 16:19:10 +0200	[diff] [blame]	1299	update_group_times(event);
Stephane Eranian	b2e74a2	2009-11-26 09:24:30 -0800	[diff] [blame]	1300
				1301	/*
				1302	* If event was in error state, then keep it
				1303	* that way, otherwise bogus counts will be
				1304	* returned on read(). The only way to get out
				1305	* of error state is by explicit re-enabling
				1306	* of the event
				1307	*/
				1308	if (event->state > PERF_EVENT_STATE_OFF)
				1309	event->state = PERF_EVENT_STATE_OFF;
Peter Zijlstra	050735b	2010-05-11 11:51:53 +0200	[diff] [blame]	1310	}
				1311
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1312	static void perf_group_detach(struct perf_event *event)
Peter Zijlstra	050735b	2010-05-11 11:51:53 +0200	[diff] [blame]	1313	{
				1314	struct perf_event sibling, tmp;
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1315	struct list_head *list = NULL;
				1316
				1317	/*
				1318	* We can have double detach due to exit/hot-unplug + close.
				1319	*/
				1320	if (!(event->attach_state & PERF_ATTACH_GROUP))
				1321	return;
				1322
				1323	event->attach_state &= ~PERF_ATTACH_GROUP;
				1324
				1325	/*
				1326	* If this is a sibling, remove it from its group.
				1327	*/
				1328	if (event->group_leader != event) {
				1329	list_del_init(&event->group_entry);
				1330	event->group_leader->nr_siblings--;
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1331	goto out;
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1332	}
				1333
				1334	if (!list_empty(&event->group_entry))
				1335	list = &event->group_entry;
Peter Zijlstra	2e2af50	2009-11-23 11:37:25 +0100	[diff] [blame]	1336
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1337	/*
				1338	* If this was a group event with sibling events then
				1339	* upgrade the siblings to singleton events by adding them
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1340	* to whatever list we are on.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1341	*/
				1342	list_for_each_entry_safe(sibling, tmp, &event->sibling_list, group_entry) {
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1343	if (list)
				1344	list_move_tail(&sibling->group_entry, list);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1345	sibling->group_leader = sibling;
Frederic Weisbecker	d6f962b	2010-01-10 01:25:51 +0100	[diff] [blame]	1346
				1347	/* Inherit group flags from the previous leader */
				1348	sibling->group_flags = event->group_flags;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1349	}
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	1350
				1351	out:
				1352	perf_event__header_size(event->group_leader);
				1353
				1354	list_for_each_entry(tmp, &event->group_leader->sibling_list, group_entry)
				1355	perf_event__header_size(tmp);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1356	}
				1357
Stephane Eranian	fa66f07	2010-08-26 16:40:01 +0200	[diff] [blame]	1358	static inline int
				1359	event_filter_match(struct perf_event *event)
				1360	{
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1361	return (event->cpu == -1 \|\| event->cpu == smp_processor_id())
				1362	&& perf_cgroup_match(event);
Stephane Eranian	fa66f07	2010-08-26 16:40:01 +0200	[diff] [blame]	1363	}
				1364
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	1365	static void
				1366	event_sched_out(struct perf_event *event,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1367	struct perf_cpu_context *cpuctx,
				1368	struct perf_event_context *ctx)
				1369	{
Stephane Eranian	4158755	2011-01-03 18:20:01 +0200	[diff] [blame]	1370	u64 tstamp = perf_event_time(event);
Stephane Eranian	fa66f07	2010-08-26 16:40:01 +0200	[diff] [blame]	1371	u64 delta;
				1372	/*
				1373	* An event which could not be activated because of
				1374	* filter mismatch still needs to have its timings
				1375	* maintained, otherwise bogus information is return
				1376	* via read() for time_enabled, time_running:
				1377	*/
				1378	if (event->state == PERF_EVENT_STATE_INACTIVE
				1379	&& !event_filter_match(event)) {
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1380	delta = tstamp - event->tstamp_stopped;
Stephane Eranian	fa66f07	2010-08-26 16:40:01 +0200	[diff] [blame]	1381	event->tstamp_running += delta;
Stephane Eranian	4158755	2011-01-03 18:20:01 +0200	[diff] [blame]	1382	event->tstamp_stopped = tstamp;
Stephane Eranian	fa66f07	2010-08-26 16:40:01 +0200	[diff] [blame]	1383	}
				1384
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1385	if (event->state != PERF_EVENT_STATE_ACTIVE)
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	1386	return;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1387
				1388	event->state = PERF_EVENT_STATE_INACTIVE;
				1389	if (event->pending_disable) {
				1390	event->pending_disable = 0;
				1391	event->state = PERF_EVENT_STATE_OFF;
				1392	}
Stephane Eranian	4158755	2011-01-03 18:20:01 +0200	[diff] [blame]	1393	event->tstamp_stopped = tstamp;
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	1394	event->pmu->del(event, 0);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1395	event->oncpu = -1;
				1396
				1397	if (!is_software_event(event))
				1398	cpuctx->active_oncpu--;
				1399	ctx->nr_active--;
Peter Zijlstra	0f5a260	2011-11-16 14:38:16 +0100	[diff] [blame]	1400	if (event->attr.freq && event->attr.sample_freq)
				1401	ctx->nr_freq--;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1402	if (event->attr.exclusive \|\| !cpuctx->active_oncpu)
				1403	cpuctx->exclusive = 0;
				1404	}
				1405
				1406	static void
				1407	group_sched_out(struct perf_event *group_event,
				1408	struct perf_cpu_context *cpuctx,
				1409	struct perf_event_context *ctx)
				1410	{
				1411	struct perf_event *event;
Stephane Eranian	fa66f07	2010-08-26 16:40:01 +0200	[diff] [blame]	1412	int state = group_event->state;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1413
				1414	event_sched_out(group_event, cpuctx, ctx);
				1415
				1416	/*
				1417	* Schedule out siblings (if any):
				1418	*/
				1419	list_for_each_entry(event, &group_event->sibling_list, group_entry)
				1420	event_sched_out(event, cpuctx, ctx);
				1421
Stephane Eranian	fa66f07	2010-08-26 16:40:01 +0200	[diff] [blame]	1422	if (state == PERF_EVENT_STATE_ACTIVE && group_event->attr.exclusive)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1423	cpuctx->exclusive = 0;
				1424	}
				1425
				1426	/*
				1427	* Cross CPU call to remove a performance event
				1428	*
				1429	* We disable the event on the hardware level first. After that we
				1430	* remove it from the context list.
				1431	*/
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	1432	static int __perf_remove_from_context(void *info)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1433	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1434	struct perf_event *event = info;
				1435	struct perf_event_context *ctx = event->ctx;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	1436	struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1437
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1438	raw_spin_lock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1439	event_sched_out(event, cpuctx, ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1440	list_del_event(event, ctx);
Peter Zijlstra	64ce312	2011-04-09 21:17:48 +0200	[diff] [blame]	1441	if (!ctx->nr_events && cpuctx->task_ctx == ctx) {
				1442	ctx->is_active = 0;
				1443	cpuctx->task_ctx = NULL;
				1444	}
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1445	raw_spin_unlock(&ctx->lock);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	1446
				1447	return 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1448	}
				1449
				1450
				1451	/*
				1452	* Remove the event from a task's (or a CPU's) list of events.
				1453	*
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1454	* CPU events are removed with a smp call. For task events we only
				1455	* call when the task is on a CPU.
				1456	*
				1457	* If event->ctx is a cloned context, callers must make sure that
				1458	* every task struct that event->ctx->task could possibly point to
				1459	* remains valid. This is OK when called from perf_release since
				1460	* that only calls us on the top-level context, which can't be a clone.
				1461	* When called from perf_event_exit_task, it's OK because the
				1462	* context has been detached from its task.
				1463	*/
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	1464	static void perf_remove_from_context(struct perf_event *event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1465	{
				1466	struct perf_event_context *ctx = event->ctx;
				1467	struct task_struct *task = ctx->task;
				1468
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	1469	lockdep_assert_held(&ctx->mutex);
				1470
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1471	if (!task) {
				1472	/*
				1473	* Per cpu events are removed via an smp call and
André Goddard Rosa	af901ca	2009-11-14 13:09:05 -0200	[diff] [blame]	1474	* the removal is always successful.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1475	*/
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	1476	cpu_function_call(event->cpu, __perf_remove_from_context, event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1477	return;
				1478	}
				1479
				1480	retry:
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	1481	if (!task_function_call(task, __perf_remove_from_context, event))
				1482	return;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1483
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1484	raw_spin_lock_irq(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1485	/*
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	1486	* If we failed to find a running task, but find the context active now
				1487	* that we've acquired the ctx->lock, retry.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1488	*/
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	1489	if (ctx->is_active) {
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1490	raw_spin_unlock_irq(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1491	goto retry;
				1492	}
				1493
				1494	/*
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	1495	* Since the task isn't running, its safe to remove the event, us
				1496	* holding the ctx->lock ensures the task won't get scheduled in.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1497	*/
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	1498	list_del_event(event, ctx);
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1499	raw_spin_unlock_irq(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1500	}
				1501
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1502	/*
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1503	* Cross CPU call to disable a performance event
				1504	*/
K.Prasad	500ad2d	2012-08-02 13:46:35 +0530	[diff] [blame]	1505	int __perf_event_disable(void *info)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1506	{
				1507	struct perf_event *event = info;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1508	struct perf_event_context *ctx = event->ctx;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	1509	struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1510
				1511	/*
				1512	* If this is a per-task event, need to check whether this
				1513	* event's task is the current task on this cpu.
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	1514	*
				1515	* Can trigger due to concurrent perf_event_context_sched_out()
				1516	* flipping contexts around.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1517	*/
				1518	if (ctx->task && cpuctx->task_ctx != ctx)
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	1519	return -EINVAL;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1520
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1521	raw_spin_lock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1522
				1523	/*
				1524	* If the event is on, turn it off.
				1525	* If it is in error state, leave it in error state.
				1526	*/
				1527	if (event->state >= PERF_EVENT_STATE_INACTIVE) {
				1528	update_context_time(ctx);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1529	update_cgrp_time_from_event(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1530	update_group_times(event);
				1531	if (event == event->group_leader)
				1532	group_sched_out(event, cpuctx, ctx);
				1533	else
				1534	event_sched_out(event, cpuctx, ctx);
				1535	event->state = PERF_EVENT_STATE_OFF;
				1536	}
				1537
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1538	raw_spin_unlock(&ctx->lock);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	1539
				1540	return 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1541	}
				1542
				1543	/*
				1544	* Disable a event.
				1545	*
				1546	* If event->ctx is a cloned context, callers must make sure that
				1547	* every task struct that event->ctx->task could possibly point to
				1548	* remains valid. This condition is satisifed when called through
				1549	* perf_event_for_each_child or perf_event_for_each because they
				1550	* hold the top-level event's child_mutex, so any descendant that
				1551	* goes to exit will block in sync_child_event.
				1552	* When called from perf_pending_event it's OK because event->ctx
				1553	* is the current context on this CPU and preemption is disabled,
				1554	* hence we can't get into perf_event_task_sched_out for this context.
				1555	*/
Frederic Weisbecker	44234ad	2009-12-09 09:25:48 +0100	[diff] [blame]	1556	void perf_event_disable(struct perf_event *event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1557	{
				1558	struct perf_event_context *ctx = event->ctx;
				1559	struct task_struct *task = ctx->task;
				1560
				1561	if (!task) {
				1562	/*
				1563	* Disable the event on the cpu that it's on
				1564	*/
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	1565	cpu_function_call(event->cpu, __perf_event_disable, event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1566	return;
				1567	}
				1568
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	1569	retry:
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	1570	if (!task_function_call(task, __perf_event_disable, event))
				1571	return;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1572
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1573	raw_spin_lock_irq(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1574	/*
				1575	* If the event is still active, we need to retry the cross-call.
				1576	*/
				1577	if (event->state == PERF_EVENT_STATE_ACTIVE) {
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1578	raw_spin_unlock_irq(&ctx->lock);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	1579	/*
				1580	* Reload the task pointer, it might have been changed by
				1581	* a concurrent perf_event_context_sched_out().
				1582	*/
				1583	task = ctx->task;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1584	goto retry;
				1585	}
				1586
				1587	/*
				1588	* Since we have the lock this context can't be scheduled
				1589	* in, so we can change the state safely.
				1590	*/
				1591	if (event->state == PERF_EVENT_STATE_INACTIVE) {
				1592	update_group_times(event);
				1593	event->state = PERF_EVENT_STATE_OFF;
				1594	}
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1595	raw_spin_unlock_irq(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1596	}
Robert Richter	dcfce4a	2011-10-11 17:11:08 +0200	[diff] [blame]	1597	EXPORT_SYMBOL_GPL(perf_event_disable);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1598
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1599	static void perf_set_shadow_time(struct perf_event *event,
				1600	struct perf_event_context *ctx,
				1601	u64 tstamp)
				1602	{
				1603	/*
				1604	* use the correct time source for the time snapshot
				1605	*
				1606	* We could get by without this by leveraging the
				1607	* fact that to get to this function, the caller
				1608	* has most likely already called update_context_time()
				1609	* and update_cgrp_time_xx() and thus both timestamp
				1610	* are identical (or very close). Given that tstamp is,
				1611	* already adjusted for cgroup, we could say that:
				1612	* tstamp - ctx->timestamp
				1613	* is equivalent to
				1614	* tstamp - cgrp->timestamp.
				1615	*
				1616	* Then, in perf_output_read(), the calculation would
				1617	* work with no changes because:
				1618	* - event is guaranteed scheduled in
				1619	* - no scheduled out in between
				1620	* - thus the timestamp would be the same
				1621	*
				1622	* But this is a bit hairy.
				1623	*
				1624	* So instead, we have an explicit cgroup call to remain
				1625	* within the time time source all along. We believe it
				1626	* is cleaner and simpler to understand.
				1627	*/
				1628	if (is_cgroup_event(event))
				1629	perf_cgroup_set_shadow_time(event, tstamp);
				1630	else
				1631	event->shadow_ctx_time = tstamp - ctx->timestamp;
				1632	}
				1633
Peter Zijlstra	4fe757d	2011-02-15 22:26:07 +0100	[diff] [blame]	1634	#define MAX_INTERRUPTS (~0ULL)
				1635
				1636	static void perf_log_throttle(struct perf_event *event, int enable);
				1637
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1638	static int
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	1639	event_sched_in(struct perf_event *event,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1640	struct perf_cpu_context *cpuctx,
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	1641	struct perf_event_context *ctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1642	{
Stephane Eranian	4158755	2011-01-03 18:20:01 +0200	[diff] [blame]	1643	u64 tstamp = perf_event_time(event);
				1644
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1645	if (event->state <= PERF_EVENT_STATE_OFF)
				1646	return 0;
				1647
				1648	event->state = PERF_EVENT_STATE_ACTIVE;
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	1649	event->oncpu = smp_processor_id();
Peter Zijlstra	4fe757d	2011-02-15 22:26:07 +0100	[diff] [blame]	1650
				1651	/*
				1652	* Unthrottle events, since we scheduled we might have missed several
				1653	* ticks already, also for a heavily scheduling task there is little
				1654	* guarantee it'll get a tick in a timely manner.
				1655	*/
				1656	if (unlikely(event->hw.interrupts == MAX_INTERRUPTS)) {
				1657	perf_log_throttle(event, 1);
				1658	event->hw.interrupts = 0;
				1659	}
				1660
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1661	/*
				1662	* The new state must be visible before we turn it on in the hardware:
				1663	*/
				1664	smp_wmb();
				1665
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	1666	if (event->pmu->add(event, PERF_EF_START)) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1667	event->state = PERF_EVENT_STATE_INACTIVE;
				1668	event->oncpu = -1;
				1669	return -EAGAIN;
				1670	}
				1671
Stephane Eranian	4158755	2011-01-03 18:20:01 +0200	[diff] [blame]	1672	event->tstamp_running += tstamp - event->tstamp_stopped;
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	1673
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1674	perf_set_shadow_time(event, ctx, tstamp);
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	1675
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1676	if (!is_software_event(event))
				1677	cpuctx->active_oncpu++;
				1678	ctx->nr_active++;
Peter Zijlstra	0f5a260	2011-11-16 14:38:16 +0100	[diff] [blame]	1679	if (event->attr.freq && event->attr.sample_freq)
				1680	ctx->nr_freq++;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1681
				1682	if (event->attr.exclusive)
				1683	cpuctx->exclusive = 1;
				1684
				1685	return 0;
				1686	}
				1687
				1688	static int
				1689	group_sched_in(struct perf_event *group_event,
				1690	struct perf_cpu_context *cpuctx,
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	1691	struct perf_event_context *ctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1692	{
Lin Ming	6bde9b6	2010-04-23 13:56:00 +0800	[diff] [blame]	1693	struct perf_event event, partial_group = NULL;
Peter Zijlstra	51b0fe3	2010-06-11 13:35:57 +0200	[diff] [blame]	1694	struct pmu *pmu = group_event->pmu;
Stephane Eranian	d7842da	2010-10-20 15:25:01 +0200	[diff] [blame]	1695	u64 now = ctx->time;
				1696	bool simulate = false;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1697
				1698	if (group_event->state == PERF_EVENT_STATE_OFF)
				1699	return 0;
				1700
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	1701	pmu->start_txn(pmu);
Lin Ming	6bde9b6	2010-04-23 13:56:00 +0800	[diff] [blame]	1702
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	1703	if (event_sched_in(group_event, cpuctx, ctx)) {
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	1704	pmu->cancel_txn(pmu);
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1705	perf_cpu_hrtimer_restart(cpuctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1706	return -EAGAIN;
Stephane Eranian	90151c35	2010-05-25 16:23:10 +0200	[diff] [blame]	1707	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1708
				1709	/*
				1710	* Schedule in siblings as one group (if any):
				1711	*/
				1712	list_for_each_entry(event, &group_event->sibling_list, group_entry) {
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	1713	if (event_sched_in(event, cpuctx, ctx)) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1714	partial_group = event;
				1715	goto group_error;
				1716	}
				1717	}
				1718
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	1719	if (!pmu->commit_txn(pmu))
Paul Mackerras	6e85158	2010-05-08 20:58:00 +1000	[diff] [blame]	1720	return 0;
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	1721
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1722	group_error:
				1723	/*
				1724	* Groups can be scheduled in as one unit only, so undo any
				1725	* partial group before returning:
Stephane Eranian	d7842da	2010-10-20 15:25:01 +0200	[diff] [blame]	1726	* The events up to the failed event are scheduled out normally,
				1727	* tstamp_stopped will be updated.
				1728	*
				1729	* The failed events and the remaining siblings need to have
				1730	* their timings updated as if they had gone thru event_sched_in()
				1731	* and event_sched_out(). This is required to get consistent timings
				1732	* across the group. This also takes care of the case where the group
				1733	* could never be scheduled by ensuring tstamp_stopped is set to mark
				1734	* the time the event was actually stopped, such that time delta
				1735	* calculation in update_event_times() is correct.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1736	*/
				1737	list_for_each_entry(event, &group_event->sibling_list, group_entry) {
				1738	if (event == partial_group)
Stephane Eranian	d7842da	2010-10-20 15:25:01 +0200	[diff] [blame]	1739	simulate = true;
				1740
				1741	if (simulate) {
				1742	event->tstamp_running += now - event->tstamp_stopped;
				1743	event->tstamp_stopped = now;
				1744	} else {
				1745	event_sched_out(event, cpuctx, ctx);
				1746	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1747	}
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	1748	event_sched_out(group_event, cpuctx, ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1749
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	1750	pmu->cancel_txn(pmu);
Stephane Eranian	90151c35	2010-05-25 16:23:10 +0200	[diff] [blame]	1751
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	1752	perf_cpu_hrtimer_restart(cpuctx);
				1753
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1754	return -EAGAIN;
				1755	}
				1756
				1757	/*
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1758	* Work out whether we can put this event group on the CPU now.
				1759	*/
				1760	static int group_can_go_on(struct perf_event *event,
				1761	struct perf_cpu_context *cpuctx,
				1762	int can_add_hw)
				1763	{
				1764	/*
				1765	* Groups consisting entirely of software events can always go on.
				1766	*/
Frederic Weisbecker	d6f962b	2010-01-10 01:25:51 +0100	[diff] [blame]	1767	if (event->group_flags & PERF_GROUP_SOFTWARE)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1768	return 1;
				1769	/*
				1770	* If an exclusive group is already on, no other hardware
				1771	* events can go on.
				1772	*/
				1773	if (cpuctx->exclusive)
				1774	return 0;
				1775	/*
				1776	* If this group is exclusive and there are already
				1777	* events on the CPU, it can't go on.
				1778	*/
				1779	if (event->attr.exclusive && cpuctx->active_oncpu)
				1780	return 0;
				1781	/*
				1782	* Otherwise, try to add it if all previous groups were able
				1783	* to go on.
				1784	*/
				1785	return can_add_hw;
				1786	}
				1787
				1788	static void add_event_to_ctx(struct perf_event *event,
				1789	struct perf_event_context *ctx)
				1790	{
Stephane Eranian	4158755	2011-01-03 18:20:01 +0200	[diff] [blame]	1791	u64 tstamp = perf_event_time(event);
				1792
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1793	list_add_event(event, ctx);
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	1794	perf_group_attach(event);
Stephane Eranian	4158755	2011-01-03 18:20:01 +0200	[diff] [blame]	1795	event->tstamp_enabled = tstamp;
				1796	event->tstamp_running = tstamp;
				1797	event->tstamp_stopped = tstamp;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1798	}
				1799
Peter Zijlstra	2c29ef0	2011-04-09 21:17:44 +0200	[diff] [blame]	1800	static void task_ctx_sched_out(struct perf_event_context *ctx);
				1801	static void
				1802	ctx_sched_in(struct perf_event_context *ctx,
				1803	struct perf_cpu_context *cpuctx,
				1804	enum event_type_t event_type,
				1805	struct task_struct *task);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	1806
Peter Zijlstra	dce5855	2011-04-09 21:17:46 +0200	[diff] [blame]	1807	static void perf_event_sched_in(struct perf_cpu_context *cpuctx,
				1808	struct perf_event_context *ctx,
				1809	struct task_struct *task)
				1810	{
				1811	cpu_ctx_sched_in(cpuctx, EVENT_PINNED, task);
				1812	if (ctx)
				1813	ctx_sched_in(ctx, cpuctx, EVENT_PINNED, task);
				1814	cpu_ctx_sched_in(cpuctx, EVENT_FLEXIBLE, task);
				1815	if (ctx)
				1816	ctx_sched_in(ctx, cpuctx, EVENT_FLEXIBLE, task);
				1817	}
				1818
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1819	/*
				1820	* Cross CPU call to install and enable a performance event
				1821	*
				1822	* Must be called with ctx->mutex held
				1823	*/
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	1824	static int __perf_install_in_context(void *info)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1825	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1826	struct perf_event *event = info;
				1827	struct perf_event_context *ctx = event->ctx;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	1828	struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
Peter Zijlstra	2c29ef0	2011-04-09 21:17:44 +0200	[diff] [blame]	1829	struct perf_event_context *task_ctx = cpuctx->task_ctx;
				1830	struct task_struct *task = current;
				1831
Peter Zijlstra	b58f6b0	2011-06-07 00:23:28 +0200	[diff] [blame]	1832	perf_ctx_lock(cpuctx, task_ctx);
Peter Zijlstra	2c29ef0	2011-04-09 21:17:44 +0200	[diff] [blame]	1833	perf_pmu_disable(cpuctx->ctx.pmu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1834
				1835	/*
Peter Zijlstra	2c29ef0	2011-04-09 21:17:44 +0200	[diff] [blame]	1836	* If there was an active task_ctx schedule it out.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1837	*/
Peter Zijlstra	b58f6b0	2011-06-07 00:23:28 +0200	[diff] [blame]	1838	if (task_ctx)
Peter Zijlstra	2c29ef0	2011-04-09 21:17:44 +0200	[diff] [blame]	1839	task_ctx_sched_out(task_ctx);
Peter Zijlstra	b58f6b0	2011-06-07 00:23:28 +0200	[diff] [blame]	1840
				1841	/*
				1842	* If the context we're installing events in is not the
				1843	* active task_ctx, flip them.
				1844	*/
				1845	if (ctx->task && task_ctx != ctx) {
				1846	if (task_ctx)
				1847	raw_spin_unlock(&task_ctx->lock);
				1848	raw_spin_lock(&ctx->lock);
				1849	task_ctx = ctx;
				1850	}
				1851
				1852	if (task_ctx) {
				1853	cpuctx->task_ctx = task_ctx;
Peter Zijlstra	2c29ef0	2011-04-09 21:17:44 +0200	[diff] [blame]	1854	task = task_ctx->task;
				1855	}
Peter Zijlstra	b58f6b0	2011-06-07 00:23:28 +0200	[diff] [blame]	1856
Peter Zijlstra	2c29ef0	2011-04-09 21:17:44 +0200	[diff] [blame]	1857	cpu_ctx_sched_out(cpuctx, EVENT_ALL);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1858
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1859	update_context_time(ctx);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1860	/*
				1861	* update cgrp time only if current cgrp
				1862	* matches event->cgrp. Must be done before
				1863	* calling add_event_to_ctx()
				1864	*/
				1865	update_cgrp_time_from_event(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1866
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1867	add_event_to_ctx(event, ctx);
				1868
				1869	/*
Peter Zijlstra	2c29ef0	2011-04-09 21:17:44 +0200	[diff] [blame]	1870	* Schedule everything back in
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1871	*/
Peter Zijlstra	dce5855	2011-04-09 21:17:46 +0200	[diff] [blame]	1872	perf_event_sched_in(cpuctx, task_ctx, task);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1873
Peter Zijlstra	2c29ef0	2011-04-09 21:17:44 +0200	[diff] [blame]	1874	perf_pmu_enable(cpuctx->ctx.pmu);
				1875	perf_ctx_unlock(cpuctx, task_ctx);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	1876
				1877	return 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1878	}
				1879
				1880	/*
				1881	* Attach a performance event to a context
				1882	*
				1883	* First we add the event to the list with the hardware enable bit
				1884	* in event->hw_config cleared.
				1885	*
				1886	* If the event is attached to a task which is on a CPU we use a smp
				1887	* call to enable it in the task context. The task might have been
				1888	* scheduled away, but we check this in the smp call again.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1889	*/
				1890	static void
				1891	perf_install_in_context(struct perf_event_context *ctx,
				1892	struct perf_event *event,
				1893	int cpu)
				1894	{
				1895	struct task_struct *task = ctx->task;
				1896
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	1897	lockdep_assert_held(&ctx->mutex);
				1898
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	1899	event->ctx = ctx;
Yan, Zheng	0cda4c0	2012-06-15 14:31:33 +0800	[diff] [blame]	1900	if (event->cpu != -1)
				1901	event->cpu = cpu;
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	1902
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1903	if (!task) {
				1904	/*
				1905	* Per cpu events are installed via an smp call and
André Goddard Rosa	af901ca	2009-11-14 13:09:05 -0200	[diff] [blame]	1906	* the install is always successful.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1907	*/
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	1908	cpu_function_call(cpu, __perf_install_in_context, event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1909	return;
				1910	}
				1911
				1912	retry:
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	1913	if (!task_function_call(task, __perf_install_in_context, event))
				1914	return;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1915
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1916	raw_spin_lock_irq(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1917	/*
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	1918	* If we failed to find a running task, but find the context active now
				1919	* that we've acquired the ctx->lock, retry.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1920	*/
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	1921	if (ctx->is_active) {
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1922	raw_spin_unlock_irq(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1923	goto retry;
				1924	}
				1925
				1926	/*
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	1927	* Since the task isn't running, its safe to add the event, us holding
				1928	* the ctx->lock ensures the task won't get scheduled in.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1929	*/
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	1930	add_event_to_ctx(event, ctx);
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1931	raw_spin_unlock_irq(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1932	}
				1933
				1934	/*
				1935	* Put a event into inactive state and update time fields.
				1936	* Enabling the leader of a group effectively enables all
				1937	* the group members that aren't explicitly disabled, so we
				1938	* have to update their ->tstamp_enabled also.
				1939	* Note: this works for group members as well as group leaders
				1940	* since the non-leader members' sibling_lists will be empty.
				1941	*/
Peter Zijlstra	1d9b482	2011-11-23 12:34:20 +0100	[diff] [blame]	1942	static void __perf_event_mark_enabled(struct perf_event *event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1943	{
				1944	struct perf_event *sub;
Stephane Eranian	4158755	2011-01-03 18:20:01 +0200	[diff] [blame]	1945	u64 tstamp = perf_event_time(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1946
				1947	event->state = PERF_EVENT_STATE_INACTIVE;
Stephane Eranian	4158755	2011-01-03 18:20:01 +0200	[diff] [blame]	1948	event->tstamp_enabled = tstamp - event->total_time_enabled;
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	1949	list_for_each_entry(sub, &event->sibling_list, group_entry) {
Stephane Eranian	4158755	2011-01-03 18:20:01 +0200	[diff] [blame]	1950	if (sub->state >= PERF_EVENT_STATE_INACTIVE)
				1951	sub->tstamp_enabled = tstamp - sub->total_time_enabled;
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	1952	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1953	}
				1954
				1955	/*
				1956	* Cross CPU call to enable a performance event
				1957	*/
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	1958	static int __perf_event_enable(void *info)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1959	{
				1960	struct perf_event *event = info;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1961	struct perf_event_context *ctx = event->ctx;
				1962	struct perf_event *leader = event->group_leader;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	1963	struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1964	int err;
				1965
Jiri Olsa	06f4179	2013-07-09 17:44:11 +0200	[diff] [blame]	1966	/*
				1967	* There's a time window between 'ctx->is_active' check
				1968	* in perf_event_enable function and this place having:
				1969	* - IRQs on
				1970	* - ctx->lock unlocked
				1971	*
				1972	* where the task could be killed and 'ctx' deactivated
				1973	* by perf_event_exit_task.
				1974	*/
				1975	if (!ctx->is_active)
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	1976	return -EINVAL;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1977
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1978	raw_spin_lock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1979	update_context_time(ctx);
				1980
				1981	if (event->state >= PERF_EVENT_STATE_INACTIVE)
				1982	goto unlock;
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1983
				1984	/*
				1985	* set current task's cgroup time reference point
				1986	*/
Stephane Eranian	3f7cce3	2011-02-18 14:40:01 +0200	[diff] [blame]	1987	perf_cgroup_set_timestamp(current, ctx);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1988
Peter Zijlstra	1d9b482	2011-11-23 12:34:20 +0100	[diff] [blame]	1989	__perf_event_mark_enabled(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1990
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1991	if (!event_filter_match(event)) {
				1992	if (is_cgroup_event(event))
				1993	perf_cgroup_defer_enabled(event);
Peter Zijlstra	f4c4176	2009-12-16 17:55:54 +0100	[diff] [blame]	1994	goto unlock;
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	1995	}
Peter Zijlstra	f4c4176	2009-12-16 17:55:54 +0100	[diff] [blame]	1996
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1997	/*
				1998	* If the event is in a group and isn't the group leader,
				1999	* then don't put it on unless the group is on.
				2000	*/
				2001	if (leader != event && leader->state != PERF_EVENT_STATE_ACTIVE)
				2002	goto unlock;
				2003
				2004	if (!group_can_go_on(event, cpuctx, 1)) {
				2005	err = -EEXIST;
				2006	} else {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2007	if (event == leader)
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	2008	err = group_sched_in(event, cpuctx, ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2009	else
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	2010	err = event_sched_in(event, cpuctx, ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2011	}
				2012
				2013	if (err) {
				2014	/*
				2015	* If this event can't go on and it's part of a
				2016	* group, then the whole group has to come off.
				2017	*/
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	2018	if (leader != event) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2019	group_sched_out(leader, cpuctx, ctx);
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	2020	perf_cpu_hrtimer_restart(cpuctx);
				2021	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2022	if (leader->attr.pinned) {
				2023	update_group_times(leader);
				2024	leader->state = PERF_EVENT_STATE_ERROR;
				2025	}
				2026	}
				2027
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	2028	unlock:
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	2029	raw_spin_unlock(&ctx->lock);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	2030
				2031	return 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2032	}
				2033
				2034	/*
				2035	* Enable a event.
				2036	*
				2037	* If event->ctx is a cloned context, callers must make sure that
				2038	* every task struct that event->ctx->task could possibly point to
				2039	* remains valid. This condition is satisfied when called through
				2040	* perf_event_for_each_child or perf_event_for_each as described
				2041	* for perf_event_disable.
				2042	*/
Frederic Weisbecker	44234ad	2009-12-09 09:25:48 +0100	[diff] [blame]	2043	void perf_event_enable(struct perf_event *event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2044	{
				2045	struct perf_event_context *ctx = event->ctx;
				2046	struct task_struct *task = ctx->task;
				2047
				2048	if (!task) {
				2049	/*
				2050	* Enable the event on the cpu that it's on
				2051	*/
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	2052	cpu_function_call(event->cpu, __perf_event_enable, event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2053	return;
				2054	}
				2055
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	2056	raw_spin_lock_irq(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2057	if (event->state >= PERF_EVENT_STATE_INACTIVE)
				2058	goto out;
				2059
				2060	/*
				2061	* If the event is in error state, clear that first.
				2062	* That way, if we see the event in error state below, we
				2063	* know that it has gone back into error state, as distinct
				2064	* from the task having been scheduled away before the
				2065	* cross-call arrived.
				2066	*/
				2067	if (event->state == PERF_EVENT_STATE_ERROR)
				2068	event->state = PERF_EVENT_STATE_OFF;
				2069
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	2070	retry:
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	2071	if (!ctx->is_active) {
Peter Zijlstra	1d9b482	2011-11-23 12:34:20 +0100	[diff] [blame]	2072	__perf_event_mark_enabled(event);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	2073	goto out;
				2074	}
				2075
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	2076	raw_spin_unlock_irq(&ctx->lock);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	2077
				2078	if (!task_function_call(task, __perf_event_enable, event))
				2079	return;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2080
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	2081	raw_spin_lock_irq(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2082
				2083	/*
				2084	* If the context is active and the event is still off,
				2085	* we need to retry the cross-call.
				2086	*/
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	2087	if (ctx->is_active && event->state == PERF_EVENT_STATE_OFF) {
				2088	/*
				2089	* task could have been flipped by a concurrent
				2090	* perf_event_context_sched_out()
				2091	*/
				2092	task = ctx->task;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2093	goto retry;
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	2094	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2095
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	2096	out:
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	2097	raw_spin_unlock_irq(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2098	}
Robert Richter	dcfce4a	2011-10-11 17:11:08 +0200	[diff] [blame]	2099	EXPORT_SYMBOL_GPL(perf_event_enable);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2100
Avi Kivity	26ca5c1	2011-06-29 18:42:37 +0300	[diff] [blame]	2101	int perf_event_refresh(struct perf_event *event, int refresh)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2102	{
				2103	/*
				2104	* not supported on inherited events
				2105	*/
Franck Bui-Huu	2e939d1	2010-11-23 16:21:44 +0100	[diff] [blame]	2106	if (event->attr.inherit \|\| !is_sampling_event(event))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2107	return -EINVAL;
				2108
				2109	atomic_add(refresh, &event->event_limit);
				2110	perf_event_enable(event);
				2111
				2112	return 0;
				2113	}
Avi Kivity	26ca5c1	2011-06-29 18:42:37 +0300	[diff] [blame]	2114	EXPORT_SYMBOL_GPL(perf_event_refresh);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2115
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	2116	static void ctx_sched_out(struct perf_event_context *ctx,
				2117	struct perf_cpu_context *cpuctx,
				2118	enum event_type_t event_type)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2119	{
				2120	struct perf_event *event;
Peter Zijlstra	db24d33	2011-04-09 21:17:45 +0200	[diff] [blame]	2121	int is_active = ctx->is_active;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2122
Peter Zijlstra	db24d33	2011-04-09 21:17:45 +0200	[diff] [blame]	2123	ctx->is_active &= ~event_type;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2124	if (likely(!ctx->nr_events))
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	2125	return;
				2126
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2127	update_context_time(ctx);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	2128	update_cgrp_time_from_cpuctx(cpuctx);
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	2129	if (!ctx->nr_active)
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	2130	return;
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	2131
Peter Zijlstra	075e0b0	2011-04-09 21:17:40 +0200	[diff] [blame]	2132	perf_pmu_disable(ctx->pmu);
Peter Zijlstra	db24d33	2011-04-09 21:17:45 +0200	[diff] [blame]	2133	if ((is_active & EVENT_PINNED) && (event_type & EVENT_PINNED)) {
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	2134	list_for_each_entry(event, &ctx->pinned_groups, group_entry)
				2135	group_sched_out(event, cpuctx, ctx);
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	2136	}
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	2137
Peter Zijlstra	db24d33	2011-04-09 21:17:45 +0200	[diff] [blame]	2138	if ((is_active & EVENT_FLEXIBLE) && (event_type & EVENT_FLEXIBLE)) {
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	2139	list_for_each_entry(event, &ctx->flexible_groups, group_entry)
Xiao Guangrong	8c9ed8e	2009-09-25 13:51:17 +0800	[diff] [blame]	2140	group_sched_out(event, cpuctx, ctx);
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	2141	}
Peter Zijlstra	1b9a644	2010-09-07 18:32:22 +0200	[diff] [blame]	2142	perf_pmu_enable(ctx->pmu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2143	}
				2144
				2145	/*
				2146	* Test whether two contexts are equivalent, i.e. whether they
				2147	* have both been cloned from the same version of the same context
				2148	* and they both have the same number of enabled events.
				2149	* If the number of enabled events is the same, then the set
				2150	* of enabled events should be the same, because these are both
				2151	* inherited contexts, therefore we can't access individual events
				2152	* in them directly with an fd; we can only enable/disable all
				2153	* events via prctl, or enable/disable all events in a family
				2154	* via ioctl, which will have the same effect on both contexts.
				2155	*/
				2156	static int context_equiv(struct perf_event_context *ctx1,
				2157	struct perf_event_context *ctx2)
				2158	{
				2159	return ctx1->parent_ctx && ctx1->parent_ctx == ctx2->parent_ctx
				2160	&& ctx1->parent_gen == ctx2->parent_gen
				2161	&& !ctx1->pin_count && !ctx2->pin_count;
				2162	}
				2163
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2164	static void __perf_event_sync_stat(struct perf_event *event,
				2165	struct perf_event *next_event)
				2166	{
				2167	u64 value;
				2168
				2169	if (!event->attr.inherit_stat)
				2170	return;
				2171
				2172	/*
				2173	* Update the event value, we cannot use perf_event_read()
				2174	* because we're in the middle of a context switch and have IRQs
				2175	* disabled, which upsets smp_call_function_single(), however
				2176	* we know the event must be on the current CPU, therefore we
				2177	* don't need to use it.
				2178	*/
				2179	switch (event->state) {
				2180	case PERF_EVENT_STATE_ACTIVE:
Peter Zijlstra	3dbebf1	2009-11-20 22:19:52 +0100	[diff] [blame]	2181	event->pmu->read(event);
				2182	/* fall-through */
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2183
				2184	case PERF_EVENT_STATE_INACTIVE:
				2185	update_event_times(event);
				2186	break;
				2187
				2188	default:
				2189	break;
				2190	}
				2191
				2192	/*
				2193	* In order to keep per-task stats reliable we need to flip the event
				2194	* values when we flip the contexts.
				2195	*/
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	2196	value = local64_read(&next_event->count);
				2197	value = local64_xchg(&event->count, value);
				2198	local64_set(&next_event->count, value);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2199
				2200	swap(event->total_time_enabled, next_event->total_time_enabled);
				2201	swap(event->total_time_running, next_event->total_time_running);
				2202
				2203	/*
				2204	* Since we swizzled the values, update the user visible data too.
				2205	*/
				2206	perf_event_update_userpage(event);
				2207	perf_event_update_userpage(next_event);
				2208	}
				2209
				2210	#define list_next_entry(pos, member) \
				2211	list_entry(pos->member.next, typeof(*pos), member)
				2212
				2213	static void perf_event_sync_stat(struct perf_event_context *ctx,
				2214	struct perf_event_context *next_ctx)
				2215	{
				2216	struct perf_event event, next_event;
				2217
				2218	if (!ctx->nr_stat)
				2219	return;
				2220
Peter Zijlstra	02ffdbc	2009-11-20 22:19:50 +0100	[diff] [blame]	2221	update_context_time(ctx);
				2222
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2223	event = list_first_entry(&ctx->event_list,
				2224	struct perf_event, event_entry);
				2225
				2226	next_event = list_first_entry(&next_ctx->event_list,
				2227	struct perf_event, event_entry);
				2228
				2229	while (&event->event_entry != &ctx->event_list &&
				2230	&next_event->event_entry != &next_ctx->event_list) {
				2231
				2232	__perf_event_sync_stat(event, next_event);
				2233
				2234	event = list_next_entry(event, event_entry);
				2235	next_event = list_next_entry(next_event, event_entry);
				2236	}
				2237	}
				2238
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	2239	static void perf_event_context_sched_out(struct task_struct *task, int ctxn,
				2240	struct task_struct *next)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2241	{
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	2242	struct perf_event_context *ctx = task->perf_event_ctxp[ctxn];
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2243	struct perf_event_context *next_ctx;
				2244	struct perf_event_context *parent;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	2245	struct perf_cpu_context *cpuctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2246	int do_switch = 1;
				2247
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	2248	if (likely(!ctx))
				2249	return;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2250
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	2251	cpuctx = __get_cpu_context(ctx);
				2252	if (!cpuctx->task_ctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2253	return;
				2254
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2255	rcu_read_lock();
				2256	parent = rcu_dereference(ctx->parent_ctx);
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	2257	next_ctx = next->perf_event_ctxp[ctxn];
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2258	if (parent && next_ctx &&
				2259	rcu_dereference(next_ctx->parent_ctx) == parent) {
				2260	/*
				2261	* Looks like the two contexts are clones, so we might be
				2262	* able to optimize the context switch. We lock both
				2263	* contexts and check that they are clones under the
				2264	* lock (including re-checking that neither has been
				2265	* uncloned in the meantime). It doesn't matter which
				2266	* order we take the locks because no other cpu could
				2267	* be trying to lock both of these tasks.
				2268	*/
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	2269	raw_spin_lock(&ctx->lock);
				2270	raw_spin_lock_nested(&next_ctx->lock, SINGLE_DEPTH_NESTING);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2271	if (context_equiv(ctx, next_ctx)) {
				2272	/*
				2273	* XXX do we need a memory barrier of sorts
				2274	* wrt to rcu_dereference() of perf_event_ctxp
				2275	*/
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	2276	task->perf_event_ctxp[ctxn] = next_ctx;
				2277	next->perf_event_ctxp[ctxn] = ctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2278	ctx->task = next;
				2279	next_ctx->task = task;
				2280	do_switch = 0;
				2281
				2282	perf_event_sync_stat(ctx, next_ctx);
				2283	}
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	2284	raw_spin_unlock(&next_ctx->lock);
				2285	raw_spin_unlock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2286	}
				2287	rcu_read_unlock();
				2288
				2289	if (do_switch) {
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	2290	raw_spin_lock(&ctx->lock);
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	2291	ctx_sched_out(ctx, cpuctx, EVENT_ALL);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2292	cpuctx->task_ctx = NULL;
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	2293	raw_spin_unlock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2294	}
				2295	}
				2296
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	2297	#define for_each_task_context_nr(ctxn) \
				2298	for ((ctxn) = 0; (ctxn) < perf_nr_task_contexts; (ctxn)++)
				2299
				2300	/*
				2301	* Called from scheduler to remove the events of the current task,
				2302	* with interrupts disabled.
				2303	*
				2304	* We stop each event and update the event value in event->count.
				2305	*
				2306	* This does not protect us against NMI, but disable()
				2307	* sets the disabled bit in the control field of event _before_
				2308	* accessing the event control register. If a NMI hits, then it will
				2309	* not restart the event.
				2310	*/
Jiri Olsa	ab0cce5	2012-05-23 13:13:02 +0200	[diff] [blame]	2311	void __perf_event_task_sched_out(struct task_struct *task,
				2312	struct task_struct *next)
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	2313	{
				2314	int ctxn;
				2315
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	2316	for_each_task_context_nr(ctxn)
				2317	perf_event_context_sched_out(task, ctxn, next);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	2318
				2319	/*
				2320	* if cgroup events exist on this CPU, then we need
				2321	* to check if we have to switch out PMU state.
				2322	* cgroup event are system-wide mode only
				2323	*/
				2324	if (atomic_read(&__get_cpu_var(perf_cgroup_events)))
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	2325	perf_cgroup_sched_out(task, next);
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	2326	}
				2327
Peter Zijlstra	04dc2db	2011-04-09 21:17:43 +0200	[diff] [blame]	2328	static void task_ctx_sched_out(struct perf_event_context *ctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2329	{
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	2330	struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2331
				2332	if (!cpuctx->task_ctx)
				2333	return;
				2334
				2335	if (WARN_ON_ONCE(ctx != cpuctx->task_ctx))
				2336	return;
				2337
Peter Zijlstra	04dc2db	2011-04-09 21:17:43 +0200	[diff] [blame]	2338	ctx_sched_out(ctx, cpuctx, EVENT_ALL);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2339	cpuctx->task_ctx = NULL;
				2340	}
				2341
				2342	/*
				2343	* Called with IRQs disabled
				2344	*/
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	2345	static void cpu_ctx_sched_out(struct perf_cpu_context *cpuctx,
				2346	enum event_type_t event_type)
				2347	{
				2348	ctx_sched_out(&cpuctx->ctx, cpuctx, event_type);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2349	}
				2350
				2351	static void
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	2352	ctx_pinned_sched_in(struct perf_event_context *ctx,
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	2353	struct perf_cpu_context *cpuctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2354	{
				2355	struct perf_event *event;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2356
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	2357	list_for_each_entry(event, &ctx->pinned_groups, group_entry) {
				2358	if (event->state <= PERF_EVENT_STATE_OFF)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2359	continue;
Stephane Eranian	5632ab1	2011-01-03 18:20:01 +0200	[diff] [blame]	2360	if (!event_filter_match(event))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2361	continue;
				2362
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	2363	/* may need to reset tstamp_enabled */
				2364	if (is_cgroup_event(event))
				2365	perf_cgroup_mark_enabled(event, ctx);
				2366
Xiao Guangrong	8c9ed8e	2009-09-25 13:51:17 +0800	[diff] [blame]	2367	if (group_can_go_on(event, cpuctx, 1))
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	2368	group_sched_in(event, cpuctx, ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2369
				2370	/*
				2371	* If this pinned group hasn't been scheduled,
				2372	* put it in error state.
				2373	*/
				2374	if (event->state == PERF_EVENT_STATE_INACTIVE) {
				2375	update_group_times(event);
				2376	event->state = PERF_EVENT_STATE_ERROR;
				2377	}
				2378	}
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	2379	}
				2380
				2381	static void
				2382	ctx_flexible_sched_in(struct perf_event_context *ctx,
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	2383	struct perf_cpu_context *cpuctx)
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	2384	{
				2385	struct perf_event *event;
				2386	int can_add_hw = 1;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2387
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	2388	list_for_each_entry(event, &ctx->flexible_groups, group_entry) {
				2389	/* Ignore events in OFF or ERROR state */
				2390	if (event->state <= PERF_EVENT_STATE_OFF)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2391	continue;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2392	/*
				2393	* Listen to the 'cpu' scheduling filter constraint
				2394	* of events:
				2395	*/
Stephane Eranian	5632ab1	2011-01-03 18:20:01 +0200	[diff] [blame]	2396	if (!event_filter_match(event))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2397	continue;
				2398
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	2399	/* may need to reset tstamp_enabled */
				2400	if (is_cgroup_event(event))
				2401	perf_cgroup_mark_enabled(event, ctx);
				2402
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	2403	if (group_can_go_on(event, cpuctx, can_add_hw)) {
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	2404	if (group_sched_in(event, cpuctx, ctx))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2405	can_add_hw = 0;
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	2406	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2407	}
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	2408	}
				2409
				2410	static void
				2411	ctx_sched_in(struct perf_event_context *ctx,
				2412	struct perf_cpu_context *cpuctx,
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	2413	enum event_type_t event_type,
				2414	struct task_struct *task)
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	2415	{
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	2416	u64 now;
Peter Zijlstra	db24d33	2011-04-09 21:17:45 +0200	[diff] [blame]	2417	int is_active = ctx->is_active;
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	2418
Peter Zijlstra	db24d33	2011-04-09 21:17:45 +0200	[diff] [blame]	2419	ctx->is_active \|= event_type;
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	2420	if (likely(!ctx->nr_events))
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	2421	return;
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	2422
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	2423	now = perf_clock();
				2424	ctx->timestamp = now;
Stephane Eranian	3f7cce3	2011-02-18 14:40:01 +0200	[diff] [blame]	2425	perf_cgroup_set_timestamp(task, ctx);
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	2426	/*
				2427	* First go through the list and put on any pinned groups
				2428	* in order to give them the best chance of going on.
				2429	*/
Peter Zijlstra	db24d33	2011-04-09 21:17:45 +0200	[diff] [blame]	2430	if (!(is_active & EVENT_PINNED) && (event_type & EVENT_PINNED))
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	2431	ctx_pinned_sched_in(ctx, cpuctx);
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	2432
				2433	/* Then walk through the lower prio flexible groups */
Peter Zijlstra	db24d33	2011-04-09 21:17:45 +0200	[diff] [blame]	2434	if (!(is_active & EVENT_FLEXIBLE) && (event_type & EVENT_FLEXIBLE))
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	2435	ctx_flexible_sched_in(ctx, cpuctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2436	}
				2437
Frederic Weisbecker	329c0e0	2010-01-17 12:56:05 +0100	[diff] [blame]	2438	static void cpu_ctx_sched_in(struct perf_cpu_context *cpuctx,
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	2439	enum event_type_t event_type,
				2440	struct task_struct *task)
Frederic Weisbecker	329c0e0	2010-01-17 12:56:05 +0100	[diff] [blame]	2441	{
				2442	struct perf_event_context *ctx = &cpuctx->ctx;
				2443
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	2444	ctx_sched_in(ctx, cpuctx, event_type, task);
Frederic Weisbecker	329c0e0	2010-01-17 12:56:05 +0100	[diff] [blame]	2445	}
				2446
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	2447	static void perf_event_context_sched_in(struct perf_event_context *ctx,
				2448	struct task_struct *task)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2449	{
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	2450	struct perf_cpu_context *cpuctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2451
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	2452	cpuctx = __get_cpu_context(ctx);
Frederic Weisbecker	329c0e0	2010-01-17 12:56:05 +0100	[diff] [blame]	2453	if (cpuctx->task_ctx == ctx)
				2454	return;
				2455
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	2456	perf_ctx_lock(cpuctx, ctx);
Peter Zijlstra	1b9a644	2010-09-07 18:32:22 +0200	[diff] [blame]	2457	perf_pmu_disable(ctx->pmu);
Frederic Weisbecker	329c0e0	2010-01-17 12:56:05 +0100	[diff] [blame]	2458	/*
				2459	* We want to keep the following priority order:
				2460	* cpu pinned (that don't need to move), task pinned,
				2461	* cpu flexible, task flexible.
				2462	*/
				2463	cpu_ctx_sched_out(cpuctx, EVENT_FLEXIBLE);
				2464
Gleb Natapov	1d5f003	2011-10-23 19:10:33 +0200	[diff] [blame]	2465	if (ctx->nr_events)
				2466	cpuctx->task_ctx = ctx;
eranian@google.com	9b33fa6	2010-03-10 22:26:05 -0800	[diff] [blame]	2467
Gleb Natapov	86b47c2	2011-11-22 16:08:21 +0200	[diff] [blame]	2468	perf_event_sched_in(cpuctx, cpuctx->task_ctx, task);
				2469
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	2470	perf_pmu_enable(ctx->pmu);
				2471	perf_ctx_unlock(cpuctx, ctx);
				2472
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	2473	/*
				2474	* Since these rotations are per-cpu, we need to ensure the
				2475	* cpu-context we got scheduled on is actually rotating.
				2476	*/
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	2477	perf_pmu_rotate_start(ctx->pmu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2478	}
				2479
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	2480	/*
Stephane Eranian	d010b33	2012-02-09 23:21:00 +0100	[diff] [blame]	2481	* When sampling the branck stack in system-wide, it may be necessary
				2482	* to flush the stack on context switch. This happens when the branch
				2483	* stack does not tag its entries with the pid of the current task.
				2484	* Otherwise it becomes impossible to associate a branch entry with a
				2485	* task. This ambiguity is more likely to appear when the branch stack
				2486	* supports priv level filtering and the user sets it to monitor only
				2487	* at the user level (which could be a useful measurement in system-wide
				2488	* mode). In that case, the risk is high of having a branch stack with
				2489	* branch from multiple tasks. Flushing may mean dropping the existing
				2490	* entries or stashing them somewhere in the PMU specific code layer.
				2491	*
				2492	* This function provides the context switch callback to the lower code
				2493	* layer. It is invoked ONLY when there is at least one system-wide context
				2494	* with at least one active event using taken branch sampling.
				2495	*/
				2496	static void perf_branch_stack_sched_in(struct task_struct *prev,
				2497	struct task_struct *task)
				2498	{
				2499	struct perf_cpu_context *cpuctx;
				2500	struct pmu *pmu;
				2501	unsigned long flags;
				2502
				2503	/* no need to flush branch stack if not changing task */
				2504	if (prev == task)
				2505	return;
				2506
				2507	local_irq_save(flags);
				2508
				2509	rcu_read_lock();
				2510
				2511	list_for_each_entry_rcu(pmu, &pmus, entry) {
				2512	cpuctx = this_cpu_ptr(pmu->pmu_cpu_context);
				2513
				2514	/*
				2515	* check if the context has at least one
				2516	* event using PERF_SAMPLE_BRANCH_STACK
				2517	*/
				2518	if (cpuctx->ctx.nr_branch_stack > 0
				2519	&& pmu->flush_branch_stack) {
				2520
				2521	pmu = cpuctx->ctx.pmu;
				2522
				2523	perf_ctx_lock(cpuctx, cpuctx->task_ctx);
				2524
				2525	perf_pmu_disable(pmu);
				2526
				2527	pmu->flush_branch_stack();
				2528
				2529	perf_pmu_enable(pmu);
				2530
				2531	perf_ctx_unlock(cpuctx, cpuctx->task_ctx);
				2532	}
				2533	}
				2534
				2535	rcu_read_unlock();
				2536
				2537	local_irq_restore(flags);
				2538	}
				2539
				2540	/*
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	2541	* Called from scheduler to add the events of the current task
				2542	* with interrupts disabled.
				2543	*
				2544	* We restore the event value and then enable it.
				2545	*
				2546	* This does not protect us against NMI, but enable()
				2547	* sets the enabled bit in the control field of event _before_
				2548	* accessing the event control register. If a NMI hits, then it will
				2549	* keep the event running.
				2550	*/
Jiri Olsa	ab0cce5	2012-05-23 13:13:02 +0200	[diff] [blame]	2551	void __perf_event_task_sched_in(struct task_struct *prev,
				2552	struct task_struct *task)
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	2553	{
				2554	struct perf_event_context *ctx;
				2555	int ctxn;
				2556
				2557	for_each_task_context_nr(ctxn) {
				2558	ctx = task->perf_event_ctxp[ctxn];
				2559	if (likely(!ctx))
				2560	continue;
				2561
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	2562	perf_event_context_sched_in(ctx, task);
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	2563	}
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	2564	/*
				2565	* if cgroup events exist on this CPU, then we need
				2566	* to check if we have to switch in PMU state.
				2567	* cgroup event are system-wide mode only
				2568	*/
				2569	if (atomic_read(&__get_cpu_var(perf_cgroup_events)))
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	2570	perf_cgroup_sched_in(prev, task);
Stephane Eranian	d010b33	2012-02-09 23:21:00 +0100	[diff] [blame]	2571
				2572	/* check for system-wide branch_stack events */
				2573	if (atomic_read(&__get_cpu_var(perf_branch_stack_events)))
				2574	perf_branch_stack_sched_in(prev, task);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2575	}
				2576
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	2577	static u64 perf_calculate_period(struct perf_event *event, u64 nsec, u64 count)
				2578	{
				2579	u64 frequency = event->attr.sample_freq;
				2580	u64 sec = NSEC_PER_SEC;
				2581	u64 divisor, dividend;
				2582
				2583	int count_fls, nsec_fls, frequency_fls, sec_fls;
				2584
				2585	count_fls = fls64(count);
				2586	nsec_fls = fls64(nsec);
				2587	frequency_fls = fls64(frequency);
				2588	sec_fls = 30;
				2589
				2590	/*
				2591	* We got @count in @nsec, with a target of sample_freq HZ
				2592	* the target period becomes:
				2593	*
				2594	* @count * 10^9
				2595	* period = -------------------
				2596	* @nsec * sample_freq
				2597	*
				2598	*/
				2599
				2600	/*
				2601	* Reduce accuracy by one bit such that @a and @b converge
				2602	* to a similar magnitude.
				2603	*/
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	2604	#define REDUCE_FLS(a, b) \
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	2605	do { \
				2606	if (a##_fls > b##_fls) { \
				2607	a >>= 1; \
				2608	a##_fls--; \
				2609	} else { \
				2610	b >>= 1; \
				2611	b##_fls--; \
				2612	} \
				2613	} while (0)
				2614
				2615	/*
				2616	* Reduce accuracy until either term fits in a u64, then proceed with
				2617	* the other, so that finally we can do a u64/u64 division.
				2618	*/
				2619	while (count_fls + sec_fls > 64 && nsec_fls + frequency_fls > 64) {
				2620	REDUCE_FLS(nsec, frequency);
				2621	REDUCE_FLS(sec, count);
				2622	}
				2623
				2624	if (count_fls + sec_fls > 64) {
				2625	divisor = nsec * frequency;
				2626
				2627	while (count_fls + sec_fls > 64) {
				2628	REDUCE_FLS(count, sec);
				2629	divisor >>= 1;
				2630	}
				2631
				2632	dividend = count * sec;
				2633	} else {
				2634	dividend = count * sec;
				2635
				2636	while (nsec_fls + frequency_fls > 64) {
				2637	REDUCE_FLS(nsec, frequency);
				2638	dividend >>= 1;
				2639	}
				2640
				2641	divisor = nsec * frequency;
				2642	}
				2643
Peter Zijlstra	f6ab91ad	2010-06-04 15:18:01 +0200	[diff] [blame]	2644	if (!divisor)
				2645	return dividend;
				2646
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	2647	return div64_u64(dividend, divisor);
				2648	}
				2649
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	2650	static DEFINE_PER_CPU(int, perf_throttled_count);
				2651	static DEFINE_PER_CPU(u64, perf_throttled_seq);
				2652
Stephane Eranian	f39d47f	2012-02-07 14:39:57 +0100	[diff] [blame]	2653	static void perf_adjust_period(struct perf_event *event, u64 nsec, u64 count, bool disable)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2654	{
				2655	struct hw_perf_event *hwc = &event->hw;
Peter Zijlstra	f6ab91ad	2010-06-04 15:18:01 +0200	[diff] [blame]	2656	s64 period, sample_period;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2657	s64 delta;
				2658
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	2659	period = perf_calculate_period(event, nsec, count);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2660
				2661	delta = (s64)(period - hwc->sample_period);
				2662	delta = (delta + 7) / 8; /* low pass filter */
				2663
				2664	sample_period = hwc->sample_period + delta;
				2665
				2666	if (!sample_period)
				2667	sample_period = 1;
				2668
				2669	hwc->sample_period = sample_period;
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	2670
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	2671	if (local64_read(&hwc->period_left) > 8*sample_period) {
Stephane Eranian	f39d47f	2012-02-07 14:39:57 +0100	[diff] [blame]	2672	if (disable)
				2673	event->pmu->stop(event, PERF_EF_UPDATE);
				2674
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	2675	local64_set(&hwc->period_left, 0);
Stephane Eranian	f39d47f	2012-02-07 14:39:57 +0100	[diff] [blame]	2676
				2677	if (disable)
				2678	event->pmu->start(event, PERF_EF_RELOAD);
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	2679	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2680	}
				2681
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	2682	/*
				2683	* combine freq adjustment with unthrottling to avoid two passes over the
				2684	* events. At the same time, make sure, having freq events does not change
				2685	* the rate of unthrottling as that would introduce bias.
				2686	*/
				2687	static void perf_adjust_freq_unthr_context(struct perf_event_context *ctx,
				2688	int needs_unthr)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2689	{
				2690	struct perf_event *event;
				2691	struct hw_perf_event *hwc;
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	2692	u64 now, period = TICK_NSEC;
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	2693	s64 delta;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2694
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	2695	/*
				2696	* only need to iterate over all events iff:
				2697	* - context have events in frequency mode (needs freq adjust)
				2698	* - there are events to unthrottle on this cpu
				2699	*/
				2700	if (!(ctx->nr_freq \|\| needs_unthr))
Peter Zijlstra	0f5a260	2011-11-16 14:38:16 +0100	[diff] [blame]	2701	return;
				2702
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	2703	raw_spin_lock(&ctx->lock);
Stephane Eranian	f39d47f	2012-02-07 14:39:57 +0100	[diff] [blame]	2704	perf_pmu_disable(ctx->pmu);
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	2705
Paul Mackerras	03541f8	2009-10-14 16:58:03 +1100	[diff] [blame]	2706	list_for_each_entry_rcu(event, &ctx->event_list, event_entry) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2707	if (event->state != PERF_EVENT_STATE_ACTIVE)
				2708	continue;
				2709
Stephane Eranian	5632ab1	2011-01-03 18:20:01 +0200	[diff] [blame]	2710	if (!event_filter_match(event))
Peter Zijlstra	5d27c23	2009-12-17 13:16:32 +0100	[diff] [blame]	2711	continue;
				2712
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2713	hwc = &event->hw;
				2714
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	2715	if (needs_unthr && hwc->interrupts == MAX_INTERRUPTS) {
				2716	hwc->interrupts = 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2717	perf_log_throttle(event, 1);
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	2718	event->pmu->start(event, 0);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2719	}
				2720
				2721	if (!event->attr.freq \|\| !event->attr.sample_freq)
				2722	continue;
				2723
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	2724	/*
				2725	* stop the event and update event->count
				2726	*/
				2727	event->pmu->stop(event, PERF_EF_UPDATE);
				2728
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	2729	now = local64_read(&event->count);
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	2730	delta = now - hwc->freq_count_stamp;
				2731	hwc->freq_count_stamp = now;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2732
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	2733	/*
				2734	* restart the event
				2735	* reload only if value has changed
Stephane Eranian	f39d47f	2012-02-07 14:39:57 +0100	[diff] [blame]	2736	* we have stopped the event so tell that
				2737	* to perf_adjust_period() to avoid stopping it
				2738	* twice.
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	2739	*/
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	2740	if (delta > 0)
Stephane Eranian	f39d47f	2012-02-07 14:39:57 +0100	[diff] [blame]	2741	perf_adjust_period(event, period, delta, false);
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	2742
				2743	event->pmu->start(event, delta > 0 ? PERF_EF_RELOAD : 0);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2744	}
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	2745
Stephane Eranian	f39d47f	2012-02-07 14:39:57 +0100	[diff] [blame]	2746	perf_pmu_enable(ctx->pmu);
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	2747	raw_spin_unlock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2748	}
				2749
				2750	/*
				2751	* Round-robin a context's events:
				2752	*/
				2753	static void rotate_ctx(struct perf_event_context *ctx)
				2754	{
Thomas Gleixner	dddd337	2010-11-24 10:05:55 +0100	[diff] [blame]	2755	/*
				2756	* Rotate the first entry last of non-pinned groups. Rotation might be
				2757	* disabled by the inheritance code.
				2758	*/
				2759	if (!ctx->rotate_disable)
				2760	list_rotate_left(&ctx->flexible_groups);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2761	}
				2762
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	2763	/*
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	2764	* perf_pmu_rotate_start() and perf_rotate_context() are fully serialized
				2765	* because they're strictly cpu affine and rotate_start is called with IRQs
				2766	* disabled, while rotate_context is called from IRQ context.
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	2767	*/
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	2768	static int perf_rotate_context(struct perf_cpu_context *cpuctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2769	{
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	2770	struct perf_event_context *ctx = NULL;
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	2771	int rotate = 0, remove = 1;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2772
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	2773	if (cpuctx->ctx.nr_events) {
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	2774	remove = 0;
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	2775	if (cpuctx->ctx.nr_events != cpuctx->ctx.nr_active)
				2776	rotate = 1;
				2777	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2778
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	2779	ctx = cpuctx->task_ctx;
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	2780	if (ctx && ctx->nr_events) {
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	2781	remove = 0;
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	2782	if (ctx->nr_events != ctx->nr_active)
				2783	rotate = 1;
				2784	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2785
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	2786	if (!rotate)
Peter Zijlstra	0f5a260	2011-11-16 14:38:16 +0100	[diff] [blame]	2787	goto done;
				2788
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	2789	perf_ctx_lock(cpuctx, cpuctx->task_ctx);
Peter Zijlstra	1b9a644	2010-09-07 18:32:22 +0200	[diff] [blame]	2790	perf_pmu_disable(cpuctx->ctx.pmu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2791
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	2792	cpu_ctx_sched_out(cpuctx, EVENT_FLEXIBLE);
				2793	if (ctx)
				2794	ctx_sched_out(ctx, cpuctx, EVENT_FLEXIBLE);
Peter Zijlstra	d4944a0	2010-03-08 13:51:20 +0100	[diff] [blame]	2795
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	2796	rotate_ctx(&cpuctx->ctx);
				2797	if (ctx)
				2798	rotate_ctx(ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2799
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	2800	perf_event_sched_in(cpuctx, ctx, current);
Peter Zijlstra	0f5a260	2011-11-16 14:38:16 +0100	[diff] [blame]	2801
				2802	perf_pmu_enable(cpuctx->ctx.pmu);
				2803	perf_ctx_unlock(cpuctx, cpuctx->task_ctx);
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	2804	done:
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	2805	if (remove)
				2806	list_del_init(&cpuctx->rotation_list);
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	2807
				2808	return rotate;
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	2809	}
				2810
Frederic Weisbecker	026249e	2013-04-20 15:58:34 +0200	[diff] [blame]	2811	#ifdef CONFIG_NO_HZ_FULL
				2812	bool perf_event_can_stop_tick(void)
				2813	{
				2814	if (list_empty(&__get_cpu_var(rotation_list)))
				2815	return true;
				2816	else
				2817	return false;
				2818	}
				2819	#endif
				2820
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	2821	void perf_event_task_tick(void)
				2822	{
				2823	struct list_head *head = &__get_cpu_var(rotation_list);
				2824	struct perf_cpu_context cpuctx, tmp;
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	2825	struct perf_event_context *ctx;
				2826	int throttled;
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	2827
				2828	WARN_ON(!irqs_disabled());
				2829
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	2830	__this_cpu_inc(perf_throttled_seq);
				2831	throttled = __this_cpu_xchg(perf_throttled_count, 0);
				2832
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	2833	list_for_each_entry_safe(cpuctx, tmp, head, rotation_list) {
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	2834	ctx = &cpuctx->ctx;
				2835	perf_adjust_freq_unthr_context(ctx, throttled);
				2836
				2837	ctx = cpuctx->task_ctx;
				2838	if (ctx)
				2839	perf_adjust_freq_unthr_context(ctx, throttled);
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	2840	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2841	}
				2842
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	2843	static int event_enable_on_exec(struct perf_event *event,
				2844	struct perf_event_context *ctx)
				2845	{
				2846	if (!event->attr.enable_on_exec)
				2847	return 0;
				2848
				2849	event->attr.enable_on_exec = 0;
				2850	if (event->state >= PERF_EVENT_STATE_INACTIVE)
				2851	return 0;
				2852
Peter Zijlstra	1d9b482	2011-11-23 12:34:20 +0100	[diff] [blame]	2853	__perf_event_mark_enabled(event);
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	2854
				2855	return 1;
				2856	}
				2857
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2858	/*
				2859	* Enable all of a task's events that have been marked enable-on-exec.
				2860	* This expects task == current.
				2861	*/
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	2862	static void perf_event_enable_on_exec(struct perf_event_context *ctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2863	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2864	struct perf_event *event;
				2865	unsigned long flags;
				2866	int enabled = 0;
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	2867	int ret;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2868
				2869	local_irq_save(flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2870	if (!ctx \|\| !ctx->nr_events)
				2871	goto out;
				2872
Stephane Eranian	e566b76	2011-04-06 02:54:54 +0200	[diff] [blame]	2873	/*
				2874	* We must ctxsw out cgroup events to avoid conflict
				2875	* when invoking perf_task_event_sched_in() later on
				2876	* in this function. Otherwise we end up trying to
				2877	* ctxswin cgroup events which are already scheduled
				2878	* in.
				2879	*/
Stephane Eranian	a8d757e	2011-08-25 15:58:03 +0200	[diff] [blame]	2880	perf_cgroup_sched_out(current, NULL);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2881
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	2882	raw_spin_lock(&ctx->lock);
Peter Zijlstra	04dc2db	2011-04-09 21:17:43 +0200	[diff] [blame]	2883	task_ctx_sched_out(ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2884
Peter Zijlstra	b79387e	2011-11-22 11:25:43 +0100	[diff] [blame]	2885	list_for_each_entry(event, &ctx->event_list, event_entry) {
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	2886	ret = event_enable_on_exec(event, ctx);
				2887	if (ret)
				2888	enabled = 1;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2889	}
				2890
				2891	/*
				2892	* Unclone this context if we enabled any event.
				2893	*/
				2894	if (enabled)
				2895	unclone_ctx(ctx);
				2896
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	2897	raw_spin_unlock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2898
Stephane Eranian	e566b76	2011-04-06 02:54:54 +0200	[diff] [blame]	2899	/*
				2900	* Also calls ctxswin for cgroup events, if any:
				2901	*/
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	2902	perf_event_context_sched_in(ctx, ctx->task);
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	2903	out:
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2904	local_irq_restore(flags);
				2905	}
				2906
				2907	/*
				2908	* Cross CPU call to read the hardware event
				2909	*/
				2910	static void __perf_event_read(void *info)
				2911	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2912	struct perf_event *event = info;
				2913	struct perf_event_context *ctx = event->ctx;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	2914	struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2915
				2916	/*
				2917	* If this is a task context, we need to check whether it is
				2918	* the current task context of this cpu. If not it has been
				2919	* scheduled out before the smp call arrived. In that case
				2920	* event->count would have been updated to a recent sample
				2921	* when the event was scheduled out.
				2922	*/
				2923	if (ctx->task && cpuctx->task_ctx != ctx)
				2924	return;
				2925
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	2926	raw_spin_lock(&ctx->lock);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	2927	if (ctx->is_active) {
Peter Zijlstra	542e72f	2011-01-26 15:38:35 +0100	[diff] [blame]	2928	update_context_time(ctx);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	2929	update_cgrp_time_from_event(event);
				2930	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2931	update_event_times(event);
Peter Zijlstra	542e72f	2011-01-26 15:38:35 +0100	[diff] [blame]	2932	if (event->state == PERF_EVENT_STATE_ACTIVE)
				2933	event->pmu->read(event);
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	2934	raw_spin_unlock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2935	}
				2936
Peter Zijlstra	b5e5879	2010-05-21 14:43:12 +0200	[diff] [blame]	2937	static inline u64 perf_event_count(struct perf_event *event)
				2938	{
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	2939	return local64_read(&event->count) + atomic64_read(&event->child_count);
Peter Zijlstra	b5e5879	2010-05-21 14:43:12 +0200	[diff] [blame]	2940	}
				2941
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2942	static u64 perf_event_read(struct perf_event *event)
				2943	{
				2944	/*
				2945	* If event is enabled and currently active on a CPU, update the
				2946	* value in the event structure:
				2947	*/
				2948	if (event->state == PERF_EVENT_STATE_ACTIVE) {
				2949	smp_call_function_single(event->oncpu,
				2950	__perf_event_read, event, 1);
				2951	} else if (event->state == PERF_EVENT_STATE_INACTIVE) {
Peter Zijlstra	2b8988c	2009-11-20 22:19:54 +0100	[diff] [blame]	2952	struct perf_event_context *ctx = event->ctx;
				2953	unsigned long flags;
				2954
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	2955	raw_spin_lock_irqsave(&ctx->lock, flags);
Stephane Eranian	c530ccd	2010-10-15 15:26:01 +0200	[diff] [blame]	2956	/*
				2957	* may read while context is not active
				2958	* (e.g., thread is blocked), in that case
				2959	* we cannot update context time
				2960	*/
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	2961	if (ctx->is_active) {
Stephane Eranian	c530ccd	2010-10-15 15:26:01 +0200	[diff] [blame]	2962	update_context_time(ctx);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	2963	update_cgrp_time_from_event(event);
				2964	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2965	update_event_times(event);
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	2966	raw_spin_unlock_irqrestore(&ctx->lock, flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2967	}
				2968
Peter Zijlstra	b5e5879	2010-05-21 14:43:12 +0200	[diff] [blame]	2969	return perf_event_count(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2970	}
				2971
				2972	/*
				2973	* Initialize the perf_event context in a task_struct:
				2974	*/
Peter Zijlstra	eb18447	2010-09-07 15:55:13 +0200	[diff] [blame]	2975	static void __perf_event_init_context(struct perf_event_context *ctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2976	{
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	2977	raw_spin_lock_init(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2978	mutex_init(&ctx->mutex);
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	2979	INIT_LIST_HEAD(&ctx->pinned_groups);
				2980	INIT_LIST_HEAD(&ctx->flexible_groups);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2981	INIT_LIST_HEAD(&ctx->event_list);
				2982	atomic_set(&ctx->refcount, 1);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2983	}
				2984
Peter Zijlstra	eb18447	2010-09-07 15:55:13 +0200	[diff] [blame]	2985	static struct perf_event_context *
				2986	alloc_perf_context(struct pmu pmu, struct task_struct task)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2987	{
				2988	struct perf_event_context *ctx;
Peter Zijlstra	eb18447	2010-09-07 15:55:13 +0200	[diff] [blame]	2989
				2990	ctx = kzalloc(sizeof(struct perf_event_context), GFP_KERNEL);
				2991	if (!ctx)
				2992	return NULL;
				2993
				2994	__perf_event_init_context(ctx);
				2995	if (task) {
				2996	ctx->task = task;
				2997	get_task_struct(task);
				2998	}
				2999	ctx->pmu = pmu;
				3000
				3001	return ctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3002	}
				3003
Matt Helsley	2ebd4ff	2010-09-13 13:01:19 -0700	[diff] [blame]	3004	static struct task_struct *
				3005	find_lively_task_by_vpid(pid_t vpid)
				3006	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3007	struct task_struct *task;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3008	int err;
				3009
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3010	rcu_read_lock();
Matt Helsley	2ebd4ff	2010-09-13 13:01:19 -0700	[diff] [blame]	3011	if (!vpid)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3012	task = current;
				3013	else
Matt Helsley	2ebd4ff	2010-09-13 13:01:19 -0700	[diff] [blame]	3014	task = find_task_by_vpid(vpid);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3015	if (task)
				3016	get_task_struct(task);
				3017	rcu_read_unlock();
				3018
				3019	if (!task)
				3020	return ERR_PTR(-ESRCH);
				3021
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3022	/* Reuse ptrace permission checks for now. */
				3023	err = -EACCES;
				3024	if (!ptrace_may_access(task, PTRACE_MODE_READ))
				3025	goto errout;
				3026
Matt Helsley	2ebd4ff	2010-09-13 13:01:19 -0700	[diff] [blame]	3027	return task;
				3028	errout:
				3029	put_task_struct(task);
				3030	return ERR_PTR(err);
				3031
				3032	}
				3033
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	3034	/*
				3035	* Returns a matching context with refcount and pincount.
				3036	*/
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	3037	static struct perf_event_context *
Matt Helsley	38a81da	2010-09-13 13:01:20 -0700	[diff] [blame]	3038	find_get_context(struct pmu pmu, struct task_struct task, int cpu)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3039	{
				3040	struct perf_event_context *ctx;
				3041	struct perf_cpu_context *cpuctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3042	unsigned long flags;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3043	int ctxn, err;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3044
Oleg Nesterov	22a4ec7	2011-01-18 17:10:08 +0100	[diff] [blame]	3045	if (!task) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3046	/* Must be root to operate on a CPU event: */
				3047	if (perf_paranoid_cpu() && !capable(CAP_SYS_ADMIN))
				3048	return ERR_PTR(-EACCES);
				3049
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3050	/*
				3051	* We could be clever and allow to attach a event to an
				3052	* offline CPU and activate it when the CPU comes up, but
				3053	* that's for later.
				3054	*/
				3055	if (!cpu_online(cpu))
				3056	return ERR_PTR(-ENODEV);
				3057
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	3058	cpuctx = per_cpu_ptr(pmu->pmu_cpu_context, cpu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3059	ctx = &cpuctx->ctx;
				3060	get_ctx(ctx);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	3061	++ctx->pin_count;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3062
				3063	return ctx;
				3064	}
				3065
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3066	err = -EINVAL;
				3067	ctxn = pmu->task_ctx_nr;
				3068	if (ctxn < 0)
				3069	goto errout;
				3070
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	3071	retry:
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3072	ctx = perf_lock_task_context(task, ctxn, &flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3073	if (ctx) {
				3074	unclone_ctx(ctx);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	3075	++ctx->pin_count;
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	3076	raw_spin_unlock_irqrestore(&ctx->lock, flags);
Peter Zijlstra	9137fb2	2011-04-09 21:17:41 +0200	[diff] [blame]	3077	} else {
Peter Zijlstra	eb18447	2010-09-07 15:55:13 +0200	[diff] [blame]	3078	ctx = alloc_perf_context(pmu, task);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3079	err = -ENOMEM;
				3080	if (!ctx)
				3081	goto errout;
Peter Zijlstra	eb18447	2010-09-07 15:55:13 +0200	[diff] [blame]	3082
Oleg Nesterov	dbe08d8	2011-01-19 19:22:07 +0100	[diff] [blame]	3083	err = 0;
				3084	mutex_lock(&task->perf_event_mutex);
				3085	/*
				3086	* If it has already passed perf_event_exit_task().
				3087	* we must see PF_EXITING, it takes this mutex too.
				3088	*/
				3089	if (task->flags & PF_EXITING)
				3090	err = -ESRCH;
				3091	else if (task->perf_event_ctxp[ctxn])
				3092	err = -EAGAIN;
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	3093	else {
Peter Zijlstra	9137fb2	2011-04-09 21:17:41 +0200	[diff] [blame]	3094	get_ctx(ctx);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	3095	++ctx->pin_count;
Oleg Nesterov	dbe08d8	2011-01-19 19:22:07 +0100	[diff] [blame]	3096	rcu_assign_pointer(task->perf_event_ctxp[ctxn], ctx);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	3097	}
Oleg Nesterov	dbe08d8	2011-01-19 19:22:07 +0100	[diff] [blame]	3098	mutex_unlock(&task->perf_event_mutex);
				3099
				3100	if (unlikely(err)) {
Peter Zijlstra	9137fb2	2011-04-09 21:17:41 +0200	[diff] [blame]	3101	put_ctx(ctx);
Oleg Nesterov	dbe08d8	2011-01-19 19:22:07 +0100	[diff] [blame]	3102
				3103	if (err == -EAGAIN)
				3104	goto retry;
				3105	goto errout;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3106	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3107	}
				3108
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3109	return ctx;
				3110
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	3111	errout:
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3112	return ERR_PTR(err);
				3113	}
				3114
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	3115	static void perf_event_free_filter(struct perf_event *event);
				3116
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3117	static void free_event_rcu(struct rcu_head *head)
				3118	{
				3119	struct perf_event *event;
				3120
				3121	event = container_of(head, struct perf_event, rcu_head);
				3122	if (event->ns)
				3123	put_pid_ns(event->ns);
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	3124	perf_event_free_filter(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3125	kfree(event);
				3126	}
				3127
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	3128	static void ring_buffer_put(struct ring_buffer *rb);
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	3129	static void ring_buffer_detach(struct perf_event event, struct ring_buffer rb);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3130
				3131	static void free_event(struct perf_event *event)
				3132	{
Peter Zijlstra	e360adb	2010-10-14 14:01:34 +0800	[diff] [blame]	3133	irq_work_sync(&event->pending);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3134
				3135	if (!event->parent) {
Peter Zijlstra	82cd6de	2010-10-14 17:57:23 +0200	[diff] [blame]	3136	if (event->attach_state & PERF_ATTACH_TASK)
Ingo Molnar	c5905af	2012-02-24 08:31:31 +0100	[diff] [blame]	3137	static_key_slow_dec_deferred(&perf_sched_events);
Eric B Munson	3af9e85	2010-05-18 15:30:49 +0100	[diff] [blame]	3138	if (event->attr.mmap \|\| event->attr.mmap_data)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3139	atomic_dec(&nr_mmap_events);
				3140	if (event->attr.comm)
				3141	atomic_dec(&nr_comm_events);
				3142	if (event->attr.task)
				3143	atomic_dec(&nr_task_events);
Frederic Weisbecker	927c7a9	2010-07-01 16:20:36 +0200	[diff] [blame]	3144	if (event->attr.sample_type & PERF_SAMPLE_CALLCHAIN)
				3145	put_callchain_buffers();
Peter Zijlstra	0830937	2011-03-03 11:31:20 +0100	[diff] [blame]	3146	if (is_cgroup_event(event)) {
				3147	atomic_dec(&per_cpu(perf_cgroup_events, event->cpu));
Ingo Molnar	c5905af	2012-02-24 08:31:31 +0100	[diff] [blame]	3148	static_key_slow_dec_deferred(&perf_sched_events);
Peter Zijlstra	0830937	2011-03-03 11:31:20 +0100	[diff] [blame]	3149	}
Stephane Eranian	d010b33	2012-02-09 23:21:00 +0100	[diff] [blame]	3150
				3151	if (has_branch_stack(event)) {
				3152	static_key_slow_dec_deferred(&perf_sched_events);
				3153	/* is system-wide event */
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	3154	if (!(event->attach_state & PERF_ATTACH_TASK)) {
Stephane Eranian	d010b33	2012-02-09 23:21:00 +0100	[diff] [blame]	3155	atomic_dec(&per_cpu(perf_branch_stack_events,
				3156	event->cpu));
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	3157	}
Stephane Eranian	d010b33	2012-02-09 23:21:00 +0100	[diff] [blame]	3158	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3159	}
				3160
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	3161	if (event->rb) {
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	3162	struct ring_buffer *rb;
				3163
				3164	/*
				3165	* Can happen when we close an event with re-directed output.
				3166	*
				3167	* Since we have a 0 refcount, perf_mmap_close() will skip
				3168	* over us; possibly making our ring_buffer_put() the last.
				3169	*/
				3170	mutex_lock(&event->mmap_mutex);
				3171	rb = event->rb;
				3172	if (rb) {
				3173	rcu_assign_pointer(event->rb, NULL);
				3174	ring_buffer_detach(event, rb);
				3175	ring_buffer_put(rb); /* could be last */
				3176	}
				3177	mutex_unlock(&event->mmap_mutex);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3178	}
				3179
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	3180	if (is_cgroup_event(event))
				3181	perf_detach_cgroup(event);
				3182
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3183	if (event->destroy)
				3184	event->destroy(event);
				3185
Peter Zijlstra	0c67b40	2010-09-13 11:15:58 +0200	[diff] [blame]	3186	if (event->ctx)
				3187	put_ctx(event->ctx);
				3188
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3189	call_rcu(&event->rcu_head, free_event_rcu);
				3190	}
				3191
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	3192	int perf_event_release_kernel(struct perf_event *event)
				3193	{
				3194	struct perf_event_context *ctx = event->ctx;
				3195
				3196	WARN_ON_ONCE(ctx->parent_ctx);
Peter Zijlstra	a0507c8	2010-05-06 15:42:53 +0200	[diff] [blame]	3197	/*
				3198	* There are two ways this annotation is useful:
				3199	*
				3200	* 1) there is a lock recursion from perf_event_exit_task
				3201	* see the comment there.
				3202	*
				3203	* 2) there is a lock-inversion with mmap_sem through
				3204	* perf_event_read_group(), which takes faults while
				3205	* holding ctx->mutex, however this is called after
				3206	* the last filedesc died, so there is no possibility
				3207	* to trigger the AB-BA case.
				3208	*/
				3209	mutex_lock_nested(&ctx->mutex, SINGLE_DEPTH_NESTING);
Peter Zijlstra	050735b	2010-05-11 11:51:53 +0200	[diff] [blame]	3210	raw_spin_lock_irq(&ctx->lock);
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	3211	perf_group_detach(event);
Peter Zijlstra	050735b	2010-05-11 11:51:53 +0200	[diff] [blame]	3212	raw_spin_unlock_irq(&ctx->lock);
Peter Zijlstra	e03a9a5	2011-04-09 21:17:47 +0200	[diff] [blame]	3213	perf_remove_from_context(event);
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	3214	mutex_unlock(&ctx->mutex);
				3215
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	3216	free_event(event);
				3217
				3218	return 0;
				3219	}
				3220	EXPORT_SYMBOL_GPL(perf_event_release_kernel);
				3221
Peter Zijlstra	a66a305	2009-11-23 11:37:23 +0100	[diff] [blame]	3222	/*
				3223	* Called when the last reference to the file is gone.
				3224	*/
Al Viro	a6fa941	2012-08-20 14:59:25 +0100	[diff] [blame]	3225	static void put_event(struct perf_event *event)
Peter Zijlstra	a66a305	2009-11-23 11:37:23 +0100	[diff] [blame]	3226	{
Peter Zijlstra	8882135	2010-11-09 19:01:43 +0100	[diff] [blame]	3227	struct task_struct *owner;
Peter Zijlstra	a66a305	2009-11-23 11:37:23 +0100	[diff] [blame]	3228
Al Viro	a6fa941	2012-08-20 14:59:25 +0100	[diff] [blame]	3229	if (!atomic_long_dec_and_test(&event->refcount))
				3230	return;
Peter Zijlstra	a66a305	2009-11-23 11:37:23 +0100	[diff] [blame]	3231
Peter Zijlstra	8882135	2010-11-09 19:01:43 +0100	[diff] [blame]	3232	rcu_read_lock();
				3233	owner = ACCESS_ONCE(event->owner);
				3234	/*
				3235	* Matches the smp_wmb() in perf_event_exit_task(). If we observe
				3236	* !owner it means the list deletion is complete and we can indeed
				3237	* free this event, otherwise we need to serialize on
				3238	* owner->perf_event_mutex.
				3239	*/
				3240	smp_read_barrier_depends();
				3241	if (owner) {
				3242	/*
				3243	* Since delayed_put_task_struct() also drops the last
				3244	* task reference we can safely take a new reference
				3245	* while holding the rcu_read_lock().
				3246	*/
				3247	get_task_struct(owner);
				3248	}
				3249	rcu_read_unlock();
				3250
				3251	if (owner) {
				3252	mutex_lock(&owner->perf_event_mutex);
				3253	/*
				3254	* We have to re-check the event->owner field, if it is cleared
				3255	* we raced with perf_event_exit_task(), acquiring the mutex
				3256	* ensured they're done, and we can proceed with freeing the
				3257	* event.
				3258	*/
				3259	if (event->owner)
				3260	list_del_init(&event->owner_entry);
				3261	mutex_unlock(&owner->perf_event_mutex);
				3262	put_task_struct(owner);
				3263	}
				3264
Al Viro	a6fa941	2012-08-20 14:59:25 +0100	[diff] [blame]	3265	perf_event_release_kernel(event);
				3266	}
				3267
				3268	static int perf_release(struct inode inode, struct file file)
				3269	{
				3270	put_event(file->private_data);
				3271	return 0;
Peter Zijlstra	a66a305	2009-11-23 11:37:23 +0100	[diff] [blame]	3272	}
				3273
Peter Zijlstra	59ed446	2009-11-20 22:19:55 +0100	[diff] [blame]	3274	u64 perf_event_read_value(struct perf_event event, u64 enabled, u64 *running)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3275	{
				3276	struct perf_event *child;
				3277	u64 total = 0;
				3278
Peter Zijlstra	59ed446	2009-11-20 22:19:55 +0100	[diff] [blame]	3279	*enabled = 0;
				3280	*running = 0;
				3281
Peter Zijlstra	6f10581	2009-11-20 22:19:56 +0100	[diff] [blame]	3282	mutex_lock(&event->child_mutex);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3283	total += perf_event_read(event);
Peter Zijlstra	59ed446	2009-11-20 22:19:55 +0100	[diff] [blame]	3284	*enabled += event->total_time_enabled +
				3285	atomic64_read(&event->child_total_time_enabled);
				3286	*running += event->total_time_running +
				3287	atomic64_read(&event->child_total_time_running);
				3288
				3289	list_for_each_entry(child, &event->child_list, child_list) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3290	total += perf_event_read(child);
Peter Zijlstra	59ed446	2009-11-20 22:19:55 +0100	[diff] [blame]	3291	*enabled += child->total_time_enabled;
				3292	*running += child->total_time_running;
				3293	}
Peter Zijlstra	6f10581	2009-11-20 22:19:56 +0100	[diff] [blame]	3294	mutex_unlock(&event->child_mutex);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3295
				3296	return total;
				3297	}
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	3298	EXPORT_SYMBOL_GPL(perf_event_read_value);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3299
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3300	static int perf_event_read_group(struct perf_event *event,
				3301	u64 read_format, char __user *buf)
				3302	{
				3303	struct perf_event leader = event->group_leader, sub;
Peter Zijlstra	6f10581	2009-11-20 22:19:56 +0100	[diff] [blame]	3304	int n = 0, size = 0, ret = -EFAULT;
				3305	struct perf_event_context *ctx = leader->ctx;
Peter Zijlstra	abf4868	2009-11-20 22:19:49 +0100	[diff] [blame]	3306	u64 values[5];
Peter Zijlstra	59ed446	2009-11-20 22:19:55 +0100	[diff] [blame]	3307	u64 count, enabled, running;
Peter Zijlstra	abf4868	2009-11-20 22:19:49 +0100	[diff] [blame]	3308
Peter Zijlstra	6f10581	2009-11-20 22:19:56 +0100	[diff] [blame]	3309	mutex_lock(&ctx->mutex);
Peter Zijlstra	59ed446	2009-11-20 22:19:55 +0100	[diff] [blame]	3310	count = perf_event_read_value(leader, &enabled, &running);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3311
				3312	values[n++] = 1 + leader->nr_siblings;
Peter Zijlstra	59ed446	2009-11-20 22:19:55 +0100	[diff] [blame]	3313	if (read_format & PERF_FORMAT_TOTAL_TIME_ENABLED)
				3314	values[n++] = enabled;
				3315	if (read_format & PERF_FORMAT_TOTAL_TIME_RUNNING)
				3316	values[n++] = running;
Peter Zijlstra	abf4868	2009-11-20 22:19:49 +0100	[diff] [blame]	3317	values[n++] = count;
				3318	if (read_format & PERF_FORMAT_ID)
				3319	values[n++] = primary_event_id(leader);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3320
				3321	size = n * sizeof(u64);
				3322
				3323	if (copy_to_user(buf, values, size))
Peter Zijlstra	6f10581	2009-11-20 22:19:56 +0100	[diff] [blame]	3324	goto unlock;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3325
Peter Zijlstra	6f10581	2009-11-20 22:19:56 +0100	[diff] [blame]	3326	ret = size;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3327
				3328	list_for_each_entry(sub, &leader->sibling_list, group_entry) {
Peter Zijlstra	abf4868	2009-11-20 22:19:49 +0100	[diff] [blame]	3329	n = 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3330
Peter Zijlstra	59ed446	2009-11-20 22:19:55 +0100	[diff] [blame]	3331	values[n++] = perf_event_read_value(sub, &enabled, &running);
Peter Zijlstra	abf4868	2009-11-20 22:19:49 +0100	[diff] [blame]	3332	if (read_format & PERF_FORMAT_ID)
				3333	values[n++] = primary_event_id(sub);
				3334
				3335	size = n * sizeof(u64);
				3336
Stephane Eranian	184d3da	2009-11-23 21:40:49 -0800	[diff] [blame]	3337	if (copy_to_user(buf + ret, values, size)) {
Peter Zijlstra	6f10581	2009-11-20 22:19:56 +0100	[diff] [blame]	3338	ret = -EFAULT;
				3339	goto unlock;
				3340	}
Peter Zijlstra	abf4868	2009-11-20 22:19:49 +0100	[diff] [blame]	3341
				3342	ret += size;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3343	}
Peter Zijlstra	6f10581	2009-11-20 22:19:56 +0100	[diff] [blame]	3344	unlock:
				3345	mutex_unlock(&ctx->mutex);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3346
Peter Zijlstra	abf4868	2009-11-20 22:19:49 +0100	[diff] [blame]	3347	return ret;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3348	}
				3349
				3350	static int perf_event_read_one(struct perf_event *event,
				3351	u64 read_format, char __user *buf)
				3352	{
Peter Zijlstra	59ed446	2009-11-20 22:19:55 +0100	[diff] [blame]	3353	u64 enabled, running;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3354	u64 values[4];
				3355	int n = 0;
				3356
Peter Zijlstra	59ed446	2009-11-20 22:19:55 +0100	[diff] [blame]	3357	values[n++] = perf_event_read_value(event, &enabled, &running);
				3358	if (read_format & PERF_FORMAT_TOTAL_TIME_ENABLED)
				3359	values[n++] = enabled;
				3360	if (read_format & PERF_FORMAT_TOTAL_TIME_RUNNING)
				3361	values[n++] = running;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3362	if (read_format & PERF_FORMAT_ID)
				3363	values[n++] = primary_event_id(event);
				3364
				3365	if (copy_to_user(buf, values, n * sizeof(u64)))
				3366	return -EFAULT;
				3367
				3368	return n * sizeof(u64);
				3369	}
				3370
				3371	/*
				3372	* Read the performance event - simple non blocking version for now
				3373	*/
				3374	static ssize_t
				3375	perf_read_hw(struct perf_event event, char __user buf, size_t count)
				3376	{
				3377	u64 read_format = event->attr.read_format;
				3378	int ret;
				3379
				3380	/*
				3381	* Return end-of-file for a read on a event that is in
				3382	* error state (i.e. because it was pinned but it couldn't be
				3383	* scheduled on to the CPU at some point).
				3384	*/
				3385	if (event->state == PERF_EVENT_STATE_ERROR)
				3386	return 0;
				3387
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	3388	if (count < event->read_size)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3389	return -ENOSPC;
				3390
				3391	WARN_ON_ONCE(event->ctx->parent_ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3392	if (read_format & PERF_FORMAT_GROUP)
				3393	ret = perf_event_read_group(event, read_format, buf);
				3394	else
				3395	ret = perf_event_read_one(event, read_format, buf);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3396
				3397	return ret;
				3398	}
				3399
				3400	static ssize_t
				3401	perf_read(struct file file, char __user buf, size_t count, loff_t *ppos)
				3402	{
				3403	struct perf_event *event = file->private_data;
				3404
				3405	return perf_read_hw(event, buf, count);
				3406	}
				3407
				3408	static unsigned int perf_poll(struct file file, poll_table wait)
				3409	{
				3410	struct perf_event *event = file->private_data;
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	3411	struct ring_buffer *rb;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3412	unsigned int events = POLL_HUP;
				3413
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	3414	/*
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	3415	* Pin the event->rb by taking event->mmap_mutex; otherwise
				3416	* perf_event_set_output() can swizzle our rb and make us miss wakeups.
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	3417	*/
				3418	mutex_lock(&event->mmap_mutex);
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	3419	rb = event->rb;
				3420	if (rb)
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	3421	events = atomic_xchg(&rb->poll, 0);
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	3422	mutex_unlock(&event->mmap_mutex);
				3423
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3424	poll_wait(file, &event->waitq, wait);
				3425
				3426	return events;
				3427	}
				3428
				3429	static void perf_event_reset(struct perf_event *event)
				3430	{
				3431	(void)perf_event_read(event);
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	3432	local64_set(&event->count, 0);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3433	perf_event_update_userpage(event);
				3434	}
				3435
				3436	/*
				3437	* Holding the top-level event's child_mutex means that any
				3438	* descendant process that has inherited this event will block
				3439	* in sync_child_event if it goes to exit, thus satisfying the
				3440	* task existence requirements of perf_event_enable/disable.
				3441	*/
				3442	static void perf_event_for_each_child(struct perf_event *event,
				3443	void (func)(struct perf_event ))
				3444	{
				3445	struct perf_event *child;
				3446
				3447	WARN_ON_ONCE(event->ctx->parent_ctx);
				3448	mutex_lock(&event->child_mutex);
				3449	func(event);
				3450	list_for_each_entry(child, &event->child_list, child_list)
				3451	func(child);
				3452	mutex_unlock(&event->child_mutex);
				3453	}
				3454
				3455	static void perf_event_for_each(struct perf_event *event,
				3456	void (func)(struct perf_event ))
				3457	{
				3458	struct perf_event_context *ctx = event->ctx;
				3459	struct perf_event *sibling;
				3460
				3461	WARN_ON_ONCE(ctx->parent_ctx);
				3462	mutex_lock(&ctx->mutex);
				3463	event = event->group_leader;
				3464
				3465	perf_event_for_each_child(event, func);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3466	list_for_each_entry(sibling, &event->sibling_list, group_entry)
Michael Ellerman	724b6da	2012-04-11 11:54:13 +1000	[diff] [blame]	3467	perf_event_for_each_child(sibling, func);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3468	mutex_unlock(&ctx->mutex);
				3469	}
				3470
				3471	static int perf_event_period(struct perf_event event, u64 __user arg)
				3472	{
				3473	struct perf_event_context *ctx = event->ctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3474	int ret = 0;
				3475	u64 value;
				3476
Franck Bui-Huu	6c7e550	2010-11-23 16:21:43 +0100	[diff] [blame]	3477	if (!is_sampling_event(event))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3478	return -EINVAL;
				3479
John Blackwood	ad0cf34	2010-09-28 18:03:11 -0400	[diff] [blame]	3480	if (copy_from_user(&value, arg, sizeof(value)))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3481	return -EFAULT;
				3482
				3483	if (!value)
				3484	return -EINVAL;
				3485
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	3486	raw_spin_lock_irq(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3487	if (event->attr.freq) {
				3488	if (value > sysctl_perf_event_sample_rate) {
				3489	ret = -EINVAL;
				3490	goto unlock;
				3491	}
				3492
				3493	event->attr.sample_freq = value;
				3494	} else {
				3495	event->attr.sample_period = value;
				3496	event->hw.sample_period = value;
				3497	}
				3498	unlock:
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	3499	raw_spin_unlock_irq(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3500
				3501	return ret;
				3502	}
				3503
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	3504	static const struct file_operations perf_fops;
				3505
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	3506	static inline int perf_fget_light(int fd, struct fd *p)
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	3507	{
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	3508	struct fd f = fdget(fd);
				3509	if (!f.file)
				3510	return -EBADF;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	3511
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	3512	if (f.file->f_op != &perf_fops) {
				3513	fdput(f);
				3514	return -EBADF;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	3515	}
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	3516	*p = f;
				3517	return 0;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	3518	}
				3519
				3520	static int perf_event_set_output(struct perf_event *event,
				3521	struct perf_event *output_event);
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	3522	static int perf_event_set_filter(struct perf_event event, void __user arg);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3523
				3524	static long perf_ioctl(struct file *file, unsigned int cmd, unsigned long arg)
				3525	{
				3526	struct perf_event *event = file->private_data;
				3527	void (func)(struct perf_event );
				3528	u32 flags = arg;
				3529
				3530	switch (cmd) {
				3531	case PERF_EVENT_IOC_ENABLE:
				3532	func = perf_event_enable;
				3533	break;
				3534	case PERF_EVENT_IOC_DISABLE:
				3535	func = perf_event_disable;
				3536	break;
				3537	case PERF_EVENT_IOC_RESET:
				3538	func = perf_event_reset;
				3539	break;
				3540
				3541	case PERF_EVENT_IOC_REFRESH:
				3542	return perf_event_refresh(event, arg);
				3543
				3544	case PERF_EVENT_IOC_PERIOD:
				3545	return perf_event_period(event, (u64 __user *)arg);
				3546
				3547	case PERF_EVENT_IOC_SET_OUTPUT:
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	3548	{
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	3549	int ret;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	3550	if (arg != -1) {
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	3551	struct perf_event *output_event;
				3552	struct fd output;
				3553	ret = perf_fget_light(arg, &output);
				3554	if (ret)
				3555	return ret;
				3556	output_event = output.file->private_data;
				3557	ret = perf_event_set_output(event, output_event);
				3558	fdput(output);
				3559	} else {
				3560	ret = perf_event_set_output(event, NULL);
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	3561	}
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	3562	return ret;
				3563	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3564
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	3565	case PERF_EVENT_IOC_SET_FILTER:
				3566	return perf_event_set_filter(event, (void __user *)arg);
				3567
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3568	default:
				3569	return -ENOTTY;
				3570	}
				3571
				3572	if (flags & PERF_IOC_FLAG_GROUP)
				3573	perf_event_for_each(event, func);
				3574	else
				3575	perf_event_for_each_child(event, func);
				3576
				3577	return 0;
				3578	}
				3579
				3580	int perf_event_task_enable(void)
				3581	{
				3582	struct perf_event *event;
				3583
				3584	mutex_lock(&current->perf_event_mutex);
				3585	list_for_each_entry(event, &current->perf_event_list, owner_entry)
				3586	perf_event_for_each_child(event, perf_event_enable);
				3587	mutex_unlock(&current->perf_event_mutex);
				3588
				3589	return 0;
				3590	}
				3591
				3592	int perf_event_task_disable(void)
				3593	{
				3594	struct perf_event *event;
				3595
				3596	mutex_lock(&current->perf_event_mutex);
				3597	list_for_each_entry(event, &current->perf_event_list, owner_entry)
				3598	perf_event_for_each_child(event, perf_event_disable);
				3599	mutex_unlock(&current->perf_event_mutex);
				3600
				3601	return 0;
				3602	}
				3603
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3604	static int perf_event_index(struct perf_event *event)
				3605	{
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	3606	if (event->hw.state & PERF_HES_STOPPED)
				3607	return 0;
				3608
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3609	if (event->state != PERF_EVENT_STATE_ACTIVE)
				3610	return 0;
				3611
Peter Zijlstra	35edc2a	2011-11-20 20:36:02 +0100	[diff] [blame]	3612	return event->pmu->event_idx(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3613	}
				3614
Eric B Munson	c479429	2011-06-23 16:34:38 -0400	[diff] [blame]	3615	static void calc_timer_values(struct perf_event *event,
Peter Zijlstra	e3f3541	2011-11-21 11:43:53 +0100	[diff] [blame]	3616	u64 *now,
Eric B Munson	7f310a5	2011-06-23 16:34:38 -0400	[diff] [blame]	3617	u64 *enabled,
				3618	u64 *running)
Eric B Munson	c479429	2011-06-23 16:34:38 -0400	[diff] [blame]	3619	{
Peter Zijlstra	e3f3541	2011-11-21 11:43:53 +0100	[diff] [blame]	3620	u64 ctx_time;
Eric B Munson	c479429	2011-06-23 16:34:38 -0400	[diff] [blame]	3621
Peter Zijlstra	e3f3541	2011-11-21 11:43:53 +0100	[diff] [blame]	3622	*now = perf_clock();
				3623	ctx_time = event->shadow_ctx_time + *now;
Eric B Munson	c479429	2011-06-23 16:34:38 -0400	[diff] [blame]	3624	*enabled = ctx_time - event->tstamp_enabled;
				3625	*running = ctx_time - event->tstamp_running;
				3626	}
				3627
Peter Zijlstra	c720620	2012-03-22 17:26:36 +0100	[diff] [blame]	3628	void __weak arch_perf_update_userpage(struct perf_event_mmap_page *userpg, u64 now)
Peter Zijlstra	e3f3541	2011-11-21 11:43:53 +0100	[diff] [blame]	3629	{
				3630	}
				3631
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3632	/*
				3633	* Callers need to ensure there can be no nesting of this function, otherwise
				3634	* the seqlock logic goes bad. We can not serialize this because the arch
				3635	* code calls this from NMI context.
				3636	*/
				3637	void perf_event_update_userpage(struct perf_event *event)
				3638	{
				3639	struct perf_event_mmap_page *userpg;
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	3640	struct ring_buffer *rb;
Peter Zijlstra	e3f3541	2011-11-21 11:43:53 +0100	[diff] [blame]	3641	u64 enabled, running, now;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3642
				3643	rcu_read_lock();
Eric B Munson	0d64120	2011-06-24 12:26:26 -0400	[diff] [blame]	3644	/*
				3645	* compute total_time_enabled, total_time_running
				3646	* based on snapshot values taken when the event
				3647	* was last scheduled in.
				3648	*
				3649	* we cannot simply called update_context_time()
				3650	* because of locking issue as we can be called in
				3651	* NMI context
				3652	*/
Peter Zijlstra	e3f3541	2011-11-21 11:43:53 +0100	[diff] [blame]	3653	calc_timer_values(event, &now, &enabled, &running);
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	3654	rb = rcu_dereference(event->rb);
				3655	if (!rb)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3656	goto unlock;
				3657
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	3658	userpg = rb->user_page;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3659
				3660	/*
				3661	* Disable preemption so as to not let the corresponding user-space
				3662	* spin too long if we get preempted.
				3663	*/
				3664	preempt_disable();
				3665	++userpg->lock;
				3666	barrier();
				3667	userpg->index = perf_event_index(event);
Peter Zijlstra	b5e5879	2010-05-21 14:43:12 +0200	[diff] [blame]	3668	userpg->offset = perf_event_count(event);
Peter Zijlstra	365a403	2011-11-21 20:58:59 +0100	[diff] [blame]	3669	if (userpg->index)
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	3670	userpg->offset -= local64_read(&event->hw.prev_count);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3671
Eric B Munson	0d64120	2011-06-24 12:26:26 -0400	[diff] [blame]	3672	userpg->time_enabled = enabled +
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3673	atomic64_read(&event->child_total_time_enabled);
				3674
Eric B Munson	0d64120	2011-06-24 12:26:26 -0400	[diff] [blame]	3675	userpg->time_running = running +
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3676	atomic64_read(&event->child_total_time_running);
				3677
Peter Zijlstra	c720620	2012-03-22 17:26:36 +0100	[diff] [blame]	3678	arch_perf_update_userpage(userpg, now);
Peter Zijlstra	e3f3541	2011-11-21 11:43:53 +0100	[diff] [blame]	3679
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3680	barrier();
				3681	++userpg->lock;
				3682	preempt_enable();
				3683	unlock:
				3684	rcu_read_unlock();
				3685	}
				3686
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	3687	static int perf_mmap_fault(struct vm_area_struct vma, struct vm_fault vmf)
				3688	{
				3689	struct perf_event *event = vma->vm_file->private_data;
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	3690	struct ring_buffer *rb;
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	3691	int ret = VM_FAULT_SIGBUS;
				3692
				3693	if (vmf->flags & FAULT_FLAG_MKWRITE) {
				3694	if (vmf->pgoff == 0)
				3695	ret = 0;
				3696	return ret;
				3697	}
				3698
				3699	rcu_read_lock();
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	3700	rb = rcu_dereference(event->rb);
				3701	if (!rb)
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	3702	goto unlock;
				3703
				3704	if (vmf->pgoff && (vmf->flags & FAULT_FLAG_WRITE))
				3705	goto unlock;
				3706
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	3707	vmf->page = perf_mmap_to_page(rb, vmf->pgoff);
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	3708	if (!vmf->page)
				3709	goto unlock;
				3710
				3711	get_page(vmf->page);
				3712	vmf->page->mapping = vma->vm_file->f_mapping;
				3713	vmf->page->index = vmf->pgoff;
				3714
				3715	ret = 0;
				3716	unlock:
				3717	rcu_read_unlock();
				3718
				3719	return ret;
				3720	}
				3721
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	3722	static void ring_buffer_attach(struct perf_event *event,
				3723	struct ring_buffer *rb)
				3724	{
				3725	unsigned long flags;
				3726
				3727	if (!list_empty(&event->rb_entry))
				3728	return;
				3729
				3730	spin_lock_irqsave(&rb->event_lock, flags);
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	3731	if (list_empty(&event->rb_entry))
				3732	list_add(&event->rb_entry, &rb->event_list);
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	3733	spin_unlock_irqrestore(&rb->event_lock, flags);
				3734	}
				3735
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	3736	static void ring_buffer_detach(struct perf_event event, struct ring_buffer rb)
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	3737	{
				3738	unsigned long flags;
				3739
				3740	if (list_empty(&event->rb_entry))
				3741	return;
				3742
				3743	spin_lock_irqsave(&rb->event_lock, flags);
				3744	list_del_init(&event->rb_entry);
				3745	wake_up_all(&event->waitq);
				3746	spin_unlock_irqrestore(&rb->event_lock, flags);
				3747	}
				3748
				3749	static void ring_buffer_wakeup(struct perf_event *event)
				3750	{
				3751	struct ring_buffer *rb;
				3752
				3753	rcu_read_lock();
				3754	rb = rcu_dereference(event->rb);
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	3755	if (rb) {
				3756	list_for_each_entry_rcu(event, &rb->event_list, rb_entry)
				3757	wake_up_all(&event->waitq);
				3758	}
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	3759	rcu_read_unlock();
				3760	}
				3761
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	3762	static void rb_free_rcu(struct rcu_head *rcu_head)
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	3763	{
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	3764	struct ring_buffer *rb;
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	3765
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	3766	rb = container_of(rcu_head, struct ring_buffer, rcu_head);
				3767	rb_free(rb);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3768	}
				3769
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	3770	static struct ring_buffer ring_buffer_get(struct perf_event event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3771	{
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	3772	struct ring_buffer *rb;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3773
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	3774	rcu_read_lock();
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	3775	rb = rcu_dereference(event->rb);
				3776	if (rb) {
				3777	if (!atomic_inc_not_zero(&rb->refcount))
				3778	rb = NULL;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	3779	}
				3780	rcu_read_unlock();
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3781
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	3782	return rb;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	3783	}
				3784
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	3785	static void ring_buffer_put(struct ring_buffer *rb)
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	3786	{
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	3787	if (!atomic_dec_and_test(&rb->refcount))
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	3788	return;
				3789
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	3790	WARN_ON_ONCE(!list_empty(&rb->event_list));
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	3791
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	3792	call_rcu(&rb->rcu_head, rb_free_rcu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3793	}
				3794
				3795	static void perf_mmap_open(struct vm_area_struct *vma)
				3796	{
				3797	struct perf_event *event = vma->vm_file->private_data;
				3798
				3799	atomic_inc(&event->mmap_count);
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	3800	atomic_inc(&event->rb->mmap_count);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3801	}
				3802
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	3803	/*
				3804	* A buffer can be mmap()ed multiple times; either directly through the same
				3805	* event, or through other events by use of perf_event_set_output().
				3806	*
				3807	* In order to undo the VM accounting done by perf_mmap() we need to destroy
				3808	* the buffer here, where we still have a VM context. This means we need
				3809	* to detach all events redirecting to us.
				3810	*/
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3811	static void perf_mmap_close(struct vm_area_struct *vma)
				3812	{
				3813	struct perf_event *event = vma->vm_file->private_data;
				3814
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	3815	struct ring_buffer *rb = event->rb;
				3816	struct user_struct *mmap_user = rb->mmap_user;
				3817	int mmap_locked = rb->mmap_locked;
				3818	unsigned long size = perf_data_size(rb);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3819
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	3820	atomic_dec(&rb->mmap_count);
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	3821
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	3822	if (!atomic_dec_and_mutex_lock(&event->mmap_count, &event->mmap_mutex))
				3823	return;
				3824
				3825	/* Detach current event from the buffer. */
				3826	rcu_assign_pointer(event->rb, NULL);
				3827	ring_buffer_detach(event, rb);
				3828	mutex_unlock(&event->mmap_mutex);
				3829
				3830	/* If there's still other mmap()s of this buffer, we're done. */
				3831	if (atomic_read(&rb->mmap_count)) {
				3832	ring_buffer_put(rb); /* can't be last */
				3833	return;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3834	}
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	3835
				3836	/*
				3837	* No other mmap()s, detach from all other events that might redirect
				3838	* into the now unreachable buffer. Somewhat complicated by the
				3839	* fact that rb::event_lock otherwise nests inside mmap_mutex.
				3840	*/
				3841	again:
				3842	rcu_read_lock();
				3843	list_for_each_entry_rcu(event, &rb->event_list, rb_entry) {
				3844	if (!atomic_long_inc_not_zero(&event->refcount)) {
				3845	/*
				3846	* This event is en-route to free_event() which will
				3847	* detach it and remove it from the list.
				3848	*/
				3849	continue;
				3850	}
				3851	rcu_read_unlock();
				3852
				3853	mutex_lock(&event->mmap_mutex);
				3854	/*
				3855	* Check we didn't race with perf_event_set_output() which can
				3856	* swizzle the rb from under us while we were waiting to
				3857	* acquire mmap_mutex.
				3858	*
				3859	* If we find a different rb; ignore this event, a next
				3860	* iteration will no longer find it on the list. We have to
				3861	* still restart the iteration to make sure we're not now
				3862	* iterating the wrong list.
				3863	*/
				3864	if (event->rb == rb) {
				3865	rcu_assign_pointer(event->rb, NULL);
				3866	ring_buffer_detach(event, rb);
				3867	ring_buffer_put(rb); /* can't be last, we still have one */
				3868	}
				3869	mutex_unlock(&event->mmap_mutex);
				3870	put_event(event);
				3871
				3872	/*
				3873	* Restart the iteration; either we're on the wrong list or
				3874	* destroyed its integrity by doing a deletion.
				3875	*/
				3876	goto again;
				3877	}
				3878	rcu_read_unlock();
				3879
				3880	/*
				3881	* It could be there's still a few 0-ref events on the list; they'll
				3882	* get cleaned up by free_event() -- they'll also still have their
				3883	* ref on the rb and will free it whenever they are done with it.
				3884	*
				3885	* Aside from that, this buffer is 'fully' detached and unmapped,
				3886	* undo the VM accounting.
				3887	*/
				3888
				3889	atomic_long_sub((size >> PAGE_SHIFT) + 1, &mmap_user->locked_vm);
				3890	vma->vm_mm->pinned_vm -= mmap_locked;
				3891	free_uid(mmap_user);
				3892
				3893	ring_buffer_put(rb); /* could be last */
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3894	}
				3895
Alexey Dobriyan	f0f37e2f	2009-09-27 22:29:37 +0400	[diff] [blame]	3896	static const struct vm_operations_struct perf_mmap_vmops = {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3897	.open = perf_mmap_open,
				3898	.close = perf_mmap_close,
				3899	.fault = perf_mmap_fault,
				3900	.page_mkwrite = perf_mmap_fault,
				3901	};
				3902
				3903	static int perf_mmap(struct file file, struct vm_area_struct vma)
				3904	{
				3905	struct perf_event *event = file->private_data;
				3906	unsigned long user_locked, user_lock_limit;
				3907	struct user_struct *user = current_user();
				3908	unsigned long locked, lock_limit;
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	3909	struct ring_buffer *rb;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3910	unsigned long vma_size;
				3911	unsigned long nr_pages;
				3912	long user_extra, extra;
Peter Zijlstra	d57e34f	2010-05-28 19:41:35 +0200	[diff] [blame]	3913	int ret = 0, flags = 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3914
Peter Zijlstra	c792061	2010-05-18 10:33:24 +0200	[diff] [blame]	3915	/*
				3916	* Don't allow mmap() of inherited per-task counters. This would
				3917	* create a performance issue due to all children writing to the
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	3918	* same rb.
Peter Zijlstra	c792061	2010-05-18 10:33:24 +0200	[diff] [blame]	3919	*/
				3920	if (event->cpu == -1 && event->attr.inherit)
				3921	return -EINVAL;
				3922
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3923	if (!(vma->vm_flags & VM_SHARED))
				3924	return -EINVAL;
				3925
				3926	vma_size = vma->vm_end - vma->vm_start;
				3927	nr_pages = (vma_size / PAGE_SIZE) - 1;
				3928
				3929	/*
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	3930	* If we have rb pages ensure they're a power-of-two number, so we
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3931	* can do bitmasks instead of modulo.
				3932	*/
				3933	if (nr_pages != 0 && !is_power_of_2(nr_pages))
				3934	return -EINVAL;
				3935
				3936	if (vma_size != PAGE_SIZE * (1 + nr_pages))
				3937	return -EINVAL;
				3938
				3939	if (vma->vm_pgoff != 0)
				3940	return -EINVAL;
				3941
				3942	WARN_ON_ONCE(event->ctx->parent_ctx);
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	3943	again:
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3944	mutex_lock(&event->mmap_mutex);
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	3945	if (event->rb) {
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	3946	if (event->rb->nr_pages != nr_pages) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3947	ret = -EINVAL;
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	3948	goto unlock;
				3949	}
				3950
				3951	if (!atomic_inc_not_zero(&event->rb->mmap_count)) {
				3952	/*
				3953	* Raced against perf_mmap_close() through
				3954	* perf_event_set_output(). Try again, hope for better
				3955	* luck.
				3956	*/
				3957	mutex_unlock(&event->mmap_mutex);
				3958	goto again;
				3959	}
				3960
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3961	goto unlock;
				3962	}
				3963
				3964	user_extra = nr_pages + 1;
				3965	user_lock_limit = sysctl_perf_event_mlock >> (PAGE_SHIFT - 10);
				3966
				3967	/*
				3968	* Increase the limit linearly with more CPUs:
				3969	*/
				3970	user_lock_limit *= num_online_cpus();
				3971
				3972	user_locked = atomic_long_read(&user->locked_vm) + user_extra;
				3973
				3974	extra = 0;
				3975	if (user_locked > user_lock_limit)
				3976	extra = user_locked - user_lock_limit;
				3977
Jiri Slaby	78d7d40	2010-03-05 13:42:54 -0800	[diff] [blame]	3978	lock_limit = rlimit(RLIMIT_MEMLOCK);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3979	lock_limit >>= PAGE_SHIFT;
Christoph Lameter	bc3e53f	2011-10-31 17:07:30 -0700	[diff] [blame]	3980	locked = vma->vm_mm->pinned_vm + extra;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3981
				3982	if ((locked > lock_limit) && perf_paranoid_tracepoint_raw() &&
				3983	!capable(CAP_IPC_LOCK)) {
				3984	ret = -EPERM;
				3985	goto unlock;
				3986	}
				3987
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	3988	WARN_ON(event->rb);
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	3989
Peter Zijlstra	d57e34f	2010-05-28 19:41:35 +0200	[diff] [blame]	3990	if (vma->vm_flags & VM_WRITE)
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	3991	flags \|= RING_BUFFER_WRITABLE;
Peter Zijlstra	d57e34f	2010-05-28 19:41:35 +0200	[diff] [blame]	3992
Vince Weaver	4ec8363	2011-06-01 15:15:36 -0400	[diff] [blame]	3993	rb = rb_alloc(nr_pages,
				3994	event->attr.watermark ? event->attr.wakeup_watermark : 0,
				3995	event->cpu, flags);
				3996
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	3997	if (!rb) {
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	3998	ret = -ENOMEM;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3999	goto unlock;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	4000	}
Peter Zijlstra	26cb63a	2013-05-28 10:55:48 +0200	[diff] [blame]	4001
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	4002	atomic_set(&rb->mmap_count, 1);
Peter Zijlstra	26cb63a	2013-05-28 10:55:48 +0200	[diff] [blame]	4003	rb->mmap_locked = extra;
				4004	rb->mmap_user = get_current_user();
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4005
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	4006	atomic_long_add(user_extra, &user->locked_vm);
Peter Zijlstra	26cb63a	2013-05-28 10:55:48 +0200	[diff] [blame]	4007	vma->vm_mm->pinned_vm += extra;
				4008
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	4009	ring_buffer_attach(event, rb);
Peter Zijlstra	26cb63a	2013-05-28 10:55:48 +0200	[diff] [blame]	4010	rcu_assign_pointer(event->rb, rb);
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	4011
Peter Zijlstra	9a0f05c	2011-11-21 15:13:29 +0100	[diff] [blame]	4012	perf_event_update_userpage(event);
				4013
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4014	unlock:
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	4015	if (!ret)
				4016	atomic_inc(&event->mmap_count);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4017	mutex_unlock(&event->mmap_mutex);
				4018
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	4019	/*
				4020	* Since pinned accounting is per vm we cannot allow fork() to copy our
				4021	* vma.
				4022	*/
Peter Zijlstra	26cb63a	2013-05-28 10:55:48 +0200	[diff] [blame]	4023	vma->vm_flags \|= VM_DONTCOPY \| VM_DONTEXPAND \| VM_DONTDUMP;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4024	vma->vm_ops = &perf_mmap_vmops;
				4025
				4026	return ret;
				4027	}
				4028
				4029	static int perf_fasync(int fd, struct file *filp, int on)
				4030	{
Al Viro	496ad9a	2013-01-23 17:07:38 -0500	[diff] [blame]	4031	struct inode *inode = file_inode(filp);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4032	struct perf_event *event = filp->private_data;
				4033	int retval;
				4034
				4035	mutex_lock(&inode->i_mutex);
				4036	retval = fasync_helper(fd, filp, on, &event->fasync);
				4037	mutex_unlock(&inode->i_mutex);
				4038
				4039	if (retval < 0)
				4040	return retval;
				4041
				4042	return 0;
				4043	}
				4044
				4045	static const struct file_operations perf_fops = {
Arnd Bergmann	3326c1c	2010-03-23 19:09:33 +0100	[diff] [blame]	4046	.llseek = no_llseek,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4047	.release = perf_release,
				4048	.read = perf_read,
				4049	.poll = perf_poll,
				4050	.unlocked_ioctl = perf_ioctl,
				4051	.compat_ioctl = perf_ioctl,
				4052	.mmap = perf_mmap,
				4053	.fasync = perf_fasync,
				4054	};
				4055
				4056	/*
				4057	* Perf event wakeup
				4058	*
				4059	* If there's data, ensure we set the poll() state and publish everything
				4060	* to user-space before waking everybody up.
				4061	*/
				4062
				4063	void perf_event_wakeup(struct perf_event *event)
				4064	{
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	4065	ring_buffer_wakeup(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4066
				4067	if (event->pending_kill) {
				4068	kill_fasync(&event->fasync, SIGIO, event->pending_kill);
				4069	event->pending_kill = 0;
				4070	}
				4071	}
				4072
Peter Zijlstra	e360adb	2010-10-14 14:01:34 +0800	[diff] [blame]	4073	static void perf_pending_event(struct irq_work *entry)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4074	{
				4075	struct perf_event *event = container_of(entry,
				4076	struct perf_event, pending);
				4077
				4078	if (event->pending_disable) {
				4079	event->pending_disable = 0;
				4080	__perf_event_disable(event);
				4081	}
				4082
				4083	if (event->pending_wakeup) {
				4084	event->pending_wakeup = 0;
				4085	perf_event_wakeup(event);
				4086	}
				4087	}
				4088
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4089	/*
Zhang, Yanmin	39447b3	2010-04-19 13:32:41 +0800	[diff] [blame]	4090	* We assume there is only KVM supporting the callbacks.
				4091	* Later on, we might change it to a list if there is
				4092	* another virtualization implementation supporting the callbacks.
				4093	*/
				4094	struct perf_guest_info_callbacks *perf_guest_cbs;
				4095
				4096	int perf_register_guest_info_callbacks(struct perf_guest_info_callbacks *cbs)
				4097	{
				4098	perf_guest_cbs = cbs;
				4099	return 0;
				4100	}
				4101	EXPORT_SYMBOL_GPL(perf_register_guest_info_callbacks);
				4102
				4103	int perf_unregister_guest_info_callbacks(struct perf_guest_info_callbacks *cbs)
				4104	{
				4105	perf_guest_cbs = NULL;
				4106	return 0;
				4107	}
				4108	EXPORT_SYMBOL_GPL(perf_unregister_guest_info_callbacks);
				4109
Jiri Olsa	4018994	2012-08-07 15:20:37 +0200	[diff] [blame]	4110	static void
				4111	perf_output_sample_regs(struct perf_output_handle *handle,
				4112	struct pt_regs *regs, u64 mask)
				4113	{
				4114	int bit;
				4115
				4116	for_each_set_bit(bit, (const unsigned long *) &mask,
				4117	sizeof(mask) * BITS_PER_BYTE) {
				4118	u64 val;
				4119
				4120	val = perf_reg_value(regs, bit);
				4121	perf_output_put(handle, val);
				4122	}
				4123	}
				4124
				4125	static void perf_sample_regs_user(struct perf_regs_user *regs_user,
				4126	struct pt_regs *regs)
				4127	{
				4128	if (!user_mode(regs)) {
				4129	if (current->mm)
				4130	regs = task_pt_regs(current);
				4131	else
				4132	regs = NULL;
				4133	}
				4134
				4135	if (regs) {
				4136	regs_user->regs = regs;
				4137	regs_user->abi = perf_reg_abi(current);
				4138	}
				4139	}
				4140
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	4141	/*
				4142	* Get remaining task size from user stack pointer.
				4143	*
				4144	* It'd be better to take stack vma map and limit this more
				4145	* precisly, but there's no way to get it safely under interrupt,
				4146	* so using TASK_SIZE as limit.
				4147	*/
				4148	static u64 perf_ustack_task_size(struct pt_regs *regs)
				4149	{
				4150	unsigned long addr = perf_user_stack_pointer(regs);
				4151
				4152	if (!addr \|\| addr >= TASK_SIZE)
				4153	return 0;
				4154
				4155	return TASK_SIZE - addr;
				4156	}
				4157
				4158	static u16
				4159	perf_sample_ustack_size(u16 stack_size, u16 header_size,
				4160	struct pt_regs *regs)
				4161	{
				4162	u64 task_size;
				4163
				4164	/* No regs, no stack pointer, no dump. */
				4165	if (!regs)
				4166	return 0;
				4167
				4168	/*
				4169	* Check if we fit in with the requested stack size into the:
				4170	* - TASK_SIZE
				4171	* If we don't, we limit the size to the TASK_SIZE.
				4172	*
				4173	* - remaining sample size
				4174	* If we don't, we customize the stack size to
				4175	* fit in to the remaining sample size.
				4176	*/
				4177
				4178	task_size = min((u64) USHRT_MAX, perf_ustack_task_size(regs));
				4179	stack_size = min(stack_size, (u16) task_size);
				4180
				4181	/* Current header size plus static size and dynamic size. */
				4182	header_size += 2 * sizeof(u64);
				4183
				4184	/* Do we fit in with the current stack dump size? */
				4185	if ((u16) (header_size + stack_size) < header_size) {
				4186	/*
				4187	* If we overflow the maximum size for the sample,
				4188	* we customize the stack dump size to fit in.
				4189	*/
				4190	stack_size = USHRT_MAX - header_size - sizeof(u64);
				4191	stack_size = round_up(stack_size, sizeof(u64));
				4192	}
				4193
				4194	return stack_size;
				4195	}
				4196
				4197	static void
				4198	perf_output_sample_ustack(struct perf_output_handle *handle, u64 dump_size,
				4199	struct pt_regs *regs)
				4200	{
				4201	/* Case of a kernel thread, nothing to dump */
				4202	if (!regs) {
				4203	u64 size = 0;
				4204	perf_output_put(handle, size);
				4205	} else {
				4206	unsigned long sp;
				4207	unsigned int rem;
				4208	u64 dyn_size;
				4209
				4210	/*
				4211	* We dump:
				4212	* static size
				4213	* - the size requested by user or the best one we can fit
				4214	* in to the sample max size
				4215	* data
				4216	* - user stack dump data
				4217	* dynamic size
				4218	* - the actual dumped size
				4219	*/
				4220
				4221	/* Static size. */
				4222	perf_output_put(handle, dump_size);
				4223
				4224	/* Data. */
				4225	sp = perf_user_stack_pointer(regs);
				4226	rem = __output_copy_user(handle, (void *) sp, dump_size);
				4227	dyn_size = dump_size - rem;
				4228
				4229	perf_output_skip(handle, rem);
				4230
				4231	/* Dynamic size. */
				4232	perf_output_put(handle, dyn_size);
				4233	}
				4234	}
				4235
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	4236	static void __perf_event_header__init_id(struct perf_event_header *header,
				4237	struct perf_sample_data *data,
				4238	struct perf_event *event)
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	4239	{
				4240	u64 sample_type = event->attr.sample_type;
				4241
				4242	data->type = sample_type;
				4243	header->size += event->id_header_size;
				4244
				4245	if (sample_type & PERF_SAMPLE_TID) {
				4246	/* namespace issues */
				4247	data->tid_entry.pid = perf_event_pid(event, current);
				4248	data->tid_entry.tid = perf_event_tid(event, current);
				4249	}
				4250
				4251	if (sample_type & PERF_SAMPLE_TIME)
				4252	data->time = perf_clock();
				4253
				4254	if (sample_type & PERF_SAMPLE_ID)
				4255	data->id = primary_event_id(event);
				4256
				4257	if (sample_type & PERF_SAMPLE_STREAM_ID)
				4258	data->stream_id = event->id;
				4259
				4260	if (sample_type & PERF_SAMPLE_CPU) {
				4261	data->cpu_entry.cpu = raw_smp_processor_id();
				4262	data->cpu_entry.reserved = 0;
				4263	}
				4264	}
				4265
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	4266	void perf_event_header__init_id(struct perf_event_header *header,
				4267	struct perf_sample_data *data,
				4268	struct perf_event *event)
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	4269	{
				4270	if (event->attr.sample_id_all)
				4271	__perf_event_header__init_id(header, data, event);
				4272	}
				4273
				4274	static void __perf_event__output_id_sample(struct perf_output_handle *handle,
				4275	struct perf_sample_data *data)
				4276	{
				4277	u64 sample_type = data->type;
				4278
				4279	if (sample_type & PERF_SAMPLE_TID)
				4280	perf_output_put(handle, data->tid_entry);
				4281
				4282	if (sample_type & PERF_SAMPLE_TIME)
				4283	perf_output_put(handle, data->time);
				4284
				4285	if (sample_type & PERF_SAMPLE_ID)
				4286	perf_output_put(handle, data->id);
				4287
				4288	if (sample_type & PERF_SAMPLE_STREAM_ID)
				4289	perf_output_put(handle, data->stream_id);
				4290
				4291	if (sample_type & PERF_SAMPLE_CPU)
				4292	perf_output_put(handle, data->cpu_entry);
				4293	}
				4294
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	4295	void perf_event__output_id_sample(struct perf_event *event,
				4296	struct perf_output_handle *handle,
				4297	struct perf_sample_data *sample)
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	4298	{
				4299	if (event->attr.sample_id_all)
				4300	__perf_event__output_id_sample(handle, sample);
				4301	}
				4302
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4303	static void perf_output_read_one(struct perf_output_handle *handle,
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	4304	struct perf_event *event,
				4305	u64 enabled, u64 running)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4306	{
				4307	u64 read_format = event->attr.read_format;
				4308	u64 values[4];
				4309	int n = 0;
				4310
Peter Zijlstra	b5e5879	2010-05-21 14:43:12 +0200	[diff] [blame]	4311	values[n++] = perf_event_count(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4312	if (read_format & PERF_FORMAT_TOTAL_TIME_ENABLED) {
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	4313	values[n++] = enabled +
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4314	atomic64_read(&event->child_total_time_enabled);
				4315	}
				4316	if (read_format & PERF_FORMAT_TOTAL_TIME_RUNNING) {
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	4317	values[n++] = running +
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4318	atomic64_read(&event->child_total_time_running);
				4319	}
				4320	if (read_format & PERF_FORMAT_ID)
				4321	values[n++] = primary_event_id(event);
				4322
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	4323	__output_copy(handle, values, n * sizeof(u64));
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4324	}
				4325
				4326	/*
				4327	* XXX PERF_FORMAT_GROUP vs inherited events seems difficult.
				4328	*/
				4329	static void perf_output_read_group(struct perf_output_handle *handle,
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	4330	struct perf_event *event,
				4331	u64 enabled, u64 running)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4332	{
				4333	struct perf_event leader = event->group_leader, sub;
				4334	u64 read_format = event->attr.read_format;
				4335	u64 values[5];
				4336	int n = 0;
				4337
				4338	values[n++] = 1 + leader->nr_siblings;
				4339
				4340	if (read_format & PERF_FORMAT_TOTAL_TIME_ENABLED)
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	4341	values[n++] = enabled;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4342
				4343	if (read_format & PERF_FORMAT_TOTAL_TIME_RUNNING)
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	4344	values[n++] = running;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4345
				4346	if (leader != event)
				4347	leader->pmu->read(leader);
				4348
Peter Zijlstra	b5e5879	2010-05-21 14:43:12 +0200	[diff] [blame]	4349	values[n++] = perf_event_count(leader);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4350	if (read_format & PERF_FORMAT_ID)
				4351	values[n++] = primary_event_id(leader);
				4352
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	4353	__output_copy(handle, values, n * sizeof(u64));
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4354
				4355	list_for_each_entry(sub, &leader->sibling_list, group_entry) {
				4356	n = 0;
				4357
				4358	if (sub != event)
				4359	sub->pmu->read(sub);
				4360
Peter Zijlstra	b5e5879	2010-05-21 14:43:12 +0200	[diff] [blame]	4361	values[n++] = perf_event_count(sub);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4362	if (read_format & PERF_FORMAT_ID)
				4363	values[n++] = primary_event_id(sub);
				4364
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	4365	__output_copy(handle, values, n * sizeof(u64));
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4366	}
				4367	}
				4368
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	4369	#define PERF_FORMAT_TOTAL_TIMES (PERF_FORMAT_TOTAL_TIME_ENABLED\|\
				4370	PERF_FORMAT_TOTAL_TIME_RUNNING)
				4371
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4372	static void perf_output_read(struct perf_output_handle *handle,
				4373	struct perf_event *event)
				4374	{
Peter Zijlstra	e3f3541	2011-11-21 11:43:53 +0100	[diff] [blame]	4375	u64 enabled = 0, running = 0, now;
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	4376	u64 read_format = event->attr.read_format;
				4377
				4378	/*
				4379	* compute total_time_enabled, total_time_running
				4380	* based on snapshot values taken when the event
				4381	* was last scheduled in.
				4382	*
				4383	* we cannot simply called update_context_time()
				4384	* because of locking issue as we are called in
				4385	* NMI context
				4386	*/
Eric B Munson	c479429	2011-06-23 16:34:38 -0400	[diff] [blame]	4387	if (read_format & PERF_FORMAT_TOTAL_TIMES)
Peter Zijlstra	e3f3541	2011-11-21 11:43:53 +0100	[diff] [blame]	4388	calc_timer_values(event, &now, &enabled, &running);
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	4389
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4390	if (event->attr.read_format & PERF_FORMAT_GROUP)
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	4391	perf_output_read_group(handle, event, enabled, running);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4392	else
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	4393	perf_output_read_one(handle, event, enabled, running);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4394	}
				4395
				4396	void perf_output_sample(struct perf_output_handle *handle,
				4397	struct perf_event_header *header,
				4398	struct perf_sample_data *data,
				4399	struct perf_event *event)
				4400	{
				4401	u64 sample_type = data->type;
				4402
				4403	perf_output_put(handle, *header);
				4404
				4405	if (sample_type & PERF_SAMPLE_IP)
				4406	perf_output_put(handle, data->ip);
				4407
				4408	if (sample_type & PERF_SAMPLE_TID)
				4409	perf_output_put(handle, data->tid_entry);
				4410
				4411	if (sample_type & PERF_SAMPLE_TIME)
				4412	perf_output_put(handle, data->time);
				4413
				4414	if (sample_type & PERF_SAMPLE_ADDR)
				4415	perf_output_put(handle, data->addr);
				4416
				4417	if (sample_type & PERF_SAMPLE_ID)
				4418	perf_output_put(handle, data->id);
				4419
				4420	if (sample_type & PERF_SAMPLE_STREAM_ID)
				4421	perf_output_put(handle, data->stream_id);
				4422
				4423	if (sample_type & PERF_SAMPLE_CPU)
				4424	perf_output_put(handle, data->cpu_entry);
				4425
				4426	if (sample_type & PERF_SAMPLE_PERIOD)
				4427	perf_output_put(handle, data->period);
				4428
				4429	if (sample_type & PERF_SAMPLE_READ)
				4430	perf_output_read(handle, event);
				4431
				4432	if (sample_type & PERF_SAMPLE_CALLCHAIN) {
				4433	if (data->callchain) {
				4434	int size = 1;
				4435
				4436	if (data->callchain)
				4437	size += data->callchain->nr;
				4438
				4439	size *= sizeof(u64);
				4440
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	4441	__output_copy(handle, data->callchain, size);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4442	} else {
				4443	u64 nr = 0;
				4444	perf_output_put(handle, nr);
				4445	}
				4446	}
				4447
				4448	if (sample_type & PERF_SAMPLE_RAW) {
				4449	if (data->raw) {
				4450	perf_output_put(handle, data->raw->size);
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	4451	__output_copy(handle, data->raw->data,
				4452	data->raw->size);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4453	} else {
				4454	struct {
				4455	u32 size;
				4456	u32 data;
				4457	} raw = {
				4458	.size = sizeof(u32),
				4459	.data = 0,
				4460	};
				4461	perf_output_put(handle, raw);
				4462	}
				4463	}
Peter Zijlstra	a7ac67e	2011-06-27 16:47:16 +0200	[diff] [blame]	4464
				4465	if (!event->attr.watermark) {
				4466	int wakeup_events = event->attr.wakeup_events;
				4467
				4468	if (wakeup_events) {
				4469	struct ring_buffer *rb = handle->rb;
				4470	int events = local_inc_return(&rb->events);
				4471
				4472	if (events >= wakeup_events) {
				4473	local_sub(wakeup_events, &rb->events);
				4474	local_inc(&rb->wakeup);
				4475	}
				4476	}
				4477	}
Stephane Eranian	bce38cd	2012-02-09 23:20:51 +0100	[diff] [blame]	4478
				4479	if (sample_type & PERF_SAMPLE_BRANCH_STACK) {
				4480	if (data->br_stack) {
				4481	size_t size;
				4482
				4483	size = data->br_stack->nr
				4484	* sizeof(struct perf_branch_entry);
				4485
				4486	perf_output_put(handle, data->br_stack->nr);
				4487	perf_output_copy(handle, data->br_stack->entries, size);
				4488	} else {
				4489	/*
				4490	* we always store at least the value of nr
				4491	*/
				4492	u64 nr = 0;
				4493	perf_output_put(handle, nr);
				4494	}
				4495	}
Jiri Olsa	4018994	2012-08-07 15:20:37 +0200	[diff] [blame]	4496
				4497	if (sample_type & PERF_SAMPLE_REGS_USER) {
				4498	u64 abi = data->regs_user.abi;
				4499
				4500	/*
				4501	* If there are no regs to dump, notice it through
				4502	* first u64 being zero (PERF_SAMPLE_REGS_ABI_NONE).
				4503	*/
				4504	perf_output_put(handle, abi);
				4505
				4506	if (abi) {
				4507	u64 mask = event->attr.sample_regs_user;
				4508	perf_output_sample_regs(handle,
				4509	data->regs_user.regs,
				4510	mask);
				4511	}
				4512	}
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	4513
				4514	if (sample_type & PERF_SAMPLE_STACK_USER)
				4515	perf_output_sample_ustack(handle,
				4516	data->stack_user_size,
				4517	data->regs_user.regs);
Andi Kleen	c3feedf	2013-01-24 16:10:28 +0100	[diff] [blame]	4518
				4519	if (sample_type & PERF_SAMPLE_WEIGHT)
				4520	perf_output_put(handle, data->weight);
Stephane Eranian	d6be9ad	2013-01-24 16:10:31 +0100	[diff] [blame]	4521
				4522	if (sample_type & PERF_SAMPLE_DATA_SRC)
				4523	perf_output_put(handle, data->data_src.val);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4524	}
				4525
				4526	void perf_prepare_sample(struct perf_event_header *header,
				4527	struct perf_sample_data *data,
				4528	struct perf_event *event,
				4529	struct pt_regs *regs)
				4530	{
				4531	u64 sample_type = event->attr.sample_type;
				4532
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4533	header->type = PERF_RECORD_SAMPLE;
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	4534	header->size = sizeof(*header) + event->header_size;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4535
				4536	header->misc = 0;
				4537	header->misc \|= perf_misc_flags(regs);
				4538
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	4539	__perf_event_header__init_id(header, data, event);
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	4540
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	4541	if (sample_type & PERF_SAMPLE_IP)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4542	data->ip = perf_instruction_pointer(regs);
				4543
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4544	if (sample_type & PERF_SAMPLE_CALLCHAIN) {
				4545	int size = 1;
				4546
Andrew Vagin	e6dab5f	2012-07-11 18:14:58 +0400	[diff] [blame]	4547	data->callchain = perf_callchain(event, regs);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4548
				4549	if (data->callchain)
				4550	size += data->callchain->nr;
				4551
				4552	header->size += size * sizeof(u64);
				4553	}
				4554
				4555	if (sample_type & PERF_SAMPLE_RAW) {
				4556	int size = sizeof(u32);
				4557
				4558	if (data->raw)
				4559	size += data->raw->size;
				4560	else
				4561	size += sizeof(u32);
				4562
				4563	WARN_ON_ONCE(size & (sizeof(u64)-1));
				4564	header->size += size;
				4565	}
Stephane Eranian	bce38cd	2012-02-09 23:20:51 +0100	[diff] [blame]	4566
				4567	if (sample_type & PERF_SAMPLE_BRANCH_STACK) {
				4568	int size = sizeof(u64); /* nr */
				4569	if (data->br_stack) {
				4570	size += data->br_stack->nr
				4571	* sizeof(struct perf_branch_entry);
				4572	}
				4573	header->size += size;
				4574	}
Jiri Olsa	4018994	2012-08-07 15:20:37 +0200	[diff] [blame]	4575
				4576	if (sample_type & PERF_SAMPLE_REGS_USER) {
				4577	/* regs dump ABI info */
				4578	int size = sizeof(u64);
				4579
				4580	perf_sample_regs_user(&data->regs_user, regs);
				4581
				4582	if (data->regs_user.regs) {
				4583	u64 mask = event->attr.sample_regs_user;
				4584	size += hweight64(mask) * sizeof(u64);
				4585	}
				4586
				4587	header->size += size;
				4588	}
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	4589
				4590	if (sample_type & PERF_SAMPLE_STACK_USER) {
				4591	/*
				4592	* Either we need PERF_SAMPLE_STACK_USER bit to be allways
				4593	* processed as the last one or have additional check added
				4594	* in case new sample type is added, because we could eat
				4595	* up the rest of the sample size.
				4596	*/
				4597	struct perf_regs_user *uregs = &data->regs_user;
				4598	u16 stack_size = event->attr.sample_stack_user;
				4599	u16 size = sizeof(u64);
				4600
				4601	if (!uregs->abi)
				4602	perf_sample_regs_user(uregs, regs);
				4603
				4604	stack_size = perf_sample_ustack_size(stack_size, header->size,
				4605	uregs->regs);
				4606
				4607	/*
				4608	* If there is something to dump, add space for the dump
				4609	* itself and for the field that tells the dynamic size,
				4610	* which is how many have been actually dumped.
				4611	*/
				4612	if (stack_size)
				4613	size += sizeof(u64) + stack_size;
				4614
				4615	data->stack_user_size = stack_size;
				4616	header->size += size;
				4617	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4618	}
				4619
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	4620	static void perf_event_output(struct perf_event *event,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4621	struct perf_sample_data *data,
				4622	struct pt_regs *regs)
				4623	{
				4624	struct perf_output_handle handle;
				4625	struct perf_event_header header;
				4626
Frederic Weisbecker	927c7a9	2010-07-01 16:20:36 +0200	[diff] [blame]	4627	/* protect the callchain buffers */
				4628	rcu_read_lock();
				4629
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4630	perf_prepare_sample(&header, data, event, regs);
				4631
Peter Zijlstra	a7ac67e	2011-06-27 16:47:16 +0200	[diff] [blame]	4632	if (perf_output_begin(&handle, event, header.size))
Frederic Weisbecker	927c7a9	2010-07-01 16:20:36 +0200	[diff] [blame]	4633	goto exit;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4634
				4635	perf_output_sample(&handle, &header, data, event);
				4636
				4637	perf_output_end(&handle);
Frederic Weisbecker	927c7a9	2010-07-01 16:20:36 +0200	[diff] [blame]	4638
				4639	exit:
				4640	rcu_read_unlock();
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4641	}
				4642
				4643	/*
				4644	* read event_id
				4645	*/
				4646
				4647	struct perf_read_event {
				4648	struct perf_event_header header;
				4649
				4650	u32 pid;
				4651	u32 tid;
				4652	};
				4653
				4654	static void
				4655	perf_event_read_event(struct perf_event *event,
				4656	struct task_struct *task)
				4657	{
				4658	struct perf_output_handle handle;
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	4659	struct perf_sample_data sample;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4660	struct perf_read_event read_event = {
				4661	.header = {
				4662	.type = PERF_RECORD_READ,
				4663	.misc = 0,
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	4664	.size = sizeof(read_event) + event->read_size,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4665	},
				4666	.pid = perf_event_pid(event, task),
				4667	.tid = perf_event_tid(event, task),
				4668	};
				4669	int ret;
				4670
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	4671	perf_event_header__init_id(&read_event.header, &sample, event);
Peter Zijlstra	a7ac67e	2011-06-27 16:47:16 +0200	[diff] [blame]	4672	ret = perf_output_begin(&handle, event, read_event.header.size);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4673	if (ret)
				4674	return;
				4675
				4676	perf_output_put(&handle, read_event);
				4677	perf_output_read(&handle, event);
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	4678	perf_event__output_id_sample(event, &handle, &sample);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4679
				4680	perf_output_end(&handle);
				4681	}
				4682
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	4683	typedef int (perf_event_aux_match_cb)(struct perf_event event, void data);
				4684	typedef void (perf_event_aux_output_cb)(struct perf_event event, void data);
				4685
				4686	static void
				4687	perf_event_aux_ctx(struct perf_event_context *ctx,
				4688	perf_event_aux_match_cb match,
				4689	perf_event_aux_output_cb output,
				4690	void *data)
				4691	{
				4692	struct perf_event *event;
				4693
				4694	list_for_each_entry_rcu(event, &ctx->event_list, event_entry) {
				4695	if (event->state < PERF_EVENT_STATE_INACTIVE)
				4696	continue;
				4697	if (!event_filter_match(event))
				4698	continue;
				4699	if (match(event, data))
				4700	output(event, data);
				4701	}
				4702	}
				4703
				4704	static void
				4705	perf_event_aux(perf_event_aux_match_cb match,
				4706	perf_event_aux_output_cb output,
				4707	void *data,
				4708	struct perf_event_context *task_ctx)
				4709	{
				4710	struct perf_cpu_context *cpuctx;
				4711	struct perf_event_context *ctx;
				4712	struct pmu *pmu;
				4713	int ctxn;
				4714
				4715	rcu_read_lock();
				4716	list_for_each_entry_rcu(pmu, &pmus, entry) {
				4717	cpuctx = get_cpu_ptr(pmu->pmu_cpu_context);
				4718	if (cpuctx->unique_pmu != pmu)
				4719	goto next;
				4720	perf_event_aux_ctx(&cpuctx->ctx, match, output, data);
				4721	if (task_ctx)
				4722	goto next;
				4723	ctxn = pmu->task_ctx_nr;
				4724	if (ctxn < 0)
				4725	goto next;
				4726	ctx = rcu_dereference(current->perf_event_ctxp[ctxn]);
				4727	if (ctx)
				4728	perf_event_aux_ctx(ctx, match, output, data);
				4729	next:
				4730	put_cpu_ptr(pmu->pmu_cpu_context);
				4731	}
				4732
				4733	if (task_ctx) {
				4734	preempt_disable();
				4735	perf_event_aux_ctx(task_ctx, match, output, data);
				4736	preempt_enable();
				4737	}
				4738	rcu_read_unlock();
				4739	}
				4740
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4741	/*
				4742	* task tracking -- fork/exit
				4743	*
Eric B Munson	3af9e85	2010-05-18 15:30:49 +0100	[diff] [blame]	4744	* enabled by: attr.comm \| attr.mmap \| attr.mmap_data \| attr.task
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4745	*/
				4746
				4747	struct perf_task_event {
				4748	struct task_struct *task;
				4749	struct perf_event_context *task_ctx;
				4750
				4751	struct {
				4752	struct perf_event_header header;
				4753
				4754	u32 pid;
				4755	u32 ppid;
				4756	u32 tid;
				4757	u32 ptid;
				4758	u64 time;
				4759	} event_id;
				4760	};
				4761
				4762	static void perf_event_task_output(struct perf_event *event,
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	4763	void *data)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4764	{
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	4765	struct perf_task_event *task_event = data;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4766	struct perf_output_handle handle;
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	4767	struct perf_sample_data sample;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4768	struct task_struct *task = task_event->task;
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	4769	int ret, size = task_event->event_id.header.size;
Mike Galbraith	8bb39f9	2010-03-26 11:11:33 +0100	[diff] [blame]	4770
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	4771	perf_event_header__init_id(&task_event->event_id.header, &sample, event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4772
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	4773	ret = perf_output_begin(&handle, event,
Peter Zijlstra	a7ac67e	2011-06-27 16:47:16 +0200	[diff] [blame]	4774	task_event->event_id.header.size);
Peter Zijlstra	ef60777	2010-05-18 10:50:41 +0200	[diff] [blame]	4775	if (ret)
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	4776	goto out;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4777
				4778	task_event->event_id.pid = perf_event_pid(event, task);
				4779	task_event->event_id.ppid = perf_event_pid(event, current);
				4780
				4781	task_event->event_id.tid = perf_event_tid(event, task);
				4782	task_event->event_id.ptid = perf_event_tid(event, current);
				4783
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4784	perf_output_put(&handle, task_event->event_id);
				4785
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	4786	perf_event__output_id_sample(event, &handle, &sample);
				4787
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4788	perf_output_end(&handle);
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	4789	out:
				4790	task_event->event_id.header.size = size;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4791	}
				4792
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	4793	static int perf_event_task_match(struct perf_event *event,
				4794	void *data __maybe_unused)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4795	{
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	4796	return event->attr.comm \|\| event->attr.mmap \|\|
				4797	event->attr.mmap_data \|\| event->attr.task;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4798	}
				4799
				4800	static void perf_event_task(struct task_struct *task,
				4801	struct perf_event_context *task_ctx,
				4802	int new)
				4803	{
				4804	struct perf_task_event task_event;
				4805
				4806	if (!atomic_read(&nr_comm_events) &&
				4807	!atomic_read(&nr_mmap_events) &&
				4808	!atomic_read(&nr_task_events))
				4809	return;
				4810
				4811	task_event = (struct perf_task_event){
				4812	.task = task,
				4813	.task_ctx = task_ctx,
				4814	.event_id = {
				4815	.header = {
				4816	.type = new ? PERF_RECORD_FORK : PERF_RECORD_EXIT,
				4817	.misc = 0,
				4818	.size = sizeof(task_event.event_id),
				4819	},
				4820	/* .pid */
				4821	/* .ppid */
				4822	/* .tid */
				4823	/* .ptid */
Peter Zijlstra	6f93d0a	2010-02-14 11:12:04 +0100	[diff] [blame]	4824	.time = perf_clock(),
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4825	},
				4826	};
				4827
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	4828	perf_event_aux(perf_event_task_match,
				4829	perf_event_task_output,
				4830	&task_event,
				4831	task_ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4832	}
				4833
				4834	void perf_event_fork(struct task_struct *task)
				4835	{
				4836	perf_event_task(task, NULL, 1);
				4837	}
				4838
				4839	/*
				4840	* comm tracking
				4841	*/
				4842
				4843	struct perf_comm_event {
				4844	struct task_struct *task;
				4845	char *comm;
				4846	int comm_size;
				4847
				4848	struct {
				4849	struct perf_event_header header;
				4850
				4851	u32 pid;
				4852	u32 tid;
				4853	} event_id;
				4854	};
				4855
				4856	static void perf_event_comm_output(struct perf_event *event,
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	4857	void *data)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4858	{
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	4859	struct perf_comm_event *comm_event = data;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4860	struct perf_output_handle handle;
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	4861	struct perf_sample_data sample;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4862	int size = comm_event->event_id.header.size;
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	4863	int ret;
				4864
				4865	perf_event_header__init_id(&comm_event->event_id.header, &sample, event);
				4866	ret = perf_output_begin(&handle, event,
Peter Zijlstra	a7ac67e	2011-06-27 16:47:16 +0200	[diff] [blame]	4867	comm_event->event_id.header.size);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4868
				4869	if (ret)
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	4870	goto out;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4871
				4872	comm_event->event_id.pid = perf_event_pid(event, comm_event->task);
				4873	comm_event->event_id.tid = perf_event_tid(event, comm_event->task);
				4874
				4875	perf_output_put(&handle, comm_event->event_id);
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	4876	__output_copy(&handle, comm_event->comm,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4877	comm_event->comm_size);
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	4878
				4879	perf_event__output_id_sample(event, &handle, &sample);
				4880
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4881	perf_output_end(&handle);
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	4882	out:
				4883	comm_event->event_id.header.size = size;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4884	}
				4885
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	4886	static int perf_event_comm_match(struct perf_event *event,
				4887	void *data __maybe_unused)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4888	{
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	4889	return event->attr.comm;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4890	}
				4891
				4892	static void perf_event_comm_event(struct perf_comm_event *comm_event)
				4893	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4894	char comm[TASK_COMM_LEN];
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4895	unsigned int size;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4896
				4897	memset(comm, 0, sizeof(comm));
Márton Németh	96b02d7	2009-11-21 23:10:15 +0100	[diff] [blame]	4898	strlcpy(comm, comm_event->task->comm, sizeof(comm));
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4899	size = ALIGN(strlen(comm)+1, sizeof(u64));
				4900
				4901	comm_event->comm = comm;
				4902	comm_event->comm_size = size;
				4903
				4904	comm_event->event_id.header.size = sizeof(comm_event->event_id) + size;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	4905
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	4906	perf_event_aux(perf_event_comm_match,
				4907	perf_event_comm_output,
				4908	comm_event,
				4909	NULL);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4910	}
				4911
				4912	void perf_event_comm(struct task_struct *task)
				4913	{
				4914	struct perf_comm_event comm_event;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	4915	struct perf_event_context *ctx;
				4916	int ctxn;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4917
Paul E. McKenney	c79aa0d9	2013-04-19 12:01:24 -0700	[diff] [blame]	4918	rcu_read_lock();
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	4919	for_each_task_context_nr(ctxn) {
				4920	ctx = task->perf_event_ctxp[ctxn];
				4921	if (!ctx)
				4922	continue;
				4923
				4924	perf_event_enable_on_exec(ctx);
				4925	}
Paul E. McKenney	c79aa0d9	2013-04-19 12:01:24 -0700	[diff] [blame]	4926	rcu_read_unlock();
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4927
				4928	if (!atomic_read(&nr_comm_events))
				4929	return;
				4930
				4931	comm_event = (struct perf_comm_event){
				4932	.task = task,
				4933	/* .comm */
				4934	/* .comm_size */
				4935	.event_id = {
				4936	.header = {
				4937	.type = PERF_RECORD_COMM,
				4938	.misc = 0,
				4939	/* .size */
				4940	},
				4941	/* .pid */
				4942	/* .tid */
				4943	},
				4944	};
				4945
				4946	perf_event_comm_event(&comm_event);
				4947	}
				4948
				4949	/*
				4950	* mmap tracking
				4951	*/
				4952
				4953	struct perf_mmap_event {
				4954	struct vm_area_struct *vma;
				4955
				4956	const char *file_name;
				4957	int file_size;
				4958
				4959	struct {
				4960	struct perf_event_header header;
				4961
				4962	u32 pid;
				4963	u32 tid;
				4964	u64 start;
				4965	u64 len;
				4966	u64 pgoff;
				4967	} event_id;
				4968	};
				4969
				4970	static void perf_event_mmap_output(struct perf_event *event,
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	4971	void *data)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4972	{
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	4973	struct perf_mmap_event *mmap_event = data;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4974	struct perf_output_handle handle;
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	4975	struct perf_sample_data sample;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4976	int size = mmap_event->event_id.header.size;
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	4977	int ret;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4978
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	4979	perf_event_header__init_id(&mmap_event->event_id.header, &sample, event);
				4980	ret = perf_output_begin(&handle, event,
Peter Zijlstra	a7ac67e	2011-06-27 16:47:16 +0200	[diff] [blame]	4981	mmap_event->event_id.header.size);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4982	if (ret)
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	4983	goto out;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4984
				4985	mmap_event->event_id.pid = perf_event_pid(event, current);
				4986	mmap_event->event_id.tid = perf_event_tid(event, current);
				4987
				4988	perf_output_put(&handle, mmap_event->event_id);
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	4989	__output_copy(&handle, mmap_event->file_name,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4990	mmap_event->file_size);
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	4991
				4992	perf_event__output_id_sample(event, &handle, &sample);
				4993
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4994	perf_output_end(&handle);
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	4995	out:
				4996	mmap_event->event_id.header.size = size;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4997	}
				4998
				4999	static int perf_event_mmap_match(struct perf_event *event,
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	5000	void *data)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5001	{
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	5002	struct perf_mmap_event *mmap_event = data;
				5003	struct vm_area_struct *vma = mmap_event->vma;
				5004	int executable = vma->vm_flags & VM_EXEC;
Peter Zijlstra	22e1908	2010-01-18 09:12:32 +0100	[diff] [blame]	5005
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	5006	return (!executable && event->attr.mmap_data) \|\|
				5007	(executable && event->attr.mmap);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5008	}
				5009
				5010	static void perf_event_mmap_event(struct perf_mmap_event *mmap_event)
				5011	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5012	struct vm_area_struct *vma = mmap_event->vma;
				5013	struct file *file = vma->vm_file;
				5014	unsigned int size;
				5015	char tmp[16];
				5016	char *buf = NULL;
				5017	const char *name;
				5018
				5019	memset(tmp, 0, sizeof(tmp));
				5020
				5021	if (file) {
				5022	/*
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	5023	* d_path works from the end of the rb backwards, so we
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5024	* need to add enough zero bytes after the string to handle
				5025	* the 64bit alignment we do later.
				5026	*/
				5027	buf = kzalloc(PATH_MAX + sizeof(u64), GFP_KERNEL);
				5028	if (!buf) {
				5029	name = strncpy(tmp, "//enomem", sizeof(tmp));
				5030	goto got_name;
				5031	}
				5032	name = d_path(&file->f_path, buf, PATH_MAX);
				5033	if (IS_ERR(name)) {
				5034	name = strncpy(tmp, "//toolong", sizeof(tmp));
				5035	goto got_name;
				5036	}
				5037	} else {
				5038	if (arch_vma_name(mmap_event->vma)) {
				5039	name = strncpy(tmp, arch_vma_name(mmap_event->vma),
Chen Gang	c97847d	2013-04-08 11:48:27 +0800	[diff] [blame]	5040	sizeof(tmp) - 1);
				5041	tmp[sizeof(tmp) - 1] = '\0';
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5042	goto got_name;
				5043	}
				5044
				5045	if (!vma->vm_mm) {
				5046	name = strncpy(tmp, "[vdso]", sizeof(tmp));
				5047	goto got_name;
Eric B Munson	3af9e85	2010-05-18 15:30:49 +0100	[diff] [blame]	5048	} else if (vma->vm_start <= vma->vm_mm->start_brk &&
				5049	vma->vm_end >= vma->vm_mm->brk) {
				5050	name = strncpy(tmp, "[heap]", sizeof(tmp));
				5051	goto got_name;
				5052	} else if (vma->vm_start <= vma->vm_mm->start_stack &&
				5053	vma->vm_end >= vma->vm_mm->start_stack) {
				5054	name = strncpy(tmp, "[stack]", sizeof(tmp));
				5055	goto got_name;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5056	}
				5057
				5058	name = strncpy(tmp, "//anon", sizeof(tmp));
				5059	goto got_name;
				5060	}
				5061
				5062	got_name:
				5063	size = ALIGN(strlen(name)+1, sizeof(u64));
				5064
				5065	mmap_event->file_name = name;
				5066	mmap_event->file_size = size;
				5067
Stephane Eranian	2fe8542	2013-01-24 16:10:39 +0100	[diff] [blame]	5068	if (!(vma->vm_flags & VM_EXEC))
				5069	mmap_event->event_id.header.misc \|= PERF_RECORD_MISC_MMAP_DATA;
				5070
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5071	mmap_event->event_id.header.size = sizeof(mmap_event->event_id) + size;
				5072
Jiri Olsa	52d857a	2013-05-06 18:27:18 +0200	[diff] [blame]	5073	perf_event_aux(perf_event_mmap_match,
				5074	perf_event_mmap_output,
				5075	mmap_event,
				5076	NULL);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5077
				5078	kfree(buf);
				5079	}
				5080
Eric B Munson	3af9e85	2010-05-18 15:30:49 +0100	[diff] [blame]	5081	void perf_event_mmap(struct vm_area_struct *vma)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5082	{
				5083	struct perf_mmap_event mmap_event;
				5084
				5085	if (!atomic_read(&nr_mmap_events))
				5086	return;
				5087
				5088	mmap_event = (struct perf_mmap_event){
				5089	.vma = vma,
				5090	/* .file_name */
				5091	/* .file_size */
				5092	.event_id = {
				5093	.header = {
				5094	.type = PERF_RECORD_MMAP,
Zhang, Yanmin	39447b3	2010-04-19 13:32:41 +0800	[diff] [blame]	5095	.misc = PERF_RECORD_MISC_USER,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5096	/* .size */
				5097	},
				5098	/* .pid */
				5099	/* .tid */
				5100	.start = vma->vm_start,
				5101	.len = vma->vm_end - vma->vm_start,
Peter Zijlstra	3a0304e	2010-02-26 10:33:41 +0100	[diff] [blame]	5102	.pgoff = (u64)vma->vm_pgoff << PAGE_SHIFT,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5103	},
				5104	};
				5105
				5106	perf_event_mmap_event(&mmap_event);
				5107	}
				5108
				5109	/*
				5110	* IRQ throttle logging
				5111	*/
				5112
				5113	static void perf_log_throttle(struct perf_event *event, int enable)
				5114	{
				5115	struct perf_output_handle handle;
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	5116	struct perf_sample_data sample;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5117	int ret;
				5118
				5119	struct {
				5120	struct perf_event_header header;
				5121	u64 time;
				5122	u64 id;
				5123	u64 stream_id;
				5124	} throttle_event = {
				5125	.header = {
				5126	.type = PERF_RECORD_THROTTLE,
				5127	.misc = 0,
				5128	.size = sizeof(throttle_event),
				5129	},
				5130	.time = perf_clock(),
				5131	.id = primary_event_id(event),
				5132	.stream_id = event->id,
				5133	};
				5134
				5135	if (enable)
				5136	throttle_event.header.type = PERF_RECORD_UNTHROTTLE;
				5137
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	5138	perf_event_header__init_id(&throttle_event.header, &sample, event);
				5139
				5140	ret = perf_output_begin(&handle, event,
Peter Zijlstra	a7ac67e	2011-06-27 16:47:16 +0200	[diff] [blame]	5141	throttle_event.header.size);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5142	if (ret)
				5143	return;
				5144
				5145	perf_output_put(&handle, throttle_event);
Arnaldo Carvalho de Melo	c980d10	2010-12-04 23:02:20 -0200	[diff] [blame]	5146	perf_event__output_id_sample(event, &handle, &sample);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5147	perf_output_end(&handle);
				5148	}
				5149
				5150	/*
				5151	* Generic event overflow handling, sampling.
				5152	*/
				5153
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	5154	static int __perf_event_overflow(struct perf_event *event,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5155	int throttle, struct perf_sample_data *data,
				5156	struct pt_regs *regs)
				5157	{
				5158	int events = atomic_read(&event->event_limit);
				5159	struct hw_perf_event *hwc = &event->hw;
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	5160	u64 seq;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5161	int ret = 0;
				5162
Peter Zijlstra	9639882	2010-11-24 18:55:29 +0100	[diff] [blame]	5163	/*
				5164	* Non-sampling counters might still use the PMI to fold short
				5165	* hardware counters, ignore those.
				5166	*/
				5167	if (unlikely(!is_sampling_event(event)))
				5168	return 0;
				5169
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	5170	seq = __this_cpu_read(perf_throttled_seq);
				5171	if (seq != hwc->interrupts_seq) {
				5172	hwc->interrupts_seq = seq;
				5173	hwc->interrupts = 1;
				5174	} else {
				5175	hwc->interrupts++;
				5176	if (unlikely(throttle
				5177	&& hwc->interrupts >= max_samples_per_tick)) {
				5178	__this_cpu_inc(perf_throttled_count);
Peter Zijlstra	163ec43	2011-02-16 11:22:34 +0100	[diff] [blame]	5179	hwc->interrupts = MAX_INTERRUPTS;
				5180	perf_log_throttle(event, 0);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5181	ret = 1;
				5182	}
Stephane Eranian	e050e3f	2012-01-26 17:03:19 +0100	[diff] [blame]	5183	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5184
				5185	if (event->attr.freq) {
				5186	u64 now = perf_clock();
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	5187	s64 delta = now - hwc->freq_time_stamp;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5188
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	5189	hwc->freq_time_stamp = now;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5190
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	5191	if (delta > 0 && delta < 2*TICK_NSEC)
Stephane Eranian	f39d47f	2012-02-07 14:39:57 +0100	[diff] [blame]	5192	perf_adjust_period(event, delta, hwc->last_period, true);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5193	}
				5194
				5195	/*
				5196	* XXX event_limit might not quite work as expected on inherited
				5197	* events
				5198	*/
				5199
				5200	event->pending_kill = POLL_IN;
				5201	if (events && atomic_dec_and_test(&event->event_limit)) {
				5202	ret = 1;
				5203	event->pending_kill = POLL_HUP;
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	5204	event->pending_disable = 1;
				5205	irq_work_queue(&event->pending);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5206	}
				5207
Peter Zijlstra	453f19e	2009-11-20 22:19:43 +0100	[diff] [blame]	5208	if (event->overflow_handler)
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	5209	event->overflow_handler(event, data, regs);
Peter Zijlstra	453f19e	2009-11-20 22:19:43 +0100	[diff] [blame]	5210	else
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	5211	perf_event_output(event, data, regs);
Peter Zijlstra	453f19e	2009-11-20 22:19:43 +0100	[diff] [blame]	5212
Peter Zijlstra	f506b3d	2011-05-26 17:02:53 +0200	[diff] [blame]	5213	if (event->fasync && event->pending_kill) {
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	5214	event->pending_wakeup = 1;
				5215	irq_work_queue(&event->pending);
Peter Zijlstra	f506b3d	2011-05-26 17:02:53 +0200	[diff] [blame]	5216	}
				5217
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5218	return ret;
				5219	}
				5220
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	5221	int perf_event_overflow(struct perf_event *event,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5222	struct perf_sample_data *data,
				5223	struct pt_regs *regs)
				5224	{
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	5225	return __perf_event_overflow(event, 1, data, regs);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5226	}
				5227
				5228	/*
				5229	* Generic software event infrastructure
				5230	*/
				5231
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	5232	struct swevent_htable {
				5233	struct swevent_hlist *swevent_hlist;
				5234	struct mutex hlist_mutex;
				5235	int hlist_refcount;
				5236
				5237	/* Recursion avoidance in each contexts */
				5238	int recursion[PERF_NR_CONTEXTS];
				5239	};
				5240
				5241	static DEFINE_PER_CPU(struct swevent_htable, swevent_htable);
				5242
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5243	/*
				5244	* We directly increment event->count and keep a second value in
				5245	* event->hw.period_left to count intervals. This period event
				5246	* is kept in the range [-sample_period, 0] so that we can use the
				5247	* sign as trigger.
				5248	*/
				5249
Jiri Olsa	ab57384	2013-05-01 17:25:44 +0200	[diff] [blame]	5250	u64 perf_swevent_set_period(struct perf_event *event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5251	{
				5252	struct hw_perf_event *hwc = &event->hw;
				5253	u64 period = hwc->last_period;
				5254	u64 nr, offset;
				5255	s64 old, val;
				5256
				5257	hwc->last_period = hwc->sample_period;
				5258
				5259	again:
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	5260	old = val = local64_read(&hwc->period_left);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5261	if (val < 0)
				5262	return 0;
				5263
				5264	nr = div64_u64(period + val, period);
				5265	offset = nr * period;
				5266	val -= offset;
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	5267	if (local64_cmpxchg(&hwc->period_left, old, val) != old)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5268	goto again;
				5269
				5270	return nr;
				5271	}
				5272
Peter Zijlstra	0cff784	2009-11-20 22:19:44 +0100	[diff] [blame]	5273	static void perf_swevent_overflow(struct perf_event *event, u64 overflow,
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	5274	struct perf_sample_data *data,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5275	struct pt_regs *regs)
				5276	{
				5277	struct hw_perf_event *hwc = &event->hw;
				5278	int throttle = 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5279
Peter Zijlstra	0cff784	2009-11-20 22:19:44 +0100	[diff] [blame]	5280	if (!overflow)
				5281	overflow = perf_swevent_set_period(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5282
				5283	if (hwc->interrupts == MAX_INTERRUPTS)
				5284	return;
				5285
				5286	for (; overflow; overflow--) {
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	5287	if (__perf_event_overflow(event, throttle,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5288	data, regs)) {
				5289	/*
				5290	* We inhibit the overflow from happening when
				5291	* hwc->interrupts == MAX_INTERRUPTS.
				5292	*/
				5293	break;
				5294	}
				5295	throttle = 1;
				5296	}
				5297	}
				5298
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	5299	static void perf_swevent_event(struct perf_event *event, u64 nr,
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	5300	struct perf_sample_data *data,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5301	struct pt_regs *regs)
				5302	{
				5303	struct hw_perf_event *hwc = &event->hw;
				5304
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	5305	local64_add(nr, &event->count);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5306
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5307	if (!regs)
				5308	return;
				5309
Franck Bui-Huu	6c7e550	2010-11-23 16:21:43 +0100	[diff] [blame]	5310	if (!is_sampling_event(event))
Peter Zijlstra	0cff784	2009-11-20 22:19:44 +0100	[diff] [blame]	5311	return;
				5312
Andrew Vagin	5d81e5c	2011-11-07 15:54:12 +0300	[diff] [blame]	5313	if ((event->attr.sample_type & PERF_SAMPLE_PERIOD) && !event->attr.freq) {
				5314	data->period = nr;
				5315	return perf_swevent_overflow(event, 1, data, regs);
				5316	} else
				5317	data->period = event->hw.last_period;
				5318
Peter Zijlstra	0cff784	2009-11-20 22:19:44 +0100	[diff] [blame]	5319	if (nr == 1 && hwc->sample_period == 1 && !event->attr.freq)
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	5320	return perf_swevent_overflow(event, 1, data, regs);
Peter Zijlstra	0cff784	2009-11-20 22:19:44 +0100	[diff] [blame]	5321
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	5322	if (local64_add_negative(nr, &hwc->period_left))
Peter Zijlstra	0cff784	2009-11-20 22:19:44 +0100	[diff] [blame]	5323	return;
				5324
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	5325	perf_swevent_overflow(event, 0, data, regs);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5326	}
				5327
Frederic Weisbecker	f5ffe02	2009-11-23 15:42:34 +0100	[diff] [blame]	5328	static int perf_exclude_event(struct perf_event *event,
				5329	struct pt_regs *regs)
				5330	{
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	5331	if (event->hw.state & PERF_HES_STOPPED)
Frederic Weisbecker	91b2f48	2011-03-07 21:27:08 +0100	[diff] [blame]	5332	return 1;
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	5333
Frederic Weisbecker	f5ffe02	2009-11-23 15:42:34 +0100	[diff] [blame]	5334	if (regs) {
				5335	if (event->attr.exclude_user && user_mode(regs))
				5336	return 1;
				5337
				5338	if (event->attr.exclude_kernel && !user_mode(regs))
				5339	return 1;
				5340	}
				5341
				5342	return 0;
				5343	}
				5344
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5345	static int perf_swevent_match(struct perf_event *event,
				5346	enum perf_type_id type,
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	5347	u32 event_id,
				5348	struct perf_sample_data *data,
				5349	struct pt_regs *regs)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5350	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5351	if (event->attr.type != type)
				5352	return 0;
Frederic Weisbecker	f5ffe02	2009-11-23 15:42:34 +0100	[diff] [blame]	5353
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5354	if (event->attr.config != event_id)
				5355	return 0;
				5356
Frederic Weisbecker	f5ffe02	2009-11-23 15:42:34 +0100	[diff] [blame]	5357	if (perf_exclude_event(event, regs))
				5358	return 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5359
				5360	return 1;
				5361	}
				5362
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5363	static inline u64 swevent_hash(u64 type, u32 event_id)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5364	{
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5365	u64 val = event_id \| (type << 32);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5366
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5367	return hash_64(val, SWEVENT_HLIST_BITS);
				5368	}
				5369
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	5370	static inline struct hlist_head *
				5371	__find_swevent_head(struct swevent_hlist *hlist, u64 type, u32 event_id)
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5372	{
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	5373	u64 hash = swevent_hash(type, event_id);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5374
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	5375	return &hlist->heads[hash];
				5376	}
				5377
				5378	/* For the read side: events when they trigger */
				5379	static inline struct hlist_head *
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	5380	find_swevent_head_rcu(struct swevent_htable *swhash, u64 type, u32 event_id)
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	5381	{
				5382	struct swevent_hlist *hlist;
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5383
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	5384	hlist = rcu_dereference(swhash->swevent_hlist);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5385	if (!hlist)
				5386	return NULL;
				5387
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	5388	return __find_swevent_head(hlist, type, event_id);
				5389	}
				5390
				5391	/* For the event head insertion and removal in the hlist */
				5392	static inline struct hlist_head *
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	5393	find_swevent_head(struct swevent_htable swhash, struct perf_event event)
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	5394	{
				5395	struct swevent_hlist *hlist;
				5396	u32 event_id = event->attr.config;
				5397	u64 type = event->attr.type;
				5398
				5399	/*
				5400	* Event scheduling is always serialized against hlist allocation
				5401	* and release. Which makes the protected version suitable here.
				5402	* The context lock guarantees that.
				5403	*/
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	5404	hlist = rcu_dereference_protected(swhash->swevent_hlist,
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	5405	lockdep_is_held(&event->ctx->lock));
				5406	if (!hlist)
				5407	return NULL;
				5408
				5409	return __find_swevent_head(hlist, type, event_id);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5410	}
				5411
				5412	static void do_perf_sw_event(enum perf_type_id type, u32 event_id,
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	5413	u64 nr,
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5414	struct perf_sample_data *data,
				5415	struct pt_regs *regs)
				5416	{
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	5417	struct swevent_htable *swhash = &__get_cpu_var(swevent_htable);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5418	struct perf_event *event;
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5419	struct hlist_head *head;
				5420
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5421	rcu_read_lock();
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	5422	head = find_swevent_head_rcu(swhash, type, event_id);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5423	if (!head)
				5424	goto end;
				5425
Sasha Levin	b67bfe0	2013-02-27 17:06:00 -0800	[diff] [blame]	5426	hlist_for_each_entry_rcu(event, head, hlist_entry) {
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	5427	if (perf_swevent_match(event, type, event_id, data, regs))
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	5428	perf_swevent_event(event, nr, data, regs);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5429	}
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5430	end:
				5431	rcu_read_unlock();
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5432	}
				5433
Peter Zijlstra	4ed7c92	2009-11-23 11:37:29 +0100	[diff] [blame]	5434	int perf_swevent_get_recursion_context(void)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5435	{
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	5436	struct swevent_htable *swhash = &__get_cpu_var(swevent_htable);
Frederic Weisbecker	ce71b9d	2009-11-22 05:26:55 +0100	[diff] [blame]	5437
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	5438	return get_recursion_context(swhash->recursion);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5439	}
Ingo Molnar	645e8cc	2009-11-22 12:20:19 +0100	[diff] [blame]	5440	EXPORT_SYMBOL_GPL(perf_swevent_get_recursion_context);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5441
Jesper Juhl	fa9f90b	2010-11-28 21:39:34 +0100	[diff] [blame]	5442	inline void perf_swevent_put_recursion_context(int rctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5443	{
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	5444	struct swevent_htable *swhash = &__get_cpu_var(swevent_htable);
Frederic Weisbecker	927c7a9	2010-07-01 16:20:36 +0200	[diff] [blame]	5445
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	5446	put_recursion_context(swhash->recursion, rctx);
Frederic Weisbecker	ce71b9d	2009-11-22 05:26:55 +0100	[diff] [blame]	5447	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5448
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	5449	void __perf_sw_event(u32 event_id, u64 nr, struct pt_regs *regs, u64 addr)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5450	{
Ingo Molnar	a4234bf	2009-11-23 10:57:59 +0100	[diff] [blame]	5451	struct perf_sample_data data;
Peter Zijlstra	4ed7c92	2009-11-23 11:37:29 +0100	[diff] [blame]	5452	int rctx;
				5453
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	5454	preempt_disable_notrace();
Peter Zijlstra	4ed7c92	2009-11-23 11:37:29 +0100	[diff] [blame]	5455	rctx = perf_swevent_get_recursion_context();
				5456	if (rctx < 0)
				5457	return;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5458
Robert Richter	fd0d000	2012-04-02 20:19:08 +0200	[diff] [blame]	5459	perf_sample_data_init(&data, addr, 0);
Ingo Molnar	a4234bf	2009-11-23 10:57:59 +0100	[diff] [blame]	5460
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	5461	do_perf_sw_event(PERF_TYPE_SOFTWARE, event_id, nr, &data, regs);
Peter Zijlstra	4ed7c92	2009-11-23 11:37:29 +0100	[diff] [blame]	5462
				5463	perf_swevent_put_recursion_context(rctx);
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	5464	preempt_enable_notrace();
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5465	}
				5466
				5467	static void perf_swevent_read(struct perf_event *event)
				5468	{
				5469	}
				5470
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	5471	static int perf_swevent_add(struct perf_event *event, int flags)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5472	{
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	5473	struct swevent_htable *swhash = &__get_cpu_var(swevent_htable);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5474	struct hw_perf_event *hwc = &event->hw;
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5475	struct hlist_head *head;
				5476
Franck Bui-Huu	6c7e550	2010-11-23 16:21:43 +0100	[diff] [blame]	5477	if (is_sampling_event(event)) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5478	hwc->last_period = hwc->sample_period;
				5479	perf_swevent_set_period(event);
				5480	}
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5481
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	5482	hwc->state = !(flags & PERF_EF_START);
				5483
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	5484	head = find_swevent_head(swhash, event);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5485	if (WARN_ON_ONCE(!head))
				5486	return -EINVAL;
				5487
				5488	hlist_add_head_rcu(&event->hlist_entry, head);
				5489
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5490	return 0;
				5491	}
				5492
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	5493	static void perf_swevent_del(struct perf_event *event, int flags)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5494	{
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5495	hlist_del_rcu(&event->hlist_entry);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5496	}
				5497
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	5498	static void perf_swevent_start(struct perf_event *event, int flags)
Peter Zijlstra	c6df8d5	2010-06-03 11:21:20 +0200	[diff] [blame]	5499	{
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	5500	event->hw.state = 0;
Peter Zijlstra	c6df8d5	2010-06-03 11:21:20 +0200	[diff] [blame]	5501	}
				5502
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	5503	static void perf_swevent_stop(struct perf_event *event, int flags)
Peter Zijlstra	c6df8d5	2010-06-03 11:21:20 +0200	[diff] [blame]	5504	{
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	5505	event->hw.state = PERF_HES_STOPPED;
Peter Zijlstra	c6df8d5	2010-06-03 11:21:20 +0200	[diff] [blame]	5506	}
				5507
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	5508	/* Deref the hlist from the update side */
				5509	static inline struct swevent_hlist *
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	5510	swevent_hlist_deref(struct swevent_htable *swhash)
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	5511	{
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	5512	return rcu_dereference_protected(swhash->swevent_hlist,
				5513	lockdep_is_held(&swhash->hlist_mutex));
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	5514	}
				5515
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	5516	static void swevent_hlist_release(struct swevent_htable *swhash)
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5517	{
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	5518	struct swevent_hlist *hlist = swevent_hlist_deref(swhash);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5519
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	5520	if (!hlist)
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5521	return;
				5522
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	5523	rcu_assign_pointer(swhash->swevent_hlist, NULL);
Lai Jiangshan	fa4bbc4	2011-03-18 12:08:29 +0800	[diff] [blame]	5524	kfree_rcu(hlist, rcu_head);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5525	}
				5526
				5527	static void swevent_hlist_put_cpu(struct perf_event *event, int cpu)
				5528	{
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	5529	struct swevent_htable *swhash = &per_cpu(swevent_htable, cpu);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5530
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	5531	mutex_lock(&swhash->hlist_mutex);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5532
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	5533	if (!--swhash->hlist_refcount)
				5534	swevent_hlist_release(swhash);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5535
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	5536	mutex_unlock(&swhash->hlist_mutex);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5537	}
				5538
				5539	static void swevent_hlist_put(struct perf_event *event)
				5540	{
				5541	int cpu;
				5542
				5543	if (event->cpu != -1) {
				5544	swevent_hlist_put_cpu(event, event->cpu);
				5545	return;
				5546	}
				5547
				5548	for_each_possible_cpu(cpu)
				5549	swevent_hlist_put_cpu(event, cpu);
				5550	}
				5551
				5552	static int swevent_hlist_get_cpu(struct perf_event *event, int cpu)
				5553	{
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	5554	struct swevent_htable *swhash = &per_cpu(swevent_htable, cpu);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5555	int err = 0;
				5556
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	5557	mutex_lock(&swhash->hlist_mutex);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5558
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	5559	if (!swevent_hlist_deref(swhash) && cpu_online(cpu)) {
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5560	struct swevent_hlist *hlist;
				5561
				5562	hlist = kzalloc(sizeof(*hlist), GFP_KERNEL);
				5563	if (!hlist) {
				5564	err = -ENOMEM;
				5565	goto exit;
				5566	}
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	5567	rcu_assign_pointer(swhash->swevent_hlist, hlist);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5568	}
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	5569	swhash->hlist_refcount++;
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	5570	exit:
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	5571	mutex_unlock(&swhash->hlist_mutex);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5572
				5573	return err;
				5574	}
				5575
				5576	static int swevent_hlist_get(struct perf_event *event)
				5577	{
				5578	int err;
				5579	int cpu, failed_cpu;
				5580
				5581	if (event->cpu != -1)
				5582	return swevent_hlist_get_cpu(event, event->cpu);
				5583
				5584	get_online_cpus();
				5585	for_each_possible_cpu(cpu) {
				5586	err = swevent_hlist_get_cpu(event, cpu);
				5587	if (err) {
				5588	failed_cpu = cpu;
				5589	goto fail;
				5590	}
				5591	}
				5592	put_online_cpus();
				5593
				5594	return 0;
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	5595	fail:
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5596	for_each_possible_cpu(cpu) {
				5597	if (cpu == failed_cpu)
				5598	break;
				5599	swevent_hlist_put_cpu(event, cpu);
				5600	}
				5601
				5602	put_online_cpus();
				5603	return err;
				5604	}
				5605
Ingo Molnar	c5905af	2012-02-24 08:31:31 +0100	[diff] [blame]	5606	struct static_key perf_swevent_enabled[PERF_COUNT_SW_MAX];
Frederic Weisbecker	95476b6	2010-04-14 23:42:18 +0200	[diff] [blame]	5607
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5608	static void sw_perf_event_destroy(struct perf_event *event)
				5609	{
				5610	u64 event_id = event->attr.config;
				5611
				5612	WARN_ON(event->parent);
				5613
Ingo Molnar	c5905af	2012-02-24 08:31:31 +0100	[diff] [blame]	5614	static_key_slow_dec(&perf_swevent_enabled[event_id]);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5615	swevent_hlist_put(event);
				5616	}
				5617
				5618	static int perf_swevent_init(struct perf_event *event)
				5619	{
Tommi Rantala	8176cce	2013-04-13 22:49:14 +0300	[diff] [blame]	5620	u64 event_id = event->attr.config;
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5621
				5622	if (event->attr.type != PERF_TYPE_SOFTWARE)
				5623	return -ENOENT;
				5624
Stephane Eranian	2481c5f	2012-02-09 23:20:59 +0100	[diff] [blame]	5625	/*
				5626	* no branch sampling for software events
				5627	*/
				5628	if (has_branch_stack(event))
				5629	return -EOPNOTSUPP;
				5630
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5631	switch (event_id) {
				5632	case PERF_COUNT_SW_CPU_CLOCK:
				5633	case PERF_COUNT_SW_TASK_CLOCK:
				5634	return -ENOENT;
				5635
				5636	default:
				5637	break;
				5638	}
				5639
Dan Carpenter	ce67783	2010-10-24 21:50:42 +0200	[diff] [blame]	5640	if (event_id >= PERF_COUNT_SW_MAX)
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5641	return -ENOENT;
				5642
				5643	if (!event->parent) {
				5644	int err;
				5645
				5646	err = swevent_hlist_get(event);
				5647	if (err)
				5648	return err;
				5649
Ingo Molnar	c5905af	2012-02-24 08:31:31 +0100	[diff] [blame]	5650	static_key_slow_inc(&perf_swevent_enabled[event_id]);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5651	event->destroy = sw_perf_event_destroy;
				5652	}
				5653
				5654	return 0;
				5655	}
				5656
Peter Zijlstra	35edc2a	2011-11-20 20:36:02 +0100	[diff] [blame]	5657	static int perf_swevent_event_idx(struct perf_event *event)
				5658	{
				5659	return 0;
				5660	}
				5661
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5662	static struct pmu perf_swevent = {
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	5663	.task_ctx_nr = perf_sw_context,
				5664
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5665	.event_init = perf_swevent_init,
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	5666	.add = perf_swevent_add,
				5667	.del = perf_swevent_del,
				5668	.start = perf_swevent_start,
				5669	.stop = perf_swevent_stop,
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	5670	.read = perf_swevent_read,
Peter Zijlstra	35edc2a	2011-11-20 20:36:02 +0100	[diff] [blame]	5671
				5672	.event_idx = perf_swevent_event_idx,
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	5673	};
Frederic Weisbecker	95476b6	2010-04-14 23:42:18 +0200	[diff] [blame]	5674
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5675	#ifdef CONFIG_EVENT_TRACING
				5676
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	5677	static int perf_tp_filter_match(struct perf_event *event,
Frederic Weisbecker	95476b6	2010-04-14 23:42:18 +0200	[diff] [blame]	5678	struct perf_sample_data *data)
				5679	{
				5680	void *record = data->raw->data;
				5681
				5682	if (likely(!event->filter) \|\| filter_match_preds(event->filter, record))
				5683	return 1;
				5684	return 0;
				5685	}
				5686
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	5687	static int perf_tp_event_match(struct perf_event *event,
				5688	struct perf_sample_data *data,
				5689	struct pt_regs *regs)
				5690	{
Frederic Weisbecker	a0f7d0f	2011-03-07 21:27:09 +0100	[diff] [blame]	5691	if (event->hw.state & PERF_HES_STOPPED)
				5692	return 0;
Peter Zijlstra	580d607	2010-05-20 20:54:31 +0200	[diff] [blame]	5693	/*
				5694	* All tracepoints are from kernel-space.
				5695	*/
				5696	if (event->attr.exclude_kernel)
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	5697	return 0;
				5698
				5699	if (!perf_tp_filter_match(event, data))
				5700	return 0;
				5701
				5702	return 1;
				5703	}
				5704
				5705	void perf_tp_event(u64 addr, u64 count, void *record, int entry_size,
Andrew Vagin	e6dab5f	2012-07-11 18:14:58 +0400	[diff] [blame]	5706	struct pt_regs regs, struct hlist_head head, int rctx,
				5707	struct task_struct *task)
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	5708	{
				5709	struct perf_sample_data data;
				5710	struct perf_event *event;
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	5711
				5712	struct perf_raw_record raw = {
				5713	.size = entry_size,
				5714	.data = record,
				5715	};
				5716
Robert Richter	fd0d000	2012-04-02 20:19:08 +0200	[diff] [blame]	5717	perf_sample_data_init(&data, addr, 0);
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	5718	data.raw = &raw;
				5719
Sasha Levin	b67bfe0	2013-02-27 17:06:00 -0800	[diff] [blame]	5720	hlist_for_each_entry_rcu(event, head, hlist_entry) {
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	5721	if (perf_tp_event_match(event, &data, regs))
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	5722	perf_swevent_event(event, count, &data, regs);
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	5723	}
Peter Zijlstra	ecc55f8	2010-05-21 15:11:34 +0200	[diff] [blame]	5724
Andrew Vagin	e6dab5f	2012-07-11 18:14:58 +0400	[diff] [blame]	5725	/*
				5726	* If we got specified a target task, also iterate its context and
				5727	* deliver this event there too.
				5728	*/
				5729	if (task && task != current) {
				5730	struct perf_event_context *ctx;
				5731	struct trace_entry *entry = record;
				5732
				5733	rcu_read_lock();
				5734	ctx = rcu_dereference(task->perf_event_ctxp[perf_sw_context]);
				5735	if (!ctx)
				5736	goto unlock;
				5737
				5738	list_for_each_entry_rcu(event, &ctx->event_list, event_entry) {
				5739	if (event->attr.type != PERF_TYPE_TRACEPOINT)
				5740	continue;
				5741	if (event->attr.config != entry->type)
				5742	continue;
				5743	if (perf_tp_event_match(event, &data, regs))
				5744	perf_swevent_event(event, count, &data, regs);
				5745	}
				5746	unlock:
				5747	rcu_read_unlock();
				5748	}
				5749
Peter Zijlstra	ecc55f8	2010-05-21 15:11:34 +0200	[diff] [blame]	5750	perf_swevent_put_recursion_context(rctx);
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	5751	}
				5752	EXPORT_SYMBOL_GPL(perf_tp_event);
				5753
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5754	static void tp_perf_event_destroy(struct perf_event *event)
				5755	{
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	5756	perf_trace_destroy(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5757	}
				5758
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5759	static int perf_tp_event_init(struct perf_event *event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5760	{
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5761	int err;
				5762
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5763	if (event->attr.type != PERF_TYPE_TRACEPOINT)
				5764	return -ENOENT;
				5765
Stephane Eranian	2481c5f	2012-02-09 23:20:59 +0100	[diff] [blame]	5766	/*
				5767	* no branch sampling for tracepoint events
				5768	*/
				5769	if (has_branch_stack(event))
				5770	return -EOPNOTSUPP;
				5771
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	5772	err = perf_trace_init(event);
				5773	if (err)
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5774	return err;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5775
				5776	event->destroy = tp_perf_event_destroy;
				5777
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5778	return 0;
				5779	}
				5780
				5781	static struct pmu perf_tracepoint = {
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	5782	.task_ctx_nr = perf_sw_context,
				5783
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5784	.event_init = perf_tp_event_init,
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	5785	.add = perf_trace_add,
				5786	.del = perf_trace_del,
				5787	.start = perf_swevent_start,
				5788	.stop = perf_swevent_stop,
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5789	.read = perf_swevent_read,
Peter Zijlstra	35edc2a	2011-11-20 20:36:02 +0100	[diff] [blame]	5790
				5791	.event_idx = perf_swevent_event_idx,
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5792	};
				5793
				5794	static inline void perf_tp_register(void)
				5795	{
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	5796	perf_pmu_register(&perf_tracepoint, "tracepoint", PERF_TYPE_TRACEPOINT);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5797	}
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	5798
				5799	static int perf_event_set_filter(struct perf_event event, void __user arg)
				5800	{
				5801	char *filter_str;
				5802	int ret;
				5803
				5804	if (event->attr.type != PERF_TYPE_TRACEPOINT)
				5805	return -EINVAL;
				5806
				5807	filter_str = strndup_user(arg, PAGE_SIZE);
				5808	if (IS_ERR(filter_str))
				5809	return PTR_ERR(filter_str);
				5810
				5811	ret = ftrace_profile_set_filter(event, event->attr.config, filter_str);
				5812
				5813	kfree(filter_str);
				5814	return ret;
				5815	}
				5816
				5817	static void perf_event_free_filter(struct perf_event *event)
				5818	{
				5819	ftrace_profile_free_filter(event);
				5820	}
				5821
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5822	#else
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	5823
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5824	static inline void perf_tp_register(void)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5825	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5826	}
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	5827
				5828	static int perf_event_set_filter(struct perf_event event, void __user arg)
				5829	{
				5830	return -ENOENT;
				5831	}
				5832
				5833	static void perf_event_free_filter(struct perf_event *event)
				5834	{
				5835	}
				5836
Li Zefan	07b139c	2009-12-21 14:27:35 +0800	[diff] [blame]	5837	#endif /* CONFIG_EVENT_TRACING */
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5838
Frederic Weisbecker	24f1e32c	2009-09-09 19:22:48 +0200	[diff] [blame]	5839	#ifdef CONFIG_HAVE_HW_BREAKPOINT
Frederic Weisbecker	f5ffe02	2009-11-23 15:42:34 +0100	[diff] [blame]	5840	void perf_bp_event(struct perf_event bp, void data)
Frederic Weisbecker	24f1e32c	2009-09-09 19:22:48 +0200	[diff] [blame]	5841	{
Frederic Weisbecker	f5ffe02	2009-11-23 15:42:34 +0100	[diff] [blame]	5842	struct perf_sample_data sample;
				5843	struct pt_regs *regs = data;
				5844
Robert Richter	fd0d000	2012-04-02 20:19:08 +0200	[diff] [blame]	5845	perf_sample_data_init(&sample, bp->attr.bp_addr, 0);
Frederic Weisbecker	f5ffe02	2009-11-23 15:42:34 +0100	[diff] [blame]	5846
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	5847	if (!bp->hw.state && !perf_exclude_event(bp, regs))
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	5848	perf_swevent_event(bp, 1, &sample, regs);
Frederic Weisbecker	24f1e32c	2009-09-09 19:22:48 +0200	[diff] [blame]	5849	}
				5850	#endif
				5851
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5852	/*
				5853	* hrtimer based swevent callback
				5854	*/
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5855
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5856	static enum hrtimer_restart perf_swevent_hrtimer(struct hrtimer *hrtimer)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5857	{
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5858	enum hrtimer_restart ret = HRTIMER_RESTART;
				5859	struct perf_sample_data data;
				5860	struct pt_regs *regs;
				5861	struct perf_event *event;
				5862	u64 period;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5863
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5864	event = container_of(hrtimer, struct perf_event, hw.hrtimer);
Peter Zijlstra	ba3dd36	2011-02-15 12:41:46 +0100	[diff] [blame]	5865
				5866	if (event->state != PERF_EVENT_STATE_ACTIVE)
				5867	return HRTIMER_NORESTART;
				5868
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5869	event->pmu->read(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5870
Robert Richter	fd0d000	2012-04-02 20:19:08 +0200	[diff] [blame]	5871	perf_sample_data_init(&data, 0, event->hw.last_period);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5872	regs = get_irq_regs();
				5873
				5874	if (regs && !perf_exclude_event(event, regs)) {
Paul E. McKenney	77aeeeb	2011-11-10 16:02:52 -0800	[diff] [blame]	5875	if (!(event->attr.exclude_idle && is_idle_task(current)))
Robert Richter	33b07b8	2012-04-05 18:24:43 +0200	[diff] [blame]	5876	if (__perf_event_overflow(event, 1, &data, regs))
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5877	ret = HRTIMER_NORESTART;
				5878	}
				5879
				5880	period = max_t(u64, 10000, event->hw.sample_period);
				5881	hrtimer_forward_now(hrtimer, ns_to_ktime(period));
				5882
				5883	return ret;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5884	}
				5885
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5886	static void perf_swevent_start_hrtimer(struct perf_event *event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5887	{
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5888	struct hw_perf_event *hwc = &event->hw;
Franck Bui-Huu	5d508e8	2010-11-23 16:21:45 +0100	[diff] [blame]	5889	s64 period;
				5890
				5891	if (!is_sampling_event(event))
				5892	return;
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5893
Franck Bui-Huu	5d508e8	2010-11-23 16:21:45 +0100	[diff] [blame]	5894	period = local64_read(&hwc->period_left);
				5895	if (period) {
				5896	if (period < 0)
				5897	period = 10000;
Peter Zijlstra	fa407f3	2010-06-24 12:35:12 +0200	[diff] [blame]	5898
Franck Bui-Huu	5d508e8	2010-11-23 16:21:45 +0100	[diff] [blame]	5899	local64_set(&hwc->period_left, 0);
				5900	} else {
				5901	period = max_t(u64, 10000, hwc->sample_period);
				5902	}
				5903	__hrtimer_start_range_ns(&hwc->hrtimer,
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5904	ns_to_ktime(period), 0,
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	5905	HRTIMER_MODE_REL_PINNED, 0);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5906	}
				5907
				5908	static void perf_swevent_cancel_hrtimer(struct perf_event *event)
				5909	{
				5910	struct hw_perf_event *hwc = &event->hw;
				5911
Franck Bui-Huu	6c7e550	2010-11-23 16:21:43 +0100	[diff] [blame]	5912	if (is_sampling_event(event)) {
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5913	ktime_t remaining = hrtimer_get_remaining(&hwc->hrtimer);
Peter Zijlstra	fa407f3	2010-06-24 12:35:12 +0200	[diff] [blame]	5914	local64_set(&hwc->period_left, ktime_to_ns(remaining));
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5915
				5916	hrtimer_cancel(&hwc->hrtimer);
				5917	}
				5918	}
				5919
Peter Zijlstra	ba3dd36	2011-02-15 12:41:46 +0100	[diff] [blame]	5920	static void perf_swevent_init_hrtimer(struct perf_event *event)
				5921	{
				5922	struct hw_perf_event *hwc = &event->hw;
				5923
				5924	if (!is_sampling_event(event))
				5925	return;
				5926
				5927	hrtimer_init(&hwc->hrtimer, CLOCK_MONOTONIC, HRTIMER_MODE_REL);
				5928	hwc->hrtimer.function = perf_swevent_hrtimer;
				5929
				5930	/*
				5931	* Since hrtimers have a fixed rate, we can do a static freq->period
				5932	* mapping and avoid the whole period adjust feedback stuff.
				5933	*/
				5934	if (event->attr.freq) {
				5935	long freq = event->attr.sample_freq;
				5936
				5937	event->attr.sample_period = NSEC_PER_SEC / freq;
				5938	hwc->sample_period = event->attr.sample_period;
				5939	local64_set(&hwc->period_left, hwc->sample_period);
Namhyung Kim	778141e	2013-03-18 11:41:46 +0900	[diff] [blame]	5940	hwc->last_period = hwc->sample_period;
Peter Zijlstra	ba3dd36	2011-02-15 12:41:46 +0100	[diff] [blame]	5941	event->attr.freq = 0;
				5942	}
				5943	}
				5944
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5945	/*
				5946	* Software event: cpu wall time clock
				5947	*/
				5948
				5949	static void cpu_clock_event_update(struct perf_event *event)
				5950	{
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5951	s64 prev;
				5952	u64 now;
				5953
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	5954	now = local_clock();
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5955	prev = local64_xchg(&event->hw.prev_count, now);
				5956	local64_add(now - prev, &event->count);
				5957	}
				5958
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	5959	static void cpu_clock_event_start(struct perf_event *event, int flags)
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5960	{
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	5961	local64_set(&event->hw.prev_count, local_clock());
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5962	perf_swevent_start_hrtimer(event);
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	5963	}
				5964
				5965	static void cpu_clock_event_stop(struct perf_event *event, int flags)
				5966	{
				5967	perf_swevent_cancel_hrtimer(event);
				5968	cpu_clock_event_update(event);
				5969	}
				5970
				5971	static int cpu_clock_event_add(struct perf_event *event, int flags)
				5972	{
				5973	if (flags & PERF_EF_START)
				5974	cpu_clock_event_start(event, flags);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5975
				5976	return 0;
				5977	}
				5978
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	5979	static void cpu_clock_event_del(struct perf_event *event, int flags)
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5980	{
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	5981	cpu_clock_event_stop(event, flags);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5982	}
				5983
				5984	static void cpu_clock_event_read(struct perf_event *event)
				5985	{
				5986	cpu_clock_event_update(event);
				5987	}
				5988
				5989	static int cpu_clock_event_init(struct perf_event *event)
				5990	{
				5991	if (event->attr.type != PERF_TYPE_SOFTWARE)
				5992	return -ENOENT;
				5993
				5994	if (event->attr.config != PERF_COUNT_SW_CPU_CLOCK)
				5995	return -ENOENT;
				5996
Stephane Eranian	2481c5f	2012-02-09 23:20:59 +0100	[diff] [blame]	5997	/*
				5998	* no branch sampling for software events
				5999	*/
				6000	if (has_branch_stack(event))
				6001	return -EOPNOTSUPP;
				6002
Peter Zijlstra	ba3dd36	2011-02-15 12:41:46 +0100	[diff] [blame]	6003	perf_swevent_init_hrtimer(event);
				6004
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	6005	return 0;
				6006	}
				6007
				6008	static struct pmu perf_cpu_clock = {
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	6009	.task_ctx_nr = perf_sw_context,
				6010
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	6011	.event_init = cpu_clock_event_init,
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	6012	.add = cpu_clock_event_add,
				6013	.del = cpu_clock_event_del,
				6014	.start = cpu_clock_event_start,
				6015	.stop = cpu_clock_event_stop,
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	6016	.read = cpu_clock_event_read,
Peter Zijlstra	35edc2a	2011-11-20 20:36:02 +0100	[diff] [blame]	6017
				6018	.event_idx = perf_swevent_event_idx,
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	6019	};
				6020
				6021	/*
				6022	* Software event: task time clock
				6023	*/
				6024
				6025	static void task_clock_event_update(struct perf_event *event, u64 now)
				6026	{
				6027	u64 prev;
				6028	s64 delta;
				6029
				6030	prev = local64_xchg(&event->hw.prev_count, now);
				6031	delta = now - prev;
				6032	local64_add(delta, &event->count);
				6033	}
				6034
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	6035	static void task_clock_event_start(struct perf_event *event, int flags)
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	6036	{
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	6037	local64_set(&event->hw.prev_count, event->ctx->time);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	6038	perf_swevent_start_hrtimer(event);
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	6039	}
				6040
				6041	static void task_clock_event_stop(struct perf_event *event, int flags)
				6042	{
				6043	perf_swevent_cancel_hrtimer(event);
				6044	task_clock_event_update(event, event->ctx->time);
				6045	}
				6046
				6047	static int task_clock_event_add(struct perf_event *event, int flags)
				6048	{
				6049	if (flags & PERF_EF_START)
				6050	task_clock_event_start(event, flags);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	6051
				6052	return 0;
				6053	}
				6054
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	6055	static void task_clock_event_del(struct perf_event *event, int flags)
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	6056	{
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	6057	task_clock_event_stop(event, PERF_EF_UPDATE);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	6058	}
				6059
				6060	static void task_clock_event_read(struct perf_event *event)
				6061	{
Peter Zijlstra	768a06e	2011-02-22 16:52:24 +0100	[diff] [blame]	6062	u64 now = perf_clock();
				6063	u64 delta = now - event->ctx->timestamp;
				6064	u64 time = event->ctx->time + delta;
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	6065
				6066	task_clock_event_update(event, time);
				6067	}
				6068
				6069	static int task_clock_event_init(struct perf_event *event)
				6070	{
				6071	if (event->attr.type != PERF_TYPE_SOFTWARE)
				6072	return -ENOENT;
				6073
				6074	if (event->attr.config != PERF_COUNT_SW_TASK_CLOCK)
				6075	return -ENOENT;
				6076
Stephane Eranian	2481c5f	2012-02-09 23:20:59 +0100	[diff] [blame]	6077	/*
				6078	* no branch sampling for software events
				6079	*/
				6080	if (has_branch_stack(event))
				6081	return -EOPNOTSUPP;
				6082
Peter Zijlstra	ba3dd36	2011-02-15 12:41:46 +0100	[diff] [blame]	6083	perf_swevent_init_hrtimer(event);
				6084
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	6085	return 0;
				6086	}
				6087
				6088	static struct pmu perf_task_clock = {
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	6089	.task_ctx_nr = perf_sw_context,
				6090
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	6091	.event_init = task_clock_event_init,
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	6092	.add = task_clock_event_add,
				6093	.del = task_clock_event_del,
				6094	.start = task_clock_event_start,
				6095	.stop = task_clock_event_stop,
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	6096	.read = task_clock_event_read,
Peter Zijlstra	35edc2a	2011-11-20 20:36:02 +0100	[diff] [blame]	6097
				6098	.event_idx = perf_swevent_event_idx,
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	6099	};
				6100
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	6101	static void perf_pmu_nop_void(struct pmu *pmu)
				6102	{
				6103	}
				6104
				6105	static int perf_pmu_nop_int(struct pmu *pmu)
				6106	{
				6107	return 0;
				6108	}
				6109
				6110	static void perf_pmu_start_txn(struct pmu *pmu)
				6111	{
				6112	perf_pmu_disable(pmu);
				6113	}
				6114
				6115	static int perf_pmu_commit_txn(struct pmu *pmu)
				6116	{
				6117	perf_pmu_enable(pmu);
				6118	return 0;
				6119	}
				6120
				6121	static void perf_pmu_cancel_txn(struct pmu *pmu)
				6122	{
				6123	perf_pmu_enable(pmu);
				6124	}
				6125
Peter Zijlstra	35edc2a	2011-11-20 20:36:02 +0100	[diff] [blame]	6126	static int perf_event_idx_default(struct perf_event *event)
				6127	{
				6128	return event->hw.idx + 1;
				6129	}
				6130
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	6131	/*
				6132	* Ensures all contexts with the same task_ctx_nr have the same
				6133	* pmu_cpu_context too.
				6134	*/
				6135	static void *find_pmu_context(int ctxn)
				6136	{
				6137	struct pmu *pmu;
				6138
				6139	if (ctxn < 0)
				6140	return NULL;
				6141
				6142	list_for_each_entry(pmu, &pmus, entry) {
				6143	if (pmu->task_ctx_nr == ctxn)
				6144	return pmu->pmu_cpu_context;
				6145	}
				6146
				6147	return NULL;
				6148	}
				6149
Peter Zijlstra	5167695	2010-12-07 14:18:20 +0100	[diff] [blame]	6150	static void update_pmu_context(struct pmu pmu, struct pmu old_pmu)
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	6151	{
Peter Zijlstra	5167695	2010-12-07 14:18:20 +0100	[diff] [blame]	6152	int cpu;
				6153
				6154	for_each_possible_cpu(cpu) {
				6155	struct perf_cpu_context *cpuctx;
				6156
				6157	cpuctx = per_cpu_ptr(pmu->pmu_cpu_context, cpu);
				6158
Peter Zijlstra	3f1f332	2012-10-02 15:38:52 +0200	[diff] [blame]	6159	if (cpuctx->unique_pmu == old_pmu)
				6160	cpuctx->unique_pmu = pmu;
Peter Zijlstra	5167695	2010-12-07 14:18:20 +0100	[diff] [blame]	6161	}
				6162	}
				6163
				6164	static void free_pmu_context(struct pmu *pmu)
				6165	{
				6166	struct pmu *i;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	6167
				6168	mutex_lock(&pmus_lock);
				6169	/*
				6170	* Like a real lame refcount.
				6171	*/
Peter Zijlstra	5167695	2010-12-07 14:18:20 +0100	[diff] [blame]	6172	list_for_each_entry(i, &pmus, entry) {
				6173	if (i->pmu_cpu_context == pmu->pmu_cpu_context) {
				6174	update_pmu_context(i, pmu);
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	6175	goto out;
Peter Zijlstra	5167695	2010-12-07 14:18:20 +0100	[diff] [blame]	6176	}
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	6177	}
				6178
Peter Zijlstra	5167695	2010-12-07 14:18:20 +0100	[diff] [blame]	6179	free_percpu(pmu->pmu_cpu_context);
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	6180	out:
				6181	mutex_unlock(&pmus_lock);
				6182	}
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	6183	static struct idr pmu_idr;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	6184
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	6185	static ssize_t
				6186	type_show(struct device dev, struct device_attribute attr, char *page)
				6187	{
				6188	struct pmu *pmu = dev_get_drvdata(dev);
				6189
				6190	return snprintf(page, PAGE_SIZE-1, "%d\n", pmu->type);
				6191	}
				6192
Stephane Eranian	62b8563	2013-04-03 14:21:34 +0200	[diff] [blame]	6193	static ssize_t
				6194	perf_event_mux_interval_ms_show(struct device *dev,
				6195	struct device_attribute *attr,
				6196	char *page)
				6197	{
				6198	struct pmu *pmu = dev_get_drvdata(dev);
				6199
				6200	return snprintf(page, PAGE_SIZE-1, "%d\n", pmu->hrtimer_interval_ms);
				6201	}
				6202
				6203	static ssize_t
				6204	perf_event_mux_interval_ms_store(struct device *dev,
				6205	struct device_attribute *attr,
				6206	const char *buf, size_t count)
				6207	{
				6208	struct pmu *pmu = dev_get_drvdata(dev);
				6209	int timer, cpu, ret;
				6210
				6211	ret = kstrtoint(buf, 0, &timer);
				6212	if (ret)
				6213	return ret;
				6214
				6215	if (timer < 1)
				6216	return -EINVAL;
				6217
				6218	/* same value, noting to do */
				6219	if (timer == pmu->hrtimer_interval_ms)
				6220	return count;
				6221
				6222	pmu->hrtimer_interval_ms = timer;
				6223
				6224	/* update all cpuctx for this PMU */
				6225	for_each_possible_cpu(cpu) {
				6226	struct perf_cpu_context *cpuctx;
				6227	cpuctx = per_cpu_ptr(pmu->pmu_cpu_context, cpu);
				6228	cpuctx->hrtimer_interval = ns_to_ktime(NSEC_PER_MSEC * timer);
				6229
				6230	if (hrtimer_active(&cpuctx->hrtimer))
				6231	hrtimer_forward_now(&cpuctx->hrtimer, cpuctx->hrtimer_interval);
				6232	}
				6233
				6234	return count;
				6235	}
				6236
				6237	#define __ATTR_RW(attr) __ATTR(attr, 0644, attr##_show, attr##_store)
				6238
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	6239	static struct device_attribute pmu_dev_attrs[] = {
Stephane Eranian	62b8563	2013-04-03 14:21:34 +0200	[diff] [blame]	6240	__ATTR_RO(type),
				6241	__ATTR_RW(perf_event_mux_interval_ms),
				6242	__ATTR_NULL,
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	6243	};
				6244
				6245	static int pmu_bus_running;
				6246	static struct bus_type pmu_bus = {
				6247	.name = "event_source",
				6248	.dev_attrs = pmu_dev_attrs,
				6249	};
				6250
				6251	static void pmu_dev_release(struct device *dev)
				6252	{
				6253	kfree(dev);
				6254	}
				6255
				6256	static int pmu_dev_alloc(struct pmu *pmu)
				6257	{
				6258	int ret = -ENOMEM;
				6259
				6260	pmu->dev = kzalloc(sizeof(struct device), GFP_KERNEL);
				6261	if (!pmu->dev)
				6262	goto out;
				6263
Peter Zijlstra	0c9d42e	2011-11-20 23:30:47 +0100	[diff] [blame]	6264	pmu->dev->groups = pmu->attr_groups;
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	6265	device_initialize(pmu->dev);
				6266	ret = dev_set_name(pmu->dev, "%s", pmu->name);
				6267	if (ret)
				6268	goto free_dev;
				6269
				6270	dev_set_drvdata(pmu->dev, pmu);
				6271	pmu->dev->bus = &pmu_bus;
				6272	pmu->dev->release = pmu_dev_release;
				6273	ret = device_add(pmu->dev);
				6274	if (ret)
				6275	goto free_dev;
				6276
				6277	out:
				6278	return ret;
				6279
				6280	free_dev:
				6281	put_device(pmu->dev);
				6282	goto out;
				6283	}
				6284
Peter Zijlstra	547e9fd	2011-01-19 12:51:39 +0100	[diff] [blame]	6285	static struct lock_class_key cpuctx_mutex;
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	6286	static struct lock_class_key cpuctx_lock;
Peter Zijlstra	547e9fd	2011-01-19 12:51:39 +0100	[diff] [blame]	6287
Mischa Jonker	03d8e80	2013-06-04 11:45:48 +0200	[diff] [blame]	6288	int perf_pmu_register(struct pmu pmu, const char name, int type)
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	6289	{
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	6290	int cpu, ret;
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	6291
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	6292	mutex_lock(&pmus_lock);
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	6293	ret = -ENOMEM;
				6294	pmu->pmu_disable_count = alloc_percpu(int);
				6295	if (!pmu->pmu_disable_count)
				6296	goto unlock;
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	6297
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	6298	pmu->type = -1;
				6299	if (!name)
				6300	goto skip_type;
				6301	pmu->name = name;
				6302
				6303	if (type < 0) {
Tejun Heo	0e9c3be	2013-02-27 17:04:55 -0800	[diff] [blame]	6304	type = idr_alloc(&pmu_idr, pmu, PERF_TYPE_MAX, 0, GFP_KERNEL);
				6305	if (type < 0) {
				6306	ret = type;
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	6307	goto free_pdc;
				6308	}
				6309	}
				6310	pmu->type = type;
				6311
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	6312	if (pmu_bus_running) {
				6313	ret = pmu_dev_alloc(pmu);
				6314	if (ret)
				6315	goto free_idr;
				6316	}
				6317
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	6318	skip_type:
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	6319	pmu->pmu_cpu_context = find_pmu_context(pmu->task_ctx_nr);
				6320	if (pmu->pmu_cpu_context)
				6321	goto got_cpu_context;
				6322
Wei Yongjun	c481420	2013-04-12 11:05:54 +0800	[diff] [blame]	6323	ret = -ENOMEM;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	6324	pmu->pmu_cpu_context = alloc_percpu(struct perf_cpu_context);
				6325	if (!pmu->pmu_cpu_context)
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	6326	goto free_dev;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	6327
				6328	for_each_possible_cpu(cpu) {
				6329	struct perf_cpu_context *cpuctx;
				6330
				6331	cpuctx = per_cpu_ptr(pmu->pmu_cpu_context, cpu);
Peter Zijlstra	eb18447	2010-09-07 15:55:13 +0200	[diff] [blame]	6332	__perf_event_init_context(&cpuctx->ctx);
Peter Zijlstra	547e9fd	2011-01-19 12:51:39 +0100	[diff] [blame]	6333	lockdep_set_class(&cpuctx->ctx.mutex, &cpuctx_mutex);
Peter Zijlstra	facc430	2011-04-09 21:17:42 +0200	[diff] [blame]	6334	lockdep_set_class(&cpuctx->ctx.lock, &cpuctx_lock);
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	6335	cpuctx->ctx.type = cpu_context;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	6336	cpuctx->ctx.pmu = pmu;
Stephane Eranian	9e63020	2013-04-03 14:21:33 +0200	[diff] [blame]	6337
				6338	__perf_cpu_hrtimer_init(cpuctx, cpu);
				6339
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	6340	INIT_LIST_HEAD(&cpuctx->rotation_list);
Peter Zijlstra	3f1f332	2012-10-02 15:38:52 +0200	[diff] [blame]	6341	cpuctx->unique_pmu = pmu;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	6342	}
				6343
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	6344	got_cpu_context:
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	6345	if (!pmu->start_txn) {
				6346	if (pmu->pmu_enable) {
				6347	/*
				6348	* If we have pmu_enable/pmu_disable calls, install
				6349	* transaction stubs that use that to try and batch
				6350	* hardware accesses.
				6351	*/
				6352	pmu->start_txn = perf_pmu_start_txn;
				6353	pmu->commit_txn = perf_pmu_commit_txn;
				6354	pmu->cancel_txn = perf_pmu_cancel_txn;
				6355	} else {
				6356	pmu->start_txn = perf_pmu_nop_void;
				6357	pmu->commit_txn = perf_pmu_nop_int;
				6358	pmu->cancel_txn = perf_pmu_nop_void;
				6359	}
				6360	}
				6361
				6362	if (!pmu->pmu_enable) {
				6363	pmu->pmu_enable = perf_pmu_nop_void;
				6364	pmu->pmu_disable = perf_pmu_nop_void;
				6365	}
				6366
Peter Zijlstra	35edc2a	2011-11-20 20:36:02 +0100	[diff] [blame]	6367	if (!pmu->event_idx)
				6368	pmu->event_idx = perf_event_idx_default;
				6369
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	6370	list_add_rcu(&pmu->entry, &pmus);
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	6371	ret = 0;
				6372	unlock:
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	6373	mutex_unlock(&pmus_lock);
				6374
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	6375	return ret;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	6376
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	6377	free_dev:
				6378	device_del(pmu->dev);
				6379	put_device(pmu->dev);
				6380
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	6381	free_idr:
				6382	if (pmu->type >= PERF_TYPE_MAX)
				6383	idr_remove(&pmu_idr, pmu->type);
				6384
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	6385	free_pdc:
				6386	free_percpu(pmu->pmu_disable_count);
				6387	goto unlock;
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	6388	}
				6389
				6390	void perf_pmu_unregister(struct pmu *pmu)
				6391	{
				6392	mutex_lock(&pmus_lock);
				6393	list_del_rcu(&pmu->entry);
				6394	mutex_unlock(&pmus_lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6395
				6396	/*
Peter Zijlstra	cde8e88	2010-09-13 11:06:55 +0200	[diff] [blame]	6397	* We dereference the pmu list under both SRCU and regular RCU, so
				6398	* synchronize against both of those.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6399	*/
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	6400	synchronize_srcu(&pmus_srcu);
Peter Zijlstra	cde8e88	2010-09-13 11:06:55 +0200	[diff] [blame]	6401	synchronize_rcu();
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6402
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	6403	free_percpu(pmu->pmu_disable_count);
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	6404	if (pmu->type >= PERF_TYPE_MAX)
				6405	idr_remove(&pmu_idr, pmu->type);
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	6406	device_del(pmu->dev);
				6407	put_device(pmu->dev);
Peter Zijlstra	5167695	2010-12-07 14:18:20 +0100	[diff] [blame]	6408	free_pmu_context(pmu);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	6409	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6410
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	6411	struct pmu perf_init_event(struct perf_event event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6412	{
Peter Zijlstra	51b0fe3	2010-06-11 13:35:57 +0200	[diff] [blame]	6413	struct pmu *pmu = NULL;
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	6414	int idx;
Lin Ming	940c5b2	2011-02-27 21:13:31 +0800	[diff] [blame]	6415	int ret;
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	6416
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	6417	idx = srcu_read_lock(&pmus_srcu);
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	6418
				6419	rcu_read_lock();
				6420	pmu = idr_find(&pmu_idr, event->attr.type);
				6421	rcu_read_unlock();
Lin Ming	940c5b2	2011-02-27 21:13:31 +0800	[diff] [blame]	6422	if (pmu) {
Mark Rutland	7e5b2a0	2011-08-11 12:31:20 +0100	[diff] [blame]	6423	event->pmu = pmu;
Lin Ming	940c5b2	2011-02-27 21:13:31 +0800	[diff] [blame]	6424	ret = pmu->event_init(event);
				6425	if (ret)
				6426	pmu = ERR_PTR(ret);
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	6427	goto unlock;
Lin Ming	940c5b2	2011-02-27 21:13:31 +0800	[diff] [blame]	6428	}
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	6429
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	6430	list_for_each_entry_rcu(pmu, &pmus, entry) {
Mark Rutland	7e5b2a0	2011-08-11 12:31:20 +0100	[diff] [blame]	6431	event->pmu = pmu;
Lin Ming	940c5b2	2011-02-27 21:13:31 +0800	[diff] [blame]	6432	ret = pmu->event_init(event);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	6433	if (!ret)
Peter Zijlstra	e5f4d33	2010-09-10 17:38:06 +0200	[diff] [blame]	6434	goto unlock;
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	6435
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	6436	if (ret != -ENOENT) {
				6437	pmu = ERR_PTR(ret);
Peter Zijlstra	e5f4d33	2010-09-10 17:38:06 +0200	[diff] [blame]	6438	goto unlock;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6439	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6440	}
Peter Zijlstra	e5f4d33	2010-09-10 17:38:06 +0200	[diff] [blame]	6441	pmu = ERR_PTR(-ENOENT);
				6442	unlock:
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	6443	srcu_read_unlock(&pmus_srcu, idx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6444
				6445	return pmu;
				6446	}
				6447
				6448	/*
				6449	* Allocate and initialize a event structure
				6450	*/
				6451	static struct perf_event *
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	6452	perf_event_alloc(struct perf_event_attr *attr, int cpu,
Peter Zijlstra	d580ff8	2010-10-14 17:43:23 +0200	[diff] [blame]	6453	struct task_struct *task,
				6454	struct perf_event *group_leader,
				6455	struct perf_event *parent_event,
Avi Kivity	4dc0da8	2011-06-29 18:42:35 +0300	[diff] [blame]	6456	perf_overflow_handler_t overflow_handler,
				6457	void *context)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6458	{
Peter Zijlstra	51b0fe3	2010-06-11 13:35:57 +0200	[diff] [blame]	6459	struct pmu *pmu;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6460	struct perf_event *event;
				6461	struct hw_perf_event *hwc;
				6462	long err;
				6463
Oleg Nesterov	66832eb	2011-01-18 17:10:32 +0100	[diff] [blame]	6464	if ((unsigned)cpu >= nr_cpu_ids) {
				6465	if (!task \|\| cpu != -1)
				6466	return ERR_PTR(-EINVAL);
				6467	}
				6468
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	6469	event = kzalloc(sizeof(*event), GFP_KERNEL);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6470	if (!event)
				6471	return ERR_PTR(-ENOMEM);
				6472
				6473	/*
				6474	* Single events are their own group leaders, with an
				6475	* empty sibling list:
				6476	*/
				6477	if (!group_leader)
				6478	group_leader = event;
				6479
				6480	mutex_init(&event->child_mutex);
				6481	INIT_LIST_HEAD(&event->child_list);
				6482
				6483	INIT_LIST_HEAD(&event->group_entry);
				6484	INIT_LIST_HEAD(&event->event_entry);
				6485	INIT_LIST_HEAD(&event->sibling_list);
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	6486	INIT_LIST_HEAD(&event->rb_entry);
				6487
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6488	init_waitqueue_head(&event->waitq);
Peter Zijlstra	e360adb	2010-10-14 14:01:34 +0800	[diff] [blame]	6489	init_irq_work(&event->pending, perf_pending_event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6490
				6491	mutex_init(&event->mmap_mutex);
				6492
Al Viro	a6fa941	2012-08-20 14:59:25 +0100	[diff] [blame]	6493	atomic_long_set(&event->refcount, 1);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6494	event->cpu = cpu;
				6495	event->attr = *attr;
				6496	event->group_leader = group_leader;
				6497	event->pmu = NULL;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6498	event->oncpu = -1;
				6499
				6500	event->parent = parent_event;
				6501
Eric W. Biederman	17cf22c	2010-03-02 14:51:53 -0800	[diff] [blame]	6502	event->ns = get_pid_ns(task_active_pid_ns(current));
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6503	event->id = atomic64_inc_return(&perf_event_id);
				6504
				6505	event->state = PERF_EVENT_STATE_INACTIVE;
				6506
Peter Zijlstra	d580ff8	2010-10-14 17:43:23 +0200	[diff] [blame]	6507	if (task) {
				6508	event->attach_state = PERF_ATTACH_TASK;
Oleg Nesterov	f22c1bb	2013-02-02 16:27:52 +0100	[diff] [blame]	6509
				6510	if (attr->type == PERF_TYPE_TRACEPOINT)
				6511	event->hw.tp_target = task;
Peter Zijlstra	d580ff8	2010-10-14 17:43:23 +0200	[diff] [blame]	6512	#ifdef CONFIG_HAVE_HW_BREAKPOINT
				6513	/*
				6514	* hw_breakpoint is a bit difficult here..
				6515	*/
Oleg Nesterov	f22c1bb	2013-02-02 16:27:52 +0100	[diff] [blame]	6516	else if (attr->type == PERF_TYPE_BREAKPOINT)
Peter Zijlstra	d580ff8	2010-10-14 17:43:23 +0200	[diff] [blame]	6517	event->hw.bp_target = task;
				6518	#endif
				6519	}
				6520
Avi Kivity	4dc0da8	2011-06-29 18:42:35 +0300	[diff] [blame]	6521	if (!overflow_handler && parent_event) {
Frederic Weisbecker	b326e95	2009-12-05 09:44:31 +0100	[diff] [blame]	6522	overflow_handler = parent_event->overflow_handler;
Avi Kivity	4dc0da8	2011-06-29 18:42:35 +0300	[diff] [blame]	6523	context = parent_event->overflow_handler_context;
				6524	}
Oleg Nesterov	66832eb	2011-01-18 17:10:32 +0100	[diff] [blame]	6525
Frederic Weisbecker	b326e95	2009-12-05 09:44:31 +0100	[diff] [blame]	6526	event->overflow_handler = overflow_handler;
Avi Kivity	4dc0da8	2011-06-29 18:42:35 +0300	[diff] [blame]	6527	event->overflow_handler_context = context;
Frederic Weisbecker	97eaf53	2009-10-18 15:33:50 +0200	[diff] [blame]	6528
Jiri Olsa	0231bb5	2013-02-01 11:23:45 +0100	[diff] [blame]	6529	perf_event__state_init(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6530
				6531	pmu = NULL;
				6532
				6533	hwc = &event->hw;
				6534	hwc->sample_period = attr->sample_period;
				6535	if (attr->freq && attr->sample_freq)
				6536	hwc->sample_period = 1;
				6537	hwc->last_period = hwc->sample_period;
				6538
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	6539	local64_set(&hwc->period_left, hwc->sample_period);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6540
				6541	/*
				6542	* we currently do not support PERF_FORMAT_GROUP on inherited events
				6543	*/
				6544	if (attr->inherit && (attr->read_format & PERF_FORMAT_GROUP))
				6545	goto done;
				6546
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	6547	pmu = perf_init_event(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6548
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6549	done:
				6550	err = 0;
				6551	if (!pmu)
				6552	err = -EINVAL;
				6553	else if (IS_ERR(pmu))
				6554	err = PTR_ERR(pmu);
				6555
				6556	if (err) {
				6557	if (event->ns)
				6558	put_pid_ns(event->ns);
				6559	kfree(event);
				6560	return ERR_PTR(err);
				6561	}
				6562
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6563	if (!event->parent) {
Peter Zijlstra	82cd6de	2010-10-14 17:57:23 +0200	[diff] [blame]	6564	if (event->attach_state & PERF_ATTACH_TASK)
Ingo Molnar	c5905af	2012-02-24 08:31:31 +0100	[diff] [blame]	6565	static_key_slow_inc(&perf_sched_events.key);
Eric B Munson	3af9e85	2010-05-18 15:30:49 +0100	[diff] [blame]	6566	if (event->attr.mmap \|\| event->attr.mmap_data)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6567	atomic_inc(&nr_mmap_events);
				6568	if (event->attr.comm)
				6569	atomic_inc(&nr_comm_events);
				6570	if (event->attr.task)
				6571	atomic_inc(&nr_task_events);
Frederic Weisbecker	927c7a9	2010-07-01 16:20:36 +0200	[diff] [blame]	6572	if (event->attr.sample_type & PERF_SAMPLE_CALLCHAIN) {
				6573	err = get_callchain_buffers();
				6574	if (err) {
				6575	free_event(event);
				6576	return ERR_PTR(err);
				6577	}
				6578	}
Stephane Eranian	d010b33	2012-02-09 23:21:00 +0100	[diff] [blame]	6579	if (has_branch_stack(event)) {
				6580	static_key_slow_inc(&perf_sched_events.key);
				6581	if (!(event->attach_state & PERF_ATTACH_TASK))
				6582	atomic_inc(&per_cpu(perf_branch_stack_events,
				6583	event->cpu));
				6584	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6585	}
				6586
				6587	return event;
				6588	}
				6589
				6590	static int perf_copy_attr(struct perf_event_attr __user *uattr,
				6591	struct perf_event_attr *attr)
				6592	{
				6593	u32 size;
				6594	int ret;
				6595
				6596	if (!access_ok(VERIFY_WRITE, uattr, PERF_ATTR_SIZE_VER0))
				6597	return -EFAULT;
				6598
				6599	/*
				6600	* zero the full structure, so that a short copy will be nice.
				6601	*/
				6602	memset(attr, 0, sizeof(*attr));
				6603
				6604	ret = get_user(size, &uattr->size);
				6605	if (ret)
				6606	return ret;
				6607
				6608	if (size > PAGE_SIZE) /* silly large */
				6609	goto err_size;
				6610
				6611	if (!size) /* abi compat */
				6612	size = PERF_ATTR_SIZE_VER0;
				6613
				6614	if (size < PERF_ATTR_SIZE_VER0)
				6615	goto err_size;
				6616
				6617	/*
				6618	* If we're handed a bigger struct than we know of,
				6619	* ensure all the unknown bits are 0 - i.e. new
				6620	* user-space does not rely on any kernel feature
				6621	* extensions we dont know about yet.
				6622	*/
				6623	if (size > sizeof(*attr)) {
				6624	unsigned char __user *addr;
				6625	unsigned char __user *end;
				6626	unsigned char val;
				6627
				6628	addr = (void __user )uattr + sizeof(attr);
				6629	end = (void __user *)uattr + size;
				6630
				6631	for (; addr < end; addr++) {
				6632	ret = get_user(val, addr);
				6633	if (ret)
				6634	return ret;
				6635	if (val)
				6636	goto err_size;
				6637	}
				6638	size = sizeof(*attr);
				6639	}
				6640
				6641	ret = copy_from_user(attr, uattr, size);
				6642	if (ret)
				6643	return -EFAULT;
				6644
Mahesh Salgaonkar	cd75764	2010-01-30 10:25:18 +0530	[diff] [blame]	6645	if (attr->__reserved_1)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6646	return -EINVAL;
				6647
				6648	if (attr->sample_type & ~(PERF_SAMPLE_MAX-1))
				6649	return -EINVAL;
				6650
				6651	if (attr->read_format & ~(PERF_FORMAT_MAX-1))
				6652	return -EINVAL;
				6653
Stephane Eranian	bce38cd	2012-02-09 23:20:51 +0100	[diff] [blame]	6654	if (attr->sample_type & PERF_SAMPLE_BRANCH_STACK) {
				6655	u64 mask = attr->branch_sample_type;
				6656
				6657	/* only using defined bits */
				6658	if (mask & ~(PERF_SAMPLE_BRANCH_MAX-1))
				6659	return -EINVAL;
				6660
				6661	/* at least one branch bit must be set */
				6662	if (!(mask & ~PERF_SAMPLE_BRANCH_PLM_ALL))
				6663	return -EINVAL;
				6664
Stephane Eranian	bce38cd	2012-02-09 23:20:51 +0100	[diff] [blame]	6665	/* propagate priv level, when not set for branch */
				6666	if (!(mask & PERF_SAMPLE_BRANCH_PLM_ALL)) {
				6667
				6668	/* exclude_kernel checked on syscall entry */
				6669	if (!attr->exclude_kernel)
				6670	mask \|= PERF_SAMPLE_BRANCH_KERNEL;
				6671
				6672	if (!attr->exclude_user)
				6673	mask \|= PERF_SAMPLE_BRANCH_USER;
				6674
				6675	if (!attr->exclude_hv)
				6676	mask \|= PERF_SAMPLE_BRANCH_HV;
				6677	/*
				6678	* adjust user setting (for HW filter setup)
				6679	*/
				6680	attr->branch_sample_type = mask;
				6681	}
Stephane Eranian	e712209	2013-06-06 11:02:04 +0200	[diff] [blame]	6682	/* privileged levels capture (kernel, hv): check permissions */
				6683	if ((mask & PERF_SAMPLE_BRANCH_PERM_PLM)
Stephane Eranian	2b923c8	2013-05-21 12:53:37 +0200	[diff] [blame]	6684	&& perf_paranoid_kernel() && !capable(CAP_SYS_ADMIN))
				6685	return -EACCES;
Stephane Eranian	bce38cd	2012-02-09 23:20:51 +0100	[diff] [blame]	6686	}
Jiri Olsa	4018994	2012-08-07 15:20:37 +0200	[diff] [blame]	6687
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	6688	if (attr->sample_type & PERF_SAMPLE_REGS_USER) {
Jiri Olsa	4018994	2012-08-07 15:20:37 +0200	[diff] [blame]	6689	ret = perf_reg_validate(attr->sample_regs_user);
Jiri Olsa	c5ebced	2012-08-07 15:20:40 +0200	[diff] [blame]	6690	if (ret)
				6691	return ret;
				6692	}
				6693
				6694	if (attr->sample_type & PERF_SAMPLE_STACK_USER) {
				6695	if (!arch_perf_have_user_stack_dump())
				6696	return -ENOSYS;
				6697
				6698	/*
				6699	* We have __u32 type for the size, but so far
				6700	* we can only use __u16 as maximum due to the
				6701	* __u16 sample size limit.
				6702	*/
				6703	if (attr->sample_stack_user >= USHRT_MAX)
				6704	ret = -EINVAL;
				6705	else if (!IS_ALIGNED(attr->sample_stack_user, sizeof(u64)))
				6706	ret = -EINVAL;
				6707	}
Jiri Olsa	4018994	2012-08-07 15:20:37 +0200	[diff] [blame]	6708
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6709	out:
				6710	return ret;
				6711
				6712	err_size:
				6713	put_user(sizeof(*attr), &uattr->size);
				6714	ret = -E2BIG;
				6715	goto out;
				6716	}
				6717
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	6718	static int
				6719	perf_event_set_output(struct perf_event event, struct perf_event output_event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6720	{
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	6721	struct ring_buffer rb = NULL, old_rb = NULL;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6722	int ret = -EINVAL;
				6723
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	6724	if (!output_event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6725	goto set;
				6726
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	6727	/* don't allow circular references */
				6728	if (event == output_event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6729	goto out;
				6730
Peter Zijlstra	0f13930	2010-05-20 14:35:15 +0200	[diff] [blame]	6731	/*
				6732	* Don't allow cross-cpu buffers
				6733	*/
				6734	if (output_event->cpu != event->cpu)
				6735	goto out;
				6736
				6737	/*
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	6738	* If its not a per-cpu rb, it must be the same task.
Peter Zijlstra	0f13930	2010-05-20 14:35:15 +0200	[diff] [blame]	6739	*/
				6740	if (output_event->cpu == -1 && output_event->ctx != event->ctx)
				6741	goto out;
				6742
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6743	set:
				6744	mutex_lock(&event->mmap_mutex);
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	6745	/* Can't redirect output if we've got an active mmap() */
				6746	if (atomic_read(&event->mmap_count))
				6747	goto unlock;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6748
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	6749	old_rb = event->rb;
				6750
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	6751	if (output_event) {
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	6752	/* get the rb we want to redirect to */
				6753	rb = ring_buffer_get(output_event);
				6754	if (!rb)
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	6755	goto unlock;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6756	}
				6757
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	6758	if (old_rb)
				6759	ring_buffer_detach(event, old_rb);
Peter Zijlstra	9bb5d40	2013-06-04 10:44:21 +0200	[diff] [blame]	6760
				6761	if (rb)
				6762	ring_buffer_attach(event, rb);
				6763
				6764	rcu_assign_pointer(event->rb, rb);
				6765
				6766	if (old_rb) {
				6767	ring_buffer_put(old_rb);
				6768	/*
				6769	* Since we detached before setting the new rb, so that we
				6770	* could attach the new rb, we could have missed a wakeup.
				6771	* Provide it now.
				6772	*/
				6773	wake_up_all(&event->waitq);
				6774	}
				6775
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6776	ret = 0;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	6777	unlock:
				6778	mutex_unlock(&event->mmap_mutex);
				6779
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6780	out:
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6781	return ret;
				6782	}
				6783
				6784	/**
				6785	* sys_perf_event_open - open a performance event, associate it to a task/cpu
				6786	*
				6787	* @attr_uptr: event_id type attributes for monitoring/sampling
				6788	* @pid: target pid
				6789	* @cpu: target cpu
				6790	* @group_fd: group leader event fd
				6791	*/
				6792	SYSCALL_DEFINE5(perf_event_open,
				6793	struct perf_event_attr __user *, attr_uptr,
				6794	pid_t, pid, int, cpu, int, group_fd, unsigned long, flags)
				6795	{
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	6796	struct perf_event group_leader = NULL, output_event = NULL;
				6797	struct perf_event event, sibling;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6798	struct perf_event_attr attr;
				6799	struct perf_event_context *ctx;
				6800	struct file *event_file = NULL;
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	6801	struct fd group = {NULL, 0};
Matt Helsley	38a81da	2010-09-13 13:01:20 -0700	[diff] [blame]	6802	struct task_struct *task = NULL;
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	6803	struct pmu *pmu;
Al Viro	ea635c6	2010-05-26 17:40:29 -0400	[diff] [blame]	6804	int event_fd;
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	6805	int move_group = 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6806	int err;
				6807
				6808	/* for future expandability... */
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	6809	if (flags & ~PERF_FLAG_ALL)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6810	return -EINVAL;
				6811
				6812	err = perf_copy_attr(attr_uptr, &attr);
				6813	if (err)
				6814	return err;
				6815
				6816	if (!attr.exclude_kernel) {
				6817	if (perf_paranoid_kernel() && !capable(CAP_SYS_ADMIN))
				6818	return -EACCES;
				6819	}
				6820
				6821	if (attr.freq) {
				6822	if (attr.sample_freq > sysctl_perf_event_sample_rate)
				6823	return -EINVAL;
				6824	}
				6825
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	6826	/*
				6827	* In cgroup mode, the pid argument is used to pass the fd
				6828	* opened to the cgroup directory in cgroupfs. The cpu argument
				6829	* designates the cpu on which to monitor threads from that
				6830	* cgroup.
				6831	*/
				6832	if ((flags & PERF_FLAG_PID_CGROUP) && (pid == -1 \|\| cpu == -1))
				6833	return -EINVAL;
				6834
Al Viro	ab72a70	2012-08-21 09:40:46 -0400	[diff] [blame]	6835	event_fd = get_unused_fd();
Al Viro	ea635c6	2010-05-26 17:40:29 -0400	[diff] [blame]	6836	if (event_fd < 0)
				6837	return event_fd;
				6838
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	6839	if (group_fd != -1) {
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	6840	err = perf_fget_light(group_fd, &group);
				6841	if (err)
Stephane Eranian	d14b12d	2010-09-17 11:28:47 +0200	[diff] [blame]	6842	goto err_fd;
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	6843	group_leader = group.file->private_data;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	6844	if (flags & PERF_FLAG_FD_OUTPUT)
				6845	output_event = group_leader;
				6846	if (flags & PERF_FLAG_FD_NO_GROUP)
				6847	group_leader = NULL;
				6848	}
				6849
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	6850	if (pid != -1 && !(flags & PERF_FLAG_PID_CGROUP)) {
Peter Zijlstra	c6be5a5	2010-10-14 16:59:46 +0200	[diff] [blame]	6851	task = find_lively_task_by_vpid(pid);
				6852	if (IS_ERR(task)) {
				6853	err = PTR_ERR(task);
				6854	goto err_group_fd;
				6855	}
				6856	}
				6857
Yan, Zheng	fbfc623	2012-06-15 14:31:31 +0800	[diff] [blame]	6858	get_online_cpus();
				6859
Avi Kivity	4dc0da8	2011-06-29 18:42:35 +0300	[diff] [blame]	6860	event = perf_event_alloc(&attr, cpu, task, group_leader, NULL,
				6861	NULL, NULL);
Stephane Eranian	d14b12d	2010-09-17 11:28:47 +0200	[diff] [blame]	6862	if (IS_ERR(event)) {
				6863	err = PTR_ERR(event);
Peter Zijlstra	c6be5a5	2010-10-14 16:59:46 +0200	[diff] [blame]	6864	goto err_task;
Stephane Eranian	d14b12d	2010-09-17 11:28:47 +0200	[diff] [blame]	6865	}
				6866
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	6867	if (flags & PERF_FLAG_PID_CGROUP) {
				6868	err = perf_cgroup_connect(pid, event, &attr, group_leader);
				6869	if (err)
				6870	goto err_alloc;
Peter Zijlstra	0830937	2011-03-03 11:31:20 +0100	[diff] [blame]	6871	/*
				6872	* one more event:
				6873	* - that has cgroup constraint on event->cpu
				6874	* - that may need work on context switch
				6875	*/
				6876	atomic_inc(&per_cpu(perf_cgroup_events, event->cpu));
Ingo Molnar	c5905af	2012-02-24 08:31:31 +0100	[diff] [blame]	6877	static_key_slow_inc(&perf_sched_events.key);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	6878	}
				6879
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6880	/*
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	6881	* Special case software events and allow them to be part of
				6882	* any hardware group.
				6883	*/
				6884	pmu = event->pmu;
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	6885
				6886	if (group_leader &&
				6887	(is_software_event(event) != is_software_event(group_leader))) {
				6888	if (is_software_event(event)) {
				6889	/*
				6890	* If event and group_leader are not both a software
				6891	* event, and event is, then group leader is not.
				6892	*
				6893	* Allow the addition of software events to !software
				6894	* groups, this is safe because software events never
				6895	* fail to schedule.
				6896	*/
				6897	pmu = group_leader->pmu;
				6898	} else if (is_software_event(group_leader) &&
				6899	(group_leader->group_flags & PERF_GROUP_SOFTWARE)) {
				6900	/*
				6901	* In case the group is a pure software group, and we
				6902	* try to add a hardware event, move the whole group to
				6903	* the hardware context.
				6904	*/
				6905	move_group = 1;
				6906	}
				6907	}
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	6908
				6909	/*
				6910	* Get the target context (task or percpu):
				6911	*/
Yan, Zheng	e2d37cd	2012-06-15 14:31:32 +0800	[diff] [blame]	6912	ctx = find_get_context(pmu, task, event->cpu);
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	6913	if (IS_ERR(ctx)) {
				6914	err = PTR_ERR(ctx);
Peter Zijlstra	c6be5a5	2010-10-14 16:59:46 +0200	[diff] [blame]	6915	goto err_alloc;
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	6916	}
				6917
Peter Zijlstra	fd1edb3	2011-03-28 13:13:56 +0200	[diff] [blame]	6918	if (task) {
				6919	put_task_struct(task);
				6920	task = NULL;
				6921	}
				6922
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6923	/*
				6924	* Look up the group leader (we will attach this event to it):
				6925	*/
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	6926	if (group_leader) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6927	err = -EINVAL;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6928
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6929	/*
				6930	* Do not allow a recursive hierarchy (this new sibling
				6931	* becoming part of another group-sibling):
				6932	*/
				6933	if (group_leader->group_leader != group_leader)
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	6934	goto err_context;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6935	/*
				6936	* Do not allow to attach to a group in a different
				6937	* task or CPU context:
				6938	*/
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	6939	if (move_group) {
				6940	if (group_leader->ctx->type != ctx->type)
				6941	goto err_context;
				6942	} else {
				6943	if (group_leader->ctx != ctx)
				6944	goto err_context;
				6945	}
				6946
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6947	/*
				6948	* Only a group leader can be exclusive or pinned
				6949	*/
				6950	if (attr.exclusive \|\| attr.pinned)
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	6951	goto err_context;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	6952	}
				6953
				6954	if (output_event) {
				6955	err = perf_event_set_output(event, output_event);
				6956	if (err)
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	6957	goto err_context;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	6958	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6959
Al Viro	ea635c6	2010-05-26 17:40:29 -0400	[diff] [blame]	6960	event_file = anon_inode_getfile("[perf_event]", &perf_fops, event, O_RDWR);
				6961	if (IS_ERR(event_file)) {
				6962	err = PTR_ERR(event_file);
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	6963	goto err_context;
Al Viro	ea635c6	2010-05-26 17:40:29 -0400	[diff] [blame]	6964	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6965
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	6966	if (move_group) {
				6967	struct perf_event_context *gctx = group_leader->ctx;
				6968
				6969	mutex_lock(&gctx->mutex);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	6970	perf_remove_from_context(group_leader);
Jiri Olsa	0231bb5	2013-02-01 11:23:45 +0100	[diff] [blame]	6971
				6972	/*
				6973	* Removing from the context ends up with disabled
				6974	* event. What we want here is event in the initial
				6975	* startup state, ready to be add into new context.
				6976	*/
				6977	perf_event__state_init(group_leader);
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	6978	list_for_each_entry(sibling, &group_leader->sibling_list,
				6979	group_entry) {
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	6980	perf_remove_from_context(sibling);
Jiri Olsa	0231bb5	2013-02-01 11:23:45 +0100	[diff] [blame]	6981	perf_event__state_init(sibling);
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	6982	put_ctx(gctx);
				6983	}
				6984	mutex_unlock(&gctx->mutex);
				6985	put_ctx(gctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6986	}
				6987
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6988	WARN_ON_ONCE(ctx->parent_ctx);
				6989	mutex_lock(&ctx->mutex);
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	6990
				6991	if (move_group) {
Yan, Zheng	0cda4c0	2012-06-15 14:31:33 +0800	[diff] [blame]	6992	synchronize_rcu();
Yan, Zheng	e2d37cd	2012-06-15 14:31:32 +0800	[diff] [blame]	6993	perf_install_in_context(ctx, group_leader, event->cpu);
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	6994	get_ctx(ctx);
				6995	list_for_each_entry(sibling, &group_leader->sibling_list,
				6996	group_entry) {
Yan, Zheng	e2d37cd	2012-06-15 14:31:32 +0800	[diff] [blame]	6997	perf_install_in_context(ctx, sibling, event->cpu);
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	6998	get_ctx(ctx);
				6999	}
				7000	}
				7001
Yan, Zheng	e2d37cd	2012-06-15 14:31:32 +0800	[diff] [blame]	7002	perf_install_in_context(ctx, event, event->cpu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7003	++ctx->generation;
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	7004	perf_unpin_context(ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7005	mutex_unlock(&ctx->mutex);
				7006
Yan, Zheng	fbfc623	2012-06-15 14:31:31 +0800	[diff] [blame]	7007	put_online_cpus();
				7008
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7009	event->owner = current;
Peter Zijlstra	8882135	2010-11-09 19:01:43 +0100	[diff] [blame]	7010
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7011	mutex_lock(&current->perf_event_mutex);
				7012	list_add_tail(&event->owner_entry, &current->perf_event_list);
				7013	mutex_unlock(&current->perf_event_mutex);
				7014
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	7015	/*
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	7016	* Precalculate sample_data sizes
				7017	*/
				7018	perf_event__header_size(event);
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	7019	perf_event__id_header_size(event);
Arnaldo Carvalho de Melo	c320c7b	2010-10-20 12:50:11 -0200	[diff] [blame]	7020
				7021	/*
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	7022	* Drop the reference on the group_event after placing the
				7023	* new event on the sibling_list. This ensures destruction
				7024	* of the group leader will find the pointer to itself in
				7025	* perf_group_detach().
				7026	*/
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	7027	fdput(group);
Al Viro	ea635c6	2010-05-26 17:40:29 -0400	[diff] [blame]	7028	fd_install(event_fd, event_file);
				7029	return event_fd;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7030
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	7031	err_context:
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	7032	perf_unpin_context(ctx);
Al Viro	ea635c6	2010-05-26 17:40:29 -0400	[diff] [blame]	7033	put_ctx(ctx);
Peter Zijlstra	c6be5a5	2010-10-14 16:59:46 +0200	[diff] [blame]	7034	err_alloc:
				7035	free_event(event);
Peter Zijlstra	e7d0bc0	2010-10-14 16:54:51 +0200	[diff] [blame]	7036	err_task:
Yan, Zheng	fbfc623	2012-06-15 14:31:31 +0800	[diff] [blame]	7037	put_online_cpus();
Peter Zijlstra	e7d0bc0	2010-10-14 16:54:51 +0200	[diff] [blame]	7038	if (task)
				7039	put_task_struct(task);
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	7040	err_group_fd:
Al Viro	2903ff0	2012-08-28 12:52:22 -0400	[diff] [blame]	7041	fdput(group);
Al Viro	ea635c6	2010-05-26 17:40:29 -0400	[diff] [blame]	7042	err_fd:
				7043	put_unused_fd(event_fd);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7044	return err;
				7045	}
				7046
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	7047	/**
				7048	* perf_event_create_kernel_counter
				7049	*
				7050	* @attr: attributes of the counter to create
				7051	* @cpu: cpu in which the counter is bound
Matt Helsley	38a81da	2010-09-13 13:01:20 -0700	[diff] [blame]	7052	* @task: task to profile (NULL for percpu)
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	7053	*/
				7054	struct perf_event *
				7055	perf_event_create_kernel_counter(struct perf_event_attr *attr, int cpu,
Matt Helsley	38a81da	2010-09-13 13:01:20 -0700	[diff] [blame]	7056	struct task_struct *task,
Avi Kivity	4dc0da8	2011-06-29 18:42:35 +0300	[diff] [blame]	7057	perf_overflow_handler_t overflow_handler,
				7058	void *context)
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	7059	{
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	7060	struct perf_event_context *ctx;
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	7061	struct perf_event *event;
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	7062	int err;
				7063
				7064	/*
				7065	* Get the target context (task or percpu):
				7066	*/
				7067
Avi Kivity	4dc0da8	2011-06-29 18:42:35 +0300	[diff] [blame]	7068	event = perf_event_alloc(attr, cpu, task, NULL, NULL,
				7069	overflow_handler, context);
Frederic Weisbecker	c6567f6	2009-11-26 05:35:41 +0100	[diff] [blame]	7070	if (IS_ERR(event)) {
				7071	err = PTR_ERR(event);
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	7072	goto err;
				7073	}
				7074
Matt Helsley	38a81da	2010-09-13 13:01:20 -0700	[diff] [blame]	7075	ctx = find_get_context(event->pmu, task, cpu);
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	7076	if (IS_ERR(ctx)) {
				7077	err = PTR_ERR(ctx);
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	7078	goto err_free;
Frederic Weisbecker	c6567f6	2009-11-26 05:35:41 +0100	[diff] [blame]	7079	}
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	7080
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	7081	WARN_ON_ONCE(ctx->parent_ctx);
				7082	mutex_lock(&ctx->mutex);
				7083	perf_install_in_context(ctx, event, cpu);
				7084	++ctx->generation;
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	7085	perf_unpin_context(ctx);
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	7086	mutex_unlock(&ctx->mutex);
				7087
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	7088	return event;
				7089
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	7090	err_free:
				7091	free_event(event);
				7092	err:
Frederic Weisbecker	c6567f6	2009-11-26 05:35:41 +0100	[diff] [blame]	7093	return ERR_PTR(err);
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	7094	}
				7095	EXPORT_SYMBOL_GPL(perf_event_create_kernel_counter);
				7096
Yan, Zheng	0cda4c0	2012-06-15 14:31:33 +0800	[diff] [blame]	7097	void perf_pmu_migrate_context(struct pmu *pmu, int src_cpu, int dst_cpu)
				7098	{
				7099	struct perf_event_context *src_ctx;
				7100	struct perf_event_context *dst_ctx;
				7101	struct perf_event event, tmp;
				7102	LIST_HEAD(events);
				7103
				7104	src_ctx = &per_cpu_ptr(pmu->pmu_cpu_context, src_cpu)->ctx;
				7105	dst_ctx = &per_cpu_ptr(pmu->pmu_cpu_context, dst_cpu)->ctx;
				7106
				7107	mutex_lock(&src_ctx->mutex);
				7108	list_for_each_entry_safe(event, tmp, &src_ctx->event_list,
				7109	event_entry) {
				7110	perf_remove_from_context(event);
				7111	put_ctx(src_ctx);
				7112	list_add(&event->event_entry, &events);
				7113	}
				7114	mutex_unlock(&src_ctx->mutex);
				7115
				7116	synchronize_rcu();
				7117
				7118	mutex_lock(&dst_ctx->mutex);
				7119	list_for_each_entry_safe(event, tmp, &events, event_entry) {
				7120	list_del(&event->event_entry);
				7121	if (event->state >= PERF_EVENT_STATE_OFF)
				7122	event->state = PERF_EVENT_STATE_INACTIVE;
				7123	perf_install_in_context(dst_ctx, event, dst_cpu);
				7124	get_ctx(dst_ctx);
				7125	}
				7126	mutex_unlock(&dst_ctx->mutex);
				7127	}
				7128	EXPORT_SYMBOL_GPL(perf_pmu_migrate_context);
				7129
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7130	static void sync_child_event(struct perf_event *child_event,
				7131	struct task_struct *child)
				7132	{
				7133	struct perf_event *parent_event = child_event->parent;
				7134	u64 child_val;
				7135
				7136	if (child_event->attr.inherit_stat)
				7137	perf_event_read_event(child_event, child);
				7138
Peter Zijlstra	b5e5879	2010-05-21 14:43:12 +0200	[diff] [blame]	7139	child_val = perf_event_count(child_event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7140
				7141	/*
				7142	* Add back the child's count to the parent's count:
				7143	*/
Peter Zijlstra	a6e6dea	2010-05-21 14:27:58 +0200	[diff] [blame]	7144	atomic64_add(child_val, &parent_event->child_count);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7145	atomic64_add(child_event->total_time_enabled,
				7146	&parent_event->child_total_time_enabled);
				7147	atomic64_add(child_event->total_time_running,
				7148	&parent_event->child_total_time_running);
				7149
				7150	/*
				7151	* Remove this event from the parent's list
				7152	*/
				7153	WARN_ON_ONCE(parent_event->ctx->parent_ctx);
				7154	mutex_lock(&parent_event->child_mutex);
				7155	list_del_init(&child_event->child_list);
				7156	mutex_unlock(&parent_event->child_mutex);
				7157
				7158	/*
				7159	* Release the parent event, if this was the last
				7160	* reference to it.
				7161	*/
Al Viro	a6fa941	2012-08-20 14:59:25 +0100	[diff] [blame]	7162	put_event(parent_event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7163	}
				7164
				7165	static void
				7166	__perf_event_exit_task(struct perf_event *child_event,
				7167	struct perf_event_context *child_ctx,
				7168	struct task_struct *child)
				7169	{
Peter Zijlstra	38b435b	2011-03-15 14:37:10 +0100	[diff] [blame]	7170	if (child_event->parent) {
				7171	raw_spin_lock_irq(&child_ctx->lock);
				7172	perf_group_detach(child_event);
				7173	raw_spin_unlock_irq(&child_ctx->lock);
				7174	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7175
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	7176	perf_remove_from_context(child_event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7177
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7178	/*
Peter Zijlstra	38b435b	2011-03-15 14:37:10 +0100	[diff] [blame]	7179	* It can happen that the parent exits first, and has events
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7180	* that are still around due to the child reference. These
Peter Zijlstra	38b435b	2011-03-15 14:37:10 +0100	[diff] [blame]	7181	* events need to be zapped.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7182	*/
Peter Zijlstra	38b435b	2011-03-15 14:37:10 +0100	[diff] [blame]	7183	if (child_event->parent) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7184	sync_child_event(child_event, child);
				7185	free_event(child_event);
				7186	}
				7187	}
				7188
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	7189	static void perf_event_exit_task_context(struct task_struct *child, int ctxn)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7190	{
				7191	struct perf_event child_event, tmp;
				7192	struct perf_event_context *child_ctx;
				7193	unsigned long flags;
				7194
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	7195	if (likely(!child->perf_event_ctxp[ctxn])) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7196	perf_event_task(child, NULL, 0);
				7197	return;
				7198	}
				7199
				7200	local_irq_save(flags);
				7201	/*
				7202	* We can't reschedule here because interrupts are disabled,
				7203	* and either child is current or it is a task that can't be
				7204	* scheduled, so we are now safe from rescheduling changing
				7205	* our context.
				7206	*/
Oleg Nesterov	806839b	2011-01-21 18:45:47 +0100	[diff] [blame]	7207	child_ctx = rcu_dereference_raw(child->perf_event_ctxp[ctxn]);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7208
				7209	/*
				7210	* Take the context lock here so that if find_get_context is
				7211	* reading child->perf_event_ctxp, we wait until it has
				7212	* incremented the context's refcount before we do put_ctx below.
				7213	*/
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	7214	raw_spin_lock(&child_ctx->lock);
Peter Zijlstra	04dc2db	2011-04-09 21:17:43 +0200	[diff] [blame]	7215	task_ctx_sched_out(child_ctx);
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	7216	child->perf_event_ctxp[ctxn] = NULL;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7217	/*
				7218	* If this context is a clone; unclone it so it can't get
				7219	* swapped to another process while we're removing all
				7220	* the events from it.
				7221	*/
				7222	unclone_ctx(child_ctx);
Peter Zijlstra	5e942bb	2009-11-23 11:37:26 +0100	[diff] [blame]	7223	update_context_time(child_ctx);
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	7224	raw_spin_unlock_irqrestore(&child_ctx->lock, flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7225
				7226	/*
				7227	* Report the task dead after unscheduling the events so that we
				7228	* won't get any samples after PERF_RECORD_EXIT. We can however still
				7229	* get a few PERF_RECORD_READ events.
				7230	*/
				7231	perf_event_task(child, child_ctx, 0);
				7232
				7233	/*
				7234	* We can recurse on the same lock type through:
				7235	*
				7236	* __perf_event_exit_task()
				7237	* sync_child_event()
Al Viro	a6fa941	2012-08-20 14:59:25 +0100	[diff] [blame]	7238	* put_event()
				7239	* mutex_lock(&ctx->mutex)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7240	*
				7241	* But since its the parent context it won't be the same instance.
				7242	*/
Peter Zijlstra	a0507c8	2010-05-06 15:42:53 +0200	[diff] [blame]	7243	mutex_lock(&child_ctx->mutex);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7244
				7245	again:
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	7246	list_for_each_entry_safe(child_event, tmp, &child_ctx->pinned_groups,
				7247	group_entry)
				7248	__perf_event_exit_task(child_event, child_ctx, child);
				7249
				7250	list_for_each_entry_safe(child_event, tmp, &child_ctx->flexible_groups,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7251	group_entry)
				7252	__perf_event_exit_task(child_event, child_ctx, child);
				7253
				7254	/*
				7255	* If the last event was a group event, it will have appended all
				7256	* its siblings to the list, but we obtained 'tmp' before that which
				7257	* will still point to the list head terminating the iteration.
				7258	*/
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	7259	if (!list_empty(&child_ctx->pinned_groups) \|\|
				7260	!list_empty(&child_ctx->flexible_groups))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7261	goto again;
				7262
				7263	mutex_unlock(&child_ctx->mutex);
				7264
				7265	put_ctx(child_ctx);
				7266	}
				7267
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	7268	/*
				7269	* When a child task exits, feed back event values to parent events.
				7270	*/
				7271	void perf_event_exit_task(struct task_struct *child)
				7272	{
Peter Zijlstra	8882135	2010-11-09 19:01:43 +0100	[diff] [blame]	7273	struct perf_event event, tmp;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	7274	int ctxn;
				7275
Peter Zijlstra	8882135	2010-11-09 19:01:43 +0100	[diff] [blame]	7276	mutex_lock(&child->perf_event_mutex);
				7277	list_for_each_entry_safe(event, tmp, &child->perf_event_list,
				7278	owner_entry) {
				7279	list_del_init(&event->owner_entry);
				7280
				7281	/*
				7282	* Ensure the list deletion is visible before we clear
				7283	* the owner, closes a race against perf_release() where
				7284	* we need to serialize on the owner->perf_event_mutex.
				7285	*/
				7286	smp_wmb();
				7287	event->owner = NULL;
				7288	}
				7289	mutex_unlock(&child->perf_event_mutex);
				7290
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	7291	for_each_task_context_nr(ctxn)
				7292	perf_event_exit_task_context(child, ctxn);
				7293	}
				7294
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	7295	static void perf_free_event(struct perf_event *event,
				7296	struct perf_event_context *ctx)
				7297	{
				7298	struct perf_event *parent = event->parent;
				7299
				7300	if (WARN_ON_ONCE(!parent))
				7301	return;
				7302
				7303	mutex_lock(&parent->child_mutex);
				7304	list_del_init(&event->child_list);
				7305	mutex_unlock(&parent->child_mutex);
				7306
Al Viro	a6fa941	2012-08-20 14:59:25 +0100	[diff] [blame]	7307	put_event(parent);
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	7308
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	7309	perf_group_detach(event);
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	7310	list_del_event(event, ctx);
				7311	free_event(event);
				7312	}
				7313
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7314	/*
				7315	* free an unexposed, unused context as created by inheritance by
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	7316	* perf_event_init_task below, used by fork() in case of fail.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7317	*/
				7318	void perf_event_free_task(struct task_struct *task)
				7319	{
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	7320	struct perf_event_context *ctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7321	struct perf_event event, tmp;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	7322	int ctxn;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7323
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	7324	for_each_task_context_nr(ctxn) {
				7325	ctx = task->perf_event_ctxp[ctxn];
				7326	if (!ctx)
				7327	continue;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7328
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	7329	mutex_lock(&ctx->mutex);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7330	again:
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	7331	list_for_each_entry_safe(event, tmp, &ctx->pinned_groups,
				7332	group_entry)
				7333	perf_free_event(event, ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7334
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	7335	list_for_each_entry_safe(event, tmp, &ctx->flexible_groups,
				7336	group_entry)
				7337	perf_free_event(event, ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7338
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	7339	if (!list_empty(&ctx->pinned_groups) \|\|
				7340	!list_empty(&ctx->flexible_groups))
				7341	goto again;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7342
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	7343	mutex_unlock(&ctx->mutex);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7344
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	7345	put_ctx(ctx);
				7346	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7347	}
				7348
Peter Zijlstra	4e231c7	2010-09-09 21:01:59 +0200	[diff] [blame]	7349	void perf_event_delayed_put(struct task_struct *task)
				7350	{
				7351	int ctxn;
				7352
				7353	for_each_task_context_nr(ctxn)
				7354	WARN_ON_ONCE(task->perf_event_ctxp[ctxn]);
				7355	}
				7356
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	7357	/*
				7358	* inherit a event from parent task to child task:
				7359	*/
				7360	static struct perf_event *
				7361	inherit_event(struct perf_event *parent_event,
				7362	struct task_struct *parent,
				7363	struct perf_event_context *parent_ctx,
				7364	struct task_struct *child,
				7365	struct perf_event *group_leader,
				7366	struct perf_event_context *child_ctx)
				7367	{
				7368	struct perf_event *child_event;
Peter Zijlstra	cee010e	2010-09-10 12:51:54 +0200	[diff] [blame]	7369	unsigned long flags;
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	7370
				7371	/*
				7372	* Instead of creating recursive hierarchies of events,
				7373	* we link inherited events back to the original parent,
				7374	* which has a filp for sure, which we use as the reference
				7375	* count:
				7376	*/
				7377	if (parent_event->parent)
				7378	parent_event = parent_event->parent;
				7379
				7380	child_event = perf_event_alloc(&parent_event->attr,
				7381	parent_event->cpu,
Peter Zijlstra	d580ff8	2010-10-14 17:43:23 +0200	[diff] [blame]	7382	child,
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	7383	group_leader, parent_event,
Avi Kivity	4dc0da8	2011-06-29 18:42:35 +0300	[diff] [blame]	7384	NULL, NULL);
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	7385	if (IS_ERR(child_event))
				7386	return child_event;
Al Viro	a6fa941	2012-08-20 14:59:25 +0100	[diff] [blame]	7387
				7388	if (!atomic_long_inc_not_zero(&parent_event->refcount)) {
				7389	free_event(child_event);
				7390	return NULL;
				7391	}
				7392
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	7393	get_ctx(child_ctx);
				7394
				7395	/*
				7396	* Make the child state follow the state of the parent event,
				7397	* not its attr.disabled bit. We hold the parent's mutex,
				7398	* so we won't race with perf_event_{en, dis}able_family.
				7399	*/
				7400	if (parent_event->state >= PERF_EVENT_STATE_INACTIVE)
				7401	child_event->state = PERF_EVENT_STATE_INACTIVE;
				7402	else
				7403	child_event->state = PERF_EVENT_STATE_OFF;
				7404
				7405	if (parent_event->attr.freq) {
				7406	u64 sample_period = parent_event->hw.sample_period;
				7407	struct hw_perf_event *hwc = &child_event->hw;
				7408
				7409	hwc->sample_period = sample_period;
				7410	hwc->last_period = sample_period;
				7411
				7412	local64_set(&hwc->period_left, sample_period);
				7413	}
				7414
				7415	child_event->ctx = child_ctx;
				7416	child_event->overflow_handler = parent_event->overflow_handler;
Avi Kivity	4dc0da8	2011-06-29 18:42:35 +0300	[diff] [blame]	7417	child_event->overflow_handler_context
				7418	= parent_event->overflow_handler_context;
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	7419
				7420	/*
Thomas Gleixner	614b678	2010-12-03 16:24:32 -0200	[diff] [blame]	7421	* Precalculate sample_data sizes
				7422	*/
				7423	perf_event__header_size(child_event);
Arnaldo Carvalho de Melo	6844c09	2010-12-03 16:36:35 -0200	[diff] [blame]	7424	perf_event__id_header_size(child_event);
Thomas Gleixner	614b678	2010-12-03 16:24:32 -0200	[diff] [blame]	7425
				7426	/*
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	7427	* Link it up in the child's context:
				7428	*/
Peter Zijlstra	cee010e	2010-09-10 12:51:54 +0200	[diff] [blame]	7429	raw_spin_lock_irqsave(&child_ctx->lock, flags);
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	7430	add_event_to_ctx(child_event, child_ctx);
Peter Zijlstra	cee010e	2010-09-10 12:51:54 +0200	[diff] [blame]	7431	raw_spin_unlock_irqrestore(&child_ctx->lock, flags);
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	7432
				7433	/*
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	7434	* Link this into the parent event's child list
				7435	*/
				7436	WARN_ON_ONCE(parent_event->ctx->parent_ctx);
				7437	mutex_lock(&parent_event->child_mutex);
				7438	list_add_tail(&child_event->child_list, &parent_event->child_list);
				7439	mutex_unlock(&parent_event->child_mutex);
				7440
				7441	return child_event;
				7442	}
				7443
				7444	static int inherit_group(struct perf_event *parent_event,
				7445	struct task_struct *parent,
				7446	struct perf_event_context *parent_ctx,
				7447	struct task_struct *child,
				7448	struct perf_event_context *child_ctx)
				7449	{
				7450	struct perf_event *leader;
				7451	struct perf_event *sub;
				7452	struct perf_event *child_ctr;
				7453
				7454	leader = inherit_event(parent_event, parent, parent_ctx,
				7455	child, NULL, child_ctx);
				7456	if (IS_ERR(leader))
				7457	return PTR_ERR(leader);
				7458	list_for_each_entry(sub, &parent_event->sibling_list, group_entry) {
				7459	child_ctr = inherit_event(sub, parent, parent_ctx,
				7460	child, leader, child_ctx);
				7461	if (IS_ERR(child_ctr))
				7462	return PTR_ERR(child_ctr);
				7463	}
				7464	return 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7465	}
				7466
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	7467	static int
				7468	inherit_task_group(struct perf_event event, struct task_struct parent,
				7469	struct perf_event_context *parent_ctx,
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	7470	struct task_struct *child, int ctxn,
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	7471	int *inherited_all)
				7472	{
				7473	int ret;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	7474	struct perf_event_context *child_ctx;
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	7475
				7476	if (!event->attr.inherit) {
				7477	*inherited_all = 0;
				7478	return 0;
				7479	}
				7480
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	7481	child_ctx = child->perf_event_ctxp[ctxn];
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	7482	if (!child_ctx) {
				7483	/*
				7484	* This is executed from the parent task context, so
				7485	* inherit events that have been marked for cloning.
				7486	* First allocate and initialize a context for the
				7487	* child.
				7488	*/
				7489
Jiri Olsa	734df5a	2013-07-09 17:44:10 +0200	[diff] [blame]	7490	child_ctx = alloc_perf_context(parent_ctx->pmu, child);
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	7491	if (!child_ctx)
				7492	return -ENOMEM;
				7493
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	7494	child->perf_event_ctxp[ctxn] = child_ctx;
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	7495	}
				7496
				7497	ret = inherit_group(event, parent, parent_ctx,
				7498	child, child_ctx);
				7499
				7500	if (ret)
				7501	*inherited_all = 0;
				7502
				7503	return ret;
				7504	}
				7505
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7506	/*
				7507	* Initialize the perf_event context in task_struct
				7508	*/
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	7509	int perf_event_init_context(struct task_struct *child, int ctxn)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7510	{
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	7511	struct perf_event_context child_ctx, parent_ctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7512	struct perf_event_context *cloned_ctx;
				7513	struct perf_event *event;
				7514	struct task_struct *parent = current;
				7515	int inherited_all = 1;
Thomas Gleixner	dddd337	2010-11-24 10:05:55 +0100	[diff] [blame]	7516	unsigned long flags;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7517	int ret = 0;
				7518
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	7519	if (likely(!parent->perf_event_ctxp[ctxn]))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7520	return 0;
				7521
				7522	/*
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7523	* If the parent's context is a clone, pin it so it won't get
				7524	* swapped under us.
				7525	*/
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	7526	parent_ctx = perf_pin_task_context(parent, ctxn);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7527
				7528	/*
				7529	* No need to check if parent_ctx != NULL here; since we saw
				7530	* it non-NULL earlier, the only reason for it to become NULL
				7531	* is if we exit, and since we're currently in the middle of
				7532	* a fork we can't be exiting at the same time.
				7533	*/
				7534
				7535	/*
				7536	* Lock the parent list. No need to lock the child - not PID
				7537	* hashed yet and not running, so nobody can access it.
				7538	*/
				7539	mutex_lock(&parent_ctx->mutex);
				7540
				7541	/*
				7542	* We dont have to disable NMIs - we are only looking at
				7543	* the list, not manipulating it:
				7544	*/
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	7545	list_for_each_entry(event, &parent_ctx->pinned_groups, group_entry) {
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	7546	ret = inherit_task_group(event, parent, parent_ctx,
				7547	child, ctxn, &inherited_all);
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	7548	if (ret)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7549	break;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7550	}
				7551
Thomas Gleixner	dddd337	2010-11-24 10:05:55 +0100	[diff] [blame]	7552	/*
				7553	* We can't hold ctx->lock when iterating the ->flexible_group list due
				7554	* to allocations, but we need to prevent rotation because
				7555	* rotate_ctx() will change the list from interrupt context.
				7556	*/
				7557	raw_spin_lock_irqsave(&parent_ctx->lock, flags);
				7558	parent_ctx->rotate_disable = 1;
				7559	raw_spin_unlock_irqrestore(&parent_ctx->lock, flags);
				7560
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	7561	list_for_each_entry(event, &parent_ctx->flexible_groups, group_entry) {
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	7562	ret = inherit_task_group(event, parent, parent_ctx,
				7563	child, ctxn, &inherited_all);
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	7564	if (ret)
				7565	break;
				7566	}
				7567
Thomas Gleixner	dddd337	2010-11-24 10:05:55 +0100	[diff] [blame]	7568	raw_spin_lock_irqsave(&parent_ctx->lock, flags);
				7569	parent_ctx->rotate_disable = 0;
Thomas Gleixner	dddd337	2010-11-24 10:05:55 +0100	[diff] [blame]	7570
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	7571	child_ctx = child->perf_event_ctxp[ctxn];
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	7572
Peter Zijlstra	05cbaa2	2009-12-30 16:00:35 +0100	[diff] [blame]	7573	if (child_ctx && inherited_all) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7574	/*
				7575	* Mark the child context as a clone of the parent
				7576	* context, or of whatever the parent is a clone of.
Peter Zijlstra	c5ed514	2011-01-17 13:45:37 +0100	[diff] [blame]	7577	*
				7578	* Note that if the parent is a clone, the holding of
				7579	* parent_ctx->lock avoids it from being uncloned.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7580	*/
Peter Zijlstra	c5ed514	2011-01-17 13:45:37 +0100	[diff] [blame]	7581	cloned_ctx = parent_ctx->parent_ctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7582	if (cloned_ctx) {
				7583	child_ctx->parent_ctx = cloned_ctx;
				7584	child_ctx->parent_gen = parent_ctx->parent_gen;
				7585	} else {
				7586	child_ctx->parent_ctx = parent_ctx;
				7587	child_ctx->parent_gen = parent_ctx->generation;
				7588	}
				7589	get_ctx(child_ctx->parent_ctx);
				7590	}
				7591
Peter Zijlstra	c5ed514	2011-01-17 13:45:37 +0100	[diff] [blame]	7592	raw_spin_unlock_irqrestore(&parent_ctx->lock, flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7593	mutex_unlock(&parent_ctx->mutex);
				7594
				7595	perf_unpin_context(parent_ctx);
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	7596	put_ctx(parent_ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7597
				7598	return ret;
				7599	}
				7600
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	7601	/*
				7602	* Initialize the perf_event context in task_struct
				7603	*/
				7604	int perf_event_init_task(struct task_struct *child)
				7605	{
				7606	int ctxn, ret;
				7607
Oleg Nesterov	8550d7c	2011-01-19 19:22:28 +0100	[diff] [blame]	7608	memset(child->perf_event_ctxp, 0, sizeof(child->perf_event_ctxp));
				7609	mutex_init(&child->perf_event_mutex);
				7610	INIT_LIST_HEAD(&child->perf_event_list);
				7611
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	7612	for_each_task_context_nr(ctxn) {
				7613	ret = perf_event_init_context(child, ctxn);
				7614	if (ret)
				7615	return ret;
				7616	}
				7617
				7618	return 0;
				7619	}
				7620
Paul Mackerras	220b140	2010-03-10 20:45:52 +1100	[diff] [blame]	7621	static void __init perf_event_init_all_cpus(void)
				7622	{
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	7623	struct swevent_htable *swhash;
Paul Mackerras	220b140	2010-03-10 20:45:52 +1100	[diff] [blame]	7624	int cpu;
Paul Mackerras	220b140	2010-03-10 20:45:52 +1100	[diff] [blame]	7625
				7626	for_each_possible_cpu(cpu) {
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	7627	swhash = &per_cpu(swevent_htable, cpu);
				7628	mutex_init(&swhash->hlist_mutex);
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	7629	INIT_LIST_HEAD(&per_cpu(rotation_list, cpu));
Paul Mackerras	220b140	2010-03-10 20:45:52 +1100	[diff] [blame]	7630	}
				7631	}
				7632
Paul Gortmaker	0db0628	2013-06-19 14:53:51 -0400	[diff] [blame^]	7633	static void perf_event_init_cpu(int cpu)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7634	{
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	7635	struct swevent_htable *swhash = &per_cpu(swevent_htable, cpu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7636
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	7637	mutex_lock(&swhash->hlist_mutex);
Linus Torvalds	4536e4d	2011-11-03 07:44:04 -0700	[diff] [blame]	7638	if (swhash->hlist_refcount > 0) {
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7639	struct swevent_hlist *hlist;
				7640
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	7641	hlist = kzalloc_node(sizeof(*hlist), GFP_KERNEL, cpu_to_node(cpu));
				7642	WARN_ON(!hlist);
				7643	rcu_assign_pointer(swhash->swevent_hlist, hlist);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7644	}
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	7645	mutex_unlock(&swhash->hlist_mutex);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7646	}
				7647
Peter Zijlstra	c277443	2010-12-08 15:29:02 +0100	[diff] [blame]	7648	#if defined CONFIG_HOTPLUG_CPU \|\| defined CONFIG_KEXEC
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	7649	static void perf_pmu_rotate_stop(struct pmu *pmu)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7650	{
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	7651	struct perf_cpu_context *cpuctx = this_cpu_ptr(pmu->pmu_cpu_context);
				7652
				7653	WARN_ON(!irqs_disabled());
				7654
				7655	list_del_init(&cpuctx->rotation_list);
				7656	}
				7657
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	7658	static void __perf_event_exit_context(void *__info)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7659	{
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	7660	struct perf_event_context *ctx = __info;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7661	struct perf_event event, tmp;
				7662
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	7663	perf_pmu_rotate_stop(ctx->pmu);
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	7664
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	7665	list_for_each_entry_safe(event, tmp, &ctx->pinned_groups, group_entry)
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	7666	__perf_remove_from_context(event);
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	7667	list_for_each_entry_safe(event, tmp, &ctx->flexible_groups, group_entry)
Peter Zijlstra	fe4b04f	2011-02-02 13:19:09 +0100	[diff] [blame]	7668	__perf_remove_from_context(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7669	}
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	7670
				7671	static void perf_event_exit_cpu_context(int cpu)
				7672	{
				7673	struct perf_event_context *ctx;
				7674	struct pmu *pmu;
				7675	int idx;
				7676
				7677	idx = srcu_read_lock(&pmus_srcu);
				7678	list_for_each_entry_rcu(pmu, &pmus, entry) {
Peter Zijlstra	917bdd1	2010-09-17 11:28:49 +0200	[diff] [blame]	7679	ctx = &per_cpu_ptr(pmu->pmu_cpu_context, cpu)->ctx;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	7680
				7681	mutex_lock(&ctx->mutex);
				7682	smp_call_function_single(cpu, __perf_event_exit_context, ctx, 1);
				7683	mutex_unlock(&ctx->mutex);
				7684	}
				7685	srcu_read_unlock(&pmus_srcu, idx);
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	7686	}
				7687
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7688	static void perf_event_exit_cpu(int cpu)
				7689	{
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	7690	struct swevent_htable *swhash = &per_cpu(swevent_htable, cpu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7691
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	7692	mutex_lock(&swhash->hlist_mutex);
				7693	swevent_hlist_release(swhash);
				7694	mutex_unlock(&swhash->hlist_mutex);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	7695
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	7696	perf_event_exit_cpu_context(cpu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7697	}
				7698	#else
				7699	static inline void perf_event_exit_cpu(int cpu) { }
				7700	#endif
				7701
Peter Zijlstra	c277443	2010-12-08 15:29:02 +0100	[diff] [blame]	7702	static int
				7703	perf_reboot(struct notifier_block notifier, unsigned long val, void v)
				7704	{
				7705	int cpu;
				7706
				7707	for_each_online_cpu(cpu)
				7708	perf_event_exit_cpu(cpu);
				7709
				7710	return NOTIFY_OK;
				7711	}
				7712
				7713	/*
				7714	* Run the perf reboot notifier at the very last possible moment so that
				7715	* the generic watchdog code runs as long as possible.
				7716	*/
				7717	static struct notifier_block perf_reboot_notifier = {
				7718	.notifier_call = perf_reboot,
				7719	.priority = INT_MIN,
				7720	};
				7721
Paul Gortmaker	0db0628	2013-06-19 14:53:51 -0400	[diff] [blame^]	7722	static int
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7723	perf_cpu_notify(struct notifier_block self, unsigned long action, void hcpu)
				7724	{
				7725	unsigned int cpu = (long)hcpu;
				7726
Linus Torvalds	4536e4d	2011-11-03 07:44:04 -0700	[diff] [blame]	7727	switch (action & ~CPU_TASKS_FROZEN) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7728
				7729	case CPU_UP_PREPARE:
Peter Zijlstra	5e11637	2010-06-11 13:35:08 +0200	[diff] [blame]	7730	case CPU_DOWN_FAILED:
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7731	perf_event_init_cpu(cpu);
				7732	break;
				7733
Peter Zijlstra	5e11637	2010-06-11 13:35:08 +0200	[diff] [blame]	7734	case CPU_UP_CANCELED:
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7735	case CPU_DOWN_PREPARE:
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7736	perf_event_exit_cpu(cpu);
				7737	break;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7738	default:
				7739	break;
				7740	}
				7741
				7742	return NOTIFY_OK;
				7743	}
				7744
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7745	void __init perf_event_init(void)
				7746	{
Jason Wessel	3c502e7	2010-11-04 17:33:01 -0500	[diff] [blame]	7747	int ret;
				7748
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	7749	idr_init(&pmu_idr);
				7750
Paul Mackerras	220b140	2010-03-10 20:45:52 +1100	[diff] [blame]	7751	perf_event_init_all_cpus();
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	7752	init_srcu_struct(&pmus_srcu);
Peter Zijlstra	2e80a82	2010-11-17 23:17:36 +0100	[diff] [blame]	7753	perf_pmu_register(&perf_swevent, "software", PERF_TYPE_SOFTWARE);
				7754	perf_pmu_register(&perf_cpu_clock, NULL, -1);
				7755	perf_pmu_register(&perf_task_clock, NULL, -1);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	7756	perf_tp_register();
				7757	perf_cpu_notifier(perf_cpu_notify);
Peter Zijlstra	c277443	2010-12-08 15:29:02 +0100	[diff] [blame]	7758	register_reboot_notifier(&perf_reboot_notifier);
Jason Wessel	3c502e7	2010-11-04 17:33:01 -0500	[diff] [blame]	7759
				7760	ret = init_hw_breakpoint();
				7761	WARN(ret, "hw_breakpoint initialization failed with: %d", ret);
Gleb Natapov	b202952	2011-11-27 17:59:09 +0200	[diff] [blame]	7762
				7763	/* do not patch jump label more than once per second */
				7764	jump_label_rate_limit(&perf_sched_events, HZ);
Jiri Olsa	b01c3a0	2012-03-23 15:41:20 +0100	[diff] [blame]	7765
				7766	/*
				7767	* Build time assertion that we keep the data_head at the intended
				7768	* location. IOW, validation we got the __reserved[] size right.
				7769	*/
				7770	BUILD_BUG_ON((offsetof(struct perf_event_mmap_page, data_head))
				7771	!= 1024);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	7772	}
Peter Zijlstra	abe4340	2010-11-17 23:17:37 +0100	[diff] [blame]	7773
				7774	static int __init perf_event_sysfs_init(void)
				7775	{
				7776	struct pmu *pmu;
				7777	int ret;
				7778
				7779	mutex_lock(&pmus_lock);
				7780
				7781	ret = bus_register(&pmu_bus);
				7782	if (ret)
				7783	goto unlock;
				7784
				7785	list_for_each_entry(pmu, &pmus, entry) {
				7786	if (!pmu->name \|\| pmu->type < 0)
				7787	continue;
				7788
				7789	ret = pmu_dev_alloc(pmu);
				7790	WARN(ret, "Failed to register pmu: %s, reason %d\n", pmu->name, ret);
				7791	}
				7792	pmu_bus_running = 1;
				7793	ret = 0;
				7794
				7795	unlock:
				7796	mutex_unlock(&pmus_lock);
				7797
				7798	return ret;
				7799	}
				7800	device_initcall(perf_event_sysfs_init);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	7801
				7802	#ifdef CONFIG_CGROUP_PERF
Tejun Heo	92fb974	2012-11-19 08:13:38 -0800	[diff] [blame]	7803	static struct cgroup_subsys_state perf_cgroup_css_alloc(struct cgroup cont)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	7804	{
				7805	struct perf_cgroup *jc;
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	7806
Li Zefan	1b15d05	2011-03-03 14:26:06 +0800	[diff] [blame]	7807	jc = kzalloc(sizeof(*jc), GFP_KERNEL);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	7808	if (!jc)
				7809	return ERR_PTR(-ENOMEM);
				7810
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	7811	jc->info = alloc_percpu(struct perf_cgroup_info);
				7812	if (!jc->info) {
				7813	kfree(jc);
				7814	return ERR_PTR(-ENOMEM);
				7815	}
				7816
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	7817	return &jc->css;
				7818	}
				7819
Tejun Heo	92fb974	2012-11-19 08:13:38 -0800	[diff] [blame]	7820	static void perf_cgroup_css_free(struct cgroup *cont)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	7821	{
				7822	struct perf_cgroup *jc;
				7823	jc = container_of(cgroup_subsys_state(cont, perf_subsys_id),
				7824	struct perf_cgroup, css);
				7825	free_percpu(jc->info);
				7826	kfree(jc);
				7827	}
				7828
				7829	static int __perf_cgroup_move(void *info)
				7830	{
				7831	struct task_struct *task = info;
				7832	perf_cgroup_switch(task, PERF_CGROUP_SWOUT \| PERF_CGROUP_SWIN);
				7833	return 0;
				7834	}
				7835
Li Zefan	761b3ef5	2012-01-31 13:47:36 +0800	[diff] [blame]	7836	static void perf_cgroup_attach(struct cgroup cgrp, struct cgroup_taskset tset)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	7837	{
Tejun Heo	bb9d97b	2011-12-12 18:12:21 -0800	[diff] [blame]	7838	struct task_struct *task;
				7839
				7840	cgroup_taskset_for_each(task, cgrp, tset)
				7841	task_function_call(task, __perf_cgroup_move, task);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	7842	}
				7843
Li Zefan	761b3ef5	2012-01-31 13:47:36 +0800	[diff] [blame]	7844	static void perf_cgroup_exit(struct cgroup cgrp, struct cgroup old_cgrp,
				7845	struct task_struct *task)
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	7846	{
				7847	/*
				7848	* cgroup_exit() is called in the copy_process() failure path.
				7849	* Ignore this case since the task hasn't ran yet, this avoids
				7850	* trying to poke a half freed task state from generic code.
				7851	*/
				7852	if (!(task->flags & PF_EXITING))
				7853	return;
				7854
Tejun Heo	bb9d97b	2011-12-12 18:12:21 -0800	[diff] [blame]	7855	task_function_call(task, __perf_cgroup_move, task);
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	7856	}
				7857
				7858	struct cgroup_subsys perf_subsys = {
Ingo Molnar	e7e7ee2	2011-05-04 08:42:29 +0200	[diff] [blame]	7859	.name = "perf_event",
				7860	.subsys_id = perf_subsys_id,
Tejun Heo	92fb974	2012-11-19 08:13:38 -0800	[diff] [blame]	7861	.css_alloc = perf_cgroup_css_alloc,
				7862	.css_free = perf_cgroup_css_free,
Ingo Molnar	e7e7ee2	2011-05-04 08:42:29 +0200	[diff] [blame]	7863	.exit = perf_cgroup_exit,
Tejun Heo	bb9d97b	2011-12-12 18:12:21 -0800	[diff] [blame]	7864	.attach = perf_cgroup_attach,
Stephane Eranian	e5d1367	2011-02-14 11:20:01 +0200	[diff] [blame]	7865	};
				7866	#endif /* CONFIG_CGROUP_PERF */