Blame - kernel/perf_event.c - SHIFTPHONES/mainline/linux

blob: cb6c0d2af68f64b16bd0557f3c7fb7001151b71d [file] [log] [blame]

Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1	/*
Ingo Molnar	57c0c15	2009-09-21 12:20:38 +0200	[diff] [blame]	2	* Performance events core code:
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3	*
				4	* Copyright (C) 2008 Thomas Gleixner <tglx@linutronix.de>
				5	* Copyright (C) 2008-2009 Red Hat, Inc., Ingo Molnar
				6	* Copyright (C) 2008-2009 Red Hat, Inc., Peter Zijlstra <pzijlstr@redhat.com>
				7	* Copyright © 2009 Paul Mackerras, IBM Corp. <paulus@au1.ibm.com>
				8	*
Ingo Molnar	57c0c15	2009-09-21 12:20:38 +0200	[diff] [blame]	9	* For licensing details see kernel-base/COPYING
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	10	*/
				11
				12	#include <linux/fs.h>
				13	#include <linux/mm.h>
				14	#include <linux/cpu.h>
				15	#include <linux/smp.h>
				16	#include <linux/file.h>
				17	#include <linux/poll.h>
Tejun Heo	5a0e3ad	2010-03-24 17:04:11 +0900	[diff] [blame]	18	#include <linux/slab.h>
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	19	#include <linux/hash.h>
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	20	#include <linux/sysfs.h>
				21	#include <linux/dcache.h>
				22	#include <linux/percpu.h>
				23	#include <linux/ptrace.h>
				24	#include <linux/vmstat.h>
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	25	#include <linux/vmalloc.h>
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	26	#include <linux/hardirq.h>
				27	#include <linux/rculist.h>
				28	#include <linux/uaccess.h>
				29	#include <linux/syscalls.h>
				30	#include <linux/anon_inodes.h>
				31	#include <linux/kernel_stat.h>
				32	#include <linux/perf_event.h>
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	33	#include <linux/ftrace_event.h>
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	34
				35	#include <asm/irq_regs.h>
				36
Peter Zijlstra	82cd6de	2010-10-14 17:57:23 +0200	[diff] [blame]	37	atomic_t perf_task_events __read_mostly;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	38	static atomic_t nr_mmap_events __read_mostly;
				39	static atomic_t nr_comm_events __read_mostly;
				40	static atomic_t nr_task_events __read_mostly;
				41
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	42	static LIST_HEAD(pmus);
				43	static DEFINE_MUTEX(pmus_lock);
				44	static struct srcu_struct pmus_srcu;
				45
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	46	/*
				47	* perf event paranoia level:
				48	* -1 - not paranoid at all
				49	* 0 - disallow raw tracepoint access for unpriv
				50	* 1 - disallow cpu events for unpriv
				51	* 2 - disallow kernel profiling for unpriv
				52	*/
				53	int sysctl_perf_event_paranoid __read_mostly = 1;
				54
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	55	int sysctl_perf_event_mlock __read_mostly = 512; /* 'free' kb per user */
				56
				57	/*
				58	* max perf event sample rate
				59	*/
				60	int sysctl_perf_event_sample_rate __read_mostly = 100000;
				61
				62	static atomic64_t perf_event_id;
				63
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	64	void __weak perf_event_print_debug(void) { }
				65
Matt Fleming	84c7991	2010-10-03 21:41:13 +0100	[diff] [blame]	66	extern __weak const char *perf_pmu_name(void)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	67	{
Matt Fleming	84c7991	2010-10-03 21:41:13 +0100	[diff] [blame]	68	return "pmu";
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	69	}
				70
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	71	void perf_pmu_disable(struct pmu *pmu)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	72	{
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	73	int *count = this_cpu_ptr(pmu->pmu_disable_count);
				74	if (!(*count)++)
				75	pmu->pmu_disable(pmu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	76	}
				77
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	78	void perf_pmu_enable(struct pmu *pmu)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	79	{
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	80	int *count = this_cpu_ptr(pmu->pmu_disable_count);
				81	if (!--(*count))
				82	pmu->pmu_enable(pmu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	83	}
				84
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	85	static DEFINE_PER_CPU(struct list_head, rotation_list);
				86
				87	/*
				88	* perf_pmu_rotate_start() and perf_rotate_context() are fully serialized
				89	* because they're strictly cpu affine and rotate_start is called with IRQs
				90	* disabled, while rotate_context is called from IRQ context.
				91	*/
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	92	static void perf_pmu_rotate_start(struct pmu *pmu)
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	93	{
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	94	struct perf_cpu_context *cpuctx = this_cpu_ptr(pmu->pmu_cpu_context);
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	95	struct list_head *head = &__get_cpu_var(rotation_list);
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	96
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	97	WARN_ON(!irqs_disabled());
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	98
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	99	if (list_empty(&cpuctx->rotation_list))
				100	list_add(&cpuctx->rotation_list, head);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	101	}
				102
				103	static void get_ctx(struct perf_event_context *ctx)
				104	{
				105	WARN_ON(!atomic_inc_not_zero(&ctx->refcount));
				106	}
				107
				108	static void free_ctx(struct rcu_head *head)
				109	{
				110	struct perf_event_context *ctx;
				111
				112	ctx = container_of(head, struct perf_event_context, rcu_head);
				113	kfree(ctx);
				114	}
				115
				116	static void put_ctx(struct perf_event_context *ctx)
				117	{
				118	if (atomic_dec_and_test(&ctx->refcount)) {
				119	if (ctx->parent_ctx)
				120	put_ctx(ctx->parent_ctx);
				121	if (ctx->task)
				122	put_task_struct(ctx->task);
				123	call_rcu(&ctx->rcu_head, free_ctx);
				124	}
				125	}
				126
				127	static void unclone_ctx(struct perf_event_context *ctx)
				128	{
				129	if (ctx->parent_ctx) {
				130	put_ctx(ctx->parent_ctx);
				131	ctx->parent_ctx = NULL;
				132	}
				133	}
				134
				135	/*
				136	* If we inherit events we want to return the parent event id
				137	* to userspace.
				138	*/
				139	static u64 primary_event_id(struct perf_event *event)
				140	{
				141	u64 id = event->id;
				142
				143	if (event->parent)
				144	id = event->parent->id;
				145
				146	return id;
				147	}
				148
				149	/*
				150	* Get the perf_event_context for a task and lock it.
				151	* This has to cope with with the fact that until it is locked,
				152	* the context could get moved to another task.
				153	*/
				154	static struct perf_event_context *
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	155	perf_lock_task_context(struct task_struct task, int ctxn, unsigned long flags)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	156	{
				157	struct perf_event_context *ctx;
				158
				159	rcu_read_lock();
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	160	retry:
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	161	ctx = rcu_dereference(task->perf_event_ctxp[ctxn]);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	162	if (ctx) {
				163	/*
				164	* If this context is a clone of another, it might
				165	* get swapped for another underneath us by
				166	* perf_event_task_sched_out, though the
				167	* rcu_read_lock() protects us from any context
				168	* getting freed. Lock the context and check if it
				169	* got swapped before we could get the lock, and retry
				170	* if so. If we locked the right context, then it
				171	* can't get swapped on us any more.
				172	*/
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	173	raw_spin_lock_irqsave(&ctx->lock, *flags);
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	174	if (ctx != rcu_dereference(task->perf_event_ctxp[ctxn])) {
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	175	raw_spin_unlock_irqrestore(&ctx->lock, *flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	176	goto retry;
				177	}
				178
				179	if (!atomic_inc_not_zero(&ctx->refcount)) {
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	180	raw_spin_unlock_irqrestore(&ctx->lock, *flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	181	ctx = NULL;
				182	}
				183	}
				184	rcu_read_unlock();
				185	return ctx;
				186	}
				187
				188	/*
				189	* Get the context for a task and increment its pin_count so it
				190	* can't get swapped to another task. This also increments its
				191	* reference count so that the context can't get freed.
				192	*/
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	193	static struct perf_event_context *
				194	perf_pin_task_context(struct task_struct *task, int ctxn)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	195	{
				196	struct perf_event_context *ctx;
				197	unsigned long flags;
				198
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	199	ctx = perf_lock_task_context(task, ctxn, &flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	200	if (ctx) {
				201	++ctx->pin_count;
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	202	raw_spin_unlock_irqrestore(&ctx->lock, flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	203	}
				204	return ctx;
				205	}
				206
				207	static void perf_unpin_context(struct perf_event_context *ctx)
				208	{
				209	unsigned long flags;
				210
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	211	raw_spin_lock_irqsave(&ctx->lock, flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	212	--ctx->pin_count;
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	213	raw_spin_unlock_irqrestore(&ctx->lock, flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	214	put_ctx(ctx);
				215	}
				216
Peter Zijlstra	f67218c	2009-11-23 11:37:27 +0100	[diff] [blame]	217	static inline u64 perf_clock(void)
				218	{
Peter Zijlstra	c676329	2010-05-25 10:48:51 +0200	[diff] [blame]	219	return local_clock();
Peter Zijlstra	f67218c	2009-11-23 11:37:27 +0100	[diff] [blame]	220	}
				221
				222	/*
				223	* Update the record of the current time in a context.
				224	*/
				225	static void update_context_time(struct perf_event_context *ctx)
				226	{
				227	u64 now = perf_clock();
				228
				229	ctx->time += now - ctx->timestamp;
				230	ctx->timestamp = now;
				231	}
				232
				233	/*
				234	* Update the total_time_enabled and total_time_running fields for a event.
				235	*/
				236	static void update_event_times(struct perf_event *event)
				237	{
				238	struct perf_event_context *ctx = event->ctx;
				239	u64 run_end;
				240
				241	if (event->state < PERF_EVENT_STATE_INACTIVE \|\|
				242	event->group_leader->state < PERF_EVENT_STATE_INACTIVE)
				243	return;
				244
Peter Zijlstra	acd1d7c	2009-11-23 15:00:36 +0100	[diff] [blame]	245	if (ctx->is_active)
				246	run_end = ctx->time;
				247	else
				248	run_end = event->tstamp_stopped;
				249
				250	event->total_time_enabled = run_end - event->tstamp_enabled;
Peter Zijlstra	f67218c	2009-11-23 11:37:27 +0100	[diff] [blame]	251
				252	if (event->state == PERF_EVENT_STATE_INACTIVE)
				253	run_end = event->tstamp_stopped;
				254	else
				255	run_end = ctx->time;
				256
				257	event->total_time_running = run_end - event->tstamp_running;
				258	}
				259
Peter Zijlstra	96c21a4	2010-05-11 16:19:10 +0200	[diff] [blame]	260	/*
				261	* Update total_time_enabled and total_time_running for all events in a group.
				262	*/
				263	static void update_group_times(struct perf_event *leader)
				264	{
				265	struct perf_event *event;
				266
				267	update_event_times(leader);
				268	list_for_each_entry(event, &leader->sibling_list, group_entry)
				269	update_event_times(event);
				270	}
				271
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	272	static struct list_head *
				273	ctx_group_list(struct perf_event event, struct perf_event_context ctx)
				274	{
				275	if (event->attr.pinned)
				276	return &ctx->pinned_groups;
				277	else
				278	return &ctx->flexible_groups;
				279	}
				280
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	281	/*
				282	* Add a event from the lists for its context.
				283	* Must be called with ctx->mutex and ctx->lock held.
				284	*/
				285	static void
				286	list_add_event(struct perf_event event, struct perf_event_context ctx)
				287	{
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	288	WARN_ON_ONCE(event->attach_state & PERF_ATTACH_CONTEXT);
				289	event->attach_state \|= PERF_ATTACH_CONTEXT;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	290
				291	/*
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	292	* If we're a stand alone event or group leader, we go to the context
				293	* list, group events are kept attached to the group so that
				294	* perf_group_detach can, at all times, locate all siblings.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	295	*/
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	296	if (event->group_leader == event) {
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	297	struct list_head *list;
				298
Frederic Weisbecker	d6f962b	2010-01-10 01:25:51 +0100	[diff] [blame]	299	if (is_software_event(event))
				300	event->group_flags \|= PERF_GROUP_SOFTWARE;
				301
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	302	list = ctx_group_list(event, ctx);
				303	list_add_tail(&event->group_entry, list);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	304	}
				305
				306	list_add_rcu(&event->event_entry, &ctx->event_list);
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	307	if (!ctx->nr_events)
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	308	perf_pmu_rotate_start(ctx->pmu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	309	ctx->nr_events++;
				310	if (event->attr.inherit_stat)
				311	ctx->nr_stat++;
				312	}
				313
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	314	static void perf_group_attach(struct perf_event *event)
				315	{
				316	struct perf_event *group_leader = event->group_leader;
				317
Peter Zijlstra	74c3337	2010-10-15 11:40:29 +0200	[diff] [blame]	318	/*
				319	* We can have double attach due to group movement in perf_event_open.
				320	*/
				321	if (event->attach_state & PERF_ATTACH_GROUP)
				322	return;
				323
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	324	event->attach_state \|= PERF_ATTACH_GROUP;
				325
				326	if (group_leader == event)
				327	return;
				328
				329	if (group_leader->group_flags & PERF_GROUP_SOFTWARE &&
				330	!is_software_event(event))
				331	group_leader->group_flags &= ~PERF_GROUP_SOFTWARE;
				332
				333	list_add_tail(&event->group_entry, &group_leader->sibling_list);
				334	group_leader->nr_siblings++;
				335	}
				336
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	337	/*
				338	* Remove a event from the lists for its context.
				339	* Must be called with ctx->mutex and ctx->lock held.
				340	*/
				341	static void
				342	list_del_event(struct perf_event event, struct perf_event_context ctx)
				343	{
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	344	/*
				345	* We can have double detach due to exit/hot-unplug + close.
				346	*/
				347	if (!(event->attach_state & PERF_ATTACH_CONTEXT))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	348	return;
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	349
				350	event->attach_state &= ~PERF_ATTACH_CONTEXT;
				351
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	352	ctx->nr_events--;
				353	if (event->attr.inherit_stat)
				354	ctx->nr_stat--;
				355
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	356	list_del_rcu(&event->event_entry);
				357
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	358	if (event->group_leader == event)
				359	list_del_init(&event->group_entry);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	360
Peter Zijlstra	96c21a4	2010-05-11 16:19:10 +0200	[diff] [blame]	361	update_group_times(event);
Stephane Eranian	b2e74a2	2009-11-26 09:24:30 -0800	[diff] [blame]	362
				363	/*
				364	* If event was in error state, then keep it
				365	* that way, otherwise bogus counts will be
				366	* returned on read(). The only way to get out
				367	* of error state is by explicit re-enabling
				368	* of the event
				369	*/
				370	if (event->state > PERF_EVENT_STATE_OFF)
				371	event->state = PERF_EVENT_STATE_OFF;
Peter Zijlstra	050735b	2010-05-11 11:51:53 +0200	[diff] [blame]	372	}
				373
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	374	static void perf_group_detach(struct perf_event *event)
Peter Zijlstra	050735b	2010-05-11 11:51:53 +0200	[diff] [blame]	375	{
				376	struct perf_event sibling, tmp;
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	377	struct list_head *list = NULL;
				378
				379	/*
				380	* We can have double detach due to exit/hot-unplug + close.
				381	*/
				382	if (!(event->attach_state & PERF_ATTACH_GROUP))
				383	return;
				384
				385	event->attach_state &= ~PERF_ATTACH_GROUP;
				386
				387	/*
				388	* If this is a sibling, remove it from its group.
				389	*/
				390	if (event->group_leader != event) {
				391	list_del_init(&event->group_entry);
				392	event->group_leader->nr_siblings--;
				393	return;
				394	}
				395
				396	if (!list_empty(&event->group_entry))
				397	list = &event->group_entry;
Peter Zijlstra	2e2af50	2009-11-23 11:37:25 +0100	[diff] [blame]	398
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	399	/*
				400	* If this was a group event with sibling events then
				401	* upgrade the siblings to singleton events by adding them
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	402	* to whatever list we are on.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	403	*/
				404	list_for_each_entry_safe(sibling, tmp, &event->sibling_list, group_entry) {
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	405	if (list)
				406	list_move_tail(&sibling->group_entry, list);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	407	sibling->group_leader = sibling;
Frederic Weisbecker	d6f962b	2010-01-10 01:25:51 +0100	[diff] [blame]	408
				409	/* Inherit group flags from the previous leader */
				410	sibling->group_flags = event->group_flags;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	411	}
				412	}
				413
Stephane Eranian	fa66f07	2010-08-26 16:40:01 +0200	[diff] [blame]	414	static inline int
				415	event_filter_match(struct perf_event *event)
				416	{
				417	return event->cpu == -1 \|\| event->cpu == smp_processor_id();
				418	}
				419
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	420	static void
				421	event_sched_out(struct perf_event *event,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	422	struct perf_cpu_context *cpuctx,
				423	struct perf_event_context *ctx)
				424	{
Stephane Eranian	fa66f07	2010-08-26 16:40:01 +0200	[diff] [blame]	425	u64 delta;
				426	/*
				427	* An event which could not be activated because of
				428	* filter mismatch still needs to have its timings
				429	* maintained, otherwise bogus information is return
				430	* via read() for time_enabled, time_running:
				431	*/
				432	if (event->state == PERF_EVENT_STATE_INACTIVE
				433	&& !event_filter_match(event)) {
				434	delta = ctx->time - event->tstamp_stopped;
				435	event->tstamp_running += delta;
				436	event->tstamp_stopped = ctx->time;
				437	}
				438
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	439	if (event->state != PERF_EVENT_STATE_ACTIVE)
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	440	return;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	441
				442	event->state = PERF_EVENT_STATE_INACTIVE;
				443	if (event->pending_disable) {
				444	event->pending_disable = 0;
				445	event->state = PERF_EVENT_STATE_OFF;
				446	}
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	447	event->tstamp_stopped = ctx->time;
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	448	event->pmu->del(event, 0);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	449	event->oncpu = -1;
				450
				451	if (!is_software_event(event))
				452	cpuctx->active_oncpu--;
				453	ctx->nr_active--;
				454	if (event->attr.exclusive \|\| !cpuctx->active_oncpu)
				455	cpuctx->exclusive = 0;
				456	}
				457
				458	static void
				459	group_sched_out(struct perf_event *group_event,
				460	struct perf_cpu_context *cpuctx,
				461	struct perf_event_context *ctx)
				462	{
				463	struct perf_event *event;
Stephane Eranian	fa66f07	2010-08-26 16:40:01 +0200	[diff] [blame]	464	int state = group_event->state;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	465
				466	event_sched_out(group_event, cpuctx, ctx);
				467
				468	/*
				469	* Schedule out siblings (if any):
				470	*/
				471	list_for_each_entry(event, &group_event->sibling_list, group_entry)
				472	event_sched_out(event, cpuctx, ctx);
				473
Stephane Eranian	fa66f07	2010-08-26 16:40:01 +0200	[diff] [blame]	474	if (state == PERF_EVENT_STATE_ACTIVE && group_event->attr.exclusive)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	475	cpuctx->exclusive = 0;
				476	}
				477
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	478	static inline struct perf_cpu_context *
				479	__get_cpu_context(struct perf_event_context *ctx)
				480	{
				481	return this_cpu_ptr(ctx->pmu->pmu_cpu_context);
				482	}
				483
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	484	/*
				485	* Cross CPU call to remove a performance event
				486	*
				487	* We disable the event on the hardware level first. After that we
				488	* remove it from the context list.
				489	*/
				490	static void __perf_event_remove_from_context(void *info)
				491	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	492	struct perf_event *event = info;
				493	struct perf_event_context *ctx = event->ctx;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	494	struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	495
				496	/*
				497	* If this is a task context, we need to check whether it is
				498	* the current task context of this cpu. If not it has been
				499	* scheduled out before the smp call arrived.
				500	*/
				501	if (ctx->task && cpuctx->task_ctx != ctx)
				502	return;
				503
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	504	raw_spin_lock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	505
				506	event_sched_out(event, cpuctx, ctx);
				507
				508	list_del_event(event, ctx);
				509
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	510	raw_spin_unlock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	511	}
				512
				513
				514	/*
				515	* Remove the event from a task's (or a CPU's) list of events.
				516	*
				517	* Must be called with ctx->mutex held.
				518	*
				519	* CPU events are removed with a smp call. For task events we only
				520	* call when the task is on a CPU.
				521	*
				522	* If event->ctx is a cloned context, callers must make sure that
				523	* every task struct that event->ctx->task could possibly point to
				524	* remains valid. This is OK when called from perf_release since
				525	* that only calls us on the top-level context, which can't be a clone.
				526	* When called from perf_event_exit_task, it's OK because the
				527	* context has been detached from its task.
				528	*/
				529	static void perf_event_remove_from_context(struct perf_event *event)
				530	{
				531	struct perf_event_context *ctx = event->ctx;
				532	struct task_struct *task = ctx->task;
				533
				534	if (!task) {
				535	/*
				536	* Per cpu events are removed via an smp call and
André Goddard Rosa	af901ca	2009-11-14 13:09:05 -0200	[diff] [blame]	537	* the removal is always successful.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	538	*/
				539	smp_call_function_single(event->cpu,
				540	__perf_event_remove_from_context,
				541	event, 1);
				542	return;
				543	}
				544
				545	retry:
				546	task_oncpu_function_call(task, __perf_event_remove_from_context,
				547	event);
				548
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	549	raw_spin_lock_irq(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	550	/*
				551	* If the context is active we need to retry the smp call.
				552	*/
				553	if (ctx->nr_active && !list_empty(&event->group_entry)) {
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	554	raw_spin_unlock_irq(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	555	goto retry;
				556	}
				557
				558	/*
				559	* The lock prevents that this context is scheduled in so we
				560	* can remove the event safely, if the call above did not
				561	* succeed.
				562	*/
Peter Zijlstra	6c2bfcb	2009-11-23 11:37:24 +0100	[diff] [blame]	563	if (!list_empty(&event->group_entry))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	564	list_del_event(event, ctx);
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	565	raw_spin_unlock_irq(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	566	}
				567
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	568	/*
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	569	* Cross CPU call to disable a performance event
				570	*/
				571	static void __perf_event_disable(void *info)
				572	{
				573	struct perf_event *event = info;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	574	struct perf_event_context *ctx = event->ctx;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	575	struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	576
				577	/*
				578	* If this is a per-task event, need to check whether this
				579	* event's task is the current task on this cpu.
				580	*/
				581	if (ctx->task && cpuctx->task_ctx != ctx)
				582	return;
				583
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	584	raw_spin_lock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	585
				586	/*
				587	* If the event is on, turn it off.
				588	* If it is in error state, leave it in error state.
				589	*/
				590	if (event->state >= PERF_EVENT_STATE_INACTIVE) {
				591	update_context_time(ctx);
				592	update_group_times(event);
				593	if (event == event->group_leader)
				594	group_sched_out(event, cpuctx, ctx);
				595	else
				596	event_sched_out(event, cpuctx, ctx);
				597	event->state = PERF_EVENT_STATE_OFF;
				598	}
				599
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	600	raw_spin_unlock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	601	}
				602
				603	/*
				604	* Disable a event.
				605	*
				606	* If event->ctx is a cloned context, callers must make sure that
				607	* every task struct that event->ctx->task could possibly point to
				608	* remains valid. This condition is satisifed when called through
				609	* perf_event_for_each_child or perf_event_for_each because they
				610	* hold the top-level event's child_mutex, so any descendant that
				611	* goes to exit will block in sync_child_event.
				612	* When called from perf_pending_event it's OK because event->ctx
				613	* is the current context on this CPU and preemption is disabled,
				614	* hence we can't get into perf_event_task_sched_out for this context.
				615	*/
Frederic Weisbecker	44234ad	2009-12-09 09:25:48 +0100	[diff] [blame]	616	void perf_event_disable(struct perf_event *event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	617	{
				618	struct perf_event_context *ctx = event->ctx;
				619	struct task_struct *task = ctx->task;
				620
				621	if (!task) {
				622	/*
				623	* Disable the event on the cpu that it's on
				624	*/
				625	smp_call_function_single(event->cpu, __perf_event_disable,
				626	event, 1);
				627	return;
				628	}
				629
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	630	retry:
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	631	task_oncpu_function_call(task, __perf_event_disable, event);
				632
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	633	raw_spin_lock_irq(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	634	/*
				635	* If the event is still active, we need to retry the cross-call.
				636	*/
				637	if (event->state == PERF_EVENT_STATE_ACTIVE) {
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	638	raw_spin_unlock_irq(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	639	goto retry;
				640	}
				641
				642	/*
				643	* Since we have the lock this context can't be scheduled
				644	* in, so we can change the state safely.
				645	*/
				646	if (event->state == PERF_EVENT_STATE_INACTIVE) {
				647	update_group_times(event);
				648	event->state = PERF_EVENT_STATE_OFF;
				649	}
				650
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	651	raw_spin_unlock_irq(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	652	}
				653
				654	static int
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	655	event_sched_in(struct perf_event *event,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	656	struct perf_cpu_context *cpuctx,
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	657	struct perf_event_context *ctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	658	{
				659	if (event->state <= PERF_EVENT_STATE_OFF)
				660	return 0;
				661
				662	event->state = PERF_EVENT_STATE_ACTIVE;
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	663	event->oncpu = smp_processor_id();
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	664	/*
				665	* The new state must be visible before we turn it on in the hardware:
				666	*/
				667	smp_wmb();
				668
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	669	if (event->pmu->add(event, PERF_EF_START)) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	670	event->state = PERF_EVENT_STATE_INACTIVE;
				671	event->oncpu = -1;
				672	return -EAGAIN;
				673	}
				674
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	675	event->tstamp_running += ctx->time - event->tstamp_stopped;
				676
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	677	event->shadow_ctx_time = ctx->time - ctx->timestamp;
				678
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	679	if (!is_software_event(event))
				680	cpuctx->active_oncpu++;
				681	ctx->nr_active++;
				682
				683	if (event->attr.exclusive)
				684	cpuctx->exclusive = 1;
				685
				686	return 0;
				687	}
				688
				689	static int
				690	group_sched_in(struct perf_event *group_event,
				691	struct perf_cpu_context *cpuctx,
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	692	struct perf_event_context *ctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	693	{
Lin Ming	6bde9b6	2010-04-23 13:56:00 +0800	[diff] [blame]	694	struct perf_event event, partial_group = NULL;
Peter Zijlstra	51b0fe3	2010-06-11 13:35:57 +0200	[diff] [blame]	695	struct pmu *pmu = group_event->pmu;
Stephane Eranian	d7842da	2010-10-20 15:25:01 +0200	[diff] [blame]	696	u64 now = ctx->time;
				697	bool simulate = false;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	698
				699	if (group_event->state == PERF_EVENT_STATE_OFF)
				700	return 0;
				701
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	702	pmu->start_txn(pmu);
Lin Ming	6bde9b6	2010-04-23 13:56:00 +0800	[diff] [blame]	703
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	704	if (event_sched_in(group_event, cpuctx, ctx)) {
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	705	pmu->cancel_txn(pmu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	706	return -EAGAIN;
Stephane Eranian	90151c35	2010-05-25 16:23:10 +0200	[diff] [blame]	707	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	708
				709	/*
				710	* Schedule in siblings as one group (if any):
				711	*/
				712	list_for_each_entry(event, &group_event->sibling_list, group_entry) {
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	713	if (event_sched_in(event, cpuctx, ctx)) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	714	partial_group = event;
				715	goto group_error;
				716	}
				717	}
				718
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	719	if (!pmu->commit_txn(pmu))
Paul Mackerras	6e85158	2010-05-08 20:58:00 +1000	[diff] [blame]	720	return 0;
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	721
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	722	group_error:
				723	/*
				724	* Groups can be scheduled in as one unit only, so undo any
				725	* partial group before returning:
Stephane Eranian	d7842da	2010-10-20 15:25:01 +0200	[diff] [blame]	726	* The events up to the failed event are scheduled out normally,
				727	* tstamp_stopped will be updated.
				728	*
				729	* The failed events and the remaining siblings need to have
				730	* their timings updated as if they had gone thru event_sched_in()
				731	* and event_sched_out(). This is required to get consistent timings
				732	* across the group. This also takes care of the case where the group
				733	* could never be scheduled by ensuring tstamp_stopped is set to mark
				734	* the time the event was actually stopped, such that time delta
				735	* calculation in update_event_times() is correct.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	736	*/
				737	list_for_each_entry(event, &group_event->sibling_list, group_entry) {
				738	if (event == partial_group)
Stephane Eranian	d7842da	2010-10-20 15:25:01 +0200	[diff] [blame]	739	simulate = true;
				740
				741	if (simulate) {
				742	event->tstamp_running += now - event->tstamp_stopped;
				743	event->tstamp_stopped = now;
				744	} else {
				745	event_sched_out(event, cpuctx, ctx);
				746	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	747	}
Stephane Eranian	9ffcfa6	2010-10-20 15:25:01 +0200	[diff] [blame]	748	event_sched_out(group_event, cpuctx, ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	749
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	750	pmu->cancel_txn(pmu);
Stephane Eranian	90151c35	2010-05-25 16:23:10 +0200	[diff] [blame]	751
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	752	return -EAGAIN;
				753	}
				754
				755	/*
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	756	* Work out whether we can put this event group on the CPU now.
				757	*/
				758	static int group_can_go_on(struct perf_event *event,
				759	struct perf_cpu_context *cpuctx,
				760	int can_add_hw)
				761	{
				762	/*
				763	* Groups consisting entirely of software events can always go on.
				764	*/
Frederic Weisbecker	d6f962b	2010-01-10 01:25:51 +0100	[diff] [blame]	765	if (event->group_flags & PERF_GROUP_SOFTWARE)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	766	return 1;
				767	/*
				768	* If an exclusive group is already on, no other hardware
				769	* events can go on.
				770	*/
				771	if (cpuctx->exclusive)
				772	return 0;
				773	/*
				774	* If this group is exclusive and there are already
				775	* events on the CPU, it can't go on.
				776	*/
				777	if (event->attr.exclusive && cpuctx->active_oncpu)
				778	return 0;
				779	/*
				780	* Otherwise, try to add it if all previous groups were able
				781	* to go on.
				782	*/
				783	return can_add_hw;
				784	}
				785
				786	static void add_event_to_ctx(struct perf_event *event,
				787	struct perf_event_context *ctx)
				788	{
				789	list_add_event(event, ctx);
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	790	perf_group_attach(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	791	event->tstamp_enabled = ctx->time;
				792	event->tstamp_running = ctx->time;
				793	event->tstamp_stopped = ctx->time;
				794	}
				795
				796	/*
				797	* Cross CPU call to install and enable a performance event
				798	*
				799	* Must be called with ctx->mutex held
				800	*/
				801	static void __perf_install_in_context(void *info)
				802	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	803	struct perf_event *event = info;
				804	struct perf_event_context *ctx = event->ctx;
				805	struct perf_event *leader = event->group_leader;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	806	struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	807	int err;
				808
				809	/*
				810	* If this is a task context, we need to check whether it is
				811	* the current task context of this cpu. If not it has been
				812	* scheduled out before the smp call arrived.
				813	* Or possibly this is the right context but it isn't
				814	* on this cpu because it had no events.
				815	*/
				816	if (ctx->task && cpuctx->task_ctx != ctx) {
				817	if (cpuctx->task_ctx \|\| ctx->task != current)
				818	return;
				819	cpuctx->task_ctx = ctx;
				820	}
				821
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	822	raw_spin_lock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	823	ctx->is_active = 1;
				824	update_context_time(ctx);
				825
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	826	add_event_to_ctx(event, ctx);
				827
Peter Zijlstra	f4c4176	2009-12-16 17:55:54 +0100	[diff] [blame]	828	if (event->cpu != -1 && event->cpu != smp_processor_id())
				829	goto unlock;
				830
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	831	/*
				832	* Don't put the event on if it is disabled or if
				833	* it is in a group and the group isn't on.
				834	*/
				835	if (event->state != PERF_EVENT_STATE_INACTIVE \|\|
				836	(leader != event && leader->state != PERF_EVENT_STATE_ACTIVE))
				837	goto unlock;
				838
				839	/*
				840	* An exclusive event can't go on if there are already active
				841	* hardware events, and no hardware event can go on if there
				842	* is already an exclusive event on.
				843	*/
				844	if (!group_can_go_on(event, cpuctx, 1))
				845	err = -EEXIST;
				846	else
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	847	err = event_sched_in(event, cpuctx, ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	848
				849	if (err) {
				850	/*
				851	* This event couldn't go on. If it is in a group
				852	* then we have to pull the whole group off.
				853	* If the event group is pinned then put it in error state.
				854	*/
				855	if (leader != event)
				856	group_sched_out(leader, cpuctx, ctx);
				857	if (leader->attr.pinned) {
				858	update_group_times(leader);
				859	leader->state = PERF_EVENT_STATE_ERROR;
				860	}
				861	}
				862
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	863	unlock:
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	864	raw_spin_unlock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	865	}
				866
				867	/*
				868	* Attach a performance event to a context
				869	*
				870	* First we add the event to the list with the hardware enable bit
				871	* in event->hw_config cleared.
				872	*
				873	* If the event is attached to a task which is on a CPU we use a smp
				874	* call to enable it in the task context. The task might have been
				875	* scheduled away, but we check this in the smp call again.
				876	*
				877	* Must be called with ctx->mutex held.
				878	*/
				879	static void
				880	perf_install_in_context(struct perf_event_context *ctx,
				881	struct perf_event *event,
				882	int cpu)
				883	{
				884	struct task_struct *task = ctx->task;
				885
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	886	event->ctx = ctx;
				887
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	888	if (!task) {
				889	/*
				890	* Per cpu events are installed via an smp call and
André Goddard Rosa	af901ca	2009-11-14 13:09:05 -0200	[diff] [blame]	891	* the install is always successful.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	892	*/
				893	smp_call_function_single(cpu, __perf_install_in_context,
				894	event, 1);
				895	return;
				896	}
				897
				898	retry:
				899	task_oncpu_function_call(task, __perf_install_in_context,
				900	event);
				901
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	902	raw_spin_lock_irq(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	903	/*
				904	* we need to retry the smp call.
				905	*/
				906	if (ctx->is_active && list_empty(&event->group_entry)) {
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	907	raw_spin_unlock_irq(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	908	goto retry;
				909	}
				910
				911	/*
				912	* The lock prevents that this context is scheduled in so we
				913	* can add the event safely, if it the call above did not
				914	* succeed.
				915	*/
				916	if (list_empty(&event->group_entry))
				917	add_event_to_ctx(event, ctx);
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	918	raw_spin_unlock_irq(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	919	}
				920
				921	/*
				922	* Put a event into inactive state and update time fields.
				923	* Enabling the leader of a group effectively enables all
				924	* the group members that aren't explicitly disabled, so we
				925	* have to update their ->tstamp_enabled also.
				926	* Note: this works for group members as well as group leaders
				927	* since the non-leader members' sibling_lists will be empty.
				928	*/
				929	static void __perf_event_mark_enabled(struct perf_event *event,
				930	struct perf_event_context *ctx)
				931	{
				932	struct perf_event *sub;
				933
				934	event->state = PERF_EVENT_STATE_INACTIVE;
				935	event->tstamp_enabled = ctx->time - event->total_time_enabled;
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	936	list_for_each_entry(sub, &event->sibling_list, group_entry) {
				937	if (sub->state >= PERF_EVENT_STATE_INACTIVE) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	938	sub->tstamp_enabled =
				939	ctx->time - sub->total_time_enabled;
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	940	}
				941	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	942	}
				943
				944	/*
				945	* Cross CPU call to enable a performance event
				946	*/
				947	static void __perf_event_enable(void *info)
				948	{
				949	struct perf_event *event = info;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	950	struct perf_event_context *ctx = event->ctx;
				951	struct perf_event *leader = event->group_leader;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	952	struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	953	int err;
				954
				955	/*
				956	* If this is a per-task event, need to check whether this
				957	* event's task is the current task on this cpu.
				958	*/
				959	if (ctx->task && cpuctx->task_ctx != ctx) {
				960	if (cpuctx->task_ctx \|\| ctx->task != current)
				961	return;
				962	cpuctx->task_ctx = ctx;
				963	}
				964
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	965	raw_spin_lock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	966	ctx->is_active = 1;
				967	update_context_time(ctx);
				968
				969	if (event->state >= PERF_EVENT_STATE_INACTIVE)
				970	goto unlock;
				971	__perf_event_mark_enabled(event, ctx);
				972
Peter Zijlstra	f4c4176	2009-12-16 17:55:54 +0100	[diff] [blame]	973	if (event->cpu != -1 && event->cpu != smp_processor_id())
				974	goto unlock;
				975
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	976	/*
				977	* If the event is in a group and isn't the group leader,
				978	* then don't put it on unless the group is on.
				979	*/
				980	if (leader != event && leader->state != PERF_EVENT_STATE_ACTIVE)
				981	goto unlock;
				982
				983	if (!group_can_go_on(event, cpuctx, 1)) {
				984	err = -EEXIST;
				985	} else {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	986	if (event == leader)
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	987	err = group_sched_in(event, cpuctx, ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	988	else
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	989	err = event_sched_in(event, cpuctx, ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	990	}
				991
				992	if (err) {
				993	/*
				994	* If this event can't go on and it's part of a
				995	* group, then the whole group has to come off.
				996	*/
				997	if (leader != event)
				998	group_sched_out(leader, cpuctx, ctx);
				999	if (leader->attr.pinned) {
				1000	update_group_times(leader);
				1001	leader->state = PERF_EVENT_STATE_ERROR;
				1002	}
				1003	}
				1004
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	1005	unlock:
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1006	raw_spin_unlock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1007	}
				1008
				1009	/*
				1010	* Enable a event.
				1011	*
				1012	* If event->ctx is a cloned context, callers must make sure that
				1013	* every task struct that event->ctx->task could possibly point to
				1014	* remains valid. This condition is satisfied when called through
				1015	* perf_event_for_each_child or perf_event_for_each as described
				1016	* for perf_event_disable.
				1017	*/
Frederic Weisbecker	44234ad	2009-12-09 09:25:48 +0100	[diff] [blame]	1018	void perf_event_enable(struct perf_event *event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1019	{
				1020	struct perf_event_context *ctx = event->ctx;
				1021	struct task_struct *task = ctx->task;
				1022
				1023	if (!task) {
				1024	/*
				1025	* Enable the event on the cpu that it's on
				1026	*/
				1027	smp_call_function_single(event->cpu, __perf_event_enable,
				1028	event, 1);
				1029	return;
				1030	}
				1031
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1032	raw_spin_lock_irq(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1033	if (event->state >= PERF_EVENT_STATE_INACTIVE)
				1034	goto out;
				1035
				1036	/*
				1037	* If the event is in error state, clear that first.
				1038	* That way, if we see the event in error state below, we
				1039	* know that it has gone back into error state, as distinct
				1040	* from the task having been scheduled away before the
				1041	* cross-call arrived.
				1042	*/
				1043	if (event->state == PERF_EVENT_STATE_ERROR)
				1044	event->state = PERF_EVENT_STATE_OFF;
				1045
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	1046	retry:
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1047	raw_spin_unlock_irq(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1048	task_oncpu_function_call(task, __perf_event_enable, event);
				1049
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1050	raw_spin_lock_irq(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1051
				1052	/*
				1053	* If the context is active and the event is still off,
				1054	* we need to retry the cross-call.
				1055	*/
				1056	if (ctx->is_active && event->state == PERF_EVENT_STATE_OFF)
				1057	goto retry;
				1058
				1059	/*
				1060	* Since we have the lock this context can't be scheduled
				1061	* in, so we can change the state safely.
				1062	*/
				1063	if (event->state == PERF_EVENT_STATE_OFF)
				1064	__perf_event_mark_enabled(event, ctx);
				1065
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	1066	out:
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1067	raw_spin_unlock_irq(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1068	}
				1069
				1070	static int perf_event_refresh(struct perf_event *event, int refresh)
				1071	{
				1072	/*
				1073	* not supported on inherited events
				1074	*/
				1075	if (event->attr.inherit)
				1076	return -EINVAL;
				1077
				1078	atomic_add(refresh, &event->event_limit);
				1079	perf_event_enable(event);
				1080
				1081	return 0;
				1082	}
				1083
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	1084	enum event_type_t {
				1085	EVENT_FLEXIBLE = 0x1,
				1086	EVENT_PINNED = 0x2,
				1087	EVENT_ALL = EVENT_FLEXIBLE \| EVENT_PINNED,
				1088	};
				1089
				1090	static void ctx_sched_out(struct perf_event_context *ctx,
				1091	struct perf_cpu_context *cpuctx,
				1092	enum event_type_t event_type)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1093	{
				1094	struct perf_event *event;
				1095
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1096	raw_spin_lock(&ctx->lock);
Peter Zijlstra	1b9a644	2010-09-07 18:32:22 +0200	[diff] [blame]	1097	perf_pmu_disable(ctx->pmu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1098	ctx->is_active = 0;
				1099	if (likely(!ctx->nr_events))
				1100	goto out;
				1101	update_context_time(ctx);
				1102
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	1103	if (!ctx->nr_active)
Peter Zijlstra	24cd7f5	2010-06-11 17:32:03 +0200	[diff] [blame]	1104	goto out;
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	1105
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	1106	if (event_type & EVENT_PINNED) {
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	1107	list_for_each_entry(event, &ctx->pinned_groups, group_entry)
				1108	group_sched_out(event, cpuctx, ctx);
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	1109	}
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	1110
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	1111	if (event_type & EVENT_FLEXIBLE) {
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	1112	list_for_each_entry(event, &ctx->flexible_groups, group_entry)
Xiao Guangrong	8c9ed8e	2009-09-25 13:51:17 +0800	[diff] [blame]	1113	group_sched_out(event, cpuctx, ctx);
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	1114	}
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	1115	out:
Peter Zijlstra	1b9a644	2010-09-07 18:32:22 +0200	[diff] [blame]	1116	perf_pmu_enable(ctx->pmu);
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1117	raw_spin_unlock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1118	}
				1119
				1120	/*
				1121	* Test whether two contexts are equivalent, i.e. whether they
				1122	* have both been cloned from the same version of the same context
				1123	* and they both have the same number of enabled events.
				1124	* If the number of enabled events is the same, then the set
				1125	* of enabled events should be the same, because these are both
				1126	* inherited contexts, therefore we can't access individual events
				1127	* in them directly with an fd; we can only enable/disable all
				1128	* events via prctl, or enable/disable all events in a family
				1129	* via ioctl, which will have the same effect on both contexts.
				1130	*/
				1131	static int context_equiv(struct perf_event_context *ctx1,
				1132	struct perf_event_context *ctx2)
				1133	{
				1134	return ctx1->parent_ctx && ctx1->parent_ctx == ctx2->parent_ctx
				1135	&& ctx1->parent_gen == ctx2->parent_gen
				1136	&& !ctx1->pin_count && !ctx2->pin_count;
				1137	}
				1138
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1139	static void __perf_event_sync_stat(struct perf_event *event,
				1140	struct perf_event *next_event)
				1141	{
				1142	u64 value;
				1143
				1144	if (!event->attr.inherit_stat)
				1145	return;
				1146
				1147	/*
				1148	* Update the event value, we cannot use perf_event_read()
				1149	* because we're in the middle of a context switch and have IRQs
				1150	* disabled, which upsets smp_call_function_single(), however
				1151	* we know the event must be on the current CPU, therefore we
				1152	* don't need to use it.
				1153	*/
				1154	switch (event->state) {
				1155	case PERF_EVENT_STATE_ACTIVE:
Peter Zijlstra	3dbebf1	2009-11-20 22:19:52 +0100	[diff] [blame]	1156	event->pmu->read(event);
				1157	/* fall-through */
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1158
				1159	case PERF_EVENT_STATE_INACTIVE:
				1160	update_event_times(event);
				1161	break;
				1162
				1163	default:
				1164	break;
				1165	}
				1166
				1167	/*
				1168	* In order to keep per-task stats reliable we need to flip the event
				1169	* values when we flip the contexts.
				1170	*/
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	1171	value = local64_read(&next_event->count);
				1172	value = local64_xchg(&event->count, value);
				1173	local64_set(&next_event->count, value);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1174
				1175	swap(event->total_time_enabled, next_event->total_time_enabled);
				1176	swap(event->total_time_running, next_event->total_time_running);
				1177
				1178	/*
				1179	* Since we swizzled the values, update the user visible data too.
				1180	*/
				1181	perf_event_update_userpage(event);
				1182	perf_event_update_userpage(next_event);
				1183	}
				1184
				1185	#define list_next_entry(pos, member) \
				1186	list_entry(pos->member.next, typeof(*pos), member)
				1187
				1188	static void perf_event_sync_stat(struct perf_event_context *ctx,
				1189	struct perf_event_context *next_ctx)
				1190	{
				1191	struct perf_event event, next_event;
				1192
				1193	if (!ctx->nr_stat)
				1194	return;
				1195
Peter Zijlstra	02ffdbc	2009-11-20 22:19:50 +0100	[diff] [blame]	1196	update_context_time(ctx);
				1197
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1198	event = list_first_entry(&ctx->event_list,
				1199	struct perf_event, event_entry);
				1200
				1201	next_event = list_first_entry(&next_ctx->event_list,
				1202	struct perf_event, event_entry);
				1203
				1204	while (&event->event_entry != &ctx->event_list &&
				1205	&next_event->event_entry != &next_ctx->event_list) {
				1206
				1207	__perf_event_sync_stat(event, next_event);
				1208
				1209	event = list_next_entry(event, event_entry);
				1210	next_event = list_next_entry(next_event, event_entry);
				1211	}
				1212	}
				1213
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	1214	void perf_event_context_sched_out(struct task_struct *task, int ctxn,
				1215	struct task_struct *next)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1216	{
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	1217	struct perf_event_context *ctx = task->perf_event_ctxp[ctxn];
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1218	struct perf_event_context *next_ctx;
				1219	struct perf_event_context *parent;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	1220	struct perf_cpu_context *cpuctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1221	int do_switch = 1;
				1222
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	1223	if (likely(!ctx))
				1224	return;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1225
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	1226	cpuctx = __get_cpu_context(ctx);
				1227	if (!cpuctx->task_ctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1228	return;
				1229
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1230	rcu_read_lock();
				1231	parent = rcu_dereference(ctx->parent_ctx);
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	1232	next_ctx = next->perf_event_ctxp[ctxn];
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1233	if (parent && next_ctx &&
				1234	rcu_dereference(next_ctx->parent_ctx) == parent) {
				1235	/*
				1236	* Looks like the two contexts are clones, so we might be
				1237	* able to optimize the context switch. We lock both
				1238	* contexts and check that they are clones under the
				1239	* lock (including re-checking that neither has been
				1240	* uncloned in the meantime). It doesn't matter which
				1241	* order we take the locks because no other cpu could
				1242	* be trying to lock both of these tasks.
				1243	*/
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1244	raw_spin_lock(&ctx->lock);
				1245	raw_spin_lock_nested(&next_ctx->lock, SINGLE_DEPTH_NESTING);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1246	if (context_equiv(ctx, next_ctx)) {
				1247	/*
				1248	* XXX do we need a memory barrier of sorts
				1249	* wrt to rcu_dereference() of perf_event_ctxp
				1250	*/
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	1251	task->perf_event_ctxp[ctxn] = next_ctx;
				1252	next->perf_event_ctxp[ctxn] = ctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1253	ctx->task = next;
				1254	next_ctx->task = task;
				1255	do_switch = 0;
				1256
				1257	perf_event_sync_stat(ctx, next_ctx);
				1258	}
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1259	raw_spin_unlock(&next_ctx->lock);
				1260	raw_spin_unlock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1261	}
				1262	rcu_read_unlock();
				1263
				1264	if (do_switch) {
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	1265	ctx_sched_out(ctx, cpuctx, EVENT_ALL);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1266	cpuctx->task_ctx = NULL;
				1267	}
				1268	}
				1269
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	1270	#define for_each_task_context_nr(ctxn) \
				1271	for ((ctxn) = 0; (ctxn) < perf_nr_task_contexts; (ctxn)++)
				1272
				1273	/*
				1274	* Called from scheduler to remove the events of the current task,
				1275	* with interrupts disabled.
				1276	*
				1277	* We stop each event and update the event value in event->count.
				1278	*
				1279	* This does not protect us against NMI, but disable()
				1280	* sets the disabled bit in the control field of event _before_
				1281	* accessing the event control register. If a NMI hits, then it will
				1282	* not restart the event.
				1283	*/
Peter Zijlstra	82cd6de	2010-10-14 17:57:23 +0200	[diff] [blame]	1284	void __perf_event_task_sched_out(struct task_struct *task,
				1285	struct task_struct *next)
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	1286	{
				1287	int ctxn;
				1288
				1289	perf_sw_event(PERF_COUNT_SW_CONTEXT_SWITCHES, 1, 1, NULL, 0);
				1290
				1291	for_each_task_context_nr(ctxn)
				1292	perf_event_context_sched_out(task, ctxn, next);
				1293	}
				1294
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	1295	static void task_ctx_sched_out(struct perf_event_context *ctx,
				1296	enum event_type_t event_type)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1297	{
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	1298	struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1299
				1300	if (!cpuctx->task_ctx)
				1301	return;
				1302
				1303	if (WARN_ON_ONCE(ctx != cpuctx->task_ctx))
				1304	return;
				1305
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	1306	ctx_sched_out(ctx, cpuctx, event_type);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1307	cpuctx->task_ctx = NULL;
				1308	}
				1309
				1310	/*
				1311	* Called with IRQs disabled
				1312	*/
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	1313	static void cpu_ctx_sched_out(struct perf_cpu_context *cpuctx,
				1314	enum event_type_t event_type)
				1315	{
				1316	ctx_sched_out(&cpuctx->ctx, cpuctx, event_type);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1317	}
				1318
				1319	static void
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	1320	ctx_pinned_sched_in(struct perf_event_context *ctx,
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	1321	struct perf_cpu_context *cpuctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1322	{
				1323	struct perf_event *event;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1324
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	1325	list_for_each_entry(event, &ctx->pinned_groups, group_entry) {
				1326	if (event->state <= PERF_EVENT_STATE_OFF)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1327	continue;
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	1328	if (event->cpu != -1 && event->cpu != smp_processor_id())
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1329	continue;
				1330
Xiao Guangrong	8c9ed8e	2009-09-25 13:51:17 +0800	[diff] [blame]	1331	if (group_can_go_on(event, cpuctx, 1))
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	1332	group_sched_in(event, cpuctx, ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1333
				1334	/*
				1335	* If this pinned group hasn't been scheduled,
				1336	* put it in error state.
				1337	*/
				1338	if (event->state == PERF_EVENT_STATE_INACTIVE) {
				1339	update_group_times(event);
				1340	event->state = PERF_EVENT_STATE_ERROR;
				1341	}
				1342	}
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	1343	}
				1344
				1345	static void
				1346	ctx_flexible_sched_in(struct perf_event_context *ctx,
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	1347	struct perf_cpu_context *cpuctx)
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	1348	{
				1349	struct perf_event *event;
				1350	int can_add_hw = 1;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1351
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	1352	list_for_each_entry(event, &ctx->flexible_groups, group_entry) {
				1353	/* Ignore events in OFF or ERROR state */
				1354	if (event->state <= PERF_EVENT_STATE_OFF)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1355	continue;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1356	/*
				1357	* Listen to the 'cpu' scheduling filter constraint
				1358	* of events:
				1359	*/
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	1360	if (event->cpu != -1 && event->cpu != smp_processor_id())
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1361	continue;
				1362
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	1363	if (group_can_go_on(event, cpuctx, can_add_hw)) {
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	1364	if (group_sched_in(event, cpuctx, ctx))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1365	can_add_hw = 0;
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	1366	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1367	}
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	1368	}
				1369
				1370	static void
				1371	ctx_sched_in(struct perf_event_context *ctx,
				1372	struct perf_cpu_context *cpuctx,
				1373	enum event_type_t event_type)
				1374	{
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	1375	raw_spin_lock(&ctx->lock);
				1376	ctx->is_active = 1;
				1377	if (likely(!ctx->nr_events))
				1378	goto out;
				1379
				1380	ctx->timestamp = perf_clock();
				1381
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	1382	/*
				1383	* First go through the list and put on any pinned groups
				1384	* in order to give them the best chance of going on.
				1385	*/
				1386	if (event_type & EVENT_PINNED)
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	1387	ctx_pinned_sched_in(ctx, cpuctx);
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	1388
				1389	/* Then walk through the lower prio flexible groups */
				1390	if (event_type & EVENT_FLEXIBLE)
Peter Zijlstra	6e37738	2010-02-11 13:21:58 +0100	[diff] [blame]	1391	ctx_flexible_sched_in(ctx, cpuctx);
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	1392
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	1393	out:
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1394	raw_spin_unlock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1395	}
				1396
Frederic Weisbecker	329c0e0	2010-01-17 12:56:05 +0100	[diff] [blame]	1397	static void cpu_ctx_sched_in(struct perf_cpu_context *cpuctx,
				1398	enum event_type_t event_type)
				1399	{
				1400	struct perf_event_context *ctx = &cpuctx->ctx;
				1401
				1402	ctx_sched_in(ctx, cpuctx, event_type);
				1403	}
				1404
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	1405	static void task_ctx_sched_in(struct perf_event_context *ctx,
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	1406	enum event_type_t event_type)
				1407	{
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	1408	struct perf_cpu_context *cpuctx;
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	1409
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	1410	cpuctx = __get_cpu_context(ctx);
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	1411	if (cpuctx->task_ctx == ctx)
				1412	return;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	1413
Frederic Weisbecker	5b0311e	2010-01-17 11:59:13 +0100	[diff] [blame]	1414	ctx_sched_in(ctx, cpuctx, event_type);
				1415	cpuctx->task_ctx = ctx;
				1416	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1417
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	1418	void perf_event_context_sched_in(struct perf_event_context *ctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1419	{
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	1420	struct perf_cpu_context *cpuctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1421
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	1422	cpuctx = __get_cpu_context(ctx);
Frederic Weisbecker	329c0e0	2010-01-17 12:56:05 +0100	[diff] [blame]	1423	if (cpuctx->task_ctx == ctx)
				1424	return;
				1425
Peter Zijlstra	1b9a644	2010-09-07 18:32:22 +0200	[diff] [blame]	1426	perf_pmu_disable(ctx->pmu);
Frederic Weisbecker	329c0e0	2010-01-17 12:56:05 +0100	[diff] [blame]	1427	/*
				1428	* We want to keep the following priority order:
				1429	* cpu pinned (that don't need to move), task pinned,
				1430	* cpu flexible, task flexible.
				1431	*/
				1432	cpu_ctx_sched_out(cpuctx, EVENT_FLEXIBLE);
				1433
				1434	ctx_sched_in(ctx, cpuctx, EVENT_PINNED);
				1435	cpu_ctx_sched_in(cpuctx, EVENT_FLEXIBLE);
				1436	ctx_sched_in(ctx, cpuctx, EVENT_FLEXIBLE);
				1437
				1438	cpuctx->task_ctx = ctx;
eranian@google.com	9b33fa6	2010-03-10 22:26:05 -0800	[diff] [blame]	1439
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	1440	/*
				1441	* Since these rotations are per-cpu, we need to ensure the
				1442	* cpu-context we got scheduled on is actually rotating.
				1443	*/
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	1444	perf_pmu_rotate_start(ctx->pmu);
Peter Zijlstra	1b9a644	2010-09-07 18:32:22 +0200	[diff] [blame]	1445	perf_pmu_enable(ctx->pmu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1446	}
				1447
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	1448	/*
				1449	* Called from scheduler to add the events of the current task
				1450	* with interrupts disabled.
				1451	*
				1452	* We restore the event value and then enable it.
				1453	*
				1454	* This does not protect us against NMI, but enable()
				1455	* sets the enabled bit in the control field of event _before_
				1456	* accessing the event control register. If a NMI hits, then it will
				1457	* keep the event running.
				1458	*/
Peter Zijlstra	82cd6de	2010-10-14 17:57:23 +0200	[diff] [blame]	1459	void __perf_event_task_sched_in(struct task_struct *task)
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	1460	{
				1461	struct perf_event_context *ctx;
				1462	int ctxn;
				1463
				1464	for_each_task_context_nr(ctxn) {
				1465	ctx = task->perf_event_ctxp[ctxn];
				1466	if (likely(!ctx))
				1467	continue;
				1468
				1469	perf_event_context_sched_in(ctx);
				1470	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1471	}
				1472
				1473	#define MAX_INTERRUPTS (~0ULL)
				1474
				1475	static void perf_log_throttle(struct perf_event *event, int enable);
				1476
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	1477	static u64 perf_calculate_period(struct perf_event *event, u64 nsec, u64 count)
				1478	{
				1479	u64 frequency = event->attr.sample_freq;
				1480	u64 sec = NSEC_PER_SEC;
				1481	u64 divisor, dividend;
				1482
				1483	int count_fls, nsec_fls, frequency_fls, sec_fls;
				1484
				1485	count_fls = fls64(count);
				1486	nsec_fls = fls64(nsec);
				1487	frequency_fls = fls64(frequency);
				1488	sec_fls = 30;
				1489
				1490	/*
				1491	* We got @count in @nsec, with a target of sample_freq HZ
				1492	* the target period becomes:
				1493	*
				1494	* @count * 10^9
				1495	* period = -------------------
				1496	* @nsec * sample_freq
				1497	*
				1498	*/
				1499
				1500	/*
				1501	* Reduce accuracy by one bit such that @a and @b converge
				1502	* to a similar magnitude.
				1503	*/
				1504	#define REDUCE_FLS(a, b) \
				1505	do { \
				1506	if (a##_fls > b##_fls) { \
				1507	a >>= 1; \
				1508	a##_fls--; \
				1509	} else { \
				1510	b >>= 1; \
				1511	b##_fls--; \
				1512	} \
				1513	} while (0)
				1514
				1515	/*
				1516	* Reduce accuracy until either term fits in a u64, then proceed with
				1517	* the other, so that finally we can do a u64/u64 division.
				1518	*/
				1519	while (count_fls + sec_fls > 64 && nsec_fls + frequency_fls > 64) {
				1520	REDUCE_FLS(nsec, frequency);
				1521	REDUCE_FLS(sec, count);
				1522	}
				1523
				1524	if (count_fls + sec_fls > 64) {
				1525	divisor = nsec * frequency;
				1526
				1527	while (count_fls + sec_fls > 64) {
				1528	REDUCE_FLS(count, sec);
				1529	divisor >>= 1;
				1530	}
				1531
				1532	dividend = count * sec;
				1533	} else {
				1534	dividend = count * sec;
				1535
				1536	while (nsec_fls + frequency_fls > 64) {
				1537	REDUCE_FLS(nsec, frequency);
				1538	dividend >>= 1;
				1539	}
				1540
				1541	divisor = nsec * frequency;
				1542	}
				1543
Peter Zijlstra	f6ab91ad	2010-06-04 15:18:01 +0200	[diff] [blame]	1544	if (!divisor)
				1545	return dividend;
				1546
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	1547	return div64_u64(dividend, divisor);
				1548	}
				1549
				1550	static void perf_adjust_period(struct perf_event *event, u64 nsec, u64 count)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1551	{
				1552	struct hw_perf_event *hwc = &event->hw;
Peter Zijlstra	f6ab91ad	2010-06-04 15:18:01 +0200	[diff] [blame]	1553	s64 period, sample_period;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1554	s64 delta;
				1555
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	1556	period = perf_calculate_period(event, nsec, count);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1557
				1558	delta = (s64)(period - hwc->sample_period);
				1559	delta = (delta + 7) / 8; /* low pass filter */
				1560
				1561	sample_period = hwc->sample_period + delta;
				1562
				1563	if (!sample_period)
				1564	sample_period = 1;
				1565
				1566	hwc->sample_period = sample_period;
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	1567
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	1568	if (local64_read(&hwc->period_left) > 8*sample_period) {
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	1569	event->pmu->stop(event, PERF_EF_UPDATE);
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	1570	local64_set(&hwc->period_left, 0);
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	1571	event->pmu->start(event, PERF_EF_RELOAD);
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	1572	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1573	}
				1574
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	1575	static void perf_ctx_adjust_freq(struct perf_event_context *ctx, u64 period)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1576	{
				1577	struct perf_event *event;
				1578	struct hw_perf_event *hwc;
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	1579	u64 interrupts, now;
				1580	s64 delta;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1581
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1582	raw_spin_lock(&ctx->lock);
Paul Mackerras	03541f8	2009-10-14 16:58:03 +1100	[diff] [blame]	1583	list_for_each_entry_rcu(event, &ctx->event_list, event_entry) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1584	if (event->state != PERF_EVENT_STATE_ACTIVE)
				1585	continue;
				1586
Peter Zijlstra	5d27c23	2009-12-17 13:16:32 +0100	[diff] [blame]	1587	if (event->cpu != -1 && event->cpu != smp_processor_id())
				1588	continue;
				1589
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1590	hwc = &event->hw;
				1591
				1592	interrupts = hwc->interrupts;
				1593	hwc->interrupts = 0;
				1594
				1595	/*
				1596	* unthrottle events on the tick
				1597	*/
				1598	if (interrupts == MAX_INTERRUPTS) {
				1599	perf_log_throttle(event, 1);
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	1600	event->pmu->start(event, 0);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1601	}
				1602
				1603	if (!event->attr.freq \|\| !event->attr.sample_freq)
				1604	continue;
				1605
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	1606	event->pmu->read(event);
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	1607	now = local64_read(&event->count);
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	1608	delta = now - hwc->freq_count_stamp;
				1609	hwc->freq_count_stamp = now;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1610
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	1611	if (delta > 0)
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	1612	perf_adjust_period(event, period, delta);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1613	}
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1614	raw_spin_unlock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1615	}
				1616
				1617	/*
				1618	* Round-robin a context's events:
				1619	*/
				1620	static void rotate_ctx(struct perf_event_context *ctx)
				1621	{
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1622	raw_spin_lock(&ctx->lock);
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	1623
Frederic Weisbecker	e286417	2010-01-09 21:05:28 +0100	[diff] [blame]	1624	/* Rotate the first entry last of non-pinned groups */
Frederic Weisbecker	e286417	2010-01-09 21:05:28 +0100	[diff] [blame]	1625	list_rotate_left(&ctx->flexible_groups);
				1626
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1627	raw_spin_unlock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1628	}
				1629
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	1630	/*
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	1631	* perf_pmu_rotate_start() and perf_rotate_context() are fully serialized
				1632	* because they're strictly cpu affine and rotate_start is called with IRQs
				1633	* disabled, while rotate_context is called from IRQ context.
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	1634	*/
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	1635	static void perf_rotate_context(struct perf_cpu_context *cpuctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1636	{
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	1637	u64 interval = (u64)cpuctx->jiffies_interval * TICK_NSEC;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	1638	struct perf_event_context *ctx = NULL;
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	1639	int rotate = 0, remove = 1;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1640
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	1641	if (cpuctx->ctx.nr_events) {
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	1642	remove = 0;
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	1643	if (cpuctx->ctx.nr_events != cpuctx->ctx.nr_active)
				1644	rotate = 1;
				1645	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1646
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	1647	ctx = cpuctx->task_ctx;
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	1648	if (ctx && ctx->nr_events) {
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	1649	remove = 0;
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	1650	if (ctx->nr_events != ctx->nr_active)
				1651	rotate = 1;
				1652	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1653
Peter Zijlstra	1b9a644	2010-09-07 18:32:22 +0200	[diff] [blame]	1654	perf_pmu_disable(cpuctx->ctx.pmu);
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	1655	perf_ctx_adjust_freq(&cpuctx->ctx, interval);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1656	if (ctx)
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	1657	perf_ctx_adjust_freq(ctx, interval);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1658
Peter Zijlstra	d4944a0	2010-03-08 13:51:20 +0100	[diff] [blame]	1659	if (!rotate)
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	1660	goto done;
Peter Zijlstra	d4944a0	2010-03-08 13:51:20 +0100	[diff] [blame]	1661
Frederic Weisbecker	7defb0f	2010-01-17 12:15:31 +0100	[diff] [blame]	1662	cpu_ctx_sched_out(cpuctx, EVENT_FLEXIBLE);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1663	if (ctx)
Frederic Weisbecker	7defb0f	2010-01-17 12:15:31 +0100	[diff] [blame]	1664	task_ctx_sched_out(ctx, EVENT_FLEXIBLE);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1665
				1666	rotate_ctx(&cpuctx->ctx);
				1667	if (ctx)
				1668	rotate_ctx(ctx);
				1669
Frederic Weisbecker	7defb0f	2010-01-17 12:15:31 +0100	[diff] [blame]	1670	cpu_ctx_sched_in(cpuctx, EVENT_FLEXIBLE);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1671	if (ctx)
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	1672	task_ctx_sched_in(ctx, EVENT_FLEXIBLE);
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	1673
				1674	done:
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	1675	if (remove)
				1676	list_del_init(&cpuctx->rotation_list);
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	1677
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	1678	perf_pmu_enable(cpuctx->ctx.pmu);
				1679	}
				1680
				1681	void perf_event_task_tick(void)
				1682	{
				1683	struct list_head *head = &__get_cpu_var(rotation_list);
				1684	struct perf_cpu_context cpuctx, tmp;
				1685
				1686	WARN_ON(!irqs_disabled());
				1687
				1688	list_for_each_entry_safe(cpuctx, tmp, head, rotation_list) {
				1689	if (cpuctx->jiffies_interval == 1 \|\|
				1690	!(jiffies % cpuctx->jiffies_interval))
				1691	perf_rotate_context(cpuctx);
				1692	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1693	}
				1694
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	1695	static int event_enable_on_exec(struct perf_event *event,
				1696	struct perf_event_context *ctx)
				1697	{
				1698	if (!event->attr.enable_on_exec)
				1699	return 0;
				1700
				1701	event->attr.enable_on_exec = 0;
				1702	if (event->state >= PERF_EVENT_STATE_INACTIVE)
				1703	return 0;
				1704
				1705	__perf_event_mark_enabled(event, ctx);
				1706
				1707	return 1;
				1708	}
				1709
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1710	/*
				1711	* Enable all of a task's events that have been marked enable-on-exec.
				1712	* This expects task == current.
				1713	*/
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	1714	static void perf_event_enable_on_exec(struct perf_event_context *ctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1715	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1716	struct perf_event *event;
				1717	unsigned long flags;
				1718	int enabled = 0;
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	1719	int ret;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1720
				1721	local_irq_save(flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1722	if (!ctx \|\| !ctx->nr_events)
				1723	goto out;
				1724
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	1725	task_ctx_sched_out(ctx, EVENT_ALL);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1726
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1727	raw_spin_lock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1728
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	1729	list_for_each_entry(event, &ctx->pinned_groups, group_entry) {
				1730	ret = event_enable_on_exec(event, ctx);
				1731	if (ret)
				1732	enabled = 1;
				1733	}
				1734
				1735	list_for_each_entry(event, &ctx->flexible_groups, group_entry) {
				1736	ret = event_enable_on_exec(event, ctx);
				1737	if (ret)
				1738	enabled = 1;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1739	}
				1740
				1741	/*
				1742	* Unclone this context if we enabled any event.
				1743	*/
				1744	if (enabled)
				1745	unclone_ctx(ctx);
				1746
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1747	raw_spin_unlock(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1748
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	1749	perf_event_context_sched_in(ctx);
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	1750	out:
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1751	local_irq_restore(flags);
				1752	}
				1753
				1754	/*
				1755	* Cross CPU call to read the hardware event
				1756	*/
				1757	static void __perf_event_read(void *info)
				1758	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1759	struct perf_event *event = info;
				1760	struct perf_event_context *ctx = event->ctx;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	1761	struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1762
				1763	/*
				1764	* If this is a task context, we need to check whether it is
				1765	* the current task context of this cpu. If not it has been
				1766	* scheduled out before the smp call arrived. In that case
				1767	* event->count would have been updated to a recent sample
				1768	* when the event was scheduled out.
				1769	*/
				1770	if (ctx->task && cpuctx->task_ctx != ctx)
				1771	return;
				1772
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1773	raw_spin_lock(&ctx->lock);
Peter Zijlstra	58e5ad1	2009-11-20 22:19:53 +0100	[diff] [blame]	1774	update_context_time(ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1775	update_event_times(event);
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1776	raw_spin_unlock(&ctx->lock);
Peter Zijlstra	2b8988c	2009-11-20 22:19:54 +0100	[diff] [blame]	1777
Peter Zijlstra	58e5ad1	2009-11-20 22:19:53 +0100	[diff] [blame]	1778	event->pmu->read(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1779	}
				1780
Peter Zijlstra	b5e5879	2010-05-21 14:43:12 +0200	[diff] [blame]	1781	static inline u64 perf_event_count(struct perf_event *event)
				1782	{
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	1783	return local64_read(&event->count) + atomic64_read(&event->child_count);
Peter Zijlstra	b5e5879	2010-05-21 14:43:12 +0200	[diff] [blame]	1784	}
				1785
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1786	static u64 perf_event_read(struct perf_event *event)
				1787	{
				1788	/*
				1789	* If event is enabled and currently active on a CPU, update the
				1790	* value in the event structure:
				1791	*/
				1792	if (event->state == PERF_EVENT_STATE_ACTIVE) {
				1793	smp_call_function_single(event->oncpu,
				1794	__perf_event_read, event, 1);
				1795	} else if (event->state == PERF_EVENT_STATE_INACTIVE) {
Peter Zijlstra	2b8988c	2009-11-20 22:19:54 +0100	[diff] [blame]	1796	struct perf_event_context *ctx = event->ctx;
				1797	unsigned long flags;
				1798
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1799	raw_spin_lock_irqsave(&ctx->lock, flags);
Stephane Eranian	c530ccd	2010-10-15 15:26:01 +0200	[diff] [blame]	1800	/*
				1801	* may read while context is not active
				1802	* (e.g., thread is blocked), in that case
				1803	* we cannot update context time
				1804	*/
				1805	if (ctx->is_active)
				1806	update_context_time(ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1807	update_event_times(event);
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	1808	raw_spin_unlock_irqrestore(&ctx->lock, flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1809	}
				1810
Peter Zijlstra	b5e5879	2010-05-21 14:43:12 +0200	[diff] [blame]	1811	return perf_event_count(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	1812	}
				1813
				1814	/*
Frederic Weisbecker	927c7a9	2010-07-01 16:20:36 +0200	[diff] [blame]	1815	* Callchain support
				1816	*/
				1817
				1818	struct callchain_cpus_entries {
				1819	struct rcu_head rcu_head;
				1820	struct perf_callchain_entry *cpu_entries[0];
				1821	};
				1822
Frederic Weisbecker	7ae07ea	2010-08-14 20:45:13 +0200	[diff] [blame]	1823	static DEFINE_PER_CPU(int, callchain_recursion[PERF_NR_CONTEXTS]);
Frederic Weisbecker	927c7a9	2010-07-01 16:20:36 +0200	[diff] [blame]	1824	static atomic_t nr_callchain_events;
				1825	static DEFINE_MUTEX(callchain_mutex);
				1826	struct callchain_cpus_entries *callchain_cpus_entries;
				1827
				1828
				1829	__weak void perf_callchain_kernel(struct perf_callchain_entry *entry,
				1830	struct pt_regs *regs)
				1831	{
				1832	}
				1833
				1834	__weak void perf_callchain_user(struct perf_callchain_entry *entry,
				1835	struct pt_regs *regs)
				1836	{
				1837	}
				1838
				1839	static void release_callchain_buffers_rcu(struct rcu_head *head)
				1840	{
				1841	struct callchain_cpus_entries *entries;
				1842	int cpu;
				1843
				1844	entries = container_of(head, struct callchain_cpus_entries, rcu_head);
				1845
				1846	for_each_possible_cpu(cpu)
				1847	kfree(entries->cpu_entries[cpu]);
				1848
				1849	kfree(entries);
				1850	}
				1851
				1852	static void release_callchain_buffers(void)
				1853	{
				1854	struct callchain_cpus_entries *entries;
				1855
				1856	entries = callchain_cpus_entries;
				1857	rcu_assign_pointer(callchain_cpus_entries, NULL);
				1858	call_rcu(&entries->rcu_head, release_callchain_buffers_rcu);
				1859	}
				1860
				1861	static int alloc_callchain_buffers(void)
				1862	{
				1863	int cpu;
				1864	int size;
				1865	struct callchain_cpus_entries *entries;
				1866
				1867	/*
				1868	* We can't use the percpu allocation API for data that can be
				1869	* accessed from NMI. Use a temporary manual per cpu allocation
				1870	* until that gets sorted out.
				1871	*/
				1872	size = sizeof(entries) + sizeof(struct perf_callchain_entry ) *
				1873	num_possible_cpus();
				1874
				1875	entries = kzalloc(size, GFP_KERNEL);
				1876	if (!entries)
				1877	return -ENOMEM;
				1878
Frederic Weisbecker	7ae07ea	2010-08-14 20:45:13 +0200	[diff] [blame]	1879	size = sizeof(struct perf_callchain_entry) * PERF_NR_CONTEXTS;
Frederic Weisbecker	927c7a9	2010-07-01 16:20:36 +0200	[diff] [blame]	1880
				1881	for_each_possible_cpu(cpu) {
				1882	entries->cpu_entries[cpu] = kmalloc_node(size, GFP_KERNEL,
				1883	cpu_to_node(cpu));
				1884	if (!entries->cpu_entries[cpu])
				1885	goto fail;
				1886	}
				1887
				1888	rcu_assign_pointer(callchain_cpus_entries, entries);
				1889
				1890	return 0;
				1891
				1892	fail:
				1893	for_each_possible_cpu(cpu)
				1894	kfree(entries->cpu_entries[cpu]);
				1895	kfree(entries);
				1896
				1897	return -ENOMEM;
				1898	}
				1899
				1900	static int get_callchain_buffers(void)
				1901	{
				1902	int err = 0;
				1903	int count;
				1904
				1905	mutex_lock(&callchain_mutex);
				1906
				1907	count = atomic_inc_return(&nr_callchain_events);
				1908	if (WARN_ON_ONCE(count < 1)) {
				1909	err = -EINVAL;
				1910	goto exit;
				1911	}
				1912
				1913	if (count > 1) {
				1914	/* If the allocation failed, give up */
				1915	if (!callchain_cpus_entries)
				1916	err = -ENOMEM;
				1917	goto exit;
				1918	}
				1919
				1920	err = alloc_callchain_buffers();
				1921	if (err)
				1922	release_callchain_buffers();
				1923	exit:
				1924	mutex_unlock(&callchain_mutex);
				1925
				1926	return err;
				1927	}
				1928
				1929	static void put_callchain_buffers(void)
				1930	{
				1931	if (atomic_dec_and_mutex_lock(&nr_callchain_events, &callchain_mutex)) {
				1932	release_callchain_buffers();
				1933	mutex_unlock(&callchain_mutex);
				1934	}
				1935	}
				1936
				1937	static int get_recursion_context(int *recursion)
				1938	{
				1939	int rctx;
				1940
				1941	if (in_nmi())
				1942	rctx = 3;
				1943	else if (in_irq())
				1944	rctx = 2;
				1945	else if (in_softirq())
				1946	rctx = 1;
				1947	else
				1948	rctx = 0;
				1949
				1950	if (recursion[rctx])
				1951	return -1;
				1952
				1953	recursion[rctx]++;
				1954	barrier();
				1955
				1956	return rctx;
				1957	}
				1958
				1959	static inline void put_recursion_context(int *recursion, int rctx)
				1960	{
				1961	barrier();
				1962	recursion[rctx]--;
				1963	}
				1964
				1965	static struct perf_callchain_entry get_callchain_entry(int rctx)
				1966	{
				1967	int cpu;
				1968	struct callchain_cpus_entries *entries;
				1969
				1970	*rctx = get_recursion_context(__get_cpu_var(callchain_recursion));
				1971	if (*rctx == -1)
				1972	return NULL;
				1973
				1974	entries = rcu_dereference(callchain_cpus_entries);
				1975	if (!entries)
				1976	return NULL;
				1977
				1978	cpu = smp_processor_id();
				1979
				1980	return &entries->cpu_entries[cpu][*rctx];
				1981	}
				1982
				1983	static void
				1984	put_callchain_entry(int rctx)
				1985	{
				1986	put_recursion_context(__get_cpu_var(callchain_recursion), rctx);
				1987	}
				1988
				1989	static struct perf_callchain_entry perf_callchain(struct pt_regs regs)
				1990	{
				1991	int rctx;
				1992	struct perf_callchain_entry *entry;
				1993
				1994
				1995	entry = get_callchain_entry(&rctx);
				1996	if (rctx == -1)
				1997	return NULL;
				1998
				1999	if (!entry)
				2000	goto exit_put;
				2001
				2002	entry->nr = 0;
				2003
				2004	if (!user_mode(regs)) {
				2005	perf_callchain_store(entry, PERF_CONTEXT_KERNEL);
				2006	perf_callchain_kernel(entry, regs);
				2007	if (current->mm)
				2008	regs = task_pt_regs(current);
				2009	else
				2010	regs = NULL;
				2011	}
				2012
				2013	if (regs) {
				2014	perf_callchain_store(entry, PERF_CONTEXT_USER);
				2015	perf_callchain_user(entry, regs);
				2016	}
				2017
				2018	exit_put:
				2019	put_callchain_entry(rctx);
				2020
				2021	return entry;
				2022	}
				2023
				2024	/*
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2025	* Initialize the perf_event context in a task_struct:
				2026	*/
Peter Zijlstra	eb18447	2010-09-07 15:55:13 +0200	[diff] [blame]	2027	static void __perf_event_init_context(struct perf_event_context *ctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2028	{
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	2029	raw_spin_lock_init(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2030	mutex_init(&ctx->mutex);
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	2031	INIT_LIST_HEAD(&ctx->pinned_groups);
				2032	INIT_LIST_HEAD(&ctx->flexible_groups);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2033	INIT_LIST_HEAD(&ctx->event_list);
				2034	atomic_set(&ctx->refcount, 1);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2035	}
				2036
Peter Zijlstra	eb18447	2010-09-07 15:55:13 +0200	[diff] [blame]	2037	static struct perf_event_context *
				2038	alloc_perf_context(struct pmu pmu, struct task_struct task)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2039	{
				2040	struct perf_event_context *ctx;
Peter Zijlstra	eb18447	2010-09-07 15:55:13 +0200	[diff] [blame]	2041
				2042	ctx = kzalloc(sizeof(struct perf_event_context), GFP_KERNEL);
				2043	if (!ctx)
				2044	return NULL;
				2045
				2046	__perf_event_init_context(ctx);
				2047	if (task) {
				2048	ctx->task = task;
				2049	get_task_struct(task);
				2050	}
				2051	ctx->pmu = pmu;
				2052
				2053	return ctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2054	}
				2055
Matt Helsley	2ebd4ff	2010-09-13 13:01:19 -0700	[diff] [blame]	2056	static struct task_struct *
				2057	find_lively_task_by_vpid(pid_t vpid)
				2058	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2059	struct task_struct *task;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2060	int err;
				2061
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2062	rcu_read_lock();
Matt Helsley	2ebd4ff	2010-09-13 13:01:19 -0700	[diff] [blame]	2063	if (!vpid)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2064	task = current;
				2065	else
Matt Helsley	2ebd4ff	2010-09-13 13:01:19 -0700	[diff] [blame]	2066	task = find_task_by_vpid(vpid);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2067	if (task)
				2068	get_task_struct(task);
				2069	rcu_read_unlock();
				2070
				2071	if (!task)
				2072	return ERR_PTR(-ESRCH);
				2073
				2074	/*
				2075	* Can't attach events to a dying task.
				2076	*/
				2077	err = -ESRCH;
				2078	if (task->flags & PF_EXITING)
				2079	goto errout;
				2080
				2081	/* Reuse ptrace permission checks for now. */
				2082	err = -EACCES;
				2083	if (!ptrace_may_access(task, PTRACE_MODE_READ))
				2084	goto errout;
				2085
Matt Helsley	2ebd4ff	2010-09-13 13:01:19 -0700	[diff] [blame]	2086	return task;
				2087	errout:
				2088	put_task_struct(task);
				2089	return ERR_PTR(err);
				2090
				2091	}
				2092
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	2093	static struct perf_event_context *
Matt Helsley	38a81da	2010-09-13 13:01:20 -0700	[diff] [blame]	2094	find_get_context(struct pmu pmu, struct task_struct task, int cpu)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2095	{
				2096	struct perf_event_context *ctx;
				2097	struct perf_cpu_context *cpuctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2098	unsigned long flags;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	2099	int ctxn, err;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2100
Matt Helsley	38a81da	2010-09-13 13:01:20 -0700	[diff] [blame]	2101	if (!task && cpu != -1) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2102	/* Must be root to operate on a CPU event: */
				2103	if (perf_paranoid_cpu() && !capable(CAP_SYS_ADMIN))
				2104	return ERR_PTR(-EACCES);
				2105
				2106	if (cpu < 0 \|\| cpu >= nr_cpumask_bits)
				2107	return ERR_PTR(-EINVAL);
				2108
				2109	/*
				2110	* We could be clever and allow to attach a event to an
				2111	* offline CPU and activate it when the CPU comes up, but
				2112	* that's for later.
				2113	*/
				2114	if (!cpu_online(cpu))
				2115	return ERR_PTR(-ENODEV);
				2116
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	2117	cpuctx = per_cpu_ptr(pmu->pmu_cpu_context, cpu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2118	ctx = &cpuctx->ctx;
				2119	get_ctx(ctx);
				2120
				2121	return ctx;
				2122	}
				2123
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	2124	err = -EINVAL;
				2125	ctxn = pmu->task_ctx_nr;
				2126	if (ctxn < 0)
				2127	goto errout;
				2128
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	2129	retry:
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	2130	ctx = perf_lock_task_context(task, ctxn, &flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2131	if (ctx) {
				2132	unclone_ctx(ctx);
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	2133	raw_spin_unlock_irqrestore(&ctx->lock, flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2134	}
				2135
				2136	if (!ctx) {
Peter Zijlstra	eb18447	2010-09-07 15:55:13 +0200	[diff] [blame]	2137	ctx = alloc_perf_context(pmu, task);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2138	err = -ENOMEM;
				2139	if (!ctx)
				2140	goto errout;
Peter Zijlstra	eb18447	2010-09-07 15:55:13 +0200	[diff] [blame]	2141
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2142	get_ctx(ctx);
Peter Zijlstra	eb18447	2010-09-07 15:55:13 +0200	[diff] [blame]	2143
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	2144	if (cmpxchg(&task->perf_event_ctxp[ctxn], NULL, ctx)) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2145	/*
				2146	* We raced with some other task; use
				2147	* the context they set.
				2148	*/
Peter Zijlstra	eb18447	2010-09-07 15:55:13 +0200	[diff] [blame]	2149	put_task_struct(task);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2150	kfree(ctx);
				2151	goto retry;
				2152	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2153	}
				2154
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2155	return ctx;
				2156
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	2157	errout:
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2158	return ERR_PTR(err);
				2159	}
				2160
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	2161	static void perf_event_free_filter(struct perf_event *event);
				2162
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2163	static void free_event_rcu(struct rcu_head *head)
				2164	{
				2165	struct perf_event *event;
				2166
				2167	event = container_of(head, struct perf_event, rcu_head);
				2168	if (event->ns)
				2169	put_pid_ns(event->ns);
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	2170	perf_event_free_filter(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2171	kfree(event);
				2172	}
				2173
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2174	static void perf_buffer_put(struct perf_buffer *buffer);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2175
				2176	static void free_event(struct perf_event *event)
				2177	{
Peter Zijlstra	e360adb	2010-10-14 14:01:34 +0800	[diff] [blame]	2178	irq_work_sync(&event->pending);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2179
				2180	if (!event->parent) {
Peter Zijlstra	82cd6de	2010-10-14 17:57:23 +0200	[diff] [blame]	2181	if (event->attach_state & PERF_ATTACH_TASK)
				2182	jump_label_dec(&perf_task_events);
Eric B Munson	3af9e85	2010-05-18 15:30:49 +0100	[diff] [blame]	2183	if (event->attr.mmap \|\| event->attr.mmap_data)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2184	atomic_dec(&nr_mmap_events);
				2185	if (event->attr.comm)
				2186	atomic_dec(&nr_comm_events);
				2187	if (event->attr.task)
				2188	atomic_dec(&nr_task_events);
Frederic Weisbecker	927c7a9	2010-07-01 16:20:36 +0200	[diff] [blame]	2189	if (event->attr.sample_type & PERF_SAMPLE_CALLCHAIN)
				2190	put_callchain_buffers();
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2191	}
				2192
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2193	if (event->buffer) {
				2194	perf_buffer_put(event->buffer);
				2195	event->buffer = NULL;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2196	}
				2197
				2198	if (event->destroy)
				2199	event->destroy(event);
				2200
Peter Zijlstra	0c67b40	2010-09-13 11:15:58 +0200	[diff] [blame]	2201	if (event->ctx)
				2202	put_ctx(event->ctx);
				2203
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2204	call_rcu(&event->rcu_head, free_event_rcu);
				2205	}
				2206
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	2207	int perf_event_release_kernel(struct perf_event *event)
				2208	{
				2209	struct perf_event_context *ctx = event->ctx;
				2210
Peter Zijlstra	050735b	2010-05-11 11:51:53 +0200	[diff] [blame]	2211	/*
				2212	* Remove from the PMU, can't get re-enabled since we got
				2213	* here because the last ref went.
				2214	*/
				2215	perf_event_disable(event);
				2216
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	2217	WARN_ON_ONCE(ctx->parent_ctx);
Peter Zijlstra	a0507c8	2010-05-06 15:42:53 +0200	[diff] [blame]	2218	/*
				2219	* There are two ways this annotation is useful:
				2220	*
				2221	* 1) there is a lock recursion from perf_event_exit_task
				2222	* see the comment there.
				2223	*
				2224	* 2) there is a lock-inversion with mmap_sem through
				2225	* perf_event_read_group(), which takes faults while
				2226	* holding ctx->mutex, however this is called after
				2227	* the last filedesc died, so there is no possibility
				2228	* to trigger the AB-BA case.
				2229	*/
				2230	mutex_lock_nested(&ctx->mutex, SINGLE_DEPTH_NESTING);
Peter Zijlstra	050735b	2010-05-11 11:51:53 +0200	[diff] [blame]	2231	raw_spin_lock_irq(&ctx->lock);
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	2232	perf_group_detach(event);
Peter Zijlstra	050735b	2010-05-11 11:51:53 +0200	[diff] [blame]	2233	list_del_event(event, ctx);
Peter Zijlstra	050735b	2010-05-11 11:51:53 +0200	[diff] [blame]	2234	raw_spin_unlock_irq(&ctx->lock);
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	2235	mutex_unlock(&ctx->mutex);
				2236
				2237	mutex_lock(&event->owner->perf_event_mutex);
				2238	list_del_init(&event->owner_entry);
				2239	mutex_unlock(&event->owner->perf_event_mutex);
				2240	put_task_struct(event->owner);
				2241
				2242	free_event(event);
				2243
				2244	return 0;
				2245	}
				2246	EXPORT_SYMBOL_GPL(perf_event_release_kernel);
				2247
Peter Zijlstra	a66a305	2009-11-23 11:37:23 +0100	[diff] [blame]	2248	/*
				2249	* Called when the last reference to the file is gone.
				2250	*/
				2251	static int perf_release(struct inode inode, struct file file)
				2252	{
				2253	struct perf_event *event = file->private_data;
				2254
				2255	file->private_data = NULL;
				2256
				2257	return perf_event_release_kernel(event);
				2258	}
				2259
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2260	static int perf_event_read_size(struct perf_event *event)
				2261	{
				2262	int entry = sizeof(u64); /* value */
				2263	int size = 0;
				2264	int nr = 1;
				2265
				2266	if (event->attr.read_format & PERF_FORMAT_TOTAL_TIME_ENABLED)
				2267	size += sizeof(u64);
				2268
				2269	if (event->attr.read_format & PERF_FORMAT_TOTAL_TIME_RUNNING)
				2270	size += sizeof(u64);
				2271
				2272	if (event->attr.read_format & PERF_FORMAT_ID)
				2273	entry += sizeof(u64);
				2274
				2275	if (event->attr.read_format & PERF_FORMAT_GROUP) {
				2276	nr += event->group_leader->nr_siblings;
				2277	size += sizeof(u64);
				2278	}
				2279
				2280	size += entry * nr;
				2281
				2282	return size;
				2283	}
				2284
Peter Zijlstra	59ed446	2009-11-20 22:19:55 +0100	[diff] [blame]	2285	u64 perf_event_read_value(struct perf_event event, u64 enabled, u64 *running)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2286	{
				2287	struct perf_event *child;
				2288	u64 total = 0;
				2289
Peter Zijlstra	59ed446	2009-11-20 22:19:55 +0100	[diff] [blame]	2290	*enabled = 0;
				2291	*running = 0;
				2292
Peter Zijlstra	6f10581	2009-11-20 22:19:56 +0100	[diff] [blame]	2293	mutex_lock(&event->child_mutex);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2294	total += perf_event_read(event);
Peter Zijlstra	59ed446	2009-11-20 22:19:55 +0100	[diff] [blame]	2295	*enabled += event->total_time_enabled +
				2296	atomic64_read(&event->child_total_time_enabled);
				2297	*running += event->total_time_running +
				2298	atomic64_read(&event->child_total_time_running);
				2299
				2300	list_for_each_entry(child, &event->child_list, child_list) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2301	total += perf_event_read(child);
Peter Zijlstra	59ed446	2009-11-20 22:19:55 +0100	[diff] [blame]	2302	*enabled += child->total_time_enabled;
				2303	*running += child->total_time_running;
				2304	}
Peter Zijlstra	6f10581	2009-11-20 22:19:56 +0100	[diff] [blame]	2305	mutex_unlock(&event->child_mutex);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2306
				2307	return total;
				2308	}
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	2309	EXPORT_SYMBOL_GPL(perf_event_read_value);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2310
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2311	static int perf_event_read_group(struct perf_event *event,
				2312	u64 read_format, char __user *buf)
				2313	{
				2314	struct perf_event leader = event->group_leader, sub;
Peter Zijlstra	6f10581	2009-11-20 22:19:56 +0100	[diff] [blame]	2315	int n = 0, size = 0, ret = -EFAULT;
				2316	struct perf_event_context *ctx = leader->ctx;
Peter Zijlstra	abf4868	2009-11-20 22:19:49 +0100	[diff] [blame]	2317	u64 values[5];
Peter Zijlstra	59ed446	2009-11-20 22:19:55 +0100	[diff] [blame]	2318	u64 count, enabled, running;
Peter Zijlstra	abf4868	2009-11-20 22:19:49 +0100	[diff] [blame]	2319
Peter Zijlstra	6f10581	2009-11-20 22:19:56 +0100	[diff] [blame]	2320	mutex_lock(&ctx->mutex);
Peter Zijlstra	59ed446	2009-11-20 22:19:55 +0100	[diff] [blame]	2321	count = perf_event_read_value(leader, &enabled, &running);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2322
				2323	values[n++] = 1 + leader->nr_siblings;
Peter Zijlstra	59ed446	2009-11-20 22:19:55 +0100	[diff] [blame]	2324	if (read_format & PERF_FORMAT_TOTAL_TIME_ENABLED)
				2325	values[n++] = enabled;
				2326	if (read_format & PERF_FORMAT_TOTAL_TIME_RUNNING)
				2327	values[n++] = running;
Peter Zijlstra	abf4868	2009-11-20 22:19:49 +0100	[diff] [blame]	2328	values[n++] = count;
				2329	if (read_format & PERF_FORMAT_ID)
				2330	values[n++] = primary_event_id(leader);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2331
				2332	size = n * sizeof(u64);
				2333
				2334	if (copy_to_user(buf, values, size))
Peter Zijlstra	6f10581	2009-11-20 22:19:56 +0100	[diff] [blame]	2335	goto unlock;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2336
Peter Zijlstra	6f10581	2009-11-20 22:19:56 +0100	[diff] [blame]	2337	ret = size;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2338
				2339	list_for_each_entry(sub, &leader->sibling_list, group_entry) {
Peter Zijlstra	abf4868	2009-11-20 22:19:49 +0100	[diff] [blame]	2340	n = 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2341
Peter Zijlstra	59ed446	2009-11-20 22:19:55 +0100	[diff] [blame]	2342	values[n++] = perf_event_read_value(sub, &enabled, &running);
Peter Zijlstra	abf4868	2009-11-20 22:19:49 +0100	[diff] [blame]	2343	if (read_format & PERF_FORMAT_ID)
				2344	values[n++] = primary_event_id(sub);
				2345
				2346	size = n * sizeof(u64);
				2347
Stephane Eranian	184d3da	2009-11-23 21:40:49 -0800	[diff] [blame]	2348	if (copy_to_user(buf + ret, values, size)) {
Peter Zijlstra	6f10581	2009-11-20 22:19:56 +0100	[diff] [blame]	2349	ret = -EFAULT;
				2350	goto unlock;
				2351	}
Peter Zijlstra	abf4868	2009-11-20 22:19:49 +0100	[diff] [blame]	2352
				2353	ret += size;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2354	}
Peter Zijlstra	6f10581	2009-11-20 22:19:56 +0100	[diff] [blame]	2355	unlock:
				2356	mutex_unlock(&ctx->mutex);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2357
Peter Zijlstra	abf4868	2009-11-20 22:19:49 +0100	[diff] [blame]	2358	return ret;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2359	}
				2360
				2361	static int perf_event_read_one(struct perf_event *event,
				2362	u64 read_format, char __user *buf)
				2363	{
Peter Zijlstra	59ed446	2009-11-20 22:19:55 +0100	[diff] [blame]	2364	u64 enabled, running;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2365	u64 values[4];
				2366	int n = 0;
				2367
Peter Zijlstra	59ed446	2009-11-20 22:19:55 +0100	[diff] [blame]	2368	values[n++] = perf_event_read_value(event, &enabled, &running);
				2369	if (read_format & PERF_FORMAT_TOTAL_TIME_ENABLED)
				2370	values[n++] = enabled;
				2371	if (read_format & PERF_FORMAT_TOTAL_TIME_RUNNING)
				2372	values[n++] = running;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2373	if (read_format & PERF_FORMAT_ID)
				2374	values[n++] = primary_event_id(event);
				2375
				2376	if (copy_to_user(buf, values, n * sizeof(u64)))
				2377	return -EFAULT;
				2378
				2379	return n * sizeof(u64);
				2380	}
				2381
				2382	/*
				2383	* Read the performance event - simple non blocking version for now
				2384	*/
				2385	static ssize_t
				2386	perf_read_hw(struct perf_event event, char __user buf, size_t count)
				2387	{
				2388	u64 read_format = event->attr.read_format;
				2389	int ret;
				2390
				2391	/*
				2392	* Return end-of-file for a read on a event that is in
				2393	* error state (i.e. because it was pinned but it couldn't be
				2394	* scheduled on to the CPU at some point).
				2395	*/
				2396	if (event->state == PERF_EVENT_STATE_ERROR)
				2397	return 0;
				2398
				2399	if (count < perf_event_read_size(event))
				2400	return -ENOSPC;
				2401
				2402	WARN_ON_ONCE(event->ctx->parent_ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2403	if (read_format & PERF_FORMAT_GROUP)
				2404	ret = perf_event_read_group(event, read_format, buf);
				2405	else
				2406	ret = perf_event_read_one(event, read_format, buf);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2407
				2408	return ret;
				2409	}
				2410
				2411	static ssize_t
				2412	perf_read(struct file file, char __user buf, size_t count, loff_t *ppos)
				2413	{
				2414	struct perf_event *event = file->private_data;
				2415
				2416	return perf_read_hw(event, buf, count);
				2417	}
				2418
				2419	static unsigned int perf_poll(struct file file, poll_table wait)
				2420	{
				2421	struct perf_event *event = file->private_data;
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2422	struct perf_buffer *buffer;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2423	unsigned int events = POLL_HUP;
				2424
				2425	rcu_read_lock();
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2426	buffer = rcu_dereference(event->buffer);
				2427	if (buffer)
				2428	events = atomic_xchg(&buffer->poll, 0);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2429	rcu_read_unlock();
				2430
				2431	poll_wait(file, &event->waitq, wait);
				2432
				2433	return events;
				2434	}
				2435
				2436	static void perf_event_reset(struct perf_event *event)
				2437	{
				2438	(void)perf_event_read(event);
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	2439	local64_set(&event->count, 0);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2440	perf_event_update_userpage(event);
				2441	}
				2442
				2443	/*
				2444	* Holding the top-level event's child_mutex means that any
				2445	* descendant process that has inherited this event will block
				2446	* in sync_child_event if it goes to exit, thus satisfying the
				2447	* task existence requirements of perf_event_enable/disable.
				2448	*/
				2449	static void perf_event_for_each_child(struct perf_event *event,
				2450	void (func)(struct perf_event ))
				2451	{
				2452	struct perf_event *child;
				2453
				2454	WARN_ON_ONCE(event->ctx->parent_ctx);
				2455	mutex_lock(&event->child_mutex);
				2456	func(event);
				2457	list_for_each_entry(child, &event->child_list, child_list)
				2458	func(child);
				2459	mutex_unlock(&event->child_mutex);
				2460	}
				2461
				2462	static void perf_event_for_each(struct perf_event *event,
				2463	void (func)(struct perf_event ))
				2464	{
				2465	struct perf_event_context *ctx = event->ctx;
				2466	struct perf_event *sibling;
				2467
				2468	WARN_ON_ONCE(ctx->parent_ctx);
				2469	mutex_lock(&ctx->mutex);
				2470	event = event->group_leader;
				2471
				2472	perf_event_for_each_child(event, func);
				2473	func(event);
				2474	list_for_each_entry(sibling, &event->sibling_list, group_entry)
				2475	perf_event_for_each_child(event, func);
				2476	mutex_unlock(&ctx->mutex);
				2477	}
				2478
				2479	static int perf_event_period(struct perf_event event, u64 __user arg)
				2480	{
				2481	struct perf_event_context *ctx = event->ctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2482	int ret = 0;
				2483	u64 value;
				2484
				2485	if (!event->attr.sample_period)
				2486	return -EINVAL;
				2487
John Blackwood	ad0cf34	2010-09-28 18:03:11 -0400	[diff] [blame]	2488	if (copy_from_user(&value, arg, sizeof(value)))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2489	return -EFAULT;
				2490
				2491	if (!value)
				2492	return -EINVAL;
				2493
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	2494	raw_spin_lock_irq(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2495	if (event->attr.freq) {
				2496	if (value > sysctl_perf_event_sample_rate) {
				2497	ret = -EINVAL;
				2498	goto unlock;
				2499	}
				2500
				2501	event->attr.sample_freq = value;
				2502	} else {
				2503	event->attr.sample_period = value;
				2504	event->hw.sample_period = value;
				2505	}
				2506	unlock:
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	2507	raw_spin_unlock_irq(&ctx->lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2508
				2509	return ret;
				2510	}
				2511
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	2512	static const struct file_operations perf_fops;
				2513
				2514	static struct perf_event perf_fget_light(int fd, int fput_needed)
				2515	{
				2516	struct file *file;
				2517
				2518	file = fget_light(fd, fput_needed);
				2519	if (!file)
				2520	return ERR_PTR(-EBADF);
				2521
				2522	if (file->f_op != &perf_fops) {
				2523	fput_light(file, *fput_needed);
				2524	*fput_needed = 0;
				2525	return ERR_PTR(-EBADF);
				2526	}
				2527
				2528	return file->private_data;
				2529	}
				2530
				2531	static int perf_event_set_output(struct perf_event *event,
				2532	struct perf_event *output_event);
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	2533	static int perf_event_set_filter(struct perf_event event, void __user arg);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2534
				2535	static long perf_ioctl(struct file *file, unsigned int cmd, unsigned long arg)
				2536	{
				2537	struct perf_event *event = file->private_data;
				2538	void (func)(struct perf_event );
				2539	u32 flags = arg;
				2540
				2541	switch (cmd) {
				2542	case PERF_EVENT_IOC_ENABLE:
				2543	func = perf_event_enable;
				2544	break;
				2545	case PERF_EVENT_IOC_DISABLE:
				2546	func = perf_event_disable;
				2547	break;
				2548	case PERF_EVENT_IOC_RESET:
				2549	func = perf_event_reset;
				2550	break;
				2551
				2552	case PERF_EVENT_IOC_REFRESH:
				2553	return perf_event_refresh(event, arg);
				2554
				2555	case PERF_EVENT_IOC_PERIOD:
				2556	return perf_event_period(event, (u64 __user *)arg);
				2557
				2558	case PERF_EVENT_IOC_SET_OUTPUT:
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	2559	{
				2560	struct perf_event *output_event = NULL;
				2561	int fput_needed = 0;
				2562	int ret;
				2563
				2564	if (arg != -1) {
				2565	output_event = perf_fget_light(arg, &fput_needed);
				2566	if (IS_ERR(output_event))
				2567	return PTR_ERR(output_event);
				2568	}
				2569
				2570	ret = perf_event_set_output(event, output_event);
				2571	if (output_event)
				2572	fput_light(output_event->filp, fput_needed);
				2573
				2574	return ret;
				2575	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2576
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	2577	case PERF_EVENT_IOC_SET_FILTER:
				2578	return perf_event_set_filter(event, (void __user *)arg);
				2579
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2580	default:
				2581	return -ENOTTY;
				2582	}
				2583
				2584	if (flags & PERF_IOC_FLAG_GROUP)
				2585	perf_event_for_each(event, func);
				2586	else
				2587	perf_event_for_each_child(event, func);
				2588
				2589	return 0;
				2590	}
				2591
				2592	int perf_event_task_enable(void)
				2593	{
				2594	struct perf_event *event;
				2595
				2596	mutex_lock(&current->perf_event_mutex);
				2597	list_for_each_entry(event, &current->perf_event_list, owner_entry)
				2598	perf_event_for_each_child(event, perf_event_enable);
				2599	mutex_unlock(&current->perf_event_mutex);
				2600
				2601	return 0;
				2602	}
				2603
				2604	int perf_event_task_disable(void)
				2605	{
				2606	struct perf_event *event;
				2607
				2608	mutex_lock(&current->perf_event_mutex);
				2609	list_for_each_entry(event, &current->perf_event_list, owner_entry)
				2610	perf_event_for_each_child(event, perf_event_disable);
				2611	mutex_unlock(&current->perf_event_mutex);
				2612
				2613	return 0;
				2614	}
				2615
				2616	#ifndef PERF_EVENT_INDEX_OFFSET
				2617	# define PERF_EVENT_INDEX_OFFSET 0
				2618	#endif
				2619
				2620	static int perf_event_index(struct perf_event *event)
				2621	{
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	2622	if (event->hw.state & PERF_HES_STOPPED)
				2623	return 0;
				2624
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2625	if (event->state != PERF_EVENT_STATE_ACTIVE)
				2626	return 0;
				2627
				2628	return event->hw.idx + 1 - PERF_EVENT_INDEX_OFFSET;
				2629	}
				2630
				2631	/*
				2632	* Callers need to ensure there can be no nesting of this function, otherwise
				2633	* the seqlock logic goes bad. We can not serialize this because the arch
				2634	* code calls this from NMI context.
				2635	*/
				2636	void perf_event_update_userpage(struct perf_event *event)
				2637	{
				2638	struct perf_event_mmap_page *userpg;
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2639	struct perf_buffer *buffer;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2640
				2641	rcu_read_lock();
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2642	buffer = rcu_dereference(event->buffer);
				2643	if (!buffer)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2644	goto unlock;
				2645
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2646	userpg = buffer->user_page;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2647
				2648	/*
				2649	* Disable preemption so as to not let the corresponding user-space
				2650	* spin too long if we get preempted.
				2651	*/
				2652	preempt_disable();
				2653	++userpg->lock;
				2654	barrier();
				2655	userpg->index = perf_event_index(event);
Peter Zijlstra	b5e5879	2010-05-21 14:43:12 +0200	[diff] [blame]	2656	userpg->offset = perf_event_count(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2657	if (event->state == PERF_EVENT_STATE_ACTIVE)
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	2658	userpg->offset -= local64_read(&event->hw.prev_count);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2659
				2660	userpg->time_enabled = event->total_time_enabled +
				2661	atomic64_read(&event->child_total_time_enabled);
				2662
				2663	userpg->time_running = event->total_time_running +
				2664	atomic64_read(&event->child_total_time_running);
				2665
				2666	barrier();
				2667	++userpg->lock;
				2668	preempt_enable();
				2669	unlock:
				2670	rcu_read_unlock();
				2671	}
				2672
Peter Zijlstra	d57e34f	2010-05-28 19:41:35 +0200	[diff] [blame]	2673	static unsigned long perf_data_size(struct perf_buffer *buffer);
				2674
				2675	static void
				2676	perf_buffer_init(struct perf_buffer *buffer, long watermark, int flags)
				2677	{
				2678	long max_size = perf_data_size(buffer);
				2679
				2680	if (watermark)
				2681	buffer->watermark = min(max_size, watermark);
				2682
				2683	if (!buffer->watermark)
				2684	buffer->watermark = max_size / 2;
				2685
				2686	if (flags & PERF_BUFFER_WRITABLE)
				2687	buffer->writable = 1;
				2688
				2689	atomic_set(&buffer->refcount, 1);
				2690	}
				2691
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2692	#ifndef CONFIG_PERF_USE_VMALLOC
				2693
				2694	/*
				2695	* Back perf_mmap() with regular GFP_KERNEL-0 pages.
				2696	*/
				2697
				2698	static struct page *
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2699	perf_mmap_to_page(struct perf_buffer *buffer, unsigned long pgoff)
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2700	{
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2701	if (pgoff > buffer->nr_pages)
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2702	return NULL;
				2703
				2704	if (pgoff == 0)
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2705	return virt_to_page(buffer->user_page);
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2706
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2707	return virt_to_page(buffer->data_pages[pgoff - 1]);
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2708	}
				2709
Peter Zijlstra	a19d35c	2010-05-17 18:48:00 +0200	[diff] [blame]	2710	static void *perf_mmap_alloc_page(int cpu)
				2711	{
				2712	struct page *page;
				2713	int node;
				2714
				2715	node = (cpu == -1) ? cpu : cpu_to_node(cpu);
				2716	page = alloc_pages_node(node, GFP_KERNEL \| __GFP_ZERO, 0);
				2717	if (!page)
				2718	return NULL;
				2719
				2720	return page_address(page);
				2721	}
				2722
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2723	static struct perf_buffer *
Peter Zijlstra	d57e34f	2010-05-28 19:41:35 +0200	[diff] [blame]	2724	perf_buffer_alloc(int nr_pages, long watermark, int cpu, int flags)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2725	{
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2726	struct perf_buffer *buffer;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2727	unsigned long size;
				2728	int i;
				2729
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2730	size = sizeof(struct perf_buffer);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2731	size += nr_pages * sizeof(void *);
				2732
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2733	buffer = kzalloc(size, GFP_KERNEL);
				2734	if (!buffer)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2735	goto fail;
				2736
Peter Zijlstra	d57e34f	2010-05-28 19:41:35 +0200	[diff] [blame]	2737	buffer->user_page = perf_mmap_alloc_page(cpu);
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2738	if (!buffer->user_page)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2739	goto fail_user_page;
				2740
				2741	for (i = 0; i < nr_pages; i++) {
Peter Zijlstra	d57e34f	2010-05-28 19:41:35 +0200	[diff] [blame]	2742	buffer->data_pages[i] = perf_mmap_alloc_page(cpu);
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2743	if (!buffer->data_pages[i])
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2744	goto fail_data_pages;
				2745	}
				2746
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2747	buffer->nr_pages = nr_pages;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2748
Peter Zijlstra	d57e34f	2010-05-28 19:41:35 +0200	[diff] [blame]	2749	perf_buffer_init(buffer, watermark, flags);
				2750
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2751	return buffer;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2752
				2753	fail_data_pages:
				2754	for (i--; i >= 0; i--)
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2755	free_page((unsigned long)buffer->data_pages[i]);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2756
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2757	free_page((unsigned long)buffer->user_page);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2758
				2759	fail_user_page:
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2760	kfree(buffer);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2761
				2762	fail:
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2763	return NULL;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2764	}
				2765
				2766	static void perf_mmap_free_page(unsigned long addr)
				2767	{
				2768	struct page page = virt_to_page((void )addr);
				2769
				2770	page->mapping = NULL;
				2771	__free_page(page);
				2772	}
				2773
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2774	static void perf_buffer_free(struct perf_buffer *buffer)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2775	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2776	int i;
				2777
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2778	perf_mmap_free_page((unsigned long)buffer->user_page);
				2779	for (i = 0; i < buffer->nr_pages; i++)
				2780	perf_mmap_free_page((unsigned long)buffer->data_pages[i]);
				2781	kfree(buffer);
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2782	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2783
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2784	static inline int page_order(struct perf_buffer *buffer)
Peter Zijlstra	3cafa9f	2010-05-20 19:07:56 +0200	[diff] [blame]	2785	{
				2786	return 0;
				2787	}
				2788
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2789	#else
				2790
				2791	/*
				2792	* Back perf_mmap() with vmalloc memory.
				2793	*
				2794	* Required for architectures that have d-cache aliasing issues.
				2795	*/
				2796
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2797	static inline int page_order(struct perf_buffer *buffer)
Peter Zijlstra	3cafa9f	2010-05-20 19:07:56 +0200	[diff] [blame]	2798	{
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2799	return buffer->page_order;
Peter Zijlstra	3cafa9f	2010-05-20 19:07:56 +0200	[diff] [blame]	2800	}
				2801
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2802	static struct page *
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2803	perf_mmap_to_page(struct perf_buffer *buffer, unsigned long pgoff)
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2804	{
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2805	if (pgoff > (1UL << page_order(buffer)))
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2806	return NULL;
				2807
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2808	return vmalloc_to_page((void )buffer->user_page + pgoff PAGE_SIZE);
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2809	}
				2810
				2811	static void perf_mmap_unmark_page(void *addr)
				2812	{
				2813	struct page *page = vmalloc_to_page(addr);
				2814
				2815	page->mapping = NULL;
				2816	}
				2817
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2818	static void perf_buffer_free_work(struct work_struct *work)
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2819	{
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2820	struct perf_buffer *buffer;
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2821	void *base;
				2822	int i, nr;
				2823
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2824	buffer = container_of(work, struct perf_buffer, work);
				2825	nr = 1 << page_order(buffer);
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2826
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2827	base = buffer->user_page;
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2828	for (i = 0; i < nr + 1; i++)
				2829	perf_mmap_unmark_page(base + (i * PAGE_SIZE));
				2830
				2831	vfree(base);
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2832	kfree(buffer);
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2833	}
				2834
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2835	static void perf_buffer_free(struct perf_buffer *buffer)
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2836	{
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2837	schedule_work(&buffer->work);
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2838	}
				2839
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2840	static struct perf_buffer *
Peter Zijlstra	d57e34f	2010-05-28 19:41:35 +0200	[diff] [blame]	2841	perf_buffer_alloc(int nr_pages, long watermark, int cpu, int flags)
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2842	{
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2843	struct perf_buffer *buffer;
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2844	unsigned long size;
				2845	void *all_buf;
				2846
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2847	size = sizeof(struct perf_buffer);
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2848	size += sizeof(void *);
				2849
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2850	buffer = kzalloc(size, GFP_KERNEL);
				2851	if (!buffer)
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2852	goto fail;
				2853
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2854	INIT_WORK(&buffer->work, perf_buffer_free_work);
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2855
				2856	all_buf = vmalloc_user((nr_pages + 1) * PAGE_SIZE);
				2857	if (!all_buf)
				2858	goto fail_all_buf;
				2859
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2860	buffer->user_page = all_buf;
				2861	buffer->data_pages[0] = all_buf + PAGE_SIZE;
				2862	buffer->page_order = ilog2(nr_pages);
				2863	buffer->nr_pages = 1;
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2864
Peter Zijlstra	d57e34f	2010-05-28 19:41:35 +0200	[diff] [blame]	2865	perf_buffer_init(buffer, watermark, flags);
				2866
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2867	return buffer;
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2868
				2869	fail_all_buf:
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2870	kfree(buffer);
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2871
				2872	fail:
				2873	return NULL;
				2874	}
				2875
				2876	#endif
				2877
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2878	static unsigned long perf_data_size(struct perf_buffer *buffer)
Peter Zijlstra	3cafa9f	2010-05-20 19:07:56 +0200	[diff] [blame]	2879	{
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2880	return buffer->nr_pages << (PAGE_SHIFT + page_order(buffer));
Peter Zijlstra	3cafa9f	2010-05-20 19:07:56 +0200	[diff] [blame]	2881	}
				2882
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2883	static int perf_mmap_fault(struct vm_area_struct vma, struct vm_fault vmf)
				2884	{
				2885	struct perf_event *event = vma->vm_file->private_data;
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2886	struct perf_buffer *buffer;
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2887	int ret = VM_FAULT_SIGBUS;
				2888
				2889	if (vmf->flags & FAULT_FLAG_MKWRITE) {
				2890	if (vmf->pgoff == 0)
				2891	ret = 0;
				2892	return ret;
				2893	}
				2894
				2895	rcu_read_lock();
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2896	buffer = rcu_dereference(event->buffer);
				2897	if (!buffer)
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2898	goto unlock;
				2899
				2900	if (vmf->pgoff && (vmf->flags & FAULT_FLAG_WRITE))
				2901	goto unlock;
				2902
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2903	vmf->page = perf_mmap_to_page(buffer, vmf->pgoff);
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2904	if (!vmf->page)
				2905	goto unlock;
				2906
				2907	get_page(vmf->page);
				2908	vmf->page->mapping = vma->vm_file->f_mapping;
				2909	vmf->page->index = vmf->pgoff;
				2910
				2911	ret = 0;
				2912	unlock:
				2913	rcu_read_unlock();
				2914
				2915	return ret;
				2916	}
				2917
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2918	static void perf_buffer_free_rcu(struct rcu_head *rcu_head)
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2919	{
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2920	struct perf_buffer *buffer;
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2921
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2922	buffer = container_of(rcu_head, struct perf_buffer, rcu_head);
				2923	perf_buffer_free(buffer);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2924	}
				2925
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2926	static struct perf_buffer perf_buffer_get(struct perf_event event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2927	{
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2928	struct perf_buffer *buffer;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2929
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	2930	rcu_read_lock();
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2931	buffer = rcu_dereference(event->buffer);
				2932	if (buffer) {
				2933	if (!atomic_inc_not_zero(&buffer->refcount))
				2934	buffer = NULL;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	2935	}
				2936	rcu_read_unlock();
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2937
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2938	return buffer;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	2939	}
				2940
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2941	static void perf_buffer_put(struct perf_buffer *buffer)
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	2942	{
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2943	if (!atomic_dec_and_test(&buffer->refcount))
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	2944	return;
				2945
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2946	call_rcu(&buffer->rcu_head, perf_buffer_free_rcu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2947	}
				2948
				2949	static void perf_mmap_open(struct vm_area_struct *vma)
				2950	{
				2951	struct perf_event *event = vma->vm_file->private_data;
				2952
				2953	atomic_inc(&event->mmap_count);
				2954	}
				2955
				2956	static void perf_mmap_close(struct vm_area_struct *vma)
				2957	{
				2958	struct perf_event *event = vma->vm_file->private_data;
				2959
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2960	if (atomic_dec_and_mutex_lock(&event->mmap_count, &event->mmap_mutex)) {
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2961	unsigned long size = perf_data_size(event->buffer);
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	2962	struct user_struct *user = event->mmap_user;
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2963	struct perf_buffer *buffer = event->buffer;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2964
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	2965	atomic_long_sub((size >> PAGE_SHIFT) + 1, &user->locked_vm);
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	2966	vma->vm_mm->locked_vm -= event->mmap_locked;
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2967	rcu_assign_pointer(event->buffer, NULL);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2968	mutex_unlock(&event->mmap_mutex);
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	2969
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2970	perf_buffer_put(buffer);
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	2971	free_uid(user);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2972	}
				2973	}
				2974
Alexey Dobriyan	f0f37e2f	2009-09-27 22:29:37 +0400	[diff] [blame]	2975	static const struct vm_operations_struct perf_mmap_vmops = {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2976	.open = perf_mmap_open,
				2977	.close = perf_mmap_close,
				2978	.fault = perf_mmap_fault,
				2979	.page_mkwrite = perf_mmap_fault,
				2980	};
				2981
				2982	static int perf_mmap(struct file file, struct vm_area_struct vma)
				2983	{
				2984	struct perf_event *event = file->private_data;
				2985	unsigned long user_locked, user_lock_limit;
				2986	struct user_struct *user = current_user();
				2987	unsigned long locked, lock_limit;
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	2988	struct perf_buffer *buffer;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2989	unsigned long vma_size;
				2990	unsigned long nr_pages;
				2991	long user_extra, extra;
Peter Zijlstra	d57e34f	2010-05-28 19:41:35 +0200	[diff] [blame]	2992	int ret = 0, flags = 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	2993
Peter Zijlstra	c792061	2010-05-18 10:33:24 +0200	[diff] [blame]	2994	/*
				2995	* Don't allow mmap() of inherited per-task counters. This would
				2996	* create a performance issue due to all children writing to the
				2997	* same buffer.
				2998	*/
				2999	if (event->cpu == -1 && event->attr.inherit)
				3000	return -EINVAL;
				3001
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3002	if (!(vma->vm_flags & VM_SHARED))
				3003	return -EINVAL;
				3004
				3005	vma_size = vma->vm_end - vma->vm_start;
				3006	nr_pages = (vma_size / PAGE_SIZE) - 1;
				3007
				3008	/*
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3009	* If we have buffer pages ensure they're a power-of-two number, so we
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3010	* can do bitmasks instead of modulo.
				3011	*/
				3012	if (nr_pages != 0 && !is_power_of_2(nr_pages))
				3013	return -EINVAL;
				3014
				3015	if (vma_size != PAGE_SIZE * (1 + nr_pages))
				3016	return -EINVAL;
				3017
				3018	if (vma->vm_pgoff != 0)
				3019	return -EINVAL;
				3020
				3021	WARN_ON_ONCE(event->ctx->parent_ctx);
				3022	mutex_lock(&event->mmap_mutex);
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3023	if (event->buffer) {
				3024	if (event->buffer->nr_pages == nr_pages)
				3025	atomic_inc(&event->buffer->refcount);
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	3026	else
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3027	ret = -EINVAL;
				3028	goto unlock;
				3029	}
				3030
				3031	user_extra = nr_pages + 1;
				3032	user_lock_limit = sysctl_perf_event_mlock >> (PAGE_SHIFT - 10);
				3033
				3034	/*
				3035	* Increase the limit linearly with more CPUs:
				3036	*/
				3037	user_lock_limit *= num_online_cpus();
				3038
				3039	user_locked = atomic_long_read(&user->locked_vm) + user_extra;
				3040
				3041	extra = 0;
				3042	if (user_locked > user_lock_limit)
				3043	extra = user_locked - user_lock_limit;
				3044
Jiri Slaby	78d7d40	2010-03-05 13:42:54 -0800	[diff] [blame]	3045	lock_limit = rlimit(RLIMIT_MEMLOCK);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3046	lock_limit >>= PAGE_SHIFT;
				3047	locked = vma->vm_mm->locked_vm + extra;
				3048
				3049	if ((locked > lock_limit) && perf_paranoid_tracepoint_raw() &&
				3050	!capable(CAP_IPC_LOCK)) {
				3051	ret = -EPERM;
				3052	goto unlock;
				3053	}
				3054
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3055	WARN_ON(event->buffer);
Peter Zijlstra	906010b	2009-09-21 16:08:49 +0200	[diff] [blame]	3056
Peter Zijlstra	d57e34f	2010-05-28 19:41:35 +0200	[diff] [blame]	3057	if (vma->vm_flags & VM_WRITE)
				3058	flags \|= PERF_BUFFER_WRITABLE;
				3059
				3060	buffer = perf_buffer_alloc(nr_pages, event->attr.wakeup_watermark,
				3061	event->cpu, flags);
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3062	if (!buffer) {
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	3063	ret = -ENOMEM;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3064	goto unlock;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	3065	}
Peter Zijlstra	d57e34f	2010-05-28 19:41:35 +0200	[diff] [blame]	3066	rcu_assign_pointer(event->buffer, buffer);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3067
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	3068	atomic_long_add(user_extra, &user->locked_vm);
				3069	event->mmap_locked = extra;
				3070	event->mmap_user = get_current_user();
				3071	vma->vm_mm->locked_vm += event->mmap_locked;
				3072
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3073	unlock:
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	3074	if (!ret)
				3075	atomic_inc(&event->mmap_count);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3076	mutex_unlock(&event->mmap_mutex);
				3077
				3078	vma->vm_flags \|= VM_RESERVED;
				3079	vma->vm_ops = &perf_mmap_vmops;
				3080
				3081	return ret;
				3082	}
				3083
				3084	static int perf_fasync(int fd, struct file *filp, int on)
				3085	{
				3086	struct inode *inode = filp->f_path.dentry->d_inode;
				3087	struct perf_event *event = filp->private_data;
				3088	int retval;
				3089
				3090	mutex_lock(&inode->i_mutex);
				3091	retval = fasync_helper(fd, filp, on, &event->fasync);
				3092	mutex_unlock(&inode->i_mutex);
				3093
				3094	if (retval < 0)
				3095	return retval;
				3096
				3097	return 0;
				3098	}
				3099
				3100	static const struct file_operations perf_fops = {
Arnd Bergmann	3326c1c	2010-03-23 19:09:33 +0100	[diff] [blame]	3101	.llseek = no_llseek,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3102	.release = perf_release,
				3103	.read = perf_read,
				3104	.poll = perf_poll,
				3105	.unlocked_ioctl = perf_ioctl,
				3106	.compat_ioctl = perf_ioctl,
				3107	.mmap = perf_mmap,
				3108	.fasync = perf_fasync,
				3109	};
				3110
				3111	/*
				3112	* Perf event wakeup
				3113	*
				3114	* If there's data, ensure we set the poll() state and publish everything
				3115	* to user-space before waking everybody up.
				3116	*/
				3117
				3118	void perf_event_wakeup(struct perf_event *event)
				3119	{
				3120	wake_up_all(&event->waitq);
				3121
				3122	if (event->pending_kill) {
				3123	kill_fasync(&event->fasync, SIGIO, event->pending_kill);
				3124	event->pending_kill = 0;
				3125	}
				3126	}
				3127
Peter Zijlstra	e360adb	2010-10-14 14:01:34 +0800	[diff] [blame]	3128	static void perf_pending_event(struct irq_work *entry)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3129	{
				3130	struct perf_event *event = container_of(entry,
				3131	struct perf_event, pending);
				3132
				3133	if (event->pending_disable) {
				3134	event->pending_disable = 0;
				3135	__perf_event_disable(event);
				3136	}
				3137
				3138	if (event->pending_wakeup) {
				3139	event->pending_wakeup = 0;
				3140	perf_event_wakeup(event);
				3141	}
				3142	}
				3143
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3144	/*
Zhang, Yanmin	39447b3	2010-04-19 13:32:41 +0800	[diff] [blame]	3145	* We assume there is only KVM supporting the callbacks.
				3146	* Later on, we might change it to a list if there is
				3147	* another virtualization implementation supporting the callbacks.
				3148	*/
				3149	struct perf_guest_info_callbacks *perf_guest_cbs;
				3150
				3151	int perf_register_guest_info_callbacks(struct perf_guest_info_callbacks *cbs)
				3152	{
				3153	perf_guest_cbs = cbs;
				3154	return 0;
				3155	}
				3156	EXPORT_SYMBOL_GPL(perf_register_guest_info_callbacks);
				3157
				3158	int perf_unregister_guest_info_callbacks(struct perf_guest_info_callbacks *cbs)
				3159	{
				3160	perf_guest_cbs = NULL;
				3161	return 0;
				3162	}
				3163	EXPORT_SYMBOL_GPL(perf_unregister_guest_info_callbacks);
				3164
				3165	/*
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3166	* Output
				3167	*/
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3168	static bool perf_output_space(struct perf_buffer *buffer, unsigned long tail,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3169	unsigned long offset, unsigned long head)
				3170	{
				3171	unsigned long mask;
				3172
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3173	if (!buffer->writable)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3174	return true;
				3175
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3176	mask = perf_data_size(buffer) - 1;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3177
				3178	offset = (offset - tail) & mask;
				3179	head = (head - tail) & mask;
				3180
				3181	if ((int)(head - offset) < 0)
				3182	return false;
				3183
				3184	return true;
				3185	}
				3186
				3187	static void perf_output_wakeup(struct perf_output_handle *handle)
				3188	{
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3189	atomic_set(&handle->buffer->poll, POLL_IN);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3190
				3191	if (handle->nmi) {
				3192	handle->event->pending_wakeup = 1;
Peter Zijlstra	e360adb	2010-10-14 14:01:34 +0800	[diff] [blame]	3193	irq_work_queue(&handle->event->pending);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3194	} else
				3195	perf_event_wakeup(handle->event);
				3196	}
				3197
				3198	/*
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3199	* We need to ensure a later event_id doesn't publish a head when a former
Peter Zijlstra	ef60777	2010-05-18 10:50:41 +0200	[diff] [blame]	3200	* event isn't done writing. However since we need to deal with NMIs we
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3201	* cannot fully serialize things.
				3202	*
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3203	* We only publish the head (and generate a wakeup) when the outer-most
Peter Zijlstra	ef60777	2010-05-18 10:50:41 +0200	[diff] [blame]	3204	* event completes.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3205	*/
Peter Zijlstra	ef60777	2010-05-18 10:50:41 +0200	[diff] [blame]	3206	static void perf_output_get_handle(struct perf_output_handle *handle)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3207	{
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3208	struct perf_buffer *buffer = handle->buffer;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3209
Peter Zijlstra	ef60777	2010-05-18 10:50:41 +0200	[diff] [blame]	3210	preempt_disable();
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3211	local_inc(&buffer->nest);
				3212	handle->wakeup = local_read(&buffer->wakeup);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3213	}
				3214
Peter Zijlstra	ef60777	2010-05-18 10:50:41 +0200	[diff] [blame]	3215	static void perf_output_put_handle(struct perf_output_handle *handle)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3216	{
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3217	struct perf_buffer *buffer = handle->buffer;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3218	unsigned long head;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3219
				3220	again:
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3221	head = local_read(&buffer->head);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3222
				3223	/*
Peter Zijlstra	ef60777	2010-05-18 10:50:41 +0200	[diff] [blame]	3224	* IRQ/NMI can happen here, which means we can miss a head update.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3225	*/
				3226
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3227	if (!local_dec_and_test(&buffer->nest))
Frederic Weisbecker	acd35a4	2010-05-20 21:28:34 +0200	[diff] [blame]	3228	goto out;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3229
				3230	/*
Peter Zijlstra	ef60777	2010-05-18 10:50:41 +0200	[diff] [blame]	3231	* Publish the known good head. Rely on the full barrier implied
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3232	* by atomic_dec_and_test() order the buffer->head read and this
Peter Zijlstra	ef60777	2010-05-18 10:50:41 +0200	[diff] [blame]	3233	* write.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3234	*/
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3235	buffer->user_page->data_head = head;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3236
Peter Zijlstra	ef60777	2010-05-18 10:50:41 +0200	[diff] [blame]	3237	/*
				3238	* Now check if we missed an update, rely on the (compiler)
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3239	* barrier in atomic_dec_and_test() to re-read buffer->head.
Peter Zijlstra	ef60777	2010-05-18 10:50:41 +0200	[diff] [blame]	3240	*/
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3241	if (unlikely(head != local_read(&buffer->head))) {
				3242	local_inc(&buffer->nest);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3243	goto again;
				3244	}
				3245
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3246	if (handle->wakeup != local_read(&buffer->wakeup))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3247	perf_output_wakeup(handle);
Peter Zijlstra	ef60777	2010-05-18 10:50:41 +0200	[diff] [blame]	3248
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	3249	out:
Peter Zijlstra	ef60777	2010-05-18 10:50:41 +0200	[diff] [blame]	3250	preempt_enable();
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3251	}
				3252
Peter Zijlstra	a94ffaa	2010-05-20 19:50:07 +0200	[diff] [blame]	3253	__always_inline void perf_output_copy(struct perf_output_handle *handle,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3254	const void *buf, unsigned int len)
				3255	{
Peter Zijlstra	5d967a8	2010-05-20 16:46:39 +0200	[diff] [blame]	3256	do {
Peter Zijlstra	a94ffaa	2010-05-20 19:50:07 +0200	[diff] [blame]	3257	unsigned long size = min_t(unsigned long, handle->size, len);
Peter Zijlstra	5d967a8	2010-05-20 16:46:39 +0200	[diff] [blame]	3258
				3259	memcpy(handle->addr, buf, size);
				3260
				3261	len -= size;
				3262	handle->addr += size;
Frederic Weisbecker	74048f8	2010-05-27 21:34:58 +0200	[diff] [blame]	3263	buf += size;
Peter Zijlstra	5d967a8	2010-05-20 16:46:39 +0200	[diff] [blame]	3264	handle->size -= size;
				3265	if (!handle->size) {
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3266	struct perf_buffer *buffer = handle->buffer;
Peter Zijlstra	3cafa9f	2010-05-20 19:07:56 +0200	[diff] [blame]	3267
Peter Zijlstra	5d967a8	2010-05-20 16:46:39 +0200	[diff] [blame]	3268	handle->page++;
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3269	handle->page &= buffer->nr_pages - 1;
				3270	handle->addr = buffer->data_pages[handle->page];
				3271	handle->size = PAGE_SIZE << page_order(buffer);
Peter Zijlstra	5d967a8	2010-05-20 16:46:39 +0200	[diff] [blame]	3272	}
				3273	} while (len);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3274	}
				3275
				3276	int perf_output_begin(struct perf_output_handle *handle,
				3277	struct perf_event *event, unsigned int size,
				3278	int nmi, int sample)
				3279	{
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3280	struct perf_buffer *buffer;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3281	unsigned long tail, offset, head;
				3282	int have_lost;
				3283	struct {
				3284	struct perf_event_header header;
				3285	u64 id;
				3286	u64 lost;
				3287	} lost_event;
				3288
				3289	rcu_read_lock();
				3290	/*
				3291	* For inherited events we send all the output towards the parent.
				3292	*/
				3293	if (event->parent)
				3294	event = event->parent;
				3295
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3296	buffer = rcu_dereference(event->buffer);
				3297	if (!buffer)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3298	goto out;
				3299
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3300	handle->buffer = buffer;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3301	handle->event = event;
				3302	handle->nmi = nmi;
				3303	handle->sample = sample;
				3304
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3305	if (!buffer->nr_pages)
Stephane Eranian	00d1d0b	2010-05-17 12:46:01 +0200	[diff] [blame]	3306	goto out;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3307
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3308	have_lost = local_read(&buffer->lost);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3309	if (have_lost)
				3310	size += sizeof(lost_event);
				3311
Peter Zijlstra	ef60777	2010-05-18 10:50:41 +0200	[diff] [blame]	3312	perf_output_get_handle(handle);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3313
				3314	do {
				3315	/*
				3316	* Userspace could choose to issue a mb() before updating the
				3317	* tail pointer. So that all reads will be completed before the
				3318	* write is issued.
				3319	*/
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3320	tail = ACCESS_ONCE(buffer->user_page->data_tail);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3321	smp_rmb();
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3322	offset = head = local_read(&buffer->head);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3323	head += size;
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3324	if (unlikely(!perf_output_space(buffer, tail, offset, head)))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3325	goto fail;
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3326	} while (local_cmpxchg(&buffer->head, offset, head) != offset);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3327
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3328	if (head - local_read(&buffer->wakeup) > buffer->watermark)
				3329	local_add(buffer->watermark, &buffer->wakeup);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3330
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3331	handle->page = offset >> (PAGE_SHIFT + page_order(buffer));
				3332	handle->page &= buffer->nr_pages - 1;
				3333	handle->size = offset & ((PAGE_SIZE << page_order(buffer)) - 1);
				3334	handle->addr = buffer->data_pages[handle->page];
Peter Zijlstra	5d967a8	2010-05-20 16:46:39 +0200	[diff] [blame]	3335	handle->addr += handle->size;
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3336	handle->size = (PAGE_SIZE << page_order(buffer)) - handle->size;
Peter Zijlstra	5d967a8	2010-05-20 16:46:39 +0200	[diff] [blame]	3337
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3338	if (have_lost) {
				3339	lost_event.header.type = PERF_RECORD_LOST;
				3340	lost_event.header.misc = 0;
				3341	lost_event.header.size = sizeof(lost_event);
				3342	lost_event.id = event->id;
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3343	lost_event.lost = local_xchg(&buffer->lost, 0);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3344
				3345	perf_output_put(handle, lost_event);
				3346	}
				3347
				3348	return 0;
				3349
				3350	fail:
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3351	local_inc(&buffer->lost);
Peter Zijlstra	ef60777	2010-05-18 10:50:41 +0200	[diff] [blame]	3352	perf_output_put_handle(handle);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3353	out:
				3354	rcu_read_unlock();
				3355
				3356	return -ENOSPC;
				3357	}
				3358
				3359	void perf_output_end(struct perf_output_handle *handle)
				3360	{
				3361	struct perf_event *event = handle->event;
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3362	struct perf_buffer *buffer = handle->buffer;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3363
				3364	int wakeup_events = event->attr.wakeup_events;
				3365
				3366	if (handle->sample && wakeup_events) {
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3367	int events = local_inc_return(&buffer->events);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3368	if (events >= wakeup_events) {
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	3369	local_sub(wakeup_events, &buffer->events);
				3370	local_inc(&buffer->wakeup);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3371	}
				3372	}
				3373
Peter Zijlstra	ef60777	2010-05-18 10:50:41 +0200	[diff] [blame]	3374	perf_output_put_handle(handle);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3375	rcu_read_unlock();
				3376	}
				3377
				3378	static u32 perf_event_pid(struct perf_event event, struct task_struct p)
				3379	{
				3380	/*
				3381	* only top level events have the pid namespace they were created in
				3382	*/
				3383	if (event->parent)
				3384	event = event->parent;
				3385
				3386	return task_tgid_nr_ns(p, event->ns);
				3387	}
				3388
				3389	static u32 perf_event_tid(struct perf_event event, struct task_struct p)
				3390	{
				3391	/*
				3392	* only top level events have the pid namespace they were created in
				3393	*/
				3394	if (event->parent)
				3395	event = event->parent;
				3396
				3397	return task_pid_nr_ns(p, event->ns);
				3398	}
				3399
				3400	static void perf_output_read_one(struct perf_output_handle *handle,
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	3401	struct perf_event *event,
				3402	u64 enabled, u64 running)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3403	{
				3404	u64 read_format = event->attr.read_format;
				3405	u64 values[4];
				3406	int n = 0;
				3407
Peter Zijlstra	b5e5879	2010-05-21 14:43:12 +0200	[diff] [blame]	3408	values[n++] = perf_event_count(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3409	if (read_format & PERF_FORMAT_TOTAL_TIME_ENABLED) {
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	3410	values[n++] = enabled +
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3411	atomic64_read(&event->child_total_time_enabled);
				3412	}
				3413	if (read_format & PERF_FORMAT_TOTAL_TIME_RUNNING) {
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	3414	values[n++] = running +
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3415	atomic64_read(&event->child_total_time_running);
				3416	}
				3417	if (read_format & PERF_FORMAT_ID)
				3418	values[n++] = primary_event_id(event);
				3419
				3420	perf_output_copy(handle, values, n * sizeof(u64));
				3421	}
				3422
				3423	/*
				3424	* XXX PERF_FORMAT_GROUP vs inherited events seems difficult.
				3425	*/
				3426	static void perf_output_read_group(struct perf_output_handle *handle,
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	3427	struct perf_event *event,
				3428	u64 enabled, u64 running)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3429	{
				3430	struct perf_event leader = event->group_leader, sub;
				3431	u64 read_format = event->attr.read_format;
				3432	u64 values[5];
				3433	int n = 0;
				3434
				3435	values[n++] = 1 + leader->nr_siblings;
				3436
				3437	if (read_format & PERF_FORMAT_TOTAL_TIME_ENABLED)
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	3438	values[n++] = enabled;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3439
				3440	if (read_format & PERF_FORMAT_TOTAL_TIME_RUNNING)
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	3441	values[n++] = running;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3442
				3443	if (leader != event)
				3444	leader->pmu->read(leader);
				3445
Peter Zijlstra	b5e5879	2010-05-21 14:43:12 +0200	[diff] [blame]	3446	values[n++] = perf_event_count(leader);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3447	if (read_format & PERF_FORMAT_ID)
				3448	values[n++] = primary_event_id(leader);
				3449
				3450	perf_output_copy(handle, values, n * sizeof(u64));
				3451
				3452	list_for_each_entry(sub, &leader->sibling_list, group_entry) {
				3453	n = 0;
				3454
				3455	if (sub != event)
				3456	sub->pmu->read(sub);
				3457
Peter Zijlstra	b5e5879	2010-05-21 14:43:12 +0200	[diff] [blame]	3458	values[n++] = perf_event_count(sub);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3459	if (read_format & PERF_FORMAT_ID)
				3460	values[n++] = primary_event_id(sub);
				3461
				3462	perf_output_copy(handle, values, n * sizeof(u64));
				3463	}
				3464	}
				3465
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	3466	#define PERF_FORMAT_TOTAL_TIMES (PERF_FORMAT_TOTAL_TIME_ENABLED\|\
				3467	PERF_FORMAT_TOTAL_TIME_RUNNING)
				3468
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3469	static void perf_output_read(struct perf_output_handle *handle,
				3470	struct perf_event *event)
				3471	{
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	3472	u64 enabled = 0, running = 0, now, ctx_time;
				3473	u64 read_format = event->attr.read_format;
				3474
				3475	/*
				3476	* compute total_time_enabled, total_time_running
				3477	* based on snapshot values taken when the event
				3478	* was last scheduled in.
				3479	*
				3480	* we cannot simply called update_context_time()
				3481	* because of locking issue as we are called in
				3482	* NMI context
				3483	*/
				3484	if (read_format & PERF_FORMAT_TOTAL_TIMES) {
				3485	now = perf_clock();
				3486	ctx_time = event->shadow_ctx_time + now;
				3487	enabled = ctx_time - event->tstamp_enabled;
				3488	running = ctx_time - event->tstamp_running;
				3489	}
				3490
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3491	if (event->attr.read_format & PERF_FORMAT_GROUP)
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	3492	perf_output_read_group(handle, event, enabled, running);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3493	else
Stephane Eranian	eed0152	2010-10-26 16:08:01 +0200	[diff] [blame]	3494	perf_output_read_one(handle, event, enabled, running);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3495	}
				3496
				3497	void perf_output_sample(struct perf_output_handle *handle,
				3498	struct perf_event_header *header,
				3499	struct perf_sample_data *data,
				3500	struct perf_event *event)
				3501	{
				3502	u64 sample_type = data->type;
				3503
				3504	perf_output_put(handle, *header);
				3505
				3506	if (sample_type & PERF_SAMPLE_IP)
				3507	perf_output_put(handle, data->ip);
				3508
				3509	if (sample_type & PERF_SAMPLE_TID)
				3510	perf_output_put(handle, data->tid_entry);
				3511
				3512	if (sample_type & PERF_SAMPLE_TIME)
				3513	perf_output_put(handle, data->time);
				3514
				3515	if (sample_type & PERF_SAMPLE_ADDR)
				3516	perf_output_put(handle, data->addr);
				3517
				3518	if (sample_type & PERF_SAMPLE_ID)
				3519	perf_output_put(handle, data->id);
				3520
				3521	if (sample_type & PERF_SAMPLE_STREAM_ID)
				3522	perf_output_put(handle, data->stream_id);
				3523
				3524	if (sample_type & PERF_SAMPLE_CPU)
				3525	perf_output_put(handle, data->cpu_entry);
				3526
				3527	if (sample_type & PERF_SAMPLE_PERIOD)
				3528	perf_output_put(handle, data->period);
				3529
				3530	if (sample_type & PERF_SAMPLE_READ)
				3531	perf_output_read(handle, event);
				3532
				3533	if (sample_type & PERF_SAMPLE_CALLCHAIN) {
				3534	if (data->callchain) {
				3535	int size = 1;
				3536
				3537	if (data->callchain)
				3538	size += data->callchain->nr;
				3539
				3540	size *= sizeof(u64);
				3541
				3542	perf_output_copy(handle, data->callchain, size);
				3543	} else {
				3544	u64 nr = 0;
				3545	perf_output_put(handle, nr);
				3546	}
				3547	}
				3548
				3549	if (sample_type & PERF_SAMPLE_RAW) {
				3550	if (data->raw) {
				3551	perf_output_put(handle, data->raw->size);
				3552	perf_output_copy(handle, data->raw->data,
				3553	data->raw->size);
				3554	} else {
				3555	struct {
				3556	u32 size;
				3557	u32 data;
				3558	} raw = {
				3559	.size = sizeof(u32),
				3560	.data = 0,
				3561	};
				3562	perf_output_put(handle, raw);
				3563	}
				3564	}
				3565	}
				3566
				3567	void perf_prepare_sample(struct perf_event_header *header,
				3568	struct perf_sample_data *data,
				3569	struct perf_event *event,
				3570	struct pt_regs *regs)
				3571	{
				3572	u64 sample_type = event->attr.sample_type;
				3573
				3574	data->type = sample_type;
				3575
				3576	header->type = PERF_RECORD_SAMPLE;
				3577	header->size = sizeof(*header);
				3578
				3579	header->misc = 0;
				3580	header->misc \|= perf_misc_flags(regs);
				3581
				3582	if (sample_type & PERF_SAMPLE_IP) {
				3583	data->ip = perf_instruction_pointer(regs);
				3584
				3585	header->size += sizeof(data->ip);
				3586	}
				3587
				3588	if (sample_type & PERF_SAMPLE_TID) {
				3589	/* namespace issues */
				3590	data->tid_entry.pid = perf_event_pid(event, current);
				3591	data->tid_entry.tid = perf_event_tid(event, current);
				3592
				3593	header->size += sizeof(data->tid_entry);
				3594	}
				3595
				3596	if (sample_type & PERF_SAMPLE_TIME) {
				3597	data->time = perf_clock();
				3598
				3599	header->size += sizeof(data->time);
				3600	}
				3601
				3602	if (sample_type & PERF_SAMPLE_ADDR)
				3603	header->size += sizeof(data->addr);
				3604
				3605	if (sample_type & PERF_SAMPLE_ID) {
				3606	data->id = primary_event_id(event);
				3607
				3608	header->size += sizeof(data->id);
				3609	}
				3610
				3611	if (sample_type & PERF_SAMPLE_STREAM_ID) {
				3612	data->stream_id = event->id;
				3613
				3614	header->size += sizeof(data->stream_id);
				3615	}
				3616
				3617	if (sample_type & PERF_SAMPLE_CPU) {
				3618	data->cpu_entry.cpu = raw_smp_processor_id();
				3619	data->cpu_entry.reserved = 0;
				3620
				3621	header->size += sizeof(data->cpu_entry);
				3622	}
				3623
				3624	if (sample_type & PERF_SAMPLE_PERIOD)
				3625	header->size += sizeof(data->period);
				3626
				3627	if (sample_type & PERF_SAMPLE_READ)
				3628	header->size += perf_event_read_size(event);
				3629
				3630	if (sample_type & PERF_SAMPLE_CALLCHAIN) {
				3631	int size = 1;
				3632
				3633	data->callchain = perf_callchain(regs);
				3634
				3635	if (data->callchain)
				3636	size += data->callchain->nr;
				3637
				3638	header->size += size * sizeof(u64);
				3639	}
				3640
				3641	if (sample_type & PERF_SAMPLE_RAW) {
				3642	int size = sizeof(u32);
				3643
				3644	if (data->raw)
				3645	size += data->raw->size;
				3646	else
				3647	size += sizeof(u32);
				3648
				3649	WARN_ON_ONCE(size & (sizeof(u64)-1));
				3650	header->size += size;
				3651	}
				3652	}
				3653
				3654	static void perf_event_output(struct perf_event *event, int nmi,
				3655	struct perf_sample_data *data,
				3656	struct pt_regs *regs)
				3657	{
				3658	struct perf_output_handle handle;
				3659	struct perf_event_header header;
				3660
Frederic Weisbecker	927c7a9	2010-07-01 16:20:36 +0200	[diff] [blame]	3661	/* protect the callchain buffers */
				3662	rcu_read_lock();
				3663
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3664	perf_prepare_sample(&header, data, event, regs);
				3665
				3666	if (perf_output_begin(&handle, event, header.size, nmi, 1))
Frederic Weisbecker	927c7a9	2010-07-01 16:20:36 +0200	[diff] [blame]	3667	goto exit;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3668
				3669	perf_output_sample(&handle, &header, data, event);
				3670
				3671	perf_output_end(&handle);
Frederic Weisbecker	927c7a9	2010-07-01 16:20:36 +0200	[diff] [blame]	3672
				3673	exit:
				3674	rcu_read_unlock();
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3675	}
				3676
				3677	/*
				3678	* read event_id
				3679	*/
				3680
				3681	struct perf_read_event {
				3682	struct perf_event_header header;
				3683
				3684	u32 pid;
				3685	u32 tid;
				3686	};
				3687
				3688	static void
				3689	perf_event_read_event(struct perf_event *event,
				3690	struct task_struct *task)
				3691	{
				3692	struct perf_output_handle handle;
				3693	struct perf_read_event read_event = {
				3694	.header = {
				3695	.type = PERF_RECORD_READ,
				3696	.misc = 0,
				3697	.size = sizeof(read_event) + perf_event_read_size(event),
				3698	},
				3699	.pid = perf_event_pid(event, task),
				3700	.tid = perf_event_tid(event, task),
				3701	};
				3702	int ret;
				3703
				3704	ret = perf_output_begin(&handle, event, read_event.header.size, 0, 0);
				3705	if (ret)
				3706	return;
				3707
				3708	perf_output_put(&handle, read_event);
				3709	perf_output_read(&handle, event);
				3710
				3711	perf_output_end(&handle);
				3712	}
				3713
				3714	/*
				3715	* task tracking -- fork/exit
				3716	*
Eric B Munson	3af9e85	2010-05-18 15:30:49 +0100	[diff] [blame]	3717	* enabled by: attr.comm \| attr.mmap \| attr.mmap_data \| attr.task
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3718	*/
				3719
				3720	struct perf_task_event {
				3721	struct task_struct *task;
				3722	struct perf_event_context *task_ctx;
				3723
				3724	struct {
				3725	struct perf_event_header header;
				3726
				3727	u32 pid;
				3728	u32 ppid;
				3729	u32 tid;
				3730	u32 ptid;
				3731	u64 time;
				3732	} event_id;
				3733	};
				3734
				3735	static void perf_event_task_output(struct perf_event *event,
				3736	struct perf_task_event *task_event)
				3737	{
				3738	struct perf_output_handle handle;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3739	struct task_struct *task = task_event->task;
Mike Galbraith	8bb39f9	2010-03-26 11:11:33 +0100	[diff] [blame]	3740	int size, ret;
				3741
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3742	size = task_event->event_id.header.size;
				3743	ret = perf_output_begin(&handle, event, size, 0, 0);
				3744
Peter Zijlstra	ef60777	2010-05-18 10:50:41 +0200	[diff] [blame]	3745	if (ret)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3746	return;
				3747
				3748	task_event->event_id.pid = perf_event_pid(event, task);
				3749	task_event->event_id.ppid = perf_event_pid(event, current);
				3750
				3751	task_event->event_id.tid = perf_event_tid(event, task);
				3752	task_event->event_id.ptid = perf_event_tid(event, current);
				3753
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3754	perf_output_put(&handle, task_event->event_id);
				3755
				3756	perf_output_end(&handle);
				3757	}
				3758
				3759	static int perf_event_task_match(struct perf_event *event)
				3760	{
Peter Zijlstra	6f93d0a	2010-02-14 11:12:04 +0100	[diff] [blame]	3761	if (event->state < PERF_EVENT_STATE_INACTIVE)
Peter Zijlstra	22e1908	2010-01-18 09:12:32 +0100	[diff] [blame]	3762	return 0;
				3763
Peter Zijlstra	5d27c23	2009-12-17 13:16:32 +0100	[diff] [blame]	3764	if (event->cpu != -1 && event->cpu != smp_processor_id())
				3765	return 0;
				3766
Eric B Munson	3af9e85	2010-05-18 15:30:49 +0100	[diff] [blame]	3767	if (event->attr.comm \|\| event->attr.mmap \|\|
				3768	event->attr.mmap_data \|\| event->attr.task)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3769	return 1;
				3770
				3771	return 0;
				3772	}
				3773
				3774	static void perf_event_task_ctx(struct perf_event_context *ctx,
				3775	struct perf_task_event *task_event)
				3776	{
				3777	struct perf_event *event;
				3778
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3779	list_for_each_entry_rcu(event, &ctx->event_list, event_entry) {
				3780	if (perf_event_task_match(event))
				3781	perf_event_task_output(event, task_event);
				3782	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3783	}
				3784
				3785	static void perf_event_task_event(struct perf_task_event *task_event)
				3786	{
				3787	struct perf_cpu_context *cpuctx;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3788	struct perf_event_context *ctx;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	3789	struct pmu *pmu;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3790	int ctxn;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3791
Peter Zijlstra	d6ff86c	2009-11-20 22:19:46 +0100	[diff] [blame]	3792	rcu_read_lock();
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	3793	list_for_each_entry_rcu(pmu, &pmus, entry) {
Peter Zijlstra	41945f6	2010-09-16 19:17:24 +0200	[diff] [blame]	3794	cpuctx = get_cpu_ptr(pmu->pmu_cpu_context);
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	3795	perf_event_task_ctx(&cpuctx->ctx, task_event);
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3796
				3797	ctx = task_event->task_ctx;
				3798	if (!ctx) {
				3799	ctxn = pmu->task_ctx_nr;
				3800	if (ctxn < 0)
Peter Zijlstra	41945f6	2010-09-16 19:17:24 +0200	[diff] [blame]	3801	goto next;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3802	ctx = rcu_dereference(current->perf_event_ctxp[ctxn]);
				3803	}
				3804	if (ctx)
				3805	perf_event_task_ctx(ctx, task_event);
Peter Zijlstra	41945f6	2010-09-16 19:17:24 +0200	[diff] [blame]	3806	next:
				3807	put_cpu_ptr(pmu->pmu_cpu_context);
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	3808	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3809	rcu_read_unlock();
				3810	}
				3811
				3812	static void perf_event_task(struct task_struct *task,
				3813	struct perf_event_context *task_ctx,
				3814	int new)
				3815	{
				3816	struct perf_task_event task_event;
				3817
				3818	if (!atomic_read(&nr_comm_events) &&
				3819	!atomic_read(&nr_mmap_events) &&
				3820	!atomic_read(&nr_task_events))
				3821	return;
				3822
				3823	task_event = (struct perf_task_event){
				3824	.task = task,
				3825	.task_ctx = task_ctx,
				3826	.event_id = {
				3827	.header = {
				3828	.type = new ? PERF_RECORD_FORK : PERF_RECORD_EXIT,
				3829	.misc = 0,
				3830	.size = sizeof(task_event.event_id),
				3831	},
				3832	/* .pid */
				3833	/* .ppid */
				3834	/* .tid */
				3835	/* .ptid */
Peter Zijlstra	6f93d0a	2010-02-14 11:12:04 +0100	[diff] [blame]	3836	.time = perf_clock(),
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3837	},
				3838	};
				3839
				3840	perf_event_task_event(&task_event);
				3841	}
				3842
				3843	void perf_event_fork(struct task_struct *task)
				3844	{
				3845	perf_event_task(task, NULL, 1);
				3846	}
				3847
				3848	/*
				3849	* comm tracking
				3850	*/
				3851
				3852	struct perf_comm_event {
				3853	struct task_struct *task;
				3854	char *comm;
				3855	int comm_size;
				3856
				3857	struct {
				3858	struct perf_event_header header;
				3859
				3860	u32 pid;
				3861	u32 tid;
				3862	} event_id;
				3863	};
				3864
				3865	static void perf_event_comm_output(struct perf_event *event,
				3866	struct perf_comm_event *comm_event)
				3867	{
				3868	struct perf_output_handle handle;
				3869	int size = comm_event->event_id.header.size;
				3870	int ret = perf_output_begin(&handle, event, size, 0, 0);
				3871
				3872	if (ret)
				3873	return;
				3874
				3875	comm_event->event_id.pid = perf_event_pid(event, comm_event->task);
				3876	comm_event->event_id.tid = perf_event_tid(event, comm_event->task);
				3877
				3878	perf_output_put(&handle, comm_event->event_id);
				3879	perf_output_copy(&handle, comm_event->comm,
				3880	comm_event->comm_size);
				3881	perf_output_end(&handle);
				3882	}
				3883
				3884	static int perf_event_comm_match(struct perf_event *event)
				3885	{
Peter Zijlstra	6f93d0a	2010-02-14 11:12:04 +0100	[diff] [blame]	3886	if (event->state < PERF_EVENT_STATE_INACTIVE)
Peter Zijlstra	22e1908	2010-01-18 09:12:32 +0100	[diff] [blame]	3887	return 0;
				3888
Peter Zijlstra	5d27c23	2009-12-17 13:16:32 +0100	[diff] [blame]	3889	if (event->cpu != -1 && event->cpu != smp_processor_id())
				3890	return 0;
				3891
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3892	if (event->attr.comm)
				3893	return 1;
				3894
				3895	return 0;
				3896	}
				3897
				3898	static void perf_event_comm_ctx(struct perf_event_context *ctx,
				3899	struct perf_comm_event *comm_event)
				3900	{
				3901	struct perf_event *event;
				3902
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3903	list_for_each_entry_rcu(event, &ctx->event_list, event_entry) {
				3904	if (perf_event_comm_match(event))
				3905	perf_event_comm_output(event, comm_event);
				3906	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3907	}
				3908
				3909	static void perf_event_comm_event(struct perf_comm_event *comm_event)
				3910	{
				3911	struct perf_cpu_context *cpuctx;
				3912	struct perf_event_context *ctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3913	char comm[TASK_COMM_LEN];
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3914	unsigned int size;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	3915	struct pmu *pmu;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3916	int ctxn;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3917
				3918	memset(comm, 0, sizeof(comm));
Márton Németh	96b02d7	2009-11-21 23:10:15 +0100	[diff] [blame]	3919	strlcpy(comm, comm_event->task->comm, sizeof(comm));
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3920	size = ALIGN(strlen(comm)+1, sizeof(u64));
				3921
				3922	comm_event->comm = comm;
				3923	comm_event->comm_size = size;
				3924
				3925	comm_event->event_id.header.size = sizeof(comm_event->event_id) + size;
				3926
Peter Zijlstra	f6595f3	2009-11-20 22:19:47 +0100	[diff] [blame]	3927	rcu_read_lock();
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	3928	list_for_each_entry_rcu(pmu, &pmus, entry) {
Peter Zijlstra	41945f6	2010-09-16 19:17:24 +0200	[diff] [blame]	3929	cpuctx = get_cpu_ptr(pmu->pmu_cpu_context);
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	3930	perf_event_comm_ctx(&cpuctx->ctx, comm_event);
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3931
				3932	ctxn = pmu->task_ctx_nr;
				3933	if (ctxn < 0)
Peter Zijlstra	41945f6	2010-09-16 19:17:24 +0200	[diff] [blame]	3934	goto next;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3935
				3936	ctx = rcu_dereference(current->perf_event_ctxp[ctxn]);
				3937	if (ctx)
				3938	perf_event_comm_ctx(ctx, comm_event);
Peter Zijlstra	41945f6	2010-09-16 19:17:24 +0200	[diff] [blame]	3939	next:
				3940	put_cpu_ptr(pmu->pmu_cpu_context);
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	3941	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3942	rcu_read_unlock();
				3943	}
				3944
				3945	void perf_event_comm(struct task_struct *task)
				3946	{
				3947	struct perf_comm_event comm_event;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3948	struct perf_event_context *ctx;
				3949	int ctxn;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3950
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	3951	for_each_task_context_nr(ctxn) {
				3952	ctx = task->perf_event_ctxp[ctxn];
				3953	if (!ctx)
				3954	continue;
				3955
				3956	perf_event_enable_on_exec(ctx);
				3957	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	3958
				3959	if (!atomic_read(&nr_comm_events))
				3960	return;
				3961
				3962	comm_event = (struct perf_comm_event){
				3963	.task = task,
				3964	/* .comm */
				3965	/* .comm_size */
				3966	.event_id = {
				3967	.header = {
				3968	.type = PERF_RECORD_COMM,
				3969	.misc = 0,
				3970	/* .size */
				3971	},
				3972	/* .pid */
				3973	/* .tid */
				3974	},
				3975	};
				3976
				3977	perf_event_comm_event(&comm_event);
				3978	}
				3979
				3980	/*
				3981	* mmap tracking
				3982	*/
				3983
				3984	struct perf_mmap_event {
				3985	struct vm_area_struct *vma;
				3986
				3987	const char *file_name;
				3988	int file_size;
				3989
				3990	struct {
				3991	struct perf_event_header header;
				3992
				3993	u32 pid;
				3994	u32 tid;
				3995	u64 start;
				3996	u64 len;
				3997	u64 pgoff;
				3998	} event_id;
				3999	};
				4000
				4001	static void perf_event_mmap_output(struct perf_event *event,
				4002	struct perf_mmap_event *mmap_event)
				4003	{
				4004	struct perf_output_handle handle;
				4005	int size = mmap_event->event_id.header.size;
				4006	int ret = perf_output_begin(&handle, event, size, 0, 0);
				4007
				4008	if (ret)
				4009	return;
				4010
				4011	mmap_event->event_id.pid = perf_event_pid(event, current);
				4012	mmap_event->event_id.tid = perf_event_tid(event, current);
				4013
				4014	perf_output_put(&handle, mmap_event->event_id);
				4015	perf_output_copy(&handle, mmap_event->file_name,
				4016	mmap_event->file_size);
				4017	perf_output_end(&handle);
				4018	}
				4019
				4020	static int perf_event_mmap_match(struct perf_event *event,
Eric B Munson	3af9e85	2010-05-18 15:30:49 +0100	[diff] [blame]	4021	struct perf_mmap_event *mmap_event,
				4022	int executable)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4023	{
Peter Zijlstra	6f93d0a	2010-02-14 11:12:04 +0100	[diff] [blame]	4024	if (event->state < PERF_EVENT_STATE_INACTIVE)
Peter Zijlstra	22e1908	2010-01-18 09:12:32 +0100	[diff] [blame]	4025	return 0;
				4026
Peter Zijlstra	5d27c23	2009-12-17 13:16:32 +0100	[diff] [blame]	4027	if (event->cpu != -1 && event->cpu != smp_processor_id())
				4028	return 0;
				4029
Eric B Munson	3af9e85	2010-05-18 15:30:49 +0100	[diff] [blame]	4030	if ((!executable && event->attr.mmap_data) \|\|
				4031	(executable && event->attr.mmap))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4032	return 1;
				4033
				4034	return 0;
				4035	}
				4036
				4037	static void perf_event_mmap_ctx(struct perf_event_context *ctx,
Eric B Munson	3af9e85	2010-05-18 15:30:49 +0100	[diff] [blame]	4038	struct perf_mmap_event *mmap_event,
				4039	int executable)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4040	{
				4041	struct perf_event *event;
				4042
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4043	list_for_each_entry_rcu(event, &ctx->event_list, event_entry) {
Eric B Munson	3af9e85	2010-05-18 15:30:49 +0100	[diff] [blame]	4044	if (perf_event_mmap_match(event, mmap_event, executable))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4045	perf_event_mmap_output(event, mmap_event);
				4046	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4047	}
				4048
				4049	static void perf_event_mmap_event(struct perf_mmap_event *mmap_event)
				4050	{
				4051	struct perf_cpu_context *cpuctx;
				4052	struct perf_event_context *ctx;
				4053	struct vm_area_struct *vma = mmap_event->vma;
				4054	struct file *file = vma->vm_file;
				4055	unsigned int size;
				4056	char tmp[16];
				4057	char *buf = NULL;
				4058	const char *name;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	4059	struct pmu *pmu;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	4060	int ctxn;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4061
				4062	memset(tmp, 0, sizeof(tmp));
				4063
				4064	if (file) {
				4065	/*
				4066	* d_path works from the end of the buffer backwards, so we
				4067	* need to add enough zero bytes after the string to handle
				4068	* the 64bit alignment we do later.
				4069	*/
				4070	buf = kzalloc(PATH_MAX + sizeof(u64), GFP_KERNEL);
				4071	if (!buf) {
				4072	name = strncpy(tmp, "//enomem", sizeof(tmp));
				4073	goto got_name;
				4074	}
				4075	name = d_path(&file->f_path, buf, PATH_MAX);
				4076	if (IS_ERR(name)) {
				4077	name = strncpy(tmp, "//toolong", sizeof(tmp));
				4078	goto got_name;
				4079	}
				4080	} else {
				4081	if (arch_vma_name(mmap_event->vma)) {
				4082	name = strncpy(tmp, arch_vma_name(mmap_event->vma),
				4083	sizeof(tmp));
				4084	goto got_name;
				4085	}
				4086
				4087	if (!vma->vm_mm) {
				4088	name = strncpy(tmp, "[vdso]", sizeof(tmp));
				4089	goto got_name;
Eric B Munson	3af9e85	2010-05-18 15:30:49 +0100	[diff] [blame]	4090	} else if (vma->vm_start <= vma->vm_mm->start_brk &&
				4091	vma->vm_end >= vma->vm_mm->brk) {
				4092	name = strncpy(tmp, "[heap]", sizeof(tmp));
				4093	goto got_name;
				4094	} else if (vma->vm_start <= vma->vm_mm->start_stack &&
				4095	vma->vm_end >= vma->vm_mm->start_stack) {
				4096	name = strncpy(tmp, "[stack]", sizeof(tmp));
				4097	goto got_name;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4098	}
				4099
				4100	name = strncpy(tmp, "//anon", sizeof(tmp));
				4101	goto got_name;
				4102	}
				4103
				4104	got_name:
				4105	size = ALIGN(strlen(name)+1, sizeof(u64));
				4106
				4107	mmap_event->file_name = name;
				4108	mmap_event->file_size = size;
				4109
				4110	mmap_event->event_id.header.size = sizeof(mmap_event->event_id) + size;
				4111
Peter Zijlstra	f6d9dd2	2009-11-20 22:19:48 +0100	[diff] [blame]	4112	rcu_read_lock();
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	4113	list_for_each_entry_rcu(pmu, &pmus, entry) {
Peter Zijlstra	41945f6	2010-09-16 19:17:24 +0200	[diff] [blame]	4114	cpuctx = get_cpu_ptr(pmu->pmu_cpu_context);
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	4115	perf_event_mmap_ctx(&cpuctx->ctx, mmap_event,
				4116	vma->vm_flags & VM_EXEC);
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	4117
				4118	ctxn = pmu->task_ctx_nr;
				4119	if (ctxn < 0)
Peter Zijlstra	41945f6	2010-09-16 19:17:24 +0200	[diff] [blame]	4120	goto next;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	4121
				4122	ctx = rcu_dereference(current->perf_event_ctxp[ctxn]);
				4123	if (ctx) {
				4124	perf_event_mmap_ctx(ctx, mmap_event,
				4125	vma->vm_flags & VM_EXEC);
				4126	}
Peter Zijlstra	41945f6	2010-09-16 19:17:24 +0200	[diff] [blame]	4127	next:
				4128	put_cpu_ptr(pmu->pmu_cpu_context);
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	4129	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4130	rcu_read_unlock();
				4131
				4132	kfree(buf);
				4133	}
				4134
Eric B Munson	3af9e85	2010-05-18 15:30:49 +0100	[diff] [blame]	4135	void perf_event_mmap(struct vm_area_struct *vma)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4136	{
				4137	struct perf_mmap_event mmap_event;
				4138
				4139	if (!atomic_read(&nr_mmap_events))
				4140	return;
				4141
				4142	mmap_event = (struct perf_mmap_event){
				4143	.vma = vma,
				4144	/* .file_name */
				4145	/* .file_size */
				4146	.event_id = {
				4147	.header = {
				4148	.type = PERF_RECORD_MMAP,
Zhang, Yanmin	39447b3	2010-04-19 13:32:41 +0800	[diff] [blame]	4149	.misc = PERF_RECORD_MISC_USER,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4150	/* .size */
				4151	},
				4152	/* .pid */
				4153	/* .tid */
				4154	.start = vma->vm_start,
				4155	.len = vma->vm_end - vma->vm_start,
Peter Zijlstra	3a0304e	2010-02-26 10:33:41 +0100	[diff] [blame]	4156	.pgoff = (u64)vma->vm_pgoff << PAGE_SHIFT,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4157	},
				4158	};
				4159
				4160	perf_event_mmap_event(&mmap_event);
				4161	}
				4162
				4163	/*
				4164	* IRQ throttle logging
				4165	*/
				4166
				4167	static void perf_log_throttle(struct perf_event *event, int enable)
				4168	{
				4169	struct perf_output_handle handle;
				4170	int ret;
				4171
				4172	struct {
				4173	struct perf_event_header header;
				4174	u64 time;
				4175	u64 id;
				4176	u64 stream_id;
				4177	} throttle_event = {
				4178	.header = {
				4179	.type = PERF_RECORD_THROTTLE,
				4180	.misc = 0,
				4181	.size = sizeof(throttle_event),
				4182	},
				4183	.time = perf_clock(),
				4184	.id = primary_event_id(event),
				4185	.stream_id = event->id,
				4186	};
				4187
				4188	if (enable)
				4189	throttle_event.header.type = PERF_RECORD_UNTHROTTLE;
				4190
				4191	ret = perf_output_begin(&handle, event, sizeof(throttle_event), 1, 0);
				4192	if (ret)
				4193	return;
				4194
				4195	perf_output_put(&handle, throttle_event);
				4196	perf_output_end(&handle);
				4197	}
				4198
				4199	/*
				4200	* Generic event overflow handling, sampling.
				4201	*/
				4202
				4203	static int __perf_event_overflow(struct perf_event *event, int nmi,
				4204	int throttle, struct perf_sample_data *data,
				4205	struct pt_regs *regs)
				4206	{
				4207	int events = atomic_read(&event->event_limit);
				4208	struct hw_perf_event *hwc = &event->hw;
				4209	int ret = 0;
				4210
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4211	if (!throttle) {
				4212	hwc->interrupts++;
				4213	} else {
				4214	if (hwc->interrupts != MAX_INTERRUPTS) {
				4215	hwc->interrupts++;
				4216	if (HZ * hwc->interrupts >
				4217	(u64)sysctl_perf_event_sample_rate) {
				4218	hwc->interrupts = MAX_INTERRUPTS;
				4219	perf_log_throttle(event, 0);
				4220	ret = 1;
				4221	}
				4222	} else {
				4223	/*
				4224	* Keep re-disabling events even though on the previous
				4225	* pass we disabled it - just in case we raced with a
				4226	* sched-in and the event got enabled again:
				4227	*/
				4228	ret = 1;
				4229	}
				4230	}
				4231
				4232	if (event->attr.freq) {
				4233	u64 now = perf_clock();
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	4234	s64 delta = now - hwc->freq_time_stamp;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4235
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	4236	hwc->freq_time_stamp = now;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4237
Peter Zijlstra	abd5071	2010-01-26 18:50:16 +0100	[diff] [blame]	4238	if (delta > 0 && delta < 2*TICK_NSEC)
				4239	perf_adjust_period(event, delta, hwc->last_period);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4240	}
				4241
				4242	/*
				4243	* XXX event_limit might not quite work as expected on inherited
				4244	* events
				4245	*/
				4246
				4247	event->pending_kill = POLL_IN;
				4248	if (events && atomic_dec_and_test(&event->event_limit)) {
				4249	ret = 1;
				4250	event->pending_kill = POLL_HUP;
				4251	if (nmi) {
				4252	event->pending_disable = 1;
Peter Zijlstra	e360adb	2010-10-14 14:01:34 +0800	[diff] [blame]	4253	irq_work_queue(&event->pending);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4254	} else
				4255	perf_event_disable(event);
				4256	}
				4257
Peter Zijlstra	453f19e	2009-11-20 22:19:43 +0100	[diff] [blame]	4258	if (event->overflow_handler)
				4259	event->overflow_handler(event, nmi, data, regs);
				4260	else
				4261	perf_event_output(event, nmi, data, regs);
				4262
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4263	return ret;
				4264	}
				4265
				4266	int perf_event_overflow(struct perf_event *event, int nmi,
				4267	struct perf_sample_data *data,
				4268	struct pt_regs *regs)
				4269	{
				4270	return __perf_event_overflow(event, nmi, 1, data, regs);
				4271	}
				4272
				4273	/*
				4274	* Generic software event infrastructure
				4275	*/
				4276
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	4277	struct swevent_htable {
				4278	struct swevent_hlist *swevent_hlist;
				4279	struct mutex hlist_mutex;
				4280	int hlist_refcount;
				4281
				4282	/* Recursion avoidance in each contexts */
				4283	int recursion[PERF_NR_CONTEXTS];
				4284	};
				4285
				4286	static DEFINE_PER_CPU(struct swevent_htable, swevent_htable);
				4287
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4288	/*
				4289	* We directly increment event->count and keep a second value in
				4290	* event->hw.period_left to count intervals. This period event
				4291	* is kept in the range [-sample_period, 0] so that we can use the
				4292	* sign as trigger.
				4293	*/
				4294
				4295	static u64 perf_swevent_set_period(struct perf_event *event)
				4296	{
				4297	struct hw_perf_event *hwc = &event->hw;
				4298	u64 period = hwc->last_period;
				4299	u64 nr, offset;
				4300	s64 old, val;
				4301
				4302	hwc->last_period = hwc->sample_period;
				4303
				4304	again:
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	4305	old = val = local64_read(&hwc->period_left);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4306	if (val < 0)
				4307	return 0;
				4308
				4309	nr = div64_u64(period + val, period);
				4310	offset = nr * period;
				4311	val -= offset;
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	4312	if (local64_cmpxchg(&hwc->period_left, old, val) != old)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4313	goto again;
				4314
				4315	return nr;
				4316	}
				4317
Peter Zijlstra	0cff784	2009-11-20 22:19:44 +0100	[diff] [blame]	4318	static void perf_swevent_overflow(struct perf_event *event, u64 overflow,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4319	int nmi, struct perf_sample_data *data,
				4320	struct pt_regs *regs)
				4321	{
				4322	struct hw_perf_event *hwc = &event->hw;
				4323	int throttle = 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4324
				4325	data->period = event->hw.last_period;
Peter Zijlstra	0cff784	2009-11-20 22:19:44 +0100	[diff] [blame]	4326	if (!overflow)
				4327	overflow = perf_swevent_set_period(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4328
				4329	if (hwc->interrupts == MAX_INTERRUPTS)
				4330	return;
				4331
				4332	for (; overflow; overflow--) {
				4333	if (__perf_event_overflow(event, nmi, throttle,
				4334	data, regs)) {
				4335	/*
				4336	* We inhibit the overflow from happening when
				4337	* hwc->interrupts == MAX_INTERRUPTS.
				4338	*/
				4339	break;
				4340	}
				4341	throttle = 1;
				4342	}
				4343	}
				4344
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	4345	static void perf_swevent_event(struct perf_event *event, u64 nr,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4346	int nmi, struct perf_sample_data *data,
				4347	struct pt_regs *regs)
				4348	{
				4349	struct hw_perf_event *hwc = &event->hw;
				4350
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	4351	local64_add(nr, &event->count);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4352
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4353	if (!regs)
				4354	return;
				4355
Peter Zijlstra	0cff784	2009-11-20 22:19:44 +0100	[diff] [blame]	4356	if (!hwc->sample_period)
				4357	return;
				4358
				4359	if (nr == 1 && hwc->sample_period == 1 && !event->attr.freq)
				4360	return perf_swevent_overflow(event, 1, nmi, data, regs);
				4361
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	4362	if (local64_add_negative(nr, &hwc->period_left))
Peter Zijlstra	0cff784	2009-11-20 22:19:44 +0100	[diff] [blame]	4363	return;
				4364
				4365	perf_swevent_overflow(event, 0, nmi, data, regs);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4366	}
				4367
Frederic Weisbecker	f5ffe02	2009-11-23 15:42:34 +0100	[diff] [blame]	4368	static int perf_exclude_event(struct perf_event *event,
				4369	struct pt_regs *regs)
				4370	{
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	4371	if (event->hw.state & PERF_HES_STOPPED)
				4372	return 0;
				4373
Frederic Weisbecker	f5ffe02	2009-11-23 15:42:34 +0100	[diff] [blame]	4374	if (regs) {
				4375	if (event->attr.exclude_user && user_mode(regs))
				4376	return 1;
				4377
				4378	if (event->attr.exclude_kernel && !user_mode(regs))
				4379	return 1;
				4380	}
				4381
				4382	return 0;
				4383	}
				4384
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4385	static int perf_swevent_match(struct perf_event *event,
				4386	enum perf_type_id type,
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	4387	u32 event_id,
				4388	struct perf_sample_data *data,
				4389	struct pt_regs *regs)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4390	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4391	if (event->attr.type != type)
				4392	return 0;
Frederic Weisbecker	f5ffe02	2009-11-23 15:42:34 +0100	[diff] [blame]	4393
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4394	if (event->attr.config != event_id)
				4395	return 0;
				4396
Frederic Weisbecker	f5ffe02	2009-11-23 15:42:34 +0100	[diff] [blame]	4397	if (perf_exclude_event(event, regs))
				4398	return 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4399
				4400	return 1;
				4401	}
				4402
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	4403	static inline u64 swevent_hash(u64 type, u32 event_id)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4404	{
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	4405	u64 val = event_id \| (type << 32);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4406
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	4407	return hash_64(val, SWEVENT_HLIST_BITS);
				4408	}
				4409
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	4410	static inline struct hlist_head *
				4411	__find_swevent_head(struct swevent_hlist *hlist, u64 type, u32 event_id)
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	4412	{
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	4413	u64 hash = swevent_hash(type, event_id);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	4414
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	4415	return &hlist->heads[hash];
				4416	}
				4417
				4418	/* For the read side: events when they trigger */
				4419	static inline struct hlist_head *
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	4420	find_swevent_head_rcu(struct swevent_htable *swhash, u64 type, u32 event_id)
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	4421	{
				4422	struct swevent_hlist *hlist;
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	4423
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	4424	hlist = rcu_dereference(swhash->swevent_hlist);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	4425	if (!hlist)
				4426	return NULL;
				4427
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	4428	return __find_swevent_head(hlist, type, event_id);
				4429	}
				4430
				4431	/* For the event head insertion and removal in the hlist */
				4432	static inline struct hlist_head *
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	4433	find_swevent_head(struct swevent_htable swhash, struct perf_event event)
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	4434	{
				4435	struct swevent_hlist *hlist;
				4436	u32 event_id = event->attr.config;
				4437	u64 type = event->attr.type;
				4438
				4439	/*
				4440	* Event scheduling is always serialized against hlist allocation
				4441	* and release. Which makes the protected version suitable here.
				4442	* The context lock guarantees that.
				4443	*/
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	4444	hlist = rcu_dereference_protected(swhash->swevent_hlist,
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	4445	lockdep_is_held(&event->ctx->lock));
				4446	if (!hlist)
				4447	return NULL;
				4448
				4449	return __find_swevent_head(hlist, type, event_id);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	4450	}
				4451
				4452	static void do_perf_sw_event(enum perf_type_id type, u32 event_id,
				4453	u64 nr, int nmi,
				4454	struct perf_sample_data *data,
				4455	struct pt_regs *regs)
				4456	{
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	4457	struct swevent_htable *swhash = &__get_cpu_var(swevent_htable);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	4458	struct perf_event *event;
				4459	struct hlist_node *node;
				4460	struct hlist_head *head;
				4461
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	4462	rcu_read_lock();
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	4463	head = find_swevent_head_rcu(swhash, type, event_id);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	4464	if (!head)
				4465	goto end;
				4466
				4467	hlist_for_each_entry_rcu(event, node, head, hlist_entry) {
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	4468	if (perf_swevent_match(event, type, event_id, data, regs))
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	4469	perf_swevent_event(event, nr, nmi, data, regs);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4470	}
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	4471	end:
				4472	rcu_read_unlock();
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4473	}
				4474
Peter Zijlstra	4ed7c92	2009-11-23 11:37:29 +0100	[diff] [blame]	4475	int perf_swevent_get_recursion_context(void)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4476	{
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	4477	struct swevent_htable *swhash = &__get_cpu_var(swevent_htable);
Frederic Weisbecker	ce71b9d	2009-11-22 05:26:55 +0100	[diff] [blame]	4478
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	4479	return get_recursion_context(swhash->recursion);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4480	}
Ingo Molnar	645e8cc	2009-11-22 12:20:19 +0100	[diff] [blame]	4481	EXPORT_SYMBOL_GPL(perf_swevent_get_recursion_context);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4482
Peter Zijlstra	ecc55f8	2010-05-21 15:11:34 +0200	[diff] [blame]	4483	void inline perf_swevent_put_recursion_context(int rctx)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4484	{
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	4485	struct swevent_htable *swhash = &__get_cpu_var(swevent_htable);
Frederic Weisbecker	927c7a9	2010-07-01 16:20:36 +0200	[diff] [blame]	4486
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	4487	put_recursion_context(swhash->recursion, rctx);
Frederic Weisbecker	ce71b9d	2009-11-22 05:26:55 +0100	[diff] [blame]	4488	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4489
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4490	void __perf_sw_event(u32 event_id, u64 nr, int nmi,
				4491	struct pt_regs *regs, u64 addr)
				4492	{
Ingo Molnar	a4234bf	2009-11-23 10:57:59 +0100	[diff] [blame]	4493	struct perf_sample_data data;
Peter Zijlstra	4ed7c92	2009-11-23 11:37:29 +0100	[diff] [blame]	4494	int rctx;
				4495
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	4496	preempt_disable_notrace();
Peter Zijlstra	4ed7c92	2009-11-23 11:37:29 +0100	[diff] [blame]	4497	rctx = perf_swevent_get_recursion_context();
				4498	if (rctx < 0)
				4499	return;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4500
Peter Zijlstra	dc1d628	2010-03-03 15:55:04 +0100	[diff] [blame]	4501	perf_sample_data_init(&data, addr);
Ingo Molnar	a4234bf	2009-11-23 10:57:59 +0100	[diff] [blame]	4502
				4503	do_perf_sw_event(PERF_TYPE_SOFTWARE, event_id, nr, nmi, &data, regs);
Peter Zijlstra	4ed7c92	2009-11-23 11:37:29 +0100	[diff] [blame]	4504
				4505	perf_swevent_put_recursion_context(rctx);
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	4506	preempt_enable_notrace();
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4507	}
				4508
				4509	static void perf_swevent_read(struct perf_event *event)
				4510	{
				4511	}
				4512
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	4513	static int perf_swevent_add(struct perf_event *event, int flags)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4514	{
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	4515	struct swevent_htable *swhash = &__get_cpu_var(swevent_htable);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4516	struct hw_perf_event *hwc = &event->hw;
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	4517	struct hlist_head *head;
				4518
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4519	if (hwc->sample_period) {
				4520	hwc->last_period = hwc->sample_period;
				4521	perf_swevent_set_period(event);
				4522	}
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	4523
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	4524	hwc->state = !(flags & PERF_EF_START);
				4525
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	4526	head = find_swevent_head(swhash, event);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	4527	if (WARN_ON_ONCE(!head))
				4528	return -EINVAL;
				4529
				4530	hlist_add_head_rcu(&event->hlist_entry, head);
				4531
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4532	return 0;
				4533	}
				4534
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	4535	static void perf_swevent_del(struct perf_event *event, int flags)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4536	{
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	4537	hlist_del_rcu(&event->hlist_entry);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4538	}
				4539
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	4540	static void perf_swevent_start(struct perf_event *event, int flags)
Peter Zijlstra	c6df8d5	2010-06-03 11:21:20 +0200	[diff] [blame]	4541	{
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	4542	event->hw.state = 0;
Peter Zijlstra	c6df8d5	2010-06-03 11:21:20 +0200	[diff] [blame]	4543	}
				4544
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	4545	static void perf_swevent_stop(struct perf_event *event, int flags)
Peter Zijlstra	c6df8d5	2010-06-03 11:21:20 +0200	[diff] [blame]	4546	{
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	4547	event->hw.state = PERF_HES_STOPPED;
Peter Zijlstra	c6df8d5	2010-06-03 11:21:20 +0200	[diff] [blame]	4548	}
				4549
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	4550	/* Deref the hlist from the update side */
				4551	static inline struct swevent_hlist *
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	4552	swevent_hlist_deref(struct swevent_htable *swhash)
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	4553	{
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	4554	return rcu_dereference_protected(swhash->swevent_hlist,
				4555	lockdep_is_held(&swhash->hlist_mutex));
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	4556	}
				4557
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	4558	static void swevent_hlist_release_rcu(struct rcu_head *rcu_head)
				4559	{
				4560	struct swevent_hlist *hlist;
				4561
				4562	hlist = container_of(rcu_head, struct swevent_hlist, rcu_head);
				4563	kfree(hlist);
				4564	}
				4565
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	4566	static void swevent_hlist_release(struct swevent_htable *swhash)
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	4567	{
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	4568	struct swevent_hlist *hlist = swevent_hlist_deref(swhash);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	4569
Frederic Weisbecker	49f135e	2010-05-20 10:17:46 +0200	[diff] [blame]	4570	if (!hlist)
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	4571	return;
				4572
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	4573	rcu_assign_pointer(swhash->swevent_hlist, NULL);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	4574	call_rcu(&hlist->rcu_head, swevent_hlist_release_rcu);
				4575	}
				4576
				4577	static void swevent_hlist_put_cpu(struct perf_event *event, int cpu)
				4578	{
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	4579	struct swevent_htable *swhash = &per_cpu(swevent_htable, cpu);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	4580
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	4581	mutex_lock(&swhash->hlist_mutex);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	4582
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	4583	if (!--swhash->hlist_refcount)
				4584	swevent_hlist_release(swhash);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	4585
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	4586	mutex_unlock(&swhash->hlist_mutex);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	4587	}
				4588
				4589	static void swevent_hlist_put(struct perf_event *event)
				4590	{
				4591	int cpu;
				4592
				4593	if (event->cpu != -1) {
				4594	swevent_hlist_put_cpu(event, event->cpu);
				4595	return;
				4596	}
				4597
				4598	for_each_possible_cpu(cpu)
				4599	swevent_hlist_put_cpu(event, cpu);
				4600	}
				4601
				4602	static int swevent_hlist_get_cpu(struct perf_event *event, int cpu)
				4603	{
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	4604	struct swevent_htable *swhash = &per_cpu(swevent_htable, cpu);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	4605	int err = 0;
				4606
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	4607	mutex_lock(&swhash->hlist_mutex);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	4608
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	4609	if (!swevent_hlist_deref(swhash) && cpu_online(cpu)) {
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	4610	struct swevent_hlist *hlist;
				4611
				4612	hlist = kzalloc(sizeof(*hlist), GFP_KERNEL);
				4613	if (!hlist) {
				4614	err = -ENOMEM;
				4615	goto exit;
				4616	}
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	4617	rcu_assign_pointer(swhash->swevent_hlist, hlist);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	4618	}
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	4619	swhash->hlist_refcount++;
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	4620	exit:
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	4621	mutex_unlock(&swhash->hlist_mutex);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	4622
				4623	return err;
				4624	}
				4625
				4626	static int swevent_hlist_get(struct perf_event *event)
				4627	{
				4628	int err;
				4629	int cpu, failed_cpu;
				4630
				4631	if (event->cpu != -1)
				4632	return swevent_hlist_get_cpu(event, event->cpu);
				4633
				4634	get_online_cpus();
				4635	for_each_possible_cpu(cpu) {
				4636	err = swevent_hlist_get_cpu(event, cpu);
				4637	if (err) {
				4638	failed_cpu = cpu;
				4639	goto fail;
				4640	}
				4641	}
				4642	put_online_cpus();
				4643
				4644	return 0;
Peter Zijlstra	9ed6060	2010-06-11 17:36:35 +0200	[diff] [blame]	4645	fail:
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	4646	for_each_possible_cpu(cpu) {
				4647	if (cpu == failed_cpu)
				4648	break;
				4649	swevent_hlist_put_cpu(event, cpu);
				4650	}
				4651
				4652	put_online_cpus();
				4653	return err;
				4654	}
				4655
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4656	atomic_t perf_swevent_enabled[PERF_COUNT_SW_MAX];
Frederic Weisbecker	95476b6	2010-04-14 23:42:18 +0200	[diff] [blame]	4657
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4658	static void sw_perf_event_destroy(struct perf_event *event)
				4659	{
				4660	u64 event_id = event->attr.config;
				4661
				4662	WARN_ON(event->parent);
				4663
Peter Zijlstra	7e54a5a	2010-10-14 22:32:45 +0200	[diff] [blame]	4664	jump_label_dec(&perf_swevent_enabled[event_id]);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4665	swevent_hlist_put(event);
				4666	}
				4667
				4668	static int perf_swevent_init(struct perf_event *event)
				4669	{
				4670	int event_id = event->attr.config;
				4671
				4672	if (event->attr.type != PERF_TYPE_SOFTWARE)
				4673	return -ENOENT;
				4674
				4675	switch (event_id) {
				4676	case PERF_COUNT_SW_CPU_CLOCK:
				4677	case PERF_COUNT_SW_TASK_CLOCK:
				4678	return -ENOENT;
				4679
				4680	default:
				4681	break;
				4682	}
				4683
				4684	if (event_id > PERF_COUNT_SW_MAX)
				4685	return -ENOENT;
				4686
				4687	if (!event->parent) {
				4688	int err;
				4689
				4690	err = swevent_hlist_get(event);
				4691	if (err)
				4692	return err;
				4693
Peter Zijlstra	7e54a5a	2010-10-14 22:32:45 +0200	[diff] [blame]	4694	jump_label_inc(&perf_swevent_enabled[event_id]);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4695	event->destroy = sw_perf_event_destroy;
				4696	}
				4697
				4698	return 0;
				4699	}
				4700
				4701	static struct pmu perf_swevent = {
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	4702	.task_ctx_nr = perf_sw_context,
				4703
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4704	.event_init = perf_swevent_init,
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	4705	.add = perf_swevent_add,
				4706	.del = perf_swevent_del,
				4707	.start = perf_swevent_start,
				4708	.stop = perf_swevent_stop,
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	4709	.read = perf_swevent_read,
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	4710	};
Frederic Weisbecker	95476b6	2010-04-14 23:42:18 +0200	[diff] [blame]	4711
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4712	#ifdef CONFIG_EVENT_TRACING
				4713
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	4714	static int perf_tp_filter_match(struct perf_event *event,
Frederic Weisbecker	95476b6	2010-04-14 23:42:18 +0200	[diff] [blame]	4715	struct perf_sample_data *data)
				4716	{
				4717	void *record = data->raw->data;
				4718
				4719	if (likely(!event->filter) \|\| filter_match_preds(event->filter, record))
				4720	return 1;
				4721	return 0;
				4722	}
				4723
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	4724	static int perf_tp_event_match(struct perf_event *event,
				4725	struct perf_sample_data *data,
				4726	struct pt_regs *regs)
				4727	{
Peter Zijlstra	580d607	2010-05-20 20:54:31 +0200	[diff] [blame]	4728	/*
				4729	* All tracepoints are from kernel-space.
				4730	*/
				4731	if (event->attr.exclude_kernel)
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	4732	return 0;
				4733
				4734	if (!perf_tp_filter_match(event, data))
				4735	return 0;
				4736
				4737	return 1;
				4738	}
				4739
				4740	void perf_tp_event(u64 addr, u64 count, void *record, int entry_size,
Peter Zijlstra	ecc55f8	2010-05-21 15:11:34 +0200	[diff] [blame]	4741	struct pt_regs regs, struct hlist_head head, int rctx)
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	4742	{
				4743	struct perf_sample_data data;
				4744	struct perf_event *event;
				4745	struct hlist_node *node;
				4746
				4747	struct perf_raw_record raw = {
				4748	.size = entry_size,
				4749	.data = record,
				4750	};
				4751
				4752	perf_sample_data_init(&data, addr);
				4753	data.raw = &raw;
				4754
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	4755	hlist_for_each_entry_rcu(event, node, head, hlist_entry) {
				4756	if (perf_tp_event_match(event, &data, regs))
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	4757	perf_swevent_event(event, count, 1, &data, regs);
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	4758	}
Peter Zijlstra	ecc55f8	2010-05-21 15:11:34 +0200	[diff] [blame]	4759
				4760	perf_swevent_put_recursion_context(rctx);
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	4761	}
				4762	EXPORT_SYMBOL_GPL(perf_tp_event);
				4763
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4764	static void tp_perf_event_destroy(struct perf_event *event)
				4765	{
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	4766	perf_trace_destroy(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4767	}
				4768
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4769	static int perf_tp_event_init(struct perf_event *event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4770	{
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	4771	int err;
				4772
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4773	if (event->attr.type != PERF_TYPE_TRACEPOINT)
				4774	return -ENOENT;
				4775
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4776	/*
				4777	* Raw tracepoint data is a severe data leak, only allow root to
				4778	* have these.
				4779	*/
				4780	if ((event->attr.sample_type & PERF_SAMPLE_RAW) &&
				4781	perf_paranoid_tracepoint_raw() &&
				4782	!capable(CAP_SYS_ADMIN))
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4783	return -EPERM;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4784
Peter Zijlstra	1c024eca	2010-05-19 14:02:22 +0200	[diff] [blame]	4785	err = perf_trace_init(event);
				4786	if (err)
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4787	return err;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4788
				4789	event->destroy = tp_perf_event_destroy;
				4790
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4791	return 0;
				4792	}
				4793
				4794	static struct pmu perf_tracepoint = {
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	4795	.task_ctx_nr = perf_sw_context,
				4796
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4797	.event_init = perf_tp_event_init,
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	4798	.add = perf_trace_add,
				4799	.del = perf_trace_del,
				4800	.start = perf_swevent_start,
				4801	.stop = perf_swevent_stop,
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4802	.read = perf_swevent_read,
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4803	};
				4804
				4805	static inline void perf_tp_register(void)
				4806	{
				4807	perf_pmu_register(&perf_tracepoint);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4808	}
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	4809
				4810	static int perf_event_set_filter(struct perf_event event, void __user arg)
				4811	{
				4812	char *filter_str;
				4813	int ret;
				4814
				4815	if (event->attr.type != PERF_TYPE_TRACEPOINT)
				4816	return -EINVAL;
				4817
				4818	filter_str = strndup_user(arg, PAGE_SIZE);
				4819	if (IS_ERR(filter_str))
				4820	return PTR_ERR(filter_str);
				4821
				4822	ret = ftrace_profile_set_filter(event, event->attr.config, filter_str);
				4823
				4824	kfree(filter_str);
				4825	return ret;
				4826	}
				4827
				4828	static void perf_event_free_filter(struct perf_event *event)
				4829	{
				4830	ftrace_profile_free_filter(event);
				4831	}
				4832
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4833	#else
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	4834
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4835	static inline void perf_tp_register(void)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4836	{
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4837	}
Li Zefan	6fb2915	2009-10-15 11:21:42 +0800	[diff] [blame]	4838
				4839	static int perf_event_set_filter(struct perf_event event, void __user arg)
				4840	{
				4841	return -ENOENT;
				4842	}
				4843
				4844	static void perf_event_free_filter(struct perf_event *event)
				4845	{
				4846	}
				4847
Li Zefan	07b139c	2009-12-21 14:27:35 +0800	[diff] [blame]	4848	#endif /* CONFIG_EVENT_TRACING */
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4849
Frederic Weisbecker	24f1e32c	2009-09-09 19:22:48 +0200	[diff] [blame]	4850	#ifdef CONFIG_HAVE_HW_BREAKPOINT
Frederic Weisbecker	f5ffe02	2009-11-23 15:42:34 +0100	[diff] [blame]	4851	void perf_bp_event(struct perf_event bp, void data)
Frederic Weisbecker	24f1e32c	2009-09-09 19:22:48 +0200	[diff] [blame]	4852	{
Frederic Weisbecker	f5ffe02	2009-11-23 15:42:34 +0100	[diff] [blame]	4853	struct perf_sample_data sample;
				4854	struct pt_regs *regs = data;
				4855
Peter Zijlstra	dc1d628	2010-03-03 15:55:04 +0100	[diff] [blame]	4856	perf_sample_data_init(&sample, bp->attr.bp_addr);
Frederic Weisbecker	f5ffe02	2009-11-23 15:42:34 +0100	[diff] [blame]	4857
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	4858	if (!bp->hw.state && !perf_exclude_event(bp, regs))
				4859	perf_swevent_event(bp, 1, 1, &sample, regs);
Frederic Weisbecker	24f1e32c	2009-09-09 19:22:48 +0200	[diff] [blame]	4860	}
				4861	#endif
				4862
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4863	/*
				4864	* hrtimer based swevent callback
				4865	*/
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4866
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4867	static enum hrtimer_restart perf_swevent_hrtimer(struct hrtimer *hrtimer)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4868	{
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4869	enum hrtimer_restart ret = HRTIMER_RESTART;
				4870	struct perf_sample_data data;
				4871	struct pt_regs *regs;
				4872	struct perf_event *event;
				4873	u64 period;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4874
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4875	event = container_of(hrtimer, struct perf_event, hw.hrtimer);
				4876	event->pmu->read(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4877
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4878	perf_sample_data_init(&data, 0);
				4879	data.period = event->hw.last_period;
				4880	regs = get_irq_regs();
				4881
				4882	if (regs && !perf_exclude_event(event, regs)) {
				4883	if (!(event->attr.exclude_idle && current->pid == 0))
				4884	if (perf_event_overflow(event, 0, &data, regs))
				4885	ret = HRTIMER_NORESTART;
				4886	}
				4887
				4888	period = max_t(u64, 10000, event->hw.sample_period);
				4889	hrtimer_forward_now(hrtimer, ns_to_ktime(period));
				4890
				4891	return ret;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4892	}
				4893
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4894	static void perf_swevent_start_hrtimer(struct perf_event *event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	4895	{
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4896	struct hw_perf_event *hwc = &event->hw;
				4897
				4898	hrtimer_init(&hwc->hrtimer, CLOCK_MONOTONIC, HRTIMER_MODE_REL);
				4899	hwc->hrtimer.function = perf_swevent_hrtimer;
				4900	if (hwc->sample_period) {
Peter Zijlstra	fa407f3	2010-06-24 12:35:12 +0200	[diff] [blame]	4901	s64 period = local64_read(&hwc->period_left);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4902
Peter Zijlstra	fa407f3	2010-06-24 12:35:12 +0200	[diff] [blame]	4903	if (period) {
				4904	if (period < 0)
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4905	period = 10000;
Peter Zijlstra	fa407f3	2010-06-24 12:35:12 +0200	[diff] [blame]	4906
				4907	local64_set(&hwc->period_left, 0);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4908	} else {
				4909	period = max_t(u64, 10000, hwc->sample_period);
				4910	}
				4911	__hrtimer_start_range_ns(&hwc->hrtimer,
				4912	ns_to_ktime(period), 0,
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	4913	HRTIMER_MODE_REL_PINNED, 0);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4914	}
				4915	}
				4916
				4917	static void perf_swevent_cancel_hrtimer(struct perf_event *event)
				4918	{
				4919	struct hw_perf_event *hwc = &event->hw;
				4920
				4921	if (hwc->sample_period) {
				4922	ktime_t remaining = hrtimer_get_remaining(&hwc->hrtimer);
Peter Zijlstra	fa407f3	2010-06-24 12:35:12 +0200	[diff] [blame]	4923	local64_set(&hwc->period_left, ktime_to_ns(remaining));
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4924
				4925	hrtimer_cancel(&hwc->hrtimer);
				4926	}
				4927	}
				4928
				4929	/*
				4930	* Software event: cpu wall time clock
				4931	*/
				4932
				4933	static void cpu_clock_event_update(struct perf_event *event)
				4934	{
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4935	s64 prev;
				4936	u64 now;
				4937
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	4938	now = local_clock();
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4939	prev = local64_xchg(&event->hw.prev_count, now);
				4940	local64_add(now - prev, &event->count);
				4941	}
				4942
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	4943	static void cpu_clock_event_start(struct perf_event *event, int flags)
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4944	{
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	4945	local64_set(&event->hw.prev_count, local_clock());
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4946	perf_swevent_start_hrtimer(event);
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	4947	}
				4948
				4949	static void cpu_clock_event_stop(struct perf_event *event, int flags)
				4950	{
				4951	perf_swevent_cancel_hrtimer(event);
				4952	cpu_clock_event_update(event);
				4953	}
				4954
				4955	static int cpu_clock_event_add(struct perf_event *event, int flags)
				4956	{
				4957	if (flags & PERF_EF_START)
				4958	cpu_clock_event_start(event, flags);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4959
				4960	return 0;
				4961	}
				4962
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	4963	static void cpu_clock_event_del(struct perf_event *event, int flags)
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4964	{
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	4965	cpu_clock_event_stop(event, flags);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4966	}
				4967
				4968	static void cpu_clock_event_read(struct perf_event *event)
				4969	{
				4970	cpu_clock_event_update(event);
				4971	}
				4972
				4973	static int cpu_clock_event_init(struct perf_event *event)
				4974	{
				4975	if (event->attr.type != PERF_TYPE_SOFTWARE)
				4976	return -ENOENT;
				4977
				4978	if (event->attr.config != PERF_COUNT_SW_CPU_CLOCK)
				4979	return -ENOENT;
				4980
				4981	return 0;
				4982	}
				4983
				4984	static struct pmu perf_cpu_clock = {
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	4985	.task_ctx_nr = perf_sw_context,
				4986
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4987	.event_init = cpu_clock_event_init,
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	4988	.add = cpu_clock_event_add,
				4989	.del = cpu_clock_event_del,
				4990	.start = cpu_clock_event_start,
				4991	.stop = cpu_clock_event_stop,
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	4992	.read = cpu_clock_event_read,
				4993	};
				4994
				4995	/*
				4996	* Software event: task time clock
				4997	*/
				4998
				4999	static void task_clock_event_update(struct perf_event *event, u64 now)
				5000	{
				5001	u64 prev;
				5002	s64 delta;
				5003
				5004	prev = local64_xchg(&event->hw.prev_count, now);
				5005	delta = now - prev;
				5006	local64_add(delta, &event->count);
				5007	}
				5008
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	5009	static void task_clock_event_start(struct perf_event *event, int flags)
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5010	{
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	5011	local64_set(&event->hw.prev_count, event->ctx->time);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5012	perf_swevent_start_hrtimer(event);
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	5013	}
				5014
				5015	static void task_clock_event_stop(struct perf_event *event, int flags)
				5016	{
				5017	perf_swevent_cancel_hrtimer(event);
				5018	task_clock_event_update(event, event->ctx->time);
				5019	}
				5020
				5021	static int task_clock_event_add(struct perf_event *event, int flags)
				5022	{
				5023	if (flags & PERF_EF_START)
				5024	task_clock_event_start(event, flags);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5025
				5026	return 0;
				5027	}
				5028
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	5029	static void task_clock_event_del(struct perf_event *event, int flags)
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5030	{
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	5031	task_clock_event_stop(event, PERF_EF_UPDATE);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5032	}
				5033
				5034	static void task_clock_event_read(struct perf_event *event)
				5035	{
				5036	u64 time;
				5037
				5038	if (!in_nmi()) {
				5039	update_context_time(event->ctx);
				5040	time = event->ctx->time;
				5041	} else {
				5042	u64 now = perf_clock();
				5043	u64 delta = now - event->ctx->timestamp;
				5044	time = event->ctx->time + delta;
				5045	}
				5046
				5047	task_clock_event_update(event, time);
				5048	}
				5049
				5050	static int task_clock_event_init(struct perf_event *event)
				5051	{
				5052	if (event->attr.type != PERF_TYPE_SOFTWARE)
				5053	return -ENOENT;
				5054
				5055	if (event->attr.config != PERF_COUNT_SW_TASK_CLOCK)
				5056	return -ENOENT;
				5057
				5058	return 0;
				5059	}
				5060
				5061	static struct pmu perf_task_clock = {
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	5062	.task_ctx_nr = perf_sw_context,
				5063
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5064	.event_init = task_clock_event_init,
Peter Zijlstra	a4eaf7f	2010-06-16 14:37:10 +0200	[diff] [blame]	5065	.add = task_clock_event_add,
				5066	.del = task_clock_event_del,
				5067	.start = task_clock_event_start,
				5068	.stop = task_clock_event_stop,
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5069	.read = task_clock_event_read,
				5070	};
				5071
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	5072	static void perf_pmu_nop_void(struct pmu *pmu)
				5073	{
				5074	}
				5075
				5076	static int perf_pmu_nop_int(struct pmu *pmu)
				5077	{
				5078	return 0;
				5079	}
				5080
				5081	static void perf_pmu_start_txn(struct pmu *pmu)
				5082	{
				5083	perf_pmu_disable(pmu);
				5084	}
				5085
				5086	static int perf_pmu_commit_txn(struct pmu *pmu)
				5087	{
				5088	perf_pmu_enable(pmu);
				5089	return 0;
				5090	}
				5091
				5092	static void perf_pmu_cancel_txn(struct pmu *pmu)
				5093	{
				5094	perf_pmu_enable(pmu);
				5095	}
				5096
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	5097	/*
				5098	* Ensures all contexts with the same task_ctx_nr have the same
				5099	* pmu_cpu_context too.
				5100	*/
				5101	static void *find_pmu_context(int ctxn)
				5102	{
				5103	struct pmu *pmu;
				5104
				5105	if (ctxn < 0)
				5106	return NULL;
				5107
				5108	list_for_each_entry(pmu, &pmus, entry) {
				5109	if (pmu->task_ctx_nr == ctxn)
				5110	return pmu->pmu_cpu_context;
				5111	}
				5112
				5113	return NULL;
				5114	}
				5115
				5116	static void free_pmu_context(void * __percpu cpu_context)
				5117	{
				5118	struct pmu *pmu;
				5119
				5120	mutex_lock(&pmus_lock);
				5121	/*
				5122	* Like a real lame refcount.
				5123	*/
				5124	list_for_each_entry(pmu, &pmus, entry) {
				5125	if (pmu->pmu_cpu_context == cpu_context)
				5126	goto out;
				5127	}
				5128
				5129	free_percpu(cpu_context);
				5130	out:
				5131	mutex_unlock(&pmus_lock);
				5132	}
				5133
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5134	int perf_pmu_register(struct pmu *pmu)
				5135	{
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	5136	int cpu, ret;
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	5137
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5138	mutex_lock(&pmus_lock);
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	5139	ret = -ENOMEM;
				5140	pmu->pmu_disable_count = alloc_percpu(int);
				5141	if (!pmu->pmu_disable_count)
				5142	goto unlock;
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	5143
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	5144	pmu->pmu_cpu_context = find_pmu_context(pmu->task_ctx_nr);
				5145	if (pmu->pmu_cpu_context)
				5146	goto got_cpu_context;
				5147
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	5148	pmu->pmu_cpu_context = alloc_percpu(struct perf_cpu_context);
				5149	if (!pmu->pmu_cpu_context)
				5150	goto free_pdc;
				5151
				5152	for_each_possible_cpu(cpu) {
				5153	struct perf_cpu_context *cpuctx;
				5154
				5155	cpuctx = per_cpu_ptr(pmu->pmu_cpu_context, cpu);
Peter Zijlstra	eb18447	2010-09-07 15:55:13 +0200	[diff] [blame]	5156	__perf_event_init_context(&cpuctx->ctx);
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	5157	cpuctx->ctx.type = cpu_context;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	5158	cpuctx->ctx.pmu = pmu;
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	5159	cpuctx->jiffies_interval = 1;
				5160	INIT_LIST_HEAD(&cpuctx->rotation_list);
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	5161	}
				5162
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	5163	got_cpu_context:
Peter Zijlstra	ad5133b	2010-06-15 12:22:39 +0200	[diff] [blame]	5164	if (!pmu->start_txn) {
				5165	if (pmu->pmu_enable) {
				5166	/*
				5167	* If we have pmu_enable/pmu_disable calls, install
				5168	* transaction stubs that use that to try and batch
				5169	* hardware accesses.
				5170	*/
				5171	pmu->start_txn = perf_pmu_start_txn;
				5172	pmu->commit_txn = perf_pmu_commit_txn;
				5173	pmu->cancel_txn = perf_pmu_cancel_txn;
				5174	} else {
				5175	pmu->start_txn = perf_pmu_nop_void;
				5176	pmu->commit_txn = perf_pmu_nop_int;
				5177	pmu->cancel_txn = perf_pmu_nop_void;
				5178	}
				5179	}
				5180
				5181	if (!pmu->pmu_enable) {
				5182	pmu->pmu_enable = perf_pmu_nop_void;
				5183	pmu->pmu_disable = perf_pmu_nop_void;
				5184	}
				5185
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5186	list_add_rcu(&pmu->entry, &pmus);
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	5187	ret = 0;
				5188	unlock:
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5189	mutex_unlock(&pmus_lock);
				5190
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	5191	return ret;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	5192
				5193	free_pdc:
				5194	free_percpu(pmu->pmu_disable_count);
				5195	goto unlock;
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5196	}
				5197
				5198	void perf_pmu_unregister(struct pmu *pmu)
				5199	{
				5200	mutex_lock(&pmus_lock);
				5201	list_del_rcu(&pmu->entry);
				5202	mutex_unlock(&pmus_lock);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5203
				5204	/*
Peter Zijlstra	cde8e88	2010-09-13 11:06:55 +0200	[diff] [blame]	5205	* We dereference the pmu list under both SRCU and regular RCU, so
				5206	* synchronize against both of those.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5207	*/
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5208	synchronize_srcu(&pmus_srcu);
Peter Zijlstra	cde8e88	2010-09-13 11:06:55 +0200	[diff] [blame]	5209	synchronize_rcu();
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5210
Peter Zijlstra	33696fc	2010-06-14 08:49:00 +0200	[diff] [blame]	5211	free_percpu(pmu->pmu_disable_count);
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	5212	free_pmu_context(pmu->pmu_cpu_context);
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5213	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5214
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5215	struct pmu perf_init_event(struct perf_event event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5216	{
Peter Zijlstra	51b0fe3	2010-06-11 13:35:57 +0200	[diff] [blame]	5217	struct pmu *pmu = NULL;
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5218	int idx;
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5219
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5220	idx = srcu_read_lock(&pmus_srcu);
				5221	list_for_each_entry_rcu(pmu, &pmus, entry) {
				5222	int ret = pmu->event_init(event);
				5223	if (!ret)
Peter Zijlstra	e5f4d33	2010-09-10 17:38:06 +0200	[diff] [blame]	5224	goto unlock;
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	5225
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5226	if (ret != -ENOENT) {
				5227	pmu = ERR_PTR(ret);
Peter Zijlstra	e5f4d33	2010-09-10 17:38:06 +0200	[diff] [blame]	5228	goto unlock;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5229	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5230	}
Peter Zijlstra	e5f4d33	2010-09-10 17:38:06 +0200	[diff] [blame]	5231	pmu = ERR_PTR(-ENOENT);
				5232	unlock:
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5233	srcu_read_unlock(&pmus_srcu, idx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5234
				5235	return pmu;
				5236	}
				5237
				5238	/*
				5239	* Allocate and initialize a event structure
				5240	*/
				5241	static struct perf_event *
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	5242	perf_event_alloc(struct perf_event_attr *attr, int cpu,
Peter Zijlstra	d580ff8	2010-10-14 17:43:23 +0200	[diff] [blame]	5243	struct task_struct *task,
				5244	struct perf_event *group_leader,
				5245	struct perf_event *parent_event,
				5246	perf_overflow_handler_t overflow_handler)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5247	{
Peter Zijlstra	51b0fe3	2010-06-11 13:35:57 +0200	[diff] [blame]	5248	struct pmu *pmu;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5249	struct perf_event *event;
				5250	struct hw_perf_event *hwc;
				5251	long err;
				5252
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	5253	event = kzalloc(sizeof(*event), GFP_KERNEL);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5254	if (!event)
				5255	return ERR_PTR(-ENOMEM);
				5256
				5257	/*
				5258	* Single events are their own group leaders, with an
				5259	* empty sibling list:
				5260	*/
				5261	if (!group_leader)
				5262	group_leader = event;
				5263
				5264	mutex_init(&event->child_mutex);
				5265	INIT_LIST_HEAD(&event->child_list);
				5266
				5267	INIT_LIST_HEAD(&event->group_entry);
				5268	INIT_LIST_HEAD(&event->event_entry);
				5269	INIT_LIST_HEAD(&event->sibling_list);
				5270	init_waitqueue_head(&event->waitq);
Peter Zijlstra	e360adb	2010-10-14 14:01:34 +0800	[diff] [blame]	5271	init_irq_work(&event->pending, perf_pending_event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5272
				5273	mutex_init(&event->mmap_mutex);
				5274
				5275	event->cpu = cpu;
				5276	event->attr = *attr;
				5277	event->group_leader = group_leader;
				5278	event->pmu = NULL;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5279	event->oncpu = -1;
				5280
				5281	event->parent = parent_event;
				5282
				5283	event->ns = get_pid_ns(current->nsproxy->pid_ns);
				5284	event->id = atomic64_inc_return(&perf_event_id);
				5285
				5286	event->state = PERF_EVENT_STATE_INACTIVE;
				5287
Peter Zijlstra	d580ff8	2010-10-14 17:43:23 +0200	[diff] [blame]	5288	if (task) {
				5289	event->attach_state = PERF_ATTACH_TASK;
				5290	#ifdef CONFIG_HAVE_HW_BREAKPOINT
				5291	/*
				5292	* hw_breakpoint is a bit difficult here..
				5293	*/
				5294	if (attr->type == PERF_TYPE_BREAKPOINT)
				5295	event->hw.bp_target = task;
				5296	#endif
				5297	}
				5298
Frederic Weisbecker	b326e95	2009-12-05 09:44:31 +0100	[diff] [blame]	5299	if (!overflow_handler && parent_event)
				5300	overflow_handler = parent_event->overflow_handler;
Frederic Weisbecker	97eaf53	2009-10-18 15:33:50 +0200	[diff] [blame]	5301
Frederic Weisbecker	b326e95	2009-12-05 09:44:31 +0100	[diff] [blame]	5302	event->overflow_handler = overflow_handler;
Frederic Weisbecker	97eaf53	2009-10-18 15:33:50 +0200	[diff] [blame]	5303
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5304	if (attr->disabled)
				5305	event->state = PERF_EVENT_STATE_OFF;
				5306
				5307	pmu = NULL;
				5308
				5309	hwc = &event->hw;
				5310	hwc->sample_period = attr->sample_period;
				5311	if (attr->freq && attr->sample_freq)
				5312	hwc->sample_period = 1;
				5313	hwc->last_period = hwc->sample_period;
				5314
Peter Zijlstra	e785059	2010-05-21 14:43:08 +0200	[diff] [blame]	5315	local64_set(&hwc->period_left, hwc->sample_period);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5316
				5317	/*
				5318	* we currently do not support PERF_FORMAT_GROUP on inherited events
				5319	*/
				5320	if (attr->inherit && (attr->read_format & PERF_FORMAT_GROUP))
				5321	goto done;
				5322
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	5323	pmu = perf_init_event(event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5324
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5325	done:
				5326	err = 0;
				5327	if (!pmu)
				5328	err = -EINVAL;
				5329	else if (IS_ERR(pmu))
				5330	err = PTR_ERR(pmu);
				5331
				5332	if (err) {
				5333	if (event->ns)
				5334	put_pid_ns(event->ns);
				5335	kfree(event);
				5336	return ERR_PTR(err);
				5337	}
				5338
				5339	event->pmu = pmu;
				5340
				5341	if (!event->parent) {
Peter Zijlstra	82cd6de	2010-10-14 17:57:23 +0200	[diff] [blame]	5342	if (event->attach_state & PERF_ATTACH_TASK)
				5343	jump_label_inc(&perf_task_events);
Eric B Munson	3af9e85	2010-05-18 15:30:49 +0100	[diff] [blame]	5344	if (event->attr.mmap \|\| event->attr.mmap_data)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5345	atomic_inc(&nr_mmap_events);
				5346	if (event->attr.comm)
				5347	atomic_inc(&nr_comm_events);
				5348	if (event->attr.task)
				5349	atomic_inc(&nr_task_events);
Frederic Weisbecker	927c7a9	2010-07-01 16:20:36 +0200	[diff] [blame]	5350	if (event->attr.sample_type & PERF_SAMPLE_CALLCHAIN) {
				5351	err = get_callchain_buffers();
				5352	if (err) {
				5353	free_event(event);
				5354	return ERR_PTR(err);
				5355	}
				5356	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5357	}
				5358
				5359	return event;
				5360	}
				5361
				5362	static int perf_copy_attr(struct perf_event_attr __user *uattr,
				5363	struct perf_event_attr *attr)
				5364	{
				5365	u32 size;
				5366	int ret;
				5367
				5368	if (!access_ok(VERIFY_WRITE, uattr, PERF_ATTR_SIZE_VER0))
				5369	return -EFAULT;
				5370
				5371	/*
				5372	* zero the full structure, so that a short copy will be nice.
				5373	*/
				5374	memset(attr, 0, sizeof(*attr));
				5375
				5376	ret = get_user(size, &uattr->size);
				5377	if (ret)
				5378	return ret;
				5379
				5380	if (size > PAGE_SIZE) /* silly large */
				5381	goto err_size;
				5382
				5383	if (!size) /* abi compat */
				5384	size = PERF_ATTR_SIZE_VER0;
				5385
				5386	if (size < PERF_ATTR_SIZE_VER0)
				5387	goto err_size;
				5388
				5389	/*
				5390	* If we're handed a bigger struct than we know of,
				5391	* ensure all the unknown bits are 0 - i.e. new
				5392	* user-space does not rely on any kernel feature
				5393	* extensions we dont know about yet.
				5394	*/
				5395	if (size > sizeof(*attr)) {
				5396	unsigned char __user *addr;
				5397	unsigned char __user *end;
				5398	unsigned char val;
				5399
				5400	addr = (void __user )uattr + sizeof(attr);
				5401	end = (void __user *)uattr + size;
				5402
				5403	for (; addr < end; addr++) {
				5404	ret = get_user(val, addr);
				5405	if (ret)
				5406	return ret;
				5407	if (val)
				5408	goto err_size;
				5409	}
				5410	size = sizeof(*attr);
				5411	}
				5412
				5413	ret = copy_from_user(attr, uattr, size);
				5414	if (ret)
				5415	return -EFAULT;
				5416
				5417	/*
				5418	* If the type exists, the corresponding creation will verify
				5419	* the attr->config.
				5420	*/
				5421	if (attr->type >= PERF_TYPE_MAX)
				5422	return -EINVAL;
				5423
Mahesh Salgaonkar	cd75764	2010-01-30 10:25:18 +0530	[diff] [blame]	5424	if (attr->__reserved_1)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5425	return -EINVAL;
				5426
				5427	if (attr->sample_type & ~(PERF_SAMPLE_MAX-1))
				5428	return -EINVAL;
				5429
				5430	if (attr->read_format & ~(PERF_FORMAT_MAX-1))
				5431	return -EINVAL;
				5432
				5433	out:
				5434	return ret;
				5435
				5436	err_size:
				5437	put_user(sizeof(*attr), &uattr->size);
				5438	ret = -E2BIG;
				5439	goto out;
				5440	}
				5441
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5442	static int
				5443	perf_event_set_output(struct perf_event event, struct perf_event output_event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5444	{
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	5445	struct perf_buffer buffer = NULL, old_buffer = NULL;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5446	int ret = -EINVAL;
				5447
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5448	if (!output_event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5449	goto set;
				5450
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5451	/* don't allow circular references */
				5452	if (event == output_event)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5453	goto out;
				5454
Peter Zijlstra	0f13930	2010-05-20 14:35:15 +0200	[diff] [blame]	5455	/*
				5456	* Don't allow cross-cpu buffers
				5457	*/
				5458	if (output_event->cpu != event->cpu)
				5459	goto out;
				5460
				5461	/*
				5462	* If its not a per-cpu buffer, it must be the same task.
				5463	*/
				5464	if (output_event->cpu == -1 && output_event->ctx != event->ctx)
				5465	goto out;
				5466
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5467	set:
				5468	mutex_lock(&event->mmap_mutex);
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5469	/* Can't redirect output if we've got an active mmap() */
				5470	if (atomic_read(&event->mmap_count))
				5471	goto unlock;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5472
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5473	if (output_event) {
				5474	/* get the buffer we want to redirect to */
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	5475	buffer = perf_buffer_get(output_event);
				5476	if (!buffer)
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5477	goto unlock;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5478	}
				5479
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	5480	old_buffer = event->buffer;
				5481	rcu_assign_pointer(event->buffer, buffer);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5482	ret = 0;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5483	unlock:
				5484	mutex_unlock(&event->mmap_mutex);
				5485
Peter Zijlstra	ca5135e	2010-05-28 19:33:23 +0200	[diff] [blame]	5486	if (old_buffer)
				5487	perf_buffer_put(old_buffer);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5488	out:
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5489	return ret;
				5490	}
				5491
				5492	/**
				5493	* sys_perf_event_open - open a performance event, associate it to a task/cpu
				5494	*
				5495	* @attr_uptr: event_id type attributes for monitoring/sampling
				5496	* @pid: target pid
				5497	* @cpu: target cpu
				5498	* @group_fd: group leader event fd
				5499	*/
				5500	SYSCALL_DEFINE5(perf_event_open,
				5501	struct perf_event_attr __user *, attr_uptr,
				5502	pid_t, pid, int, cpu, int, group_fd, unsigned long, flags)
				5503	{
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	5504	struct perf_event group_leader = NULL, output_event = NULL;
				5505	struct perf_event event, sibling;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5506	struct perf_event_attr attr;
				5507	struct perf_event_context *ctx;
				5508	struct file *event_file = NULL;
				5509	struct file *group_file = NULL;
Matt Helsley	38a81da	2010-09-13 13:01:20 -0700	[diff] [blame]	5510	struct task_struct *task = NULL;
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	5511	struct pmu *pmu;
Al Viro	ea635c6	2010-05-26 17:40:29 -0400	[diff] [blame]	5512	int event_fd;
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	5513	int move_group = 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5514	int fput_needed = 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5515	int err;
				5516
				5517	/* for future expandability... */
				5518	if (flags & ~(PERF_FLAG_FD_NO_GROUP \| PERF_FLAG_FD_OUTPUT))
				5519	return -EINVAL;
				5520
				5521	err = perf_copy_attr(attr_uptr, &attr);
				5522	if (err)
				5523	return err;
				5524
				5525	if (!attr.exclude_kernel) {
				5526	if (perf_paranoid_kernel() && !capable(CAP_SYS_ADMIN))
				5527	return -EACCES;
				5528	}
				5529
				5530	if (attr.freq) {
				5531	if (attr.sample_freq > sysctl_perf_event_sample_rate)
				5532	return -EINVAL;
				5533	}
				5534
Al Viro	ea635c6	2010-05-26 17:40:29 -0400	[diff] [blame]	5535	event_fd = get_unused_fd_flags(O_RDWR);
				5536	if (event_fd < 0)
				5537	return event_fd;
				5538
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5539	if (group_fd != -1) {
				5540	group_leader = perf_fget_light(group_fd, &fput_needed);
				5541	if (IS_ERR(group_leader)) {
				5542	err = PTR_ERR(group_leader);
Stephane Eranian	d14b12d	2010-09-17 11:28:47 +0200	[diff] [blame]	5543	goto err_fd;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5544	}
				5545	group_file = group_leader->filp;
				5546	if (flags & PERF_FLAG_FD_OUTPUT)
				5547	output_event = group_leader;
				5548	if (flags & PERF_FLAG_FD_NO_GROUP)
				5549	group_leader = NULL;
				5550	}
				5551
Peter Zijlstra	c6be5a5	2010-10-14 16:59:46 +0200	[diff] [blame]	5552	if (pid != -1) {
				5553	task = find_lively_task_by_vpid(pid);
				5554	if (IS_ERR(task)) {
				5555	err = PTR_ERR(task);
				5556	goto err_group_fd;
				5557	}
				5558	}
				5559
Peter Zijlstra	d580ff8	2010-10-14 17:43:23 +0200	[diff] [blame]	5560	event = perf_event_alloc(&attr, cpu, task, group_leader, NULL, NULL);
Stephane Eranian	d14b12d	2010-09-17 11:28:47 +0200	[diff] [blame]	5561	if (IS_ERR(event)) {
				5562	err = PTR_ERR(event);
Peter Zijlstra	c6be5a5	2010-10-14 16:59:46 +0200	[diff] [blame]	5563	goto err_task;
Stephane Eranian	d14b12d	2010-09-17 11:28:47 +0200	[diff] [blame]	5564	}
				5565
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5566	/*
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	5567	* Special case software events and allow them to be part of
				5568	* any hardware group.
				5569	*/
				5570	pmu = event->pmu;
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	5571
				5572	if (group_leader &&
				5573	(is_software_event(event) != is_software_event(group_leader))) {
				5574	if (is_software_event(event)) {
				5575	/*
				5576	* If event and group_leader are not both a software
				5577	* event, and event is, then group leader is not.
				5578	*
				5579	* Allow the addition of software events to !software
				5580	* groups, this is safe because software events never
				5581	* fail to schedule.
				5582	*/
				5583	pmu = group_leader->pmu;
				5584	} else if (is_software_event(group_leader) &&
				5585	(group_leader->group_flags & PERF_GROUP_SOFTWARE)) {
				5586	/*
				5587	* In case the group is a pure software group, and we
				5588	* try to add a hardware event, move the whole group to
				5589	* the hardware context.
				5590	*/
				5591	move_group = 1;
				5592	}
				5593	}
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	5594
				5595	/*
				5596	* Get the target context (task or percpu):
				5597	*/
Matt Helsley	38a81da	2010-09-13 13:01:20 -0700	[diff] [blame]	5598	ctx = find_get_context(pmu, task, cpu);
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	5599	if (IS_ERR(ctx)) {
				5600	err = PTR_ERR(ctx);
Peter Zijlstra	c6be5a5	2010-10-14 16:59:46 +0200	[diff] [blame]	5601	goto err_alloc;
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	5602	}
				5603
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5604	/*
				5605	* Look up the group leader (we will attach this event to it):
				5606	*/
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5607	if (group_leader) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5608	err = -EINVAL;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5609
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5610	/*
				5611	* Do not allow a recursive hierarchy (this new sibling
				5612	* becoming part of another group-sibling):
				5613	*/
				5614	if (group_leader->group_leader != group_leader)
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	5615	goto err_context;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5616	/*
				5617	* Do not allow to attach to a group in a different
				5618	* task or CPU context:
				5619	*/
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	5620	if (move_group) {
				5621	if (group_leader->ctx->type != ctx->type)
				5622	goto err_context;
				5623	} else {
				5624	if (group_leader->ctx != ctx)
				5625	goto err_context;
				5626	}
				5627
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5628	/*
				5629	* Only a group leader can be exclusive or pinned
				5630	*/
				5631	if (attr.exclusive \|\| attr.pinned)
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	5632	goto err_context;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5633	}
				5634
				5635	if (output_event) {
				5636	err = perf_event_set_output(event, output_event);
				5637	if (err)
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	5638	goto err_context;
Peter Zijlstra	ac9721f	2010-05-27 12:54:41 +0200	[diff] [blame]	5639	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5640
Al Viro	ea635c6	2010-05-26 17:40:29 -0400	[diff] [blame]	5641	event_file = anon_inode_getfile("[perf_event]", &perf_fops, event, O_RDWR);
				5642	if (IS_ERR(event_file)) {
				5643	err = PTR_ERR(event_file);
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	5644	goto err_context;
Al Viro	ea635c6	2010-05-26 17:40:29 -0400	[diff] [blame]	5645	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5646
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	5647	if (move_group) {
				5648	struct perf_event_context *gctx = group_leader->ctx;
				5649
				5650	mutex_lock(&gctx->mutex);
				5651	perf_event_remove_from_context(group_leader);
				5652	list_for_each_entry(sibling, &group_leader->sibling_list,
				5653	group_entry) {
				5654	perf_event_remove_from_context(sibling);
				5655	put_ctx(gctx);
				5656	}
				5657	mutex_unlock(&gctx->mutex);
				5658	put_ctx(gctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5659	}
				5660
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5661	event->filp = event_file;
				5662	WARN_ON_ONCE(ctx->parent_ctx);
				5663	mutex_lock(&ctx->mutex);
Peter Zijlstra	b04243e	2010-09-17 11:28:48 +0200	[diff] [blame]	5664
				5665	if (move_group) {
				5666	perf_install_in_context(ctx, group_leader, cpu);
				5667	get_ctx(ctx);
				5668	list_for_each_entry(sibling, &group_leader->sibling_list,
				5669	group_entry) {
				5670	perf_install_in_context(ctx, sibling, cpu);
				5671	get_ctx(ctx);
				5672	}
				5673	}
				5674
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5675	perf_install_in_context(ctx, event, cpu);
				5676	++ctx->generation;
				5677	mutex_unlock(&ctx->mutex);
				5678
				5679	event->owner = current;
				5680	get_task_struct(current);
				5681	mutex_lock(&current->perf_event_mutex);
				5682	list_add_tail(&event->owner_entry, &current->perf_event_list);
				5683	mutex_unlock(&current->perf_event_mutex);
				5684
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	5685	/*
				5686	* Drop the reference on the group_event after placing the
				5687	* new event on the sibling_list. This ensures destruction
				5688	* of the group leader will find the pointer to itself in
				5689	* perf_group_detach().
				5690	*/
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5691	fput_light(group_file, fput_needed);
Al Viro	ea635c6	2010-05-26 17:40:29 -0400	[diff] [blame]	5692	fd_install(event_fd, event_file);
				5693	return event_fd;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5694
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	5695	err_context:
Al Viro	ea635c6	2010-05-26 17:40:29 -0400	[diff] [blame]	5696	put_ctx(ctx);
Peter Zijlstra	c6be5a5	2010-10-14 16:59:46 +0200	[diff] [blame]	5697	err_alloc:
				5698	free_event(event);
Peter Zijlstra	e7d0bc0	2010-10-14 16:54:51 +0200	[diff] [blame]	5699	err_task:
				5700	if (task)
				5701	put_task_struct(task);
Peter Zijlstra	89a1e18	2010-09-07 17:34:50 +0200	[diff] [blame]	5702	err_group_fd:
				5703	fput_light(group_file, fput_needed);
Al Viro	ea635c6	2010-05-26 17:40:29 -0400	[diff] [blame]	5704	err_fd:
				5705	put_unused_fd(event_fd);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5706	return err;
				5707	}
				5708
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	5709	/**
				5710	* perf_event_create_kernel_counter
				5711	*
				5712	* @attr: attributes of the counter to create
				5713	* @cpu: cpu in which the counter is bound
Matt Helsley	38a81da	2010-09-13 13:01:20 -0700	[diff] [blame]	5714	* @task: task to profile (NULL for percpu)
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	5715	*/
				5716	struct perf_event *
				5717	perf_event_create_kernel_counter(struct perf_event_attr *attr, int cpu,
Matt Helsley	38a81da	2010-09-13 13:01:20 -0700	[diff] [blame]	5718	struct task_struct *task,
Frederic Weisbecker	b326e95	2009-12-05 09:44:31 +0100	[diff] [blame]	5719	perf_overflow_handler_t overflow_handler)
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	5720	{
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	5721	struct perf_event_context *ctx;
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	5722	struct perf_event *event;
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	5723	int err;
				5724
				5725	/*
				5726	* Get the target context (task or percpu):
				5727	*/
				5728
Peter Zijlstra	d580ff8	2010-10-14 17:43:23 +0200	[diff] [blame]	5729	event = perf_event_alloc(attr, cpu, task, NULL, NULL, overflow_handler);
Frederic Weisbecker	c6567f6	2009-11-26 05:35:41 +0100	[diff] [blame]	5730	if (IS_ERR(event)) {
				5731	err = PTR_ERR(event);
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	5732	goto err;
				5733	}
				5734
Matt Helsley	38a81da	2010-09-13 13:01:20 -0700	[diff] [blame]	5735	ctx = find_get_context(event->pmu, task, cpu);
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	5736	if (IS_ERR(ctx)) {
				5737	err = PTR_ERR(ctx);
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	5738	goto err_free;
Frederic Weisbecker	c6567f6	2009-11-26 05:35:41 +0100	[diff] [blame]	5739	}
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	5740
				5741	event->filp = NULL;
				5742	WARN_ON_ONCE(ctx->parent_ctx);
				5743	mutex_lock(&ctx->mutex);
				5744	perf_install_in_context(ctx, event, cpu);
				5745	++ctx->generation;
				5746	mutex_unlock(&ctx->mutex);
				5747
				5748	event->owner = current;
				5749	get_task_struct(current);
				5750	mutex_lock(&current->perf_event_mutex);
				5751	list_add_tail(&event->owner_entry, &current->perf_event_list);
				5752	mutex_unlock(&current->perf_event_mutex);
				5753
				5754	return event;
				5755
Peter Zijlstra	c3f00c7	2010-08-18 14:37:15 +0200	[diff] [blame]	5756	err_free:
				5757	free_event(event);
				5758	err:
Frederic Weisbecker	c6567f6	2009-11-26 05:35:41 +0100	[diff] [blame]	5759	return ERR_PTR(err);
Arjan van de Ven	fb0459d	2009-09-25 12:25:56 +0200	[diff] [blame]	5760	}
				5761	EXPORT_SYMBOL_GPL(perf_event_create_kernel_counter);
				5762
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5763	static void sync_child_event(struct perf_event *child_event,
				5764	struct task_struct *child)
				5765	{
				5766	struct perf_event *parent_event = child_event->parent;
				5767	u64 child_val;
				5768
				5769	if (child_event->attr.inherit_stat)
				5770	perf_event_read_event(child_event, child);
				5771
Peter Zijlstra	b5e5879	2010-05-21 14:43:12 +0200	[diff] [blame]	5772	child_val = perf_event_count(child_event);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5773
				5774	/*
				5775	* Add back the child's count to the parent's count:
				5776	*/
Peter Zijlstra	a6e6dea	2010-05-21 14:27:58 +0200	[diff] [blame]	5777	atomic64_add(child_val, &parent_event->child_count);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5778	atomic64_add(child_event->total_time_enabled,
				5779	&parent_event->child_total_time_enabled);
				5780	atomic64_add(child_event->total_time_running,
				5781	&parent_event->child_total_time_running);
				5782
				5783	/*
				5784	* Remove this event from the parent's list
				5785	*/
				5786	WARN_ON_ONCE(parent_event->ctx->parent_ctx);
				5787	mutex_lock(&parent_event->child_mutex);
				5788	list_del_init(&child_event->child_list);
				5789	mutex_unlock(&parent_event->child_mutex);
				5790
				5791	/*
				5792	* Release the parent event, if this was the last
				5793	* reference to it.
				5794	*/
				5795	fput(parent_event->filp);
				5796	}
				5797
				5798	static void
				5799	__perf_event_exit_task(struct perf_event *child_event,
				5800	struct perf_event_context *child_ctx,
				5801	struct task_struct *child)
				5802	{
				5803	struct perf_event *parent_event;
				5804
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5805	perf_event_remove_from_context(child_event);
				5806
				5807	parent_event = child_event->parent;
				5808	/*
				5809	* It can happen that parent exits first, and has events
				5810	* that are still around due to the child reference. These
				5811	* events need to be zapped - but otherwise linger.
				5812	*/
				5813	if (parent_event) {
				5814	sync_child_event(child_event, child);
				5815	free_event(child_event);
				5816	}
				5817	}
				5818
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	5819	static void perf_event_exit_task_context(struct task_struct *child, int ctxn)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5820	{
				5821	struct perf_event child_event, tmp;
				5822	struct perf_event_context *child_ctx;
				5823	unsigned long flags;
				5824
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	5825	if (likely(!child->perf_event_ctxp[ctxn])) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5826	perf_event_task(child, NULL, 0);
				5827	return;
				5828	}
				5829
				5830	local_irq_save(flags);
				5831	/*
				5832	* We can't reschedule here because interrupts are disabled,
				5833	* and either child is current or it is a task that can't be
				5834	* scheduled, so we are now safe from rescheduling changing
				5835	* our context.
				5836	*/
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	5837	child_ctx = child->perf_event_ctxp[ctxn];
Peter Zijlstra	82cd6de	2010-10-14 17:57:23 +0200	[diff] [blame]	5838	task_ctx_sched_out(child_ctx, EVENT_ALL);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5839
				5840	/*
				5841	* Take the context lock here so that if find_get_context is
				5842	* reading child->perf_event_ctxp, we wait until it has
				5843	* incremented the context's refcount before we do put_ctx below.
				5844	*/
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	5845	raw_spin_lock(&child_ctx->lock);
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	5846	child->perf_event_ctxp[ctxn] = NULL;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5847	/*
				5848	* If this context is a clone; unclone it so it can't get
				5849	* swapped to another process while we're removing all
				5850	* the events from it.
				5851	*/
				5852	unclone_ctx(child_ctx);
Peter Zijlstra	5e942bb	2009-11-23 11:37:26 +0100	[diff] [blame]	5853	update_context_time(child_ctx);
Thomas Gleixner	e625cce1	2009-11-17 18:02:06 +0100	[diff] [blame]	5854	raw_spin_unlock_irqrestore(&child_ctx->lock, flags);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5855
				5856	/*
				5857	* Report the task dead after unscheduling the events so that we
				5858	* won't get any samples after PERF_RECORD_EXIT. We can however still
				5859	* get a few PERF_RECORD_READ events.
				5860	*/
				5861	perf_event_task(child, child_ctx, 0);
				5862
				5863	/*
				5864	* We can recurse on the same lock type through:
				5865	*
				5866	* __perf_event_exit_task()
				5867	* sync_child_event()
				5868	* fput(parent_event->filp)
				5869	* perf_release()
				5870	* mutex_lock(&ctx->mutex)
				5871	*
				5872	* But since its the parent context it won't be the same instance.
				5873	*/
Peter Zijlstra	a0507c8	2010-05-06 15:42:53 +0200	[diff] [blame]	5874	mutex_lock(&child_ctx->mutex);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5875
				5876	again:
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	5877	list_for_each_entry_safe(child_event, tmp, &child_ctx->pinned_groups,
				5878	group_entry)
				5879	__perf_event_exit_task(child_event, child_ctx, child);
				5880
				5881	list_for_each_entry_safe(child_event, tmp, &child_ctx->flexible_groups,
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5882	group_entry)
				5883	__perf_event_exit_task(child_event, child_ctx, child);
				5884
				5885	/*
				5886	* If the last event was a group event, it will have appended all
				5887	* its siblings to the list, but we obtained 'tmp' before that which
				5888	* will still point to the list head terminating the iteration.
				5889	*/
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	5890	if (!list_empty(&child_ctx->pinned_groups) \|\|
				5891	!list_empty(&child_ctx->flexible_groups))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5892	goto again;
				5893
				5894	mutex_unlock(&child_ctx->mutex);
				5895
				5896	put_ctx(child_ctx);
				5897	}
				5898
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	5899	/*
				5900	* When a child task exits, feed back event values to parent events.
				5901	*/
				5902	void perf_event_exit_task(struct task_struct *child)
				5903	{
				5904	int ctxn;
				5905
				5906	for_each_task_context_nr(ctxn)
				5907	perf_event_exit_task_context(child, ctxn);
				5908	}
				5909
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	5910	static void perf_free_event(struct perf_event *event,
				5911	struct perf_event_context *ctx)
				5912	{
				5913	struct perf_event *parent = event->parent;
				5914
				5915	if (WARN_ON_ONCE(!parent))
				5916	return;
				5917
				5918	mutex_lock(&parent->child_mutex);
				5919	list_del_init(&event->child_list);
				5920	mutex_unlock(&parent->child_mutex);
				5921
				5922	fput(parent->filp);
				5923
Peter Zijlstra	8a49542	2010-05-27 15:47:49 +0200	[diff] [blame]	5924	perf_group_detach(event);
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	5925	list_del_event(event, ctx);
				5926	free_event(event);
				5927	}
				5928
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5929	/*
				5930	* free an unexposed, unused context as created by inheritance by
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	5931	* perf_event_init_task below, used by fork() in case of fail.
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5932	*/
				5933	void perf_event_free_task(struct task_struct *task)
				5934	{
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	5935	struct perf_event_context *ctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5936	struct perf_event event, tmp;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	5937	int ctxn;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5938
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	5939	for_each_task_context_nr(ctxn) {
				5940	ctx = task->perf_event_ctxp[ctxn];
				5941	if (!ctx)
				5942	continue;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5943
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	5944	mutex_lock(&ctx->mutex);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5945	again:
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	5946	list_for_each_entry_safe(event, tmp, &ctx->pinned_groups,
				5947	group_entry)
				5948	perf_free_event(event, ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5949
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	5950	list_for_each_entry_safe(event, tmp, &ctx->flexible_groups,
				5951	group_entry)
				5952	perf_free_event(event, ctx);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5953
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	5954	if (!list_empty(&ctx->pinned_groups) \|\|
				5955	!list_empty(&ctx->flexible_groups))
				5956	goto again;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5957
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	5958	mutex_unlock(&ctx->mutex);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5959
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	5960	put_ctx(ctx);
				5961	}
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	5962	}
				5963
Peter Zijlstra	4e231c7	2010-09-09 21:01:59 +0200	[diff] [blame]	5964	void perf_event_delayed_put(struct task_struct *task)
				5965	{
				5966	int ctxn;
				5967
				5968	for_each_task_context_nr(ctxn)
				5969	WARN_ON_ONCE(task->perf_event_ctxp[ctxn]);
				5970	}
				5971
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	5972	/*
				5973	* inherit a event from parent task to child task:
				5974	*/
				5975	static struct perf_event *
				5976	inherit_event(struct perf_event *parent_event,
				5977	struct task_struct *parent,
				5978	struct perf_event_context *parent_ctx,
				5979	struct task_struct *child,
				5980	struct perf_event *group_leader,
				5981	struct perf_event_context *child_ctx)
				5982	{
				5983	struct perf_event *child_event;
Peter Zijlstra	cee010e	2010-09-10 12:51:54 +0200	[diff] [blame]	5984	unsigned long flags;
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	5985
				5986	/*
				5987	* Instead of creating recursive hierarchies of events,
				5988	* we link inherited events back to the original parent,
				5989	* which has a filp for sure, which we use as the reference
				5990	* count:
				5991	*/
				5992	if (parent_event->parent)
				5993	parent_event = parent_event->parent;
				5994
				5995	child_event = perf_event_alloc(&parent_event->attr,
				5996	parent_event->cpu,
Peter Zijlstra	d580ff8	2010-10-14 17:43:23 +0200	[diff] [blame]	5997	child,
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	5998	group_leader, parent_event,
				5999	NULL);
				6000	if (IS_ERR(child_event))
				6001	return child_event;
				6002	get_ctx(child_ctx);
				6003
				6004	/*
				6005	* Make the child state follow the state of the parent event,
				6006	* not its attr.disabled bit. We hold the parent's mutex,
				6007	* so we won't race with perf_event_{en, dis}able_family.
				6008	*/
				6009	if (parent_event->state >= PERF_EVENT_STATE_INACTIVE)
				6010	child_event->state = PERF_EVENT_STATE_INACTIVE;
				6011	else
				6012	child_event->state = PERF_EVENT_STATE_OFF;
				6013
				6014	if (parent_event->attr.freq) {
				6015	u64 sample_period = parent_event->hw.sample_period;
				6016	struct hw_perf_event *hwc = &child_event->hw;
				6017
				6018	hwc->sample_period = sample_period;
				6019	hwc->last_period = sample_period;
				6020
				6021	local64_set(&hwc->period_left, sample_period);
				6022	}
				6023
				6024	child_event->ctx = child_ctx;
				6025	child_event->overflow_handler = parent_event->overflow_handler;
				6026
				6027	/*
				6028	* Link it up in the child's context:
				6029	*/
Peter Zijlstra	cee010e	2010-09-10 12:51:54 +0200	[diff] [blame]	6030	raw_spin_lock_irqsave(&child_ctx->lock, flags);
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	6031	add_event_to_ctx(child_event, child_ctx);
Peter Zijlstra	cee010e	2010-09-10 12:51:54 +0200	[diff] [blame]	6032	raw_spin_unlock_irqrestore(&child_ctx->lock, flags);
Peter Zijlstra	97dee4f	2010-09-07 15:35:33 +0200	[diff] [blame]	6033
				6034	/*
				6035	* Get a reference to the parent filp - we will fput it
				6036	* when the child event exits. This is safe to do because
				6037	* we are in the parent and we know that the filp still
				6038	* exists and has a nonzero count:
				6039	*/
				6040	atomic_long_inc(&parent_event->filp->f_count);
				6041
				6042	/*
				6043	* Link this into the parent event's child list
				6044	*/
				6045	WARN_ON_ONCE(parent_event->ctx->parent_ctx);
				6046	mutex_lock(&parent_event->child_mutex);
				6047	list_add_tail(&child_event->child_list, &parent_event->child_list);
				6048	mutex_unlock(&parent_event->child_mutex);
				6049
				6050	return child_event;
				6051	}
				6052
				6053	static int inherit_group(struct perf_event *parent_event,
				6054	struct task_struct *parent,
				6055	struct perf_event_context *parent_ctx,
				6056	struct task_struct *child,
				6057	struct perf_event_context *child_ctx)
				6058	{
				6059	struct perf_event *leader;
				6060	struct perf_event *sub;
				6061	struct perf_event *child_ctr;
				6062
				6063	leader = inherit_event(parent_event, parent, parent_ctx,
				6064	child, NULL, child_ctx);
				6065	if (IS_ERR(leader))
				6066	return PTR_ERR(leader);
				6067	list_for_each_entry(sub, &parent_event->sibling_list, group_entry) {
				6068	child_ctr = inherit_event(sub, parent, parent_ctx,
				6069	child, leader, child_ctx);
				6070	if (IS_ERR(child_ctr))
				6071	return PTR_ERR(child_ctr);
				6072	}
				6073	return 0;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6074	}
				6075
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	6076	static int
				6077	inherit_task_group(struct perf_event event, struct task_struct parent,
				6078	struct perf_event_context *parent_ctx,
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	6079	struct task_struct *child, int ctxn,
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	6080	int *inherited_all)
				6081	{
				6082	int ret;
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	6083	struct perf_event_context *child_ctx;
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	6084
				6085	if (!event->attr.inherit) {
				6086	*inherited_all = 0;
				6087	return 0;
				6088	}
				6089
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	6090	child_ctx = child->perf_event_ctxp[ctxn];
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	6091	if (!child_ctx) {
				6092	/*
				6093	* This is executed from the parent task context, so
				6094	* inherit events that have been marked for cloning.
				6095	* First allocate and initialize a context for the
				6096	* child.
				6097	*/
				6098
Peter Zijlstra	eb18447	2010-09-07 15:55:13 +0200	[diff] [blame]	6099	child_ctx = alloc_perf_context(event->pmu, child);
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	6100	if (!child_ctx)
				6101	return -ENOMEM;
				6102
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	6103	child->perf_event_ctxp[ctxn] = child_ctx;
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	6104	}
				6105
				6106	ret = inherit_group(event, parent, parent_ctx,
				6107	child, child_ctx);
				6108
				6109	if (ret)
				6110	*inherited_all = 0;
				6111
				6112	return ret;
				6113	}
				6114
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6115	/*
				6116	* Initialize the perf_event context in task_struct
				6117	*/
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	6118	int perf_event_init_context(struct task_struct *child, int ctxn)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6119	{
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	6120	struct perf_event_context child_ctx, parent_ctx;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6121	struct perf_event_context *cloned_ctx;
				6122	struct perf_event *event;
				6123	struct task_struct *parent = current;
				6124	int inherited_all = 1;
				6125	int ret = 0;
				6126
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	6127	child->perf_event_ctxp[ctxn] = NULL;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6128
				6129	mutex_init(&child->perf_event_mutex);
				6130	INIT_LIST_HEAD(&child->perf_event_list);
				6131
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	6132	if (likely(!parent->perf_event_ctxp[ctxn]))
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6133	return 0;
				6134
				6135	/*
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6136	* If the parent's context is a clone, pin it so it won't get
				6137	* swapped under us.
				6138	*/
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	6139	parent_ctx = perf_pin_task_context(parent, ctxn);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6140
				6141	/*
				6142	* No need to check if parent_ctx != NULL here; since we saw
				6143	* it non-NULL earlier, the only reason for it to become NULL
				6144	* is if we exit, and since we're currently in the middle of
				6145	* a fork we can't be exiting at the same time.
				6146	*/
				6147
				6148	/*
				6149	* Lock the parent list. No need to lock the child - not PID
				6150	* hashed yet and not running, so nobody can access it.
				6151	*/
				6152	mutex_lock(&parent_ctx->mutex);
				6153
				6154	/*
				6155	* We dont have to disable NMIs - we are only looking at
				6156	* the list, not manipulating it:
				6157	*/
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	6158	list_for_each_entry(event, &parent_ctx->pinned_groups, group_entry) {
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	6159	ret = inherit_task_group(event, parent, parent_ctx,
				6160	child, ctxn, &inherited_all);
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	6161	if (ret)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6162	break;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6163	}
				6164
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	6165	list_for_each_entry(event, &parent_ctx->flexible_groups, group_entry) {
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	6166	ret = inherit_task_group(event, parent, parent_ctx,
				6167	child, ctxn, &inherited_all);
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	6168	if (ret)
				6169	break;
				6170	}
				6171
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	6172	child_ctx = child->perf_event_ctxp[ctxn];
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	6173
Peter Zijlstra	05cbaa2	2009-12-30 16:00:35 +0100	[diff] [blame]	6174	if (child_ctx && inherited_all) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6175	/*
				6176	* Mark the child context as a clone of the parent
				6177	* context, or of whatever the parent is a clone of.
				6178	* Note that if the parent is a clone, it could get
				6179	* uncloned at any point, but that doesn't matter
				6180	* because the list of events and the generation
				6181	* count can't have changed since we took the mutex.
				6182	*/
				6183	cloned_ctx = rcu_dereference(parent_ctx->parent_ctx);
				6184	if (cloned_ctx) {
				6185	child_ctx->parent_ctx = cloned_ctx;
				6186	child_ctx->parent_gen = parent_ctx->parent_gen;
				6187	} else {
				6188	child_ctx->parent_ctx = parent_ctx;
				6189	child_ctx->parent_gen = parent_ctx->generation;
				6190	}
				6191	get_ctx(child_ctx->parent_ctx);
				6192	}
				6193
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6194	mutex_unlock(&parent_ctx->mutex);
				6195
				6196	perf_unpin_context(parent_ctx);
				6197
				6198	return ret;
				6199	}
				6200
Peter Zijlstra	8dc85d547	2010-09-02 16:50:03 +0200	[diff] [blame]	6201	/*
				6202	* Initialize the perf_event context in task_struct
				6203	*/
				6204	int perf_event_init_task(struct task_struct *child)
				6205	{
				6206	int ctxn, ret;
				6207
				6208	for_each_task_context_nr(ctxn) {
				6209	ret = perf_event_init_context(child, ctxn);
				6210	if (ret)
				6211	return ret;
				6212	}
				6213
				6214	return 0;
				6215	}
				6216
Paul Mackerras	220b140	2010-03-10 20:45:52 +1100	[diff] [blame]	6217	static void __init perf_event_init_all_cpus(void)
				6218	{
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	6219	struct swevent_htable *swhash;
Paul Mackerras	220b140	2010-03-10 20:45:52 +1100	[diff] [blame]	6220	int cpu;
Paul Mackerras	220b140	2010-03-10 20:45:52 +1100	[diff] [blame]	6221
				6222	for_each_possible_cpu(cpu) {
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	6223	swhash = &per_cpu(swevent_htable, cpu);
				6224	mutex_init(&swhash->hlist_mutex);
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	6225	INIT_LIST_HEAD(&per_cpu(rotation_list, cpu));
Paul Mackerras	220b140	2010-03-10 20:45:52 +1100	[diff] [blame]	6226	}
				6227	}
				6228
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6229	static void __cpuinit perf_event_init_cpu(int cpu)
				6230	{
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	6231	struct swevent_htable *swhash = &per_cpu(swevent_htable, cpu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6232
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	6233	mutex_lock(&swhash->hlist_mutex);
				6234	if (swhash->hlist_refcount > 0) {
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	6235	struct swevent_hlist *hlist;
				6236
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	6237	hlist = kzalloc_node(sizeof(*hlist), GFP_KERNEL, cpu_to_node(cpu));
				6238	WARN_ON(!hlist);
				6239	rcu_assign_pointer(swhash->swevent_hlist, hlist);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	6240	}
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	6241	mutex_unlock(&swhash->hlist_mutex);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6242	}
				6243
				6244	#ifdef CONFIG_HOTPLUG_CPU
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	6245	static void perf_pmu_rotate_stop(struct pmu *pmu)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6246	{
Peter Zijlstra	e9d2b06	2010-09-17 11:28:50 +0200	[diff] [blame]	6247	struct perf_cpu_context *cpuctx = this_cpu_ptr(pmu->pmu_cpu_context);
				6248
				6249	WARN_ON(!irqs_disabled());
				6250
				6251	list_del_init(&cpuctx->rotation_list);
				6252	}
				6253
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	6254	static void __perf_event_exit_context(void *__info)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6255	{
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	6256	struct perf_event_context *ctx = __info;
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6257	struct perf_event event, tmp;
				6258
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	6259	perf_pmu_rotate_stop(ctx->pmu);
Peter Zijlstra	b5ab4cd	2010-09-06 16:32:21 +0200	[diff] [blame]	6260
Frederic Weisbecker	889ff01	2010-01-09 20:04:47 +0100	[diff] [blame]	6261	list_for_each_entry_safe(event, tmp, &ctx->pinned_groups, group_entry)
				6262	__perf_event_remove_from_context(event);
				6263	list_for_each_entry_safe(event, tmp, &ctx->flexible_groups, group_entry)
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6264	__perf_event_remove_from_context(event);
				6265	}
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	6266
				6267	static void perf_event_exit_cpu_context(int cpu)
				6268	{
				6269	struct perf_event_context *ctx;
				6270	struct pmu *pmu;
				6271	int idx;
				6272
				6273	idx = srcu_read_lock(&pmus_srcu);
				6274	list_for_each_entry_rcu(pmu, &pmus, entry) {
Peter Zijlstra	917bdd1	2010-09-17 11:28:49 +0200	[diff] [blame]	6275	ctx = &per_cpu_ptr(pmu->pmu_cpu_context, cpu)->ctx;
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	6276
				6277	mutex_lock(&ctx->mutex);
				6278	smp_call_function_single(cpu, __perf_event_exit_context, ctx, 1);
				6279	mutex_unlock(&ctx->mutex);
				6280	}
				6281	srcu_read_unlock(&pmus_srcu, idx);
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	6282	}
				6283
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6284	static void perf_event_exit_cpu(int cpu)
				6285	{
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	6286	struct swevent_htable *swhash = &per_cpu(swevent_htable, cpu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6287
Peter Zijlstra	b28ab83	2010-09-06 14:48:15 +0200	[diff] [blame]	6288	mutex_lock(&swhash->hlist_mutex);
				6289	swevent_hlist_release(swhash);
				6290	mutex_unlock(&swhash->hlist_mutex);
Frederic Weisbecker	76e1d90	2010-04-05 15:35:57 +0200	[diff] [blame]	6291
Peter Zijlstra	108b02c	2010-09-06 14:32:03 +0200	[diff] [blame]	6292	perf_event_exit_cpu_context(cpu);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6293	}
				6294	#else
				6295	static inline void perf_event_exit_cpu(int cpu) { }
				6296	#endif
				6297
				6298	static int __cpuinit
				6299	perf_cpu_notify(struct notifier_block self, unsigned long action, void hcpu)
				6300	{
				6301	unsigned int cpu = (long)hcpu;
				6302
Peter Zijlstra	5e11637	2010-06-11 13:35:08 +0200	[diff] [blame]	6303	switch (action & ~CPU_TASKS_FROZEN) {
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6304
				6305	case CPU_UP_PREPARE:
Peter Zijlstra	5e11637	2010-06-11 13:35:08 +0200	[diff] [blame]	6306	case CPU_DOWN_FAILED:
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6307	perf_event_init_cpu(cpu);
				6308	break;
				6309
Peter Zijlstra	5e11637	2010-06-11 13:35:08 +0200	[diff] [blame]	6310	case CPU_UP_CANCELED:
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6311	case CPU_DOWN_PREPARE:
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6312	perf_event_exit_cpu(cpu);
				6313	break;
				6314
				6315	default:
				6316	break;
				6317	}
				6318
				6319	return NOTIFY_OK;
				6320	}
				6321
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6322	void __init perf_event_init(void)
				6323	{
Paul Mackerras	220b140	2010-03-10 20:45:52 +1100	[diff] [blame]	6324	perf_event_init_all_cpus();
Peter Zijlstra	b0a873e	2010-06-11 13:35:08 +0200	[diff] [blame]	6325	init_srcu_struct(&pmus_srcu);
				6326	perf_pmu_register(&perf_swevent);
				6327	perf_pmu_register(&perf_cpu_clock);
				6328	perf_pmu_register(&perf_task_clock);
				6329	perf_tp_register();
				6330	perf_cpu_notifier(perf_cpu_notify);
Ingo Molnar	cdd6c48	2009-09-21 12:02:48 +0200	[diff] [blame]	6331	}