Blame - mm/memcontrol.c - SHIFTPHONES/kernel/common

blob: 82c065e7551e060ad476e4650d102687491e8533 [file] [log] [blame]

Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	1	/* memcontrol.c - Memory Controller
				2	*
				3	* Copyright IBM Corporation, 2007
				4	* Author Balbir Singh <balbir@linux.vnet.ibm.com>
				5	*
Pavel Emelianov	78fb746	2008-02-07 00:13:51 -0800	[diff] [blame]	6	* Copyright 2007 OpenVZ SWsoft Inc
				7	* Author: Pavel Emelianov <xemul@openvz.org>
				8	*
Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	9	* This program is free software; you can redistribute it and/or modify
				10	* it under the terms of the GNU General Public License as published by
				11	* the Free Software Foundation; either version 2 of the License, or
				12	* (at your option) any later version.
				13	*
				14	* This program is distributed in the hope that it will be useful,
				15	* but WITHOUT ANY WARRANTY; without even the implied warranty of
				16	* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
				17	* GNU General Public License for more details.
				18	*/
				19
				20	#include <linux/res_counter.h>
				21	#include <linux/memcontrol.h>
				22	#include <linux/cgroup.h>
Pavel Emelianov	78fb746	2008-02-07 00:13:51 -0800	[diff] [blame]	23	#include <linux/mm.h>
KAMEZAWA Hiroyuki	d52aa41	2008-02-07 00:14:24 -0800	[diff] [blame]	24	#include <linux/smp.h>
Balbir Singh	8a9f3cc	2008-02-07 00:13:53 -0800	[diff] [blame]	25	#include <linux/page-flags.h>
Balbir Singh	66e1707	2008-02-07 00:13:56 -0800	[diff] [blame]	26	#include <linux/backing-dev.h>
Balbir Singh	8a9f3cc	2008-02-07 00:13:53 -0800	[diff] [blame]	27	#include <linux/bit_spinlock.h>
				28	#include <linux/rcupdate.h>
Balbir Singh	b6ac57d	2008-04-29 01:00:19 -0700	[diff] [blame]	29	#include <linux/slab.h>
Balbir Singh	66e1707	2008-02-07 00:13:56 -0800	[diff] [blame]	30	#include <linux/swap.h>
				31	#include <linux/spinlock.h>
				32	#include <linux/fs.h>
KAMEZAWA Hiroyuki	d2ceb9b	2008-02-07 00:14:25 -0800	[diff] [blame]	33	#include <linux/seq_file.h>
KAMEZAWA Hiroyuki	3332794	2008-04-29 01:00:24 -0700	[diff] [blame]	34	#include <linux/vmalloc.h>
Christoph Lameter	b69408e	2008-10-18 20:26:14 -0700	[diff] [blame]	35	#include <linux/mm_inline.h>
Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	36
Balbir Singh	8697d33	2008-02-07 00:13:59 -0800	[diff] [blame]	37	#include <asm/uaccess.h>
				38
KAMEZAWA Hiroyuki	a181b0e	2008-07-25 01:47:08 -0700	[diff] [blame]	39	struct cgroup_subsys mem_cgroup_subsys __read_mostly;
				40	static struct kmem_cache *page_cgroup_cache __read_mostly;
				41	#define MEM_CGROUP_RECLAIM_RETRIES 5
Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	42
				43	/*
KAMEZAWA Hiroyuki	d52aa41	2008-02-07 00:14:24 -0800	[diff] [blame]	44	* Statistics for memory cgroup.
				45	*/
				46	enum mem_cgroup_stat_index {
				47	/*
				48	* For MEM_CONTAINER_TYPE_ALL, usage = pagecache + rss.
				49	*/
				50	MEM_CGROUP_STAT_CACHE, /* # of pages charged as cache */
				51	MEM_CGROUP_STAT_RSS, /* # of pages charged as rss */
Balaji Rao	55e462b	2008-05-01 04:35:12 -0700	[diff] [blame]	52	MEM_CGROUP_STAT_PGPGIN_COUNT, /* # of pages paged in */
				53	MEM_CGROUP_STAT_PGPGOUT_COUNT, /* # of pages paged out */
KAMEZAWA Hiroyuki	d52aa41	2008-02-07 00:14:24 -0800	[diff] [blame]	54
				55	MEM_CGROUP_STAT_NSTATS,
				56	};
				57
				58	struct mem_cgroup_stat_cpu {
				59	s64 count[MEM_CGROUP_STAT_NSTATS];
				60	} ____cacheline_aligned_in_smp;
				61
				62	struct mem_cgroup_stat {
				63	struct mem_cgroup_stat_cpu cpustat[NR_CPUS];
				64	};
				65
				66	/*
				67	* For accounting under irq disable, no need for increment preempt count.
				68	*/
				69	static void __mem_cgroup_stat_add_safe(struct mem_cgroup_stat *stat,
				70	enum mem_cgroup_stat_index idx, int val)
				71	{
				72	int cpu = smp_processor_id();
				73	stat->cpustat[cpu].count[idx] += val;
				74	}
				75
				76	static s64 mem_cgroup_read_stat(struct mem_cgroup_stat *stat,
				77	enum mem_cgroup_stat_index idx)
				78	{
				79	int cpu;
				80	s64 ret = 0;
				81	for_each_possible_cpu(cpu)
				82	ret += stat->cpustat[cpu].count[idx];
				83	return ret;
				84	}
				85
				86	/*
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	87	* per-zone information in memory controller.
				88	*/
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	89	struct mem_cgroup_per_zone {
KAMEZAWA Hiroyuki	072c56c1	2008-02-07 00:14:39 -0800	[diff] [blame]	90	/*
				91	* spin_lock to protect the per cgroup LRU
				92	*/
				93	spinlock_t lru_lock;
Christoph Lameter	b69408e	2008-10-18 20:26:14 -0700	[diff] [blame]	94	struct list_head lists[NR_LRU_LISTS];
				95	unsigned long count[NR_LRU_LISTS];
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	96	};
				97	/* Macro for accessing counter */
				98	#define MEM_CGROUP_ZSTAT(mz, idx) ((mz)->count[(idx)])
				99
				100	struct mem_cgroup_per_node {
				101	struct mem_cgroup_per_zone zoneinfo[MAX_NR_ZONES];
				102	};
				103
				104	struct mem_cgroup_lru_info {
				105	struct mem_cgroup_per_node *nodeinfo[MAX_NUMNODES];
				106	};
				107
				108	/*
Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	109	* The memory controller data structure. The memory controller controls both
				110	* page cache and RSS per cgroup. We would eventually like to provide
				111	* statistics based on the statistics developed by Rik Van Riel for clock-pro,
				112	* to help the administrator determine what knobs to tune.
				113	*
				114	* TODO: Add a water mark for the memory controller. Reclaim will begin when
Balbir Singh	8a9f3cc	2008-02-07 00:13:53 -0800	[diff] [blame]	115	* we hit the water mark. May be even add a low water mark, such that
				116	* no reclaim occurs from a cgroup at it's low water mark, this is
				117	* a feature that will be implemented much later in the future.
Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	118	*/
				119	struct mem_cgroup {
				120	struct cgroup_subsys_state css;
				121	/*
				122	* the counter to account for memory usage
				123	*/
				124	struct res_counter res;
Pavel Emelianov	78fb746	2008-02-07 00:13:51 -0800	[diff] [blame]	125	/*
				126	* Per cgroup active and inactive list, similar to the
				127	* per zone LRU lists.
Pavel Emelianov	78fb746	2008-02-07 00:13:51 -0800	[diff] [blame]	128	*/
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	129	struct mem_cgroup_lru_info info;
KAMEZAWA Hiroyuki	072c56c1	2008-02-07 00:14:39 -0800	[diff] [blame]	130
KAMEZAWA Hiroyuki	6c48a1d	2008-02-07 00:14:34 -0800	[diff] [blame]	131	int prev_priority; /* for recording reclaim priority */
KAMEZAWA Hiroyuki	d52aa41	2008-02-07 00:14:24 -0800	[diff] [blame]	132	/*
				133	* statistics.
				134	*/
				135	struct mem_cgroup_stat stat;
Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	136	};
Hugh Dickins	8869b8f	2008-03-04 14:29:09 -0800	[diff] [blame]	137	static struct mem_cgroup init_mem_cgroup;
Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	138
				139	/*
Balbir Singh	8a9f3cc	2008-02-07 00:13:53 -0800	[diff] [blame]	140	* We use the lower bit of the page->page_cgroup pointer as a bit spin
Hugh Dickins	9442ec9	2008-03-04 14:29:07 -0800	[diff] [blame]	141	* lock. We need to ensure that page->page_cgroup is at least two
				142	* byte aligned (based on comments from Nick Piggin). But since
				143	* bit_spin_lock doesn't actually set that lock bit in a non-debug
				144	* uniprocessor kernel, we should avoid setting it here too.
Balbir Singh	8a9f3cc	2008-02-07 00:13:53 -0800	[diff] [blame]	145	*/
				146	#define PAGE_CGROUP_LOCK_BIT 0x0
Hugh Dickins	9442ec9	2008-03-04 14:29:07 -0800	[diff] [blame]	147	#if defined(CONFIG_SMP) \|\| defined(CONFIG_DEBUG_SPINLOCK)
				148	#define PAGE_CGROUP_LOCK (1 << PAGE_CGROUP_LOCK_BIT)
				149	#else
				150	#define PAGE_CGROUP_LOCK 0x0
				151	#endif
Balbir Singh	8a9f3cc	2008-02-07 00:13:53 -0800	[diff] [blame]	152
				153	/*
Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	154	* A page_cgroup page is associated with every page descriptor. The
				155	* page_cgroup helps us identify information about the cgroup
				156	*/
				157	struct page_cgroup {
				158	struct list_head lru; /* per cgroup LRU list */
				159	struct page *page;
				160	struct mem_cgroup *mem_cgroup;
Hugh Dickins	8869b8f	2008-03-04 14:29:09 -0800	[diff] [blame]	161	int flags;
Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	162	};
Lee Schermerhorn	894bc31	2008-10-18 20:26:39 -0700	[diff] [blame^]	163	#define PAGE_CGROUP_FLAG_CACHE (0x1) /* charged as cache */
				164	#define PAGE_CGROUP_FLAG_ACTIVE (0x2) /* page is active in this cgroup */
				165	#define PAGE_CGROUP_FLAG_FILE (0x4) /* page is file system backed */
				166	#define PAGE_CGROUP_FLAG_UNEVICTABLE (0x8) /* page is unevictableable */
Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	167
Hugh Dickins	d5b69e3	2008-03-04 14:29:10 -0800	[diff] [blame]	168	static int page_cgroup_nid(struct page_cgroup *pc)
KAMEZAWA Hiroyuki	c0149530	2008-02-07 00:14:30 -0800	[diff] [blame]	169	{
				170	return page_to_nid(pc->page);
				171	}
				172
Hugh Dickins	d5b69e3	2008-03-04 14:29:10 -0800	[diff] [blame]	173	static enum zone_type page_cgroup_zid(struct page_cgroup *pc)
KAMEZAWA Hiroyuki	c0149530	2008-02-07 00:14:30 -0800	[diff] [blame]	174	{
				175	return page_zonenum(pc->page);
				176	}
				177
KAMEZAWA Hiroyuki	217bc31	2008-02-07 00:14:17 -0800	[diff] [blame]	178	enum charge_type {
				179	MEM_CGROUP_CHARGE_TYPE_CACHE = 0,
				180	MEM_CGROUP_CHARGE_TYPE_MAPPED,
KAMEZAWA Hiroyuki	69029cd	2008-07-25 01:47:14 -0700	[diff] [blame]	181	MEM_CGROUP_CHARGE_TYPE_FORCE, /* used by force_empty */
Rik van Riel	4f98a2f	2008-10-18 20:26:32 -0700	[diff] [blame]	182	MEM_CGROUP_CHARGE_TYPE_SHMEM, /* used by page migration of shmem */
KAMEZAWA Hiroyuki	217bc31	2008-02-07 00:14:17 -0800	[diff] [blame]	183	};
				184
KAMEZAWA Hiroyuki	d52aa41	2008-02-07 00:14:24 -0800	[diff] [blame]	185	/*
				186	* Always modified under lru lock. Then, not necessary to preempt_disable()
				187	*/
				188	static void mem_cgroup_charge_statistics(struct mem_cgroup *mem, int flags,
				189	bool charge)
				190	{
				191	int val = (charge)? 1 : -1;
				192	struct mem_cgroup_stat *stat = &mem->stat;
KAMEZAWA Hiroyuki	d52aa41	2008-02-07 00:14:24 -0800	[diff] [blame]	193
Hugh Dickins	8869b8f	2008-03-04 14:29:09 -0800	[diff] [blame]	194	VM_BUG_ON(!irqs_disabled());
KAMEZAWA Hiroyuki	d52aa41	2008-02-07 00:14:24 -0800	[diff] [blame]	195	if (flags & PAGE_CGROUP_FLAG_CACHE)
Hugh Dickins	8869b8f	2008-03-04 14:29:09 -0800	[diff] [blame]	196	__mem_cgroup_stat_add_safe(stat, MEM_CGROUP_STAT_CACHE, val);
KAMEZAWA Hiroyuki	d52aa41	2008-02-07 00:14:24 -0800	[diff] [blame]	197	else
				198	__mem_cgroup_stat_add_safe(stat, MEM_CGROUP_STAT_RSS, val);
Balaji Rao	55e462b	2008-05-01 04:35:12 -0700	[diff] [blame]	199
				200	if (charge)
				201	__mem_cgroup_stat_add_safe(stat,
				202	MEM_CGROUP_STAT_PGPGIN_COUNT, 1);
				203	else
				204	__mem_cgroup_stat_add_safe(stat,
				205	MEM_CGROUP_STAT_PGPGOUT_COUNT, 1);
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	206	}
KAMEZAWA Hiroyuki	d52aa41	2008-02-07 00:14:24 -0800	[diff] [blame]	207
Hugh Dickins	d5b69e3	2008-03-04 14:29:10 -0800	[diff] [blame]	208	static struct mem_cgroup_per_zone *
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	209	mem_cgroup_zoneinfo(struct mem_cgroup *mem, int nid, int zid)
				210	{
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	211	return &mem->info.nodeinfo[nid]->zoneinfo[zid];
				212	}
				213
Hugh Dickins	d5b69e3	2008-03-04 14:29:10 -0800	[diff] [blame]	214	static struct mem_cgroup_per_zone *
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	215	page_cgroup_zoneinfo(struct page_cgroup *pc)
				216	{
				217	struct mem_cgroup *mem = pc->mem_cgroup;
				218	int nid = page_cgroup_nid(pc);
				219	int zid = page_cgroup_zid(pc);
				220
				221	return mem_cgroup_zoneinfo(mem, nid, zid);
				222	}
				223
				224	static unsigned long mem_cgroup_get_all_zonestat(struct mem_cgroup *mem,
Christoph Lameter	b69408e	2008-10-18 20:26:14 -0700	[diff] [blame]	225	enum lru_list idx)
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	226	{
				227	int nid, zid;
				228	struct mem_cgroup_per_zone *mz;
				229	u64 total = 0;
				230
				231	for_each_online_node(nid)
				232	for (zid = 0; zid < MAX_NR_ZONES; zid++) {
				233	mz = mem_cgroup_zoneinfo(mem, nid, zid);
				234	total += MEM_CGROUP_ZSTAT(mz, idx);
				235	}
				236	return total;
KAMEZAWA Hiroyuki	d52aa41	2008-02-07 00:14:24 -0800	[diff] [blame]	237	}
				238
Hugh Dickins	d5b69e3	2008-03-04 14:29:10 -0800	[diff] [blame]	239	static struct mem_cgroup mem_cgroup_from_cont(struct cgroup cont)
Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	240	{
				241	return container_of(cgroup_subsys_state(cont,
				242	mem_cgroup_subsys_id), struct mem_cgroup,
				243	css);
				244	}
				245
Balbir Singh	cf475ad	2008-04-29 01:00:16 -0700	[diff] [blame]	246	struct mem_cgroup mem_cgroup_from_task(struct task_struct p)
Pavel Emelianov	78fb746	2008-02-07 00:13:51 -0800	[diff] [blame]	247	{
Balbir Singh	31a78f2	2008-09-28 23:09:31 +0100	[diff] [blame]	248	/*
				249	* mm_update_next_owner() may clear mm->owner to NULL
				250	* if it races with swapoff, page migration, etc.
				251	* So this can be called with p == NULL.
				252	*/
				253	if (unlikely(!p))
				254	return NULL;
				255
Pavel Emelianov	78fb746	2008-02-07 00:13:51 -0800	[diff] [blame]	256	return container_of(task_subsys_state(p, mem_cgroup_subsys_id),
				257	struct mem_cgroup, css);
				258	}
				259
Balbir Singh	8a9f3cc	2008-02-07 00:13:53 -0800	[diff] [blame]	260	static inline int page_cgroup_locked(struct page *page)
				261	{
Hugh Dickins	8869b8f	2008-03-04 14:29:09 -0800	[diff] [blame]	262	return bit_spin_is_locked(PAGE_CGROUP_LOCK_BIT, &page->page_cgroup);
Balbir Singh	8a9f3cc	2008-02-07 00:13:53 -0800	[diff] [blame]	263	}
				264
Hugh Dickins	9442ec9	2008-03-04 14:29:07 -0800	[diff] [blame]	265	static void page_assign_page_cgroup(struct page page, struct page_cgroup pc)
Pavel Emelianov	78fb746	2008-02-07 00:13:51 -0800	[diff] [blame]	266	{
Hugh Dickins	9442ec9	2008-03-04 14:29:07 -0800	[diff] [blame]	267	VM_BUG_ON(!page_cgroup_locked(page));
				268	page->page_cgroup = ((unsigned long)pc \| PAGE_CGROUP_LOCK);
Pavel Emelianov	78fb746	2008-02-07 00:13:51 -0800	[diff] [blame]	269	}
				270
				271	struct page_cgroup page_get_page_cgroup(struct page page)
				272	{
Hugh Dickins	8869b8f	2008-03-04 14:29:09 -0800	[diff] [blame]	273	return (struct page_cgroup *) (page->page_cgroup & ~PAGE_CGROUP_LOCK);
Balbir Singh	8a9f3cc	2008-02-07 00:13:53 -0800	[diff] [blame]	274	}
				275
Hugh Dickins	d5b69e3	2008-03-04 14:29:10 -0800	[diff] [blame]	276	static void lock_page_cgroup(struct page *page)
Balbir Singh	8a9f3cc	2008-02-07 00:13:53 -0800	[diff] [blame]	277	{
				278	bit_spin_lock(PAGE_CGROUP_LOCK_BIT, &page->page_cgroup);
Balbir Singh	8a9f3cc	2008-02-07 00:13:53 -0800	[diff] [blame]	279	}
				280
Hugh Dickins	2680eed	2008-03-04 14:29:13 -0800	[diff] [blame]	281	static int try_lock_page_cgroup(struct page *page)
				282	{
				283	return bit_spin_trylock(PAGE_CGROUP_LOCK_BIT, &page->page_cgroup);
				284	}
				285
Hugh Dickins	d5b69e3	2008-03-04 14:29:10 -0800	[diff] [blame]	286	static void unlock_page_cgroup(struct page *page)
Balbir Singh	8a9f3cc	2008-02-07 00:13:53 -0800	[diff] [blame]	287	{
				288	bit_spin_unlock(PAGE_CGROUP_LOCK_BIT, &page->page_cgroup);
				289	}
				290
KAMEZAWA Hiroyuki	3eae90c	2008-04-29 01:00:22 -0700	[diff] [blame]	291	static void __mem_cgroup_remove_list(struct mem_cgroup_per_zone *mz,
				292	struct page_cgroup *pc)
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	293	{
Rik van Riel	4f98a2f	2008-10-18 20:26:32 -0700	[diff] [blame]	294	int lru = LRU_BASE;
				295
Lee Schermerhorn	894bc31	2008-10-18 20:26:39 -0700	[diff] [blame^]	296	if (pc->flags & PAGE_CGROUP_FLAG_UNEVICTABLE)
				297	lru = LRU_UNEVICTABLE;
				298	else {
				299	if (pc->flags & PAGE_CGROUP_FLAG_ACTIVE)
				300	lru += LRU_ACTIVE;
				301	if (pc->flags & PAGE_CGROUP_FLAG_FILE)
				302	lru += LRU_FILE;
				303	}
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	304
Christoph Lameter	b69408e	2008-10-18 20:26:14 -0700	[diff] [blame]	305	MEM_CGROUP_ZSTAT(mz, lru) -= 1;
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	306
				307	mem_cgroup_charge_statistics(pc->mem_cgroup, pc->flags, false);
KAMEZAWA Hiroyuki	508b7be	2008-07-25 01:47:09 -0700	[diff] [blame]	308	list_del(&pc->lru);
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	309	}
				310
KAMEZAWA Hiroyuki	3eae90c	2008-04-29 01:00:22 -0700	[diff] [blame]	311	static void __mem_cgroup_add_list(struct mem_cgroup_per_zone *mz,
				312	struct page_cgroup *pc)
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	313	{
Rik van Riel	4f98a2f	2008-10-18 20:26:32 -0700	[diff] [blame]	314	int lru = LRU_BASE;
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	315
Lee Schermerhorn	894bc31	2008-10-18 20:26:39 -0700	[diff] [blame^]	316	if (pc->flags & PAGE_CGROUP_FLAG_UNEVICTABLE)
				317	lru = LRU_UNEVICTABLE;
				318	else {
				319	if (pc->flags & PAGE_CGROUP_FLAG_ACTIVE)
				320	lru += LRU_ACTIVE;
				321	if (pc->flags & PAGE_CGROUP_FLAG_FILE)
				322	lru += LRU_FILE;
				323	}
Christoph Lameter	b69408e	2008-10-18 20:26:14 -0700	[diff] [blame]	324
				325	MEM_CGROUP_ZSTAT(mz, lru) += 1;
				326	list_add(&pc->lru, &mz->lists[lru]);
				327
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	328	mem_cgroup_charge_statistics(pc->mem_cgroup, pc->flags, true);
				329	}
				330
Lee Schermerhorn	894bc31	2008-10-18 20:26:39 -0700	[diff] [blame^]	331	static void __mem_cgroup_move_lists(struct page_cgroup *pc, enum lru_list lru)
Balbir Singh	66e1707	2008-02-07 00:13:56 -0800	[diff] [blame]	332	{
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	333	struct mem_cgroup_per_zone *mz = page_cgroup_zoneinfo(pc);
Lee Schermerhorn	894bc31	2008-10-18 20:26:39 -0700	[diff] [blame^]	334	int active = pc->flags & PAGE_CGROUP_FLAG_ACTIVE;
				335	int file = pc->flags & PAGE_CGROUP_FLAG_FILE;
				336	int unevictable = pc->flags & PAGE_CGROUP_FLAG_UNEVICTABLE;
				337	enum lru_list from = unevictable ? LRU_UNEVICTABLE :
				338	(LRU_FILE * !!file + !!active);
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	339
Lee Schermerhorn	894bc31	2008-10-18 20:26:39 -0700	[diff] [blame^]	340	if (lru == from)
				341	return;
Christoph Lameter	b69408e	2008-10-18 20:26:14 -0700	[diff] [blame]	342
Lee Schermerhorn	894bc31	2008-10-18 20:26:39 -0700	[diff] [blame^]	343	MEM_CGROUP_ZSTAT(mz, from) -= 1;
				344
				345	if (is_unevictable_lru(lru)) {
KAMEZAWA Hiroyuki	3564c7c	2008-02-07 00:14:23 -0800	[diff] [blame]	346	pc->flags &= ~PAGE_CGROUP_FLAG_ACTIVE;
Lee Schermerhorn	894bc31	2008-10-18 20:26:39 -0700	[diff] [blame^]	347	pc->flags \|= PAGE_CGROUP_FLAG_UNEVICTABLE;
				348	} else {
				349	if (is_active_lru(lru))
				350	pc->flags \|= PAGE_CGROUP_FLAG_ACTIVE;
				351	else
				352	pc->flags &= ~PAGE_CGROUP_FLAG_ACTIVE;
				353	pc->flags &= ~PAGE_CGROUP_FLAG_UNEVICTABLE;
				354	}
Christoph Lameter	b69408e	2008-10-18 20:26:14 -0700	[diff] [blame]	355
Christoph Lameter	b69408e	2008-10-18 20:26:14 -0700	[diff] [blame]	356	MEM_CGROUP_ZSTAT(mz, lru) += 1;
				357	list_move(&pc->lru, &mz->lists[lru]);
Balbir Singh	66e1707	2008-02-07 00:13:56 -0800	[diff] [blame]	358	}
				359
David Rientjes	4c4a221	2008-02-07 00:14:06 -0800	[diff] [blame]	360	int task_in_mem_cgroup(struct task_struct task, const struct mem_cgroup mem)
				361	{
				362	int ret;
				363
				364	task_lock(task);
Hugh Dickins	bd845e3	2008-03-04 14:29:01 -0800	[diff] [blame]	365	ret = task->mm && mm_match_cgroup(task->mm, mem);
David Rientjes	4c4a221	2008-02-07 00:14:06 -0800	[diff] [blame]	366	task_unlock(task);
				367	return ret;
				368	}
				369
Balbir Singh	66e1707	2008-02-07 00:13:56 -0800	[diff] [blame]	370	/*
				371	* This routine assumes that the appropriate zone's lru lock is already held
				372	*/
Lee Schermerhorn	894bc31	2008-10-18 20:26:39 -0700	[diff] [blame^]	373	void mem_cgroup_move_lists(struct page *page, enum lru_list lru)
Balbir Singh	66e1707	2008-02-07 00:13:56 -0800	[diff] [blame]	374	{
Hugh Dickins	427d541	2008-03-04 14:29:03 -0800	[diff] [blame]	375	struct page_cgroup *pc;
KAMEZAWA Hiroyuki	072c56c1	2008-02-07 00:14:39 -0800	[diff] [blame]	376	struct mem_cgroup_per_zone *mz;
				377	unsigned long flags;
				378
Li Zefan	cede86a	2008-07-25 01:47:18 -0700	[diff] [blame]	379	if (mem_cgroup_subsys.disabled)
				380	return;
				381
Hugh Dickins	2680eed	2008-03-04 14:29:13 -0800	[diff] [blame]	382	/*
				383	* We cannot lock_page_cgroup while holding zone's lru_lock,
				384	* because other holders of lock_page_cgroup can be interrupted
				385	* with an attempt to rotate_reclaimable_page. But we cannot
				386	* safely get to page_cgroup without it, so just try_lock it:
				387	* mem_cgroup_isolate_pages allows for page left on wrong list.
				388	*/
				389	if (!try_lock_page_cgroup(page))
Balbir Singh	66e1707	2008-02-07 00:13:56 -0800	[diff] [blame]	390	return;
				391
Hugh Dickins	2680eed	2008-03-04 14:29:13 -0800	[diff] [blame]	392	pc = page_get_page_cgroup(page);
				393	if (pc) {
Hugh Dickins	2680eed	2008-03-04 14:29:13 -0800	[diff] [blame]	394	mz = page_cgroup_zoneinfo(pc);
Hugh Dickins	2680eed	2008-03-04 14:29:13 -0800	[diff] [blame]	395	spin_lock_irqsave(&mz->lru_lock, flags);
Lee Schermerhorn	894bc31	2008-10-18 20:26:39 -0700	[diff] [blame^]	396	__mem_cgroup_move_lists(pc, lru);
Hugh Dickins	2680eed	2008-03-04 14:29:13 -0800	[diff] [blame]	397	spin_unlock_irqrestore(&mz->lru_lock, flags);
Hirokazu Takahashi	9b3c0a0	2008-03-04 14:29:15 -0800	[diff] [blame]	398	}
				399	unlock_page_cgroup(page);
Balbir Singh	66e1707	2008-02-07 00:13:56 -0800	[diff] [blame]	400	}
				401
KAMEZAWA Hiroyuki	58ae83d	2008-02-07 00:14:32 -0800	[diff] [blame]	402	/*
				403	* Calculate mapped_ratio under memory controller. This will be used in
				404	* vmscan.c for deteremining we have to reclaim mapped pages.
				405	*/
				406	int mem_cgroup_calc_mapped_ratio(struct mem_cgroup *mem)
				407	{
				408	long total, rss;
				409
				410	/*
				411	* usage is recorded in bytes. But, here, we assume the number of
				412	* physical pages can be represented by "long" on any arch.
				413	*/
				414	total = (long) (mem->res.usage >> PAGE_SHIFT) + 1L;
				415	rss = (long)mem_cgroup_read_stat(&mem->stat, MEM_CGROUP_STAT_RSS);
				416	return (int)((rss * 100L) / total);
				417	}
Hugh Dickins	8869b8f	2008-03-04 14:29:09 -0800	[diff] [blame]	418
KAMEZAWA Hiroyuki	5932f36	2008-02-07 00:14:33 -0800	[diff] [blame]	419	/*
KAMEZAWA Hiroyuki	6c48a1d	2008-02-07 00:14:34 -0800	[diff] [blame]	420	* prev_priority control...this will be used in memory reclaim path.
				421	*/
				422	int mem_cgroup_get_reclaim_priority(struct mem_cgroup *mem)
				423	{
				424	return mem->prev_priority;
				425	}
				426
				427	void mem_cgroup_note_reclaim_priority(struct mem_cgroup *mem, int priority)
				428	{
				429	if (priority < mem->prev_priority)
				430	mem->prev_priority = priority;
				431	}
				432
				433	void mem_cgroup_record_reclaim_priority(struct mem_cgroup *mem, int priority)
				434	{
				435	mem->prev_priority = priority;
				436	}
				437
KAMEZAWA Hiroyuki	cc38108	2008-02-07 00:14:35 -0800	[diff] [blame]	438	/*
				439	* Calculate # of pages to be scanned in this priority/zone.
				440	* See also vmscan.c
				441	*
				442	* priority starts from "DEF_PRIORITY" and decremented in each loop.
				443	* (see include/linux/mmzone.h)
				444	*/
				445
Christoph Lameter	b69408e	2008-10-18 20:26:14 -0700	[diff] [blame]	446	long mem_cgroup_calc_reclaim(struct mem_cgroup mem, struct zone zone,
				447	int priority, enum lru_list lru)
KAMEZAWA Hiroyuki	cc38108	2008-02-07 00:14:35 -0800	[diff] [blame]	448	{
Christoph Lameter	b69408e	2008-10-18 20:26:14 -0700	[diff] [blame]	449	long nr_pages;
KAMEZAWA Hiroyuki	cc38108	2008-02-07 00:14:35 -0800	[diff] [blame]	450	int nid = zone->zone_pgdat->node_id;
				451	int zid = zone_idx(zone);
				452	struct mem_cgroup_per_zone *mz = mem_cgroup_zoneinfo(mem, nid, zid);
				453
Christoph Lameter	b69408e	2008-10-18 20:26:14 -0700	[diff] [blame]	454	nr_pages = MEM_CGROUP_ZSTAT(mz, lru);
KAMEZAWA Hiroyuki	cc38108	2008-02-07 00:14:35 -0800	[diff] [blame]	455
Christoph Lameter	b69408e	2008-10-18 20:26:14 -0700	[diff] [blame]	456	return (nr_pages >> priority);
KAMEZAWA Hiroyuki	cc38108	2008-02-07 00:14:35 -0800	[diff] [blame]	457	}
				458
Balbir Singh	66e1707	2008-02-07 00:13:56 -0800	[diff] [blame]	459	unsigned long mem_cgroup_isolate_pages(unsigned long nr_to_scan,
				460	struct list_head *dst,
				461	unsigned long *scanned, int order,
				462	int mode, struct zone *z,
				463	struct mem_cgroup *mem_cont,
Rik van Riel	4f98a2f	2008-10-18 20:26:32 -0700	[diff] [blame]	464	int active, int file)
Balbir Singh	66e1707	2008-02-07 00:13:56 -0800	[diff] [blame]	465	{
				466	unsigned long nr_taken = 0;
				467	struct page *page;
				468	unsigned long scan;
				469	LIST_HEAD(pc_list);
				470	struct list_head *src;
KAMEZAWA Hiroyuki	ff7283f	2008-02-07 00:14:11 -0800	[diff] [blame]	471	struct page_cgroup pc, tmp;
KAMEZAWA Hiroyuki	1ecaab2	2008-02-07 00:14:38 -0800	[diff] [blame]	472	int nid = z->zone_pgdat->node_id;
				473	int zid = zone_idx(z);
				474	struct mem_cgroup_per_zone *mz;
Rik van Riel	4f98a2f	2008-10-18 20:26:32 -0700	[diff] [blame]	475	int lru = LRU_FILE * !!file + !!active;
Balbir Singh	66e1707	2008-02-07 00:13:56 -0800	[diff] [blame]	476
Balbir Singh	cf475ad	2008-04-29 01:00:16 -0700	[diff] [blame]	477	BUG_ON(!mem_cont);
KAMEZAWA Hiroyuki	1ecaab2	2008-02-07 00:14:38 -0800	[diff] [blame]	478	mz = mem_cgroup_zoneinfo(mem_cont, nid, zid);
Christoph Lameter	b69408e	2008-10-18 20:26:14 -0700	[diff] [blame]	479	src = &mz->lists[lru];
Balbir Singh	66e1707	2008-02-07 00:13:56 -0800	[diff] [blame]	480
KAMEZAWA Hiroyuki	072c56c1	2008-02-07 00:14:39 -0800	[diff] [blame]	481	spin_lock(&mz->lru_lock);
KAMEZAWA Hiroyuki	ff7283f	2008-02-07 00:14:11 -0800	[diff] [blame]	482	scan = 0;
				483	list_for_each_entry_safe_reverse(pc, tmp, src, lru) {
Hugh Dickins	436c6541	2008-02-07 00:14:12 -0800	[diff] [blame]	484	if (scan >= nr_to_scan)
KAMEZAWA Hiroyuki	ff7283f	2008-02-07 00:14:11 -0800	[diff] [blame]	485	break;
Balbir Singh	66e1707	2008-02-07 00:13:56 -0800	[diff] [blame]	486	page = pc->page;
Balbir Singh	66e1707	2008-02-07 00:13:56 -0800	[diff] [blame]	487
Hugh Dickins	436c6541	2008-02-07 00:14:12 -0800	[diff] [blame]	488	if (unlikely(!PageLRU(page)))
KAMEZAWA Hiroyuki	ff7283f	2008-02-07 00:14:11 -0800	[diff] [blame]	489	continue;
KAMEZAWA Hiroyuki	ff7283f	2008-02-07 00:14:11 -0800	[diff] [blame]	490
Rik van Riel	4f98a2f	2008-10-18 20:26:32 -0700	[diff] [blame]	491	/*
				492	* TODO: play better with lumpy reclaim, grabbing anything.
				493	*/
Lee Schermerhorn	894bc31	2008-10-18 20:26:39 -0700	[diff] [blame^]	494	if (PageUnevictable(page) \|\|
				495	(PageActive(page) && !active) \|\|
				496	(!PageActive(page) && active)) {
				497	__mem_cgroup_move_lists(pc, page_lru(page));
Balbir Singh	66e1707	2008-02-07 00:13:56 -0800	[diff] [blame]	498	continue;
				499	}
				500
Hugh Dickins	436c6541	2008-02-07 00:14:12 -0800	[diff] [blame]	501	scan++;
				502	list_move(&pc->lru, &pc_list);
Balbir Singh	66e1707	2008-02-07 00:13:56 -0800	[diff] [blame]	503
Rik van Riel	4f98a2f	2008-10-18 20:26:32 -0700	[diff] [blame]	504	if (__isolate_lru_page(page, mode, file) == 0) {
Balbir Singh	66e1707	2008-02-07 00:13:56 -0800	[diff] [blame]	505	list_move(&page->lru, dst);
				506	nr_taken++;
				507	}
				508	}
				509
				510	list_splice(&pc_list, src);
KAMEZAWA Hiroyuki	072c56c1	2008-02-07 00:14:39 -0800	[diff] [blame]	511	spin_unlock(&mz->lru_lock);
Balbir Singh	66e1707	2008-02-07 00:13:56 -0800	[diff] [blame]	512
				513	*scanned = scan;
				514	return nr_taken;
				515	}
				516
Balbir Singh	8a9f3cc	2008-02-07 00:13:53 -0800	[diff] [blame]	517	/*
				518	* Charge the memory controller for page usage.
				519	* Return
				520	* 0 if the charge was successful
				521	* < 0 if the cgroup is over its limit
				522	*/
KAMEZAWA Hiroyuki	217bc31	2008-02-07 00:14:17 -0800	[diff] [blame]	523	static int mem_cgroup_charge_common(struct page page, struct mm_struct mm,
KAMEZAWA Hiroyuki	e8589cc	2008-07-25 01:47:10 -0700	[diff] [blame]	524	gfp_t gfp_mask, enum charge_type ctype,
				525	struct mem_cgroup *memcg)
Balbir Singh	8a9f3cc	2008-02-07 00:13:53 -0800	[diff] [blame]	526	{
				527	struct mem_cgroup *mem;
KAMEZAWA Hiroyuki	9175e03	2008-02-07 00:14:08 -0800	[diff] [blame]	528	struct page_cgroup *pc;
Balbir Singh	66e1707	2008-02-07 00:13:56 -0800	[diff] [blame]	529	unsigned long flags;
				530	unsigned long nr_retries = MEM_CGROUP_RECLAIM_RETRIES;
KAMEZAWA Hiroyuki	072c56c1	2008-02-07 00:14:39 -0800	[diff] [blame]	531	struct mem_cgroup_per_zone *mz;
Balbir Singh	8a9f3cc	2008-02-07 00:13:53 -0800	[diff] [blame]	532
KAMEZAWA Hiroyuki	508b7be	2008-07-25 01:47:09 -0700	[diff] [blame]	533	pc = kmem_cache_alloc(page_cgroup_cache, gfp_mask);
KAMEZAWA Hiroyuki	b76734e	2008-07-25 01:47:16 -0700	[diff] [blame]	534	if (unlikely(pc == NULL))
Balbir Singh	8a9f3cc	2008-02-07 00:13:53 -0800	[diff] [blame]	535	goto err;
				536
Balbir Singh	8a9f3cc	2008-02-07 00:13:53 -0800	[diff] [blame]	537	/*
Hugh Dickins	3be91277	2008-02-07 00:14:19 -0800	[diff] [blame]	538	* We always charge the cgroup the mm_struct belongs to.
				539	* The mm_struct's mem_cgroup changes on task migration if the
Balbir Singh	8a9f3cc	2008-02-07 00:13:53 -0800	[diff] [blame]	540	* thread group leader migrates. It's possible that mm is not
				541	* set, if so charge the init_mm (happens for pagecache usage).
				542	*/
KAMEZAWA Hiroyuki	69029cd	2008-07-25 01:47:14 -0700	[diff] [blame]	543	if (likely(!memcg)) {
KAMEZAWA Hiroyuki	e8589cc	2008-07-25 01:47:10 -0700	[diff] [blame]	544	rcu_read_lock();
				545	mem = mem_cgroup_from_task(rcu_dereference(mm->owner));
Balbir Singh	31a78f2	2008-09-28 23:09:31 +0100	[diff] [blame]	546	if (unlikely(!mem)) {
				547	rcu_read_unlock();
				548	kmem_cache_free(page_cgroup_cache, pc);
				549	return 0;
				550	}
KAMEZAWA Hiroyuki	e8589cc	2008-07-25 01:47:10 -0700	[diff] [blame]	551	/*
				552	* For every charge from the cgroup, increment reference count
				553	*/
				554	css_get(&mem->css);
				555	rcu_read_unlock();
				556	} else {
				557	mem = memcg;
				558	css_get(&memcg->css);
				559	}
Balbir Singh	8a9f3cc	2008-02-07 00:13:53 -0800	[diff] [blame]	560
Balbir Singh	0eea103	2008-02-07 00:13:57 -0800	[diff] [blame]	561	while (res_counter_charge(&mem->res, PAGE_SIZE)) {
Hugh Dickins	3be91277	2008-02-07 00:14:19 -0800	[diff] [blame]	562	if (!(gfp_mask & __GFP_WAIT))
				563	goto out;
Balbir Singh	e1a1cd5	2008-02-07 00:14:02 -0800	[diff] [blame]	564
				565	if (try_to_free_mem_cgroup_pages(mem, gfp_mask))
Balbir Singh	66e1707	2008-02-07 00:13:56 -0800	[diff] [blame]	566	continue;
				567
				568	/*
Hugh Dickins	8869b8f	2008-03-04 14:29:09 -0800	[diff] [blame]	569	* try_to_free_mem_cgroup_pages() might not give us a full
				570	* picture of reclaim. Some pages are reclaimed and might be
				571	* moved to swap cache or just unmapped from the cgroup.
				572	* Check the limit again to see if the reclaim reduced the
				573	* current usage of the cgroup before giving up
				574	*/
Balbir Singh	66e1707	2008-02-07 00:13:56 -0800	[diff] [blame]	575	if (res_counter_check_under_limit(&mem->res))
				576	continue;
Hugh Dickins	3be91277	2008-02-07 00:14:19 -0800	[diff] [blame]	577
				578	if (!nr_retries--) {
				579	mem_cgroup_out_of_memory(mem, gfp_mask);
				580	goto out;
Balbir Singh	66e1707	2008-02-07 00:13:56 -0800	[diff] [blame]	581	}
Balbir Singh	8a9f3cc	2008-02-07 00:13:53 -0800	[diff] [blame]	582	}
				583
Balbir Singh	8a9f3cc	2008-02-07 00:13:53 -0800	[diff] [blame]	584	pc->mem_cgroup = mem;
				585	pc->page = page;
KAMEZAWA Hiroyuki	508b7be	2008-07-25 01:47:09 -0700	[diff] [blame]	586	/*
				587	* If a page is accounted as a page cache, insert to inactive list.
				588	* If anon, insert to active list.
				589	*/
Rik van Riel	4f98a2f	2008-10-18 20:26:32 -0700	[diff] [blame]	590	if (ctype == MEM_CGROUP_CHARGE_TYPE_CACHE) {
Balbir Singh	4a56d02	2008-04-29 01:00:23 -0700	[diff] [blame]	591	pc->flags = PAGE_CGROUP_FLAG_CACHE;
Rik van Riel	4f98a2f	2008-10-18 20:26:32 -0700	[diff] [blame]	592	if (page_is_file_cache(page))
				593	pc->flags \|= PAGE_CGROUP_FLAG_FILE;
				594	else
				595	pc->flags \|= PAGE_CGROUP_FLAG_ACTIVE;
				596	} else if (ctype == MEM_CGROUP_CHARGE_TYPE_MAPPED)
KAMEZAWA Hiroyuki	508b7be	2008-07-25 01:47:09 -0700	[diff] [blame]	597	pc->flags = PAGE_CGROUP_FLAG_ACTIVE;
Rik van Riel	4f98a2f	2008-10-18 20:26:32 -0700	[diff] [blame]	598	else /* MEM_CGROUP_CHARGE_TYPE_SHMEM */
				599	pc->flags = PAGE_CGROUP_FLAG_CACHE \| PAGE_CGROUP_FLAG_ACTIVE;
Hugh Dickins	3be91277	2008-02-07 00:14:19 -0800	[diff] [blame]	600
Hugh Dickins	7e924aa	2008-03-04 14:29:08 -0800	[diff] [blame]	601	lock_page_cgroup(page);
KAMEZAWA Hiroyuki	b76734e	2008-07-25 01:47:16 -0700	[diff] [blame]	602	if (unlikely(page_get_page_cgroup(page))) {
Hugh Dickins	7e924aa	2008-03-04 14:29:08 -0800	[diff] [blame]	603	unlock_page_cgroup(page);
KAMEZAWA Hiroyuki	9175e03	2008-02-07 00:14:08 -0800	[diff] [blame]	604	res_counter_uncharge(&mem->res, PAGE_SIZE);
				605	css_put(&mem->css);
Balbir Singh	b6ac57d	2008-04-29 01:00:19 -0700	[diff] [blame]	606	kmem_cache_free(page_cgroup_cache, pc);
KAMEZAWA Hiroyuki	accf163	2008-07-25 01:47:17 -0700	[diff] [blame]	607	goto done;
KAMEZAWA Hiroyuki	9175e03	2008-02-07 00:14:08 -0800	[diff] [blame]	608	}
Hugh Dickins	7e924aa	2008-03-04 14:29:08 -0800	[diff] [blame]	609	page_assign_page_cgroup(page, pc);
Balbir Singh	8a9f3cc	2008-02-07 00:13:53 -0800	[diff] [blame]	610
KAMEZAWA Hiroyuki	072c56c1	2008-02-07 00:14:39 -0800	[diff] [blame]	611	mz = page_cgroup_zoneinfo(pc);
				612	spin_lock_irqsave(&mz->lru_lock, flags);
KAMEZAWA Hiroyuki	3eae90c	2008-04-29 01:00:22 -0700	[diff] [blame]	613	__mem_cgroup_add_list(mz, pc);
KAMEZAWA Hiroyuki	072c56c1	2008-02-07 00:14:39 -0800	[diff] [blame]	614	spin_unlock_irqrestore(&mz->lru_lock, flags);
Balbir Singh	66e1707	2008-02-07 00:13:56 -0800	[diff] [blame]	615
Hugh Dickins	fb59e9f	2008-03-04 14:29:16 -0800	[diff] [blame]	616	unlock_page_cgroup(page);
Balbir Singh	8a9f3cc	2008-02-07 00:13:53 -0800	[diff] [blame]	617	done:
Balbir Singh	8a9f3cc	2008-02-07 00:13:53 -0800	[diff] [blame]	618	return 0;
Hugh Dickins	3be91277	2008-02-07 00:14:19 -0800	[diff] [blame]	619	out:
				620	css_put(&mem->css);
Balbir Singh	b6ac57d	2008-04-29 01:00:19 -0700	[diff] [blame]	621	kmem_cache_free(page_cgroup_cache, pc);
Balbir Singh	8a9f3cc	2008-02-07 00:13:53 -0800	[diff] [blame]	622	err:
Balbir Singh	8a9f3cc	2008-02-07 00:13:53 -0800	[diff] [blame]	623	return -ENOMEM;
				624	}
				625
Hugh Dickins	8869b8f	2008-03-04 14:29:09 -0800	[diff] [blame]	626	int mem_cgroup_charge(struct page page, struct mm_struct mm, gfp_t gfp_mask)
KAMEZAWA Hiroyuki	217bc31	2008-02-07 00:14:17 -0800	[diff] [blame]	627	{
Li Zefan	cede86a	2008-07-25 01:47:18 -0700	[diff] [blame]	628	if (mem_cgroup_subsys.disabled)
				629	return 0;
				630
KAMEZAWA Hiroyuki	69029cd	2008-07-25 01:47:14 -0700	[diff] [blame]	631	/*
				632	* If already mapped, we don't have to account.
				633	* If page cache, page->mapping has address_space.
				634	* But page->mapping may have out-of-use anon_vma pointer,
				635	* detecit it by PageAnon() check. newly-mapped-anon's page->mapping
				636	* is NULL.
				637	*/
				638	if (page_mapped(page) \|\| (page->mapping && !PageAnon(page)))
				639	return 0;
				640	if (unlikely(!mm))
				641	mm = &init_mm;
KAMEZAWA Hiroyuki	217bc31	2008-02-07 00:14:17 -0800	[diff] [blame]	642	return mem_cgroup_charge_common(page, mm, gfp_mask,
KAMEZAWA Hiroyuki	e8589cc	2008-07-25 01:47:10 -0700	[diff] [blame]	643	MEM_CGROUP_CHARGE_TYPE_MAPPED, NULL);
KAMEZAWA Hiroyuki	217bc31	2008-02-07 00:14:17 -0800	[diff] [blame]	644	}
				645
Balbir Singh	e1a1cd5	2008-02-07 00:14:02 -0800	[diff] [blame]	646	int mem_cgroup_cache_charge(struct page page, struct mm_struct mm,
				647	gfp_t gfp_mask)
Balbir Singh	8697d33	2008-02-07 00:13:59 -0800	[diff] [blame]	648	{
Li Zefan	cede86a	2008-07-25 01:47:18 -0700	[diff] [blame]	649	if (mem_cgroup_subsys.disabled)
				650	return 0;
				651
KAMEZAWA Hiroyuki	accf163	2008-07-25 01:47:17 -0700	[diff] [blame]	652	/*
				653	* Corner case handling. This is called from add_to_page_cache()
				654	* in usual. But some FS (shmem) precharges this page before calling it
				655	* and call add_to_page_cache() with GFP_NOWAIT.
				656	*
				657	* For GFP_NOWAIT case, the page may be pre-charged before calling
				658	* add_to_page_cache(). (See shmem.c) check it here and avoid to call
				659	* charge twice. (It works but has to pay a bit larger cost.)
				660	*/
				661	if (!(gfp_mask & __GFP_WAIT)) {
				662	struct page_cgroup *pc;
				663
				664	lock_page_cgroup(page);
				665	pc = page_get_page_cgroup(page);
				666	if (pc) {
				667	VM_BUG_ON(pc->page != page);
				668	VM_BUG_ON(!pc->mem_cgroup);
				669	unlock_page_cgroup(page);
				670	return 0;
				671	}
				672	unlock_page_cgroup(page);
				673	}
				674
KAMEZAWA Hiroyuki	69029cd	2008-07-25 01:47:14 -0700	[diff] [blame]	675	if (unlikely(!mm))
Balbir Singh	8697d33	2008-02-07 00:13:59 -0800	[diff] [blame]	676	mm = &init_mm;
KAMEZAWA Hiroyuki	accf163	2008-07-25 01:47:17 -0700	[diff] [blame]	677
Hugh Dickins	8869b8f	2008-03-04 14:29:09 -0800	[diff] [blame]	678	return mem_cgroup_charge_common(page, mm, gfp_mask,
KAMEZAWA Hiroyuki	e8589cc	2008-07-25 01:47:10 -0700	[diff] [blame]	679	MEM_CGROUP_CHARGE_TYPE_CACHE, NULL);
				680	}
				681
Balbir Singh	8697d33	2008-02-07 00:13:59 -0800	[diff] [blame]	682	/*
KAMEZAWA Hiroyuki	69029cd	2008-07-25 01:47:14 -0700	[diff] [blame]	683	* uncharge if !page_mapped(page)
Balbir Singh	8a9f3cc	2008-02-07 00:13:53 -0800	[diff] [blame]	684	*/
KAMEZAWA Hiroyuki	69029cd	2008-07-25 01:47:14 -0700	[diff] [blame]	685	static void
				686	__mem_cgroup_uncharge_common(struct page *page, enum charge_type ctype)
Balbir Singh	8a9f3cc	2008-02-07 00:13:53 -0800	[diff] [blame]	687	{
Hugh Dickins	8289546	2008-03-04 14:29:08 -0800	[diff] [blame]	688	struct page_cgroup *pc;
Balbir Singh	8a9f3cc	2008-02-07 00:13:53 -0800	[diff] [blame]	689	struct mem_cgroup *mem;
KAMEZAWA Hiroyuki	072c56c1	2008-02-07 00:14:39 -0800	[diff] [blame]	690	struct mem_cgroup_per_zone *mz;
Balbir Singh	66e1707	2008-02-07 00:13:56 -0800	[diff] [blame]	691	unsigned long flags;
Balbir Singh	8a9f3cc	2008-02-07 00:13:53 -0800	[diff] [blame]	692
Balbir Singh	4077960	2008-04-04 14:29:59 -0700	[diff] [blame]	693	if (mem_cgroup_subsys.disabled)
				694	return;
				695
Balbir Singh	8697d33	2008-02-07 00:13:59 -0800	[diff] [blame]	696	/*
Balbir Singh	3c541e1	2008-02-07 00:14:41 -0800	[diff] [blame]	697	* Check if our page_cgroup is valid
Balbir Singh	8697d33	2008-02-07 00:13:59 -0800	[diff] [blame]	698	*/
Hugh Dickins	8289546	2008-03-04 14:29:08 -0800	[diff] [blame]	699	lock_page_cgroup(page);
				700	pc = page_get_page_cgroup(page);
KAMEZAWA Hiroyuki	b76734e	2008-07-25 01:47:16 -0700	[diff] [blame]	701	if (unlikely(!pc))
Hugh Dickins	8289546	2008-03-04 14:29:08 -0800	[diff] [blame]	702	goto unlock;
Balbir Singh	8a9f3cc	2008-02-07 00:13:53 -0800	[diff] [blame]	703
Hugh Dickins	b9c565d	2008-03-04 14:29:11 -0800	[diff] [blame]	704	VM_BUG_ON(pc->page != page);
Hugh Dickins	b9c565d	2008-03-04 14:29:11 -0800	[diff] [blame]	705
KAMEZAWA Hiroyuki	69029cd	2008-07-25 01:47:14 -0700	[diff] [blame]	706	if ((ctype == MEM_CGROUP_CHARGE_TYPE_MAPPED)
				707	&& ((pc->flags & PAGE_CGROUP_FLAG_CACHE)
				708	\|\| page_mapped(page)))
				709	goto unlock;
Hugh Dickins	b9c565d	2008-03-04 14:29:11 -0800	[diff] [blame]	710
KAMEZAWA Hiroyuki	69029cd	2008-07-25 01:47:14 -0700	[diff] [blame]	711	mz = page_cgroup_zoneinfo(pc);
				712	spin_lock_irqsave(&mz->lru_lock, flags);
				713	__mem_cgroup_remove_list(mz, pc);
				714	spin_unlock_irqrestore(&mz->lru_lock, flags);
Hugh Dickins	fb59e9f	2008-03-04 14:29:16 -0800	[diff] [blame]	715
KAMEZAWA Hiroyuki	69029cd	2008-07-25 01:47:14 -0700	[diff] [blame]	716	page_assign_page_cgroup(page, NULL);
				717	unlock_page_cgroup(page);
Hugh Dickins	6d48ff8	2008-03-04 14:29:12 -0800	[diff] [blame]	718
KAMEZAWA Hiroyuki	69029cd	2008-07-25 01:47:14 -0700	[diff] [blame]	719	mem = pc->mem_cgroup;
				720	res_counter_uncharge(&mem->res, PAGE_SIZE);
				721	css_put(&mem->css);
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	722
KAMEZAWA Hiroyuki	69029cd	2008-07-25 01:47:14 -0700	[diff] [blame]	723	kmem_cache_free(page_cgroup_cache, pc);
				724	return;
Hugh Dickins	8289546	2008-03-04 14:29:08 -0800	[diff] [blame]	725	unlock:
Balbir Singh	3c541e1	2008-02-07 00:14:41 -0800	[diff] [blame]	726	unlock_page_cgroup(page);
				727	}
				728
KAMEZAWA Hiroyuki	69029cd	2008-07-25 01:47:14 -0700	[diff] [blame]	729	void mem_cgroup_uncharge_page(struct page *page)
				730	{
				731	__mem_cgroup_uncharge_common(page, MEM_CGROUP_CHARGE_TYPE_MAPPED);
				732	}
				733
				734	void mem_cgroup_uncharge_cache_page(struct page *page)
				735	{
				736	VM_BUG_ON(page_mapped(page));
				737	__mem_cgroup_uncharge_common(page, MEM_CGROUP_CHARGE_TYPE_CACHE);
				738	}
				739
KAMEZAWA Hiroyuki	ae41be3	2008-02-07 00:14:10 -0800	[diff] [blame]	740	/*
KAMEZAWA Hiroyuki	e8589cc	2008-07-25 01:47:10 -0700	[diff] [blame]	741	* Before starting migration, account against new page.
KAMEZAWA Hiroyuki	ae41be3	2008-02-07 00:14:10 -0800	[diff] [blame]	742	*/
KAMEZAWA Hiroyuki	e8589cc	2008-07-25 01:47:10 -0700	[diff] [blame]	743	int mem_cgroup_prepare_migration(struct page page, struct page newpage)
KAMEZAWA Hiroyuki	ae41be3	2008-02-07 00:14:10 -0800	[diff] [blame]	744	{
				745	struct page_cgroup *pc;
KAMEZAWA Hiroyuki	e8589cc	2008-07-25 01:47:10 -0700	[diff] [blame]	746	struct mem_cgroup *mem = NULL;
				747	enum charge_type ctype = MEM_CGROUP_CHARGE_TYPE_MAPPED;
				748	int ret = 0;
Hugh Dickins	8869b8f	2008-03-04 14:29:09 -0800	[diff] [blame]	749
Balbir Singh	4077960	2008-04-04 14:29:59 -0700	[diff] [blame]	750	if (mem_cgroup_subsys.disabled)
				751	return 0;
				752
KAMEZAWA Hiroyuki	ae41be3	2008-02-07 00:14:10 -0800	[diff] [blame]	753	lock_page_cgroup(page);
				754	pc = page_get_page_cgroup(page);
KAMEZAWA Hiroyuki	e8589cc	2008-07-25 01:47:10 -0700	[diff] [blame]	755	if (pc) {
				756	mem = pc->mem_cgroup;
				757	css_get(&mem->css);
Rik van Riel	4f98a2f	2008-10-18 20:26:32 -0700	[diff] [blame]	758	if (pc->flags & PAGE_CGROUP_FLAG_CACHE) {
				759	if (page_is_file_cache(page))
				760	ctype = MEM_CGROUP_CHARGE_TYPE_CACHE;
				761	else
				762	ctype = MEM_CGROUP_CHARGE_TYPE_SHMEM;
				763	}
Hugh Dickins	b9c565d	2008-03-04 14:29:11 -0800	[diff] [blame]	764	}
Hugh Dickins	fb59e9f	2008-03-04 14:29:16 -0800	[diff] [blame]	765	unlock_page_cgroup(page);
KAMEZAWA Hiroyuki	e8589cc	2008-07-25 01:47:10 -0700	[diff] [blame]	766	if (mem) {
				767	ret = mem_cgroup_charge_common(newpage, NULL, GFP_KERNEL,
				768	ctype, mem);
				769	css_put(&mem->css);
				770	}
				771	return ret;
				772	}
Hugh Dickins	fb59e9f	2008-03-04 14:29:16 -0800	[diff] [blame]	773
KAMEZAWA Hiroyuki	69029cd	2008-07-25 01:47:14 -0700	[diff] [blame]	774	/* remove redundant charge if migration failed*/
KAMEZAWA Hiroyuki	e8589cc	2008-07-25 01:47:10 -0700	[diff] [blame]	775	void mem_cgroup_end_migration(struct page *newpage)
				776	{
KAMEZAWA Hiroyuki	69029cd	2008-07-25 01:47:14 -0700	[diff] [blame]	777	/*
				778	* At success, page->mapping is not NULL.
				779	* special rollback care is necessary when
				780	* 1. at migration failure. (newpage->mapping is cleared in this case)
				781	* 2. the newpage was moved but not remapped again because the task
				782	* exits and the newpage is obsolete. In this case, the new page
				783	* may be a swapcache. So, we just call mem_cgroup_uncharge_page()
				784	* always for avoiding mess. The page_cgroup will be removed if
				785	* unnecessary. File cache pages is still on radix-tree. Don't
				786	* care it.
				787	*/
				788	if (!newpage->mapping)
				789	__mem_cgroup_uncharge_common(newpage,
				790	MEM_CGROUP_CHARGE_TYPE_FORCE);
				791	else if (PageAnon(newpage))
				792	mem_cgroup_uncharge_page(newpage);
KAMEZAWA Hiroyuki	ae41be3	2008-02-07 00:14:10 -0800	[diff] [blame]	793	}
Pavel Emelianov	78fb746	2008-02-07 00:13:51 -0800	[diff] [blame]	794
KAMEZAWA Hiroyuki	cc84758	2008-02-07 00:14:16 -0800	[diff] [blame]	795	/*
KAMEZAWA Hiroyuki	c9b0ed5	2008-07-25 01:47:15 -0700	[diff] [blame]	796	* A call to try to shrink memory usage under specified resource controller.
				797	* This is typically used for page reclaiming for shmem for reducing side
				798	* effect of page allocation from shmem, which is used by some mem_cgroup.
				799	*/
				800	int mem_cgroup_shrink_usage(struct mm_struct *mm, gfp_t gfp_mask)
				801	{
				802	struct mem_cgroup *mem;
				803	int progress = 0;
				804	int retry = MEM_CGROUP_RECLAIM_RETRIES;
				805
Li Zefan	cede86a	2008-07-25 01:47:18 -0700	[diff] [blame]	806	if (mem_cgroup_subsys.disabled)
				807	return 0;
Hugh Dickins	9623e07	2008-08-12 15:08:41 -0700	[diff] [blame]	808	if (!mm)
				809	return 0;
Li Zefan	cede86a	2008-07-25 01:47:18 -0700	[diff] [blame]	810
KAMEZAWA Hiroyuki	c9b0ed5	2008-07-25 01:47:15 -0700	[diff] [blame]	811	rcu_read_lock();
				812	mem = mem_cgroup_from_task(rcu_dereference(mm->owner));
Balbir Singh	31a78f2	2008-09-28 23:09:31 +0100	[diff] [blame]	813	if (unlikely(!mem)) {
				814	rcu_read_unlock();
				815	return 0;
				816	}
KAMEZAWA Hiroyuki	c9b0ed5	2008-07-25 01:47:15 -0700	[diff] [blame]	817	css_get(&mem->css);
				818	rcu_read_unlock();
				819
				820	do {
				821	progress = try_to_free_mem_cgroup_pages(mem, gfp_mask);
Daisuke Nishimura	a10cebf	2008-09-22 13:57:52 -0700	[diff] [blame]	822	progress += res_counter_check_under_limit(&mem->res);
KAMEZAWA Hiroyuki	c9b0ed5	2008-07-25 01:47:15 -0700	[diff] [blame]	823	} while (!progress && --retry);
				824
				825	css_put(&mem->css);
				826	if (!retry)
				827	return -ENOMEM;
				828	return 0;
				829	}
				830
KAMEZAWA Hiroyuki	628f423	2008-07-25 01:47:20 -0700	[diff] [blame]	831	int mem_cgroup_resize_limit(struct mem_cgroup *memcg, unsigned long long val)
				832	{
				833
				834	int retry_count = MEM_CGROUP_RECLAIM_RETRIES;
				835	int progress;
				836	int ret = 0;
				837
				838	while (res_counter_set_limit(&memcg->res, val)) {
				839	if (signal_pending(current)) {
				840	ret = -EINTR;
				841	break;
				842	}
				843	if (!retry_count) {
				844	ret = -EBUSY;
				845	break;
				846	}
				847	progress = try_to_free_mem_cgroup_pages(memcg, GFP_KERNEL);
				848	if (!progress)
				849	retry_count--;
				850	}
				851	return ret;
				852	}
				853
				854
KAMEZAWA Hiroyuki	c9b0ed5	2008-07-25 01:47:15 -0700	[diff] [blame]	855	/*
KAMEZAWA Hiroyuki	cc84758	2008-02-07 00:14:16 -0800	[diff] [blame]	856	* This routine traverse page_cgroup in given list and drop them all.
KAMEZAWA Hiroyuki	cc84758	2008-02-07 00:14:16 -0800	[diff] [blame]	857	* And this routine doesn't reclaim page itself, just removes page_cgroup.
				858	*/
				859	#define FORCE_UNCHARGE_BATCH (128)
Hugh Dickins	8869b8f	2008-03-04 14:29:09 -0800	[diff] [blame]	860	static void mem_cgroup_force_empty_list(struct mem_cgroup *mem,
KAMEZAWA Hiroyuki	072c56c1	2008-02-07 00:14:39 -0800	[diff] [blame]	861	struct mem_cgroup_per_zone *mz,
Christoph Lameter	b69408e	2008-10-18 20:26:14 -0700	[diff] [blame]	862	enum lru_list lru)
KAMEZAWA Hiroyuki	cc84758	2008-02-07 00:14:16 -0800	[diff] [blame]	863	{
				864	struct page_cgroup *pc;
				865	struct page *page;
Hirokazu Takahashi	9b3c0a0	2008-03-04 14:29:15 -0800	[diff] [blame]	866	int count = FORCE_UNCHARGE_BATCH;
KAMEZAWA Hiroyuki	cc84758	2008-02-07 00:14:16 -0800	[diff] [blame]	867	unsigned long flags;
KAMEZAWA Hiroyuki	072c56c1	2008-02-07 00:14:39 -0800	[diff] [blame]	868	struct list_head *list;
				869
Christoph Lameter	b69408e	2008-10-18 20:26:14 -0700	[diff] [blame]	870	list = &mz->lists[lru];
KAMEZAWA Hiroyuki	cc84758	2008-02-07 00:14:16 -0800	[diff] [blame]	871
KAMEZAWA Hiroyuki	072c56c1	2008-02-07 00:14:39 -0800	[diff] [blame]	872	spin_lock_irqsave(&mz->lru_lock, flags);
Hirokazu Takahashi	9b3c0a0	2008-03-04 14:29:15 -0800	[diff] [blame]	873	while (!list_empty(list)) {
KAMEZAWA Hiroyuki	cc84758	2008-02-07 00:14:16 -0800	[diff] [blame]	874	pc = list_entry(list->prev, struct page_cgroup, lru);
				875	page = pc->page;
Hirokazu Takahashi	9b3c0a0	2008-03-04 14:29:15 -0800	[diff] [blame]	876	get_page(page);
				877	spin_unlock_irqrestore(&mz->lru_lock, flags);
KAMEZAWA Hiroyuki	e8589cc	2008-07-25 01:47:10 -0700	[diff] [blame]	878	/*
				879	* Check if this page is on LRU. !LRU page can be found
				880	* if it's under page migration.
				881	*/
				882	if (PageLRU(page)) {
KAMEZAWA Hiroyuki	69029cd	2008-07-25 01:47:14 -0700	[diff] [blame]	883	__mem_cgroup_uncharge_common(page,
				884	MEM_CGROUP_CHARGE_TYPE_FORCE);
KAMEZAWA Hiroyuki	e8589cc	2008-07-25 01:47:10 -0700	[diff] [blame]	885	put_page(page);
				886	if (--count <= 0) {
				887	count = FORCE_UNCHARGE_BATCH;
				888	cond_resched();
				889	}
				890	} else
Hirokazu Takahashi	9b3c0a0	2008-03-04 14:29:15 -0800	[diff] [blame]	891	cond_resched();
Hirokazu Takahashi	9b3c0a0	2008-03-04 14:29:15 -0800	[diff] [blame]	892	spin_lock_irqsave(&mz->lru_lock, flags);
KAMEZAWA Hiroyuki	cc84758	2008-02-07 00:14:16 -0800	[diff] [blame]	893	}
KAMEZAWA Hiroyuki	072c56c1	2008-02-07 00:14:39 -0800	[diff] [blame]	894	spin_unlock_irqrestore(&mz->lru_lock, flags);
KAMEZAWA Hiroyuki	cc84758	2008-02-07 00:14:16 -0800	[diff] [blame]	895	}
				896
				897	/*
				898	* make mem_cgroup's charge to be 0 if there is no task.
				899	* This enables deleting this mem_cgroup.
				900	*/
Hugh Dickins	d5b69e3	2008-03-04 14:29:10 -0800	[diff] [blame]	901	static int mem_cgroup_force_empty(struct mem_cgroup *mem)
KAMEZAWA Hiroyuki	cc84758	2008-02-07 00:14:16 -0800	[diff] [blame]	902	{
				903	int ret = -EBUSY;
KAMEZAWA Hiroyuki	1ecaab2	2008-02-07 00:14:38 -0800	[diff] [blame]	904	int node, zid;
Hugh Dickins	8869b8f	2008-03-04 14:29:09 -0800	[diff] [blame]	905
KAMEZAWA Hiroyuki	cc84758	2008-02-07 00:14:16 -0800	[diff] [blame]	906	css_get(&mem->css);
				907	/*
				908	* page reclaim code (kswapd etc..) will move pages between
Hugh Dickins	8869b8f	2008-03-04 14:29:09 -0800	[diff] [blame]	909	* active_list <-> inactive_list while we don't take a lock.
KAMEZAWA Hiroyuki	cc84758	2008-02-07 00:14:16 -0800	[diff] [blame]	910	* So, we have to do loop here until all lists are empty.
				911	*/
KAMEZAWA Hiroyuki	1ecaab2	2008-02-07 00:14:38 -0800	[diff] [blame]	912	while (mem->res.usage > 0) {
KAMEZAWA Hiroyuki	cc84758	2008-02-07 00:14:16 -0800	[diff] [blame]	913	if (atomic_read(&mem->css.cgroup->count) > 0)
				914	goto out;
KAMEZAWA Hiroyuki	1ecaab2	2008-02-07 00:14:38 -0800	[diff] [blame]	915	for_each_node_state(node, N_POSSIBLE)
				916	for (zid = 0; zid < MAX_NR_ZONES; zid++) {
				917	struct mem_cgroup_per_zone *mz;
Christoph Lameter	b69408e	2008-10-18 20:26:14 -0700	[diff] [blame]	918	enum lru_list l;
KAMEZAWA Hiroyuki	1ecaab2	2008-02-07 00:14:38 -0800	[diff] [blame]	919	mz = mem_cgroup_zoneinfo(mem, node, zid);
Christoph Lameter	b69408e	2008-10-18 20:26:14 -0700	[diff] [blame]	920	for_each_lru(l)
				921	mem_cgroup_force_empty_list(mem, mz, l);
KAMEZAWA Hiroyuki	1ecaab2	2008-02-07 00:14:38 -0800	[diff] [blame]	922	}
KAMEZAWA Hiroyuki	cc84758	2008-02-07 00:14:16 -0800	[diff] [blame]	923	}
				924	ret = 0;
				925	out:
				926	css_put(&mem->css);
				927	return ret;
				928	}
				929
Paul Menage	2c3daa7	2008-04-29 00:59:58 -0700	[diff] [blame]	930	static u64 mem_cgroup_read(struct cgroup cont, struct cftype cft)
Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	931	{
Paul Menage	2c3daa7	2008-04-29 00:59:58 -0700	[diff] [blame]	932	return res_counter_read_u64(&mem_cgroup_from_cont(cont)->res,
				933	cft->private);
Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	934	}
KAMEZAWA Hiroyuki	628f423	2008-07-25 01:47:20 -0700	[diff] [blame]	935	/*
				936	* The user of this function is...
				937	* RES_LIMIT.
				938	*/
Paul Menage	856c13a	2008-07-25 01:47:04 -0700	[diff] [blame]	939	static int mem_cgroup_write(struct cgroup cont, struct cftype cft,
				940	const char *buffer)
Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	941	{
KAMEZAWA Hiroyuki	628f423	2008-07-25 01:47:20 -0700	[diff] [blame]	942	struct mem_cgroup *memcg = mem_cgroup_from_cont(cont);
				943	unsigned long long val;
				944	int ret;
				945
				946	switch (cft->private) {
				947	case RES_LIMIT:
				948	/* This function does all necessary parse...reuse it */
				949	ret = res_counter_memparse_write_strategy(buffer, &val);
				950	if (!ret)
				951	ret = mem_cgroup_resize_limit(memcg, val);
				952	break;
				953	default:
				954	ret = -EINVAL; /* should be BUG() ? */
				955	break;
				956	}
				957	return ret;
Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	958	}
				959
Pavel Emelyanov	29f2a4d	2008-04-29 01:00:21 -0700	[diff] [blame]	960	static int mem_cgroup_reset(struct cgroup *cont, unsigned int event)
Pavel Emelyanov	c84872e	2008-04-29 01:00:17 -0700	[diff] [blame]	961	{
				962	struct mem_cgroup *mem;
				963
				964	mem = mem_cgroup_from_cont(cont);
Pavel Emelyanov	29f2a4d	2008-04-29 01:00:21 -0700	[diff] [blame]	965	switch (event) {
				966	case RES_MAX_USAGE:
				967	res_counter_reset_max(&mem->res);
				968	break;
				969	case RES_FAILCNT:
				970	res_counter_reset_failcnt(&mem->res);
				971	break;
				972	}
Pavel Emelyanov	85cc59d	2008-04-29 01:00:20 -0700	[diff] [blame]	973	return 0;
Pavel Emelyanov	c84872e	2008-04-29 01:00:17 -0700	[diff] [blame]	974	}
				975
Pavel Emelyanov	85cc59d	2008-04-29 01:00:20 -0700	[diff] [blame]	976	static int mem_force_empty_write(struct cgroup *cont, unsigned int event)
KAMEZAWA Hiroyuki	cc84758	2008-02-07 00:14:16 -0800	[diff] [blame]	977	{
Pavel Emelyanov	85cc59d	2008-04-29 01:00:20 -0700	[diff] [blame]	978	return mem_cgroup_force_empty(mem_cgroup_from_cont(cont));
KAMEZAWA Hiroyuki	cc84758	2008-02-07 00:14:16 -0800	[diff] [blame]	979	}
				980
KAMEZAWA Hiroyuki	d2ceb9b	2008-02-07 00:14:25 -0800	[diff] [blame]	981	static const struct mem_cgroup_stat_desc {
				982	const char *msg;
				983	u64 unit;
				984	} mem_cgroup_stat_desc[] = {
				985	[MEM_CGROUP_STAT_CACHE] = { "cache", PAGE_SIZE, },
				986	[MEM_CGROUP_STAT_RSS] = { "rss", PAGE_SIZE, },
Balaji Rao	55e462b	2008-05-01 04:35:12 -0700	[diff] [blame]	987	[MEM_CGROUP_STAT_PGPGIN_COUNT] = {"pgpgin", 1, },
				988	[MEM_CGROUP_STAT_PGPGOUT_COUNT] = {"pgpgout", 1, },
KAMEZAWA Hiroyuki	d2ceb9b	2008-02-07 00:14:25 -0800	[diff] [blame]	989	};
				990
Paul Menage	c64745c	2008-04-29 01:00:02 -0700	[diff] [blame]	991	static int mem_control_stat_show(struct cgroup cont, struct cftype cft,
				992	struct cgroup_map_cb *cb)
KAMEZAWA Hiroyuki	d2ceb9b	2008-02-07 00:14:25 -0800	[diff] [blame]	993	{
KAMEZAWA Hiroyuki	d2ceb9b	2008-02-07 00:14:25 -0800	[diff] [blame]	994	struct mem_cgroup *mem_cont = mem_cgroup_from_cont(cont);
				995	struct mem_cgroup_stat *stat = &mem_cont->stat;
				996	int i;
				997
				998	for (i = 0; i < ARRAY_SIZE(stat->cpustat[0].count); i++) {
				999	s64 val;
				1000
				1001	val = mem_cgroup_read_stat(stat, i);
				1002	val *= mem_cgroup_stat_desc[i].unit;
Paul Menage	c64745c	2008-04-29 01:00:02 -0700	[diff] [blame]	1003	cb->fill(cb, mem_cgroup_stat_desc[i].msg, val);
KAMEZAWA Hiroyuki	d2ceb9b	2008-02-07 00:14:25 -0800	[diff] [blame]	1004	}
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	1005	/* showing # of active pages */
				1006	{
Rik van Riel	4f98a2f	2008-10-18 20:26:32 -0700	[diff] [blame]	1007	unsigned long active_anon, inactive_anon;
				1008	unsigned long active_file, inactive_file;
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	1009
Rik van Riel	4f98a2f	2008-10-18 20:26:32 -0700	[diff] [blame]	1010	inactive_anon = mem_cgroup_get_all_zonestat(mem_cont,
				1011	LRU_INACTIVE_ANON);
				1012	active_anon = mem_cgroup_get_all_zonestat(mem_cont,
				1013	LRU_ACTIVE_ANON);
				1014	inactive_file = mem_cgroup_get_all_zonestat(mem_cont,
				1015	LRU_INACTIVE_FILE);
				1016	active_file = mem_cgroup_get_all_zonestat(mem_cont,
				1017	LRU_ACTIVE_FILE);
				1018	cb->fill(cb, "active_anon", (active_anon) * PAGE_SIZE);
				1019	cb->fill(cb, "inactive_anon", (inactive_anon) * PAGE_SIZE);
				1020	cb->fill(cb, "active_file", (active_file) * PAGE_SIZE);
				1021	cb->fill(cb, "inactive_file", (inactive_file) * PAGE_SIZE);
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	1022	}
KAMEZAWA Hiroyuki	d2ceb9b	2008-02-07 00:14:25 -0800	[diff] [blame]	1023	return 0;
				1024	}
				1025
Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	1026	static struct cftype mem_cgroup_files[] = {
				1027	{
Balbir Singh	0eea103	2008-02-07 00:13:57 -0800	[diff] [blame]	1028	.name = "usage_in_bytes",
Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	1029	.private = RES_USAGE,
Paul Menage	2c3daa7	2008-04-29 00:59:58 -0700	[diff] [blame]	1030	.read_u64 = mem_cgroup_read,
Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	1031	},
				1032	{
Pavel Emelyanov	c84872e	2008-04-29 01:00:17 -0700	[diff] [blame]	1033	.name = "max_usage_in_bytes",
				1034	.private = RES_MAX_USAGE,
Pavel Emelyanov	29f2a4d	2008-04-29 01:00:21 -0700	[diff] [blame]	1035	.trigger = mem_cgroup_reset,
Pavel Emelyanov	c84872e	2008-04-29 01:00:17 -0700	[diff] [blame]	1036	.read_u64 = mem_cgroup_read,
				1037	},
				1038	{
Balbir Singh	0eea103	2008-02-07 00:13:57 -0800	[diff] [blame]	1039	.name = "limit_in_bytes",
Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	1040	.private = RES_LIMIT,
Paul Menage	856c13a	2008-07-25 01:47:04 -0700	[diff] [blame]	1041	.write_string = mem_cgroup_write,
Paul Menage	2c3daa7	2008-04-29 00:59:58 -0700	[diff] [blame]	1042	.read_u64 = mem_cgroup_read,
Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	1043	},
				1044	{
				1045	.name = "failcnt",
				1046	.private = RES_FAILCNT,
Pavel Emelyanov	29f2a4d	2008-04-29 01:00:21 -0700	[diff] [blame]	1047	.trigger = mem_cgroup_reset,
Paul Menage	2c3daa7	2008-04-29 00:59:58 -0700	[diff] [blame]	1048	.read_u64 = mem_cgroup_read,
Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	1049	},
Balbir Singh	8697d33	2008-02-07 00:13:59 -0800	[diff] [blame]	1050	{
KAMEZAWA Hiroyuki	cc84758	2008-02-07 00:14:16 -0800	[diff] [blame]	1051	.name = "force_empty",
Pavel Emelyanov	85cc59d	2008-04-29 01:00:20 -0700	[diff] [blame]	1052	.trigger = mem_force_empty_write,
KAMEZAWA Hiroyuki	cc84758	2008-02-07 00:14:16 -0800	[diff] [blame]	1053	},
KAMEZAWA Hiroyuki	d2ceb9b	2008-02-07 00:14:25 -0800	[diff] [blame]	1054	{
				1055	.name = "stat",
Paul Menage	c64745c	2008-04-29 01:00:02 -0700	[diff] [blame]	1056	.read_map = mem_control_stat_show,
KAMEZAWA Hiroyuki	d2ceb9b	2008-02-07 00:14:25 -0800	[diff] [blame]	1057	},
Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	1058	};
				1059
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	1060	static int alloc_mem_cgroup_per_zone_info(struct mem_cgroup *mem, int node)
				1061	{
				1062	struct mem_cgroup_per_node *pn;
KAMEZAWA Hiroyuki	1ecaab2	2008-02-07 00:14:38 -0800	[diff] [blame]	1063	struct mem_cgroup_per_zone *mz;
Christoph Lameter	b69408e	2008-10-18 20:26:14 -0700	[diff] [blame]	1064	enum lru_list l;
KAMEZAWA Hiroyuki	41e3355	2008-04-08 17:41:54 -0700	[diff] [blame]	1065	int zone, tmp = node;
KAMEZAWA Hiroyuki	1ecaab2	2008-02-07 00:14:38 -0800	[diff] [blame]	1066	/*
				1067	* This routine is called against possible nodes.
				1068	* But it's BUG to call kmalloc() against offline node.
				1069	*
				1070	* TODO: this routine can waste much memory for nodes which will
				1071	* never be onlined. It's better to use memory hotplug callback
				1072	* function.
				1073	*/
KAMEZAWA Hiroyuki	41e3355	2008-04-08 17:41:54 -0700	[diff] [blame]	1074	if (!node_state(node, N_NORMAL_MEMORY))
				1075	tmp = -1;
				1076	pn = kmalloc_node(sizeof(*pn), GFP_KERNEL, tmp);
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	1077	if (!pn)
				1078	return 1;
KAMEZAWA Hiroyuki	1ecaab2	2008-02-07 00:14:38 -0800	[diff] [blame]	1079
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	1080	mem->info.nodeinfo[node] = pn;
				1081	memset(pn, 0, sizeof(*pn));
KAMEZAWA Hiroyuki	1ecaab2	2008-02-07 00:14:38 -0800	[diff] [blame]	1082
				1083	for (zone = 0; zone < MAX_NR_ZONES; zone++) {
				1084	mz = &pn->zoneinfo[zone];
KAMEZAWA Hiroyuki	072c56c1	2008-02-07 00:14:39 -0800	[diff] [blame]	1085	spin_lock_init(&mz->lru_lock);
Christoph Lameter	b69408e	2008-10-18 20:26:14 -0700	[diff] [blame]	1086	for_each_lru(l)
				1087	INIT_LIST_HEAD(&mz->lists[l]);
KAMEZAWA Hiroyuki	1ecaab2	2008-02-07 00:14:38 -0800	[diff] [blame]	1088	}
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	1089	return 0;
				1090	}
				1091
KAMEZAWA Hiroyuki	1ecaab2	2008-02-07 00:14:38 -0800	[diff] [blame]	1092	static void free_mem_cgroup_per_zone_info(struct mem_cgroup *mem, int node)
				1093	{
				1094	kfree(mem->info.nodeinfo[node]);
				1095	}
				1096
KAMEZAWA Hiroyuki	3332794	2008-04-29 01:00:24 -0700	[diff] [blame]	1097	static struct mem_cgroup *mem_cgroup_alloc(void)
				1098	{
				1099	struct mem_cgroup *mem;
				1100
				1101	if (sizeof(*mem) < PAGE_SIZE)
				1102	mem = kmalloc(sizeof(*mem), GFP_KERNEL);
				1103	else
				1104	mem = vmalloc(sizeof(*mem));
				1105
				1106	if (mem)
				1107	memset(mem, 0, sizeof(*mem));
				1108	return mem;
				1109	}
				1110
				1111	static void mem_cgroup_free(struct mem_cgroup *mem)
				1112	{
				1113	if (sizeof(*mem) < PAGE_SIZE)
				1114	kfree(mem);
				1115	else
				1116	vfree(mem);
				1117	}
				1118
				1119
Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	1120	static struct cgroup_subsys_state *
				1121	mem_cgroup_create(struct cgroup_subsys ss, struct cgroup cont)
				1122	{
				1123	struct mem_cgroup *mem;
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	1124	int node;
Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	1125
Balbir Singh	b6ac57d	2008-04-29 01:00:19 -0700	[diff] [blame]	1126	if (unlikely((cont->parent) == NULL)) {
Pavel Emelianov	78fb746	2008-02-07 00:13:51 -0800	[diff] [blame]	1127	mem = &init_mem_cgroup;
Balbir Singh	b6ac57d	2008-04-29 01:00:19 -0700	[diff] [blame]	1128	page_cgroup_cache = KMEM_CACHE(page_cgroup, SLAB_PANIC);
				1129	} else {
KAMEZAWA Hiroyuki	3332794	2008-04-29 01:00:24 -0700	[diff] [blame]	1130	mem = mem_cgroup_alloc();
				1131	if (!mem)
				1132	return ERR_PTR(-ENOMEM);
Balbir Singh	b6ac57d	2008-04-29 01:00:19 -0700	[diff] [blame]	1133	}
Pavel Emelianov	78fb746	2008-02-07 00:13:51 -0800	[diff] [blame]	1134
Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	1135	res_counter_init(&mem->res);
KAMEZAWA Hiroyuki	1ecaab2	2008-02-07 00:14:38 -0800	[diff] [blame]	1136
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	1137	for_each_node_state(node, N_POSSIBLE)
				1138	if (alloc_mem_cgroup_per_zone_info(mem, node))
				1139	goto free_out;
				1140
Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	1141	return &mem->css;
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	1142	free_out:
				1143	for_each_node_state(node, N_POSSIBLE)
KAMEZAWA Hiroyuki	1ecaab2	2008-02-07 00:14:38 -0800	[diff] [blame]	1144	free_mem_cgroup_per_zone_info(mem, node);
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	1145	if (cont->parent != NULL)
KAMEZAWA Hiroyuki	3332794	2008-04-29 01:00:24 -0700	[diff] [blame]	1146	mem_cgroup_free(mem);
Li Zefan	2dda81c	2008-02-23 15:24:14 -0800	[diff] [blame]	1147	return ERR_PTR(-ENOMEM);
Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	1148	}
				1149
KAMEZAWA Hiroyuki	df878fb	2008-02-07 00:14:28 -0800	[diff] [blame]	1150	static void mem_cgroup_pre_destroy(struct cgroup_subsys *ss,
				1151	struct cgroup *cont)
				1152	{
				1153	struct mem_cgroup *mem = mem_cgroup_from_cont(cont);
				1154	mem_cgroup_force_empty(mem);
				1155	}
				1156
Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	1157	static void mem_cgroup_destroy(struct cgroup_subsys *ss,
				1158	struct cgroup *cont)
				1159	{
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	1160	int node;
				1161	struct mem_cgroup *mem = mem_cgroup_from_cont(cont);
				1162
				1163	for_each_node_state(node, N_POSSIBLE)
KAMEZAWA Hiroyuki	1ecaab2	2008-02-07 00:14:38 -0800	[diff] [blame]	1164	free_mem_cgroup_per_zone_info(mem, node);
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	1165
KAMEZAWA Hiroyuki	3332794	2008-04-29 01:00:24 -0700	[diff] [blame]	1166	mem_cgroup_free(mem_cgroup_from_cont(cont));
Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	1167	}
				1168
				1169	static int mem_cgroup_populate(struct cgroup_subsys *ss,
				1170	struct cgroup *cont)
				1171	{
				1172	return cgroup_add_files(cont, ss, mem_cgroup_files,
				1173	ARRAY_SIZE(mem_cgroup_files));
				1174	}
				1175
Balbir Singh	67e465a	2008-02-07 00:13:54 -0800	[diff] [blame]	1176	static void mem_cgroup_move_task(struct cgroup_subsys *ss,
				1177	struct cgroup *cont,
				1178	struct cgroup *old_cont,
				1179	struct task_struct *p)
				1180	{
				1181	struct mm_struct *mm;
				1182	struct mem_cgroup mem, old_mem;
				1183
				1184	mm = get_task_mm(p);
				1185	if (mm == NULL)
				1186	return;
				1187
				1188	mem = mem_cgroup_from_cont(cont);
				1189	old_mem = mem_cgroup_from_cont(old_cont);
				1190
Balbir Singh	67e465a	2008-02-07 00:13:54 -0800	[diff] [blame]	1191	/*
				1192	* Only thread group leaders are allowed to migrate, the mm_struct is
				1193	* in effect owned by the leader
				1194	*/
Pavel Emelyanov	52ea27e	2008-03-19 17:00:45 -0700	[diff] [blame]	1195	if (!thread_group_leader(p))
Balbir Singh	67e465a	2008-02-07 00:13:54 -0800	[diff] [blame]	1196	goto out;
				1197
Balbir Singh	67e465a	2008-02-07 00:13:54 -0800	[diff] [blame]	1198	out:
				1199	mmput(mm);
Balbir Singh	67e465a	2008-02-07 00:13:54 -0800	[diff] [blame]	1200	}
				1201
Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	1202	struct cgroup_subsys mem_cgroup_subsys = {
				1203	.name = "memory",
				1204	.subsys_id = mem_cgroup_subsys_id,
				1205	.create = mem_cgroup_create,
KAMEZAWA Hiroyuki	df878fb	2008-02-07 00:14:28 -0800	[diff] [blame]	1206	.pre_destroy = mem_cgroup_pre_destroy,
Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	1207	.destroy = mem_cgroup_destroy,
				1208	.populate = mem_cgroup_populate,
Balbir Singh	67e465a	2008-02-07 00:13:54 -0800	[diff] [blame]	1209	.attach = mem_cgroup_move_task,
KAMEZAWA Hiroyuki	6d12e2d	2008-02-07 00:14:31 -0800	[diff] [blame]	1210	.early_init = 0,
Balbir Singh	8cdea7c	2008-02-07 00:13:50 -0800	[diff] [blame]	1211	};