Blame - mm/mlock.c - SHIFTPHONES/mainline/linux

blob: a6da2aee940af0873f46bd1b88b24a36242979b3 [file] [log] [blame]

Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1	/*
				2	* linux/mm/mlock.c
				3	*
				4	* (C) Copyright 1995 Linus Torvalds
				5	* (C) Copyright 2002 Christoph Hellwig
				6	*/
				7
Randy.Dunlap	c59ede7	2006-01-11 12:17:46 -0800	[diff] [blame]	8	#include <linux/capability.h>
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	9	#include <linux/mman.h>
				10	#include <linux/mm.h>
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	11	#include <linux/swap.h>
				12	#include <linux/swapops.h>
				13	#include <linux/pagemap.h>
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	14	#include <linux/mempolicy.h>
				15	#include <linux/syscalls.h>
Alexey Dobriyan	e8edc6e	2007-05-21 01:22:52 +0400	[diff] [blame]	16	#include <linux/sched.h>
				17	#include <linux/module.h>
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	18	#include <linux/rmap.h>
				19	#include <linux/mmzone.h>
				20	#include <linux/hugetlb.h>
				21
				22	#include "internal.h"
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	23
Alexey Dobriyan	e8edc6e	2007-05-21 01:22:52 +0400	[diff] [blame]	24	int can_do_mlock(void)
				25	{
				26	if (capable(CAP_IPC_LOCK))
				27	return 1;
				28	if (current->signal->rlim[RLIMIT_MEMLOCK].rlim_cur != 0)
				29	return 1;
				30	return 0;
				31	}
				32	EXPORT_SYMBOL(can_do_mlock);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	33
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	34	#ifdef CONFIG_UNEVICTABLE_LRU
				35	/*
				36	* Mlocked pages are marked with PageMlocked() flag for efficient testing
				37	* in vmscan and, possibly, the fault path; and to support semi-accurate
				38	* statistics.
				39	*
				40	* An mlocked page [PageMlocked(page)] is unevictable. As such, it will
				41	* be placed on the LRU "unevictable" list, rather than the [in]active lists.
				42	* The unevictable list is an LRU sibling list to the [in]active lists.
				43	* PageUnevictable is set to indicate the unevictable state.
				44	*
				45	* When lazy mlocking via vmscan, it is important to ensure that the
				46	* vma's VM_LOCKED status is not concurrently being modified, otherwise we
				47	* may have mlocked a page that is being munlocked. So lazy mlock must take
				48	* the mmap_sem for read, and verify that the vma really is locked
				49	* (see mm/rmap.c).
				50	*/
				51
				52	/*
				53	* LRU accounting for clear_page_mlock()
				54	*/
				55	void __clear_page_mlock(struct page *page)
				56	{
				57	VM_BUG_ON(!PageLocked(page));
				58
				59	if (!page->mapping) { /* truncated ? */
				60	return;
				61	}
				62
Nick Piggin	5344b7e	2008-10-18 20:26:51 -0700	[diff] [blame]	63	dec_zone_page_state(page, NR_MLOCK);
				64	count_vm_event(UNEVICTABLE_PGCLEARED);
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	65	if (!isolate_lru_page(page)) {
				66	putback_lru_page(page);
				67	} else {
				68	/*
KOSAKI Motohiro	8891d6d	2008-11-12 13:26:53 -0800	[diff] [blame^]	69	* We lost the race. the page already moved to evictable list.
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	70	*/
KOSAKI Motohiro	8891d6d	2008-11-12 13:26:53 -0800	[diff] [blame^]	71	if (PageUnevictable(page))
Nick Piggin	5344b7e	2008-10-18 20:26:51 -0700	[diff] [blame]	72	count_vm_event(UNEVICTABLE_PGSTRANDED);
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	73	}
				74	}
				75
				76	/*
				77	* Mark page as mlocked if not already.
				78	* If page on LRU, isolate and putback to move to unevictable list.
				79	*/
				80	void mlock_vma_page(struct page *page)
				81	{
				82	BUG_ON(!PageLocked(page));
				83
Nick Piggin	5344b7e	2008-10-18 20:26:51 -0700	[diff] [blame]	84	if (!TestSetPageMlocked(page)) {
				85	inc_zone_page_state(page, NR_MLOCK);
				86	count_vm_event(UNEVICTABLE_PGMLOCKED);
				87	if (!isolate_lru_page(page))
				88	putback_lru_page(page);
				89	}
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	90	}
				91
				92	/*
				93	* called from munlock()/munmap() path with page supposedly on the LRU.
				94	*
				95	* Note: unlike mlock_vma_page(), we can't just clear the PageMlocked
				96	* [in try_to_munlock()] and then attempt to isolate the page. We must
				97	* isolate the page to keep others from messing with its unevictable
				98	* and mlocked state while trying to munlock. However, we pre-clear the
				99	* mlocked state anyway as we might lose the isolation race and we might
				100	* not get another chance to clear PageMlocked. If we successfully
				101	* isolate the page and try_to_munlock() detects other VM_LOCKED vmas
				102	* mapping the page, it will restore the PageMlocked state, unless the page
				103	* is mapped in a non-linear vma. So, we go ahead and SetPageMlocked(),
				104	* perhaps redundantly.
				105	* If we lose the isolation race, and the page is mapped by other VM_LOCKED
				106	* vmas, we'll detect this in vmscan--via try_to_munlock() or try_to_unmap()
				107	* either of which will restore the PageMlocked state by calling
				108	* mlock_vma_page() above, if it can grab the vma's mmap sem.
				109	*/
				110	static void munlock_vma_page(struct page *page)
				111	{
				112	BUG_ON(!PageLocked(page));
				113
Nick Piggin	5344b7e	2008-10-18 20:26:51 -0700	[diff] [blame]	114	if (TestClearPageMlocked(page)) {
				115	dec_zone_page_state(page, NR_MLOCK);
				116	if (!isolate_lru_page(page)) {
				117	int ret = try_to_munlock(page);
				118	/*
				119	* did try_to_unlock() succeed or punt?
				120	*/
				121	if (ret == SWAP_SUCCESS \|\| ret == SWAP_AGAIN)
				122	count_vm_event(UNEVICTABLE_PGMUNLOCKED);
				123
				124	putback_lru_page(page);
				125	} else {
				126	/*
				127	* We lost the race. let try_to_unmap() deal
				128	* with it. At least we get the page state and
				129	* mlock stats right. However, page is still on
				130	* the noreclaim list. We'll fix that up when
				131	* the page is eventually freed or we scan the
				132	* noreclaim list.
				133	*/
				134	if (PageUnevictable(page))
				135	count_vm_event(UNEVICTABLE_PGSTRANDED);
				136	else
				137	count_vm_event(UNEVICTABLE_PGMUNLOCKED);
				138	}
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	139	}
				140	}
				141
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	142	/**
				143	* __mlock_vma_pages_range() - mlock/munlock a range of pages in the vma.
				144	* @vma: target vma
				145	* @start: start address
				146	* @end: end address
				147	* @mlock: 0 indicate munlock, otherwise mlock.
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	148	*
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	149	* If @mlock == 0, unlock an mlocked range;
				150	* else mlock the range of pages. This takes care of making the pages present ,
				151	* too.
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	152	*
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	153	* return 0 on success, negative error code on error.
				154	*
				155	* vma->vm_mm->mmap_sem must be held for at least read.
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	156	*/
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	157	static long __mlock_vma_pages_range(struct vm_area_struct *vma,
				158	unsigned long start, unsigned long end,
				159	int mlock)
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	160	{
				161	struct mm_struct *mm = vma->vm_mm;
				162	unsigned long addr = start;
				163	struct page pages[16]; / 16 gives a reasonable batch */
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	164	int nr_pages = (end - start) / PAGE_SIZE;
				165	int ret;
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	166	int gup_flags = 0;
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	167
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	168	VM_BUG_ON(start & ~PAGE_MASK);
				169	VM_BUG_ON(end & ~PAGE_MASK);
				170	VM_BUG_ON(start < vma->vm_start);
				171	VM_BUG_ON(end > vma->vm_end);
				172	VM_BUG_ON((!rwsem_is_locked(&mm->mmap_sem)) &&
				173	(atomic_read(&mm->mm_users) != 0));
				174
				175	/*
				176	* mlock: don't page populate if page has PROT_NONE permission.
				177	* munlock: the pages always do munlock althrough
				178	* its has PROT_NONE permission.
				179	*/
				180	if (!mlock)
				181	gup_flags \|= GUP_FLAGS_IGNORE_VMA_PERMISSIONS;
				182
				183	if (vma->vm_flags & VM_WRITE)
				184	gup_flags \|= GUP_FLAGS_WRITE;
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	185
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	186	while (nr_pages > 0) {
				187	int i;
				188
				189	cond_resched();
				190
				191	/*
				192	* get_user_pages makes pages present if we are
				193	* setting mlock. and this extra reference count will
				194	* disable migration of this page. However, page may
				195	* still be truncated out from under us.
				196	*/
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	197	ret = __get_user_pages(current, mm, addr,
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	198	min_t(int, nr_pages, ARRAY_SIZE(pages)),
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	199	gup_flags, pages, NULL);
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	200	/*
				201	* This can happen for, e.g., VM_NONLINEAR regions before
				202	* a page has been allocated and mapped at a given offset,
				203	* or for addresses that map beyond end of a file.
				204	* We'll mlock the the pages if/when they get faulted in.
				205	*/
				206	if (ret < 0)
				207	break;
				208	if (ret == 0) {
				209	/*
				210	* We know the vma is there, so the only time
				211	* we cannot get a single page should be an
				212	* error (ret < 0) case.
				213	*/
				214	WARN_ON(1);
				215	break;
				216	}
				217
				218	lru_add_drain(); /* push cached pages to LRU */
				219
				220	for (i = 0; i < ret; i++) {
				221	struct page *page = pages[i];
				222
				223	lock_page(page);
				224	/*
				225	* Because we lock page here and migration is blocked
				226	* by the elevated reference, we need only check for
				227	* page truncation (file-cache only).
				228	*/
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	229	if (page->mapping) {
				230	if (mlock)
				231	mlock_vma_page(page);
				232	else
				233	munlock_vma_page(page);
				234	}
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	235	unlock_page(page);
				236	put_page(page); /* ref from get_user_pages() */
				237
				238	/*
				239	* here we assume that get_user_pages() has given us
				240	* a list of virtually contiguous pages.
				241	*/
				242	addr += PAGE_SIZE; /* for next get_user_pages() */
				243	nr_pages--;
				244	}
Lee Schermerhorn	9978ad5	2008-10-18 20:26:56 -0700	[diff] [blame]	245	ret = 0;
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	246	}
				247
Lee Schermerhorn	9978ad5	2008-10-18 20:26:56 -0700	[diff] [blame]	248	return ret; /* count entire vma as locked_vm */
				249	}
				250
				251	/*
				252	* convert get_user_pages() return value to posix mlock() error
				253	*/
				254	static int __mlock_posix_error_return(long retval)
				255	{
				256	if (retval == -EFAULT)
				257	retval = -ENOMEM;
				258	else if (retval == -ENOMEM)
				259	retval = -EAGAIN;
				260	return retval;
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	261	}
				262
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	263	#else /* CONFIG_UNEVICTABLE_LRU */
				264
				265	/*
				266	* Just make pages present if VM_LOCKED. No-op if unlocking.
				267	*/
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	268	static long __mlock_vma_pages_range(struct vm_area_struct *vma,
				269	unsigned long start, unsigned long end,
				270	int mlock)
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	271	{
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	272	if (mlock && (vma->vm_flags & VM_LOCKED))
Lee Schermerhorn	9978ad5	2008-10-18 20:26:56 -0700	[diff] [blame]	273	return make_pages_present(start, end);
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	274	return 0;
				275	}
Lee Schermerhorn	9978ad5	2008-10-18 20:26:56 -0700	[diff] [blame]	276
				277	static inline int __mlock_posix_error_return(long retval)
				278	{
				279	return 0;
				280	}
				281
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	282	#endif /* CONFIG_UNEVICTABLE_LRU */
				283
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	284	/**
				285	* mlock_vma_pages_range() - mlock pages in specified vma range.
				286	* @vma - the vma containing the specfied address range
				287	* @start - starting address in @vma to mlock
				288	* @end - end address [+1] in @vma to mlock
				289	*
				290	* For mmap()/mremap()/expansion of mlocked vma.
				291	*
				292	* return 0 on success for "normal" vmas.
				293	*
				294	* return number of pages [> 0] to be removed from locked_vm on success
				295	* of "special" vmas.
				296	*
				297	* return negative error if vma spanning @start-@range disappears while
				298	* mmap semaphore is dropped. Unlikely?
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	299	*/
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	300	long mlock_vma_pages_range(struct vm_area_struct *vma,
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	301	unsigned long start, unsigned long end)
				302	{
Lee Schermerhorn	8edb08c	2008-10-18 20:26:49 -0700	[diff] [blame]	303	struct mm_struct *mm = vma->vm_mm;
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	304	int nr_pages = (end - start) / PAGE_SIZE;
				305	BUG_ON(!(vma->vm_flags & VM_LOCKED));
				306
				307	/*
				308	* filter unlockable vmas
				309	*/
				310	if (vma->vm_flags & (VM_IO \| VM_PFNMAP))
				311	goto no_mlock;
				312
				313	if (!((vma->vm_flags & (VM_DONTEXPAND \| VM_RESERVED)) \|\|
				314	is_vm_hugetlb_page(vma) \|\|
Lee Schermerhorn	8edb08c	2008-10-18 20:26:49 -0700	[diff] [blame]	315	vma == get_gate_vma(current))) {
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	316	long error;
Lee Schermerhorn	8edb08c	2008-10-18 20:26:49 -0700	[diff] [blame]	317	downgrade_write(&mm->mmap_sem);
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	318
				319	error = __mlock_vma_pages_range(vma, start, end, 1);
Lee Schermerhorn	8edb08c	2008-10-18 20:26:49 -0700	[diff] [blame]	320
				321	up_read(&mm->mmap_sem);
				322	/* vma can change or disappear */
				323	down_write(&mm->mmap_sem);
				324	vma = find_vma(mm, start);
				325	/* non-NULL vma must contain @start, but need to check @end */
				326	if (!vma \|\| end > vma->vm_end)
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	327	return -ENOMEM;
				328
				329	return 0; /* hide other errors from mmap(), et al */
Lee Schermerhorn	8edb08c	2008-10-18 20:26:49 -0700	[diff] [blame]	330	}
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	331
				332	/*
				333	* User mapped kernel pages or huge pages:
				334	* make these pages present to populate the ptes, but
				335	* fall thru' to reset VM_LOCKED--no need to unlock, and
				336	* return nr_pages so these don't get counted against task's
				337	* locked limit. huge pages are already counted against
				338	* locked vm limit.
				339	*/
				340	make_pages_present(start, end);
				341
				342	no_mlock:
				343	vma->vm_flags &= ~VM_LOCKED; /* and don't come back! */
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	344	return nr_pages; /* error or pages NOT mlocked */
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	345	}
				346
				347
				348	/*
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	349	* munlock_vma_pages_range() - munlock all pages in the vma range.'
				350	* @vma - vma containing range to be munlock()ed.
				351	* @start - start address in @vma of the range
				352	* @end - end of range in @vma.
				353	*
				354	* For mremap(), munmap() and exit().
				355	*
				356	* Called with @vma VM_LOCKED.
				357	*
				358	* Returns with VM_LOCKED cleared. Callers must be prepared to
				359	* deal with this.
				360	*
				361	* We don't save and restore VM_LOCKED here because pages are
				362	* still on lru. In unmap path, pages might be scanned by reclaim
				363	* and re-mlocked by try_to_{munlock\|unmap} before we unmap and
				364	* free them. This will result in freeing mlocked pages.
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	365	*/
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	366	void munlock_vma_pages_range(struct vm_area_struct *vma,
				367	unsigned long start, unsigned long end)
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	368	{
				369	vma->vm_flags &= ~VM_LOCKED;
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	370	__mlock_vma_pages_range(vma, start, end, 0);
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	371	}
				372
				373	/*
				374	* mlock_fixup - handle mlock[all]/munlock[all] requests.
				375	*
				376	* Filters out "special" vmas -- VM_LOCKED never gets set for these, and
				377	* munlock is a no-op. However, for some special vmas, we go ahead and
				378	* populate the ptes via make_pages_present().
				379	*
				380	* For vmas that pass the filters, merge/split as appropriate.
				381	*/
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	382	static int mlock_fixup(struct vm_area_struct vma, struct vm_area_struct *prev,
				383	unsigned long start, unsigned long end, unsigned int newflags)
				384	{
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	385	struct mm_struct *mm = vma->vm_mm;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	386	pgoff_t pgoff;
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	387	int nr_pages;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	388	int ret = 0;
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	389	int lock = newflags & VM_LOCKED;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	390
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	391	if (newflags == vma->vm_flags \|\|
				392	(vma->vm_flags & (VM_IO \| VM_PFNMAP)))
				393	goto out; /* don't set VM_LOCKED, don't count */
				394
				395	if ((vma->vm_flags & (VM_DONTEXPAND \| VM_RESERVED)) \|\|
				396	is_vm_hugetlb_page(vma) \|\|
				397	vma == get_gate_vma(current)) {
				398	if (lock)
				399	make_pages_present(start, end);
				400	goto out; /* don't set VM_LOCKED, don't count */
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	401	}
				402
				403	pgoff = vma->vm_pgoff + ((start - vma->vm_start) >> PAGE_SHIFT);
				404	prev = vma_merge(mm, prev, start, end, newflags, vma->anon_vma,
				405	vma->vm_file, pgoff, vma_policy(vma));
				406	if (*prev) {
				407	vma = *prev;
				408	goto success;
				409	}
				410
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	411	if (start != vma->vm_start) {
				412	ret = split_vma(mm, vma, start, 1);
				413	if (ret)
				414	goto out;
				415	}
				416
				417	if (end != vma->vm_end) {
				418	ret = split_vma(mm, vma, end, 0);
				419	if (ret)
				420	goto out;
				421	}
				422
				423	success:
				424	/*
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	425	* Keep track of amount of locked VM.
				426	*/
				427	nr_pages = (end - start) >> PAGE_SHIFT;
				428	if (!lock)
				429	nr_pages = -nr_pages;
				430	mm->locked_vm += nr_pages;
				431
				432	/*
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	433	* vm_flags is protected by the mmap_sem held in write mode.
				434	* It's okay if try_to_unmap_one unmaps a page just after we
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	435	* set VM_LOCKED, __mlock_vma_pages_range will bring it back.
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	436	*/
				437	vma->vm_flags = newflags;
				438
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	439	if (lock) {
Lee Schermerhorn	8edb08c	2008-10-18 20:26:49 -0700	[diff] [blame]	440	/*
				441	* mmap_sem is currently held for write. Downgrade the write
				442	* lock to a read lock so that other faults, mmap scans, ...
				443	* while we fault in all pages.
				444	*/
				445	downgrade_write(&mm->mmap_sem);
				446
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	447	ret = __mlock_vma_pages_range(vma, start, end, 1);
Lee Schermerhorn	9978ad5	2008-10-18 20:26:56 -0700	[diff] [blame]	448
Lee Schermerhorn	8edb08c	2008-10-18 20:26:49 -0700	[diff] [blame]	449	/*
				450	* Need to reacquire mmap sem in write mode, as our callers
				451	* expect this. We have no support for atomically upgrading
				452	* a sem to write, so we need to check for ranges while sem
				453	* is unlocked.
				454	*/
				455	up_read(&mm->mmap_sem);
				456	/* vma can change or disappear */
				457	down_write(&mm->mmap_sem);
				458	*prev = find_vma(mm, start);
				459	/* non-NULL prev must contain @start, but need to check @end /
				460	if (!(prev) \|\| end > (prev)->vm_end)
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	461	ret = -ENOMEM;
Lee Schermerhorn	9978ad5	2008-10-18 20:26:56 -0700	[diff] [blame]	462	else if (ret > 0) {
				463	mm->locked_vm -= ret;
				464	ret = 0;
				465	} else
				466	ret = __mlock_posix_error_return(ret); /* translate if needed */
Lee Schermerhorn	8edb08c	2008-10-18 20:26:49 -0700	[diff] [blame]	467	} else {
				468	/*
				469	* TODO: for unlocking, pages will already be resident, so
				470	* we don't need to wait for allocations/reclaim/pagein, ...
				471	* However, unlocking a very large region can still take a
				472	* while. Should we downgrade the semaphore for both lock
				473	* AND unlock ?
				474	*/
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	475	__mlock_vma_pages_range(vma, start, end, 0);
Lee Schermerhorn	8edb08c	2008-10-18 20:26:49 -0700	[diff] [blame]	476	}
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	477
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	478	out:
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	479	*prev = vma;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	480	return ret;
				481	}
				482
				483	static int do_mlock(unsigned long start, size_t len, int on)
				484	{
				485	unsigned long nstart, end, tmp;
				486	struct vm_area_struct * vma, * prev;
				487	int error;
				488
				489	len = PAGE_ALIGN(len);
				490	end = start + len;
				491	if (end < start)
				492	return -EINVAL;
				493	if (end == start)
				494	return 0;
				495	vma = find_vma_prev(current->mm, start, &prev);
				496	if (!vma \|\| vma->vm_start > start)
				497	return -ENOMEM;
				498
				499	if (start > vma->vm_start)
				500	prev = vma;
				501
				502	for (nstart = start ; ; ) {
				503	unsigned int newflags;
				504
				505	/* Here we know that vma->vm_start <= nstart < vma->vm_end. */
				506
				507	newflags = vma->vm_flags \| VM_LOCKED;
				508	if (!on)
				509	newflags &= ~VM_LOCKED;
				510
				511	tmp = vma->vm_end;
				512	if (tmp > end)
				513	tmp = end;
				514	error = mlock_fixup(vma, &prev, nstart, tmp, newflags);
				515	if (error)
				516	break;
				517	nstart = tmp;
				518	if (nstart < prev->vm_end)
				519	nstart = prev->vm_end;
				520	if (nstart >= end)
				521	break;
				522
				523	vma = prev->vm_next;
				524	if (!vma \|\| vma->vm_start != nstart) {
				525	error = -ENOMEM;
				526	break;
				527	}
				528	}
				529	return error;
				530	}
				531
				532	asmlinkage long sys_mlock(unsigned long start, size_t len)
				533	{
				534	unsigned long locked;
				535	unsigned long lock_limit;
				536	int error = -ENOMEM;
				537
				538	if (!can_do_mlock())
				539	return -EPERM;
				540
KOSAKI Motohiro	8891d6d	2008-11-12 13:26:53 -0800	[diff] [blame^]	541	lru_add_drain_all(); /* flush pagevec */
				542
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	543	down_write(&current->mm->mmap_sem);
				544	len = PAGE_ALIGN(len + (start & ~PAGE_MASK));
				545	start &= PAGE_MASK;
				546
				547	locked = len >> PAGE_SHIFT;
				548	locked += current->mm->locked_vm;
				549
				550	lock_limit = current->signal->rlim[RLIMIT_MEMLOCK].rlim_cur;
				551	lock_limit >>= PAGE_SHIFT;
				552
				553	/* check against resource limits */
				554	if ((locked <= lock_limit) \|\| capable(CAP_IPC_LOCK))
				555	error = do_mlock(start, len, 1);
				556	up_write(&current->mm->mmap_sem);
				557	return error;
				558	}
				559
				560	asmlinkage long sys_munlock(unsigned long start, size_t len)
				561	{
				562	int ret;
				563
				564	down_write(&current->mm->mmap_sem);
				565	len = PAGE_ALIGN(len + (start & ~PAGE_MASK));
				566	start &= PAGE_MASK;
				567	ret = do_mlock(start, len, 0);
				568	up_write(&current->mm->mmap_sem);
				569	return ret;
				570	}
				571
				572	static int do_mlockall(int flags)
				573	{
				574	struct vm_area_struct * vma, * prev = NULL;
				575	unsigned int def_flags = 0;
				576
				577	if (flags & MCL_FUTURE)
				578	def_flags = VM_LOCKED;
				579	current->mm->def_flags = def_flags;
				580	if (flags == MCL_FUTURE)
				581	goto out;
				582
				583	for (vma = current->mm->mmap; vma ; vma = prev->vm_next) {
				584	unsigned int newflags;
				585
				586	newflags = vma->vm_flags \| VM_LOCKED;
				587	if (!(flags & MCL_CURRENT))
				588	newflags &= ~VM_LOCKED;
				589
				590	/* Ignore errors */
				591	mlock_fixup(vma, &prev, vma->vm_start, vma->vm_end, newflags);
				592	}
				593	out:
				594	return 0;
				595	}
				596
				597	asmlinkage long sys_mlockall(int flags)
				598	{
				599	unsigned long lock_limit;
				600	int ret = -EINVAL;
				601
				602	if (!flags \|\| (flags & ~(MCL_CURRENT \| MCL_FUTURE)))
				603	goto out;
				604
				605	ret = -EPERM;
				606	if (!can_do_mlock())
				607	goto out;
				608
KOSAKI Motohiro	8891d6d	2008-11-12 13:26:53 -0800	[diff] [blame^]	609	lru_add_drain_all(); /* flush pagevec */
				610
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	611	down_write(&current->mm->mmap_sem);
				612
				613	lock_limit = current->signal->rlim[RLIMIT_MEMLOCK].rlim_cur;
				614	lock_limit >>= PAGE_SHIFT;
				615
				616	ret = -ENOMEM;
				617	if (!(flags & MCL_CURRENT) \|\| (current->mm->total_vm <= lock_limit) \|\|
				618	capable(CAP_IPC_LOCK))
				619	ret = do_mlockall(flags);
				620	up_write(&current->mm->mmap_sem);
				621	out:
				622	return ret;
				623	}
				624
				625	asmlinkage long sys_munlockall(void)
				626	{
				627	int ret;
				628
				629	down_write(&current->mm->mmap_sem);
				630	ret = do_mlockall(0);
				631	up_write(&current->mm->mmap_sem);
				632	return ret;
				633	}
				634
				635	/*
				636	* Objects with different lifetime than processes (SHM_LOCK and SHM_HUGETLB
				637	* shm segments) get accounted against the user_struct instead.
				638	*/
				639	static DEFINE_SPINLOCK(shmlock_user_lock);
				640
				641	int user_shm_lock(size_t size, struct user_struct *user)
				642	{
				643	unsigned long lock_limit, locked;
				644	int allowed = 0;
				645
				646	locked = (size + PAGE_SIZE - 1) >> PAGE_SHIFT;
				647	lock_limit = current->signal->rlim[RLIMIT_MEMLOCK].rlim_cur;
Herbert van den Bergh	5ed44a4	2007-07-15 23:38:25 -0700	[diff] [blame]	648	if (lock_limit == RLIM_INFINITY)
				649	allowed = 1;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	650	lock_limit >>= PAGE_SHIFT;
				651	spin_lock(&shmlock_user_lock);
Herbert van den Bergh	5ed44a4	2007-07-15 23:38:25 -0700	[diff] [blame]	652	if (!allowed &&
				653	locked + user->locked_shm > lock_limit && !capable(CAP_IPC_LOCK))
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	654	goto out;
				655	get_uid(user);
				656	user->locked_shm += locked;
				657	allowed = 1;
				658	out:
				659	spin_unlock(&shmlock_user_lock);
				660	return allowed;
				661	}
				662
				663	void user_shm_unlock(size_t size, struct user_struct *user)
				664	{
				665	spin_lock(&shmlock_user_lock);
				666	user->locked_shm -= (size + PAGE_SIZE - 1) >> PAGE_SHIFT;
				667	spin_unlock(&shmlock_user_lock);
				668	free_uid(user);
				669	}