Blame - mm/khugepaged.c - SHIFTPHONES/kernel/shift/mainline

blob: b043c40a21d434ad7de7a10a779a06208c5ce1ef [file] [log] [blame]

Greg Kroah-Hartman	b244131	2017-11-01 15:07:57 +0100	[diff] [blame]	1	// SPDX-License-Identifier: GPL-2.0
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	2	#define pr_fmt(fmt) KBUILD_MODNAME ": " fmt
				3
				4	#include <linux/mm.h>
				5	#include <linux/sched.h>
Ingo Molnar	6e84f31	2017-02-08 18:51:29 +0100	[diff] [blame]	6	#include <linux/sched/mm.h>
Ingo Molnar	f7ccbae	2017-02-08 18:51:30 +0100	[diff] [blame]	7	#include <linux/sched/coredump.h>
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	8	#include <linux/mmu_notifier.h>
				9	#include <linux/rmap.h>
				10	#include <linux/swap.h>
				11	#include <linux/mm_inline.h>
				12	#include <linux/kthread.h>
				13	#include <linux/khugepaged.h>
				14	#include <linux/freezer.h>
				15	#include <linux/mman.h>
				16	#include <linux/hashtable.h>
				17	#include <linux/userfaultfd_k.h>
				18	#include <linux/page_idle.h>
				19	#include <linux/swapops.h>
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	20	#include <linux/shmem_fs.h>
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	21
				22	#include <asm/tlb.h>
				23	#include <asm/pgalloc.h>
				24	#include "internal.h"
				25
				26	enum scan_result {
				27	SCAN_FAIL,
				28	SCAN_SUCCEED,
				29	SCAN_PMD_NULL,
				30	SCAN_EXCEED_NONE_PTE,
Kirill A. Shutemov	71a2c11	2020-06-03 16:00:30 -0700	[diff] [blame]	31	SCAN_EXCEED_SWAP_PTE,
				32	SCAN_EXCEED_SHARED_PTE,
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	33	SCAN_PTE_NON_PRESENT,
Peter Xu	e1e267c	2020-04-06 20:06:04 -0700	[diff] [blame]	34	SCAN_PTE_UFFD_WP,
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	35	SCAN_PAGE_RO,
Ebru Akagunduz	0db501f	2016-07-26 15:26:46 -0700	[diff] [blame]	36	SCAN_LACK_REFERENCED_PAGE,
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	37	SCAN_PAGE_NULL,
				38	SCAN_SCAN_ABORT,
				39	SCAN_PAGE_COUNT,
				40	SCAN_PAGE_LRU,
				41	SCAN_PAGE_LOCK,
				42	SCAN_PAGE_ANON,
				43	SCAN_PAGE_COMPOUND,
				44	SCAN_ANY_PROCESS,
				45	SCAN_VMA_NULL,
				46	SCAN_VMA_CHECK,
				47	SCAN_ADDRESS_RANGE,
				48	SCAN_SWAP_CACHE_PAGE,
				49	SCAN_DEL_PAGE_LRU,
				50	SCAN_ALLOC_HUGE_PAGE_FAIL,
				51	SCAN_CGROUP_CHARGE_FAIL,
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	52	SCAN_TRUNCATED,
Song Liu	99cb0db	2019-09-23 15:38:00 -0700	[diff] [blame]	53	SCAN_PAGE_HAS_PRIVATE,
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	54	};
				55
				56	#define CREATE_TRACE_POINTS
				57	#include <trace/events/huge_memory.h>
				58
				59	/* default scan 8512 pte (or vmas) every 30 second /
				60	static unsigned int khugepaged_pages_to_scan __read_mostly;
				61	static unsigned int khugepaged_pages_collapsed;
				62	static unsigned int khugepaged_full_scans;
				63	static unsigned int khugepaged_scan_sleep_millisecs __read_mostly = 10000;
				64	/* during fragmentation poll the hugepage allocator once every minute */
				65	static unsigned int khugepaged_alloc_sleep_millisecs __read_mostly = 60000;
				66	static unsigned long khugepaged_sleep_expire;
				67	static DEFINE_SPINLOCK(khugepaged_mm_lock);
				68	static DECLARE_WAIT_QUEUE_HEAD(khugepaged_wait);
				69	/*
				70	* default collapse hugepages if there is at least one pte mapped like
				71	* it would have happened if the vma was large enough during page
				72	* fault.
				73	*/
				74	static unsigned int khugepaged_max_ptes_none __read_mostly;
				75	static unsigned int khugepaged_max_ptes_swap __read_mostly;
Kirill A. Shutemov	71a2c11	2020-06-03 16:00:30 -0700	[diff] [blame]	76	static unsigned int khugepaged_max_ptes_shared __read_mostly;
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	77
				78	#define MM_SLOTS_HASH_BITS 10
				79	static __read_mostly DEFINE_HASHTABLE(mm_slots_hash, MM_SLOTS_HASH_BITS);
				80
				81	static struct kmem_cache *mm_slot_cache __read_mostly;
				82
Song Liu	27e1f82	2019-09-23 15:38:30 -0700	[diff] [blame]	83	#define MAX_PTE_MAPPED_THP 8
				84
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	85	/**
				86	* struct mm_slot - hash lookup from mm to mm_slot
				87	* @hash: hash collision list
				88	* @mm_node: khugepaged scan list headed in khugepaged_scan.mm_head
				89	* @mm: the mm that this information is valid for
				90	*/
				91	struct mm_slot {
				92	struct hlist_node hash;
				93	struct list_head mm_node;
				94	struct mm_struct *mm;
Song Liu	27e1f82	2019-09-23 15:38:30 -0700	[diff] [blame]	95
				96	/* pte-mapped THP in this mm */
				97	int nr_pte_mapped_thp;
				98	unsigned long pte_mapped_thp[MAX_PTE_MAPPED_THP];
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	99	};
				100
				101	/**
				102	* struct khugepaged_scan - cursor for scanning
				103	* @mm_head: the head of the mm list to scan
				104	* @mm_slot: the current mm_slot we are scanning
				105	* @address: the next address inside that to be scanned
				106	*
				107	* There is only the one khugepaged_scan instance of this cursor structure.
				108	*/
				109	struct khugepaged_scan {
				110	struct list_head mm_head;
				111	struct mm_slot *mm_slot;
				112	unsigned long address;
				113	};
				114
				115	static struct khugepaged_scan khugepaged_scan = {
				116	.mm_head = LIST_HEAD_INIT(khugepaged_scan.mm_head),
				117	};
				118
Jérémy Lefaure	e1465d1	2016-11-30 15:54:02 -0800	[diff] [blame]	119	#ifdef CONFIG_SYSFS
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	120	static ssize_t scan_sleep_millisecs_show(struct kobject *kobj,
				121	struct kobj_attribute *attr,
				122	char *buf)
				123	{
				124	return sprintf(buf, "%u\n", khugepaged_scan_sleep_millisecs);
				125	}
				126
				127	static ssize_t scan_sleep_millisecs_store(struct kobject *kobj,
				128	struct kobj_attribute *attr,
				129	const char *buf, size_t count)
				130	{
				131	unsigned long msecs;
				132	int err;
				133
				134	err = kstrtoul(buf, 10, &msecs);
				135	if (err \|\| msecs > UINT_MAX)
				136	return -EINVAL;
				137
				138	khugepaged_scan_sleep_millisecs = msecs;
				139	khugepaged_sleep_expire = 0;
				140	wake_up_interruptible(&khugepaged_wait);
				141
				142	return count;
				143	}
				144	static struct kobj_attribute scan_sleep_millisecs_attr =
				145	__ATTR(scan_sleep_millisecs, 0644, scan_sleep_millisecs_show,
				146	scan_sleep_millisecs_store);
				147
				148	static ssize_t alloc_sleep_millisecs_show(struct kobject *kobj,
				149	struct kobj_attribute *attr,
				150	char *buf)
				151	{
				152	return sprintf(buf, "%u\n", khugepaged_alloc_sleep_millisecs);
				153	}
				154
				155	static ssize_t alloc_sleep_millisecs_store(struct kobject *kobj,
				156	struct kobj_attribute *attr,
				157	const char *buf, size_t count)
				158	{
				159	unsigned long msecs;
				160	int err;
				161
				162	err = kstrtoul(buf, 10, &msecs);
				163	if (err \|\| msecs > UINT_MAX)
				164	return -EINVAL;
				165
				166	khugepaged_alloc_sleep_millisecs = msecs;
				167	khugepaged_sleep_expire = 0;
				168	wake_up_interruptible(&khugepaged_wait);
				169
				170	return count;
				171	}
				172	static struct kobj_attribute alloc_sleep_millisecs_attr =
				173	__ATTR(alloc_sleep_millisecs, 0644, alloc_sleep_millisecs_show,
				174	alloc_sleep_millisecs_store);
				175
				176	static ssize_t pages_to_scan_show(struct kobject *kobj,
				177	struct kobj_attribute *attr,
				178	char *buf)
				179	{
				180	return sprintf(buf, "%u\n", khugepaged_pages_to_scan);
				181	}
				182	static ssize_t pages_to_scan_store(struct kobject *kobj,
				183	struct kobj_attribute *attr,
				184	const char *buf, size_t count)
				185	{
				186	int err;
				187	unsigned long pages;
				188
				189	err = kstrtoul(buf, 10, &pages);
				190	if (err \|\| !pages \|\| pages > UINT_MAX)
				191	return -EINVAL;
				192
				193	khugepaged_pages_to_scan = pages;
				194
				195	return count;
				196	}
				197	static struct kobj_attribute pages_to_scan_attr =
				198	__ATTR(pages_to_scan, 0644, pages_to_scan_show,
				199	pages_to_scan_store);
				200
				201	static ssize_t pages_collapsed_show(struct kobject *kobj,
				202	struct kobj_attribute *attr,
				203	char *buf)
				204	{
				205	return sprintf(buf, "%u\n", khugepaged_pages_collapsed);
				206	}
				207	static struct kobj_attribute pages_collapsed_attr =
				208	__ATTR_RO(pages_collapsed);
				209
				210	static ssize_t full_scans_show(struct kobject *kobj,
				211	struct kobj_attribute *attr,
				212	char *buf)
				213	{
				214	return sprintf(buf, "%u\n", khugepaged_full_scans);
				215	}
				216	static struct kobj_attribute full_scans_attr =
				217	__ATTR_RO(full_scans);
				218
				219	static ssize_t khugepaged_defrag_show(struct kobject *kobj,
				220	struct kobj_attribute attr, char buf)
				221	{
				222	return single_hugepage_flag_show(kobj, attr, buf,
				223	TRANSPARENT_HUGEPAGE_DEFRAG_KHUGEPAGED_FLAG);
				224	}
				225	static ssize_t khugepaged_defrag_store(struct kobject *kobj,
				226	struct kobj_attribute *attr,
				227	const char *buf, size_t count)
				228	{
				229	return single_hugepage_flag_store(kobj, attr, buf, count,
				230	TRANSPARENT_HUGEPAGE_DEFRAG_KHUGEPAGED_FLAG);
				231	}
				232	static struct kobj_attribute khugepaged_defrag_attr =
				233	__ATTR(defrag, 0644, khugepaged_defrag_show,
				234	khugepaged_defrag_store);
				235
				236	/*
				237	* max_ptes_none controls if khugepaged should collapse hugepages over
				238	* any unmapped ptes in turn potentially increasing the memory
				239	* footprint of the vmas. When max_ptes_none is 0 khugepaged will not
				240	* reduce the available free memory in the system as it
				241	* runs. Increasing max_ptes_none will instead potentially reduce the
				242	* free memory in the system during the khugepaged scan.
				243	*/
				244	static ssize_t khugepaged_max_ptes_none_show(struct kobject *kobj,
				245	struct kobj_attribute *attr,
				246	char *buf)
				247	{
				248	return sprintf(buf, "%u\n", khugepaged_max_ptes_none);
				249	}
				250	static ssize_t khugepaged_max_ptes_none_store(struct kobject *kobj,
				251	struct kobj_attribute *attr,
				252	const char *buf, size_t count)
				253	{
				254	int err;
				255	unsigned long max_ptes_none;
				256
				257	err = kstrtoul(buf, 10, &max_ptes_none);
				258	if (err \|\| max_ptes_none > HPAGE_PMD_NR-1)
				259	return -EINVAL;
				260
				261	khugepaged_max_ptes_none = max_ptes_none;
				262
				263	return count;
				264	}
				265	static struct kobj_attribute khugepaged_max_ptes_none_attr =
				266	__ATTR(max_ptes_none, 0644, khugepaged_max_ptes_none_show,
				267	khugepaged_max_ptes_none_store);
				268
				269	static ssize_t khugepaged_max_ptes_swap_show(struct kobject *kobj,
				270	struct kobj_attribute *attr,
				271	char *buf)
				272	{
				273	return sprintf(buf, "%u\n", khugepaged_max_ptes_swap);
				274	}
				275
				276	static ssize_t khugepaged_max_ptes_swap_store(struct kobject *kobj,
				277	struct kobj_attribute *attr,
				278	const char *buf, size_t count)
				279	{
				280	int err;
				281	unsigned long max_ptes_swap;
				282
				283	err = kstrtoul(buf, 10, &max_ptes_swap);
				284	if (err \|\| max_ptes_swap > HPAGE_PMD_NR-1)
				285	return -EINVAL;
				286
				287	khugepaged_max_ptes_swap = max_ptes_swap;
				288
				289	return count;
				290	}
				291
				292	static struct kobj_attribute khugepaged_max_ptes_swap_attr =
				293	__ATTR(max_ptes_swap, 0644, khugepaged_max_ptes_swap_show,
				294	khugepaged_max_ptes_swap_store);
				295
Kirill A. Shutemov	71a2c11	2020-06-03 16:00:30 -0700	[diff] [blame]	296	static ssize_t khugepaged_max_ptes_shared_show(struct kobject *kobj,
				297	struct kobj_attribute *attr,
				298	char *buf)
				299	{
				300	return sprintf(buf, "%u\n", khugepaged_max_ptes_shared);
				301	}
				302
				303	static ssize_t khugepaged_max_ptes_shared_store(struct kobject *kobj,
				304	struct kobj_attribute *attr,
				305	const char *buf, size_t count)
				306	{
				307	int err;
				308	unsigned long max_ptes_shared;
				309
				310	err = kstrtoul(buf, 10, &max_ptes_shared);
				311	if (err \|\| max_ptes_shared > HPAGE_PMD_NR-1)
				312	return -EINVAL;
				313
				314	khugepaged_max_ptes_shared = max_ptes_shared;
				315
				316	return count;
				317	}
				318
				319	static struct kobj_attribute khugepaged_max_ptes_shared_attr =
				320	__ATTR(max_ptes_shared, 0644, khugepaged_max_ptes_shared_show,
				321	khugepaged_max_ptes_shared_store);
				322
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	323	static struct attribute *khugepaged_attr[] = {
				324	&khugepaged_defrag_attr.attr,
				325	&khugepaged_max_ptes_none_attr.attr,
Kirill A. Shutemov	71a2c11	2020-06-03 16:00:30 -0700	[diff] [blame]	326	&khugepaged_max_ptes_swap_attr.attr,
				327	&khugepaged_max_ptes_shared_attr.attr,
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	328	&pages_to_scan_attr.attr,
				329	&pages_collapsed_attr.attr,
				330	&full_scans_attr.attr,
				331	&scan_sleep_millisecs_attr.attr,
				332	&alloc_sleep_millisecs_attr.attr,
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	333	NULL,
				334	};
				335
				336	struct attribute_group khugepaged_attr_group = {
				337	.attrs = khugepaged_attr,
				338	.name = "khugepaged",
				339	};
Jérémy Lefaure	e1465d1	2016-11-30 15:54:02 -0800	[diff] [blame]	340	#endif /* CONFIG_SYSFS */
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	341
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	342	int hugepage_madvise(struct vm_area_struct *vma,
				343	unsigned long *vm_flags, int advice)
				344	{
				345	switch (advice) {
				346	case MADV_HUGEPAGE:
				347	#ifdef CONFIG_S390
				348	/*
				349	* qemu blindly sets MADV_HUGEPAGE on all allocations, but s390
				350	* can't handle this properly after s390_enable_sie, so we simply
				351	* ignore the madvise to prevent qemu from causing a SIGSEGV.
				352	*/
				353	if (mm_has_pgste(vma->vm_mm))
				354	return 0;
				355	#endif
				356	*vm_flags &= ~VM_NOHUGEPAGE;
				357	*vm_flags \|= VM_HUGEPAGE;
				358	/*
				359	* If the vma become good for khugepaged to scan,
				360	* register it here without waiting a page fault that
				361	* may not happen any time soon.
				362	*/
				363	if (!(*vm_flags & VM_NO_KHUGEPAGED) &&
				364	khugepaged_enter_vma_merge(vma, *vm_flags))
				365	return -ENOMEM;
				366	break;
				367	case MADV_NOHUGEPAGE:
				368	*vm_flags &= ~VM_HUGEPAGE;
				369	*vm_flags \|= VM_NOHUGEPAGE;
				370	/*
				371	* Setting VM_NOHUGEPAGE will prevent khugepaged from scanning
				372	* this vma even if we leave the mm registered in khugepaged if
				373	* it got registered before VM_NOHUGEPAGE was set.
				374	*/
				375	break;
				376	}
				377
				378	return 0;
				379	}
				380
				381	int __init khugepaged_init(void)
				382	{
				383	mm_slot_cache = kmem_cache_create("khugepaged_mm_slot",
				384	sizeof(struct mm_slot),
				385	__alignof__(struct mm_slot), 0, NULL);
				386	if (!mm_slot_cache)
				387	return -ENOMEM;
				388
				389	khugepaged_pages_to_scan = HPAGE_PMD_NR * 8;
				390	khugepaged_max_ptes_none = HPAGE_PMD_NR - 1;
				391	khugepaged_max_ptes_swap = HPAGE_PMD_NR / 8;
Kirill A. Shutemov	71a2c11	2020-06-03 16:00:30 -0700	[diff] [blame]	392	khugepaged_max_ptes_shared = HPAGE_PMD_NR / 2;
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	393
				394	return 0;
				395	}
				396
				397	void __init khugepaged_destroy(void)
				398	{
				399	kmem_cache_destroy(mm_slot_cache);
				400	}
				401
				402	static inline struct mm_slot *alloc_mm_slot(void)
				403	{
				404	if (!mm_slot_cache) /* initialization failed */
				405	return NULL;
				406	return kmem_cache_zalloc(mm_slot_cache, GFP_KERNEL);
				407	}
				408
				409	static inline void free_mm_slot(struct mm_slot *mm_slot)
				410	{
				411	kmem_cache_free(mm_slot_cache, mm_slot);
				412	}
				413
				414	static struct mm_slot get_mm_slot(struct mm_struct mm)
				415	{
				416	struct mm_slot *mm_slot;
				417
				418	hash_for_each_possible(mm_slots_hash, mm_slot, hash, (unsigned long)mm)
				419	if (mm == mm_slot->mm)
				420	return mm_slot;
				421
				422	return NULL;
				423	}
				424
				425	static void insert_to_mm_slots_hash(struct mm_struct *mm,
				426	struct mm_slot *mm_slot)
				427	{
				428	mm_slot->mm = mm;
				429	hash_add(mm_slots_hash, &mm_slot->hash, (long)mm);
				430	}
				431
				432	static inline int khugepaged_test_exit(struct mm_struct *mm)
				433	{
				434	return atomic_read(&mm->mm_users) == 0;
				435	}
				436
Song Liu	50f8b92	2018-08-17 15:47:00 -0700	[diff] [blame]	437	static bool hugepage_vma_check(struct vm_area_struct *vma,
				438	unsigned long vm_flags)
Yang Shi	c223102	2018-08-17 15:45:26 -0700	[diff] [blame]	439	{
Song Liu	50f8b92	2018-08-17 15:47:00 -0700	[diff] [blame]	440	if ((!(vm_flags & VM_HUGEPAGE) && !khugepaged_always()) \|\|
				441	(vm_flags & VM_NOHUGEPAGE) \|\|
Yang Shi	c223102	2018-08-17 15:45:26 -0700	[diff] [blame]	442	test_bit(MMF_DISABLE_THP, &vma->vm_mm->flags))
				443	return false;
Song Liu	99cb0db	2019-09-23 15:38:00 -0700	[diff] [blame]	444
				445	if (shmem_file(vma->vm_file) \|\|
				446	(IS_ENABLED(CONFIG_READ_ONLY_THP_FOR_FS) &&
				447	vma->vm_file &&
				448	(vm_flags & VM_DENYWRITE))) {
Yang Shi	c223102	2018-08-17 15:45:26 -0700	[diff] [blame]	449	return IS_ALIGNED((vma->vm_start >> PAGE_SHIFT) - vma->vm_pgoff,
				450	HPAGE_PMD_NR);
				451	}
				452	if (!vma->anon_vma \|\| vma->vm_ops)
				453	return false;
Anshuman Khandual	222100e	2020-04-01 21:07:52 -0700	[diff] [blame]	454	if (vma_is_temporary_stack(vma))
Yang Shi	c223102	2018-08-17 15:45:26 -0700	[diff] [blame]	455	return false;
Song Liu	50f8b92	2018-08-17 15:47:00 -0700	[diff] [blame]	456	return !(vm_flags & VM_NO_KHUGEPAGED);
Yang Shi	c223102	2018-08-17 15:45:26 -0700	[diff] [blame]	457	}
				458
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	459	int __khugepaged_enter(struct mm_struct *mm)
				460	{
				461	struct mm_slot *mm_slot;
				462	int wakeup;
				463
				464	mm_slot = alloc_mm_slot();
				465	if (!mm_slot)
				466	return -ENOMEM;
				467
				468	/* __khugepaged_exit() must not run from under us */
				469	VM_BUG_ON_MM(khugepaged_test_exit(mm), mm);
				470	if (unlikely(test_and_set_bit(MMF_VM_HUGEPAGE, &mm->flags))) {
				471	free_mm_slot(mm_slot);
				472	return 0;
				473	}
				474
				475	spin_lock(&khugepaged_mm_lock);
				476	insert_to_mm_slots_hash(mm, mm_slot);
				477	/*
				478	* Insert just behind the scanning cursor, to let the area settle
				479	* down a little.
				480	*/
				481	wakeup = list_empty(&khugepaged_scan.mm_head);
				482	list_add_tail(&mm_slot->mm_node, &khugepaged_scan.mm_head);
				483	spin_unlock(&khugepaged_mm_lock);
				484
Vegard Nossum	f1f1007	2017-02-27 14:30:07 -0800	[diff] [blame]	485	mmgrab(mm);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	486	if (wakeup)
				487	wake_up_interruptible(&khugepaged_wait);
				488
				489	return 0;
				490	}
				491
				492	int khugepaged_enter_vma_merge(struct vm_area_struct *vma,
				493	unsigned long vm_flags)
				494	{
				495	unsigned long hstart, hend;
Yang Shi	c223102	2018-08-17 15:45:26 -0700	[diff] [blame]	496
				497	/*
Song Liu	99cb0db	2019-09-23 15:38:00 -0700	[diff] [blame]	498	* khugepaged only supports read-only files for non-shmem files.
				499	* khugepaged does not yet work on special mappings. And
				500	* file-private shmem THP is not supported.
Yang Shi	c223102	2018-08-17 15:45:26 -0700	[diff] [blame]	501	*/
Song Liu	50f8b92	2018-08-17 15:47:00 -0700	[diff] [blame]	502	if (!hugepage_vma_check(vma, vm_flags))
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	503	return 0;
Yang Shi	c223102	2018-08-17 15:45:26 -0700	[diff] [blame]	504
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	505	hstart = (vma->vm_start + ~HPAGE_PMD_MASK) & HPAGE_PMD_MASK;
				506	hend = vma->vm_end & HPAGE_PMD_MASK;
				507	if (hstart < hend)
				508	return khugepaged_enter(vma, vm_flags);
				509	return 0;
				510	}
				511
				512	void __khugepaged_exit(struct mm_struct *mm)
				513	{
				514	struct mm_slot *mm_slot;
				515	int free = 0;
				516
				517	spin_lock(&khugepaged_mm_lock);
				518	mm_slot = get_mm_slot(mm);
				519	if (mm_slot && khugepaged_scan.mm_slot != mm_slot) {
				520	hash_del(&mm_slot->hash);
				521	list_del(&mm_slot->mm_node);
				522	free = 1;
				523	}
				524	spin_unlock(&khugepaged_mm_lock);
				525
				526	if (free) {
				527	clear_bit(MMF_VM_HUGEPAGE, &mm->flags);
				528	free_mm_slot(mm_slot);
				529	mmdrop(mm);
				530	} else if (mm_slot) {
				531	/*
				532	* This is required to serialize against
				533	* khugepaged_test_exit() (which is guaranteed to run
				534	* under mmap sem read mode). Stop here (after we
				535	* return all pagetables will be destroyed) until
				536	* khugepaged has finished working on the pagetables
Michel Lespinasse	c1e8d7c	2020-06-08 21:33:54 -0700	[diff] [blame]	537	* under the mmap_lock.
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	538	*/
Michel Lespinasse	d8ed45c	2020-06-08 21:33:25 -0700	[diff] [blame]	539	mmap_write_lock(mm);
				540	mmap_write_unlock(mm);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	541	}
				542	}
				543
				544	static void release_pte_page(struct page *page)
				545	{
Kirill A. Shutemov	5503fbf	2020-06-03 16:00:23 -0700	[diff] [blame]	546	mod_node_page_state(page_pgdat(page),
				547	NR_ISOLATED_ANON + page_is_file_lru(page),
				548	-compound_nr(page));
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	549	unlock_page(page);
				550	putback_lru_page(page);
				551	}
				552
Kirill A. Shutemov	5503fbf	2020-06-03 16:00:23 -0700	[diff] [blame]	553	static void release_pte_pages(pte_t pte, pte_t _pte,
				554	struct list_head *compound_pagelist)
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	555	{
Kirill A. Shutemov	5503fbf	2020-06-03 16:00:23 -0700	[diff] [blame]	556	struct page page, tmp;
				557
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	558	while (--_pte >= pte) {
				559	pte_t pteval = *_pte;
Kirill A. Shutemov	5503fbf	2020-06-03 16:00:23 -0700	[diff] [blame]	560
				561	page = pte_page(pteval);
				562	if (!pte_none(pteval) && !is_zero_pfn(pte_pfn(pteval)) &&
				563	!PageCompound(page))
				564	release_pte_page(page);
				565	}
				566
				567	list_for_each_entry_safe(page, tmp, compound_pagelist, lru) {
				568	list_del(&page->lru);
				569	release_pte_page(page);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	570	}
				571	}
				572
Kirill A. Shutemov	9445689	2020-06-03 16:00:20 -0700	[diff] [blame]	573	static bool is_refcount_suitable(struct page *page)
				574	{
				575	int expected_refcount;
				576
				577	expected_refcount = total_mapcount(page);
				578	if (PageSwapCache(page))
				579	expected_refcount += compound_nr(page);
				580
				581	return page_count(page) == expected_refcount;
				582	}
				583
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	584	static int __collapse_huge_page_isolate(struct vm_area_struct *vma,
				585	unsigned long address,
Kirill A. Shutemov	5503fbf	2020-06-03 16:00:23 -0700	[diff] [blame]	586	pte_t *pte,
				587	struct list_head *compound_pagelist)
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	588	{
				589	struct page *page = NULL;
				590	pte_t *_pte;
Kirill A. Shutemov	71a2c11	2020-06-03 16:00:30 -0700	[diff] [blame]	591	int none_or_zero = 0, shared = 0, result = 0, referenced = 0;
Ebru Akagunduz	0db501f	2016-07-26 15:26:46 -0700	[diff] [blame]	592	bool writable = false;
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	593
				594	for (_pte = pte; _pte < pte+HPAGE_PMD_NR;
				595	_pte++, address += PAGE_SIZE) {
				596	pte_t pteval = *_pte;
				597	if (pte_none(pteval) \|\| (pte_present(pteval) &&
				598	is_zero_pfn(pte_pfn(pteval)))) {
				599	if (!userfaultfd_armed(vma) &&
				600	++none_or_zero <= khugepaged_max_ptes_none) {
				601	continue;
				602	} else {
				603	result = SCAN_EXCEED_NONE_PTE;
				604	goto out;
				605	}
				606	}
				607	if (!pte_present(pteval)) {
				608	result = SCAN_PTE_NON_PRESENT;
				609	goto out;
				610	}
				611	page = vm_normal_page(vma, address, pteval);
				612	if (unlikely(!page)) {
				613	result = SCAN_PAGE_NULL;
				614	goto out;
				615	}
				616
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	617	VM_BUG_ON_PAGE(!PageAnon(page), page);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	618
Kirill A. Shutemov	71a2c11	2020-06-03 16:00:30 -0700	[diff] [blame]	619	if (page_mapcount(page) > 1 &&
				620	++shared > khugepaged_max_ptes_shared) {
				621	result = SCAN_EXCEED_SHARED_PTE;
				622	goto out;
				623	}
				624
Kirill A. Shutemov	5503fbf	2020-06-03 16:00:23 -0700	[diff] [blame]	625	if (PageCompound(page)) {
				626	struct page *p;
				627	page = compound_head(page);
				628
				629	/*
				630	* Check if we have dealt with the compound page
				631	* already
				632	*/
				633	list_for_each_entry(p, compound_pagelist, lru) {
				634	if (page == p)
				635	goto next;
				636	}
				637	}
				638
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	639	/*
				640	* We can do it before isolate_lru_page because the
				641	* page can't be freed from under us. NOTE: PG_lock
				642	* is needed to serialize against split_huge_page
				643	* when invoked from the VM.
				644	*/
				645	if (!trylock_page(page)) {
				646	result = SCAN_PAGE_LOCK;
				647	goto out;
				648	}
				649
				650	/*
Kirill A. Shutemov	9445689	2020-06-03 16:00:20 -0700	[diff] [blame]	651	* Check if the page has any GUP (or other external) pins.
				652	*
				653	* The page table that maps the page has been already unlinked
				654	* from the page table tree and this process cannot get
				655	* an additinal pin on the page.
				656	*
				657	* New pins can come later if the page is shared across fork,
				658	* but not from this process. The other process cannot write to
				659	* the page, only trigger CoW.
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	660	*/
Kirill A. Shutemov	9445689	2020-06-03 16:00:20 -0700	[diff] [blame]	661	if (!is_refcount_suitable(page)) {
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	662	unlock_page(page);
				663	result = SCAN_PAGE_COUNT;
				664	goto out;
				665	}
Kirill A. Shutemov	5503fbf	2020-06-03 16:00:23 -0700	[diff] [blame]	666	if (!pte_write(pteval) && PageSwapCache(page) &&
				667	!reuse_swap_page(page, NULL)) {
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	668	/*
Kirill A. Shutemov	5503fbf	2020-06-03 16:00:23 -0700	[diff] [blame]	669	* Page is in the swap cache and cannot be re-used.
				670	* It cannot be collapsed into a THP.
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	671	*/
Kirill A. Shutemov	5503fbf	2020-06-03 16:00:23 -0700	[diff] [blame]	672	unlock_page(page);
				673	result = SCAN_SWAP_CACHE_PAGE;
				674	goto out;
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	675	}
				676
				677	/*
				678	* Isolate the page to avoid collapsing an hugepage
				679	* currently in use by the VM.
				680	*/
				681	if (isolate_lru_page(page)) {
				682	unlock_page(page);
				683	result = SCAN_DEL_PAGE_LRU;
				684	goto out;
				685	}
Kirill A. Shutemov	5503fbf	2020-06-03 16:00:23 -0700	[diff] [blame]	686	mod_node_page_state(page_pgdat(page),
				687	NR_ISOLATED_ANON + page_is_file_lru(page),
				688	compound_nr(page));
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	689	VM_BUG_ON_PAGE(!PageLocked(page), page);
				690	VM_BUG_ON_PAGE(PageLRU(page), page);
				691
Kirill A. Shutemov	5503fbf	2020-06-03 16:00:23 -0700	[diff] [blame]	692	if (PageCompound(page))
				693	list_add_tail(&page->lru, compound_pagelist);
				694	next:
Ebru Akagunduz	0db501f	2016-07-26 15:26:46 -0700	[diff] [blame]	695	/* There should be enough young pte to collapse the page */
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	696	if (pte_young(pteval) \|\|
				697	page_is_young(page) \|\| PageReferenced(page) \|\|
				698	mmu_notifier_test_young(vma->vm_mm, address))
Ebru Akagunduz	0db501f	2016-07-26 15:26:46 -0700	[diff] [blame]	699	referenced++;
Kirill A. Shutemov	5503fbf	2020-06-03 16:00:23 -0700	[diff] [blame]	700
				701	if (pte_write(pteval))
				702	writable = true;
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	703	}
				704	if (likely(writable)) {
				705	if (likely(referenced)) {
				706	result = SCAN_SUCCEED;
				707	trace_mm_collapse_huge_page_isolate(page, none_or_zero,
				708	referenced, writable, result);
				709	return 1;
				710	}
				711	} else {
				712	result = SCAN_PAGE_RO;
				713	}
				714
				715	out:
Kirill A. Shutemov	5503fbf	2020-06-03 16:00:23 -0700	[diff] [blame]	716	release_pte_pages(pte, _pte, compound_pagelist);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	717	trace_mm_collapse_huge_page_isolate(page, none_or_zero,
				718	referenced, writable, result);
				719	return 0;
				720	}
				721
				722	static void __collapse_huge_page_copy(pte_t pte, struct page page,
				723	struct vm_area_struct *vma,
				724	unsigned long address,
Kirill A. Shutemov	5503fbf	2020-06-03 16:00:23 -0700	[diff] [blame]	725	spinlock_t *ptl,
				726	struct list_head *compound_pagelist)
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	727	{
Kirill A. Shutemov	5503fbf	2020-06-03 16:00:23 -0700	[diff] [blame]	728	struct page src_page, tmp;
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	729	pte_t *_pte;
David Rientjes	338a16b	2017-05-12 15:47:03 -0700	[diff] [blame]	730	for (_pte = pte; _pte < pte + HPAGE_PMD_NR;
				731	_pte++, page++, address += PAGE_SIZE) {
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	732	pte_t pteval = *_pte;
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	733
				734	if (pte_none(pteval) \|\| is_zero_pfn(pte_pfn(pteval))) {
				735	clear_user_highpage(page, address);
				736	add_mm_counter(vma->vm_mm, MM_ANONPAGES, 1);
				737	if (is_zero_pfn(pte_pfn(pteval))) {
				738	/*
				739	* ptl mostly unnecessary.
				740	*/
				741	spin_lock(ptl);
				742	/*
				743	* paravirt calls inside pte_clear here are
				744	* superfluous.
				745	*/
				746	pte_clear(vma->vm_mm, address, _pte);
				747	spin_unlock(ptl);
				748	}
				749	} else {
				750	src_page = pte_page(pteval);
				751	copy_user_highpage(page, src_page, address, vma);
Kirill A. Shutemov	5503fbf	2020-06-03 16:00:23 -0700	[diff] [blame]	752	if (!PageCompound(src_page))
				753	release_pte_page(src_page);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	754	/*
				755	* ptl mostly unnecessary, but preempt has to
				756	* be disabled to update the per-cpu stats
				757	* inside page_remove_rmap().
				758	*/
				759	spin_lock(ptl);
				760	/*
				761	* paravirt calls inside pte_clear here are
				762	* superfluous.
				763	*/
				764	pte_clear(vma->vm_mm, address, _pte);
				765	page_remove_rmap(src_page, false);
				766	spin_unlock(ptl);
				767	free_page_and_swap_cache(src_page);
				768	}
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	769	}
Kirill A. Shutemov	5503fbf	2020-06-03 16:00:23 -0700	[diff] [blame]	770
				771	list_for_each_entry_safe(src_page, tmp, compound_pagelist, lru) {
				772	list_del(&src_page->lru);
				773	release_pte_page(src_page);
				774	}
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	775	}
				776
				777	static void khugepaged_alloc_sleep(void)
				778	{
				779	DEFINE_WAIT(wait);
				780
				781	add_wait_queue(&khugepaged_wait, &wait);
				782	freezable_schedule_timeout_interruptible(
				783	msecs_to_jiffies(khugepaged_alloc_sleep_millisecs));
				784	remove_wait_queue(&khugepaged_wait, &wait);
				785	}
				786
				787	static int khugepaged_node_load[MAX_NUMNODES];
				788
				789	static bool khugepaged_scan_abort(int nid)
				790	{
				791	int i;
				792
				793	/*
Mel Gorman	a5f5f91	2016-07-28 15:46:32 -0700	[diff] [blame]	794	* If node_reclaim_mode is disabled, then no extra effort is made to
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	795	* allocate memory locally.
				796	*/
Mel Gorman	a5f5f91	2016-07-28 15:46:32 -0700	[diff] [blame]	797	if (!node_reclaim_mode)
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	798	return false;
				799
				800	/* If there is a count for this node already, it must be acceptable */
				801	if (khugepaged_node_load[nid])
				802	return false;
				803
				804	for (i = 0; i < MAX_NUMNODES; i++) {
				805	if (!khugepaged_node_load[i])
				806	continue;
Matt Fleming	a55c745	2019-08-08 20:53:01 +0100	[diff] [blame]	807	if (node_distance(nid, i) > node_reclaim_distance)
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	808	return true;
				809	}
				810	return false;
				811	}
				812
				813	/* Defrag for khugepaged will enter direct reclaim/compaction if necessary */
				814	static inline gfp_t alloc_hugepage_khugepaged_gfpmask(void)
				815	{
Vlastimil Babka	2516035	2016-07-28 15:49:25 -0700	[diff] [blame]	816	return khugepaged_defrag() ? GFP_TRANSHUGE : GFP_TRANSHUGE_LIGHT;
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	817	}
				818
				819	#ifdef CONFIG_NUMA
				820	static int khugepaged_find_target_node(void)
				821	{
				822	static int last_khugepaged_target_node = NUMA_NO_NODE;
				823	int nid, target_node = 0, max_value = 0;
				824
				825	/* find first node with max normal pages hit */
				826	for (nid = 0; nid < MAX_NUMNODES; nid++)
				827	if (khugepaged_node_load[nid] > max_value) {
				828	max_value = khugepaged_node_load[nid];
				829	target_node = nid;
				830	}
				831
				832	/* do some balance if several nodes have the same hit record */
				833	if (target_node <= last_khugepaged_target_node)
				834	for (nid = last_khugepaged_target_node + 1; nid < MAX_NUMNODES;
				835	nid++)
				836	if (max_value == khugepaged_node_load[nid]) {
				837	target_node = nid;
				838	break;
				839	}
				840
				841	last_khugepaged_target_node = target_node;
				842	return target_node;
				843	}
				844
				845	static bool khugepaged_prealloc_page(struct page *hpage, bool wait)
				846	{
				847	if (IS_ERR(*hpage)) {
				848	if (!*wait)
				849	return false;
				850
				851	*wait = false;
				852	*hpage = NULL;
				853	khugepaged_alloc_sleep();
				854	} else if (*hpage) {
				855	put_page(*hpage);
				856	*hpage = NULL;
				857	}
				858
				859	return true;
				860	}
				861
				862	static struct page *
Kirill A. Shutemov	988ddb7	2016-07-26 15:26:26 -0700	[diff] [blame]	863	khugepaged_alloc_page(struct page **hpage, gfp_t gfp, int node)
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	864	{
				865	VM_BUG_ON_PAGE(hpage, hpage);
				866
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	867	*hpage = __alloc_pages_node(node, gfp, HPAGE_PMD_ORDER);
				868	if (unlikely(!*hpage)) {
				869	count_vm_event(THP_COLLAPSE_ALLOC_FAILED);
				870	*hpage = ERR_PTR(-ENOMEM);
				871	return NULL;
				872	}
				873
				874	prep_transhuge_page(*hpage);
				875	count_vm_event(THP_COLLAPSE_ALLOC);
				876	return *hpage;
				877	}
				878	#else
				879	static int khugepaged_find_target_node(void)
				880	{
				881	return 0;
				882	}
				883
				884	static inline struct page *alloc_khugepaged_hugepage(void)
				885	{
				886	struct page *page;
				887
				888	page = alloc_pages(alloc_hugepage_khugepaged_gfpmask(),
				889	HPAGE_PMD_ORDER);
				890	if (page)
				891	prep_transhuge_page(page);
				892	return page;
				893	}
				894
				895	static struct page khugepaged_alloc_hugepage(bool wait)
				896	{
				897	struct page *hpage;
				898
				899	do {
				900	hpage = alloc_khugepaged_hugepage();
				901	if (!hpage) {
				902	count_vm_event(THP_COLLAPSE_ALLOC_FAILED);
				903	if (!*wait)
				904	return NULL;
				905
				906	*wait = false;
				907	khugepaged_alloc_sleep();
				908	} else
				909	count_vm_event(THP_COLLAPSE_ALLOC);
				910	} while (unlikely(!hpage) && likely(khugepaged_enabled()));
				911
				912	return hpage;
				913	}
				914
				915	static bool khugepaged_prealloc_page(struct page *hpage, bool wait)
				916	{
				917	if (!*hpage)
				918	*hpage = khugepaged_alloc_hugepage(wait);
				919
				920	if (unlikely(!*hpage))
				921	return false;
				922
				923	return true;
				924	}
				925
				926	static struct page *
Kirill A. Shutemov	988ddb7	2016-07-26 15:26:26 -0700	[diff] [blame]	927	khugepaged_alloc_page(struct page **hpage, gfp_t gfp, int node)
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	928	{
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	929	VM_BUG_ON(!*hpage);
				930
				931	return *hpage;
				932	}
				933	#endif
				934
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	935	/*
Michel Lespinasse	c1e8d7c	2020-06-08 21:33:54 -0700	[diff] [blame]	936	* If mmap_lock temporarily dropped, revalidate vma
				937	* before taking mmap_lock.
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	938	* Return 0 if succeeds, otherwise return none-zero
				939	* value (scan code).
				940	*/
				941
Kirill A. Shutemov	c131f75	2016-09-19 14:44:01 -0700	[diff] [blame]	942	static int hugepage_vma_revalidate(struct mm_struct *mm, unsigned long address,
				943	struct vm_area_struct **vmap)
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	944	{
				945	struct vm_area_struct *vma;
				946	unsigned long hstart, hend;
				947
				948	if (unlikely(khugepaged_test_exit(mm)))
				949	return SCAN_ANY_PROCESS;
				950
Kirill A. Shutemov	c131f75	2016-09-19 14:44:01 -0700	[diff] [blame]	951	*vmap = vma = find_vma(mm, address);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	952	if (!vma)
				953	return SCAN_VMA_NULL;
				954
				955	hstart = (vma->vm_start + ~HPAGE_PMD_MASK) & HPAGE_PMD_MASK;
				956	hend = vma->vm_end & HPAGE_PMD_MASK;
				957	if (address < hstart \|\| address + HPAGE_PMD_SIZE > hend)
				958	return SCAN_ADDRESS_RANGE;
Song Liu	50f8b92	2018-08-17 15:47:00 -0700	[diff] [blame]	959	if (!hugepage_vma_check(vma, vma->vm_flags))
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	960	return SCAN_VMA_CHECK;
				961	return 0;
				962	}
				963
				964	/*
				965	* Bring missing pages in from swap, to complete THP collapse.
				966	* Only done if khugepaged_scan_pmd believes it is worthwhile.
				967	*
				968	* Called and returns without pte mapped or spinlocks held,
Michel Lespinasse	c1e8d7c	2020-06-08 21:33:54 -0700	[diff] [blame]	969	* but with mmap_lock held to protect against vma changes.
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	970	*/
				971
				972	static bool __collapse_huge_page_swapin(struct mm_struct *mm,
				973	struct vm_area_struct *vma,
Ebru Akagunduz	0db501f	2016-07-26 15:26:46 -0700	[diff] [blame]	974	unsigned long address, pmd_t *pmd,
				975	int referenced)
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	976	{
Souptick Joarder	2b74030	2018-08-23 17:01:36 -0700	[diff] [blame]	977	int swapped_in = 0;
				978	vm_fault_t ret = 0;
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	979	struct vm_fault vmf = {
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	980	.vma = vma,
				981	.address = address,
				982	.flags = FAULT_FLAG_ALLOW_RETRY,
				983	.pmd = pmd,
Jan Kara	0721ec8	2016-12-14 15:07:04 -0800	[diff] [blame]	984	.pgoff = linear_page_index(vma, address),
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	985	};
				986
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	987	vmf.pte = pte_offset_map(pmd, address);
				988	for (; vmf.address < address + HPAGE_PMD_NR*PAGE_SIZE;
				989	vmf.pte++, vmf.address += PAGE_SIZE) {
Jan Kara	2994302	2016-12-14 15:07:16 -0800	[diff] [blame]	990	vmf.orig_pte = *vmf.pte;
				991	if (!is_swap_pte(vmf.orig_pte))
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	992	continue;
				993	swapped_in++;
Jan Kara	2994302	2016-12-14 15:07:16 -0800	[diff] [blame]	994	ret = do_swap_page(&vmf);
Ebru Akagunduz	0db501f	2016-07-26 15:26:46 -0700	[diff] [blame]	995
Michel Lespinasse	c1e8d7c	2020-06-08 21:33:54 -0700	[diff] [blame]	996	/* do_swap_page returns VM_FAULT_RETRY with released mmap_lock */
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	997	if (ret & VM_FAULT_RETRY) {
Michel Lespinasse	d8ed45c	2020-06-08 21:33:25 -0700	[diff] [blame]	998	mmap_read_lock(mm);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	999	if (hugepage_vma_revalidate(mm, address, &vmf.vma)) {
Ebru Akagunduz	47f863e	2016-07-26 15:26:43 -0700	[diff] [blame]	1000	/* vma is no longer available, don't continue to swapin */
Ebru Akagunduz	0db501f	2016-07-26 15:26:46 -0700	[diff] [blame]	1001	trace_mm_collapse_huge_page_swapin(mm, swapped_in, referenced, 0);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1002	return false;
Ebru Akagunduz	47f863e	2016-07-26 15:26:43 -0700	[diff] [blame]	1003	}
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1004	/* check if the pmd is still valid */
SeongJae Park	835152a	2017-05-12 15:46:38 -0700	[diff] [blame]	1005	if (mm_find_pmd(mm, address) != pmd) {
				1006	trace_mm_collapse_huge_page_swapin(mm, swapped_in, referenced, 0);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1007	return false;
SeongJae Park	835152a	2017-05-12 15:46:38 -0700	[diff] [blame]	1008	}
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1009	}
				1010	if (ret & VM_FAULT_ERROR) {
Ebru Akagunduz	0db501f	2016-07-26 15:26:46 -0700	[diff] [blame]	1011	trace_mm_collapse_huge_page_swapin(mm, swapped_in, referenced, 0);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1012	return false;
				1013	}
				1014	/* pte is unmapped now, we need to map it */
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1015	vmf.pte = pte_offset_map(pmd, vmf.address);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1016	}
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1017	vmf.pte--;
				1018	pte_unmap(vmf.pte);
Kirill A. Shutemov	ae2c5d8	2020-06-03 16:00:17 -0700	[diff] [blame]	1019
				1020	/* Drain LRU add pagevec to remove extra pin on the swapped in pages */
				1021	if (swapped_in)
				1022	lru_add_drain();
				1023
Ebru Akagunduz	0db501f	2016-07-26 15:26:46 -0700	[diff] [blame]	1024	trace_mm_collapse_huge_page_swapin(mm, swapped_in, referenced, 1);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1025	return true;
				1026	}
				1027
				1028	static void collapse_huge_page(struct mm_struct *mm,
				1029	unsigned long address,
				1030	struct page **hpage,
Kirill A. Shutemov	ffe945e	2020-06-03 16:00:09 -0700	[diff] [blame]	1031	int node, int referenced, int unmapped)
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1032	{
Kirill A. Shutemov	5503fbf	2020-06-03 16:00:23 -0700	[diff] [blame]	1033	LIST_HEAD(compound_pagelist);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1034	pmd_t *pmd, _pmd;
				1035	pte_t *pte;
				1036	pgtable_t pgtable;
				1037	struct page *new_page;
				1038	spinlock_t pmd_ptl, pte_ptl;
				1039	int isolated = 0, result = 0;
Kirill A. Shutemov	c131f75	2016-09-19 14:44:01 -0700	[diff] [blame]	1040	struct vm_area_struct *vma;
Jérôme Glisse	ac46d4f	2018-12-28 00:38:09 -0800	[diff] [blame]	1041	struct mmu_notifier_range range;
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1042	gfp_t gfp;
				1043
				1044	VM_BUG_ON(address & ~HPAGE_PMD_MASK);
				1045
				1046	/* Only allocate from the target node */
Michal Hocko	41b6167	2017-01-10 16:57:42 -0800	[diff] [blame]	1047	gfp = alloc_hugepage_khugepaged_gfpmask() \| __GFP_THISNODE;
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1048
Kirill A. Shutemov	988ddb7	2016-07-26 15:26:26 -0700	[diff] [blame]	1049	/*
Michel Lespinasse	c1e8d7c	2020-06-08 21:33:54 -0700	[diff] [blame]	1050	* Before allocating the hugepage, release the mmap_lock read lock.
Kirill A. Shutemov	988ddb7	2016-07-26 15:26:26 -0700	[diff] [blame]	1051	* The allocation can take potentially a long time if it involves
Michel Lespinasse	c1e8d7c	2020-06-08 21:33:54 -0700	[diff] [blame]	1052	* sync compaction, and we do not need to hold the mmap_lock during
Kirill A. Shutemov	988ddb7	2016-07-26 15:26:26 -0700	[diff] [blame]	1053	* that. We will recheck the vma after taking it again in write mode.
				1054	*/
Michel Lespinasse	d8ed45c	2020-06-08 21:33:25 -0700	[diff] [blame]	1055	mmap_read_unlock(mm);
Kirill A. Shutemov	988ddb7	2016-07-26 15:26:26 -0700	[diff] [blame]	1056	new_page = khugepaged_alloc_page(hpage, gfp, node);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1057	if (!new_page) {
				1058	result = SCAN_ALLOC_HUGE_PAGE_FAIL;
				1059	goto out_nolock;
				1060	}
				1061
Johannes Weiner	d9eb1ea	2020-06-03 16:02:24 -0700	[diff] [blame]	1062	if (unlikely(mem_cgroup_charge(new_page, mm, gfp))) {
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1063	result = SCAN_CGROUP_CHARGE_FAIL;
				1064	goto out_nolock;
				1065	}
Johannes Weiner	9d82c69	2020-06-03 16:02:04 -0700	[diff] [blame]	1066	count_memcg_page_event(new_page, THP_COLLAPSE_ALLOC);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1067
Michel Lespinasse	d8ed45c	2020-06-08 21:33:25 -0700	[diff] [blame]	1068	mmap_read_lock(mm);
Kirill A. Shutemov	c131f75	2016-09-19 14:44:01 -0700	[diff] [blame]	1069	result = hugepage_vma_revalidate(mm, address, &vma);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1070	if (result) {
Michel Lespinasse	d8ed45c	2020-06-08 21:33:25 -0700	[diff] [blame]	1071	mmap_read_unlock(mm);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1072	goto out_nolock;
				1073	}
				1074
				1075	pmd = mm_find_pmd(mm, address);
				1076	if (!pmd) {
				1077	result = SCAN_PMD_NULL;
Michel Lespinasse	d8ed45c	2020-06-08 21:33:25 -0700	[diff] [blame]	1078	mmap_read_unlock(mm);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1079	goto out_nolock;
				1080	}
				1081
				1082	/*
Michel Lespinasse	c1e8d7c	2020-06-08 21:33:54 -0700	[diff] [blame]	1083	* __collapse_huge_page_swapin always returns with mmap_lock locked.
				1084	* If it fails, we release mmap_lock and jump out_nolock.
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1085	* Continuing to collapse causes inconsistency.
				1086	*/
Kirill A. Shutemov	ffe945e	2020-06-03 16:00:09 -0700	[diff] [blame]	1087	if (unmapped && !__collapse_huge_page_swapin(mm, vma, address,
				1088	pmd, referenced)) {
Michel Lespinasse	d8ed45c	2020-06-08 21:33:25 -0700	[diff] [blame]	1089	mmap_read_unlock(mm);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1090	goto out_nolock;
				1091	}
				1092
Michel Lespinasse	d8ed45c	2020-06-08 21:33:25 -0700	[diff] [blame]	1093	mmap_read_unlock(mm);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1094	/*
				1095	* Prevent all access to pagetables with the exception of
				1096	* gup_fast later handled by the ptep_clear_flush and the VM
				1097	* handled by the anon_vma lock + PG_lock.
				1098	*/
Michel Lespinasse	d8ed45c	2020-06-08 21:33:25 -0700	[diff] [blame]	1099	mmap_write_lock(mm);
Andrea Arcangeli	59ea6d0	2019-06-13 15:56:11 -0700	[diff] [blame]	1100	result = SCAN_ANY_PROCESS;
				1101	if (!mmget_still_valid(mm))
				1102	goto out;
Kirill A. Shutemov	c131f75	2016-09-19 14:44:01 -0700	[diff] [blame]	1103	result = hugepage_vma_revalidate(mm, address, &vma);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1104	if (result)
				1105	goto out;
				1106	/* check if the pmd is still valid */
				1107	if (mm_find_pmd(mm, address) != pmd)
				1108	goto out;
				1109
				1110	anon_vma_lock_write(vma->anon_vma);
				1111
Jérôme Glisse	7269f99	2019-05-13 17:20:53 -0700	[diff] [blame]	1112	mmu_notifier_range_init(&range, MMU_NOTIFY_CLEAR, 0, NULL, mm,
Jérôme Glisse	6f4f13e	2019-05-13 17:20:49 -0700	[diff] [blame]	1113	address, address + HPAGE_PMD_SIZE);
Jérôme Glisse	ac46d4f	2018-12-28 00:38:09 -0800	[diff] [blame]	1114	mmu_notifier_invalidate_range_start(&range);
Ville Syrjälä	ec649c9d	2019-11-05 21:16:48 -0800	[diff] [blame]	1115
				1116	pte = pte_offset_map(pmd, address);
				1117	pte_ptl = pte_lockptr(mm, pmd);
				1118
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1119	pmd_ptl = pmd_lock(mm, pmd); /* probably unnecessary */
				1120	/*
				1121	* After this gup_fast can't run anymore. This also removes
				1122	* any huge TLB entry from the CPU so we won't allow
				1123	* huge and small TLB entries for the same virtual address
				1124	* to avoid the risk of CPU bugs in that area.
				1125	*/
				1126	_pmd = pmdp_collapse_flush(vma, address, pmd);
				1127	spin_unlock(pmd_ptl);
Jérôme Glisse	ac46d4f	2018-12-28 00:38:09 -0800	[diff] [blame]	1128	mmu_notifier_invalidate_range_end(&range);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1129
				1130	spin_lock(pte_ptl);
Kirill A. Shutemov	5503fbf	2020-06-03 16:00:23 -0700	[diff] [blame]	1131	isolated = __collapse_huge_page_isolate(vma, address, pte,
				1132	&compound_pagelist);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1133	spin_unlock(pte_ptl);
				1134
				1135	if (unlikely(!isolated)) {
				1136	pte_unmap(pte);
				1137	spin_lock(pmd_ptl);
				1138	BUG_ON(!pmd_none(*pmd));
				1139	/*
				1140	* We can only use set_pmd_at when establishing
				1141	* hugepmds and never for establishing regular pmds that
				1142	* points to regular pagetables. Use pmd_populate for that
				1143	*/
				1144	pmd_populate(mm, pmd, pmd_pgtable(_pmd));
				1145	spin_unlock(pmd_ptl);
				1146	anon_vma_unlock_write(vma->anon_vma);
				1147	result = SCAN_FAIL;
				1148	goto out;
				1149	}
				1150
				1151	/*
				1152	* All pages are isolated and locked so anon_vma rmap
				1153	* can't run anymore.
				1154	*/
				1155	anon_vma_unlock_write(vma->anon_vma);
				1156
Kirill A. Shutemov	5503fbf	2020-06-03 16:00:23 -0700	[diff] [blame]	1157	__collapse_huge_page_copy(pte, new_page, vma, address, pte_ptl,
				1158	&compound_pagelist);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1159	pte_unmap(pte);
				1160	__SetPageUptodate(new_page);
				1161	pgtable = pmd_pgtable(_pmd);
				1162
				1163	_pmd = mk_huge_pmd(new_page, vma->vm_page_prot);
Linus Torvalds	f55e101	2017-11-29 09:01:01 -0800	[diff] [blame]	1164	_pmd = maybe_pmd_mkwrite(pmd_mkdirty(_pmd), vma);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1165
				1166	/*
				1167	* spin_lock() below is not the equivalent of smp_wmb(), so
				1168	* this is needed to avoid the copy_huge_page writes to become
				1169	* visible after the set_pmd_at() write.
				1170	*/
				1171	smp_wmb();
				1172
				1173	spin_lock(pmd_ptl);
				1174	BUG_ON(!pmd_none(*pmd));
Johannes Weiner	be5d0a7	2020-06-03 16:01:57 -0700	[diff] [blame]	1175	page_add_new_anon_rmap(new_page, vma, address, true);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1176	lru_cache_add_active_or_unevictable(new_page, vma);
				1177	pgtable_trans_huge_deposit(mm, pmd, pgtable);
				1178	set_pmd_at(mm, address, pmd, _pmd);
				1179	update_mmu_cache_pmd(vma, address, pmd);
				1180	spin_unlock(pmd_ptl);
				1181
				1182	*hpage = NULL;
				1183
				1184	khugepaged_pages_collapsed++;
				1185	result = SCAN_SUCCEED;
				1186	out_up_write:
Michel Lespinasse	d8ed45c	2020-06-08 21:33:25 -0700	[diff] [blame]	1187	mmap_write_unlock(mm);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1188	out_nolock:
Johannes Weiner	9d82c69	2020-06-03 16:02:04 -0700	[diff] [blame]	1189	if (!IS_ERR_OR_NULL(*hpage))
				1190	mem_cgroup_uncharge(*hpage);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1191	trace_mm_collapse_huge_page(mm, isolated, result);
				1192	return;
				1193	out:
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1194	goto out_up_write;
				1195	}
				1196
				1197	static int khugepaged_scan_pmd(struct mm_struct *mm,
				1198	struct vm_area_struct *vma,
				1199	unsigned long address,
				1200	struct page **hpage)
				1201	{
				1202	pmd_t *pmd;
				1203	pte_t pte, _pte;
Kirill A. Shutemov	71a2c11	2020-06-03 16:00:30 -0700	[diff] [blame]	1204	int ret = 0, result = 0, referenced = 0;
				1205	int none_or_zero = 0, shared = 0;
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1206	struct page *page = NULL;
				1207	unsigned long _address;
				1208	spinlock_t *ptl;
				1209	int node = NUMA_NO_NODE, unmapped = 0;
Ebru Akagunduz	0db501f	2016-07-26 15:26:46 -0700	[diff] [blame]	1210	bool writable = false;
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1211
				1212	VM_BUG_ON(address & ~HPAGE_PMD_MASK);
				1213
				1214	pmd = mm_find_pmd(mm, address);
				1215	if (!pmd) {
				1216	result = SCAN_PMD_NULL;
				1217	goto out;
				1218	}
				1219
				1220	memset(khugepaged_node_load, 0, sizeof(khugepaged_node_load));
				1221	pte = pte_offset_map_lock(mm, pmd, address, &ptl);
				1222	for (_address = address, _pte = pte; _pte < pte+HPAGE_PMD_NR;
				1223	_pte++, _address += PAGE_SIZE) {
				1224	pte_t pteval = *_pte;
				1225	if (is_swap_pte(pteval)) {
				1226	if (++unmapped <= khugepaged_max_ptes_swap) {
Peter Xu	e1e267c	2020-04-06 20:06:04 -0700	[diff] [blame]	1227	/*
				1228	* Always be strict with uffd-wp
				1229	* enabled swap entries. Please see
				1230	* comment below for pte_uffd_wp().
				1231	*/
				1232	if (pte_swp_uffd_wp(pteval)) {
				1233	result = SCAN_PTE_UFFD_WP;
				1234	goto out_unmap;
				1235	}
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1236	continue;
				1237	} else {
				1238	result = SCAN_EXCEED_SWAP_PTE;
				1239	goto out_unmap;
				1240	}
				1241	}
				1242	if (pte_none(pteval) \|\| is_zero_pfn(pte_pfn(pteval))) {
				1243	if (!userfaultfd_armed(vma) &&
				1244	++none_or_zero <= khugepaged_max_ptes_none) {
				1245	continue;
				1246	} else {
				1247	result = SCAN_EXCEED_NONE_PTE;
				1248	goto out_unmap;
				1249	}
				1250	}
				1251	if (!pte_present(pteval)) {
				1252	result = SCAN_PTE_NON_PRESENT;
				1253	goto out_unmap;
				1254	}
Peter Xu	e1e267c	2020-04-06 20:06:04 -0700	[diff] [blame]	1255	if (pte_uffd_wp(pteval)) {
				1256	/*
				1257	* Don't collapse the page if any of the small
				1258	* PTEs are armed with uffd write protection.
				1259	* Here we can also mark the new huge pmd as
				1260	* write protected if any of the small ones is
				1261	* marked but that could bring uknown
				1262	* userfault messages that falls outside of
				1263	* the registered range. So, just be simple.
				1264	*/
				1265	result = SCAN_PTE_UFFD_WP;
				1266	goto out_unmap;
				1267	}
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1268	if (pte_write(pteval))
				1269	writable = true;
				1270
				1271	page = vm_normal_page(vma, _address, pteval);
				1272	if (unlikely(!page)) {
				1273	result = SCAN_PAGE_NULL;
				1274	goto out_unmap;
				1275	}
				1276
Kirill A. Shutemov	71a2c11	2020-06-03 16:00:30 -0700	[diff] [blame]	1277	if (page_mapcount(page) > 1 &&
				1278	++shared > khugepaged_max_ptes_shared) {
				1279	result = SCAN_EXCEED_SHARED_PTE;
				1280	goto out_unmap;
				1281	}
				1282
Kirill A. Shutemov	5503fbf	2020-06-03 16:00:23 -0700	[diff] [blame]	1283	page = compound_head(page);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1284
				1285	/*
				1286	* Record which node the original page is from and save this
				1287	* information to khugepaged_node_load[].
				1288	* Khupaged will allocate hugepage from the node has the max
				1289	* hit record.
				1290	*/
				1291	node = page_to_nid(page);
				1292	if (khugepaged_scan_abort(node)) {
				1293	result = SCAN_SCAN_ABORT;
				1294	goto out_unmap;
				1295	}
				1296	khugepaged_node_load[node]++;
				1297	if (!PageLRU(page)) {
				1298	result = SCAN_PAGE_LRU;
				1299	goto out_unmap;
				1300	}
				1301	if (PageLocked(page)) {
				1302	result = SCAN_PAGE_LOCK;
				1303	goto out_unmap;
				1304	}
				1305	if (!PageAnon(page)) {
				1306	result = SCAN_PAGE_ANON;
				1307	goto out_unmap;
				1308	}
				1309
				1310	/*
Kirill A. Shutemov	9445689	2020-06-03 16:00:20 -0700	[diff] [blame]	1311	* Check if the page has any GUP (or other external) pins.
				1312	*
				1313	* Here the check is racy it may see totmal_mapcount > refcount
				1314	* in some cases.
				1315	* For example, one process with one forked child process.
				1316	* The parent has the PMD split due to MADV_DONTNEED, then
				1317	* the child is trying unmap the whole PMD, but khugepaged
				1318	* may be scanning the parent between the child has
				1319	* PageDoubleMap flag cleared and dec the mapcount. So
				1320	* khugepaged may see total_mapcount > refcount.
				1321	*
				1322	* But such case is ephemeral we could always retry collapse
				1323	* later. However it may report false positive if the page
				1324	* has excessive GUP pins (i.e. 512). Anyway the same check
				1325	* will be done again later the risk seems low.
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1326	*/
Kirill A. Shutemov	9445689	2020-06-03 16:00:20 -0700	[diff] [blame]	1327	if (!is_refcount_suitable(page)) {
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1328	result = SCAN_PAGE_COUNT;
				1329	goto out_unmap;
				1330	}
				1331	if (pte_young(pteval) \|\|
				1332	page_is_young(page) \|\| PageReferenced(page) \|\|
				1333	mmu_notifier_test_young(vma->vm_mm, address))
Ebru Akagunduz	0db501f	2016-07-26 15:26:46 -0700	[diff] [blame]	1334	referenced++;
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1335	}
Kirill A. Shutemov	ffe945e	2020-06-03 16:00:09 -0700	[diff] [blame]	1336	if (!writable) {
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1337	result = SCAN_PAGE_RO;
Kirill A. Shutemov	ffe945e	2020-06-03 16:00:09 -0700	[diff] [blame]	1338	} else if (!referenced \|\| (unmapped && referenced < HPAGE_PMD_NR/2)) {
				1339	result = SCAN_LACK_REFERENCED_PAGE;
				1340	} else {
				1341	result = SCAN_SUCCEED;
				1342	ret = 1;
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1343	}
				1344	out_unmap:
				1345	pte_unmap_unlock(pte, ptl);
				1346	if (ret) {
				1347	node = khugepaged_find_target_node();
Michel Lespinasse	c1e8d7c	2020-06-08 21:33:54 -0700	[diff] [blame]	1348	/* collapse_huge_page will return with the mmap_lock released */
Kirill A. Shutemov	ffe945e	2020-06-03 16:00:09 -0700	[diff] [blame]	1349	collapse_huge_page(mm, address, hpage, node,
				1350	referenced, unmapped);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1351	}
				1352	out:
				1353	trace_mm_khugepaged_scan_pmd(mm, page, writable, referenced,
				1354	none_or_zero, result, unmapped);
				1355	return ret;
				1356	}
				1357
				1358	static void collect_mm_slot(struct mm_slot *mm_slot)
				1359	{
				1360	struct mm_struct *mm = mm_slot->mm;
				1361
Lance Roy	35f3aa3	2018-10-04 23:45:47 -0700	[diff] [blame]	1362	lockdep_assert_held(&khugepaged_mm_lock);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1363
				1364	if (khugepaged_test_exit(mm)) {
				1365	/* free mm_slot */
				1366	hash_del(&mm_slot->hash);
				1367	list_del(&mm_slot->mm_node);
				1368
				1369	/*
				1370	* Not strictly needed because the mm exited already.
				1371	*
				1372	* clear_bit(MMF_VM_HUGEPAGE, &mm->flags);
				1373	*/
				1374
				1375	/* khugepaged_mm_lock actually not necessary for the below */
				1376	free_mm_slot(mm_slot);
				1377	mmdrop(mm);
				1378	}
				1379	}
				1380
Matthew Wilcox (Oracle)	396bcc5	2020-04-06 20:04:35 -0700	[diff] [blame]	1381	#ifdef CONFIG_SHMEM
Song Liu	27e1f82	2019-09-23 15:38:30 -0700	[diff] [blame]	1382	/*
				1383	* Notify khugepaged that given addr of the mm is pte-mapped THP. Then
				1384	* khugepaged should try to collapse the page table.
				1385	*/
				1386	static int khugepaged_add_pte_mapped_thp(struct mm_struct *mm,
				1387	unsigned long addr)
				1388	{
				1389	struct mm_slot *mm_slot;
				1390
				1391	VM_BUG_ON(addr & ~HPAGE_PMD_MASK);
				1392
				1393	spin_lock(&khugepaged_mm_lock);
				1394	mm_slot = get_mm_slot(mm);
				1395	if (likely(mm_slot && mm_slot->nr_pte_mapped_thp < MAX_PTE_MAPPED_THP))
				1396	mm_slot->pte_mapped_thp[mm_slot->nr_pte_mapped_thp++] = addr;
				1397	spin_unlock(&khugepaged_mm_lock);
				1398	return 0;
				1399	}
				1400
				1401	/**
				1402	* Try to collapse a pte-mapped THP for mm at address haddr.
				1403	*
				1404	* This function checks whether all the PTEs in the PMD are pointing to the
				1405	* right THP. If so, retract the page table so the THP can refault in with
				1406	* as pmd-mapped.
				1407	*/
				1408	void collapse_pte_mapped_thp(struct mm_struct *mm, unsigned long addr)
				1409	{
				1410	unsigned long haddr = addr & HPAGE_PMD_MASK;
				1411	struct vm_area_struct *vma = find_vma(mm, haddr);
				1412	struct page *hpage = NULL;
				1413	pte_t start_pte, pte;
				1414	pmd_t *pmd, _pmd;
				1415	spinlock_t *ptl;
				1416	int count = 0;
				1417	int i;
				1418
				1419	if (!vma \|\| !vma->vm_file \|\|
				1420	vma->vm_start > haddr \|\| vma->vm_end < haddr + HPAGE_PMD_SIZE)
				1421	return;
				1422
				1423	/*
				1424	* This vm_flags may not have VM_HUGEPAGE if the page was not
				1425	* collapsed by this mm. But we can still collapse if the page is
				1426	* the valid THP. Add extra VM_HUGEPAGE so hugepage_vma_check()
				1427	* will not fail the vma for missing VM_HUGEPAGE
				1428	*/
				1429	if (!hugepage_vma_check(vma, vma->vm_flags \| VM_HUGEPAGE))
				1430	return;
				1431
				1432	pmd = mm_find_pmd(mm, haddr);
				1433	if (!pmd)
				1434	return;
				1435
				1436	start_pte = pte_offset_map_lock(mm, pmd, haddr, &ptl);
				1437
				1438	/* step 1: check all mapped PTEs are to the right huge page */
				1439	for (i = 0, addr = haddr, pte = start_pte;
				1440	i < HPAGE_PMD_NR; i++, addr += PAGE_SIZE, pte++) {
				1441	struct page *page;
				1442
				1443	/* empty pte, skip */
				1444	if (pte_none(*pte))
				1445	continue;
				1446
				1447	/* page swapped out, abort */
				1448	if (!pte_present(*pte))
				1449	goto abort;
				1450
				1451	page = vm_normal_page(vma, addr, *pte);
				1452
				1453	if (!page \|\| !PageCompound(page))
				1454	goto abort;
				1455
				1456	if (!hpage) {
				1457	hpage = compound_head(page);
				1458	/*
				1459	* The mapping of the THP should not change.
				1460	*
				1461	* Note that uprobe, debugger, or MAP_PRIVATE may
				1462	* change the page table, but the new page will
				1463	* not pass PageCompound() check.
				1464	*/
				1465	if (WARN_ON(hpage->mapping != vma->vm_file->f_mapping))
				1466	goto abort;
				1467	}
				1468
				1469	/*
				1470	* Confirm the page maps to the correct subpage.
				1471	*
				1472	* Note that uprobe, debugger, or MAP_PRIVATE may change
				1473	* the page table, but the new page will not pass
				1474	* PageCompound() check.
				1475	*/
				1476	if (WARN_ON(hpage + i != page))
				1477	goto abort;
				1478	count++;
				1479	}
				1480
				1481	/* step 2: adjust rmap */
				1482	for (i = 0, addr = haddr, pte = start_pte;
				1483	i < HPAGE_PMD_NR; i++, addr += PAGE_SIZE, pte++) {
				1484	struct page *page;
				1485
				1486	if (pte_none(*pte))
				1487	continue;
				1488	page = vm_normal_page(vma, addr, *pte);
				1489	page_remove_rmap(page, false);
				1490	}
				1491
				1492	pte_unmap_unlock(start_pte, ptl);
				1493
				1494	/* step 3: set proper refcount and mm_counters. */
				1495	if (hpage) {
				1496	page_ref_sub(hpage, count);
				1497	add_mm_counter(vma->vm_mm, mm_counter_file(hpage), -count);
				1498	}
				1499
				1500	/* step 4: collapse pmd */
				1501	ptl = pmd_lock(vma->vm_mm, pmd);
				1502	_pmd = pmdp_collapse_flush(vma, addr, pmd);
				1503	spin_unlock(ptl);
				1504	mm_dec_nr_ptes(mm);
				1505	pte_free(mm, pmd_pgtable(_pmd));
				1506	return;
				1507
				1508	abort:
				1509	pte_unmap_unlock(start_pte, ptl);
				1510	}
				1511
				1512	static int khugepaged_collapse_pte_mapped_thps(struct mm_slot *mm_slot)
				1513	{
				1514	struct mm_struct *mm = mm_slot->mm;
				1515	int i;
				1516
				1517	if (likely(mm_slot->nr_pte_mapped_thp == 0))
				1518	return 0;
				1519
Michel Lespinasse	d8ed45c	2020-06-08 21:33:25 -0700	[diff] [blame]	1520	if (!mmap_write_trylock(mm))
Song Liu	27e1f82	2019-09-23 15:38:30 -0700	[diff] [blame]	1521	return -EBUSY;
				1522
				1523	if (unlikely(khugepaged_test_exit(mm)))
				1524	goto out;
				1525
				1526	for (i = 0; i < mm_slot->nr_pte_mapped_thp; i++)
				1527	collapse_pte_mapped_thp(mm, mm_slot->pte_mapped_thp[i]);
				1528
				1529	out:
				1530	mm_slot->nr_pte_mapped_thp = 0;
Michel Lespinasse	d8ed45c	2020-06-08 21:33:25 -0700	[diff] [blame]	1531	mmap_write_unlock(mm);
Song Liu	27e1f82	2019-09-23 15:38:30 -0700	[diff] [blame]	1532	return 0;
				1533	}
				1534
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1535	static void retract_page_tables(struct address_space *mapping, pgoff_t pgoff)
				1536	{
				1537	struct vm_area_struct *vma;
				1538	unsigned long addr;
				1539	pmd_t *pmd, _pmd;
				1540
				1541	i_mmap_lock_write(mapping);
				1542	vma_interval_tree_foreach(vma, &mapping->i_mmap, pgoff, pgoff) {
Song Liu	27e1f82	2019-09-23 15:38:30 -0700	[diff] [blame]	1543	/*
				1544	* Check vma->anon_vma to exclude MAP_PRIVATE mappings that
				1545	* got written to. These VMAs are likely not worth investing
Michel Lespinasse	3e4e28c	2020-06-08 21:33:51 -0700	[diff] [blame]	1546	* mmap_write_lock(mm) as PMD-mapping is likely to be split
Song Liu	27e1f82	2019-09-23 15:38:30 -0700	[diff] [blame]	1547	* later.
				1548	*
				1549	* Not that vma->anon_vma check is racy: it can be set up after
Michel Lespinasse	c1e8d7c	2020-06-08 21:33:54 -0700	[diff] [blame]	1550	* the check but before we took mmap_lock by the fault path.
Song Liu	27e1f82	2019-09-23 15:38:30 -0700	[diff] [blame]	1551	* But page lock would prevent establishing any new ptes of the
				1552	* page, so we are safe.
				1553	*
				1554	* An alternative would be drop the check, but check that page
				1555	* table is clear before calling pmdp_collapse_flush() under
				1556	* ptl. It has higher chance to recover THP for the VMA, but
				1557	* has higher cost too.
				1558	*/
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1559	if (vma->anon_vma)
				1560	continue;
				1561	addr = vma->vm_start + ((pgoff - vma->vm_pgoff) << PAGE_SHIFT);
				1562	if (addr & ~HPAGE_PMD_MASK)
				1563	continue;
				1564	if (vma->vm_end < addr + HPAGE_PMD_SIZE)
				1565	continue;
				1566	pmd = mm_find_pmd(vma->vm_mm, addr);
				1567	if (!pmd)
				1568	continue;
				1569	/*
Michel Lespinasse	c1e8d7c	2020-06-08 21:33:54 -0700	[diff] [blame]	1570	* We need exclusive mmap_lock to retract page table.
Song Liu	27e1f82	2019-09-23 15:38:30 -0700	[diff] [blame]	1571	*
				1572	* We use trylock due to lock inversion: we need to acquire
Michel Lespinasse	c1e8d7c	2020-06-08 21:33:54 -0700	[diff] [blame]	1573	* mmap_lock while holding page lock. Fault path does it in
Song Liu	27e1f82	2019-09-23 15:38:30 -0700	[diff] [blame]	1574	* reverse order. Trylock is a way to avoid deadlock.
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1575	*/
Michel Lespinasse	d8ed45c	2020-06-08 21:33:25 -0700	[diff] [blame]	1576	if (mmap_write_trylock(vma->vm_mm)) {
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1577	spinlock_t *ptl = pmd_lock(vma->vm_mm, pmd);
				1578	/* assume page table is clear */
				1579	_pmd = pmdp_collapse_flush(vma, addr, pmd);
				1580	spin_unlock(ptl);
Michel Lespinasse	d8ed45c	2020-06-08 21:33:25 -0700	[diff] [blame]	1581	mmap_write_unlock(vma->vm_mm);
Kirill A. Shutemov	c481290	2017-11-15 17:35:37 -0800	[diff] [blame]	1582	mm_dec_nr_ptes(vma->vm_mm);
Aneesh Kumar K.V	d670ffd	2017-01-10 16:57:18 -0800	[diff] [blame]	1583	pte_free(vma->vm_mm, pmd_pgtable(_pmd));
Song Liu	27e1f82	2019-09-23 15:38:30 -0700	[diff] [blame]	1584	} else {
				1585	/* Try again later */
				1586	khugepaged_add_pte_mapped_thp(vma->vm_mm, addr);
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1587	}
				1588	}
				1589	i_mmap_unlock_write(mapping);
				1590	}
				1591
				1592	/**
Song Liu	99cb0db	2019-09-23 15:38:00 -0700	[diff] [blame]	1593	* collapse_file - collapse filemap/tmpfs/shmem pages into huge one.
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1594	*
				1595	* Basic scheme is simple, details are more complex:
Hugh Dickins	87c460a	2018-11-30 14:10:43 -0800	[diff] [blame]	1596	* - allocate and lock a new huge page;
Matthew Wilcox	77da938	2017-12-04 14:56:08 -0500	[diff] [blame]	1597	* - scan page cache replacing old pages with the new one
Song Liu	99cb0db	2019-09-23 15:38:00 -0700	[diff] [blame]	1598	* + swap/gup in pages if necessary;
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1599	* + fill in gaps;
Matthew Wilcox	77da938	2017-12-04 14:56:08 -0500	[diff] [blame]	1600	* + keep old pages around in case rollback is required;
				1601	* - if replacing succeeds:
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1602	* + copy data over;
				1603	* + free old pages;
Hugh Dickins	87c460a	2018-11-30 14:10:43 -0800	[diff] [blame]	1604	* + unlock huge page;
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1605	* - if replacing failed;
				1606	* + put all pages back and unfreeze them;
Matthew Wilcox	77da938	2017-12-04 14:56:08 -0500	[diff] [blame]	1607	* + restore gaps in the page cache;
Hugh Dickins	87c460a	2018-11-30 14:10:43 -0800	[diff] [blame]	1608	* + unlock and free huge page;
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1609	*/
Song Liu	579c571	2019-09-23 15:37:57 -0700	[diff] [blame]	1610	static void collapse_file(struct mm_struct *mm,
				1611	struct file *file, pgoff_t start,
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1612	struct page **hpage, int node)
				1613	{
Song Liu	579c571	2019-09-23 15:37:57 -0700	[diff] [blame]	1614	struct address_space *mapping = file->f_mapping;
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1615	gfp_t gfp;
Matthew Wilcox	77da938	2017-12-04 14:56:08 -0500	[diff] [blame]	1616	struct page *new_page;
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1617	pgoff_t index, end = start + HPAGE_PMD_NR;
				1618	LIST_HEAD(pagelist);
Matthew Wilcox	77da938	2017-12-04 14:56:08 -0500	[diff] [blame]	1619	XA_STATE_ORDER(xas, &mapping->i_pages, start, HPAGE_PMD_ORDER);
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1620	int nr_none = 0, result = SCAN_SUCCEED;
Song Liu	99cb0db	2019-09-23 15:38:00 -0700	[diff] [blame]	1621	bool is_shmem = shmem_file(file);
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1622
Song Liu	99cb0db	2019-09-23 15:38:00 -0700	[diff] [blame]	1623	VM_BUG_ON(!IS_ENABLED(CONFIG_READ_ONLY_THP_FOR_FS) && !is_shmem);
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1624	VM_BUG_ON(start & (HPAGE_PMD_NR - 1));
				1625
				1626	/* Only allocate from the target node */
Michal Hocko	41b6167	2017-01-10 16:57:42 -0800	[diff] [blame]	1627	gfp = alloc_hugepage_khugepaged_gfpmask() \| __GFP_THISNODE;
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1628
				1629	new_page = khugepaged_alloc_page(hpage, gfp, node);
				1630	if (!new_page) {
				1631	result = SCAN_ALLOC_HUGE_PAGE_FAIL;
				1632	goto out;
				1633	}
				1634
Johannes Weiner	d9eb1ea	2020-06-03 16:02:24 -0700	[diff] [blame]	1635	if (unlikely(mem_cgroup_charge(new_page, mm, gfp))) {
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1636	result = SCAN_CGROUP_CHARGE_FAIL;
				1637	goto out;
				1638	}
Johannes Weiner	9d82c69	2020-06-03 16:02:04 -0700	[diff] [blame]	1639	count_memcg_page_event(new_page, THP_COLLAPSE_ALLOC);
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1640
Hugh Dickins	95feeab	2018-11-30 14:10:50 -0800	[diff] [blame]	1641	/* This will be less messy when we use multi-index entries */
				1642	do {
				1643	xas_lock_irq(&xas);
				1644	xas_create_range(&xas);
				1645	if (!xas_error(&xas))
				1646	break;
				1647	xas_unlock_irq(&xas);
				1648	if (!xas_nomem(&xas, GFP_KERNEL)) {
Hugh Dickins	95feeab	2018-11-30 14:10:50 -0800	[diff] [blame]	1649	result = SCAN_FAIL;
				1650	goto out;
				1651	}
				1652	} while (1);
				1653
Hugh Dickins	042a308	2018-11-30 14:10:39 -0800	[diff] [blame]	1654	__SetPageLocked(new_page);
Song Liu	99cb0db	2019-09-23 15:38:00 -0700	[diff] [blame]	1655	if (is_shmem)
				1656	__SetPageSwapBacked(new_page);
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1657	new_page->index = start;
				1658	new_page->mapping = mapping;
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1659
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1660	/*
Hugh Dickins	87c460a	2018-11-30 14:10:43 -0800	[diff] [blame]	1661	* At this point the new_page is locked and not up-to-date.
				1662	* It's safe to insert it into the page cache, because nobody would
				1663	* be able to map it or use it in another way until we unlock it.
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1664	*/
				1665
Matthew Wilcox	77da938	2017-12-04 14:56:08 -0500	[diff] [blame]	1666	xas_set(&xas, start);
				1667	for (index = start; index < end; index++) {
				1668	struct page *page = xas_next(&xas);
				1669
				1670	VM_BUG_ON(index != xas.xa_index);
Song Liu	99cb0db	2019-09-23 15:38:00 -0700	[diff] [blame]	1671	if (is_shmem) {
				1672	if (!page) {
				1673	/*
				1674	* Stop if extent has been truncated or
				1675	* hole-punched, and is now completely
				1676	* empty.
				1677	*/
				1678	if (index == start) {
				1679	if (!xas_next_entry(&xas, end - 1)) {
				1680	result = SCAN_TRUNCATED;
				1681	goto xa_locked;
				1682	}
				1683	xas_set(&xas, index);
				1684	}
				1685	if (!shmem_charge(mapping->host, 1)) {
				1686	result = SCAN_FAIL;
Hugh Dickins	042a308	2018-11-30 14:10:39 -0800	[diff] [blame]	1687	goto xa_locked;
Hugh Dickins	701270f	2018-11-30 14:10:25 -0800	[diff] [blame]	1688	}
Song Liu	99cb0db	2019-09-23 15:38:00 -0700	[diff] [blame]	1689	xas_store(&xas, new_page);
				1690	nr_none++;
				1691	continue;
Hugh Dickins	701270f	2018-11-30 14:10:25 -0800	[diff] [blame]	1692	}
Song Liu	99cb0db	2019-09-23 15:38:00 -0700	[diff] [blame]	1693
				1694	if (xa_is_value(page) \|\| !PageUptodate(page)) {
				1695	xas_unlock_irq(&xas);
				1696	/* swap in or instantiate fallocated page */
				1697	if (shmem_getpage(mapping->host, index, &page,
				1698	SGP_NOHUGE)) {
				1699	result = SCAN_FAIL;
				1700	goto xa_unlocked;
				1701	}
				1702	} else if (trylock_page(page)) {
				1703	get_page(page);
				1704	xas_unlock_irq(&xas);
				1705	} else {
				1706	result = SCAN_PAGE_LOCK;
Hugh Dickins	042a308	2018-11-30 14:10:39 -0800	[diff] [blame]	1707	goto xa_locked;
Matthew Wilcox	77da938	2017-12-04 14:56:08 -0500	[diff] [blame]	1708	}
Song Liu	99cb0db	2019-09-23 15:38:00 -0700	[diff] [blame]	1709	} else { /* !is_shmem */
				1710	if (!page \|\| xa_is_value(page)) {
				1711	xas_unlock_irq(&xas);
				1712	page_cache_sync_readahead(mapping, &file->f_ra,
				1713	file, index,
				1714	PAGE_SIZE);
				1715	/* drain pagevecs to help isolate_lru_page() */
				1716	lru_add_drain();
				1717	page = find_lock_page(mapping, index);
				1718	if (unlikely(page == NULL)) {
				1719	result = SCAN_FAIL;
				1720	goto xa_unlocked;
				1721	}
Song Liu	75f3606	2019-11-30 17:57:19 -0800	[diff] [blame]	1722	} else if (PageDirty(page)) {
				1723	/*
				1724	* khugepaged only works on read-only fd,
				1725	* so this page is dirty because it hasn't
				1726	* been flushed since first write. There
				1727	* won't be new dirty pages.
				1728	*
				1729	* Trigger async flush here and hope the
				1730	* writeback is done when khugepaged
				1731	* revisits this page.
				1732	*
				1733	* This is a one-off situation. We are not
				1734	* forcing writeback in loop.
				1735	*/
				1736	xas_unlock_irq(&xas);
				1737	filemap_flush(mapping);
				1738	result = SCAN_FAIL;
				1739	goto xa_unlocked;
Song Liu	99cb0db	2019-09-23 15:38:00 -0700	[diff] [blame]	1740	} else if (trylock_page(page)) {
				1741	get_page(page);
				1742	xas_unlock_irq(&xas);
				1743	} else {
				1744	result = SCAN_PAGE_LOCK;
				1745	goto xa_locked;
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1746	}
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1747	}
				1748
				1749	/*
Matthew Wilcox	b93b016	2018-04-10 16:36:56 -0700	[diff] [blame]	1750	* The page must be locked, so we can drop the i_pages lock
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1751	* without racing with truncate.
				1752	*/
				1753	VM_BUG_ON_PAGE(!PageLocked(page), page);
Song Liu	4655e5e	2019-11-15 17:34:53 -0800	[diff] [blame]	1754
				1755	/* make sure the page is up to date */
				1756	if (unlikely(!PageUptodate(page))) {
				1757	result = SCAN_FAIL;
				1758	goto out_unlock;
				1759	}
Hugh Dickins	06a5e12	2018-11-30 14:10:47 -0800	[diff] [blame]	1760
				1761	/*
				1762	* If file was truncated then extended, or hole-punched, before
				1763	* we locked the first page, then a THP might be there already.
				1764	*/
				1765	if (PageTransCompound(page)) {
				1766	result = SCAN_PAGE_COMPOUND;
				1767	goto out_unlock;
				1768	}
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1769
				1770	if (page_mapping(page) != mapping) {
				1771	result = SCAN_TRUNCATED;
				1772	goto out_unlock;
				1773	}
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1774
Song Liu	4655e5e	2019-11-15 17:34:53 -0800	[diff] [blame]	1775	if (!is_shmem && PageDirty(page)) {
				1776	/*
				1777	* khugepaged only works on read-only fd, so this
				1778	* page is dirty because it hasn't been flushed
				1779	* since first write.
				1780	*/
				1781	result = SCAN_FAIL;
				1782	goto out_unlock;
				1783	}
				1784
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1785	if (isolate_lru_page(page)) {
				1786	result = SCAN_DEL_PAGE_LRU;
Hugh Dickins	042a308	2018-11-30 14:10:39 -0800	[diff] [blame]	1787	goto out_unlock;
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1788	}
				1789
Song Liu	99cb0db	2019-09-23 15:38:00 -0700	[diff] [blame]	1790	if (page_has_private(page) &&
				1791	!try_to_release_page(page, GFP_KERNEL)) {
				1792	result = SCAN_PAGE_HAS_PRIVATE;
Hugh Dickins	2f33a70	2020-05-27 22:20:43 -0700	[diff] [blame]	1793	putback_lru_page(page);
Song Liu	99cb0db	2019-09-23 15:38:00 -0700	[diff] [blame]	1794	goto out_unlock;
				1795	}
				1796
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1797	if (page_mapped(page))
Matthew Wilcox	977fbdc	2018-01-31 16:17:36 -0800	[diff] [blame]	1798	unmap_mapping_pages(mapping, index, 1, false);
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1799
Matthew Wilcox	77da938	2017-12-04 14:56:08 -0500	[diff] [blame]	1800	xas_lock_irq(&xas);
				1801	xas_set(&xas, index);
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1802
Matthew Wilcox	77da938	2017-12-04 14:56:08 -0500	[diff] [blame]	1803	VM_BUG_ON_PAGE(page != xas_load(&xas), page);
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1804	VM_BUG_ON_PAGE(page_mapped(page), page);
				1805
				1806	/*
				1807	* The page is expected to have page_count() == 3:
				1808	* - we hold a pin on it;
Matthew Wilcox	77da938	2017-12-04 14:56:08 -0500	[diff] [blame]	1809	* - one reference from page cache;
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1810	* - one from isolate_lru_page;
				1811	*/
				1812	if (!page_ref_freeze(page, 3)) {
				1813	result = SCAN_PAGE_COUNT;
Hugh Dickins	042a308	2018-11-30 14:10:39 -0800	[diff] [blame]	1814	xas_unlock_irq(&xas);
				1815	putback_lru_page(page);
				1816	goto out_unlock;
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1817	}
				1818
				1819	/*
				1820	* Add the page to the list to be able to undo the collapse if
				1821	* something go wrong.
				1822	*/
				1823	list_add_tail(&page->lru, &pagelist);
				1824
				1825	/* Finally, replace with the new page. */
Matthew Wilcox (Oracle)	4101196	2019-09-23 15:34:52 -0700	[diff] [blame]	1826	xas_store(&xas, new_page);
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1827	continue;
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1828	out_unlock:
				1829	unlock_page(page);
				1830	put_page(page);
Hugh Dickins	042a308	2018-11-30 14:10:39 -0800	[diff] [blame]	1831	goto xa_unlocked;
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1832	}
				1833
Song Liu	99cb0db	2019-09-23 15:38:00 -0700	[diff] [blame]	1834	if (is_shmem)
				1835	__inc_node_page_state(new_page, NR_SHMEM_THPS);
Song Liu	09d91cd	2019-09-23 15:38:03 -0700	[diff] [blame]	1836	else {
Song Liu	99cb0db	2019-09-23 15:38:00 -0700	[diff] [blame]	1837	__inc_node_page_state(new_page, NR_FILE_THPS);
Song Liu	09d91cd	2019-09-23 15:38:03 -0700	[diff] [blame]	1838	filemap_nr_thps_inc(mapping);
				1839	}
Song Liu	99cb0db	2019-09-23 15:38:00 -0700	[diff] [blame]	1840
Hugh Dickins	042a308	2018-11-30 14:10:39 -0800	[diff] [blame]	1841	if (nr_none) {
Johannes Weiner	9d82c69	2020-06-03 16:02:04 -0700	[diff] [blame]	1842	__mod_lruvec_page_state(new_page, NR_FILE_PAGES, nr_none);
Song Liu	99cb0db	2019-09-23 15:38:00 -0700	[diff] [blame]	1843	if (is_shmem)
Johannes Weiner	9d82c69	2020-06-03 16:02:04 -0700	[diff] [blame]	1844	__mod_lruvec_page_state(new_page, NR_SHMEM, nr_none);
Hugh Dickins	042a308	2018-11-30 14:10:39 -0800	[diff] [blame]	1845	}
				1846
				1847	xa_locked:
				1848	xas_unlock_irq(&xas);
Matthew Wilcox	77da938	2017-12-04 14:56:08 -0500	[diff] [blame]	1849	xa_unlocked:
Hugh Dickins	042a308	2018-11-30 14:10:39 -0800	[diff] [blame]	1850
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1851	if (result == SCAN_SUCCEED) {
Matthew Wilcox	77da938	2017-12-04 14:56:08 -0500	[diff] [blame]	1852	struct page page, tmp;
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1853
				1854	/*
Matthew Wilcox	77da938	2017-12-04 14:56:08 -0500	[diff] [blame]	1855	* Replacing old pages with new one has succeeded, now we
				1856	* need to copy the content and free the old pages.
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1857	*/
Hugh Dickins	2af8ff2	2018-11-30 14:10:35 -0800	[diff] [blame]	1858	index = start;
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1859	list_for_each_entry_safe(page, tmp, &pagelist, lru) {
Hugh Dickins	2af8ff2	2018-11-30 14:10:35 -0800	[diff] [blame]	1860	while (index < page->index) {
				1861	clear_highpage(new_page + (index % HPAGE_PMD_NR));
				1862	index++;
				1863	}
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1864	copy_highpage(new_page + (page->index % HPAGE_PMD_NR),
				1865	page);
				1866	list_del(&page->lru);
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1867	page->mapping = NULL;
Hugh Dickins	042a308	2018-11-30 14:10:39 -0800	[diff] [blame]	1868	page_ref_unfreeze(page, 1);
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1869	ClearPageActive(page);
				1870	ClearPageUnevictable(page);
Hugh Dickins	042a308	2018-11-30 14:10:39 -0800	[diff] [blame]	1871	unlock_page(page);
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1872	put_page(page);
Hugh Dickins	2af8ff2	2018-11-30 14:10:35 -0800	[diff] [blame]	1873	index++;
				1874	}
				1875	while (index < end) {
				1876	clear_highpage(new_page + (index % HPAGE_PMD_NR));
				1877	index++;
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1878	}
				1879
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1880	SetPageUptodate(new_page);
Hugh Dickins	87c460a	2018-11-30 14:10:43 -0800	[diff] [blame]	1881	page_ref_add(new_page, HPAGE_PMD_NR - 1);
Johannes Weiner	6058eae	2020-06-03 16:02:40 -0700	[diff] [blame]	1882	if (is_shmem)
Song Liu	99cb0db	2019-09-23 15:38:00 -0700	[diff] [blame]	1883	set_page_dirty(new_page);
Johannes Weiner	6058eae	2020-06-03 16:02:40 -0700	[diff] [blame]	1884	lru_cache_add(new_page);
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1885
Hugh Dickins	042a308	2018-11-30 14:10:39 -0800	[diff] [blame]	1886	/*
				1887	* Remove pte page tables, so we can re-fault the page as huge.
				1888	*/
				1889	retract_page_tables(mapping, start);
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1890	*hpage = NULL;
Yang Shi	87aa752	2018-08-17 15:45:29 -0700	[diff] [blame]	1891
				1892	khugepaged_pages_collapsed++;
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1893	} else {
Matthew Wilcox	77da938	2017-12-04 14:56:08 -0500	[diff] [blame]	1894	struct page *page;
Hugh Dickins	aaa52e3	2018-11-30 14:10:29 -0800	[diff] [blame]	1895
Matthew Wilcox	77da938	2017-12-04 14:56:08 -0500	[diff] [blame]	1896	/* Something went wrong: roll back page cache changes */
Matthew Wilcox	77da938	2017-12-04 14:56:08 -0500	[diff] [blame]	1897	xas_lock_irq(&xas);
Hugh Dickins	aaa52e3	2018-11-30 14:10:29 -0800	[diff] [blame]	1898	mapping->nrpages -= nr_none;
Song Liu	99cb0db	2019-09-23 15:38:00 -0700	[diff] [blame]	1899
				1900	if (is_shmem)
				1901	shmem_uncharge(mapping->host, nr_none);
Hugh Dickins	aaa52e3	2018-11-30 14:10:29 -0800	[diff] [blame]	1902
Matthew Wilcox	77da938	2017-12-04 14:56:08 -0500	[diff] [blame]	1903	xas_set(&xas, start);
				1904	xas_for_each(&xas, page, end - 1) {
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1905	page = list_first_entry_or_null(&pagelist,
				1906	struct page, lru);
Matthew Wilcox	77da938	2017-12-04 14:56:08 -0500	[diff] [blame]	1907	if (!page \|\| xas.xa_index < page->index) {
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1908	if (!nr_none)
				1909	break;
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1910	nr_none--;
Johannes Weiner	59749e6	2016-12-12 16:43:35 -0800	[diff] [blame]	1911	/* Put holes back where they were */
Matthew Wilcox	77da938	2017-12-04 14:56:08 -0500	[diff] [blame]	1912	xas_store(&xas, NULL);
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1913	continue;
				1914	}
				1915
Matthew Wilcox	77da938	2017-12-04 14:56:08 -0500	[diff] [blame]	1916	VM_BUG_ON_PAGE(page->index != xas.xa_index, page);
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1917
				1918	/* Unfreeze the page. */
				1919	list_del(&page->lru);
				1920	page_ref_unfreeze(page, 2);
Matthew Wilcox	77da938	2017-12-04 14:56:08 -0500	[diff] [blame]	1921	xas_store(&xas, page);
				1922	xas_pause(&xas);
				1923	xas_unlock_irq(&xas);
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1924	unlock_page(page);
Hugh Dickins	042a308	2018-11-30 14:10:39 -0800	[diff] [blame]	1925	putback_lru_page(page);
Matthew Wilcox	77da938	2017-12-04 14:56:08 -0500	[diff] [blame]	1926	xas_lock_irq(&xas);
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1927	}
				1928	VM_BUG_ON(nr_none);
Matthew Wilcox	77da938	2017-12-04 14:56:08 -0500	[diff] [blame]	1929	xas_unlock_irq(&xas);
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1930
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1931	new_page->mapping = NULL;
				1932	}
Hugh Dickins	042a308	2018-11-30 14:10:39 -0800	[diff] [blame]	1933
				1934	unlock_page(new_page);
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1935	out:
				1936	VM_BUG_ON(!list_empty(&pagelist));
Johannes Weiner	9d82c69	2020-06-03 16:02:04 -0700	[diff] [blame]	1937	if (!IS_ERR_OR_NULL(*hpage))
				1938	mem_cgroup_uncharge(*hpage);
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1939	/* TODO: tracepoints */
				1940	}
				1941
Song Liu	579c571	2019-09-23 15:37:57 -0700	[diff] [blame]	1942	static void khugepaged_scan_file(struct mm_struct *mm,
				1943	struct file file, pgoff_t start, struct page *hpage)
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1944	{
				1945	struct page *page = NULL;
Song Liu	579c571	2019-09-23 15:37:57 -0700	[diff] [blame]	1946	struct address_space *mapping = file->f_mapping;
Matthew Wilcox	85b392d	2017-12-04 15:06:23 -0500	[diff] [blame]	1947	XA_STATE(xas, &mapping->i_pages, start);
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1948	int present, swap;
				1949	int node = NUMA_NO_NODE;
				1950	int result = SCAN_SUCCEED;
				1951
				1952	present = 0;
				1953	swap = 0;
				1954	memset(khugepaged_node_load, 0, sizeof(khugepaged_node_load));
				1955	rcu_read_lock();
Matthew Wilcox	85b392d	2017-12-04 15:06:23 -0500	[diff] [blame]	1956	xas_for_each(&xas, page, start + HPAGE_PMD_NR - 1) {
				1957	if (xas_retry(&xas, page))
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1958	continue;
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1959
Matthew Wilcox	85b392d	2017-12-04 15:06:23 -0500	[diff] [blame]	1960	if (xa_is_value(page)) {
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1961	if (++swap > khugepaged_max_ptes_swap) {
				1962	result = SCAN_EXCEED_SWAP_PTE;
				1963	break;
				1964	}
				1965	continue;
				1966	}
				1967
				1968	if (PageTransCompound(page)) {
				1969	result = SCAN_PAGE_COMPOUND;
				1970	break;
				1971	}
				1972
				1973	node = page_to_nid(page);
				1974	if (khugepaged_scan_abort(node)) {
				1975	result = SCAN_SCAN_ABORT;
				1976	break;
				1977	}
				1978	khugepaged_node_load[node]++;
				1979
				1980	if (!PageLRU(page)) {
				1981	result = SCAN_PAGE_LRU;
				1982	break;
				1983	}
				1984
Song Liu	99cb0db	2019-09-23 15:38:00 -0700	[diff] [blame]	1985	if (page_count(page) !=
				1986	1 + page_mapcount(page) + page_has_private(page)) {
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	1987	result = SCAN_PAGE_COUNT;
				1988	break;
				1989	}
				1990
				1991	/*
				1992	* We probably should check if the page is referenced here, but
				1993	* nobody would transfer pte_young() to PageReferenced() for us.
				1994	* And rmap walk here is just too costly...
				1995	*/
				1996
				1997	present++;
				1998
				1999	if (need_resched()) {
Matthew Wilcox	85b392d	2017-12-04 15:06:23 -0500	[diff] [blame]	2000	xas_pause(&xas);
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	2001	cond_resched_rcu();
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	2002	}
				2003	}
				2004	rcu_read_unlock();
				2005
				2006	if (result == SCAN_SUCCEED) {
				2007	if (present < HPAGE_PMD_NR - khugepaged_max_ptes_none) {
				2008	result = SCAN_EXCEED_NONE_PTE;
				2009	} else {
				2010	node = khugepaged_find_target_node();
Song Liu	579c571	2019-09-23 15:37:57 -0700	[diff] [blame]	2011	collapse_file(mm, file, start, hpage, node);
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	2012	}
				2013	}
				2014
				2015	/* TODO: tracepoints */
				2016	}
				2017	#else
Song Liu	579c571	2019-09-23 15:37:57 -0700	[diff] [blame]	2018	static void khugepaged_scan_file(struct mm_struct *mm,
				2019	struct file file, pgoff_t start, struct page *hpage)
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	2020	{
				2021	BUILD_BUG();
				2022	}
Song Liu	27e1f82	2019-09-23 15:38:30 -0700	[diff] [blame]	2023
				2024	static int khugepaged_collapse_pte_mapped_thps(struct mm_slot *mm_slot)
				2025	{
				2026	return 0;
				2027	}
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	2028	#endif
				2029
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	2030	static unsigned int khugepaged_scan_mm_slot(unsigned int pages,
				2031	struct page **hpage)
				2032	__releases(&khugepaged_mm_lock)
				2033	__acquires(&khugepaged_mm_lock)
				2034	{
				2035	struct mm_slot *mm_slot;
				2036	struct mm_struct *mm;
				2037	struct vm_area_struct *vma;
				2038	int progress = 0;
				2039
				2040	VM_BUG_ON(!pages);
Lance Roy	35f3aa3	2018-10-04 23:45:47 -0700	[diff] [blame]	2041	lockdep_assert_held(&khugepaged_mm_lock);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	2042
				2043	if (khugepaged_scan.mm_slot)
				2044	mm_slot = khugepaged_scan.mm_slot;
				2045	else {
				2046	mm_slot = list_entry(khugepaged_scan.mm_head.next,
				2047	struct mm_slot, mm_node);
				2048	khugepaged_scan.address = 0;
				2049	khugepaged_scan.mm_slot = mm_slot;
				2050	}
				2051	spin_unlock(&khugepaged_mm_lock);
Song Liu	27e1f82	2019-09-23 15:38:30 -0700	[diff] [blame]	2052	khugepaged_collapse_pte_mapped_thps(mm_slot);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	2053
				2054	mm = mm_slot->mm;
Yang Shi	3b454ad	2018-01-31 16:18:28 -0800	[diff] [blame]	2055	/*
				2056	* Don't wait for semaphore (to avoid long wait times). Just move to
				2057	* the next mm on the list.
				2058	*/
				2059	vma = NULL;
Michel Lespinasse	d8ed45c	2020-06-08 21:33:25 -0700	[diff] [blame]	2060	if (unlikely(!mmap_read_trylock(mm)))
Michel Lespinasse	c1e8d7c	2020-06-08 21:33:54 -0700	[diff] [blame]	2061	goto breakouterloop_mmap_lock;
Yang Shi	3b454ad	2018-01-31 16:18:28 -0800	[diff] [blame]	2062	if (likely(!khugepaged_test_exit(mm)))
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	2063	vma = find_vma(mm, khugepaged_scan.address);
				2064
				2065	progress++;
				2066	for (; vma; vma = vma->vm_next) {
				2067	unsigned long hstart, hend;
				2068
				2069	cond_resched();
				2070	if (unlikely(khugepaged_test_exit(mm))) {
				2071	progress++;
				2072	break;
				2073	}
Song Liu	50f8b92	2018-08-17 15:47:00 -0700	[diff] [blame]	2074	if (!hugepage_vma_check(vma, vma->vm_flags)) {
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	2075	skip:
				2076	progress++;
				2077	continue;
				2078	}
				2079	hstart = (vma->vm_start + ~HPAGE_PMD_MASK) & HPAGE_PMD_MASK;
				2080	hend = vma->vm_end & HPAGE_PMD_MASK;
				2081	if (hstart >= hend)
				2082	goto skip;
				2083	if (khugepaged_scan.address > hend)
				2084	goto skip;
				2085	if (khugepaged_scan.address < hstart)
				2086	khugepaged_scan.address = hstart;
				2087	VM_BUG_ON(khugepaged_scan.address & ~HPAGE_PMD_MASK);
Matthew Wilcox (Oracle)	396bcc5	2020-04-06 20:04:35 -0700	[diff] [blame]	2088	if (shmem_file(vma->vm_file) && !shmem_huge_enabled(vma))
				2089	goto skip;
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	2090
				2091	while (khugepaged_scan.address < hend) {
				2092	int ret;
				2093	cond_resched();
				2094	if (unlikely(khugepaged_test_exit(mm)))
				2095	goto breakouterloop;
				2096
				2097	VM_BUG_ON(khugepaged_scan.address < hstart \|\|
				2098	khugepaged_scan.address + HPAGE_PMD_SIZE >
				2099	hend);
Song Liu	99cb0db	2019-09-23 15:38:00 -0700	[diff] [blame]	2100	if (IS_ENABLED(CONFIG_SHMEM) && vma->vm_file) {
Matthew Wilcox (Oracle)	396bcc5	2020-04-06 20:04:35 -0700	[diff] [blame]	2101	struct file *file = get_file(vma->vm_file);
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	2102	pgoff_t pgoff = linear_page_index(vma,
				2103	khugepaged_scan.address);
Song Liu	99cb0db	2019-09-23 15:38:00 -0700	[diff] [blame]	2104
Michel Lespinasse	d8ed45c	2020-06-08 21:33:25 -0700	[diff] [blame]	2105	mmap_read_unlock(mm);
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	2106	ret = 1;
Song Liu	579c571	2019-09-23 15:37:57 -0700	[diff] [blame]	2107	khugepaged_scan_file(mm, file, pgoff, hpage);
Kirill A. Shutemov	f3f0e1d	2016-07-26 15:26:32 -0700	[diff] [blame]	2108	fput(file);
				2109	} else {
				2110	ret = khugepaged_scan_pmd(mm, vma,
				2111	khugepaged_scan.address,
				2112	hpage);
				2113	}
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	2114	/* move to next address */
				2115	khugepaged_scan.address += HPAGE_PMD_SIZE;
				2116	progress += HPAGE_PMD_NR;
				2117	if (ret)
Michel Lespinasse	c1e8d7c	2020-06-08 21:33:54 -0700	[diff] [blame]	2118	/* we released mmap_lock so break loop */
				2119	goto breakouterloop_mmap_lock;
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	2120	if (progress >= pages)
				2121	goto breakouterloop;
				2122	}
				2123	}
				2124	breakouterloop:
Michel Lespinasse	d8ed45c	2020-06-08 21:33:25 -0700	[diff] [blame]	2125	mmap_read_unlock(mm); /* exit_mmap will destroy ptes after this */
Michel Lespinasse	c1e8d7c	2020-06-08 21:33:54 -0700	[diff] [blame]	2126	breakouterloop_mmap_lock:
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	2127
				2128	spin_lock(&khugepaged_mm_lock);
				2129	VM_BUG_ON(khugepaged_scan.mm_slot != mm_slot);
				2130	/*
				2131	* Release the current mm_slot if this mm is about to die, or
				2132	* if we scanned all vmas of this mm.
				2133	*/
				2134	if (khugepaged_test_exit(mm) \|\| !vma) {
				2135	/*
				2136	* Make sure that if mm_users is reaching zero while
				2137	* khugepaged runs here, khugepaged_exit will find
				2138	* mm_slot not pointing to the exiting mm.
				2139	*/
				2140	if (mm_slot->mm_node.next != &khugepaged_scan.mm_head) {
				2141	khugepaged_scan.mm_slot = list_entry(
				2142	mm_slot->mm_node.next,
				2143	struct mm_slot, mm_node);
				2144	khugepaged_scan.address = 0;
				2145	} else {
				2146	khugepaged_scan.mm_slot = NULL;
				2147	khugepaged_full_scans++;
				2148	}
				2149
				2150	collect_mm_slot(mm_slot);
				2151	}
				2152
				2153	return progress;
				2154	}
				2155
				2156	static int khugepaged_has_work(void)
				2157	{
				2158	return !list_empty(&khugepaged_scan.mm_head) &&
				2159	khugepaged_enabled();
				2160	}
				2161
				2162	static int khugepaged_wait_event(void)
				2163	{
				2164	return !list_empty(&khugepaged_scan.mm_head) \|\|
				2165	kthread_should_stop();
				2166	}
				2167
				2168	static void khugepaged_do_scan(void)
				2169	{
				2170	struct page *hpage = NULL;
				2171	unsigned int progress = 0, pass_through_head = 0;
				2172	unsigned int pages = khugepaged_pages_to_scan;
				2173	bool wait = true;
				2174
				2175	barrier(); /* write khugepaged_pages_to_scan to local stack */
				2176
Kirill A. Shutemov	a980df3	2020-06-03 16:00:12 -0700	[diff] [blame]	2177	lru_add_drain_all();
				2178
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	2179	while (progress < pages) {
				2180	if (!khugepaged_prealloc_page(&hpage, &wait))
				2181	break;
				2182
				2183	cond_resched();
				2184
				2185	if (unlikely(kthread_should_stop() \|\| try_to_freeze()))
				2186	break;
				2187
				2188	spin_lock(&khugepaged_mm_lock);
				2189	if (!khugepaged_scan.mm_slot)
				2190	pass_through_head++;
				2191	if (khugepaged_has_work() &&
				2192	pass_through_head < 2)
				2193	progress += khugepaged_scan_mm_slot(pages - progress,
				2194	&hpage);
				2195	else
				2196	progress = pages;
				2197	spin_unlock(&khugepaged_mm_lock);
				2198	}
				2199
				2200	if (!IS_ERR_OR_NULL(hpage))
				2201	put_page(hpage);
				2202	}
				2203
				2204	static bool khugepaged_should_wakeup(void)
				2205	{
				2206	return kthread_should_stop() \|\|
				2207	time_after_eq(jiffies, khugepaged_sleep_expire);
				2208	}
				2209
				2210	static void khugepaged_wait_work(void)
				2211	{
				2212	if (khugepaged_has_work()) {
				2213	const unsigned long scan_sleep_jiffies =
				2214	msecs_to_jiffies(khugepaged_scan_sleep_millisecs);
				2215
				2216	if (!scan_sleep_jiffies)
				2217	return;
				2218
				2219	khugepaged_sleep_expire = jiffies + scan_sleep_jiffies;
				2220	wait_event_freezable_timeout(khugepaged_wait,
				2221	khugepaged_should_wakeup(),
				2222	scan_sleep_jiffies);
				2223	return;
				2224	}
				2225
				2226	if (khugepaged_enabled())
				2227	wait_event_freezable(khugepaged_wait, khugepaged_wait_event());
				2228	}
				2229
				2230	static int khugepaged(void *none)
				2231	{
				2232	struct mm_slot *mm_slot;
				2233
				2234	set_freezable();
				2235	set_user_nice(current, MAX_NICE);
				2236
				2237	while (!kthread_should_stop()) {
				2238	khugepaged_do_scan();
				2239	khugepaged_wait_work();
				2240	}
				2241
				2242	spin_lock(&khugepaged_mm_lock);
				2243	mm_slot = khugepaged_scan.mm_slot;
				2244	khugepaged_scan.mm_slot = NULL;
				2245	if (mm_slot)
				2246	collect_mm_slot(mm_slot);
				2247	spin_unlock(&khugepaged_mm_lock);
				2248	return 0;
				2249	}
				2250
				2251	static void set_recommended_min_free_kbytes(void)
				2252	{
				2253	struct zone *zone;
				2254	int nr_zones = 0;
				2255	unsigned long recommended_min;
				2256
Joonsoo Kim	b7d349c	2018-04-10 16:30:27 -0700	[diff] [blame]	2257	for_each_populated_zone(zone) {
				2258	/*
				2259	* We don't need to worry about fragmentation of
				2260	* ZONE_MOVABLE since it only has movable pages.
				2261	*/
				2262	if (zone_idx(zone) > gfp_zone(GFP_USER))
				2263	continue;
				2264
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	2265	nr_zones++;
Joonsoo Kim	b7d349c	2018-04-10 16:30:27 -0700	[diff] [blame]	2266	}
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	2267
				2268	/* Ensure 2 pageblocks are free to assist fragmentation avoidance */
				2269	recommended_min = pageblock_nr_pages * nr_zones * 2;
				2270
				2271	/*
				2272	* Make sure that on average at least two pageblocks are almost free
				2273	* of another type, one for a migratetype to fall back to and a
				2274	* second to avoid subsequent fallbacks of other types There are 3
				2275	* MIGRATE_TYPES we care about.
				2276	*/
				2277	recommended_min += pageblock_nr_pages * nr_zones *
				2278	MIGRATE_PCPTYPES * MIGRATE_PCPTYPES;
				2279
				2280	/* don't ever allow to reserve more than 5% of the lowmem */
				2281	recommended_min = min(recommended_min,
				2282	(unsigned long) nr_free_buffer_pages() / 20);
				2283	recommended_min <<= (PAGE_SHIFT-10);
				2284
				2285	if (recommended_min > min_free_kbytes) {
				2286	if (user_min_free_kbytes >= 0)
				2287	pr_info("raising min_free_kbytes from %d to %lu to help transparent hugepage allocations\n",
				2288	min_free_kbytes, recommended_min);
				2289
				2290	min_free_kbytes = recommended_min;
				2291	}
				2292	setup_per_zone_wmarks();
				2293	}
				2294
				2295	int start_stop_khugepaged(void)
				2296	{
				2297	static struct task_struct *khugepaged_thread __read_mostly;
				2298	static DEFINE_MUTEX(khugepaged_mutex);
				2299	int err = 0;
				2300
				2301	mutex_lock(&khugepaged_mutex);
				2302	if (khugepaged_enabled()) {
				2303	if (!khugepaged_thread)
				2304	khugepaged_thread = kthread_run(khugepaged, NULL,
				2305	"khugepaged");
				2306	if (IS_ERR(khugepaged_thread)) {
				2307	pr_err("khugepaged: kthread_run(khugepaged) failed\n");
				2308	err = PTR_ERR(khugepaged_thread);
				2309	khugepaged_thread = NULL;
				2310	goto fail;
				2311	}
				2312
				2313	if (!list_empty(&khugepaged_scan.mm_head))
				2314	wake_up_interruptible(&khugepaged_wait);
				2315
				2316	set_recommended_min_free_kbytes();
				2317	} else if (khugepaged_thread) {
				2318	kthread_stop(khugepaged_thread);
				2319	khugepaged_thread = NULL;
				2320	}
				2321	fail:
				2322	mutex_unlock(&khugepaged_mutex);
				2323	return err;
				2324	}