Blame - fs/xfs/xfs_buf.c - SHIFTPHONES/mainline/linux

blob: 7f8abcbe98a44754d8178395029b69a3bd8f6743 [file] [log] [blame]

Dave Chinner	0b61f8a	2018-06-05 19:42:14 -0700	[diff] [blame]	1	// SPDX-License-Identifier: GPL-2.0
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	2	/*
Nathan Scott	f07c225	2006-09-28 10:52:15 +1000	[diff] [blame]	3	* Copyright (c) 2000-2006 Silicon Graphics, Inc.
Nathan Scott	7b71876	2005-11-02 14:58:39 +1100	[diff] [blame]	4	* All Rights Reserved.
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	5	*/
Vlad Apostolov	93c189c	2006-11-11 18:03:49 +1100	[diff] [blame]	6	#include "xfs.h"
Andrew Morton	3fcfab1	2006-10-19 23:28:16 -0700	[diff] [blame]	7	#include <linux/backing-dev.h>
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	8
Darrick J. Wong	5467b34	2019-06-28 19:25:35 -0700	[diff] [blame]	9	#include "xfs_shared.h"
Christoph Hellwig	4fb6e8a	2014-11-28 14:25:04 +1100	[diff] [blame]	10	#include "xfs_format.h"
Dave Chinner	239880e	2013-10-23 10:50:10 +1100	[diff] [blame]	11	#include "xfs_log_format.h"
Dave Chinner	7fd36c4	2013-08-12 20:49:32 +1000	[diff] [blame]	12	#include "xfs_trans_resv.h"
Dave Chinner	239880e	2013-10-23 10:50:10 +1100	[diff] [blame]	13	#include "xfs_sb.h"
Christoph Hellwig	b796313	2009-03-03 14:48:37 -0500	[diff] [blame]	14	#include "xfs_mount.h"
Christoph Hellwig	0b1b213	2009-12-14 23:14:59 +0000	[diff] [blame]	15	#include "xfs_trace.h"
Dave Chinner	239880e	2013-10-23 10:50:10 +1100	[diff] [blame]	16	#include "xfs_log.h"
Dave Chinner	9fe5c77	2020-06-29 14:48:47 -0700	[diff] [blame]	17	#include "xfs_log_recover.h"
Dave Chinner	f593bf1	2020-06-29 14:48:46 -0700	[diff] [blame]	18	#include "xfs_trans.h"
				19	#include "xfs_buf_item.h"
Darrick J. Wong	e9e899a	2017-10-31 12:04:49 -0700	[diff] [blame]	20	#include "xfs_errortag.h"
Brian Foster	7561d27	2017-10-17 14:16:29 -0700	[diff] [blame]	21	#include "xfs_error.h"
Christoph Hellwig	b796313	2009-03-03 14:48:37 -0500	[diff] [blame]	22
David Chinner	7989cb8	2007-02-10 18:34:56 +1100	[diff] [blame]	23	static kmem_zone_t *xfs_buf_zone;
Christoph Hellwig	23ea403	2005-06-21 15:14:01 +1000	[diff] [blame]	24
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	25	#define xb_to_gfp(flags) \
Dave Chinner	aa5c158	2012-04-23 15:58:56 +1000	[diff] [blame]	26	((((flags) & XBF_READ_AHEAD) ? __GFP_NORETRY : GFP_NOFS) \| __GFP_NOWARN)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	27
Dave Chinner	37fd167	2018-10-18 17:21:29 +1100	[diff] [blame]	28	/*
				29	* Locking orders
				30	*
				31	* xfs_buf_ioacct_inc:
				32	* xfs_buf_ioacct_dec:
				33	* b_sema (caller holds)
				34	* b_lock
				35	*
				36	* xfs_buf_stale:
				37	* b_sema (caller holds)
				38	* b_lock
				39	* lru_lock
				40	*
				41	* xfs_buf_rele:
				42	* b_lock
				43	* pag_buf_lock
				44	* lru_lock
				45	*
				46	* xfs_buftarg_wait_rele
				47	* lru_lock
				48	* b_lock (trylock due to inversion)
				49	*
				50	* xfs_buftarg_isolate
				51	* lru_lock
				52	* b_lock (trylock due to inversion)
				53	*/
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	54
James Bottomley	73c77e2	2010-01-25 11:42:24 -0600	[diff] [blame]	55	static inline int
				56	xfs_buf_is_vmapped(
				57	struct xfs_buf *bp)
				58	{
				59	/*
				60	* Return true if the buffer is vmapped.
				61	*
Dave Chinner	611c994	2012-04-23 15:59:07 +1000	[diff] [blame]	62	* b_addr is null if the buffer is not mapped, but the code is clever
				63	* enough to know it doesn't have to map a single page, so the check has
				64	* to be both for b_addr and bp->b_page_count > 1.
James Bottomley	73c77e2	2010-01-25 11:42:24 -0600	[diff] [blame]	65	*/
Dave Chinner	611c994	2012-04-23 15:59:07 +1000	[diff] [blame]	66	return bp->b_addr && bp->b_page_count > 1;
James Bottomley	73c77e2	2010-01-25 11:42:24 -0600	[diff] [blame]	67	}
				68
				69	static inline int
				70	xfs_buf_vmap_len(
				71	struct xfs_buf *bp)
				72	{
				73	return (bp->b_page_count * PAGE_SIZE) - bp->b_offset;
				74	}
				75
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	76	/*
Brian Foster	9c7504a	2016-07-20 11:15:28 +1000	[diff] [blame]	77	* Bump the I/O in flight count on the buftarg if we haven't yet done so for
				78	* this buffer. The count is incremented once per buffer (per hold cycle)
				79	* because the corresponding decrement is deferred to buffer release. Buffers
				80	* can undergo I/O multiple times in a hold-release cycle and per buffer I/O
				81	* tracking adds unnecessary overhead. This is used for sychronization purposes
				82	* with unmount (see xfs_wait_buftarg()), so all we really need is a count of
				83	* in-flight buffers.
				84	*
				85	* Buffers that are never released (e.g., superblock, iclog buffers) must set
				86	* the XBF_NO_IOACCT flag before I/O submission. Otherwise, the buftarg count
				87	* never reaches zero and unmount hangs indefinitely.
				88	*/
				89	static inline void
				90	xfs_buf_ioacct_inc(
				91	struct xfs_buf *bp)
				92	{
Brian Foster	63db7c8	2017-05-31 08:22:52 -0700	[diff] [blame]	93	if (bp->b_flags & XBF_NO_IOACCT)
Brian Foster	9c7504a	2016-07-20 11:15:28 +1000	[diff] [blame]	94	return;
				95
				96	ASSERT(bp->b_flags & XBF_ASYNC);
Brian Foster	63db7c8	2017-05-31 08:22:52 -0700	[diff] [blame]	97	spin_lock(&bp->b_lock);
				98	if (!(bp->b_state & XFS_BSTATE_IN_FLIGHT)) {
				99	bp->b_state \|= XFS_BSTATE_IN_FLIGHT;
				100	percpu_counter_inc(&bp->b_target->bt_io_count);
				101	}
				102	spin_unlock(&bp->b_lock);
Brian Foster	9c7504a	2016-07-20 11:15:28 +1000	[diff] [blame]	103	}
				104
				105	/*
				106	* Clear the in-flight state on a buffer about to be released to the LRU or
				107	* freed and unaccount from the buftarg.
				108	*/
				109	static inline void
Brian Foster	63db7c8	2017-05-31 08:22:52 -0700	[diff] [blame]	110	__xfs_buf_ioacct_dec(
				111	struct xfs_buf *bp)
				112	{
Brian Foster	95989c4	2017-06-08 08:23:07 -0700	[diff] [blame]	113	lockdep_assert_held(&bp->b_lock);
Brian Foster	63db7c8	2017-05-31 08:22:52 -0700	[diff] [blame]	114
				115	if (bp->b_state & XFS_BSTATE_IN_FLIGHT) {
				116	bp->b_state &= ~XFS_BSTATE_IN_FLIGHT;
				117	percpu_counter_dec(&bp->b_target->bt_io_count);
				118	}
				119	}
				120
				121	static inline void
Brian Foster	9c7504a	2016-07-20 11:15:28 +1000	[diff] [blame]	122	xfs_buf_ioacct_dec(
				123	struct xfs_buf *bp)
				124	{
Brian Foster	63db7c8	2017-05-31 08:22:52 -0700	[diff] [blame]	125	spin_lock(&bp->b_lock);
				126	__xfs_buf_ioacct_dec(bp);
				127	spin_unlock(&bp->b_lock);
Brian Foster	9c7504a	2016-07-20 11:15:28 +1000	[diff] [blame]	128	}
				129
				130	/*
Dave Chinner	430cbeb	2010-12-02 16:30:55 +1100	[diff] [blame]	131	* When we mark a buffer stale, we remove the buffer from the LRU and clear the
				132	* b_lru_ref count so that the buffer is freed immediately when the buffer
				133	* reference count falls to zero. If the buffer is already on the LRU, we need
				134	* to remove the reference that LRU holds on the buffer.
				135	*
				136	* This prevents build-up of stale buffers on the LRU.
				137	*/
				138	void
				139	xfs_buf_stale(
				140	struct xfs_buf *bp)
				141	{
Christoph Hellwig	43ff212	2012-04-23 15:58:39 +1000	[diff] [blame]	142	ASSERT(xfs_buf_islocked(bp));
				143
Dave Chinner	430cbeb	2010-12-02 16:30:55 +1100	[diff] [blame]	144	bp->b_flags \|= XBF_STALE;
Christoph Hellwig	43ff212	2012-04-23 15:58:39 +1000	[diff] [blame]	145
				146	/*
				147	* Clear the delwri status so that a delwri queue walker will not
				148	* flush this buffer to disk now that it is stale. The delwri queue has
				149	* a reference to the buffer, so this is safe to do.
				150	*/
				151	bp->b_flags &= ~_XBF_DELWRI_Q;
				152
Brian Foster	9c7504a	2016-07-20 11:15:28 +1000	[diff] [blame]	153	/*
				154	* Once the buffer is marked stale and unlocked, a subsequent lookup
				155	* could reset b_flags. There is no guarantee that the buffer is
				156	* unaccounted (released to LRU) before that occurs. Drop in-flight
				157	* status now to preserve accounting consistency.
				158	*/
Dave Chinner	a408235	2013-08-28 10:18:06 +1000	[diff] [blame]	159	spin_lock(&bp->b_lock);
Brian Foster	63db7c8	2017-05-31 08:22:52 -0700	[diff] [blame]	160	__xfs_buf_ioacct_dec(bp);
				161
Dave Chinner	a408235	2013-08-28 10:18:06 +1000	[diff] [blame]	162	atomic_set(&bp->b_lru_ref, 0);
				163	if (!(bp->b_state & XFS_BSTATE_DISPOSE) &&
Dave Chinner	e80dfa1	2013-08-28 10:18:05 +1000	[diff] [blame]	164	(list_lru_del(&bp->b_target->bt_lru, &bp->b_lru)))
				165	atomic_dec(&bp->b_hold);
Dave Chinner	430cbeb	2010-12-02 16:30:55 +1100	[diff] [blame]	166
Dave Chinner	430cbeb	2010-12-02 16:30:55 +1100	[diff] [blame]	167	ASSERT(atomic_read(&bp->b_hold) >= 1);
Dave Chinner	a408235	2013-08-28 10:18:06 +1000	[diff] [blame]	168	spin_unlock(&bp->b_lock);
Dave Chinner	430cbeb	2010-12-02 16:30:55 +1100	[diff] [blame]	169	}
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	170
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	171	static int
				172	xfs_buf_get_maps(
				173	struct xfs_buf *bp,
				174	int map_count)
				175	{
				176	ASSERT(bp->b_maps == NULL);
				177	bp->b_map_count = map_count;
				178
				179	if (map_count == 1) {
Mark Tinguely	f4b4242	2012-12-04 17:18:02 -0600	[diff] [blame]	180	bp->b_maps = &bp->__b_map;
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	181	return 0;
				182	}
				183
				184	bp->b_maps = kmem_zalloc(map_count * sizeof(struct xfs_buf_map),
				185	KM_NOFS);
				186	if (!bp->b_maps)
Dave Chinner	2451337	2014-06-25 14:58:08 +1000	[diff] [blame]	187	return -ENOMEM;
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	188	return 0;
				189	}
				190
				191	/*
				192	* Frees b_pages if it was allocated.
				193	*/
				194	static void
				195	xfs_buf_free_maps(
				196	struct xfs_buf *bp)
				197	{
Mark Tinguely	f4b4242	2012-12-04 17:18:02 -0600	[diff] [blame]	198	if (bp->b_maps != &bp->__b_map) {
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	199	kmem_free(bp->b_maps);
				200	bp->b_maps = NULL;
				201	}
				202	}
				203
Darrick J. Wong	32dff5e	2020-01-23 17:01:15 -0800	[diff] [blame]	204	static int
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	205	_xfs_buf_alloc(
Christoph Hellwig	4347b9d	2011-10-10 16:52:48 +0000	[diff] [blame]	206	struct xfs_buftarg *target,
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	207	struct xfs_buf_map *map,
				208	int nmaps,
Darrick J. Wong	32dff5e	2020-01-23 17:01:15 -0800	[diff] [blame]	209	xfs_buf_flags_t flags,
				210	struct xfs_buf **bpp)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	211	{
Christoph Hellwig	4347b9d	2011-10-10 16:52:48 +0000	[diff] [blame]	212	struct xfs_buf *bp;
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	213	int error;
				214	int i;
Christoph Hellwig	4347b9d	2011-10-10 16:52:48 +0000	[diff] [blame]	215
Darrick J. Wong	32dff5e	2020-01-23 17:01:15 -0800	[diff] [blame]	216	*bpp = NULL;
Carlos Maiolino	32a2b11	2020-07-22 09:23:10 -0700	[diff] [blame]	217	bp = kmem_cache_zalloc(xfs_buf_zone, GFP_NOFS \| __GFP_NOFAIL);
Christoph Hellwig	4347b9d	2011-10-10 16:52:48 +0000	[diff] [blame]	218
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	219	/*
Dave Chinner	12bcb3f	2012-04-23 15:59:05 +1000	[diff] [blame]	220	* We don't want certain flags to appear in b_flags unless they are
				221	* specifically set by later operations on the buffer.
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	222	*/
Dave Chinner	611c994	2012-04-23 15:59:07 +1000	[diff] [blame]	223	flags &= ~(XBF_UNMAPPED \| XBF_TRYLOCK \| XBF_ASYNC \| XBF_READ_AHEAD);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	224
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	225	atomic_set(&bp->b_hold, 1);
Dave Chinner	430cbeb	2010-12-02 16:30:55 +1100	[diff] [blame]	226	atomic_set(&bp->b_lru_ref, 1);
David Chinner	b4dd330	2008-08-13 16:36:11 +1000	[diff] [blame]	227	init_completion(&bp->b_iowait);
Dave Chinner	430cbeb	2010-12-02 16:30:55 +1100	[diff] [blame]	228	INIT_LIST_HEAD(&bp->b_lru);
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	229	INIT_LIST_HEAD(&bp->b_list);
Carlos Maiolino	643c8c0	2018-01-24 13:38:49 -0800	[diff] [blame]	230	INIT_LIST_HEAD(&bp->b_li_list);
Thomas Gleixner	a731cd11	2010-09-07 14:33:15 +0000	[diff] [blame]	231	sema_init(&bp->b_sema, 0); /* held, no waiters */
Dave Chinner	a408235	2013-08-28 10:18:06 +1000	[diff] [blame]	232	spin_lock_init(&bp->b_lock);
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	233	bp->b_target = target;
Christoph Hellwig	dbd329f1	2019-06-28 19:27:29 -0700	[diff] [blame]	234	bp->b_mount = target->bt_mount;
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	235	bp->b_flags = flags;
Dave Chinner	de1cbee	2012-04-23 15:58:50 +1000	[diff] [blame]	236
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	237	/*
Dave Chinner	aa0e883	2012-04-23 15:58:52 +1000	[diff] [blame]	238	* Set length and io_length to the same value initially.
				239	* I/O routines should use io_length, which will be the same in
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	240	* most cases but may be reset (e.g. XFS recovery).
				241	*/
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	242	error = xfs_buf_get_maps(bp, nmaps);
				243	if (error) {
Carlos Maiolino	377bcd5	2019-11-14 12:43:04 -0800	[diff] [blame]	244	kmem_cache_free(xfs_buf_zone, bp);
Darrick J. Wong	32dff5e	2020-01-23 17:01:15 -0800	[diff] [blame]	245	return error;
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	246	}
				247
				248	bp->b_bn = map[0].bm_bn;
				249	bp->b_length = 0;
				250	for (i = 0; i < nmaps; i++) {
				251	bp->b_maps[i].bm_bn = map[i].bm_bn;
				252	bp->b_maps[i].bm_len = map[i].bm_len;
				253	bp->b_length += map[i].bm_len;
				254	}
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	255
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	256	atomic_set(&bp->b_pin_count, 0);
				257	init_waitqueue_head(&bp->b_waiters);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	258
Christoph Hellwig	dbd329f1	2019-06-28 19:27:29 -0700	[diff] [blame]	259	XFS_STATS_INC(bp->b_mount, xb_create);
Christoph Hellwig	0b1b213	2009-12-14 23:14:59 +0000	[diff] [blame]	260	trace_xfs_buf_init(bp, _RET_IP_);
Christoph Hellwig	4347b9d	2011-10-10 16:52:48 +0000	[diff] [blame]	261
Darrick J. Wong	32dff5e	2020-01-23 17:01:15 -0800	[diff] [blame]	262	*bpp = bp;
				263	return 0;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	264	}
				265
				266	/*
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	267	* Allocate a page array capable of holding a specified number
				268	* of pages, and point the page buf at it.
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	269	*/
				270	STATIC int
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	271	_xfs_buf_get_pages(
				272	xfs_buf_t *bp,
Eric Sandeen	87937bf	2014-04-14 19:01:20 +1000	[diff] [blame]	273	int page_count)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	274	{
				275	/* Make sure that we have a page list */
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	276	if (bp->b_pages == NULL) {
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	277	bp->b_page_count = page_count;
				278	if (page_count <= XB_PAGES) {
				279	bp->b_pages = bp->b_page_array;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	280	} else {
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	281	bp->b_pages = kmem_alloc(sizeof(struct page )
Dave Chinner	aa5c158	2012-04-23 15:58:56 +1000	[diff] [blame]	282	page_count, KM_NOFS);
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	283	if (bp->b_pages == NULL)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	284	return -ENOMEM;
				285	}
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	286	memset(bp->b_pages, 0, sizeof(struct page ) page_count);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	287	}
				288	return 0;
				289	}
				290
				291	/*
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	292	* Frees b_pages if it was allocated.
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	293	*/
				294	STATIC void
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	295	_xfs_buf_free_pages(
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	296	xfs_buf_t *bp)
				297	{
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	298	if (bp->b_pages != bp->b_page_array) {
Denys Vlasenko	f0e2d93	2008-05-19 16:31:57 +1000	[diff] [blame]	299	kmem_free(bp->b_pages);
Dave Chinner	3fc98b1	2009-12-14 23:11:57 +0000	[diff] [blame]	300	bp->b_pages = NULL;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	301	}
				302	}
				303
				304	/*
				305	* Releases the specified buffer.
				306	*
				307	* The modification state of any associated pages is left unchanged.
Zhi Yong Wu	b46fe82	2013-08-07 10:10:59 +0000	[diff] [blame]	308	* The buffer must not be on any hash - use xfs_buf_rele instead for
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	309	* hashed and refcounted buffers
				310	*/
Christoph Hellwig	25a4095	2019-10-24 22:25:37 -0700	[diff] [blame]	311	static void
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	312	xfs_buf_free(
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	313	xfs_buf_t *bp)
				314	{
Christoph Hellwig	0b1b213	2009-12-14 23:14:59 +0000	[diff] [blame]	315	trace_xfs_buf_free(bp, _RET_IP_);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	316
Dave Chinner	430cbeb	2010-12-02 16:30:55 +1100	[diff] [blame]	317	ASSERT(list_empty(&bp->b_lru));
				318
Dave Chinner	0e6e847	2011-03-26 09:16:45 +1100	[diff] [blame]	319	if (bp->b_flags & _XBF_PAGES) {
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	320	uint i;
				321
James Bottomley	73c77e2	2010-01-25 11:42:24 -0600	[diff] [blame]	322	if (xfs_buf_is_vmapped(bp))
Alex Elder	8a262e5	2010-03-16 18:55:56 +0000	[diff] [blame]	323	vm_unmap_ram(bp->b_addr - bp->b_offset,
				324	bp->b_page_count);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	325
Nathan Scott	948ecdb	2006-09-28 11:03:13 +1000	[diff] [blame]	326	for (i = 0; i < bp->b_page_count; i++) {
				327	struct page *page = bp->b_pages[i];
				328
Dave Chinner	0e6e847	2011-03-26 09:16:45 +1100	[diff] [blame]	329	__free_page(page);
Nathan Scott	948ecdb	2006-09-28 11:03:13 +1000	[diff] [blame]	330	}
Dave Chinner	12eba65	2020-03-24 20:10:28 -0700	[diff] [blame]	331	if (current->reclaim_state)
				332	current->reclaim_state->reclaimed_slab +=
				333	bp->b_page_count;
Dave Chinner	0e6e847	2011-03-26 09:16:45 +1100	[diff] [blame]	334	} else if (bp->b_flags & _XBF_KMEM)
				335	kmem_free(bp->b_addr);
Dave Chinner	3fc98b1	2009-12-14 23:11:57 +0000	[diff] [blame]	336	_xfs_buf_free_pages(bp);
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	337	xfs_buf_free_maps(bp);
Carlos Maiolino	377bcd5	2019-11-14 12:43:04 -0800	[diff] [blame]	338	kmem_cache_free(xfs_buf_zone, bp);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	339	}
				340
				341	/*
Dave Chinner	0e6e847	2011-03-26 09:16:45 +1100	[diff] [blame]	342	* Allocates all the pages for buffer in question and builds it's page list.
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	343	*/
				344	STATIC int
Dave Chinner	0e6e847	2011-03-26 09:16:45 +1100	[diff] [blame]	345	xfs_buf_allocate_memory(
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	346	xfs_buf_t *bp,
				347	uint flags)
				348	{
Dave Chinner	aa0e883	2012-04-23 15:58:52 +1000	[diff] [blame]	349	size_t size;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	350	size_t nbytes, offset;
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	351	gfp_t gfp_mask = xb_to_gfp(flags);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	352	unsigned short page_count, i;
Dave Chinner	795cac7	2012-04-23 15:58:53 +1000	[diff] [blame]	353	xfs_off_t start, end;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	354	int error;
Bill O'Donnell	3219e8c	2019-10-04 16:38:44 -0700	[diff] [blame]	355	xfs_km_flags_t kmflag_mask = 0;
				356
				357	/*
				358	* assure zeroed buffer for non-read cases.
				359	*/
				360	if (!(flags & XBF_READ)) {
				361	kmflag_mask \|= KM_ZERO;
				362	gfp_mask \|= __GFP_ZERO;
				363	}
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	364
Dave Chinner	0e6e847	2011-03-26 09:16:45 +1100	[diff] [blame]	365	/*
				366	* for buffers that are contained within a single page, just allocate
				367	* the memory from the heap - there's no need for the complexity of
				368	* page arrays to keep allocation down to order 0.
				369	*/
Dave Chinner	795cac7	2012-04-23 15:58:53 +1000	[diff] [blame]	370	size = BBTOB(bp->b_length);
				371	if (size < PAGE_SIZE) {
Dave Chinner	f8f9ee4	2019-08-26 12:08:39 -0700	[diff] [blame]	372	int align_mask = xfs_buftarg_dma_alignment(bp->b_target);
Bill O'Donnell	3219e8c	2019-10-04 16:38:44 -0700	[diff] [blame]	373	bp->b_addr = kmem_alloc_io(size, align_mask,
				374	KM_NOFS \| kmflag_mask);
Dave Chinner	0e6e847	2011-03-26 09:16:45 +1100	[diff] [blame]	375	if (!bp->b_addr) {
				376	/* low memory - use alloc_page loop instead */
				377	goto use_alloc_page;
				378	}
				379
Dave Chinner	795cac7	2012-04-23 15:58:53 +1000	[diff] [blame]	380	if (((unsigned long)(bp->b_addr + size - 1) & PAGE_MASK) !=
Dave Chinner	0e6e847	2011-03-26 09:16:45 +1100	[diff] [blame]	381	((unsigned long)bp->b_addr & PAGE_MASK)) {
				382	/* b_addr spans two pages - use alloc_page instead */
				383	kmem_free(bp->b_addr);
				384	bp->b_addr = NULL;
				385	goto use_alloc_page;
				386	}
				387	bp->b_offset = offset_in_page(bp->b_addr);
				388	bp->b_pages = bp->b_page_array;
Dave Chinner	f8f9ee4	2019-08-26 12:08:39 -0700	[diff] [blame]	389	bp->b_pages[0] = kmem_to_page(bp->b_addr);
Dave Chinner	0e6e847	2011-03-26 09:16:45 +1100	[diff] [blame]	390	bp->b_page_count = 1;
Dave Chinner	611c994	2012-04-23 15:59:07 +1000	[diff] [blame]	391	bp->b_flags \|= _XBF_KMEM;
Dave Chinner	0e6e847	2011-03-26 09:16:45 +1100	[diff] [blame]	392	return 0;
				393	}
				394
				395	use_alloc_page:
Mark Tinguely	f4b4242	2012-12-04 17:18:02 -0600	[diff] [blame]	396	start = BBTOB(bp->b_maps[0].bm_bn) >> PAGE_SHIFT;
				397	end = (BBTOB(bp->b_maps[0].bm_bn + bp->b_length) + PAGE_SIZE - 1)
Dave Chinner	cbb7baa	2012-06-22 18:50:08 +1000	[diff] [blame]	398	>> PAGE_SHIFT;
Dave Chinner	795cac7	2012-04-23 15:58:53 +1000	[diff] [blame]	399	page_count = end - start;
Eric Sandeen	87937bf	2014-04-14 19:01:20 +1000	[diff] [blame]	400	error = _xfs_buf_get_pages(bp, page_count);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	401	if (unlikely(error))
				402	return error;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	403
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	404	offset = bp->b_offset;
Dave Chinner	0e6e847	2011-03-26 09:16:45 +1100	[diff] [blame]	405	bp->b_flags \|= _XBF_PAGES;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	406
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	407	for (i = 0; i < bp->b_page_count; i++) {
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	408	struct page *page;
				409	uint retries = 0;
Dave Chinner	0e6e847	2011-03-26 09:16:45 +1100	[diff] [blame]	410	retry:
				411	page = alloc_page(gfp_mask);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	412	if (unlikely(page == NULL)) {
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	413	if (flags & XBF_READ_AHEAD) {
				414	bp->b_page_count = i;
Dave Chinner	2451337	2014-06-25 14:58:08 +1000	[diff] [blame]	415	error = -ENOMEM;
Dave Chinner	0e6e847	2011-03-26 09:16:45 +1100	[diff] [blame]	416	goto out_free_pages;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	417	}
				418
				419	/*
				420	* This could deadlock.
				421	*
				422	* But until all the XFS lowlevel code is revamped to
				423	* handle buffer allocation failures we can't do much.
				424	*/
				425	if (!(++retries % 100))
Dave Chinner	4f10700	2011-03-07 10:00:35 +1100	[diff] [blame]	426	xfs_err(NULL,
Tetsuo Handa	5bf97b1	2015-10-12 15:41:29 +1100	[diff] [blame]	427	"%s(%u) possible memory allocation deadlock in %s (mode:0x%x)",
				428	current->comm, current->pid,
Harvey Harrison	34a622b	2008-04-10 12:19:21 +1000	[diff] [blame]	429	__func__, gfp_mask);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	430
Christoph Hellwig	dbd329f1	2019-06-28 19:27:29 -0700	[diff] [blame]	431	XFS_STATS_INC(bp->b_mount, xb_page_retries);
Jens Axboe	8aa7e84	2009-07-09 14:52:32 +0200	[diff] [blame]	432	congestion_wait(BLK_RW_ASYNC, HZ/50);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	433	goto retry;
				434	}
				435
Christoph Hellwig	dbd329f1	2019-06-28 19:27:29 -0700	[diff] [blame]	436	XFS_STATS_INC(bp->b_mount, xb_page_found);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	437
Dave Chinner	0e6e847	2011-03-26 09:16:45 +1100	[diff] [blame]	438	nbytes = min_t(size_t, size, PAGE_SIZE - offset);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	439	size -= nbytes;
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	440	bp->b_pages[i] = page;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	441	offset = 0;
				442	}
Dave Chinner	0e6e847	2011-03-26 09:16:45 +1100	[diff] [blame]	443	return 0;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	444
Dave Chinner	0e6e847	2011-03-26 09:16:45 +1100	[diff] [blame]	445	out_free_pages:
				446	for (i = 0; i < bp->b_page_count; i++)
				447	__free_page(bp->b_pages[i]);
Darrick J. Wong	2aa6ba7b	2017-01-25 20:24:57 -0800	[diff] [blame]	448	bp->b_flags &= ~_XBF_PAGES;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	449	return error;
				450	}
				451
				452	/*
Lucas De Marchi	25985ed	2011-03-30 22:57:33 -0300	[diff] [blame]	453	* Map buffer into kernel address-space if necessary.
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	454	*/
				455	STATIC int
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	456	_xfs_buf_map_pages(
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	457	xfs_buf_t *bp,
				458	uint flags)
				459	{
Dave Chinner	0e6e847	2011-03-26 09:16:45 +1100	[diff] [blame]	460	ASSERT(bp->b_flags & _XBF_PAGES);
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	461	if (bp->b_page_count == 1) {
Dave Chinner	0e6e847	2011-03-26 09:16:45 +1100	[diff] [blame]	462	/* A single page buffer is always mappable */
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	463	bp->b_addr = page_address(bp->b_pages[0]) + bp->b_offset;
Dave Chinner	611c994	2012-04-23 15:59:07 +1000	[diff] [blame]	464	} else if (flags & XBF_UNMAPPED) {
				465	bp->b_addr = NULL;
				466	} else {
Dave Chinner	a19fb38	2011-03-26 09:13:42 +1100	[diff] [blame]	467	int retried = 0;
Michal Hocko	9ba1fb2	2017-05-03 14:53:19 -0700	[diff] [blame]	468	unsigned nofs_flag;
Dave Chinner	a19fb38	2011-03-26 09:13:42 +1100	[diff] [blame]	469
Dave Chinner	ae687e5	2014-03-07 16:19:14 +1100	[diff] [blame]	470	/*
Joe Perches	cf085a1	2019-11-07 13:24:52 -0800	[diff] [blame]	471	* vm_map_ram() will allocate auxiliary structures (e.g.
Dave Chinner	ae687e5	2014-03-07 16:19:14 +1100	[diff] [blame]	472	* pagetables) with GFP_KERNEL, yet we are likely to be under
				473	* GFP_NOFS context here. Hence we need to tell memory reclaim
Michal Hocko	9ba1fb2	2017-05-03 14:53:19 -0700	[diff] [blame]	474	* that we are in such a context via PF_MEMALLOC_NOFS to prevent
Dave Chinner	ae687e5	2014-03-07 16:19:14 +1100	[diff] [blame]	475	* memory reclaim re-entering the filesystem here and
				476	* potentially deadlocking.
				477	*/
Michal Hocko	9ba1fb2	2017-05-03 14:53:19 -0700	[diff] [blame]	478	nofs_flag = memalloc_nofs_save();
Dave Chinner	a19fb38	2011-03-26 09:13:42 +1100	[diff] [blame]	479	do {
				480	bp->b_addr = vm_map_ram(bp->b_pages, bp->b_page_count,
Christoph Hellwig	d4efd79	2020-06-01 21:51:27 -0700	[diff] [blame]	481	-1);
Dave Chinner	a19fb38	2011-03-26 09:13:42 +1100	[diff] [blame]	482	if (bp->b_addr)
				483	break;
				484	vm_unmap_aliases();
				485	} while (retried++ <= 1);
Michal Hocko	9ba1fb2	2017-05-03 14:53:19 -0700	[diff] [blame]	486	memalloc_nofs_restore(nofs_flag);
Dave Chinner	a19fb38	2011-03-26 09:13:42 +1100	[diff] [blame]	487
				488	if (!bp->b_addr)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	489	return -ENOMEM;
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	490	bp->b_addr += bp->b_offset;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	491	}
				492
				493	return 0;
				494	}
				495
				496	/*
				497	* Finding and Reading Buffers
				498	*/
Lucas Stach	6031e73	2016-12-07 17:36:36 +1100	[diff] [blame]	499	static int
				500	_xfs_buf_obj_cmp(
				501	struct rhashtable_compare_arg *arg,
				502	const void *obj)
				503	{
				504	const struct xfs_buf_map *map = arg->key;
				505	const struct xfs_buf *bp = obj;
				506
				507	/*
				508	* The key hashing in the lookup path depends on the key being the
				509	* first element of the compare_arg, make sure to assert this.
				510	*/
				511	BUILD_BUG_ON(offsetof(struct xfs_buf_map, bm_bn) != 0);
				512
				513	if (bp->b_bn != map->bm_bn)
				514	return 1;
				515
				516	if (unlikely(bp->b_length != map->bm_len)) {
				517	/*
				518	* found a block number match. If the range doesn't
				519	* match, the only way this is allowed is if the buffer
				520	* in the cache is stale and the transaction that made
				521	* it stale has not yet committed. i.e. we are
				522	* reallocating a busy extent. Skip this buffer and
				523	* continue searching for an exact match.
				524	*/
				525	ASSERT(bp->b_flags & XBF_STALE);
				526	return 1;
				527	}
				528	return 0;
				529	}
				530
				531	static const struct rhashtable_params xfs_buf_hash_params = {
				532	.min_size = 32, /* empty AGs have minimal footprint */
				533	.nelem_hint = 16,
				534	.key_len = sizeof(xfs_daddr_t),
				535	.key_offset = offsetof(struct xfs_buf, b_bn),
				536	.head_offset = offsetof(struct xfs_buf, b_rhash_head),
				537	.automatic_shrinking = true,
				538	.obj_cmpfn = _xfs_buf_obj_cmp,
				539	};
				540
				541	int
				542	xfs_buf_hash_init(
				543	struct xfs_perag *pag)
				544	{
				545	spin_lock_init(&pag->pag_buf_lock);
				546	return rhashtable_init(&pag->pag_buf_hash, &xfs_buf_hash_params);
				547	}
				548
				549	void
				550	xfs_buf_hash_destroy(
				551	struct xfs_perag *pag)
				552	{
				553	rhashtable_destroy(&pag->pag_buf_hash);
				554	}
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	555
				556	/*
Dave Chinner	b027d4c	2018-04-18 08:25:21 -0700	[diff] [blame]	557	* Look up a buffer in the buffer cache and return it referenced and locked
				558	* in @found_bp.
				559	*
				560	* If @new_bp is supplied and we have a lookup miss, insert @new_bp into the
				561	* cache.
				562	*
				563	* If XBF_TRYLOCK is set in @flags, only try to lock the buffer and return
				564	* -EAGAIN if we fail to lock it.
				565	*
				566	* Return values are:
				567	* -EFSCORRUPTED if have been supplied with an invalid address
				568	* -EAGAIN on trylock failure
				569	* -ENOENT if we fail to find a match and @new_bp was NULL
				570	* 0, with @found_bp:
				571	* - @new_bp if we inserted it into the cache
				572	* - the buffer we found and locked.
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	573	*/
Dave Chinner	b027d4c	2018-04-18 08:25:21 -0700	[diff] [blame]	574	static int
				575	xfs_buf_find(
Dave Chinner	e70b73f	2012-04-23 15:58:49 +1000	[diff] [blame]	576	struct xfs_buftarg *btp,
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	577	struct xfs_buf_map *map,
				578	int nmaps,
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	579	xfs_buf_flags_t flags,
Dave Chinner	b027d4c	2018-04-18 08:25:21 -0700	[diff] [blame]	580	struct xfs_buf *new_bp,
				581	struct xfs_buf **found_bp)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	582	{
Dave Chinner	74f75a0	2010-09-24 19:59:04 +1000	[diff] [blame]	583	struct xfs_perag *pag;
Dave Chinner	74f75a0	2010-09-24 19:59:04 +1000	[diff] [blame]	584	xfs_buf_t *bp;
Lucas Stach	6031e73	2016-12-07 17:36:36 +1100	[diff] [blame]	585	struct xfs_buf_map cmap = { .bm_bn = map[0].bm_bn };
Dave Chinner	10616b8	2013-01-21 23:53:52 +1100	[diff] [blame]	586	xfs_daddr_t eofs;
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	587	int i;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	588
Dave Chinner	b027d4c	2018-04-18 08:25:21 -0700	[diff] [blame]	589	*found_bp = NULL;
				590
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	591	for (i = 0; i < nmaps; i++)
Lucas Stach	6031e73	2016-12-07 17:36:36 +1100	[diff] [blame]	592	cmap.bm_len += map[i].bm_len;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	593
				594	/* Check for IOs smaller than the sector size / not sector aligned */
Lucas Stach	6031e73	2016-12-07 17:36:36 +1100	[diff] [blame]	595	ASSERT(!(BBTOB(cmap.bm_len) < btp->bt_meta_sectorsize));
				596	ASSERT(!(BBTOB(cmap.bm_bn) & (xfs_off_t)btp->bt_meta_sectormask));
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	597
Dave Chinner	10616b8	2013-01-21 23:53:52 +1100	[diff] [blame]	598	/*
				599	* Corrupted block numbers can get through to here, unfortunately, so we
				600	* have to check that the buffer falls within the filesystem bounds.
				601	*/
				602	eofs = XFS_FSB_TO_BB(btp->bt_mount, btp->bt_mount->m_sb.sb_dblocks);
Lucas Stach	6031e73	2016-12-07 17:36:36 +1100	[diff] [blame]	603	if (cmap.bm_bn < 0 \|\| cmap.bm_bn >= eofs) {
Dave Chinner	10616b8	2013-01-21 23:53:52 +1100	[diff] [blame]	604	xfs_alert(btp->bt_mount,
Darrick J. Wong	c219b01	2018-01-08 11:39:18 -0800	[diff] [blame]	605	"%s: daddr 0x%llx out of range, EOFS 0x%llx",
Lucas Stach	6031e73	2016-12-07 17:36:36 +1100	[diff] [blame]	606	__func__, cmap.bm_bn, eofs);
Dave Chinner	7bc0dc2	2013-05-21 18:02:08 +1000	[diff] [blame]	607	WARN_ON(1);
Dave Chinner	b027d4c	2018-04-18 08:25:21 -0700	[diff] [blame]	608	return -EFSCORRUPTED;
Dave Chinner	10616b8	2013-01-21 23:53:52 +1100	[diff] [blame]	609	}
				610
Dave Chinner	74f75a0	2010-09-24 19:59:04 +1000	[diff] [blame]	611	pag = xfs_perag_get(btp->bt_mount,
Lucas Stach	6031e73	2016-12-07 17:36:36 +1100	[diff] [blame]	612	xfs_daddr_to_agno(btp->bt_mount, cmap.bm_bn));
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	613
Dave Chinner	74f75a0	2010-09-24 19:59:04 +1000	[diff] [blame]	614	spin_lock(&pag->pag_buf_lock);
Lucas Stach	6031e73	2016-12-07 17:36:36 +1100	[diff] [blame]	615	bp = rhashtable_lookup_fast(&pag->pag_buf_hash, &cmap,
				616	xfs_buf_hash_params);
				617	if (bp) {
				618	atomic_inc(&bp->b_hold);
				619	goto found;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	620	}
				621
				622	/* No match found */
Dave Chinner	b027d4c	2018-04-18 08:25:21 -0700	[diff] [blame]	623	if (!new_bp) {
Bill O'Donnell	ff6d6af	2015-10-12 18:21:22 +1100	[diff] [blame]	624	XFS_STATS_INC(btp->bt_mount, xb_miss_locked);
Dave Chinner	74f75a0	2010-09-24 19:59:04 +1000	[diff] [blame]	625	spin_unlock(&pag->pag_buf_lock);
				626	xfs_perag_put(pag);
Dave Chinner	b027d4c	2018-04-18 08:25:21 -0700	[diff] [blame]	627	return -ENOENT;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	628	}
Dave Chinner	b027d4c	2018-04-18 08:25:21 -0700	[diff] [blame]	629
				630	/* the buffer keeps the perag reference until it is freed */
				631	new_bp->b_pag = pag;
				632	rhashtable_insert_fast(&pag->pag_buf_hash, &new_bp->b_rhash_head,
				633	xfs_buf_hash_params);
				634	spin_unlock(&pag->pag_buf_lock);
				635	*found_bp = new_bp;
				636	return 0;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	637
				638	found:
Dave Chinner	74f75a0	2010-09-24 19:59:04 +1000	[diff] [blame]	639	spin_unlock(&pag->pag_buf_lock);
				640	xfs_perag_put(pag);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	641
Christoph Hellwig	0c842ad	2011-07-08 14:36:19 +0200	[diff] [blame]	642	if (!xfs_buf_trylock(bp)) {
				643	if (flags & XBF_TRYLOCK) {
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	644	xfs_buf_rele(bp);
Bill O'Donnell	ff6d6af	2015-10-12 18:21:22 +1100	[diff] [blame]	645	XFS_STATS_INC(btp->bt_mount, xb_busy_locked);
Dave Chinner	b027d4c	2018-04-18 08:25:21 -0700	[diff] [blame]	646	return -EAGAIN;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	647	}
Christoph Hellwig	0c842ad	2011-07-08 14:36:19 +0200	[diff] [blame]	648	xfs_buf_lock(bp);
Bill O'Donnell	ff6d6af	2015-10-12 18:21:22 +1100	[diff] [blame]	649	XFS_STATS_INC(btp->bt_mount, xb_get_locked_waited);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	650	}
				651
Dave Chinner	0e6e847	2011-03-26 09:16:45 +1100	[diff] [blame]	652	/*
				653	* if the buffer is stale, clear all the external state associated with
				654	* it. We need to keep flags such as how we allocated the buffer memory
				655	* intact here.
				656	*/
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	657	if (bp->b_flags & XBF_STALE) {
				658	ASSERT((bp->b_flags & _XBF_DELWRI_Q) == 0);
Dave Chinner	611c994	2012-04-23 15:59:07 +1000	[diff] [blame]	659	bp->b_flags &= _XBF_KMEM \| _XBF_PAGES;
Dave Chinner	1813dd6	2012-11-14 17:54:40 +1100	[diff] [blame]	660	bp->b_ops = NULL;
David Chinner	2f92658	2005-09-05 08:33:35 +1000	[diff] [blame]	661	}
Christoph Hellwig	0b1b213	2009-12-14 23:14:59 +0000	[diff] [blame]	662
				663	trace_xfs_buf_find(bp, flags, _RET_IP_);
Bill O'Donnell	ff6d6af	2015-10-12 18:21:22 +1100	[diff] [blame]	664	XFS_STATS_INC(btp->bt_mount, xb_get_locked);
Dave Chinner	b027d4c	2018-04-18 08:25:21 -0700	[diff] [blame]	665	*found_bp = bp;
				666	return 0;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	667	}
				668
Dave Chinner	8925a3d	2018-04-18 08:25:20 -0700	[diff] [blame]	669	struct xfs_buf *
				670	xfs_buf_incore(
				671	struct xfs_buftarg *target,
				672	xfs_daddr_t blkno,
				673	size_t numblks,
				674	xfs_buf_flags_t flags)
				675	{
Dave Chinner	b027d4c	2018-04-18 08:25:21 -0700	[diff] [blame]	676	struct xfs_buf *bp;
				677	int error;
Dave Chinner	8925a3d	2018-04-18 08:25:20 -0700	[diff] [blame]	678	DEFINE_SINGLE_BUF_MAP(map, blkno, numblks);
Dave Chinner	b027d4c	2018-04-18 08:25:21 -0700	[diff] [blame]	679
				680	error = xfs_buf_find(target, &map, 1, flags, NULL, &bp);
				681	if (error)
				682	return NULL;
				683	return bp;
Dave Chinner	8925a3d	2018-04-18 08:25:20 -0700	[diff] [blame]	684	}
				685
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	686	/*
Dave Chinner	3815832	2011-09-30 04:45:02 +0000	[diff] [blame]	687	* Assembles a buffer covering the specified range. The code is optimised for
				688	* cache hits, as metadata intensive workloads will see 3 orders of magnitude
				689	* more hits than misses.
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	690	*/
Darrick J. Wong	3848b5f	2020-01-23 17:01:15 -0800	[diff] [blame]	691	int
Dave Chinner	6dde270	2012-06-22 18:50:10 +1000	[diff] [blame]	692	xfs_buf_get_map(
				693	struct xfs_buftarg *target,
				694	struct xfs_buf_map *map,
				695	int nmaps,
Darrick J. Wong	3848b5f	2020-01-23 17:01:15 -0800	[diff] [blame]	696	xfs_buf_flags_t flags,
				697	struct xfs_buf **bpp)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	698	{
Dave Chinner	3815832	2011-09-30 04:45:02 +0000	[diff] [blame]	699	struct xfs_buf *bp;
				700	struct xfs_buf *new_bp;
Dave Chinner	0e6e847	2011-03-26 09:16:45 +1100	[diff] [blame]	701	int error = 0;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	702
Darrick J. Wong	3848b5f	2020-01-23 17:01:15 -0800	[diff] [blame]	703	*bpp = NULL;
Dave Chinner	b027d4c	2018-04-18 08:25:21 -0700	[diff] [blame]	704	error = xfs_buf_find(target, map, nmaps, flags, NULL, &bp);
Darrick J. Wong	3848b5f	2020-01-23 17:01:15 -0800	[diff] [blame]	705	if (!error)
Dave Chinner	3815832	2011-09-30 04:45:02 +0000	[diff] [blame]	706	goto found;
Darrick J. Wong	3848b5f	2020-01-23 17:01:15 -0800	[diff] [blame]	707	if (error != -ENOENT)
				708	return error;
Dave Chinner	3815832	2011-09-30 04:45:02 +0000	[diff] [blame]	709
Darrick J. Wong	32dff5e	2020-01-23 17:01:15 -0800	[diff] [blame]	710	error = _xfs_buf_alloc(target, map, nmaps, flags, &new_bp);
				711	if (error)
Darrick J. Wong	3848b5f	2020-01-23 17:01:15 -0800	[diff] [blame]	712	return error;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	713
Dave Chinner	fe2429b	2012-04-23 15:58:45 +1000	[diff] [blame]	714	error = xfs_buf_allocate_memory(new_bp, flags);
				715	if (error) {
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	716	xfs_buf_free(new_bp);
Darrick J. Wong	3848b5f	2020-01-23 17:01:15 -0800	[diff] [blame]	717	return error;
Dave Chinner	3815832	2011-09-30 04:45:02 +0000	[diff] [blame]	718	}
				719
Dave Chinner	b027d4c	2018-04-18 08:25:21 -0700	[diff] [blame]	720	error = xfs_buf_find(target, map, nmaps, flags, new_bp, &bp);
				721	if (error) {
Dave Chinner	fe2429b	2012-04-23 15:58:45 +1000	[diff] [blame]	722	xfs_buf_free(new_bp);
Darrick J. Wong	3848b5f	2020-01-23 17:01:15 -0800	[diff] [blame]	723	return error;
Dave Chinner	fe2429b	2012-04-23 15:58:45 +1000	[diff] [blame]	724	}
				725
				726	if (bp != new_bp)
				727	xfs_buf_free(new_bp);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	728
Dave Chinner	3815832	2011-09-30 04:45:02 +0000	[diff] [blame]	729	found:
Dave Chinner	611c994	2012-04-23 15:59:07 +1000	[diff] [blame]	730	if (!bp->b_addr) {
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	731	error = _xfs_buf_map_pages(bp, flags);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	732	if (unlikely(error)) {
Darrick J. Wong	93baa55	2020-02-21 07:40:44 -0800	[diff] [blame]	733	xfs_warn_ratelimited(target->bt_mount,
				734	"%s: failed to map %u pages", __func__,
				735	bp->b_page_count);
Dave Chinner	a8acad7	2012-04-23 15:58:54 +1000	[diff] [blame]	736	xfs_buf_relse(bp);
Darrick J. Wong	3848b5f	2020-01-23 17:01:15 -0800	[diff] [blame]	737	return error;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	738	}
				739	}
				740
Dave Chinner	b79f4a1	2016-01-12 07:03:44 +1100	[diff] [blame]	741	/*
				742	* Clear b_error if this is a lookup from a caller that doesn't expect
				743	* valid data to be found in the buffer.
				744	*/
				745	if (!(flags & XBF_READ))
				746	xfs_buf_ioerror(bp, 0);
				747
Bill O'Donnell	ff6d6af	2015-10-12 18:21:22 +1100	[diff] [blame]	748	XFS_STATS_INC(target->bt_mount, xb_get);
Christoph Hellwig	0b1b213	2009-12-14 23:14:59 +0000	[diff] [blame]	749	trace_xfs_buf_get(bp, flags, _RET_IP_);
Darrick J. Wong	3848b5f	2020-01-23 17:01:15 -0800	[diff] [blame]	750	*bpp = bp;
				751	return 0;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	752	}
				753
Christoph Hellwig	5d765b9	2008-12-03 12:20:26 +0100	[diff] [blame]	754	STATIC int
				755	_xfs_buf_read(
				756	xfs_buf_t *bp,
				757	xfs_buf_flags_t flags)
				758	{
Christoph Hellwig	43ff212	2012-04-23 15:58:39 +1000	[diff] [blame]	759	ASSERT(!(flags & XBF_WRITE));
Mark Tinguely	f4b4242	2012-12-04 17:18:02 -0600	[diff] [blame]	760	ASSERT(bp->b_maps[0].bm_bn != XFS_BUF_DADDR_NULL);
Christoph Hellwig	5d765b9	2008-12-03 12:20:26 +0100	[diff] [blame]	761
Christoph Hellwig	43ff212	2012-04-23 15:58:39 +1000	[diff] [blame]	762	bp->b_flags &= ~(XBF_WRITE \| XBF_ASYNC \| XBF_READ_AHEAD);
Christoph Hellwig	1d5ae5d	2011-07-08 14:36:32 +0200	[diff] [blame]	763	bp->b_flags \|= flags & (XBF_READ \| XBF_ASYNC \| XBF_READ_AHEAD);
Christoph Hellwig	5d765b9	2008-12-03 12:20:26 +0100	[diff] [blame]	764
Brian Foster	6af88cd	2018-07-11 22:26:35 -0700	[diff] [blame]	765	return xfs_buf_submit(bp);
Christoph Hellwig	5d765b9	2008-12-03 12:20:26 +0100	[diff] [blame]	766	}
				767
Darrick J. Wong	1aff569	2018-10-18 17:20:30 +1100	[diff] [blame]	768	/*
Brian Foster	75d0230	2019-02-06 09:25:29 -0800	[diff] [blame]	769	* Reverify a buffer found in cache without an attached ->b_ops.
Darrick J. Wong	add46b3	2019-02-03 14:03:59 -0800	[diff] [blame]	770	*
Brian Foster	75d0230	2019-02-06 09:25:29 -0800	[diff] [blame]	771	* If the caller passed an ops structure and the buffer doesn't have ops
				772	* assigned, set the ops and use it to verify the contents. If verification
				773	* fails, clear XBF_DONE. We assume the buffer has no recorded errors and is
				774	* already in XBF_DONE state on entry.
Darrick J. Wong	add46b3	2019-02-03 14:03:59 -0800	[diff] [blame]	775	*
Brian Foster	75d0230	2019-02-06 09:25:29 -0800	[diff] [blame]	776	* Under normal operations, every in-core buffer is verified on read I/O
				777	* completion. There are two scenarios that can lead to in-core buffers without
				778	* an assigned ->b_ops. The first is during log recovery of buffers on a V4
				779	* filesystem, though these buffers are purged at the end of recovery. The
				780	* other is online repair, which intentionally reads with a NULL buffer ops to
				781	* run several verifiers across an in-core buffer in order to establish buffer
				782	* type. If repair can't establish that, the buffer will be left in memory
				783	* with NULL buffer ops.
Darrick J. Wong	1aff569	2018-10-18 17:20:30 +1100	[diff] [blame]	784	*/
				785	int
Brian Foster	75d0230	2019-02-06 09:25:29 -0800	[diff] [blame]	786	xfs_buf_reverify(
Darrick J. Wong	1aff569	2018-10-18 17:20:30 +1100	[diff] [blame]	787	struct xfs_buf *bp,
				788	const struct xfs_buf_ops *ops)
				789	{
				790	ASSERT(bp->b_flags & XBF_DONE);
				791	ASSERT(bp->b_error == 0);
				792
				793	if (!ops \|\| bp->b_ops)
				794	return 0;
				795
				796	bp->b_ops = ops;
				797	bp->b_ops->verify_read(bp);
				798	if (bp->b_error)
				799	bp->b_flags &= ~XBF_DONE;
				800	return bp->b_error;
				801	}
				802
Darrick J. Wong	4ed8e27	2020-01-23 17:01:16 -0800	[diff] [blame]	803	int
Dave Chinner	6dde270	2012-06-22 18:50:10 +1000	[diff] [blame]	804	xfs_buf_read_map(
				805	struct xfs_buftarg *target,
				806	struct xfs_buf_map *map,
				807	int nmaps,
Dave Chinner	c3f8fc7	2012-11-12 22:54:01 +1100	[diff] [blame]	808	xfs_buf_flags_t flags,
Darrick J. Wong	4ed8e27	2020-01-23 17:01:16 -0800	[diff] [blame]	809	struct xfs_buf **bpp,
Darrick J. Wong	cdbcf82	2020-01-23 17:01:20 -0800	[diff] [blame]	810	const struct xfs_buf_ops *ops,
				811	xfs_failaddr_t fa)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	812	{
Dave Chinner	6dde270	2012-06-22 18:50:10 +1000	[diff] [blame]	813	struct xfs_buf *bp;
Darrick J. Wong	3848b5f	2020-01-23 17:01:15 -0800	[diff] [blame]	814	int error;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	815
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	816	flags \|= XBF_READ;
Darrick J. Wong	4ed8e27	2020-01-23 17:01:16 -0800	[diff] [blame]	817	*bpp = NULL;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	818
Darrick J. Wong	3848b5f	2020-01-23 17:01:15 -0800	[diff] [blame]	819	error = xfs_buf_get_map(target, map, nmaps, flags, &bp);
				820	if (error)
Darrick J. Wong	4ed8e27	2020-01-23 17:01:16 -0800	[diff] [blame]	821	return error;
Christoph Hellwig	0b1b213	2009-12-14 23:14:59 +0000	[diff] [blame]	822
Darrick J. Wong	1aff569	2018-10-18 17:20:30 +1100	[diff] [blame]	823	trace_xfs_buf_read(bp, flags, _RET_IP_);
				824
				825	if (!(bp->b_flags & XBF_DONE)) {
Darrick J. Wong	4ed8e27	2020-01-23 17:01:16 -0800	[diff] [blame]	826	/* Initiate the buffer read and wait. */
Darrick J. Wong	1aff569	2018-10-18 17:20:30 +1100	[diff] [blame]	827	XFS_STATS_INC(target->bt_mount, xb_get_read);
				828	bp->b_ops = ops;
Darrick J. Wong	4ed8e27	2020-01-23 17:01:16 -0800	[diff] [blame]	829	error = _xfs_buf_read(bp, flags);
				830
				831	/* Readahead iodone already dropped the buffer, so exit. */
				832	if (flags & XBF_ASYNC)
				833	return 0;
				834	} else {
				835	/* Buffer already read; all we need to do is check it. */
				836	error = xfs_buf_reverify(bp, ops);
				837
				838	/* Readahead already finished; drop the buffer and exit. */
				839	if (flags & XBF_ASYNC) {
				840	xfs_buf_relse(bp);
				841	return 0;
				842	}
				843
				844	/* We do not want read in the flags */
				845	bp->b_flags &= ~XBF_READ;
				846	ASSERT(bp->b_ops != NULL \|\| ops == NULL);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	847	}
				848
Darrick J. Wong	4ed8e27	2020-01-23 17:01:16 -0800	[diff] [blame]	849	/*
				850	* If we've had a read error, then the contents of the buffer are
				851	* invalid and should not be used. To ensure that a followup read tries
				852	* to pull the buffer from disk again, we clear the XBF_DONE flag and
				853	* mark the buffer stale. This ensures that anyone who has a current
				854	* reference to the buffer will interpret it's contents correctly and
				855	* future cache lookups will also treat it as an empty, uninitialised
				856	* buffer.
				857	*/
				858	if (error) {
				859	if (!XFS_FORCED_SHUTDOWN(target->bt_mount))
Darrick J. Wong	cdbcf82	2020-01-23 17:01:20 -0800	[diff] [blame]	860	xfs_buf_ioerror_alert(bp, fa);
Darrick J. Wong	1aff569	2018-10-18 17:20:30 +1100	[diff] [blame]	861
Darrick J. Wong	4ed8e27	2020-01-23 17:01:16 -0800	[diff] [blame]	862	bp->b_flags &= ~XBF_DONE;
				863	xfs_buf_stale(bp);
Darrick J. Wong	1aff569	2018-10-18 17:20:30 +1100	[diff] [blame]	864	xfs_buf_relse(bp);
Darrick J. Wong	4ed8e27	2020-01-23 17:01:16 -0800	[diff] [blame]	865
				866	/* bad CRC means corrupted metadata */
				867	if (error == -EFSBADCRC)
				868	error = -EFSCORRUPTED;
				869	return error;
Darrick J. Wong	1aff569	2018-10-18 17:20:30 +1100	[diff] [blame]	870	}
				871
Darrick J. Wong	4ed8e27	2020-01-23 17:01:16 -0800	[diff] [blame]	872	*bpp = bp;
				873	return 0;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	874	}
				875
				876	/*
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	877	* If we are not low on memory then do the readahead in a deadlock
				878	* safe manner.
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	879	*/
				880	void
Dave Chinner	6dde270	2012-06-22 18:50:10 +1000	[diff] [blame]	881	xfs_buf_readahead_map(
				882	struct xfs_buftarg *target,
				883	struct xfs_buf_map *map,
Dave Chinner	c3f8fc7	2012-11-12 22:54:01 +1100	[diff] [blame]	884	int nmaps,
Dave Chinner	1813dd6	2012-11-14 17:54:40 +1100	[diff] [blame]	885	const struct xfs_buf_ops *ops)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	886	{
Darrick J. Wong	4ed8e27	2020-01-23 17:01:16 -0800	[diff] [blame]	887	struct xfs_buf *bp;
				888
Jan Kara	efa7c9f	2017-02-02 15:56:53 +0100	[diff] [blame]	889	if (bdi_read_congested(target->bt_bdev->bd_bdi))
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	890	return;
				891
Dave Chinner	6dde270	2012-06-22 18:50:10 +1000	[diff] [blame]	892	xfs_buf_read_map(target, map, nmaps,
Darrick J. Wong	cdbcf82	2020-01-23 17:01:20 -0800	[diff] [blame]	893	XBF_TRYLOCK \| XBF_ASYNC \| XBF_READ_AHEAD, &bp, ops,
				894	__this_address);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	895	}
				896
Dave Chinner	5adc94c	2010-09-24 21:58:31 +1000	[diff] [blame]	897	/*
				898	* Read an uncached buffer from disk. Allocates and returns a locked
				899	* buffer containing the disk contents or nothing.
				900	*/
Dave Chinner	ba372674	2014-10-02 09:05:32 +1000	[diff] [blame]	901	int
Dave Chinner	5adc94c	2010-09-24 21:58:31 +1000	[diff] [blame]	902	xfs_buf_read_uncached(
Dave Chinner	5adc94c	2010-09-24 21:58:31 +1000	[diff] [blame]	903	struct xfs_buftarg *target,
				904	xfs_daddr_t daddr,
Dave Chinner	e70b73f	2012-04-23 15:58:49 +1000	[diff] [blame]	905	size_t numblks,
Dave Chinner	c3f8fc7	2012-11-12 22:54:01 +1100	[diff] [blame]	906	int flags,
Dave Chinner	ba372674	2014-10-02 09:05:32 +1000	[diff] [blame]	907	struct xfs_buf **bpp,
Dave Chinner	1813dd6	2012-11-14 17:54:40 +1100	[diff] [blame]	908	const struct xfs_buf_ops *ops)
Dave Chinner	5adc94c	2010-09-24 21:58:31 +1000	[diff] [blame]	909	{
Dave Chinner	eab4e63	2012-11-12 22:54:02 +1100	[diff] [blame]	910	struct xfs_buf *bp;
Darrick J. Wong	2842b6d	2020-01-23 17:01:17 -0800	[diff] [blame]	911	int error;
Dave Chinner	5adc94c	2010-09-24 21:58:31 +1000	[diff] [blame]	912
Dave Chinner	ba372674	2014-10-02 09:05:32 +1000	[diff] [blame]	913	*bpp = NULL;
				914
Darrick J. Wong	2842b6d	2020-01-23 17:01:17 -0800	[diff] [blame]	915	error = xfs_buf_get_uncached(target, numblks, flags, &bp);
				916	if (error)
				917	return error;
Dave Chinner	5adc94c	2010-09-24 21:58:31 +1000	[diff] [blame]	918
				919	/* set up the buffer for a read IO */
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	920	ASSERT(bp->b_map_count == 1);
Dave Chinner	ba372674	2014-10-02 09:05:32 +1000	[diff] [blame]	921	bp->b_bn = XFS_BUF_DADDR_NULL; /* always null for uncached buffers */
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	922	bp->b_maps[0].bm_bn = daddr;
Dave Chinner	cbb7baa	2012-06-22 18:50:08 +1000	[diff] [blame]	923	bp->b_flags \|= XBF_READ;
Dave Chinner	1813dd6	2012-11-14 17:54:40 +1100	[diff] [blame]	924	bp->b_ops = ops;
Dave Chinner	5adc94c	2010-09-24 21:58:31 +1000	[diff] [blame]	925
Brian Foster	6af88cd	2018-07-11 22:26:35 -0700	[diff] [blame]	926	xfs_buf_submit(bp);
Dave Chinner	ba372674	2014-10-02 09:05:32 +1000	[diff] [blame]	927	if (bp->b_error) {
Darrick J. Wong	2842b6d	2020-01-23 17:01:17 -0800	[diff] [blame]	928	error = bp->b_error;
Christoph Hellwig	83a0adc	2013-12-17 00:03:52 -0800	[diff] [blame]	929	xfs_buf_relse(bp);
Dave Chinner	ba372674	2014-10-02 09:05:32 +1000	[diff] [blame]	930	return error;
Christoph Hellwig	83a0adc	2013-12-17 00:03:52 -0800	[diff] [blame]	931	}
Dave Chinner	ba372674	2014-10-02 09:05:32 +1000	[diff] [blame]	932
				933	*bpp = bp;
				934	return 0;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	935	}
				936
Darrick J. Wong	2842b6d	2020-01-23 17:01:17 -0800	[diff] [blame]	937	int
Dave Chinner	686865f	2010-09-24 20:07:47 +1000	[diff] [blame]	938	xfs_buf_get_uncached(
				939	struct xfs_buftarg *target,
Dave Chinner	e70b73f	2012-04-23 15:58:49 +1000	[diff] [blame]	940	size_t numblks,
Darrick J. Wong	2842b6d	2020-01-23 17:01:17 -0800	[diff] [blame]	941	int flags,
				942	struct xfs_buf **bpp)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	943	{
Dave Chinner	e70b73f	2012-04-23 15:58:49 +1000	[diff] [blame]	944	unsigned long page_count;
Christoph Hellwig	1fa40b0	2007-05-14 18:23:50 +1000	[diff] [blame]	945	int error, i;
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	946	struct xfs_buf *bp;
				947	DEFINE_SINGLE_BUF_MAP(map, XFS_BUF_DADDR_NULL, numblks);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	948
Darrick J. Wong	2842b6d	2020-01-23 17:01:17 -0800	[diff] [blame]	949	*bpp = NULL;
				950
Brian Foster	c891c30	2016-07-20 11:13:43 +1000	[diff] [blame]	951	/* flags might contain irrelevant bits, pass only what we care about */
Darrick J. Wong	32dff5e	2020-01-23 17:01:15 -0800	[diff] [blame]	952	error = _xfs_buf_alloc(target, &map, 1, flags & XBF_NO_IOACCT, &bp);
				953	if (error)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	954	goto fail;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	955
Dave Chinner	e70b73f	2012-04-23 15:58:49 +1000	[diff] [blame]	956	page_count = PAGE_ALIGN(numblks << BBSHIFT) >> PAGE_SHIFT;
Eric Sandeen	87937bf	2014-04-14 19:01:20 +1000	[diff] [blame]	957	error = _xfs_buf_get_pages(bp, page_count);
Christoph Hellwig	1fa40b0	2007-05-14 18:23:50 +1000	[diff] [blame]	958	if (error)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	959	goto fail_free_buf;
				960
Christoph Hellwig	1fa40b0	2007-05-14 18:23:50 +1000	[diff] [blame]	961	for (i = 0; i < page_count; i++) {
Dave Chinner	686865f	2010-09-24 20:07:47 +1000	[diff] [blame]	962	bp->b_pages[i] = alloc_page(xb_to_gfp(flags));
Darrick J. Wong	2842b6d	2020-01-23 17:01:17 -0800	[diff] [blame]	963	if (!bp->b_pages[i]) {
				964	error = -ENOMEM;
Christoph Hellwig	1fa40b0	2007-05-14 18:23:50 +1000	[diff] [blame]	965	goto fail_free_mem;
Darrick J. Wong	2842b6d	2020-01-23 17:01:17 -0800	[diff] [blame]	966	}
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	967	}
Christoph Hellwig	1fa40b0	2007-05-14 18:23:50 +1000	[diff] [blame]	968	bp->b_flags \|= _XBF_PAGES;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	969
Dave Chinner	611c994	2012-04-23 15:59:07 +1000	[diff] [blame]	970	error = _xfs_buf_map_pages(bp, 0);
Christoph Hellwig	1fa40b0	2007-05-14 18:23:50 +1000	[diff] [blame]	971	if (unlikely(error)) {
Dave Chinner	4f10700	2011-03-07 10:00:35 +1100	[diff] [blame]	972	xfs_warn(target->bt_mount,
Eric Sandeen	08e96e1	2013-10-11 20:59:05 -0500	[diff] [blame]	973	"%s: failed to map pages", __func__);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	974	goto fail_free_mem;
Christoph Hellwig	1fa40b0	2007-05-14 18:23:50 +1000	[diff] [blame]	975	}
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	976
Dave Chinner	686865f	2010-09-24 20:07:47 +1000	[diff] [blame]	977	trace_xfs_buf_get_uncached(bp, _RET_IP_);
Darrick J. Wong	2842b6d	2020-01-23 17:01:17 -0800	[diff] [blame]	978	*bpp = bp;
				979	return 0;
Christoph Hellwig	1fa40b0	2007-05-14 18:23:50 +1000	[diff] [blame]	980
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	981	fail_free_mem:
Christoph Hellwig	1fa40b0	2007-05-14 18:23:50 +1000	[diff] [blame]	982	while (--i >= 0)
				983	__free_page(bp->b_pages[i]);
Christoph Hellwig	ca165b8	2007-05-24 15:21:11 +1000	[diff] [blame]	984	_xfs_buf_free_pages(bp);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	985	fail_free_buf:
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	986	xfs_buf_free_maps(bp);
Carlos Maiolino	377bcd5	2019-11-14 12:43:04 -0800	[diff] [blame]	987	kmem_cache_free(xfs_buf_zone, bp);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	988	fail:
Darrick J. Wong	2842b6d	2020-01-23 17:01:17 -0800	[diff] [blame]	989	return error;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	990	}
				991
				992	/*
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	993	* Increment reference count on buffer, to hold the buffer concurrently
				994	* with another thread which may release (free) the buffer asynchronously.
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	995	* Must hold the buffer already to call this function.
				996	*/
				997	void
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	998	xfs_buf_hold(
				999	xfs_buf_t *bp)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1000	{
Christoph Hellwig	0b1b213	2009-12-14 23:14:59 +0000	[diff] [blame]	1001	trace_xfs_buf_hold(bp, _RET_IP_);
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	1002	atomic_inc(&bp->b_hold);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1003	}
				1004
				1005	/*
Brian Foster	9c7504a	2016-07-20 11:15:28 +1000	[diff] [blame]	1006	* Release a hold on the specified buffer. If the hold count is 1, the buffer is
				1007	* placed on LRU or freed (depending on b_lru_ref).
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1008	*/
				1009	void
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	1010	xfs_buf_rele(
				1011	xfs_buf_t *bp)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1012	{
Dave Chinner	74f75a0	2010-09-24 19:59:04 +1000	[diff] [blame]	1013	struct xfs_perag *pag = bp->b_pag;
Brian Foster	9c7504a	2016-07-20 11:15:28 +1000	[diff] [blame]	1014	bool release;
				1015	bool freebuf = false;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1016
Christoph Hellwig	0b1b213	2009-12-14 23:14:59 +0000	[diff] [blame]	1017	trace_xfs_buf_rele(bp, _RET_IP_);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1018
Dave Chinner	74f75a0	2010-09-24 19:59:04 +1000	[diff] [blame]	1019	if (!pag) {
Dave Chinner	430cbeb	2010-12-02 16:30:55 +1100	[diff] [blame]	1020	ASSERT(list_empty(&bp->b_lru));
Brian Foster	9c7504a	2016-07-20 11:15:28 +1000	[diff] [blame]	1021	if (atomic_dec_and_test(&bp->b_hold)) {
				1022	xfs_buf_ioacct_dec(bp);
Nathan Scott	fad3aa1	2006-02-01 12:14:52 +1100	[diff] [blame]	1023	xfs_buf_free(bp);
Brian Foster	9c7504a	2016-07-20 11:15:28 +1000	[diff] [blame]	1024	}
Nathan Scott	fad3aa1	2006-02-01 12:14:52 +1100	[diff] [blame]	1025	return;
				1026	}
				1027
Lachlan McIlroy	3790689	2008-08-13 15:42:10 +1000	[diff] [blame]	1028	ASSERT(atomic_read(&bp->b_hold) > 0);
Dave Chinner	a408235	2013-08-28 10:18:06 +1000	[diff] [blame]	1029
Dave Chinner	37fd167	2018-10-18 17:21:29 +1100	[diff] [blame]	1030	/*
				1031	* We grab the b_lock here first to serialise racing xfs_buf_rele()
				1032	* calls. The pag_buf_lock being taken on the last reference only
				1033	* serialises against racing lookups in xfs_buf_find(). IOWs, the second
				1034	* to last reference we drop here is not serialised against the last
				1035	* reference until we take bp->b_lock. Hence if we don't grab b_lock
				1036	* first, the last "release" reference can win the race to the lock and
				1037	* free the buffer before the second-to-last reference is processed,
				1038	* leading to a use-after-free scenario.
				1039	*/
Brian Foster	9c7504a	2016-07-20 11:15:28 +1000	[diff] [blame]	1040	spin_lock(&bp->b_lock);
Dave Chinner	37fd167	2018-10-18 17:21:29 +1100	[diff] [blame]	1041	release = atomic_dec_and_lock(&bp->b_hold, &pag->pag_buf_lock);
Brian Foster	9c7504a	2016-07-20 11:15:28 +1000	[diff] [blame]	1042	if (!release) {
				1043	/*
				1044	* Drop the in-flight state if the buffer is already on the LRU
				1045	* and it holds the only reference. This is racy because we
				1046	* haven't acquired the pag lock, but the use of _XBF_IN_FLIGHT
				1047	* ensures the decrement occurs only once per-buf.
				1048	*/
				1049	if ((atomic_read(&bp->b_hold) == 1) && !list_empty(&bp->b_lru))
Brian Foster	63db7c8	2017-05-31 08:22:52 -0700	[diff] [blame]	1050	__xfs_buf_ioacct_dec(bp);
Brian Foster	9c7504a	2016-07-20 11:15:28 +1000	[diff] [blame]	1051	goto out_unlock;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1052	}
Brian Foster	9c7504a	2016-07-20 11:15:28 +1000	[diff] [blame]	1053
				1054	/* the last reference has been dropped ... */
Brian Foster	63db7c8	2017-05-31 08:22:52 -0700	[diff] [blame]	1055	__xfs_buf_ioacct_dec(bp);
Brian Foster	9c7504a	2016-07-20 11:15:28 +1000	[diff] [blame]	1056	if (!(bp->b_flags & XBF_STALE) && atomic_read(&bp->b_lru_ref)) {
				1057	/*
				1058	* If the buffer is added to the LRU take a new reference to the
				1059	* buffer for the LRU and clear the (now stale) dispose list
				1060	* state flag
				1061	*/
				1062	if (list_lru_add(&bp->b_target->bt_lru, &bp->b_lru)) {
				1063	bp->b_state &= ~XFS_BSTATE_DISPOSE;
				1064	atomic_inc(&bp->b_hold);
				1065	}
				1066	spin_unlock(&pag->pag_buf_lock);
				1067	} else {
				1068	/*
				1069	* most of the time buffers will already be removed from the
				1070	* LRU, so optimise that case by checking for the
				1071	* XFS_BSTATE_DISPOSE flag indicating the last list the buffer
				1072	* was on was the disposal list
				1073	*/
				1074	if (!(bp->b_state & XFS_BSTATE_DISPOSE)) {
				1075	list_lru_del(&bp->b_target->bt_lru, &bp->b_lru);
				1076	} else {
				1077	ASSERT(list_empty(&bp->b_lru));
				1078	}
				1079
				1080	ASSERT(!(bp->b_flags & _XBF_DELWRI_Q));
Lucas Stach	6031e73	2016-12-07 17:36:36 +1100	[diff] [blame]	1081	rhashtable_remove_fast(&pag->pag_buf_hash, &bp->b_rhash_head,
				1082	xfs_buf_hash_params);
Brian Foster	9c7504a	2016-07-20 11:15:28 +1000	[diff] [blame]	1083	spin_unlock(&pag->pag_buf_lock);
				1084	xfs_perag_put(pag);
				1085	freebuf = true;
				1086	}
				1087
				1088	out_unlock:
				1089	spin_unlock(&bp->b_lock);
				1090
				1091	if (freebuf)
				1092	xfs_buf_free(bp);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1093	}
				1094
				1095
				1096	/*
Dave Chinner	0e6e847	2011-03-26 09:16:45 +1100	[diff] [blame]	1097	* Lock a buffer object, if it is not already locked.
Dave Chinner	90810b9	2010-11-30 15:16:16 +1100	[diff] [blame]	1098	*
				1099	* If we come across a stale, pinned, locked buffer, we know that we are
				1100	* being asked to lock a buffer that has been reallocated. Because it is
				1101	* pinned, we know that the log has not been pushed to disk and hence it
				1102	* will still be locked. Rather than continuing to have trylock attempts
				1103	* fail until someone else pushes the log, push it ourselves before
				1104	* returning. This means that the xfsaild will not get stuck trying
				1105	* to push on stale inode buffers.
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1106	*/
				1107	int
Christoph Hellwig	0c842ad	2011-07-08 14:36:19 +0200	[diff] [blame]	1108	xfs_buf_trylock(
				1109	struct xfs_buf *bp)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1110	{
				1111	int locked;
				1112
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	1113	locked = down_trylock(&bp->b_sema) == 0;
Eric Sandeen	fa6c668	2018-08-10 13:56:25 -0700	[diff] [blame]	1114	if (locked)
Darrick J. Wong	479c641	2016-06-21 11:53:28 +1000	[diff] [blame]	1115	trace_xfs_buf_trylock(bp, _RET_IP_);
Eric Sandeen	fa6c668	2018-08-10 13:56:25 -0700	[diff] [blame]	1116	else
Darrick J. Wong	479c641	2016-06-21 11:53:28 +1000	[diff] [blame]	1117	trace_xfs_buf_trylock_fail(bp, _RET_IP_);
Christoph Hellwig	0c842ad	2011-07-08 14:36:19 +0200	[diff] [blame]	1118	return locked;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1119	}
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1120
				1121	/*
Dave Chinner	0e6e847	2011-03-26 09:16:45 +1100	[diff] [blame]	1122	* Lock a buffer object.
Dave Chinner	ed3b4d6	2010-05-21 12:07:08 +1000	[diff] [blame]	1123	*
				1124	* If we come across a stale, pinned, locked buffer, we know that we
				1125	* are being asked to lock a buffer that has been reallocated. Because
				1126	* it is pinned, we know that the log has not been pushed to disk and
				1127	* hence it will still be locked. Rather than sleeping until someone
				1128	* else pushes the log, push it ourselves before trying to get the lock.
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1129	*/
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	1130	void
				1131	xfs_buf_lock(
Christoph Hellwig	0c842ad	2011-07-08 14:36:19 +0200	[diff] [blame]	1132	struct xfs_buf *bp)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1133	{
Christoph Hellwig	0b1b213	2009-12-14 23:14:59 +0000	[diff] [blame]	1134	trace_xfs_buf_lock(bp, _RET_IP_);
				1135
Dave Chinner	ed3b4d6	2010-05-21 12:07:08 +1000	[diff] [blame]	1136	if (atomic_read(&bp->b_pin_count) && (bp->b_flags & XBF_STALE))
Christoph Hellwig	dbd329f1	2019-06-28 19:27:29 -0700	[diff] [blame]	1137	xfs_log_force(bp->b_mount, 0);
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	1138	down(&bp->b_sema);
Christoph Hellwig	0b1b213	2009-12-14 23:14:59 +0000	[diff] [blame]	1139
				1140	trace_xfs_buf_lock_done(bp, _RET_IP_);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1141	}
				1142
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1143	void
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	1144	xfs_buf_unlock(
Christoph Hellwig	0c842ad	2011-07-08 14:36:19 +0200	[diff] [blame]	1145	struct xfs_buf *bp)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1146	{
Brian Foster	20e8a06	2017-04-21 12:40:44 -0700	[diff] [blame]	1147	ASSERT(xfs_buf_islocked(bp));
				1148
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	1149	up(&bp->b_sema);
Christoph Hellwig	0b1b213	2009-12-14 23:14:59 +0000	[diff] [blame]	1150	trace_xfs_buf_unlock(bp, _RET_IP_);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1151	}
				1152
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	1153	STATIC void
				1154	xfs_buf_wait_unpin(
				1155	xfs_buf_t *bp)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1156	{
				1157	DECLARE_WAITQUEUE (wait, current);
				1158
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	1159	if (atomic_read(&bp->b_pin_count) == 0)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1160	return;
				1161
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	1162	add_wait_queue(&bp->b_waiters, &wait);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1163	for (;;) {
				1164	set_current_state(TASK_UNINTERRUPTIBLE);
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	1165	if (atomic_read(&bp->b_pin_count) == 0)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1166	break;
Jens Axboe	7eaceac	2011-03-10 08:52:07 +0100	[diff] [blame]	1167	io_schedule();
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1168	}
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	1169	remove_wait_queue(&bp->b_waiters, &wait);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1170	set_current_state(TASK_RUNNING);
				1171	}
				1172
Christoph Hellwig	f58d0ea	2020-09-01 10:55:44 -0700	[diff] [blame]	1173	static void
				1174	xfs_buf_ioerror_alert_ratelimited(
Christoph Hellwig	664ffb8	2020-09-01 10:55:29 -0700	[diff] [blame]	1175	struct xfs_buf *bp)
				1176	{
Christoph Hellwig	664ffb8	2020-09-01 10:55:29 -0700	[diff] [blame]	1177	static unsigned long lasttime;
				1178	static struct xfs_buftarg *lasttarg;
				1179
Christoph Hellwig	664ffb8	2020-09-01 10:55:29 -0700	[diff] [blame]	1180	if (bp->b_target != lasttarg \|\|
				1181	time_after(jiffies, (lasttime + 5*HZ))) {
				1182	lasttime = jiffies;
				1183	xfs_buf_ioerror_alert(bp, __this_address);
				1184	}
				1185	lasttarg = bp->b_target;
Christoph Hellwig	664ffb8	2020-09-01 10:55:29 -0700	[diff] [blame]	1186	}
				1187
Christoph Hellwig	664ffb8	2020-09-01 10:55:29 -0700	[diff] [blame]	1188	/*
				1189	* Account for this latest trip around the retry handler, and decide if
				1190	* we've failed enough times to constitute a permanent failure.
				1191	*/
				1192	static bool
				1193	xfs_buf_ioerror_permanent(
				1194	struct xfs_buf *bp,
				1195	struct xfs_error_cfg *cfg)
				1196	{
				1197	struct xfs_mount *mp = bp->b_mount;
				1198
				1199	if (cfg->max_retries != XFS_ERR_RETRY_FOREVER &&
				1200	++bp->b_retries > cfg->max_retries)
				1201	return true;
				1202	if (cfg->retry_timeout != XFS_ERR_RETRY_FOREVER &&
				1203	time_after(jiffies, cfg->retry_timeout + bp->b_first_retry_time))
				1204	return true;
				1205
				1206	/* At unmount we may treat errors differently */
				1207	if ((mp->m_flags & XFS_MOUNT_UNMOUNTING) && mp->m_fail_unmount)
				1208	return true;
				1209
				1210	return false;
				1211	}
				1212
				1213	/*
				1214	* On a sync write or shutdown we just want to stale the buffer and let the
				1215	* caller handle the error in bp->b_error appropriately.
				1216	*
				1217	* If the write was asynchronous then no one will be looking for the error. If
				1218	* this is the first failure of this type, clear the error state and write the
				1219	* buffer out again. This means we always retry an async write failure at least
				1220	* once, but we also need to set the buffer up to behave correctly now for
				1221	* repeated failures.
				1222	*
				1223	* If we get repeated async write failures, then we take action according to the
				1224	* error configuration we have been set up to use.
				1225	*
Christoph Hellwig	70796c6	2020-09-01 10:55:45 -0700	[diff] [blame]	1226	* Returns true if this function took care of error handling and the caller must
				1227	* not touch the buffer again. Return false if the caller should proceed with
				1228	* normal I/O completion handling.
Christoph Hellwig	664ffb8	2020-09-01 10:55:29 -0700	[diff] [blame]	1229	*/
Christoph Hellwig	70796c6	2020-09-01 10:55:45 -0700	[diff] [blame]	1230	static bool
				1231	xfs_buf_ioend_handle_error(
Christoph Hellwig	664ffb8	2020-09-01 10:55:29 -0700	[diff] [blame]	1232	struct xfs_buf *bp)
				1233	{
				1234	struct xfs_mount *mp = bp->b_mount;
				1235	struct xfs_error_cfg *cfg;
				1236
Christoph Hellwig	f58d0ea	2020-09-01 10:55:44 -0700	[diff] [blame]	1237	/*
				1238	* If we've already decided to shutdown the filesystem because of I/O
				1239	* errors, there's no point in giving this a retry.
				1240	*/
				1241	if (XFS_FORCED_SHUTDOWN(mp))
				1242	goto out_stale;
				1243
				1244	xfs_buf_ioerror_alert_ratelimited(bp);
				1245
				1246	/*
Christoph Hellwig	22c1058	2020-09-01 10:55:46 -0700	[diff] [blame^]	1247	* We're not going to bother about retrying this during recovery.
				1248	* One strike!
				1249	*/
				1250	if (bp->b_flags & _XBF_LOGRECOVERY) {
				1251	xfs_force_shutdown(mp, SHUTDOWN_META_IO_ERROR);
				1252	return false;
				1253	}
				1254
				1255	/*
Christoph Hellwig	f58d0ea	2020-09-01 10:55:44 -0700	[diff] [blame]	1256	* Synchronous writes will have callers process the error.
				1257	*/
				1258	if (!(bp->b_flags & XBF_ASYNC))
Christoph Hellwig	664ffb8	2020-09-01 10:55:29 -0700	[diff] [blame]	1259	goto out_stale;
				1260
				1261	trace_xfs_buf_iodone_async(bp, _RET_IP_);
				1262
				1263	cfg = xfs_error_get_cfg(mp, XFS_ERR_METADATA, bp->b_error);
Christoph Hellwig	3cc4988	2020-09-01 10:55:45 -0700	[diff] [blame]	1264	if (bp->b_last_error != bp->b_error \|\|
				1265	!(bp->b_flags & (XBF_STALE \| XBF_WRITE_FAIL))) {
				1266	bp->b_last_error = bp->b_error;
				1267	if (cfg->retry_timeout != XFS_ERR_RETRY_FOREVER &&
				1268	!bp->b_first_retry_time)
				1269	bp->b_first_retry_time = jiffies;
				1270	goto resubmit;
Christoph Hellwig	664ffb8	2020-09-01 10:55:29 -0700	[diff] [blame]	1271	}
				1272
				1273	/*
				1274	* Permanent error - we need to trigger a shutdown if we haven't already
				1275	* to indicate that inconsistency will result from this action.
				1276	*/
				1277	if (xfs_buf_ioerror_permanent(bp, cfg)) {
				1278	xfs_force_shutdown(mp, SHUTDOWN_META_IO_ERROR);
				1279	goto out_stale;
				1280	}
				1281
				1282	/* Still considered a transient error. Caller will schedule retries. */
Christoph Hellwig	844c935	2020-09-01 10:55:45 -0700	[diff] [blame]	1283	if (bp->b_flags & _XBF_INODES)
				1284	xfs_buf_inode_io_fail(bp);
				1285	else if (bp->b_flags & _XBF_DQUOTS)
				1286	xfs_buf_dquot_io_fail(bp);
				1287	else
				1288	ASSERT(list_empty(&bp->b_li_list));
				1289	xfs_buf_ioerror(bp, 0);
				1290	xfs_buf_relse(bp);
Christoph Hellwig	70796c6	2020-09-01 10:55:45 -0700	[diff] [blame]	1291	return true;
Christoph Hellwig	664ffb8	2020-09-01 10:55:29 -0700	[diff] [blame]	1292
Christoph Hellwig	3cc4988	2020-09-01 10:55:45 -0700	[diff] [blame]	1293	resubmit:
				1294	xfs_buf_ioerror(bp, 0);
Christoph Hellwig	55b7d71	2020-09-01 10:55:46 -0700	[diff] [blame]	1295	bp->b_flags \|= (XBF_DONE \| XBF_WRITE_FAIL);
Christoph Hellwig	3cc4988	2020-09-01 10:55:45 -0700	[diff] [blame]	1296	xfs_buf_submit(bp);
Christoph Hellwig	70796c6	2020-09-01 10:55:45 -0700	[diff] [blame]	1297	return true;
Christoph Hellwig	664ffb8	2020-09-01 10:55:29 -0700	[diff] [blame]	1298	out_stale:
				1299	xfs_buf_stale(bp);
				1300	bp->b_flags \|= XBF_DONE;
Christoph Hellwig	55b7d71	2020-09-01 10:55:46 -0700	[diff] [blame]	1301	bp->b_flags &= ~XBF_WRITE;
Christoph Hellwig	664ffb8	2020-09-01 10:55:29 -0700	[diff] [blame]	1302	trace_xfs_buf_error_relse(bp, _RET_IP_);
Christoph Hellwig	70796c6	2020-09-01 10:55:45 -0700	[diff] [blame]	1303	return false;
Christoph Hellwig	664ffb8	2020-09-01 10:55:29 -0700	[diff] [blame]	1304	}
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1305
Christoph Hellwig	76b2d32	2020-09-01 10:55:20 -0700	[diff] [blame]	1306	static void
Dave Chinner	e8aaba9	2014-10-02 09:04:22 +1000	[diff] [blame]	1307	xfs_buf_ioend(
				1308	struct xfs_buf *bp)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1309	{
Dave Chinner	e8aaba9	2014-10-02 09:04:22 +1000	[diff] [blame]	1310	trace_xfs_buf_iodone(bp, _RET_IP_);
Dave Chinner	1813dd6	2012-11-14 17:54:40 +1100	[diff] [blame]	1311
Dave Chinner	61be9c5	2014-10-02 09:04:31 +1000	[diff] [blame]	1312	/*
				1313	* Pull in IO completion errors now. We are guaranteed to be running
				1314	* single threaded, so we don't need the lock to read b_io_error.
				1315	*/
				1316	if (!bp->b_error && bp->b_io_error)
				1317	xfs_buf_ioerror(bp, bp->b_io_error);
				1318
Christoph Hellwig	55b7d71	2020-09-01 10:55:46 -0700	[diff] [blame]	1319	if (bp->b_flags & XBF_READ) {
Dave Chinner	b01d146	2020-06-29 14:48:47 -0700	[diff] [blame]	1320	if (!bp->b_error && bp->b_ops)
				1321	bp->b_ops->verify_read(bp);
				1322	if (!bp->b_error)
				1323	bp->b_flags \|= XBF_DONE;
Christoph Hellwig	23fb5a9	2020-09-01 10:55:20 -0700	[diff] [blame]	1324	} else {
				1325	if (!bp->b_error) {
				1326	bp->b_flags &= ~XBF_WRITE_FAIL;
				1327	bp->b_flags \|= XBF_DONE;
				1328	}
Dave Chinner	9fe5c77	2020-06-29 14:48:47 -0700	[diff] [blame]	1329
Christoph Hellwig	70796c6	2020-09-01 10:55:45 -0700	[diff] [blame]	1330	if (unlikely(bp->b_error) && xfs_buf_ioend_handle_error(bp))
Christoph Hellwig	664ffb8	2020-09-01 10:55:29 -0700	[diff] [blame]	1331	return;
Christoph Hellwig	664ffb8	2020-09-01 10:55:29 -0700	[diff] [blame]	1332
				1333	/* clear the retry state */
				1334	bp->b_last_error = 0;
				1335	bp->b_retries = 0;
				1336	bp->b_first_retry_time = 0;
				1337
				1338	/*
				1339	* Note that for things like remote attribute buffers, there may
				1340	* not be a buffer log item here, so processing the buffer log
				1341	* item must remain optional.
				1342	*/
				1343	if (bp->b_log_item)
				1344	xfs_buf_item_done(bp);
				1345
Christoph Hellwig	23fb5a9	2020-09-01 10:55:20 -0700	[diff] [blame]	1346	if (bp->b_flags & _XBF_INODES)
				1347	xfs_buf_inode_iodone(bp);
				1348	else if (bp->b_flags & _XBF_DQUOTS)
				1349	xfs_buf_dquot_iodone(bp);
Christoph Hellwig	22c1058	2020-09-01 10:55:46 -0700	[diff] [blame^]	1350
Dave Chinner	f593bf1	2020-06-29 14:48:46 -0700	[diff] [blame]	1351	}
Christoph Hellwig	6a7584b	2020-09-01 10:55:44 -0700	[diff] [blame]	1352
Christoph Hellwig	22c1058	2020-09-01 10:55:46 -0700	[diff] [blame^]	1353	bp->b_flags &= ~(XBF_READ \| XBF_WRITE \| XBF_READ_AHEAD \|
				1354	_XBF_LOGRECOVERY);
Christoph Hellwig	55b7d71	2020-09-01 10:55:46 -0700	[diff] [blame]	1355
Christoph Hellwig	6a7584b	2020-09-01 10:55:44 -0700	[diff] [blame]	1356	if (bp->b_flags & XBF_ASYNC)
				1357	xfs_buf_relse(bp);
				1358	else
				1359	complete(&bp->b_iowait);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1360	}
				1361
Dave Chinner	e8aaba9	2014-10-02 09:04:22 +1000	[diff] [blame]	1362	static void
				1363	xfs_buf_ioend_work(
				1364	struct work_struct *work)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1365	{
Dave Chinner	e8aaba9	2014-10-02 09:04:22 +1000	[diff] [blame]	1366	struct xfs_buf *bp =
Brian Foster	b29c70f	2014-12-04 09:43:17 +1100	[diff] [blame]	1367	container_of(work, xfs_buf_t, b_ioend_work);
Dave Chinner	1813dd6	2012-11-14 17:54:40 +1100	[diff] [blame]	1368
Dave Chinner	e8aaba9	2014-10-02 09:04:22 +1000	[diff] [blame]	1369	xfs_buf_ioend(bp);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1370	}
				1371
Alexander Kuleshov	211fe1a	2016-01-04 16:10:42 +1100	[diff] [blame]	1372	static void
Dave Chinner	e8aaba9	2014-10-02 09:04:22 +1000	[diff] [blame]	1373	xfs_buf_ioend_async(
				1374	struct xfs_buf *bp)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1375	{
Brian Foster	b29c70f	2014-12-04 09:43:17 +1100	[diff] [blame]	1376	INIT_WORK(&bp->b_ioend_work, xfs_buf_ioend_work);
Christoph Hellwig	dbd329f1	2019-06-28 19:27:29 -0700	[diff] [blame]	1377	queue_work(bp->b_mount->m_buf_workqueue, &bp->b_ioend_work);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1378	}
				1379
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1380	void
Darrick J. Wong	31ca03c	2018-01-08 10:51:02 -0800	[diff] [blame]	1381	__xfs_buf_ioerror(
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	1382	xfs_buf_t *bp,
Darrick J. Wong	31ca03c	2018-01-08 10:51:02 -0800	[diff] [blame]	1383	int error,
				1384	xfs_failaddr_t failaddr)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1385	{
Dave Chinner	2451337	2014-06-25 14:58:08 +1000	[diff] [blame]	1386	ASSERT(error <= 0 && error >= -1000);
				1387	bp->b_error = error;
Darrick J. Wong	31ca03c	2018-01-08 10:51:02 -0800	[diff] [blame]	1388	trace_xfs_buf_ioerror(bp, error, failaddr);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1389	}
				1390
Christoph Hellwig	901796a	2011-10-10 16:52:49 +0000	[diff] [blame]	1391	void
				1392	xfs_buf_ioerror_alert(
				1393	struct xfs_buf *bp,
Darrick J. Wong	cdbcf82	2020-01-23 17:01:20 -0800	[diff] [blame]	1394	xfs_failaddr_t func)
Christoph Hellwig	901796a	2011-10-10 16:52:49 +0000	[diff] [blame]	1395	{
Brian Foster	f9bccfc	2020-05-06 13:25:21 -0700	[diff] [blame]	1396	xfs_buf_alert_ratelimited(bp, "XFS: metadata IO error",
				1397	"metadata I/O error in \"%pS\" at daddr 0x%llx len %d error %d",
				1398	func, (uint64_t)XFS_BUF_ADDR(bp),
				1399	bp->b_length, -bp->b_error);
Christoph Hellwig	901796a	2011-10-10 16:52:49 +0000	[diff] [blame]	1400	}
				1401
Brian Foster	54b3b1f	2020-05-06 13:25:19 -0700	[diff] [blame]	1402	/*
				1403	* To simulate an I/O failure, the buffer must be locked and held with at least
				1404	* three references. The LRU reference is dropped by the stale call. The buf
				1405	* item reference is dropped via ioend processing. The third reference is owned
				1406	* by the caller and is dropped on I/O completion if the buffer is XBF_ASYNC.
				1407	*/
				1408	void
				1409	xfs_buf_ioend_fail(
				1410	struct xfs_buf *bp)
				1411	{
				1412	bp->b_flags &= ~XBF_DONE;
				1413	xfs_buf_stale(bp);
				1414	xfs_buf_ioerror(bp, -EIO);
				1415	xfs_buf_ioend(bp);
Christoph Hellwig	5d765b9	2008-12-03 12:20:26 +0100	[diff] [blame]	1416	}
Christoph Hellwig	939d723	2010-07-20 17:51:16 +1000	[diff] [blame]	1417
Christoph Hellwig	a2dcf5d	2012-07-13 02:24:10 -0400	[diff] [blame]	1418	int
				1419	xfs_bwrite(
				1420	struct xfs_buf *bp)
				1421	{
				1422	int error;
				1423
				1424	ASSERT(xfs_buf_islocked(bp));
				1425
				1426	bp->b_flags \|= XBF_WRITE;
Dave Chinner	2718775	2014-10-02 09:04:56 +1000	[diff] [blame]	1427	bp->b_flags &= ~(XBF_ASYNC \| XBF_READ \| _XBF_DELWRI_Q \|
Brian Foster	b6983e8	2020-05-06 13:25:20 -0700	[diff] [blame]	1428	XBF_DONE);
Christoph Hellwig	a2dcf5d	2012-07-13 02:24:10 -0400	[diff] [blame]	1429
Brian Foster	6af88cd	2018-07-11 22:26:35 -0700	[diff] [blame]	1430	error = xfs_buf_submit(bp);
Christoph Hellwig	dbd329f1	2019-06-28 19:27:29 -0700	[diff] [blame]	1431	if (error)
				1432	xfs_force_shutdown(bp->b_mount, SHUTDOWN_META_IO_ERROR);
Christoph Hellwig	a2dcf5d	2012-07-13 02:24:10 -0400	[diff] [blame]	1433	return error;
				1434	}
				1435
Brian Foster	9bdd9bd	2016-05-18 10:56:41 +1000	[diff] [blame]	1436	static void
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	1437	xfs_buf_bio_end_io(
Christoph Hellwig	4246a0b	2015-07-20 15:29:37 +0200	[diff] [blame]	1438	struct bio *bio)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1439	{
Brian Foster	9bdd9bd	2016-05-18 10:56:41 +1000	[diff] [blame]	1440	struct xfs_buf bp = (struct xfs_buf )bio->bi_private;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1441
Brian Foster	7376d74	2020-05-06 13:29:19 -0700	[diff] [blame]	1442	if (!bio->bi_status &&
				1443	(bp->b_flags & XBF_WRITE) && (bp->b_flags & XBF_ASYNC) &&
Brian Foster	43dc0aa	2020-05-08 08:50:52 -0700	[diff] [blame]	1444	XFS_TEST_ERROR(false, bp->b_mount, XFS_ERRTAG_BUF_IOERROR))
Brian Foster	7376d74	2020-05-06 13:29:19 -0700	[diff] [blame]	1445	bio->bi_status = BLK_STS_IOERR;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1446
Dave Chinner	37eb17e	2012-11-12 22:09:46 +1100	[diff] [blame]	1447	/*
				1448	* don't overwrite existing errors - otherwise we can lose errors on
				1449	* buffers that require multiple bios to complete.
				1450	*/
Christoph Hellwig	4e4cbee	2017-06-03 09:38:06 +0200	[diff] [blame]	1451	if (bio->bi_status) {
				1452	int error = blk_status_to_errno(bio->bi_status);
				1453
				1454	cmpxchg(&bp->b_io_error, 0, error);
				1455	}
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1456
Dave Chinner	37eb17e	2012-11-12 22:09:46 +1100	[diff] [blame]	1457	if (!bp->b_error && xfs_buf_is_vmapped(bp) && (bp->b_flags & XBF_READ))
James Bottomley	73c77e2	2010-01-25 11:42:24 -0600	[diff] [blame]	1458	invalidate_kernel_vmap_range(bp->b_addr, xfs_buf_vmap_len(bp));
				1459
Dave Chinner	e8aaba9	2014-10-02 09:04:22 +1000	[diff] [blame]	1460	if (atomic_dec_and_test(&bp->b_io_remaining) == 1)
				1461	xfs_buf_ioend_async(bp);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1462	bio_put(bio);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1463	}
				1464
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	1465	static void
				1466	xfs_buf_ioapply_map(
				1467	struct xfs_buf *bp,
				1468	int map,
				1469	int *buf_offset,
				1470	int *count,
Christoph Hellwig	2123ef8	2019-10-28 08:41:42 -0700	[diff] [blame]	1471	int op)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1472	{
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	1473	int page_index;
				1474	int total_nr_pages = bp->b_page_count;
				1475	int nr_pages;
				1476	struct bio *bio;
				1477	sector_t sector = bp->b_maps[map].bm_bn;
				1478	int size;
				1479	int offset;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1480
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	1481	/* skip the pages in the buffer before the start offset */
				1482	page_index = 0;
				1483	offset = *buf_offset;
				1484	while (offset >= PAGE_SIZE) {
				1485	page_index++;
				1486	offset -= PAGE_SIZE;
Christoph Hellwig	f538d4d	2005-11-02 10:26:59 +1100	[diff] [blame]	1487	}
				1488
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	1489	/*
				1490	* Limit the IO size to the length of the current vector, and update the
				1491	* remaining IO count for the next time around.
				1492	*/
				1493	size = min_t(int, BBTOB(bp->b_maps[map].bm_len), *count);
				1494	*count -= size;
				1495	*buf_offset += size;
Christoph Hellwig	34951f5	2011-07-26 15:06:44 +0000	[diff] [blame]	1496
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1497	next_chunk:
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	1498	atomic_inc(&bp->b_io_remaining);
Ming Lei	c908e38	2016-05-30 21:34:33 +0800	[diff] [blame]	1499	nr_pages = min(total_nr_pages, BIO_MAX_PAGES);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1500
				1501	bio = bio_alloc(GFP_NOIO, nr_pages);
Christoph Hellwig	74d4699	2017-08-23 19:10:32 +0200	[diff] [blame]	1502	bio_set_dev(bio, bp->b_target->bt_bdev);
Kent Overstreet	4f024f3	2013-10-11 15:44:27 -0700	[diff] [blame]	1503	bio->bi_iter.bi_sector = sector;
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	1504	bio->bi_end_io = xfs_buf_bio_end_io;
				1505	bio->bi_private = bp;
Christoph Hellwig	2123ef8	2019-10-28 08:41:42 -0700	[diff] [blame]	1506	bio->bi_opf = op;
Dave Chinner	0e6e847	2011-03-26 09:16:45 +1100	[diff] [blame]	1507
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	1508	for (; size && nr_pages; nr_pages--, page_index++) {
Dave Chinner	0e6e847	2011-03-26 09:16:45 +1100	[diff] [blame]	1509	int rbytes, nbytes = PAGE_SIZE - offset;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1510
				1511	if (nbytes > size)
				1512	nbytes = size;
				1513
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	1514	rbytes = bio_add_page(bio, bp->b_pages[page_index], nbytes,
				1515	offset);
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	1516	if (rbytes < nbytes)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1517	break;
				1518
				1519	offset = 0;
Dave Chinner	aa0e883	2012-04-23 15:58:52 +1000	[diff] [blame]	1520	sector += BTOBB(nbytes);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1521	size -= nbytes;
				1522	total_nr_pages--;
				1523	}
				1524
Kent Overstreet	4f024f3	2013-10-11 15:44:27 -0700	[diff] [blame]	1525	if (likely(bio->bi_iter.bi_size)) {
James Bottomley	73c77e2	2010-01-25 11:42:24 -0600	[diff] [blame]	1526	if (xfs_buf_is_vmapped(bp)) {
				1527	flush_kernel_vmap_range(bp->b_addr,
				1528	xfs_buf_vmap_len(bp));
				1529	}
Mike Christie	4e49ea4	2016-06-05 14:31:41 -0500	[diff] [blame]	1530	submit_bio(bio);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1531	if (size)
				1532	goto next_chunk;
				1533	} else {
Dave Chinner	37eb17e	2012-11-12 22:09:46 +1100	[diff] [blame]	1534	/*
				1535	* This is guaranteed not to be the last io reference count
Dave Chinner	595bff7	2014-10-02 09:05:14 +1000	[diff] [blame]	1536	* because the caller (xfs_buf_submit) holds a count itself.
Dave Chinner	37eb17e	2012-11-12 22:09:46 +1100	[diff] [blame]	1537	*/
				1538	atomic_dec(&bp->b_io_remaining);
Dave Chinner	2451337	2014-06-25 14:58:08 +1000	[diff] [blame]	1539	xfs_buf_ioerror(bp, -EIO);
Dave Chinner	ec53d1d	2010-07-20 17:52:59 +1000	[diff] [blame]	1540	bio_put(bio);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1541	}
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	1542
				1543	}
				1544
				1545	STATIC void
				1546	_xfs_buf_ioapply(
				1547	struct xfs_buf *bp)
				1548	{
				1549	struct blk_plug plug;
Mike Christie	50bfcd0	2016-06-05 14:31:57 -0500	[diff] [blame]	1550	int op;
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	1551	int offset;
				1552	int size;
				1553	int i;
				1554
Dave Chinner	c163f9a	2013-03-12 23:30:34 +1100	[diff] [blame]	1555	/*
				1556	* Make sure we capture only current IO errors rather than stale errors
				1557	* left over from previous use of the buffer (e.g. failed readahead).
				1558	*/
				1559	bp->b_error = 0;
				1560
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	1561	if (bp->b_flags & XBF_WRITE) {
Mike Christie	50bfcd0	2016-06-05 14:31:57 -0500	[diff] [blame]	1562	op = REQ_OP_WRITE;
Dave Chinner	1813dd6	2012-11-14 17:54:40 +1100	[diff] [blame]	1563
				1564	/*
				1565	* Run the write verifier callback function if it exists. If
				1566	* this function fails it will mark the buffer with an error and
				1567	* the IO should not be dispatched.
				1568	*/
				1569	if (bp->b_ops) {
				1570	bp->b_ops->verify_write(bp);
				1571	if (bp->b_error) {
Christoph Hellwig	dbd329f1	2019-06-28 19:27:29 -0700	[diff] [blame]	1572	xfs_force_shutdown(bp->b_mount,
Dave Chinner	1813dd6	2012-11-14 17:54:40 +1100	[diff] [blame]	1573	SHUTDOWN_CORRUPT_INCORE);
				1574	return;
				1575	}
Dave Chinner	400b9d8	2014-08-04 12:42:40 +1000	[diff] [blame]	1576	} else if (bp->b_bn != XFS_BUF_DADDR_NULL) {
Christoph Hellwig	dbd329f1	2019-06-28 19:27:29 -0700	[diff] [blame]	1577	struct xfs_mount *mp = bp->b_mount;
Dave Chinner	400b9d8	2014-08-04 12:42:40 +1000	[diff] [blame]	1578
				1579	/*
				1580	* non-crc filesystems don't attach verifiers during
				1581	* log recovery, so don't warn for such filesystems.
				1582	*/
				1583	if (xfs_sb_version_hascrc(&mp->m_sb)) {
				1584	xfs_warn(mp,
Darrick J. Wong	c219b01	2018-01-08 11:39:18 -0800	[diff] [blame]	1585	"%s: no buf ops on daddr 0x%llx len %d",
Dave Chinner	400b9d8	2014-08-04 12:42:40 +1000	[diff] [blame]	1586	__func__, bp->b_bn, bp->b_length);
Darrick J. Wong	9c712a1	2018-01-08 10:51:26 -0800	[diff] [blame]	1587	xfs_hex_dump(bp->b_addr,
				1588	XFS_CORRUPTION_DUMP_LEN);
Dave Chinner	400b9d8	2014-08-04 12:42:40 +1000	[diff] [blame]	1589	dump_stack();
				1590	}
Dave Chinner	1813dd6	2012-11-14 17:54:40 +1100	[diff] [blame]	1591	}
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	1592	} else {
Mike Christie	50bfcd0	2016-06-05 14:31:57 -0500	[diff] [blame]	1593	op = REQ_OP_READ;
Christoph Hellwig	2123ef8	2019-10-28 08:41:42 -0700	[diff] [blame]	1594	if (bp->b_flags & XBF_READ_AHEAD)
				1595	op \|= REQ_RAHEAD;
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	1596	}
				1597
				1598	/* we only use the buffer cache for meta-data */
Christoph Hellwig	2123ef8	2019-10-28 08:41:42 -0700	[diff] [blame]	1599	op \|= REQ_META;
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	1600
				1601	/*
				1602	* Walk all the vectors issuing IO on them. Set up the initial offset
				1603	* into the buffer and the desired IO size before we start -
				1604	* _xfs_buf_ioapply_vec() will modify them appropriately for each
				1605	* subsequent call.
				1606	*/
				1607	offset = bp->b_offset;
Christoph Hellwig	8124b9b	2019-06-28 19:27:28 -0700	[diff] [blame]	1608	size = BBTOB(bp->b_length);
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	1609	blk_start_plug(&plug);
				1610	for (i = 0; i < bp->b_map_count; i++) {
Christoph Hellwig	2123ef8	2019-10-28 08:41:42 -0700	[diff] [blame]	1611	xfs_buf_ioapply_map(bp, i, &offset, &size, op);
Dave Chinner	3e85c86	2012-06-22 18:50:09 +1000	[diff] [blame]	1612	if (bp->b_error)
				1613	break;
				1614	if (size <= 0)
				1615	break; /* all done */
				1616	}
				1617	blk_finish_plug(&plug);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1618	}
				1619
Dave Chinner	595bff7	2014-10-02 09:05:14 +1000	[diff] [blame]	1620	/*
Brian Foster	bb00b6f	2018-07-11 22:26:35 -0700	[diff] [blame]	1621	* Wait for I/O completion of a sync buffer and return the I/O error code.
Dave Chinner	595bff7	2014-10-02 09:05:14 +1000	[diff] [blame]	1622	*/
Brian Foster	eaebb51	2018-07-11 22:26:34 -0700	[diff] [blame]	1623	static int
Brian Foster	bb00b6f	2018-07-11 22:26:35 -0700	[diff] [blame]	1624	xfs_buf_iowait(
Dave Chinner	595bff7	2014-10-02 09:05:14 +1000	[diff] [blame]	1625	struct xfs_buf *bp)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1626	{
Brian Foster	bb00b6f	2018-07-11 22:26:35 -0700	[diff] [blame]	1627	ASSERT(!(bp->b_flags & XBF_ASYNC));
				1628
				1629	trace_xfs_buf_iowait(bp, _RET_IP_);
				1630	wait_for_completion(&bp->b_iowait);
				1631	trace_xfs_buf_iowait_done(bp, _RET_IP_);
				1632
				1633	return bp->b_error;
				1634	}
				1635
				1636	/*
				1637	* Buffer I/O submission path, read or write. Asynchronous submission transfers
				1638	* the buffer lock ownership and the current reference to the IO. It is not
				1639	* safe to reference the buffer after a call to this function unless the caller
				1640	* holds an additional reference itself.
				1641	*/
				1642	int
				1643	__xfs_buf_submit(
				1644	struct xfs_buf *bp,
				1645	bool wait)
				1646	{
				1647	int error = 0;
				1648
Dave Chinner	595bff7	2014-10-02 09:05:14 +1000	[diff] [blame]	1649	trace_xfs_buf_submit(bp, _RET_IP_);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1650
Christoph Hellwig	43ff212	2012-04-23 15:58:39 +1000	[diff] [blame]	1651	ASSERT(!(bp->b_flags & _XBF_DELWRI_Q));
Dave Chinner	595bff7	2014-10-02 09:05:14 +1000	[diff] [blame]	1652
				1653	/* on shutdown we stale and complete the buffer immediately */
Christoph Hellwig	dbd329f1	2019-06-28 19:27:29 -0700	[diff] [blame]	1654	if (XFS_FORCED_SHUTDOWN(bp->b_mount)) {
Brian Foster	54b3b1f	2020-05-06 13:25:19 -0700	[diff] [blame]	1655	xfs_buf_ioend_fail(bp);
Brian Foster	eaebb51	2018-07-11 22:26:34 -0700	[diff] [blame]	1656	return -EIO;
Dave Chinner	595bff7	2014-10-02 09:05:14 +1000	[diff] [blame]	1657	}
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1658
Brian Foster	bb00b6f	2018-07-11 22:26:35 -0700	[diff] [blame]	1659	/*
				1660	* Grab a reference so the buffer does not go away underneath us. For
				1661	* async buffers, I/O completion drops the callers reference, which
				1662	* could occur before submission returns.
				1663	*/
				1664	xfs_buf_hold(bp);
				1665
Christoph Hellwig	375ec69	2011-08-23 08:28:03 +0000	[diff] [blame]	1666	if (bp->b_flags & XBF_WRITE)
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	1667	xfs_buf_wait_unpin(bp);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1668
Dave Chinner	61be9c5	2014-10-02 09:04:31 +1000	[diff] [blame]	1669	/* clear the internal error state to avoid spurious errors */
				1670	bp->b_io_error = 0;
				1671
Eric Sandeen	8d6c121	2014-04-17 08:15:28 +1000	[diff] [blame]	1672	/*
Brian Foster	eaebb51	2018-07-11 22:26:34 -0700	[diff] [blame]	1673	* Set the count to 1 initially, this will stop an I/O completion
				1674	* callout which happens before we have started all the I/O from calling
				1675	* xfs_buf_ioend too early.
				1676	*/
				1677	atomic_set(&bp->b_io_remaining, 1);
				1678	if (bp->b_flags & XBF_ASYNC)
				1679	xfs_buf_ioacct_inc(bp);
				1680	_xfs_buf_ioapply(bp);
				1681
				1682	/*
				1683	* If _xfs_buf_ioapply failed, we can get back here with only the IO
				1684	* reference we took above. If we drop it to zero, run completion so
				1685	* that we don't return to the caller with completion still pending.
				1686	*/
				1687	if (atomic_dec_and_test(&bp->b_io_remaining) == 1) {
				1688	if (bp->b_error \|\| !(bp->b_flags & XBF_ASYNC))
				1689	xfs_buf_ioend(bp);
				1690	else
				1691	xfs_buf_ioend_async(bp);
				1692	}
				1693
Brian Foster	6af88cd	2018-07-11 22:26:35 -0700	[diff] [blame]	1694	if (wait)
				1695	error = xfs_buf_iowait(bp);
Brian Foster	bb00b6f	2018-07-11 22:26:35 -0700	[diff] [blame]	1696
Dave Chinner	595bff7	2014-10-02 09:05:14 +1000	[diff] [blame]	1697	/*
Brian Foster	6af88cd	2018-07-11 22:26:35 -0700	[diff] [blame]	1698	* Release the hold that keeps the buffer referenced for the entire
				1699	* I/O. Note that if the buffer is async, it is not safe to reference
				1700	* after this release.
Dave Chinner	595bff7	2014-10-02 09:05:14 +1000	[diff] [blame]	1701	*/
				1702	xfs_buf_rele(bp);
				1703	return error;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1704	}
				1705
Christoph Hellwig	88ee2df	2015-06-22 09:44:29 +1000	[diff] [blame]	1706	void *
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	1707	xfs_buf_offset(
Christoph Hellwig	88ee2df	2015-06-22 09:44:29 +1000	[diff] [blame]	1708	struct xfs_buf *bp,
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1709	size_t offset)
				1710	{
				1711	struct page *page;
				1712
Dave Chinner	611c994	2012-04-23 15:59:07 +1000	[diff] [blame]	1713	if (bp->b_addr)
Chandra Seetharaman	6292604	2011-07-22 23:40:15 +0000	[diff] [blame]	1714	return bp->b_addr + offset;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1715
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	1716	offset += bp->b_offset;
Dave Chinner	0e6e847	2011-03-26 09:16:45 +1100	[diff] [blame]	1717	page = bp->b_pages[offset >> PAGE_SHIFT];
Christoph Hellwig	88ee2df	2015-06-22 09:44:29 +1000	[diff] [blame]	1718	return page_address(page) + (offset & (PAGE_SIZE-1));
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1719	}
				1720
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1721	void
Christoph Hellwig	f9a196e	2019-06-12 08:59:59 -0700	[diff] [blame]	1722	xfs_buf_zero(
				1723	struct xfs_buf *bp,
				1724	size_t boff,
				1725	size_t bsize)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1726	{
Dave Chinner	795cac7	2012-04-23 15:58:53 +1000	[diff] [blame]	1727	size_t bend;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1728
				1729	bend = boff + bsize;
				1730	while (boff < bend) {
Dave Chinner	795cac7	2012-04-23 15:58:53 +1000	[diff] [blame]	1731	struct page *page;
				1732	int page_index, page_offset, csize;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1733
Dave Chinner	795cac7	2012-04-23 15:58:53 +1000	[diff] [blame]	1734	page_index = (boff + bp->b_offset) >> PAGE_SHIFT;
				1735	page_offset = (boff + bp->b_offset) & ~PAGE_MASK;
				1736	page = bp->b_pages[page_index];
				1737	csize = min_t(size_t, PAGE_SIZE - page_offset,
Christoph Hellwig	8124b9b	2019-06-28 19:27:28 -0700	[diff] [blame]	1738	BBTOB(bp->b_length) - boff);
Dave Chinner	795cac7	2012-04-23 15:58:53 +1000	[diff] [blame]	1739
				1740	ASSERT((csize + page_offset) <= PAGE_SIZE);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1741
Christoph Hellwig	f9a196e	2019-06-12 08:59:59 -0700	[diff] [blame]	1742	memset(page_address(page) + page_offset, 0, csize);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1743
				1744	boff += csize;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1745	}
				1746	}
				1747
				1748	/*
Darrick J. Wong	8d57c21	2020-03-11 10:37:54 -0700	[diff] [blame]	1749	* Log a message about and stale a buffer that a caller has decided is corrupt.
				1750	*
				1751	* This function should be called for the kinds of metadata corruption that
				1752	* cannot be detect from a verifier, such as incorrect inter-block relationship
				1753	* data. Do /not/ call this function from a verifier function.
				1754	*
				1755	* The buffer must be XBF_DONE prior to the call. Afterwards, the buffer will
				1756	* be marked stale, but b_error will not be set. The caller is responsible for
				1757	* releasing the buffer or fixing it.
				1758	*/
				1759	void
				1760	__xfs_buf_mark_corrupt(
				1761	struct xfs_buf *bp,
				1762	xfs_failaddr_t fa)
				1763	{
				1764	ASSERT(bp->b_flags & XBF_DONE);
				1765
Darrick J. Wong	e83cf87	2020-03-11 10:37:54 -0700	[diff] [blame]	1766	xfs_buf_corruption_error(bp, fa);
Darrick J. Wong	8d57c21	2020-03-11 10:37:54 -0700	[diff] [blame]	1767	xfs_buf_stale(bp);
				1768	}
				1769
				1770	/*
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	1771	* Handling of buffer targets (buftargs).
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1772	*/
				1773
				1774	/*
Dave Chinner	430cbeb	2010-12-02 16:30:55 +1100	[diff] [blame]	1775	* Wait for any bufs with callbacks that have been submitted but have not yet
				1776	* returned. These buffers will have an elevated hold count, so wait on those
				1777	* while freeing all the buffers only held by the LRU.
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1778	*/
Dave Chinner	e80dfa1	2013-08-28 10:18:05 +1000	[diff] [blame]	1779	static enum lru_status
				1780	xfs_buftarg_wait_rele(
				1781	struct list_head *item,
Vladimir Davydov	3f97b16	2015-02-12 14:59:35 -0800	[diff] [blame]	1782	struct list_lru_one *lru,
Dave Chinner	e80dfa1	2013-08-28 10:18:05 +1000	[diff] [blame]	1783	spinlock_t *lru_lock,
				1784	void *arg)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1785
Dave Chinner	e80dfa1	2013-08-28 10:18:05 +1000	[diff] [blame]	1786	{
				1787	struct xfs_buf *bp = container_of(item, struct xfs_buf, b_lru);
Dave Chinner	a408235	2013-08-28 10:18:06 +1000	[diff] [blame]	1788	struct list_head *dispose = arg;
Dave Chinner	e80dfa1	2013-08-28 10:18:05 +1000	[diff] [blame]	1789
				1790	if (atomic_read(&bp->b_hold) > 1) {
Dave Chinner	a408235	2013-08-28 10:18:06 +1000	[diff] [blame]	1791	/* need to wait, so skip it this pass */
Dave Chinner	e80dfa1	2013-08-28 10:18:05 +1000	[diff] [blame]	1792	trace_xfs_buf_wait_buftarg(bp, _RET_IP_);
Dave Chinner	a408235	2013-08-28 10:18:06 +1000	[diff] [blame]	1793	return LRU_SKIP;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1794	}
Dave Chinner	a408235	2013-08-28 10:18:06 +1000	[diff] [blame]	1795	if (!spin_trylock(&bp->b_lock))
				1796	return LRU_SKIP;
Dave Chinner	e80dfa1	2013-08-28 10:18:05 +1000	[diff] [blame]	1797
Dave Chinner	a408235	2013-08-28 10:18:06 +1000	[diff] [blame]	1798	/*
				1799	* clear the LRU reference count so the buffer doesn't get
				1800	* ignored in xfs_buf_rele().
				1801	*/
				1802	atomic_set(&bp->b_lru_ref, 0);
				1803	bp->b_state \|= XFS_BSTATE_DISPOSE;
Vladimir Davydov	3f97b16	2015-02-12 14:59:35 -0800	[diff] [blame]	1804	list_lru_isolate_move(lru, item, dispose);
Dave Chinner	a408235	2013-08-28 10:18:06 +1000	[diff] [blame]	1805	spin_unlock(&bp->b_lock);
				1806	return LRU_REMOVED;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1807	}
				1808
Dave Chinner	e80dfa1	2013-08-28 10:18:05 +1000	[diff] [blame]	1809	void
				1810	xfs_wait_buftarg(
				1811	struct xfs_buftarg *btp)
				1812	{
Dave Chinner	a408235	2013-08-28 10:18:06 +1000	[diff] [blame]	1813	LIST_HEAD(dispose);
Brian Foster	61948b6	2020-05-06 13:25:21 -0700	[diff] [blame]	1814	int loop = 0;
				1815	bool write_fail = false;
Dave Chinner	a408235	2013-08-28 10:18:06 +1000	[diff] [blame]	1816
Dave Chinner	85bec54	2016-01-19 08:28:10 +1100	[diff] [blame]	1817	/*
Brian Foster	9c7504a	2016-07-20 11:15:28 +1000	[diff] [blame]	1818	* First wait on the buftarg I/O count for all in-flight buffers to be
				1819	* released. This is critical as new buffers do not make the LRU until
				1820	* they are released.
				1821	*
				1822	* Next, flush the buffer workqueue to ensure all completion processing
				1823	* has finished. Just waiting on buffer locks is not sufficient for
				1824	* async IO as the reference count held over IO is not released until
				1825	* after the buffer lock is dropped. Hence we need to ensure here that
				1826	* all reference counts have been dropped before we start walking the
				1827	* LRU list.
Dave Chinner	85bec54	2016-01-19 08:28:10 +1100	[diff] [blame]	1828	*/
Brian Foster	9c7504a	2016-07-20 11:15:28 +1000	[diff] [blame]	1829	while (percpu_counter_sum(&btp->bt_io_count))
				1830	delay(100);
Brian Foster	800b269	2016-08-26 16:01:59 +1000	[diff] [blame]	1831	flush_workqueue(btp->bt_mount->m_buf_workqueue);
Dave Chinner	85bec54	2016-01-19 08:28:10 +1100	[diff] [blame]	1832
Dave Chinner	a408235	2013-08-28 10:18:06 +1000	[diff] [blame]	1833	/* loop until there is nothing left on the lru list. */
				1834	while (list_lru_count(&btp->bt_lru)) {
Dave Chinner	e80dfa1	2013-08-28 10:18:05 +1000	[diff] [blame]	1835	list_lru_walk(&btp->bt_lru, xfs_buftarg_wait_rele,
Dave Chinner	a408235	2013-08-28 10:18:06 +1000	[diff] [blame]	1836	&dispose, LONG_MAX);
				1837
				1838	while (!list_empty(&dispose)) {
				1839	struct xfs_buf *bp;
				1840	bp = list_first_entry(&dispose, struct xfs_buf, b_lru);
				1841	list_del_init(&bp->b_lru);
Dave Chinner	ac8809f	2013-12-12 16:34:38 +1100	[diff] [blame]	1842	if (bp->b_flags & XBF_WRITE_FAIL) {
Brian Foster	61948b6	2020-05-06 13:25:21 -0700	[diff] [blame]	1843	write_fail = true;
				1844	xfs_buf_alert_ratelimited(bp,
				1845	"XFS: Corruption Alert",
Darrick J. Wong	c219b01	2018-01-08 11:39:18 -0800	[diff] [blame]	1846	"Corruption Alert: Buffer at daddr 0x%llx had permanent write failures!",
Dave Chinner	ac8809f	2013-12-12 16:34:38 +1100	[diff] [blame]	1847	(long long)bp->b_bn);
				1848	}
Dave Chinner	a408235	2013-08-28 10:18:06 +1000	[diff] [blame]	1849	xfs_buf_rele(bp);
				1850	}
				1851	if (loop++ != 0)
				1852	delay(100);
				1853	}
Brian Foster	61948b6	2020-05-06 13:25:21 -0700	[diff] [blame]	1854
				1855	/*
				1856	* If one or more failed buffers were freed, that means dirty metadata
				1857	* was thrown away. This should only ever happen after I/O completion
				1858	* handling has elevated I/O error(s) to permanent failures and shuts
				1859	* down the fs.
				1860	*/
				1861	if (write_fail) {
				1862	ASSERT(XFS_FORCED_SHUTDOWN(btp->bt_mount));
				1863	xfs_alert(btp->bt_mount,
				1864	"Please run xfs_repair to determine the extent of the problem.");
				1865	}
Dave Chinner	e80dfa1	2013-08-28 10:18:05 +1000	[diff] [blame]	1866	}
				1867
				1868	static enum lru_status
				1869	xfs_buftarg_isolate(
				1870	struct list_head *item,
Vladimir Davydov	3f97b16	2015-02-12 14:59:35 -0800	[diff] [blame]	1871	struct list_lru_one *lru,
Dave Chinner	e80dfa1	2013-08-28 10:18:05 +1000	[diff] [blame]	1872	spinlock_t *lru_lock,
				1873	void *arg)
				1874	{
				1875	struct xfs_buf *bp = container_of(item, struct xfs_buf, b_lru);
				1876	struct list_head *dispose = arg;
				1877
				1878	/*
Dave Chinner	a408235	2013-08-28 10:18:06 +1000	[diff] [blame]	1879	* we are inverting the lru lock/bp->b_lock here, so use a trylock.
				1880	* If we fail to get the lock, just skip it.
				1881	*/
				1882	if (!spin_trylock(&bp->b_lock))
				1883	return LRU_SKIP;
				1884	/*
Dave Chinner	e80dfa1	2013-08-28 10:18:05 +1000	[diff] [blame]	1885	* Decrement the b_lru_ref count unless the value is already
				1886	* zero. If the value is already zero, we need to reclaim the
				1887	* buffer, otherwise it gets another trip through the LRU.
				1888	*/
Vratislav Bendel	19957a1	2018-03-06 17:07:44 -0800	[diff] [blame]	1889	if (atomic_add_unless(&bp->b_lru_ref, -1, 0)) {
Dave Chinner	a408235	2013-08-28 10:18:06 +1000	[diff] [blame]	1890	spin_unlock(&bp->b_lock);
Dave Chinner	e80dfa1	2013-08-28 10:18:05 +1000	[diff] [blame]	1891	return LRU_ROTATE;
Dave Chinner	a408235	2013-08-28 10:18:06 +1000	[diff] [blame]	1892	}
Dave Chinner	e80dfa1	2013-08-28 10:18:05 +1000	[diff] [blame]	1893
Dave Chinner	a408235	2013-08-28 10:18:06 +1000	[diff] [blame]	1894	bp->b_state \|= XFS_BSTATE_DISPOSE;
Vladimir Davydov	3f97b16	2015-02-12 14:59:35 -0800	[diff] [blame]	1895	list_lru_isolate_move(lru, item, dispose);
Dave Chinner	a408235	2013-08-28 10:18:06 +1000	[diff] [blame]	1896	spin_unlock(&bp->b_lock);
Dave Chinner	e80dfa1	2013-08-28 10:18:05 +1000	[diff] [blame]	1897	return LRU_REMOVED;
				1898	}
				1899
Andrew Morton	addbda4	2013-08-28 10:18:06 +1000	[diff] [blame]	1900	static unsigned long
Dave Chinner	e80dfa1	2013-08-28 10:18:05 +1000	[diff] [blame]	1901	xfs_buftarg_shrink_scan(
Dave Chinner	ff57ab2	2010-11-30 17:27:57 +1100	[diff] [blame]	1902	struct shrinker *shrink,
Ying Han	1495f23	2011-05-24 17:12:27 -0700	[diff] [blame]	1903	struct shrink_control *sc)
David Chinner	a6867a6	2006-01-11 15:37:58 +1100	[diff] [blame]	1904	{
Dave Chinner	ff57ab2	2010-11-30 17:27:57 +1100	[diff] [blame]	1905	struct xfs_buftarg *btp = container_of(shrink,
				1906	struct xfs_buftarg, bt_shrinker);
Dave Chinner	430cbeb	2010-12-02 16:30:55 +1100	[diff] [blame]	1907	LIST_HEAD(dispose);
Andrew Morton	addbda4	2013-08-28 10:18:06 +1000	[diff] [blame]	1908	unsigned long freed;
Dave Chinner	430cbeb	2010-12-02 16:30:55 +1100	[diff] [blame]	1909
Vladimir Davydov	503c358	2015-02-12 14:58:47 -0800	[diff] [blame]	1910	freed = list_lru_shrink_walk(&btp->bt_lru, sc,
				1911	xfs_buftarg_isolate, &dispose);
Dave Chinner	430cbeb	2010-12-02 16:30:55 +1100	[diff] [blame]	1912
				1913	while (!list_empty(&dispose)) {
Dave Chinner	e80dfa1	2013-08-28 10:18:05 +1000	[diff] [blame]	1914	struct xfs_buf *bp;
Dave Chinner	430cbeb	2010-12-02 16:30:55 +1100	[diff] [blame]	1915	bp = list_first_entry(&dispose, struct xfs_buf, b_lru);
				1916	list_del_init(&bp->b_lru);
				1917	xfs_buf_rele(bp);
				1918	}
				1919
Dave Chinner	e80dfa1	2013-08-28 10:18:05 +1000	[diff] [blame]	1920	return freed;
				1921	}
				1922
Andrew Morton	addbda4	2013-08-28 10:18:06 +1000	[diff] [blame]	1923	static unsigned long
Dave Chinner	e80dfa1	2013-08-28 10:18:05 +1000	[diff] [blame]	1924	xfs_buftarg_shrink_count(
				1925	struct shrinker *shrink,
				1926	struct shrink_control *sc)
				1927	{
				1928	struct xfs_buftarg *btp = container_of(shrink,
				1929	struct xfs_buftarg, bt_shrinker);
Vladimir Davydov	503c358	2015-02-12 14:58:47 -0800	[diff] [blame]	1930	return list_lru_shrink_count(&btp->bt_lru, sc);
David Chinner	a6867a6	2006-01-11 15:37:58 +1100	[diff] [blame]	1931	}
				1932
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1933	void
				1934	xfs_free_buftarg(
Christoph Hellwig	b796313	2009-03-03 14:48:37 -0500	[diff] [blame]	1935	struct xfs_buftarg *btp)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1936	{
Dave Chinner	ff57ab2	2010-11-30 17:27:57 +1100	[diff] [blame]	1937	unregister_shrinker(&btp->bt_shrinker);
Brian Foster	9c7504a	2016-07-20 11:15:28 +1000	[diff] [blame]	1938	ASSERT(percpu_counter_sum(&btp->bt_io_count) == 0);
				1939	percpu_counter_destroy(&btp->bt_io_count);
Glauber Costa	f5e1dd3	2013-08-28 10:18:18 +1000	[diff] [blame]	1940	list_lru_destroy(&btp->bt_lru);
Dave Chinner	ff57ab2	2010-11-30 17:27:57 +1100	[diff] [blame]	1941
Dave Chinner	2291dab	2016-12-09 16:49:54 +1100	[diff] [blame]	1942	xfs_blkdev_issue_flush(btp);
David Chinner	a6867a6	2006-01-11 15:37:58 +1100	[diff] [blame]	1943
Denys Vlasenko	f0e2d93	2008-05-19 16:31:57 +1000	[diff] [blame]	1944	kmem_free(btp);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1945	}
				1946
Eric Sandeen	3fefdee	2013-11-13 14:53:45 -0600	[diff] [blame]	1947	int
				1948	xfs_setsize_buftarg(
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1949	xfs_buftarg_t *btp,
Eric Sandeen	3fefdee	2013-11-13 14:53:45 -0600	[diff] [blame]	1950	unsigned int sectorsize)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1951	{
Eric Sandeen	7c71ee7	2014-01-21 16:46:23 -0600	[diff] [blame]	1952	/* Set up metadata sector size info */
Eric Sandeen	6da5417	2014-01-21 16:45:52 -0600	[diff] [blame]	1953	btp->bt_meta_sectorsize = sectorsize;
				1954	btp->bt_meta_sectormask = sectorsize - 1;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1955
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	1956	if (set_blocksize(btp->bt_bdev, sectorsize)) {
Dave Chinner	4f10700	2011-03-07 10:00:35 +1100	[diff] [blame]	1957	xfs_warn(btp->bt_mount,
Dmitry Monakhov	a1c6f057	2015-04-13 16:31:37 +0400	[diff] [blame]	1958	"Cannot set_blocksize to %u on device %pg",
				1959	sectorsize, btp->bt_bdev);
Dave Chinner	2451337	2014-06-25 14:58:08 +1000	[diff] [blame]	1960	return -EINVAL;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1961	}
				1962
Eric Sandeen	7c71ee7	2014-01-21 16:46:23 -0600	[diff] [blame]	1963	/* Set up device logical sector size mask */
				1964	btp->bt_logical_sectorsize = bdev_logical_block_size(btp->bt_bdev);
				1965	btp->bt_logical_sectormask = bdev_logical_block_size(btp->bt_bdev) - 1;
				1966
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1967	return 0;
				1968	}
				1969
				1970	/*
Eric Sandeen	3fefdee	2013-11-13 14:53:45 -0600	[diff] [blame]	1971	* When allocating the initial buffer target we have not yet
				1972	* read in the superblock, so don't know what sized sectors
				1973	* are being used at this early stage. Play safe.
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	1974	*/
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1975	STATIC int
				1976	xfs_setsize_buftarg_early(
				1977	xfs_buftarg_t *btp,
				1978	struct block_device *bdev)
				1979	{
Eric Sandeen	a96c415	2014-04-14 19:00:29 +1000	[diff] [blame]	1980	return xfs_setsize_buftarg(btp, bdev_logical_block_size(bdev));
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1981	}
				1982
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1983	xfs_buftarg_t *
				1984	xfs_alloc_buftarg(
Dave Chinner	ebad861	2010-09-22 10:47:20 +1000	[diff] [blame]	1985	struct xfs_mount *mp,
Dan Williams	486aff5	2017-08-24 15:12:50 -0700	[diff] [blame]	1986	struct block_device *bdev,
				1987	struct dax_device *dax_dev)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1988	{
				1989	xfs_buftarg_t *btp;
				1990
Tetsuo Handa	707e0dd	2019-08-26 12:06:22 -0700	[diff] [blame]	1991	btp = kmem_zalloc(sizeof(*btp), KM_NOFS);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1992
Dave Chinner	ebad861	2010-09-22 10:47:20 +1000	[diff] [blame]	1993	btp->bt_mount = mp;
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	1994	btp->bt_dev = bdev->bd_dev;
				1995	btp->bt_bdev = bdev;
Dan Williams	486aff5	2017-08-24 15:12:50 -0700	[diff] [blame]	1996	btp->bt_daxdev = dax_dev;
Dave Chinner	0e6e847	2011-03-26 09:16:45 +1100	[diff] [blame]	1997
Brian Foster	f9bccfc	2020-05-06 13:25:21 -0700	[diff] [blame]	1998	/*
				1999	* Buffer IO error rate limiting. Limit it to no more than 10 messages
				2000	* per 30 seconds so as to not spam logs too much on repeated errors.
				2001	*/
				2002	ratelimit_state_init(&btp->bt_ioerror_rl, 30 * HZ,
				2003	DEFAULT_RATELIMIT_BURST);
				2004
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	2005	if (xfs_setsize_buftarg_early(btp, bdev))
Michal Hocko	d210a98	2017-11-23 17:13:40 +0100	[diff] [blame]	2006	goto error_free;
Glauber Costa	5ca302c	2013-08-28 10:18:18 +1000	[diff] [blame]	2007
				2008	if (list_lru_init(&btp->bt_lru))
Michal Hocko	d210a98	2017-11-23 17:13:40 +0100	[diff] [blame]	2009	goto error_free;
Glauber Costa	5ca302c	2013-08-28 10:18:18 +1000	[diff] [blame]	2010
Brian Foster	9c7504a	2016-07-20 11:15:28 +1000	[diff] [blame]	2011	if (percpu_counter_init(&btp->bt_io_count, 0, GFP_KERNEL))
Michal Hocko	d210a98	2017-11-23 17:13:40 +0100	[diff] [blame]	2012	goto error_lru;
Brian Foster	9c7504a	2016-07-20 11:15:28 +1000	[diff] [blame]	2013
Dave Chinner	e80dfa1	2013-08-28 10:18:05 +1000	[diff] [blame]	2014	btp->bt_shrinker.count_objects = xfs_buftarg_shrink_count;
				2015	btp->bt_shrinker.scan_objects = xfs_buftarg_shrink_scan;
Dave Chinner	ff57ab2	2010-11-30 17:27:57 +1100	[diff] [blame]	2016	btp->bt_shrinker.seeks = DEFAULT_SEEKS;
Dave Chinner	e80dfa1	2013-08-28 10:18:05 +1000	[diff] [blame]	2017	btp->bt_shrinker.flags = SHRINKER_NUMA_AWARE;
Michal Hocko	d210a98	2017-11-23 17:13:40 +0100	[diff] [blame]	2018	if (register_shrinker(&btp->bt_shrinker))
				2019	goto error_pcpu;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	2020	return btp;
				2021
Michal Hocko	d210a98	2017-11-23 17:13:40 +0100	[diff] [blame]	2022	error_pcpu:
				2023	percpu_counter_destroy(&btp->bt_io_count);
				2024	error_lru:
				2025	list_lru_destroy(&btp->bt_lru);
				2026	error_free:
Denys Vlasenko	f0e2d93	2008-05-19 16:31:57 +1000	[diff] [blame]	2027	kmem_free(btp);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	2028	return NULL;
				2029	}
				2030
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	2031	/*
Brian Foster	20e8a06	2017-04-21 12:40:44 -0700	[diff] [blame]	2032	* Cancel a delayed write list.
				2033	*
				2034	* Remove each buffer from the list, clear the delwri queue flag and drop the
				2035	* associated buffer reference.
				2036	*/
				2037	void
				2038	xfs_buf_delwri_cancel(
				2039	struct list_head *list)
				2040	{
				2041	struct xfs_buf *bp;
				2042
				2043	while (!list_empty(list)) {
				2044	bp = list_first_entry(list, struct xfs_buf, b_list);
				2045
				2046	xfs_buf_lock(bp);
				2047	bp->b_flags &= ~_XBF_DELWRI_Q;
				2048	list_del_init(&bp->b_list);
				2049	xfs_buf_relse(bp);
				2050	}
				2051	}
				2052
				2053	/*
Christoph Hellwig	43ff212	2012-04-23 15:58:39 +1000	[diff] [blame]	2054	* Add a buffer to the delayed write list.
				2055	*
				2056	* This queues a buffer for writeout if it hasn't already been. Note that
				2057	* neither this routine nor the buffer list submission functions perform
				2058	* any internal synchronization. It is expected that the lists are thread-local
				2059	* to the callers.
				2060	*
				2061	* Returns true if we queued up the buffer, or false if it already had
				2062	* been on the buffer list.
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	2063	*/
Christoph Hellwig	43ff212	2012-04-23 15:58:39 +1000	[diff] [blame]	2064	bool
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	2065	xfs_buf_delwri_queue(
Christoph Hellwig	43ff212	2012-04-23 15:58:39 +1000	[diff] [blame]	2066	struct xfs_buf *bp,
				2067	struct list_head *list)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	2068	{
Christoph Hellwig	43ff212	2012-04-23 15:58:39 +1000	[diff] [blame]	2069	ASSERT(xfs_buf_islocked(bp));
				2070	ASSERT(!(bp->b_flags & XBF_READ));
				2071
				2072	/*
				2073	* If the buffer is already marked delwri it already is queued up
				2074	* by someone else for imediate writeout. Just ignore it in that
				2075	* case.
				2076	*/
				2077	if (bp->b_flags & _XBF_DELWRI_Q) {
				2078	trace_xfs_buf_delwri_queued(bp, _RET_IP_);
				2079	return false;
				2080	}
David Chinner	a6867a6	2006-01-11 15:37:58 +1100	[diff] [blame]	2081
Christoph Hellwig	0b1b213	2009-12-14 23:14:59 +0000	[diff] [blame]	2082	trace_xfs_buf_delwri_queue(bp, _RET_IP_);
				2083
Dave Chinner	d808f61	2010-02-02 10:13:42 +1100	[diff] [blame]	2084	/*
Christoph Hellwig	43ff212	2012-04-23 15:58:39 +1000	[diff] [blame]	2085	* If a buffer gets written out synchronously or marked stale while it
				2086	* is on a delwri list we lazily remove it. To do this, the other party
				2087	* clears the _XBF_DELWRI_Q flag but otherwise leaves the buffer alone.
				2088	* It remains referenced and on the list. In a rare corner case it
				2089	* might get readded to a delwri list after the synchronous writeout, in
				2090	* which case we need just need to re-add the flag here.
Dave Chinner	d808f61	2010-02-02 10:13:42 +1100	[diff] [blame]	2091	*/
Christoph Hellwig	43ff212	2012-04-23 15:58:39 +1000	[diff] [blame]	2092	bp->b_flags \|= _XBF_DELWRI_Q;
				2093	if (list_empty(&bp->b_list)) {
				2094	atomic_inc(&bp->b_hold);
				2095	list_add_tail(&bp->b_list, list);
David Chinner	585e6d8	2007-02-10 18:32:29 +1100	[diff] [blame]	2096	}
David Chinner	585e6d8	2007-02-10 18:32:29 +1100	[diff] [blame]	2097
Christoph Hellwig	43ff212	2012-04-23 15:58:39 +1000	[diff] [blame]	2098	return true;
David Chinner	585e6d8	2007-02-10 18:32:29 +1100	[diff] [blame]	2099	}
				2100
Dave Chinner	089716a	2010-01-26 15:13:25 +1100	[diff] [blame]	2101	/*
				2102	* Compare function is more complex than it needs to be because
				2103	* the return value is only 32 bits and we are doing comparisons
				2104	* on 64 bit values
				2105	*/
				2106	static int
				2107	xfs_buf_cmp(
				2108	void *priv,
				2109	struct list_head *a,
				2110	struct list_head *b)
				2111	{
				2112	struct xfs_buf *ap = container_of(a, struct xfs_buf, b_list);
				2113	struct xfs_buf *bp = container_of(b, struct xfs_buf, b_list);
				2114	xfs_daddr_t diff;
				2115
Mark Tinguely	f4b4242	2012-12-04 17:18:02 -0600	[diff] [blame]	2116	diff = ap->b_maps[0].bm_bn - bp->b_maps[0].bm_bn;
Dave Chinner	089716a	2010-01-26 15:13:25 +1100	[diff] [blame]	2117	if (diff < 0)
				2118	return -1;
				2119	if (diff > 0)
				2120	return 1;
				2121	return 0;
				2122	}
				2123
Dave Chinner	26f1fe8	2016-06-01 17:38:15 +1000	[diff] [blame]	2124	/*
Brian Foster	e339dd8	2018-07-11 22:26:34 -0700	[diff] [blame]	2125	* Submit buffers for write. If wait_list is specified, the buffers are
				2126	* submitted using sync I/O and placed on the wait list such that the caller can
				2127	* iowait each buffer. Otherwise async I/O is used and the buffers are released
				2128	* at I/O completion time. In either case, buffers remain locked until I/O
				2129	* completes and the buffer is released from the queue.
Dave Chinner	26f1fe8	2016-06-01 17:38:15 +1000	[diff] [blame]	2130	*/
Christoph Hellwig	43ff212	2012-04-23 15:58:39 +1000	[diff] [blame]	2131	static int
Dave Chinner	26f1fe8	2016-06-01 17:38:15 +1000	[diff] [blame]	2132	xfs_buf_delwri_submit_buffers(
Christoph Hellwig	43ff212	2012-04-23 15:58:39 +1000	[diff] [blame]	2133	struct list_head *buffer_list,
Dave Chinner	26f1fe8	2016-06-01 17:38:15 +1000	[diff] [blame]	2134	struct list_head *wait_list)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	2135	{
Christoph Hellwig	43ff212	2012-04-23 15:58:39 +1000	[diff] [blame]	2136	struct xfs_buf bp, n;
				2137	int pinned = 0;
Dave Chinner	26f1fe8	2016-06-01 17:38:15 +1000	[diff] [blame]	2138	struct blk_plug plug;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	2139
Dave Chinner	26f1fe8	2016-06-01 17:38:15 +1000	[diff] [blame]	2140	list_sort(NULL, buffer_list, xfs_buf_cmp);
				2141
				2142	blk_start_plug(&plug);
Christoph Hellwig	43ff212	2012-04-23 15:58:39 +1000	[diff] [blame]	2143	list_for_each_entry_safe(bp, n, buffer_list, b_list) {
Dave Chinner	26f1fe8	2016-06-01 17:38:15 +1000	[diff] [blame]	2144	if (!wait_list) {
Christoph Hellwig	43ff212	2012-04-23 15:58:39 +1000	[diff] [blame]	2145	if (xfs_buf_ispinned(bp)) {
				2146	pinned++;
				2147	continue;
				2148	}
				2149	if (!xfs_buf_trylock(bp))
				2150	continue;
				2151	} else {
				2152	xfs_buf_lock(bp);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	2153	}
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	2154
Christoph Hellwig	43ff212	2012-04-23 15:58:39 +1000	[diff] [blame]	2155	/*
				2156	* Someone else might have written the buffer synchronously or
				2157	* marked it stale in the meantime. In that case only the
				2158	* _XBF_DELWRI_Q flag got cleared, and we have to drop the
				2159	* reference and remove it from the list here.
				2160	*/
				2161	if (!(bp->b_flags & _XBF_DELWRI_Q)) {
				2162	list_del_init(&bp->b_list);
				2163	xfs_buf_relse(bp);
				2164	continue;
				2165	}
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	2166
Christoph Hellwig	43ff212	2012-04-23 15:58:39 +1000	[diff] [blame]	2167	trace_xfs_buf_delwri_split(bp, _RET_IP_);
Christoph Hellwig	43ff212	2012-04-23 15:58:39 +1000	[diff] [blame]	2168
Dave Chinner	cf53e99	2014-10-02 09:04:01 +1000	[diff] [blame]	2169	/*
Brian Foster	e339dd8	2018-07-11 22:26:34 -0700	[diff] [blame]	2170	* If we have a wait list, each buffer (and associated delwri
				2171	* queue reference) transfers to it and is submitted
				2172	* synchronously. Otherwise, drop the buffer from the delwri
				2173	* queue and submit async.
Dave Chinner	cf53e99	2014-10-02 09:04:01 +1000	[diff] [blame]	2174	*/
Brian Foster	b6983e8	2020-05-06 13:25:20 -0700	[diff] [blame]	2175	bp->b_flags &= ~_XBF_DELWRI_Q;
Brian Foster	e339dd8	2018-07-11 22:26:34 -0700	[diff] [blame]	2176	bp->b_flags \|= XBF_WRITE;
Dave Chinner	26f1fe8	2016-06-01 17:38:15 +1000	[diff] [blame]	2177	if (wait_list) {
Brian Foster	e339dd8	2018-07-11 22:26:34 -0700	[diff] [blame]	2178	bp->b_flags &= ~XBF_ASYNC;
Dave Chinner	26f1fe8	2016-06-01 17:38:15 +1000	[diff] [blame]	2179	list_move_tail(&bp->b_list, wait_list);
Brian Foster	e339dd8	2018-07-11 22:26:34 -0700	[diff] [blame]	2180	} else {
				2181	bp->b_flags \|= XBF_ASYNC;
Christoph Hellwig	43ff212	2012-04-23 15:58:39 +1000	[diff] [blame]	2182	list_del_init(&bp->b_list);
Brian Foster	e339dd8	2018-07-11 22:26:34 -0700	[diff] [blame]	2183	}
Brian Foster	6af88cd	2018-07-11 22:26:35 -0700	[diff] [blame]	2184	__xfs_buf_submit(bp, false);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	2185	}
Christoph Hellwig	a1b7ea5	2011-03-30 11:05:09 +0000	[diff] [blame]	2186	blk_finish_plug(&plug);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	2187
Christoph Hellwig	43ff212	2012-04-23 15:58:39 +1000	[diff] [blame]	2188	return pinned;
				2189	}
Nathan Scott	f07c225	2006-09-28 10:52:15 +1000	[diff] [blame]	2190
Christoph Hellwig	43ff212	2012-04-23 15:58:39 +1000	[diff] [blame]	2191	/*
				2192	* Write out a buffer list asynchronously.
				2193	*
				2194	* This will take the @buffer_list, write all non-locked and non-pinned buffers
				2195	* out and not wait for I/O completion on any of the buffers. This interface
				2196	* is only safely useable for callers that can track I/O completion by higher
				2197	* level means, e.g. AIL pushing as the @buffer_list is consumed in this
				2198	* function.
Brian Foster	efc3289	2018-10-18 17:21:49 +1100	[diff] [blame]	2199	*
				2200	* Note: this function will skip buffers it would block on, and in doing so
				2201	* leaves them on @buffer_list so they can be retried on a later pass. As such,
				2202	* it is up to the caller to ensure that the buffer list is fully submitted or
				2203	* cancelled appropriately when they are finished with the list. Failure to
				2204	* cancel or resubmit the list until it is empty will result in leaked buffers
				2205	* at unmount time.
Christoph Hellwig	43ff212	2012-04-23 15:58:39 +1000	[diff] [blame]	2206	*/
				2207	int
				2208	xfs_buf_delwri_submit_nowait(
				2209	struct list_head *buffer_list)
				2210	{
Dave Chinner	26f1fe8	2016-06-01 17:38:15 +1000	[diff] [blame]	2211	return xfs_buf_delwri_submit_buffers(buffer_list, NULL);
Christoph Hellwig	43ff212	2012-04-23 15:58:39 +1000	[diff] [blame]	2212	}
				2213
				2214	/*
				2215	* Write out a buffer list synchronously.
				2216	*
				2217	* This will take the @buffer_list, write all buffers out and wait for I/O
				2218	* completion on all of the buffers. @buffer_list is consumed by the function,
				2219	* so callers must have some other way of tracking buffers if they require such
				2220	* functionality.
				2221	*/
				2222	int
				2223	xfs_buf_delwri_submit(
				2224	struct list_head *buffer_list)
				2225	{
Dave Chinner	26f1fe8	2016-06-01 17:38:15 +1000	[diff] [blame]	2226	LIST_HEAD (wait_list);
Christoph Hellwig	43ff212	2012-04-23 15:58:39 +1000	[diff] [blame]	2227	int error = 0, error2;
				2228	struct xfs_buf *bp;
				2229
Dave Chinner	26f1fe8	2016-06-01 17:38:15 +1000	[diff] [blame]	2230	xfs_buf_delwri_submit_buffers(buffer_list, &wait_list);
Christoph Hellwig	43ff212	2012-04-23 15:58:39 +1000	[diff] [blame]	2231
				2232	/* Wait for IO to complete. */
Dave Chinner	26f1fe8	2016-06-01 17:38:15 +1000	[diff] [blame]	2233	while (!list_empty(&wait_list)) {
				2234	bp = list_first_entry(&wait_list, struct xfs_buf, b_list);
Christoph Hellwig	43ff212	2012-04-23 15:58:39 +1000	[diff] [blame]	2235
				2236	list_del_init(&bp->b_list);
Dave Chinner	cf53e99	2014-10-02 09:04:01 +1000	[diff] [blame]	2237
Brian Foster	e339dd8	2018-07-11 22:26:34 -0700	[diff] [blame]	2238	/*
				2239	* Wait on the locked buffer, check for errors and unlock and
				2240	* release the delwri queue reference.
				2241	*/
				2242	error2 = xfs_buf_iowait(bp);
Christoph Hellwig	43ff212	2012-04-23 15:58:39 +1000	[diff] [blame]	2243	xfs_buf_relse(bp);
				2244	if (!error)
				2245	error = error2;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	2246	}
				2247
Christoph Hellwig	43ff212	2012-04-23 15:58:39 +1000	[diff] [blame]	2248	return error;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	2249	}
				2250
Brian Foster	7912e7f	2017-06-14 21:21:45 -0700	[diff] [blame]	2251	/*
				2252	* Push a single buffer on a delwri queue.
				2253	*
				2254	* The purpose of this function is to submit a single buffer of a delwri queue
				2255	* and return with the buffer still on the original queue. The waiting delwri
				2256	* buffer submission infrastructure guarantees transfer of the delwri queue
				2257	* buffer reference to a temporary wait list. We reuse this infrastructure to
				2258	* transfer the buffer back to the original queue.
				2259	*
				2260	* Note the buffer transitions from the queued state, to the submitted and wait
				2261	* listed state and back to the queued state during this call. The buffer
				2262	* locking and queue management logic between _delwri_pushbuf() and
				2263	* _delwri_queue() guarantee that the buffer cannot be queued to another list
				2264	* before returning.
				2265	*/
				2266	int
				2267	xfs_buf_delwri_pushbuf(
				2268	struct xfs_buf *bp,
				2269	struct list_head *buffer_list)
				2270	{
				2271	LIST_HEAD (submit_list);
				2272	int error;
				2273
				2274	ASSERT(bp->b_flags & _XBF_DELWRI_Q);
				2275
				2276	trace_xfs_buf_delwri_pushbuf(bp, _RET_IP_);
				2277
				2278	/*
				2279	* Isolate the buffer to a new local list so we can submit it for I/O
				2280	* independently from the rest of the original list.
				2281	*/
				2282	xfs_buf_lock(bp);
				2283	list_move(&bp->b_list, &submit_list);
				2284	xfs_buf_unlock(bp);
				2285
				2286	/*
				2287	* Delwri submission clears the DELWRI_Q buffer flag and returns with
Brian Foster	e339dd8	2018-07-11 22:26:34 -0700	[diff] [blame]	2288	* the buffer on the wait list with the original reference. Rather than
Brian Foster	7912e7f	2017-06-14 21:21:45 -0700	[diff] [blame]	2289	* bounce the buffer from a local wait list back to the original list
				2290	* after I/O completion, reuse the original list as the wait list.
				2291	*/
				2292	xfs_buf_delwri_submit_buffers(&submit_list, buffer_list);
				2293
				2294	/*
Brian Foster	e339dd8	2018-07-11 22:26:34 -0700	[diff] [blame]	2295	* The buffer is now locked, under I/O and wait listed on the original
				2296	* delwri queue. Wait for I/O completion, restore the DELWRI_Q flag and
				2297	* return with the buffer unlocked and on the original queue.
Brian Foster	7912e7f	2017-06-14 21:21:45 -0700	[diff] [blame]	2298	*/
Brian Foster	e339dd8	2018-07-11 22:26:34 -0700	[diff] [blame]	2299	error = xfs_buf_iowait(bp);
Brian Foster	7912e7f	2017-06-14 21:21:45 -0700	[diff] [blame]	2300	bp->b_flags \|= _XBF_DELWRI_Q;
				2301	xfs_buf_unlock(bp);
				2302
				2303	return error;
				2304	}
				2305
Christoph Hellwig	04d8b28	2005-11-02 10:15:05 +1100	[diff] [blame]	2306	int __init
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	2307	xfs_buf_init(void)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	2308	{
Dave Chinner	12eba65	2020-03-24 20:10:28 -0700	[diff] [blame]	2309	xfs_buf_zone = kmem_cache_create("xfs_buf", sizeof(struct xfs_buf), 0,
				2310	SLAB_HWCACHE_ALIGN \|
				2311	SLAB_RECLAIM_ACCOUNT \|
				2312	SLAB_MEM_SPREAD,
				2313	NULL);
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	2314	if (!xfs_buf_zone)
Christoph Hellwig	0b1b213	2009-12-14 23:14:59 +0000	[diff] [blame]	2315	goto out;
Christoph Hellwig	04d8b28	2005-11-02 10:15:05 +1100	[diff] [blame]	2316
Christoph Hellwig	23ea403	2005-06-21 15:14:01 +1000	[diff] [blame]	2317	return 0;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	2318
Christoph Hellwig	0b1b213	2009-12-14 23:14:59 +0000	[diff] [blame]	2319	out:
Nathan Scott	8758280	2006-03-14 13:18:19 +1100	[diff] [blame]	2320	return -ENOMEM;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	2321	}
				2322
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	2323	void
Nathan Scott	ce8e922	2006-01-11 15:39:08 +1100	[diff] [blame]	2324	xfs_buf_terminate(void)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	2325	{
Carlos Maiolino	aaf54eb	2019-11-14 12:43:04 -0800	[diff] [blame]	2326	kmem_cache_destroy(xfs_buf_zone);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	2327	}
Brian Foster	7561d27	2017-10-17 14:16:29 -0700	[diff] [blame]	2328
				2329	void xfs_buf_set_ref(struct xfs_buf *bp, int lru_ref)
				2330	{
Brian Foster	7561d27	2017-10-17 14:16:29 -0700	[diff] [blame]	2331	/*
				2332	* Set the lru reference count to 0 based on the error injection tag.
				2333	* This allows userspace to disrupt buffer caching for debug/testing
				2334	* purposes.
				2335	*/
Christoph Hellwig	dbd329f1	2019-06-28 19:27:29 -0700	[diff] [blame]	2336	if (XFS_TEST_ERROR(false, bp->b_mount, XFS_ERRTAG_BUF_LRU_REF))
Brian Foster	7561d27	2017-10-17 14:16:29 -0700	[diff] [blame]	2337	lru_ref = 0;
				2338
				2339	atomic_set(&bp->b_lru_ref, lru_ref);
				2340	}
Brian Foster	8473fee	2019-02-07 10:45:46 -0800	[diff] [blame]	2341
				2342	/*
				2343	* Verify an on-disk magic value against the magic value specified in the
				2344	* verifier structure. The verifier magic is in disk byte order so the caller is
				2345	* expected to pass the value directly from disk.
				2346	*/
				2347	bool
				2348	xfs_verify_magic(
				2349	struct xfs_buf *bp,
Darrick J. Wong	15baadf	2019-02-16 11:47:28 -0800	[diff] [blame]	2350	__be32 dmagic)
Brian Foster	8473fee	2019-02-07 10:45:46 -0800	[diff] [blame]	2351	{
Christoph Hellwig	dbd329f1	2019-06-28 19:27:29 -0700	[diff] [blame]	2352	struct xfs_mount *mp = bp->b_mount;
Brian Foster	8473fee	2019-02-07 10:45:46 -0800	[diff] [blame]	2353	int idx;
				2354
				2355	idx = xfs_sb_version_hascrc(&mp->m_sb);
Denis Efremov	14ed868	2019-09-25 16:49:37 -0700	[diff] [blame]	2356	if (WARN_ON(!bp->b_ops \|\| !bp->b_ops->magic[idx]))
Brian Foster	8473fee	2019-02-07 10:45:46 -0800	[diff] [blame]	2357	return false;
				2358	return dmagic == bp->b_ops->magic[idx];
				2359	}
Darrick J. Wong	15baadf	2019-02-16 11:47:28 -0800	[diff] [blame]	2360	/*
				2361	* Verify an on-disk magic value against the magic value specified in the
				2362	* verifier structure. The verifier magic is in disk byte order so the caller is
				2363	* expected to pass the value directly from disk.
				2364	*/
				2365	bool
				2366	xfs_verify_magic16(
				2367	struct xfs_buf *bp,
				2368	__be16 dmagic)
				2369	{
Christoph Hellwig	dbd329f1	2019-06-28 19:27:29 -0700	[diff] [blame]	2370	struct xfs_mount *mp = bp->b_mount;
Darrick J. Wong	15baadf	2019-02-16 11:47:28 -0800	[diff] [blame]	2371	int idx;
				2372
				2373	idx = xfs_sb_version_hascrc(&mp->m_sb);
Denis Efremov	14ed868	2019-09-25 16:49:37 -0700	[diff] [blame]	2374	if (WARN_ON(!bp->b_ops \|\| !bp->b_ops->magic16[idx]))
Darrick J. Wong	15baadf	2019-02-16 11:47:28 -0800	[diff] [blame]	2375	return false;
				2376	return dmagic == bp->b_ops->magic16[idx];
				2377	}