Git Repo - qemu.git/blame_incremental

... / ...

Commit	Line	Data
	1	/*
	2	* QEMU KVM support
	3	*
	4	* Copyright IBM, Corp. 2008
	5	* Red Hat, Inc. 2008
	6	*
	7	* Authors:
	8	* Anthony Liguori <[email protected]>
	9	* Glauber Costa <[email protected]>
	10	*
	11	* This work is licensed under the terms of the GNU GPL, version 2 or later.
	12	* See the COPYING file in the top-level directory.
	13	*
	14	*/
	15
	16	#include <sys/types.h>
	17	#include <sys/ioctl.h>
	18	#include <sys/mman.h>
	19	#include <stdarg.h>
	20
	21	#include <linux/kvm.h>
	22
	23	#include "qemu-common.h"
	24	#include "qemu/atomic.h"
	25	#include "qemu/option.h"
	26	#include "qemu/config-file.h"
	27	#include "sysemu/sysemu.h"
	28	#include "hw/hw.h"
	29	#include "hw/pci/msi.h"
	30	#include "hw/s390x/adapter.h"
	31	#include "exec/gdbstub.h"
	32	#include "sysemu/kvm.h"
	33	#include "qemu/bswap.h"
	34	#include "exec/memory.h"
	35	#include "exec/ram_addr.h"
	36	#include "exec/address-spaces.h"
	37	#include "qemu/event_notifier.h"
	38	#include "trace.h"
	39
	40	#include "hw/boards.h"
	41
	42	/* This check must be after config-host.h is included */
	43	#ifdef CONFIG_EVENTFD
	44	#include <sys/eventfd.h>
	45	#endif
	46
	47	#ifdef CONFIG_VALGRIND_H
	48	#include <valgrind/memcheck.h>
	49	#endif
	50
	51	/* KVM uses PAGE_SIZE in its definition of COALESCED_MMIO_MAX */
	52	#define PAGE_SIZE TARGET_PAGE_SIZE
	53
	54	//#define DEBUG_KVM
	55
	56	#ifdef DEBUG_KVM
	57	#define DPRINTF(fmt, ...) \
	58	do { fprintf(stderr, fmt, ## __VA_ARGS__); } while (0)
	59	#else
	60	#define DPRINTF(fmt, ...) \
	61	do { } while (0)
	62	#endif
	63
	64	#define KVM_MSI_HASHTAB_SIZE 256
	65
	66	typedef struct KVMSlot
	67	{
	68	hwaddr start_addr;
	69	ram_addr_t memory_size;
	70	void *ram;
	71	int slot;
	72	int flags;
	73	} KVMSlot;
	74
	75	typedef struct kvm_dirty_log KVMDirtyLog;
	76
	77	struct KVMState
	78	{
	79	KVMSlot *slots;
	80	int nr_slots;
	81	int fd;
	82	int vmfd;
	83	int coalesced_mmio;
	84	struct kvm_coalesced_mmio_ring *coalesced_mmio_ring;
	85	bool coalesced_flush_in_progress;
	86	int broken_set_mem_region;
	87	int migration_log;
	88	int vcpu_events;
	89	int robust_singlestep;
	90	int debugregs;
	91	#ifdef KVM_CAP_SET_GUEST_DEBUG
	92	struct kvm_sw_breakpoint_head kvm_sw_breakpoints;
	93	#endif
	94	int pit_state2;
	95	int xsave, xcrs;
	96	int many_ioeventfds;
	97	int intx_set_mask;
	98	/* The man page (and posix) say ioctl numbers are signed int, but
	99	* they're not. Linux, glibc and *BSD all treat ioctl numbers as
	100	* unsigned, and treating them as signed here can break things */
	101	unsigned irq_set_ioctl;
	102	#ifdef KVM_CAP_IRQ_ROUTING
	103	struct kvm_irq_routing *irq_routes;
	104	int nr_allocated_irq_routes;
	105	uint32_t *used_gsi_bitmap;
	106	unsigned int gsi_count;
	107	QTAILQ_HEAD(msi_hashtab, KVMMSIRoute) msi_hashtab[KVM_MSI_HASHTAB_SIZE];
	108	bool direct_msi;
	109	#endif
	110	};
	111
	112	KVMState *kvm_state;
	113	bool kvm_kernel_irqchip;
	114	bool kvm_async_interrupts_allowed;
	115	bool kvm_halt_in_kernel_allowed;
	116	bool kvm_eventfds_allowed;
	117	bool kvm_irqfds_allowed;
	118	bool kvm_msi_via_irqfd_allowed;
	119	bool kvm_gsi_routing_allowed;
	120	bool kvm_gsi_direct_mapping;
	121	bool kvm_allowed;
	122	bool kvm_readonly_mem_allowed;
	123
	124	static const KVMCapabilityInfo kvm_required_capabilites[] = {
	125	KVM_CAP_INFO(USER_MEMORY),
	126	KVM_CAP_INFO(DESTROY_MEMORY_REGION_WORKS),
	127	KVM_CAP_LAST_INFO
	128	};
	129
	130	static KVMSlot kvm_alloc_slot(KVMState s)
	131	{
	132	int i;
	133
	134	for (i = 0; i < s->nr_slots; i++) {
	135	if (s->slots[i].memory_size == 0) {
	136	return &s->slots[i];
	137	}
	138	}
	139
	140	fprintf(stderr, "%s: no free slot available\n", __func__);
	141	abort();
	142	}
	143
	144	static KVMSlot kvm_lookup_matching_slot(KVMState s,
	145	hwaddr start_addr,
	146	hwaddr end_addr)
	147	{
	148	int i;
	149
	150	for (i = 0; i < s->nr_slots; i++) {
	151	KVMSlot *mem = &s->slots[i];
	152
	153	if (start_addr == mem->start_addr &&
	154	end_addr == mem->start_addr + mem->memory_size) {
	155	return mem;
	156	}
	157	}
	158
	159	return NULL;
	160	}
	161
	162	/*
	163	* Find overlapping slot with lowest start address
	164	*/
	165	static KVMSlot kvm_lookup_overlapping_slot(KVMState s,
	166	hwaddr start_addr,
	167	hwaddr end_addr)
	168	{
	169	KVMSlot *found = NULL;
	170	int i;
	171
	172	for (i = 0; i < s->nr_slots; i++) {
	173	KVMSlot *mem = &s->slots[i];
	174
	175	if (mem->memory_size == 0 \|\|
	176	(found && found->start_addr < mem->start_addr)) {
	177	continue;
	178	}
	179
	180	if (end_addr > mem->start_addr &&
	181	start_addr < mem->start_addr + mem->memory_size) {
	182	found = mem;
	183	}
	184	}
	185
	186	return found;
	187	}
	188
	189	int kvm_physical_memory_addr_from_host(KVMState s, void ram,
	190	hwaddr *phys_addr)
	191	{
	192	int i;
	193
	194	for (i = 0; i < s->nr_slots; i++) {
	195	KVMSlot *mem = &s->slots[i];
	196
	197	if (ram >= mem->ram && ram < mem->ram + mem->memory_size) {
	198	*phys_addr = mem->start_addr + (ram - mem->ram);
	199	return 1;
	200	}
	201	}
	202
	203	return 0;
	204	}
	205
	206	static int kvm_set_user_memory_region(KVMState s, KVMSlot slot)
	207	{
	208	struct kvm_userspace_memory_region mem;
	209
	210	mem.slot = slot->slot;
	211	mem.guest_phys_addr = slot->start_addr;
	212	mem.userspace_addr = (unsigned long)slot->ram;
	213	mem.flags = slot->flags;
	214	if (s->migration_log) {
	215	mem.flags \|= KVM_MEM_LOG_DIRTY_PAGES;
	216	}
	217
	218	if (slot->memory_size && mem.flags & KVM_MEM_READONLY) {
	219	/* Set the slot size to 0 before setting the slot to the desired
	220	* value. This is needed based on KVM commit 75d61fbc. */
	221	mem.memory_size = 0;
	222	kvm_vm_ioctl(s, KVM_SET_USER_MEMORY_REGION, &mem);
	223	}
	224	mem.memory_size = slot->memory_size;
	225	return kvm_vm_ioctl(s, KVM_SET_USER_MEMORY_REGION, &mem);
	226	}
	227
	228	int kvm_init_vcpu(CPUState *cpu)
	229	{
	230	KVMState *s = kvm_state;
	231	long mmap_size;
	232	int ret;
	233
	234	DPRINTF("kvm_init_vcpu\n");
	235
	236	ret = kvm_vm_ioctl(s, KVM_CREATE_VCPU, (void *)kvm_arch_vcpu_id(cpu));
	237	if (ret < 0) {
	238	DPRINTF("kvm_create_vcpu failed\n");
	239	goto err;
	240	}
	241
	242	cpu->kvm_fd = ret;
	243	cpu->kvm_state = s;
	244	cpu->kvm_vcpu_dirty = true;
	245
	246	mmap_size = kvm_ioctl(s, KVM_GET_VCPU_MMAP_SIZE, 0);
	247	if (mmap_size < 0) {
	248	ret = mmap_size;
	249	DPRINTF("KVM_GET_VCPU_MMAP_SIZE failed\n");
	250	goto err;
	251	}
	252
	253	cpu->kvm_run = mmap(NULL, mmap_size, PROT_READ \| PROT_WRITE, MAP_SHARED,
	254	cpu->kvm_fd, 0);
	255	if (cpu->kvm_run == MAP_FAILED) {
	256	ret = -errno;
	257	DPRINTF("mmap'ing vcpu state failed\n");
	258	goto err;
	259	}
	260
	261	if (s->coalesced_mmio && !s->coalesced_mmio_ring) {
	262	s->coalesced_mmio_ring =
	263	(void )cpu->kvm_run + s->coalesced_mmio PAGE_SIZE;
	264	}
	265
	266	ret = kvm_arch_init_vcpu(cpu);
	267	err:
	268	return ret;
	269	}
	270
	271	/*
	272	* dirty pages logging control
	273	*/
	274
	275	static int kvm_mem_flags(KVMState *s, bool log_dirty, bool readonly)
	276	{
	277	int flags = 0;
	278	flags = log_dirty ? KVM_MEM_LOG_DIRTY_PAGES : 0;
	279	if (readonly && kvm_readonly_mem_allowed) {
	280	flags \|= KVM_MEM_READONLY;
	281	}
	282	return flags;
	283	}
	284
	285	static int kvm_slot_dirty_pages_log_change(KVMSlot *mem, bool log_dirty)
	286	{
	287	KVMState *s = kvm_state;
	288	int flags, mask = KVM_MEM_LOG_DIRTY_PAGES;
	289	int old_flags;
	290
	291	old_flags = mem->flags;
	292
	293	flags = (mem->flags & ~mask) \| kvm_mem_flags(s, log_dirty, false);
	294	mem->flags = flags;
	295
	296	/* If nothing changed effectively, no need to issue ioctl */
	297	if (s->migration_log) {
	298	flags \|= KVM_MEM_LOG_DIRTY_PAGES;
	299	}
	300
	301	if (flags == old_flags) {
	302	return 0;
	303	}
	304
	305	return kvm_set_user_memory_region(s, mem);
	306	}
	307
	308	static int kvm_dirty_pages_log_change(hwaddr phys_addr,
	309	ram_addr_t size, bool log_dirty)
	310	{
	311	KVMState *s = kvm_state;
	312	KVMSlot *mem = kvm_lookup_matching_slot(s, phys_addr, phys_addr + size);
	313
	314	if (mem == NULL) {
	315	fprintf(stderr, "BUG: %s: invalid parameters " TARGET_FMT_plx "-"
	316	TARGET_FMT_plx "\n", __func__, phys_addr,
	317	(hwaddr)(phys_addr + size - 1));
	318	return -EINVAL;
	319	}
	320	return kvm_slot_dirty_pages_log_change(mem, log_dirty);
	321	}
	322
	323	static void kvm_log_start(MemoryListener *listener,
	324	MemoryRegionSection *section)
	325	{
	326	int r;
	327
	328	r = kvm_dirty_pages_log_change(section->offset_within_address_space,
	329	int128_get64(section->size), true);
	330	if (r < 0) {
	331	abort();
	332	}
	333	}
	334
	335	static void kvm_log_stop(MemoryListener *listener,
	336	MemoryRegionSection *section)
	337	{
	338	int r;
	339
	340	r = kvm_dirty_pages_log_change(section->offset_within_address_space,
	341	int128_get64(section->size), false);
	342	if (r < 0) {
	343	abort();
	344	}
	345	}
	346
	347	static int kvm_set_migration_log(int enable)
	348	{
	349	KVMState *s = kvm_state;
	350	KVMSlot *mem;
	351	int i, err;
	352
	353	s->migration_log = enable;
	354
	355	for (i = 0; i < s->nr_slots; i++) {
	356	mem = &s->slots[i];
	357
	358	if (!mem->memory_size) {
	359	continue;
	360	}
	361	if (!!(mem->flags & KVM_MEM_LOG_DIRTY_PAGES) == enable) {
	362	continue;
	363	}
	364	err = kvm_set_user_memory_region(s, mem);
	365	if (err) {
	366	return err;
	367	}
	368	}
	369	return 0;
	370	}
	371
	372	/* get kvm's dirty pages bitmap and update qemu's */
	373	static int kvm_get_dirty_pages_log_range(MemoryRegionSection *section,
	374	unsigned long *bitmap)
	375	{
	376	ram_addr_t start = section->offset_within_region + section->mr->ram_addr;
	377	ram_addr_t pages = int128_get64(section->size) / getpagesize();
	378
	379	cpu_physical_memory_set_dirty_lebitmap(bitmap, start, pages);
	380	return 0;
	381	}
	382
	383	#define ALIGN(x, y) (((x)+(y)-1) & ~((y)-1))
	384
	385	/**
	386	* kvm_physical_sync_dirty_bitmap - Grab dirty bitmap from kernel space
	387	* This function updates qemu's dirty bitmap using
	388	* memory_region_set_dirty(). This means all bits are set
	389	* to dirty.
	390	*
	391	* @start_add: start of logged region.
	392	* @end_addr: end of logged region.
	393	*/
	394	static int kvm_physical_sync_dirty_bitmap(MemoryRegionSection *section)
	395	{
	396	KVMState *s = kvm_state;
	397	unsigned long size, allocated_size = 0;
	398	KVMDirtyLog d;
	399	KVMSlot *mem;
	400	int ret = 0;
	401	hwaddr start_addr = section->offset_within_address_space;
	402	hwaddr end_addr = start_addr + int128_get64(section->size);
	403
	404	d.dirty_bitmap = NULL;
	405	while (start_addr < end_addr) {
	406	mem = kvm_lookup_overlapping_slot(s, start_addr, end_addr);
	407	if (mem == NULL) {
	408	break;
	409	}
	410
	411	/* XXX bad kernel interface alert
	412	* For dirty bitmap, kernel allocates array of size aligned to
	413	* bits-per-long. But for case when the kernel is 64bits and
	414	* the userspace is 32bits, userspace can't align to the same
	415	* bits-per-long, since sizeof(long) is different between kernel
	416	* and user space. This way, userspace will provide buffer which
	417	* may be 4 bytes less than the kernel will use, resulting in
	418	* userspace memory corruption (which is not detectable by valgrind
	419	* too, in most cases).
	420	* So for now, let's align to 64 instead of HOST_LONG_BITS here, in
	421	* a hope that sizeof(long) wont become >8 any time soon.
	422	*/
	423	size = ALIGN(((mem->memory_size) >> TARGET_PAGE_BITS),
	424	/HOST_LONG_BITS/ 64) / 8;
	425	if (!d.dirty_bitmap) {
	426	d.dirty_bitmap = g_malloc(size);
	427	} else if (size > allocated_size) {
	428	d.dirty_bitmap = g_realloc(d.dirty_bitmap, size);
	429	}
	430	allocated_size = size;
	431	memset(d.dirty_bitmap, 0, allocated_size);
	432
	433	d.slot = mem->slot;
	434
	435	if (kvm_vm_ioctl(s, KVM_GET_DIRTY_LOG, &d) == -1) {
	436	DPRINTF("ioctl failed %d\n", errno);
	437	ret = -1;
	438	break;
	439	}
	440
	441	kvm_get_dirty_pages_log_range(section, d.dirty_bitmap);
	442	start_addr = mem->start_addr + mem->memory_size;
	443	}
	444	g_free(d.dirty_bitmap);
	445
	446	return ret;
	447	}
	448
	449	static void kvm_coalesce_mmio_region(MemoryListener *listener,
	450	MemoryRegionSection *secion,
	451	hwaddr start, hwaddr size)
	452	{
	453	KVMState *s = kvm_state;
	454
	455	if (s->coalesced_mmio) {
	456	struct kvm_coalesced_mmio_zone zone;
	457
	458	zone.addr = start;
	459	zone.size = size;
	460	zone.pad = 0;
	461
	462	(void)kvm_vm_ioctl(s, KVM_REGISTER_COALESCED_MMIO, &zone);
	463	}
	464	}
	465
	466	static void kvm_uncoalesce_mmio_region(MemoryListener *listener,
	467	MemoryRegionSection *secion,
	468	hwaddr start, hwaddr size)
	469	{
	470	KVMState *s = kvm_state;
	471
	472	if (s->coalesced_mmio) {
	473	struct kvm_coalesced_mmio_zone zone;
	474
	475	zone.addr = start;
	476	zone.size = size;
	477	zone.pad = 0;
	478
	479	(void)kvm_vm_ioctl(s, KVM_UNREGISTER_COALESCED_MMIO, &zone);
	480	}
	481	}
	482
	483	int kvm_check_extension(KVMState *s, unsigned int extension)
	484	{
	485	int ret;
	486
	487	ret = kvm_ioctl(s, KVM_CHECK_EXTENSION, extension);
	488	if (ret < 0) {
	489	ret = 0;
	490	}
	491
	492	return ret;
	493	}
	494
	495	static int kvm_set_ioeventfd_mmio(int fd, hwaddr addr, uint32_t val,
	496	bool assign, uint32_t size, bool datamatch)
	497	{
	498	int ret;
	499	struct kvm_ioeventfd iofd;
	500
	501	iofd.datamatch = datamatch ? val : 0;
	502	iofd.addr = addr;
	503	iofd.len = size;
	504	iofd.flags = 0;
	505	iofd.fd = fd;
	506
	507	if (!kvm_enabled()) {
	508	return -ENOSYS;
	509	}
	510
	511	if (datamatch) {
	512	iofd.flags \|= KVM_IOEVENTFD_FLAG_DATAMATCH;
	513	}
	514	if (!assign) {
	515	iofd.flags \|= KVM_IOEVENTFD_FLAG_DEASSIGN;
	516	}
	517
	518	ret = kvm_vm_ioctl(kvm_state, KVM_IOEVENTFD, &iofd);
	519
	520	if (ret < 0) {
	521	return -errno;
	522	}
	523
	524	return 0;
	525	}
	526
	527	static int kvm_set_ioeventfd_pio(int fd, uint16_t addr, uint16_t val,
	528	bool assign, uint32_t size, bool datamatch)
	529	{
	530	struct kvm_ioeventfd kick = {
	531	.datamatch = datamatch ? val : 0,
	532	.addr = addr,
	533	.flags = KVM_IOEVENTFD_FLAG_PIO,
	534	.len = size,
	535	.fd = fd,
	536	};
	537	int r;
	538	if (!kvm_enabled()) {
	539	return -ENOSYS;
	540	}
	541	if (datamatch) {
	542	kick.flags \|= KVM_IOEVENTFD_FLAG_DATAMATCH;
	543	}
	544	if (!assign) {
	545	kick.flags \|= KVM_IOEVENTFD_FLAG_DEASSIGN;
	546	}
	547	r = kvm_vm_ioctl(kvm_state, KVM_IOEVENTFD, &kick);
	548	if (r < 0) {
	549	return r;
	550	}
	551	return 0;
	552	}
	553
	554
	555	static int kvm_check_many_ioeventfds(void)
	556	{
	557	/* Userspace can use ioeventfd for io notification. This requires a host
	558	* that supports eventfd(2) and an I/O thread; since eventfd does not
	559	* support SIGIO it cannot interrupt the vcpu.
	560	*
	561	* Older kernels have a 6 device limit on the KVM io bus. Find out so we
	562	* can avoid creating too many ioeventfds.
	563	*/
	564	#if defined(CONFIG_EVENTFD)
	565	int ioeventfds[7];
	566	int i, ret = 0;
	567	for (i = 0; i < ARRAY_SIZE(ioeventfds); i++) {
	568	ioeventfds[i] = eventfd(0, EFD_CLOEXEC);
	569	if (ioeventfds[i] < 0) {
	570	break;
	571	}
	572	ret = kvm_set_ioeventfd_pio(ioeventfds[i], 0, i, true, 2, true);
	573	if (ret < 0) {
	574	close(ioeventfds[i]);
	575	break;
	576	}
	577	}
	578
	579	/* Decide whether many devices are supported or not */
	580	ret = i == ARRAY_SIZE(ioeventfds);
	581
	582	while (i-- > 0) {
	583	kvm_set_ioeventfd_pio(ioeventfds[i], 0, i, false, 2, true);
	584	close(ioeventfds[i]);
	585	}
	586	return ret;
	587	#else
	588	return 0;
	589	#endif
	590	}
	591
	592	static const KVMCapabilityInfo *
	593	kvm_check_extension_list(KVMState s, const KVMCapabilityInfo list)
	594	{
	595	while (list->name) {
	596	if (!kvm_check_extension(s, list->value)) {
	597	return list;
	598	}
	599	list++;
	600	}
	601	return NULL;
	602	}
	603
	604	static void kvm_set_phys_mem(MemoryRegionSection *section, bool add)
	605	{
	606	KVMState *s = kvm_state;
	607	KVMSlot *mem, old;
	608	int err;
	609	MemoryRegion *mr = section->mr;
	610	bool log_dirty = memory_region_is_logging(mr);
	611	bool writeable = !mr->readonly && !mr->rom_device;
	612	bool readonly_flag = mr->readonly \|\| memory_region_is_romd(mr);
	613	hwaddr start_addr = section->offset_within_address_space;
	614	ram_addr_t size = int128_get64(section->size);
	615	void *ram = NULL;
	616	unsigned delta;
	617
	618	/* kvm works in page size chunks, but the function may be called
	619	with sub-page size and unaligned start address. */
	620	delta = TARGET_PAGE_ALIGN(size) - size;
	621	if (delta > size) {
	622	return;
	623	}
	624	start_addr += delta;
	625	size -= delta;
	626	size &= TARGET_PAGE_MASK;
	627	if (!size \|\| (start_addr & ~TARGET_PAGE_MASK)) {
	628	return;
	629	}
	630
	631	if (!memory_region_is_ram(mr)) {
	632	if (writeable \|\| !kvm_readonly_mem_allowed) {
	633	return;
	634	} else if (!mr->romd_mode) {
	635	/* If the memory device is not in romd_mode, then we actually want
	636	* to remove the kvm memory slot so all accesses will trap. */
	637	add = false;
	638	}
	639	}
	640
	641	ram = memory_region_get_ram_ptr(mr) + section->offset_within_region + delta;
	642
	643	while (1) {
	644	mem = kvm_lookup_overlapping_slot(s, start_addr, start_addr + size);
	645	if (!mem) {
	646	break;
	647	}
	648
	649	if (add && start_addr >= mem->start_addr &&
	650	(start_addr + size <= mem->start_addr + mem->memory_size) &&
	651	(ram - start_addr == mem->ram - mem->start_addr)) {
	652	/* The new slot fits into the existing one and comes with
	653	* identical parameters - update flags and done. */
	654	kvm_slot_dirty_pages_log_change(mem, log_dirty);
	655	return;
	656	}
	657
	658	old = *mem;
	659
	660	if (mem->flags & KVM_MEM_LOG_DIRTY_PAGES) {
	661	kvm_physical_sync_dirty_bitmap(section);
	662	}
	663
	664	/* unregister the overlapping slot */
	665	mem->memory_size = 0;
	666	err = kvm_set_user_memory_region(s, mem);
	667	if (err) {
	668	fprintf(stderr, "%s: error unregistering overlapping slot: %s\n",
	669	__func__, strerror(-err));
	670	abort();
	671	}
	672
	673	/* Workaround for older KVM versions: we can't join slots, even not by
	674	* unregistering the previous ones and then registering the larger
	675	* slot. We have to maintain the existing fragmentation. Sigh.
	676	*
	677	* This workaround assumes that the new slot starts at the same
	678	* address as the first existing one. If not or if some overlapping
	679	* slot comes around later, we will fail (not seen in practice so far)
	680	* - and actually require a recent KVM version. */
	681	if (s->broken_set_mem_region &&
	682	old.start_addr == start_addr && old.memory_size < size && add) {
	683	mem = kvm_alloc_slot(s);
	684	mem->memory_size = old.memory_size;
	685	mem->start_addr = old.start_addr;
	686	mem->ram = old.ram;
	687	mem->flags = kvm_mem_flags(s, log_dirty, readonly_flag);
	688
	689	err = kvm_set_user_memory_region(s, mem);
	690	if (err) {
	691	fprintf(stderr, "%s: error updating slot: %s\n", __func__,
	692	strerror(-err));
	693	abort();
	694	}
	695
	696	start_addr += old.memory_size;
	697	ram += old.memory_size;
	698	size -= old.memory_size;
	699	continue;
	700	}
	701
	702	/* register prefix slot */
	703	if (old.start_addr < start_addr) {
	704	mem = kvm_alloc_slot(s);
	705	mem->memory_size = start_addr - old.start_addr;
	706	mem->start_addr = old.start_addr;
	707	mem->ram = old.ram;
	708	mem->flags = kvm_mem_flags(s, log_dirty, readonly_flag);
	709
	710	err = kvm_set_user_memory_region(s, mem);
	711	if (err) {
	712	fprintf(stderr, "%s: error registering prefix slot: %s\n",
	713	__func__, strerror(-err));
	714	#ifdef TARGET_PPC
	715	fprintf(stderr, "%s: This is probably because your kernel's " \
	716	"PAGE_SIZE is too big. Please try to use 4k " \
	717	"PAGE_SIZE!\n", __func__);
	718	#endif
	719	abort();
	720	}
	721	}
	722
	723	/* register suffix slot */
	724	if (old.start_addr + old.memory_size > start_addr + size) {
	725	ram_addr_t size_delta;
	726
	727	mem = kvm_alloc_slot(s);
	728	mem->start_addr = start_addr + size;
	729	size_delta = mem->start_addr - old.start_addr;
	730	mem->memory_size = old.memory_size - size_delta;
	731	mem->ram = old.ram + size_delta;
	732	mem->flags = kvm_mem_flags(s, log_dirty, readonly_flag);
	733
	734	err = kvm_set_user_memory_region(s, mem);
	735	if (err) {
	736	fprintf(stderr, "%s: error registering suffix slot: %s\n",
	737	__func__, strerror(-err));
	738	abort();
	739	}
	740	}
	741	}
	742
	743	/* in case the KVM bug workaround already "consumed" the new slot */
	744	if (!size) {
	745	return;
	746	}
	747	if (!add) {
	748	return;
	749	}
	750	mem = kvm_alloc_slot(s);
	751	mem->memory_size = size;
	752	mem->start_addr = start_addr;
	753	mem->ram = ram;
	754	mem->flags = kvm_mem_flags(s, log_dirty, readonly_flag);
	755
	756	err = kvm_set_user_memory_region(s, mem);
	757	if (err) {
	758	fprintf(stderr, "%s: error registering slot: %s\n", __func__,
	759	strerror(-err));
	760	abort();
	761	}
	762	}
	763
	764	static void kvm_region_add(MemoryListener *listener,
	765	MemoryRegionSection *section)
	766	{
	767	memory_region_ref(section->mr);
	768	kvm_set_phys_mem(section, true);
	769	}
	770
	771	static void kvm_region_del(MemoryListener *listener,
	772	MemoryRegionSection *section)
	773	{
	774	kvm_set_phys_mem(section, false);
	775	memory_region_unref(section->mr);
	776	}
	777
	778	static void kvm_log_sync(MemoryListener *listener,
	779	MemoryRegionSection *section)
	780	{
	781	int r;
	782
	783	r = kvm_physical_sync_dirty_bitmap(section);
	784	if (r < 0) {
	785	abort();
	786	}
	787	}
	788
	789	static void kvm_log_global_start(struct MemoryListener *listener)
	790	{
	791	int r;
	792
	793	r = kvm_set_migration_log(1);
	794	assert(r >= 0);
	795	}
	796
	797	static void kvm_log_global_stop(struct MemoryListener *listener)
	798	{
	799	int r;
	800
	801	r = kvm_set_migration_log(0);
	802	assert(r >= 0);
	803	}
	804
	805	static void kvm_mem_ioeventfd_add(MemoryListener *listener,
	806	MemoryRegionSection *section,
	807	bool match_data, uint64_t data,
	808	EventNotifier *e)
	809	{
	810	int fd = event_notifier_get_fd(e);
	811	int r;
	812
	813	r = kvm_set_ioeventfd_mmio(fd, section->offset_within_address_space,
	814	data, true, int128_get64(section->size),
	815	match_data);
	816	if (r < 0) {
	817	fprintf(stderr, "%s: error adding ioeventfd: %s\n",
	818	__func__, strerror(-r));
	819	abort();
	820	}
	821	}
	822
	823	static void kvm_mem_ioeventfd_del(MemoryListener *listener,
	824	MemoryRegionSection *section,
	825	bool match_data, uint64_t data,
	826	EventNotifier *e)
	827	{
	828	int fd = event_notifier_get_fd(e);
	829	int r;
	830
	831	r = kvm_set_ioeventfd_mmio(fd, section->offset_within_address_space,
	832	data, false, int128_get64(section->size),
	833	match_data);
	834	if (r < 0) {
	835	abort();
	836	}
	837	}
	838
	839	static void kvm_io_ioeventfd_add(MemoryListener *listener,
	840	MemoryRegionSection *section,
	841	bool match_data, uint64_t data,
	842	EventNotifier *e)
	843	{
	844	int fd = event_notifier_get_fd(e);
	845	int r;
	846
	847	r = kvm_set_ioeventfd_pio(fd, section->offset_within_address_space,
	848	data, true, int128_get64(section->size),
	849	match_data);
	850	if (r < 0) {
	851	fprintf(stderr, "%s: error adding ioeventfd: %s\n",
	852	__func__, strerror(-r));
	853	abort();
	854	}
	855	}
	856
	857	static void kvm_io_ioeventfd_del(MemoryListener *listener,
	858	MemoryRegionSection *section,
	859	bool match_data, uint64_t data,
	860	EventNotifier *e)
	861
	862	{
	863	int fd = event_notifier_get_fd(e);
	864	int r;
	865
	866	r = kvm_set_ioeventfd_pio(fd, section->offset_within_address_space,
	867	data, false, int128_get64(section->size),
	868	match_data);
	869	if (r < 0) {
	870	abort();
	871	}
	872	}
	873
	874	static MemoryListener kvm_memory_listener = {
	875	.region_add = kvm_region_add,
	876	.region_del = kvm_region_del,
	877	.log_start = kvm_log_start,
	878	.log_stop = kvm_log_stop,
	879	.log_sync = kvm_log_sync,
	880	.log_global_start = kvm_log_global_start,
	881	.log_global_stop = kvm_log_global_stop,
	882	.eventfd_add = kvm_mem_ioeventfd_add,
	883	.eventfd_del = kvm_mem_ioeventfd_del,
	884	.coalesced_mmio_add = kvm_coalesce_mmio_region,
	885	.coalesced_mmio_del = kvm_uncoalesce_mmio_region,
	886	.priority = 10,
	887	};
	888
	889	static MemoryListener kvm_io_listener = {
	890	.eventfd_add = kvm_io_ioeventfd_add,
	891	.eventfd_del = kvm_io_ioeventfd_del,
	892	.priority = 10,
	893	};
	894
	895	static void kvm_handle_interrupt(CPUState *cpu, int mask)
	896	{
	897	cpu->interrupt_request \|= mask;
	898
	899	if (!qemu_cpu_is_self(cpu)) {
	900	qemu_cpu_kick(cpu);
	901	}
	902	}
	903
	904	int kvm_set_irq(KVMState *s, int irq, int level)
	905	{
	906	struct kvm_irq_level event;
	907	int ret;
	908
	909	assert(kvm_async_interrupts_enabled());
	910
	911	event.level = level;
	912	event.irq = irq;
	913	ret = kvm_vm_ioctl(s, s->irq_set_ioctl, &event);
	914	if (ret < 0) {
	915	perror("kvm_set_irq");
	916	abort();
	917	}
	918
	919	return (s->irq_set_ioctl == KVM_IRQ_LINE) ? 1 : event.status;
	920	}
	921
	922	#ifdef KVM_CAP_IRQ_ROUTING
	923	typedef struct KVMMSIRoute {
	924	struct kvm_irq_routing_entry kroute;
	925	QTAILQ_ENTRY(KVMMSIRoute) entry;
	926	} KVMMSIRoute;
	927
	928	static void set_gsi(KVMState *s, unsigned int gsi)
	929	{
	930	s->used_gsi_bitmap[gsi / 32] \|= 1U << (gsi % 32);
	931	}
	932
	933	static void clear_gsi(KVMState *s, unsigned int gsi)
	934	{
	935	s->used_gsi_bitmap[gsi / 32] &= ~(1U << (gsi % 32));
	936	}
	937
	938	void kvm_init_irq_routing(KVMState *s)
	939	{
	940	int gsi_count, i;
	941
	942	gsi_count = kvm_check_extension(s, KVM_CAP_IRQ_ROUTING);
	943	if (gsi_count > 0) {
	944	unsigned int gsi_bits, i;
	945
	946	/* Round up so we can search ints using ffs */
	947	gsi_bits = ALIGN(gsi_count, 32);
	948	s->used_gsi_bitmap = g_malloc0(gsi_bits / 8);
	949	s->gsi_count = gsi_count;
	950
	951	/* Mark any over-allocated bits as already in use */
	952	for (i = gsi_count; i < gsi_bits; i++) {
	953	set_gsi(s, i);
	954	}
	955	}
	956
	957	s->irq_routes = g_malloc0(sizeof(*s->irq_routes));
	958	s->nr_allocated_irq_routes = 0;
	959
	960	if (!s->direct_msi) {
	961	for (i = 0; i < KVM_MSI_HASHTAB_SIZE; i++) {
	962	QTAILQ_INIT(&s->msi_hashtab[i]);
	963	}
	964	}
	965
	966	kvm_arch_init_irq_routing(s);
	967	}
	968
	969	void kvm_irqchip_commit_routes(KVMState *s)
	970	{
	971	int ret;
	972
	973	s->irq_routes->flags = 0;
	974	ret = kvm_vm_ioctl(s, KVM_SET_GSI_ROUTING, s->irq_routes);
	975	assert(ret == 0);
	976	}
	977
	978	static void kvm_add_routing_entry(KVMState *s,
	979	struct kvm_irq_routing_entry *entry)
	980	{
	981	struct kvm_irq_routing_entry *new;
	982	int n, size;
	983
	984	if (s->irq_routes->nr == s->nr_allocated_irq_routes) {
	985	n = s->nr_allocated_irq_routes * 2;
	986	if (n < 64) {
	987	n = 64;
	988	}
	989	size = sizeof(struct kvm_irq_routing);
	990	size += n * sizeof(*new);
	991	s->irq_routes = g_realloc(s->irq_routes, size);
	992	s->nr_allocated_irq_routes = n;
	993	}
	994	n = s->irq_routes->nr++;
	995	new = &s->irq_routes->entries[n];
	996
	997	new = entry;
	998
	999	set_gsi(s, entry->gsi);
	1000	}
	1001
	1002	static int kvm_update_routing_entry(KVMState *s,
	1003	struct kvm_irq_routing_entry *new_entry)
	1004	{
	1005	struct kvm_irq_routing_entry *entry;
	1006	int n;
	1007
	1008	for (n = 0; n < s->irq_routes->nr; n++) {
	1009	entry = &s->irq_routes->entries[n];
	1010	if (entry->gsi != new_entry->gsi) {
	1011	continue;
	1012	}
	1013
	1014	if(!memcmp(entry, new_entry, sizeof *entry)) {
	1015	return 0;
	1016	}
	1017
	1018	entry = new_entry;
	1019
	1020	kvm_irqchip_commit_routes(s);
	1021
	1022	return 0;
	1023	}
	1024
	1025	return -ESRCH;
	1026	}
	1027
	1028	void kvm_irqchip_add_irq_route(KVMState *s, int irq, int irqchip, int pin)
	1029	{
	1030	struct kvm_irq_routing_entry e = {};
	1031
	1032	assert(pin < s->gsi_count);
	1033
	1034	e.gsi = irq;
	1035	e.type = KVM_IRQ_ROUTING_IRQCHIP;
	1036	e.flags = 0;
	1037	e.u.irqchip.irqchip = irqchip;
	1038	e.u.irqchip.pin = pin;
	1039	kvm_add_routing_entry(s, &e);
	1040	}
	1041
	1042	void kvm_irqchip_release_virq(KVMState *s, int virq)
	1043	{
	1044	struct kvm_irq_routing_entry *e;
	1045	int i;
	1046
	1047	if (kvm_gsi_direct_mapping()) {
	1048	return;
	1049	}
	1050
	1051	for (i = 0; i < s->irq_routes->nr; i++) {
	1052	e = &s->irq_routes->entries[i];
	1053	if (e->gsi == virq) {
	1054	s->irq_routes->nr--;
	1055	*e = s->irq_routes->entries[s->irq_routes->nr];
	1056	}
	1057	}
	1058	clear_gsi(s, virq);
	1059	}
	1060
	1061	static unsigned int kvm_hash_msi(uint32_t data)
	1062	{
	1063	/* This is optimized for IA32 MSI layout. However, no other arch shall
	1064	* repeat the mistake of not providing a direct MSI injection API. */
	1065	return data & 0xff;
	1066	}
	1067
	1068	static void kvm_flush_dynamic_msi_routes(KVMState *s)
	1069	{
	1070	KVMMSIRoute route, next;
	1071	unsigned int hash;
	1072
	1073	for (hash = 0; hash < KVM_MSI_HASHTAB_SIZE; hash++) {
	1074	QTAILQ_FOREACH_SAFE(route, &s->msi_hashtab[hash], entry, next) {
	1075	kvm_irqchip_release_virq(s, route->kroute.gsi);
	1076	QTAILQ_REMOVE(&s->msi_hashtab[hash], route, entry);
	1077	g_free(route);
	1078	}
	1079	}
	1080	}
	1081
	1082	static int kvm_irqchip_get_virq(KVMState *s)
	1083	{
	1084	uint32_t *word = s->used_gsi_bitmap;
	1085	int max_words = ALIGN(s->gsi_count, 32) / 32;
	1086	int i, bit;
	1087	bool retry = true;
	1088
	1089	again:
	1090	/* Return the lowest unused GSI in the bitmap */
	1091	for (i = 0; i < max_words; i++) {
	1092	bit = ffs(~word[i]);
	1093	if (!bit) {
	1094	continue;
	1095	}
	1096
	1097	return bit - 1 + i * 32;
	1098	}
	1099	if (!s->direct_msi && retry) {
	1100	retry = false;
	1101	kvm_flush_dynamic_msi_routes(s);
	1102	goto again;
	1103	}
	1104	return -ENOSPC;
	1105
	1106	}
	1107
	1108	static KVMMSIRoute kvm_lookup_msi_route(KVMState s, MSIMessage msg)
	1109	{
	1110	unsigned int hash = kvm_hash_msi(msg.data);
	1111	KVMMSIRoute *route;
	1112
	1113	QTAILQ_FOREACH(route, &s->msi_hashtab[hash], entry) {
	1114	if (route->kroute.u.msi.address_lo == (uint32_t)msg.address &&
	1115	route->kroute.u.msi.address_hi == (msg.address >> 32) &&
	1116	route->kroute.u.msi.data == le32_to_cpu(msg.data)) {
	1117	return route;
	1118	}
	1119	}
	1120	return NULL;
	1121	}
	1122
	1123	int kvm_irqchip_send_msi(KVMState *s, MSIMessage msg)
	1124	{
	1125	struct kvm_msi msi;
	1126	KVMMSIRoute *route;
	1127
	1128	if (s->direct_msi) {
	1129	msi.address_lo = (uint32_t)msg.address;
	1130	msi.address_hi = msg.address >> 32;
	1131	msi.data = le32_to_cpu(msg.data);
	1132	msi.flags = 0;
	1133	memset(msi.pad, 0, sizeof(msi.pad));
	1134
	1135	return kvm_vm_ioctl(s, KVM_SIGNAL_MSI, &msi);
	1136	}
	1137
	1138	route = kvm_lookup_msi_route(s, msg);
	1139	if (!route) {
	1140	int virq;
	1141
	1142	virq = kvm_irqchip_get_virq(s);
	1143	if (virq < 0) {
	1144	return virq;
	1145	}
	1146
	1147	route = g_malloc0(sizeof(KVMMSIRoute));
	1148	route->kroute.gsi = virq;
	1149	route->kroute.type = KVM_IRQ_ROUTING_MSI;
	1150	route->kroute.flags = 0;
	1151	route->kroute.u.msi.address_lo = (uint32_t)msg.address;
	1152	route->kroute.u.msi.address_hi = msg.address >> 32;
	1153	route->kroute.u.msi.data = le32_to_cpu(msg.data);
	1154
	1155	kvm_add_routing_entry(s, &route->kroute);
	1156	kvm_irqchip_commit_routes(s);
	1157
	1158	QTAILQ_INSERT_TAIL(&s->msi_hashtab[kvm_hash_msi(msg.data)], route,
	1159	entry);
	1160	}
	1161
	1162	assert(route->kroute.type == KVM_IRQ_ROUTING_MSI);
	1163
	1164	return kvm_set_irq(s, route->kroute.gsi, 1);
	1165	}
	1166
	1167	int kvm_irqchip_add_msi_route(KVMState *s, MSIMessage msg)
	1168	{
	1169	struct kvm_irq_routing_entry kroute = {};
	1170	int virq;
	1171
	1172	if (kvm_gsi_direct_mapping()) {
	1173	return msg.data & 0xffff;
	1174	}
	1175
	1176	if (!kvm_gsi_routing_enabled()) {
	1177	return -ENOSYS;
	1178	}
	1179
	1180	virq = kvm_irqchip_get_virq(s);
	1181	if (virq < 0) {
	1182	return virq;
	1183	}
	1184
	1185	kroute.gsi = virq;
	1186	kroute.type = KVM_IRQ_ROUTING_MSI;
	1187	kroute.flags = 0;
	1188	kroute.u.msi.address_lo = (uint32_t)msg.address;
	1189	kroute.u.msi.address_hi = msg.address >> 32;
	1190	kroute.u.msi.data = le32_to_cpu(msg.data);
	1191
	1192	kvm_add_routing_entry(s, &kroute);
	1193	kvm_irqchip_commit_routes(s);
	1194
	1195	return virq;
	1196	}
	1197
	1198	int kvm_irqchip_update_msi_route(KVMState *s, int virq, MSIMessage msg)
	1199	{
	1200	struct kvm_irq_routing_entry kroute = {};
	1201
	1202	if (kvm_gsi_direct_mapping()) {
	1203	return 0;
	1204	}
	1205
	1206	if (!kvm_irqchip_in_kernel()) {
	1207	return -ENOSYS;
	1208	}
	1209
	1210	kroute.gsi = virq;
	1211	kroute.type = KVM_IRQ_ROUTING_MSI;
	1212	kroute.flags = 0;
	1213	kroute.u.msi.address_lo = (uint32_t)msg.address;
	1214	kroute.u.msi.address_hi = msg.address >> 32;
	1215	kroute.u.msi.data = le32_to_cpu(msg.data);
	1216
	1217	return kvm_update_routing_entry(s, &kroute);
	1218	}
	1219
	1220	static int kvm_irqchip_assign_irqfd(KVMState *s, int fd, int rfd, int virq,
	1221	bool assign)
	1222	{
	1223	struct kvm_irqfd irqfd = {
	1224	.fd = fd,
	1225	.gsi = virq,
	1226	.flags = assign ? 0 : KVM_IRQFD_FLAG_DEASSIGN,
	1227	};
	1228
	1229	if (rfd != -1) {
	1230	irqfd.flags \|= KVM_IRQFD_FLAG_RESAMPLE;
	1231	irqfd.resamplefd = rfd;
	1232	}
	1233
	1234	if (!kvm_irqfds_enabled()) {
	1235	return -ENOSYS;
	1236	}
	1237
	1238	return kvm_vm_ioctl(s, KVM_IRQFD, &irqfd);
	1239	}
	1240
	1241	int kvm_irqchip_add_adapter_route(KVMState s, AdapterInfo adapter)
	1242	{
	1243	struct kvm_irq_routing_entry kroute;
	1244	int virq;
	1245
	1246	if (!kvm_gsi_routing_enabled()) {
	1247	return -ENOSYS;
	1248	}
	1249
	1250	virq = kvm_irqchip_get_virq(s);
	1251	if (virq < 0) {
	1252	return virq;
	1253	}
	1254
	1255	kroute.gsi = virq;
	1256	kroute.type = KVM_IRQ_ROUTING_S390_ADAPTER;
	1257	kroute.flags = 0;
	1258	kroute.u.adapter.summary_addr = adapter->summary_addr;
	1259	kroute.u.adapter.ind_addr = adapter->ind_addr;
	1260	kroute.u.adapter.summary_offset = adapter->summary_offset;
	1261	kroute.u.adapter.ind_offset = adapter->ind_offset;
	1262	kroute.u.adapter.adapter_id = adapter->adapter_id;
	1263
	1264	kvm_add_routing_entry(s, &kroute);
	1265	kvm_irqchip_commit_routes(s);
	1266
	1267	return virq;
	1268	}
	1269
	1270	#else /* !KVM_CAP_IRQ_ROUTING */
	1271
	1272	void kvm_init_irq_routing(KVMState *s)
	1273	{
	1274	}
	1275
	1276	void kvm_irqchip_release_virq(KVMState *s, int virq)
	1277	{
	1278	}
	1279
	1280	int kvm_irqchip_send_msi(KVMState *s, MSIMessage msg)
	1281	{
	1282	abort();
	1283	}
	1284
	1285	int kvm_irqchip_add_msi_route(KVMState *s, MSIMessage msg)
	1286	{
	1287	return -ENOSYS;
	1288	}
	1289
	1290	int kvm_irqchip_add_adapter_route(KVMState s, AdapterInfo adapter)
	1291	{
	1292	return -ENOSYS;
	1293	}
	1294
	1295	static int kvm_irqchip_assign_irqfd(KVMState *s, int fd, int virq, bool assign)
	1296	{
	1297	abort();
	1298	}
	1299
	1300	int kvm_irqchip_update_msi_route(KVMState *s, int virq, MSIMessage msg)
	1301	{
	1302	return -ENOSYS;
	1303	}
	1304	#endif /* !KVM_CAP_IRQ_ROUTING */
	1305
	1306	int kvm_irqchip_add_irqfd_notifier(KVMState s, EventNotifier n,
	1307	EventNotifier *rn, int virq)
	1308	{
	1309	return kvm_irqchip_assign_irqfd(s, event_notifier_get_fd(n),
	1310	rn ? event_notifier_get_fd(rn) : -1, virq, true);
	1311	}
	1312
	1313	int kvm_irqchip_remove_irqfd_notifier(KVMState s, EventNotifier n, int virq)
	1314	{
	1315	return kvm_irqchip_assign_irqfd(s, event_notifier_get_fd(n), -1, virq,
	1316	false);
	1317	}
	1318
	1319	static int kvm_irqchip_create(KVMState *s)
	1320	{
	1321	int ret;
	1322
	1323	if (!qemu_opt_get_bool(qemu_get_machine_opts(), "kernel_irqchip", true) \|\|
	1324	(!kvm_check_extension(s, KVM_CAP_IRQCHIP) &&
	1325	(kvm_vm_enable_cap(s, KVM_CAP_S390_IRQCHIP, 0) < 0))) {
	1326	return 0;
	1327	}
	1328
	1329	/* First probe and see if there's a arch-specific hook to create the
	1330	* in-kernel irqchip for us */
	1331	ret = kvm_arch_irqchip_create(s);
	1332	if (ret < 0) {
	1333	return ret;
	1334	} else if (ret == 0) {
	1335	ret = kvm_vm_ioctl(s, KVM_CREATE_IRQCHIP);
	1336	if (ret < 0) {
	1337	fprintf(stderr, "Create kernel irqchip failed\n");
	1338	return ret;
	1339	}
	1340	}
	1341
	1342	kvm_kernel_irqchip = true;
	1343	/* If we have an in-kernel IRQ chip then we must have asynchronous
	1344	* interrupt delivery (though the reverse is not necessarily true)
	1345	*/
	1346	kvm_async_interrupts_allowed = true;
	1347	kvm_halt_in_kernel_allowed = true;
	1348
	1349	kvm_init_irq_routing(s);
	1350
	1351	return 0;
	1352	}
	1353
	1354	/* Find number of supported CPUs using the recommended
	1355	* procedure from the kernel API documentation to cope with
	1356	* older kernels that may be missing capabilities.
	1357	*/
	1358	static int kvm_recommended_vcpus(KVMState *s)
	1359	{
	1360	int ret = kvm_check_extension(s, KVM_CAP_NR_VCPUS);
	1361	return (ret) ? ret : 4;
	1362	}
	1363
	1364	static int kvm_max_vcpus(KVMState *s)
	1365	{
	1366	int ret = kvm_check_extension(s, KVM_CAP_MAX_VCPUS);
	1367	return (ret) ? ret : kvm_recommended_vcpus(s);
	1368	}
	1369
	1370	int kvm_init(MachineClass *mc)
	1371	{
	1372	static const char upgrade_note[] =
	1373	"Please upgrade to at least kernel 2.6.29 or recent kvm-kmod\n"
	1374	"(see http://sourceforge.net/projects/kvm).\n";
	1375	struct {
	1376	const char *name;
	1377	int num;
	1378	} num_cpus[] = {
	1379	{ "SMP", smp_cpus },
	1380	{ "hotpluggable", max_cpus },
	1381	{ NULL, }
	1382	}, *nc = num_cpus;
	1383	int soft_vcpus_limit, hard_vcpus_limit;
	1384	KVMState *s;
	1385	const KVMCapabilityInfo *missing_cap;
	1386	int ret;
	1387	int i, type = 0;
	1388	const char *kvm_type;
	1389
	1390	s = g_malloc0(sizeof(KVMState));
	1391
	1392	/*
	1393	* On systems where the kernel can support different base page
	1394	* sizes, host page size may be different from TARGET_PAGE_SIZE,
	1395	* even with KVM. TARGET_PAGE_SIZE is assumed to be the minimum
	1396	* page size for the system though.
	1397	*/
	1398	assert(TARGET_PAGE_SIZE <= getpagesize());
	1399	page_size_init();
	1400
	1401	#ifdef KVM_CAP_SET_GUEST_DEBUG
	1402	QTAILQ_INIT(&s->kvm_sw_breakpoints);
	1403	#endif
	1404	s->vmfd = -1;
	1405	s->fd = qemu_open("/dev/kvm", O_RDWR);
	1406	if (s->fd == -1) {
	1407	fprintf(stderr, "Could not access KVM kernel module: %m\n");
	1408	ret = -errno;
	1409	goto err;
	1410	}
	1411
	1412	ret = kvm_ioctl(s, KVM_GET_API_VERSION, 0);
	1413	if (ret < KVM_API_VERSION) {
	1414	if (ret >= 0) {
	1415	ret = -EINVAL;
	1416	}
	1417	fprintf(stderr, "kvm version too old\n");
	1418	goto err;
	1419	}
	1420
	1421	if (ret > KVM_API_VERSION) {
	1422	ret = -EINVAL;
	1423	fprintf(stderr, "kvm version not supported\n");
	1424	goto err;
	1425	}
	1426
	1427	s->nr_slots = kvm_check_extension(s, KVM_CAP_NR_MEMSLOTS);
	1428
	1429	/* If unspecified, use the default value */
	1430	if (!s->nr_slots) {
	1431	s->nr_slots = 32;
	1432	}
	1433
	1434	s->slots = g_malloc0(s->nr_slots * sizeof(KVMSlot));
	1435
	1436	for (i = 0; i < s->nr_slots; i++) {
	1437	s->slots[i].slot = i;
	1438	}
	1439
	1440	/* check the vcpu limits */
	1441	soft_vcpus_limit = kvm_recommended_vcpus(s);
	1442	hard_vcpus_limit = kvm_max_vcpus(s);
	1443
	1444	while (nc->name) {
	1445	if (nc->num > soft_vcpus_limit) {
	1446	fprintf(stderr,
	1447	"Warning: Number of %s cpus requested (%d) exceeds "
	1448	"the recommended cpus supported by KVM (%d)\n",
	1449	nc->name, nc->num, soft_vcpus_limit);
	1450
	1451	if (nc->num > hard_vcpus_limit) {
	1452	fprintf(stderr, "Number of %s cpus requested (%d) exceeds "
	1453	"the maximum cpus supported by KVM (%d)\n",
	1454	nc->name, nc->num, hard_vcpus_limit);
	1455	exit(1);
	1456	}
	1457	}
	1458	nc++;
	1459	}
	1460
	1461	kvm_type = qemu_opt_get(qemu_get_machine_opts(), "kvm-type");
	1462	if (mc->kvm_type) {
	1463	type = mc->kvm_type(kvm_type);
	1464	} else if (kvm_type) {
	1465	ret = -EINVAL;
	1466	fprintf(stderr, "Invalid argument kvm-type=%s\n", kvm_type);
	1467	goto err;
	1468	}
	1469
	1470	do {
	1471	ret = kvm_ioctl(s, KVM_CREATE_VM, type);
	1472	} while (ret == -EINTR);
	1473
	1474	if (ret < 0) {
	1475	fprintf(stderr, "ioctl(KVM_CREATE_VM) failed: %d %s\n", -ret,
	1476	strerror(-ret));
	1477
	1478	#ifdef TARGET_S390X
	1479	fprintf(stderr, "Please add the 'switch_amode' kernel parameter to "
	1480	"your host kernel command line\n");
	1481	#endif
	1482	goto err;
	1483	}
	1484
	1485	s->vmfd = ret;
	1486	missing_cap = kvm_check_extension_list(s, kvm_required_capabilites);
	1487	if (!missing_cap) {
	1488	missing_cap =
	1489	kvm_check_extension_list(s, kvm_arch_required_capabilities);
	1490	}
	1491	if (missing_cap) {
	1492	ret = -EINVAL;
	1493	fprintf(stderr, "kvm does not support %s\n%s",
	1494	missing_cap->name, upgrade_note);
	1495	goto err;
	1496	}
	1497
	1498	s->coalesced_mmio = kvm_check_extension(s, KVM_CAP_COALESCED_MMIO);
	1499
	1500	s->broken_set_mem_region = 1;
	1501	ret = kvm_check_extension(s, KVM_CAP_JOIN_MEMORY_REGIONS_WORKS);
	1502	if (ret > 0) {
	1503	s->broken_set_mem_region = 0;
	1504	}
	1505
	1506	#ifdef KVM_CAP_VCPU_EVENTS
	1507	s->vcpu_events = kvm_check_extension(s, KVM_CAP_VCPU_EVENTS);
	1508	#endif
	1509
	1510	s->robust_singlestep =
	1511	kvm_check_extension(s, KVM_CAP_X86_ROBUST_SINGLESTEP);
	1512
	1513	#ifdef KVM_CAP_DEBUGREGS
	1514	s->debugregs = kvm_check_extension(s, KVM_CAP_DEBUGREGS);
	1515	#endif
	1516
	1517	#ifdef KVM_CAP_XSAVE
	1518	s->xsave = kvm_check_extension(s, KVM_CAP_XSAVE);
	1519	#endif
	1520
	1521	#ifdef KVM_CAP_XCRS
	1522	s->xcrs = kvm_check_extension(s, KVM_CAP_XCRS);
	1523	#endif
	1524
	1525	#ifdef KVM_CAP_PIT_STATE2
	1526	s->pit_state2 = kvm_check_extension(s, KVM_CAP_PIT_STATE2);
	1527	#endif
	1528
	1529	#ifdef KVM_CAP_IRQ_ROUTING
	1530	s->direct_msi = (kvm_check_extension(s, KVM_CAP_SIGNAL_MSI) > 0);
	1531	#endif
	1532
	1533	s->intx_set_mask = kvm_check_extension(s, KVM_CAP_PCI_2_3);
	1534
	1535	s->irq_set_ioctl = KVM_IRQ_LINE;
	1536	if (kvm_check_extension(s, KVM_CAP_IRQ_INJECT_STATUS)) {
	1537	s->irq_set_ioctl = KVM_IRQ_LINE_STATUS;
	1538	}
	1539
	1540	#ifdef KVM_CAP_READONLY_MEM
	1541	kvm_readonly_mem_allowed =
	1542	(kvm_check_extension(s, KVM_CAP_READONLY_MEM) > 0);
	1543	#endif
	1544
	1545	kvm_eventfds_allowed =
	1546	(kvm_check_extension(s, KVM_CAP_IOEVENTFD) > 0);
	1547
	1548	ret = kvm_arch_init(s);
	1549	if (ret < 0) {
	1550	goto err;
	1551	}
	1552
	1553	ret = kvm_irqchip_create(s);
	1554	if (ret < 0) {
	1555	goto err;
	1556	}
	1557
	1558	kvm_state = s;
	1559	memory_listener_register(&kvm_memory_listener, &address_space_memory);
	1560	memory_listener_register(&kvm_io_listener, &address_space_io);
	1561
	1562	s->many_ioeventfds = kvm_check_many_ioeventfds();
	1563
	1564	cpu_interrupt_handler = kvm_handle_interrupt;
	1565
	1566	return 0;
	1567
	1568	err:
	1569	assert(ret < 0);
	1570	if (s->vmfd >= 0) {
	1571	close(s->vmfd);
	1572	}
	1573	if (s->fd != -1) {
	1574	close(s->fd);
	1575	}
	1576	g_free(s->slots);
	1577	g_free(s);
	1578
	1579	return ret;
	1580	}
	1581
	1582	static void kvm_handle_io(uint16_t port, void *data, int direction, int size,
	1583	uint32_t count)
	1584	{
	1585	int i;
	1586	uint8_t *ptr = data;
	1587
	1588	for (i = 0; i < count; i++) {
	1589	address_space_rw(&address_space_io, port, ptr, size,
	1590	direction == KVM_EXIT_IO_OUT);
	1591	ptr += size;
	1592	}
	1593	}
	1594
	1595	static int kvm_handle_internal_error(CPUState cpu, struct kvm_run run)
	1596	{
	1597	fprintf(stderr, "KVM internal error. Suberror: %d\n",
	1598	run->internal.suberror);
	1599
	1600	if (kvm_check_extension(kvm_state, KVM_CAP_INTERNAL_ERROR_DATA)) {
	1601	int i;
	1602
	1603	for (i = 0; i < run->internal.ndata; ++i) {
	1604	fprintf(stderr, "extra data[%d]: %"PRIx64"\n",
	1605	i, (uint64_t)run->internal.data[i]);
	1606	}
	1607	}
	1608	if (run->internal.suberror == KVM_INTERNAL_ERROR_EMULATION) {
	1609	fprintf(stderr, "emulation failure\n");
	1610	if (!kvm_arch_stop_on_emulation_error(cpu)) {
	1611	cpu_dump_state(cpu, stderr, fprintf, CPU_DUMP_CODE);
	1612	return EXCP_INTERRUPT;
	1613	}
	1614	}
	1615	/* FIXME: Should trigger a qmp message to let management know
	1616	* something went wrong.
	1617	*/
	1618	return -1;
	1619	}
	1620
	1621	void kvm_flush_coalesced_mmio_buffer(void)
	1622	{
	1623	KVMState *s = kvm_state;
	1624
	1625	if (s->coalesced_flush_in_progress) {
	1626	return;
	1627	}
	1628
	1629	s->coalesced_flush_in_progress = true;
	1630
	1631	if (s->coalesced_mmio_ring) {
	1632	struct kvm_coalesced_mmio_ring *ring = s->coalesced_mmio_ring;
	1633	while (ring->first != ring->last) {
	1634	struct kvm_coalesced_mmio *ent;
	1635
	1636	ent = &ring->coalesced_mmio[ring->first];
	1637
	1638	cpu_physical_memory_write(ent->phys_addr, ent->data, ent->len);
	1639	smp_wmb();
	1640	ring->first = (ring->first + 1) % KVM_COALESCED_MMIO_MAX;
	1641	}
	1642	}
	1643
	1644	s->coalesced_flush_in_progress = false;
	1645	}
	1646
	1647	static void do_kvm_cpu_synchronize_state(void *arg)
	1648	{
	1649	CPUState *cpu = arg;
	1650
	1651	if (!cpu->kvm_vcpu_dirty) {
	1652	kvm_arch_get_registers(cpu);
	1653	cpu->kvm_vcpu_dirty = true;
	1654	}
	1655	}
	1656
	1657	void kvm_cpu_synchronize_state(CPUState *cpu)
	1658	{
	1659	if (!cpu->kvm_vcpu_dirty) {
	1660	run_on_cpu(cpu, do_kvm_cpu_synchronize_state, cpu);
	1661	}
	1662	}
	1663
	1664	void kvm_cpu_synchronize_post_reset(CPUState *cpu)
	1665	{
	1666	kvm_arch_put_registers(cpu, KVM_PUT_RESET_STATE);
	1667	cpu->kvm_vcpu_dirty = false;
	1668	}
	1669
	1670	void kvm_cpu_synchronize_post_init(CPUState *cpu)
	1671	{
	1672	kvm_arch_put_registers(cpu, KVM_PUT_FULL_STATE);
	1673	cpu->kvm_vcpu_dirty = false;
	1674	}
	1675
	1676	int kvm_cpu_exec(CPUState *cpu)
	1677	{
	1678	struct kvm_run *run = cpu->kvm_run;
	1679	int ret, run_ret;
	1680
	1681	DPRINTF("kvm_cpu_exec()\n");
	1682
	1683	if (kvm_arch_process_async_events(cpu)) {
	1684	cpu->exit_request = 0;
	1685	return EXCP_HLT;
	1686	}
	1687
	1688	do {
	1689	if (cpu->kvm_vcpu_dirty) {
	1690	kvm_arch_put_registers(cpu, KVM_PUT_RUNTIME_STATE);
	1691	cpu->kvm_vcpu_dirty = false;
	1692	}
	1693
	1694	kvm_arch_pre_run(cpu, run);
	1695	if (cpu->exit_request) {
	1696	DPRINTF("interrupt exit requested\n");
	1697	/*
	1698	* KVM requires us to reenter the kernel after IO exits to complete
	1699	* instruction emulation. This self-signal will ensure that we
	1700	* leave ASAP again.
	1701	*/
	1702	qemu_cpu_kick_self();
	1703	}
	1704	qemu_mutex_unlock_iothread();
	1705
	1706	run_ret = kvm_vcpu_ioctl(cpu, KVM_RUN, 0);
	1707
	1708	qemu_mutex_lock_iothread();
	1709	kvm_arch_post_run(cpu, run);
	1710
	1711	if (run_ret < 0) {
	1712	if (run_ret == -EINTR \|\| run_ret == -EAGAIN) {
	1713	DPRINTF("io window exit\n");
	1714	ret = EXCP_INTERRUPT;
	1715	break;
	1716	}
	1717	fprintf(stderr, "error: kvm run failed %s\n",
	1718	strerror(-run_ret));
	1719	abort();
	1720	}
	1721
	1722	trace_kvm_run_exit(cpu->cpu_index, run->exit_reason);
	1723	switch (run->exit_reason) {
	1724	case KVM_EXIT_IO:
	1725	DPRINTF("handle_io\n");
	1726	kvm_handle_io(run->io.port,
	1727	(uint8_t *)run + run->io.data_offset,
	1728	run->io.direction,
	1729	run->io.size,
	1730	run->io.count);
	1731	ret = 0;
	1732	break;
	1733	case KVM_EXIT_MMIO:
	1734	DPRINTF("handle_mmio\n");
	1735	cpu_physical_memory_rw(run->mmio.phys_addr,
	1736	run->mmio.data,
	1737	run->mmio.len,
	1738	run->mmio.is_write);
	1739	ret = 0;
	1740	break;
	1741	case KVM_EXIT_IRQ_WINDOW_OPEN:
	1742	DPRINTF("irq_window_open\n");
	1743	ret = EXCP_INTERRUPT;
	1744	break;
	1745	case KVM_EXIT_SHUTDOWN:
	1746	DPRINTF("shutdown\n");
	1747	qemu_system_reset_request();
	1748	ret = EXCP_INTERRUPT;
	1749	break;
	1750	case KVM_EXIT_UNKNOWN:
	1751	fprintf(stderr, "KVM: unknown exit, hardware reason %" PRIx64 "\n",
	1752	(uint64_t)run->hw.hardware_exit_reason);
	1753	ret = -1;
	1754	break;
	1755	case KVM_EXIT_INTERNAL_ERROR:
	1756	ret = kvm_handle_internal_error(cpu, run);
	1757	break;
	1758	default:
	1759	DPRINTF("kvm_arch_handle_exit\n");
	1760	ret = kvm_arch_handle_exit(cpu, run);
	1761	break;
	1762	}
	1763	} while (ret == 0);
	1764
	1765	if (ret < 0) {
	1766	cpu_dump_state(cpu, stderr, fprintf, CPU_DUMP_CODE);
	1767	vm_stop(RUN_STATE_INTERNAL_ERROR);
	1768	}
	1769
	1770	cpu->exit_request = 0;
	1771	return ret;
	1772	}
	1773
	1774	int kvm_ioctl(KVMState *s, int type, ...)
	1775	{
	1776	int ret;
	1777	void *arg;
	1778	va_list ap;
	1779
	1780	va_start(ap, type);
	1781	arg = va_arg(ap, void *);
	1782	va_end(ap);
	1783
	1784	trace_kvm_ioctl(type, arg);
	1785	ret = ioctl(s->fd, type, arg);
	1786	if (ret == -1) {
	1787	ret = -errno;
	1788	}
	1789	return ret;
	1790	}
	1791
	1792	int kvm_vm_ioctl(KVMState *s, int type, ...)
	1793	{
	1794	int ret;
	1795	void *arg;
	1796	va_list ap;
	1797
	1798	va_start(ap, type);
	1799	arg = va_arg(ap, void *);
	1800	va_end(ap);
	1801
	1802	trace_kvm_vm_ioctl(type, arg);
	1803	ret = ioctl(s->vmfd, type, arg);
	1804	if (ret == -1) {
	1805	ret = -errno;
	1806	}
	1807	return ret;
	1808	}
	1809
	1810	int kvm_vcpu_ioctl(CPUState *cpu, int type, ...)
	1811	{
	1812	int ret;
	1813	void *arg;
	1814	va_list ap;
	1815
	1816	va_start(ap, type);
	1817	arg = va_arg(ap, void *);
	1818	va_end(ap);
	1819
	1820	trace_kvm_vcpu_ioctl(cpu->cpu_index, type, arg);
	1821	ret = ioctl(cpu->kvm_fd, type, arg);
	1822	if (ret == -1) {
	1823	ret = -errno;
	1824	}
	1825	return ret;
	1826	}
	1827
	1828	int kvm_device_ioctl(int fd, int type, ...)
	1829	{
	1830	int ret;
	1831	void *arg;
	1832	va_list ap;
	1833
	1834	va_start(ap, type);
	1835	arg = va_arg(ap, void *);
	1836	va_end(ap);
	1837
	1838	trace_kvm_device_ioctl(fd, type, arg);
	1839	ret = ioctl(fd, type, arg);
	1840	if (ret == -1) {
	1841	ret = -errno;
	1842	}
	1843	return ret;
	1844	}
	1845
	1846	int kvm_has_sync_mmu(void)
	1847	{
	1848	return kvm_check_extension(kvm_state, KVM_CAP_SYNC_MMU);
	1849	}
	1850
	1851	int kvm_has_vcpu_events(void)
	1852	{
	1853	return kvm_state->vcpu_events;
	1854	}
	1855
	1856	int kvm_has_robust_singlestep(void)
	1857	{
	1858	return kvm_state->robust_singlestep;
	1859	}
	1860
	1861	int kvm_has_debugregs(void)
	1862	{
	1863	return kvm_state->debugregs;
	1864	}
	1865
	1866	int kvm_has_xsave(void)
	1867	{
	1868	return kvm_state->xsave;
	1869	}
	1870
	1871	int kvm_has_xcrs(void)
	1872	{
	1873	return kvm_state->xcrs;
	1874	}
	1875
	1876	int kvm_has_pit_state2(void)
	1877	{
	1878	return kvm_state->pit_state2;
	1879	}
	1880
	1881	int kvm_has_many_ioeventfds(void)
	1882	{
	1883	if (!kvm_enabled()) {
	1884	return 0;
	1885	}
	1886	return kvm_state->many_ioeventfds;
	1887	}
	1888
	1889	int kvm_has_gsi_routing(void)
	1890	{
	1891	#ifdef KVM_CAP_IRQ_ROUTING
	1892	return kvm_check_extension(kvm_state, KVM_CAP_IRQ_ROUTING);
	1893	#else
	1894	return false;
	1895	#endif
	1896	}
	1897
	1898	int kvm_has_intx_set_mask(void)
	1899	{
	1900	return kvm_state->intx_set_mask;
	1901	}
	1902
	1903	void kvm_setup_guest_memory(void *start, size_t size)
	1904	{
	1905	#ifdef CONFIG_VALGRIND_H
	1906	VALGRIND_MAKE_MEM_DEFINED(start, size);
	1907	#endif
	1908	if (!kvm_has_sync_mmu()) {
	1909	int ret = qemu_madvise(start, size, QEMU_MADV_DONTFORK);
	1910
	1911	if (ret) {
	1912	perror("qemu_madvise");
	1913	fprintf(stderr,
	1914	"Need MADV_DONTFORK in absence of synchronous KVM MMU\n");
	1915	exit(1);
	1916	}
	1917	}
	1918	}
	1919
	1920	#ifdef KVM_CAP_SET_GUEST_DEBUG
	1921	struct kvm_sw_breakpoint kvm_find_sw_breakpoint(CPUState cpu,
	1922	target_ulong pc)
	1923	{
	1924	struct kvm_sw_breakpoint *bp;
	1925
	1926	QTAILQ_FOREACH(bp, &cpu->kvm_state->kvm_sw_breakpoints, entry) {
	1927	if (bp->pc == pc) {
	1928	return bp;
	1929	}
	1930	}
	1931	return NULL;
	1932	}
	1933
	1934	int kvm_sw_breakpoints_active(CPUState *cpu)
	1935	{
	1936	return !QTAILQ_EMPTY(&cpu->kvm_state->kvm_sw_breakpoints);
	1937	}
	1938
	1939	struct kvm_set_guest_debug_data {
	1940	struct kvm_guest_debug dbg;
	1941	CPUState *cpu;
	1942	int err;
	1943	};
	1944
	1945	static void kvm_invoke_set_guest_debug(void *data)
	1946	{
	1947	struct kvm_set_guest_debug_data *dbg_data = data;
	1948
	1949	dbg_data->err = kvm_vcpu_ioctl(dbg_data->cpu, KVM_SET_GUEST_DEBUG,
	1950	&dbg_data->dbg);
	1951	}
	1952
	1953	int kvm_update_guest_debug(CPUState *cpu, unsigned long reinject_trap)
	1954	{
	1955	struct kvm_set_guest_debug_data data;
	1956
	1957	data.dbg.control = reinject_trap;
	1958
	1959	if (cpu->singlestep_enabled) {
	1960	data.dbg.control \|= KVM_GUESTDBG_ENABLE \| KVM_GUESTDBG_SINGLESTEP;
	1961	}
	1962	kvm_arch_update_guest_debug(cpu, &data.dbg);
	1963	data.cpu = cpu;
	1964
	1965	run_on_cpu(cpu, kvm_invoke_set_guest_debug, &data);
	1966	return data.err;
	1967	}
	1968
	1969	int kvm_insert_breakpoint(CPUState *cpu, target_ulong addr,
	1970	target_ulong len, int type)
	1971	{
	1972	struct kvm_sw_breakpoint *bp;
	1973	int err;
	1974
	1975	if (type == GDB_BREAKPOINT_SW) {
	1976	bp = kvm_find_sw_breakpoint(cpu, addr);
	1977	if (bp) {
	1978	bp->use_count++;
	1979	return 0;
	1980	}
	1981
	1982	bp = g_malloc(sizeof(struct kvm_sw_breakpoint));
	1983	if (!bp) {
	1984	return -ENOMEM;
	1985	}
	1986
	1987	bp->pc = addr;
	1988	bp->use_count = 1;
	1989	err = kvm_arch_insert_sw_breakpoint(cpu, bp);
	1990	if (err) {
	1991	g_free(bp);
	1992	return err;
	1993	}
	1994
	1995	QTAILQ_INSERT_HEAD(&cpu->kvm_state->kvm_sw_breakpoints, bp, entry);
	1996	} else {
	1997	err = kvm_arch_insert_hw_breakpoint(addr, len, type);
	1998	if (err) {
	1999	return err;
	2000	}
	2001	}
	2002
	2003	CPU_FOREACH(cpu) {
	2004	err = kvm_update_guest_debug(cpu, 0);
	2005	if (err) {
	2006	return err;
	2007	}
	2008	}
	2009	return 0;
	2010	}
	2011
	2012	int kvm_remove_breakpoint(CPUState *cpu, target_ulong addr,
	2013	target_ulong len, int type)
	2014	{
	2015	struct kvm_sw_breakpoint *bp;
	2016	int err;
	2017
	2018	if (type == GDB_BREAKPOINT_SW) {
	2019	bp = kvm_find_sw_breakpoint(cpu, addr);
	2020	if (!bp) {
	2021	return -ENOENT;
	2022	}
	2023
	2024	if (bp->use_count > 1) {
	2025	bp->use_count--;
	2026	return 0;
	2027	}
	2028
	2029	err = kvm_arch_remove_sw_breakpoint(cpu, bp);
	2030	if (err) {
	2031	return err;
	2032	}
	2033
	2034	QTAILQ_REMOVE(&cpu->kvm_state->kvm_sw_breakpoints, bp, entry);
	2035	g_free(bp);
	2036	} else {
	2037	err = kvm_arch_remove_hw_breakpoint(addr, len, type);
	2038	if (err) {
	2039	return err;
	2040	}
	2041	}
	2042
	2043	CPU_FOREACH(cpu) {
	2044	err = kvm_update_guest_debug(cpu, 0);
	2045	if (err) {
	2046	return err;
	2047	}
	2048	}
	2049	return 0;
	2050	}
	2051
	2052	void kvm_remove_all_breakpoints(CPUState *cpu)
	2053	{
	2054	struct kvm_sw_breakpoint bp, next;
	2055	KVMState *s = cpu->kvm_state;
	2056
	2057	QTAILQ_FOREACH_SAFE(bp, &s->kvm_sw_breakpoints, entry, next) {
	2058	if (kvm_arch_remove_sw_breakpoint(cpu, bp) != 0) {
	2059	/* Try harder to find a CPU that currently sees the breakpoint. */
	2060	CPU_FOREACH(cpu) {
	2061	if (kvm_arch_remove_sw_breakpoint(cpu, bp) == 0) {
	2062	break;
	2063	}
	2064	}
	2065	}
	2066	QTAILQ_REMOVE(&s->kvm_sw_breakpoints, bp, entry);
	2067	g_free(bp);
	2068	}
	2069	kvm_arch_remove_all_hw_breakpoints();
	2070
	2071	CPU_FOREACH(cpu) {
	2072	kvm_update_guest_debug(cpu, 0);
	2073	}
	2074	}
	2075
	2076	#else /* !KVM_CAP_SET_GUEST_DEBUG */
	2077
	2078	int kvm_update_guest_debug(CPUState *cpu, unsigned long reinject_trap)
	2079	{
	2080	return -EINVAL;
	2081	}
	2082
	2083	int kvm_insert_breakpoint(CPUState *cpu, target_ulong addr,
	2084	target_ulong len, int type)
	2085	{
	2086	return -EINVAL;
	2087	}
	2088
	2089	int kvm_remove_breakpoint(CPUState *cpu, target_ulong addr,
	2090	target_ulong len, int type)
	2091	{
	2092	return -EINVAL;
	2093	}
	2094
	2095	void kvm_remove_all_breakpoints(CPUState *cpu)
	2096	{
	2097	}
	2098	#endif /* !KVM_CAP_SET_GUEST_DEBUG */
	2099
	2100	int kvm_set_signal_mask(CPUState cpu, const sigset_t sigset)
	2101	{
	2102	struct kvm_signal_mask *sigmask;
	2103	int r;
	2104
	2105	if (!sigset) {
	2106	return kvm_vcpu_ioctl(cpu, KVM_SET_SIGNAL_MASK, NULL);
	2107	}
	2108
	2109	sigmask = g_malloc(sizeof(sigmask) + sizeof(sigset));
	2110
	2111	sigmask->len = 8;
	2112	memcpy(sigmask->sigset, sigset, sizeof(*sigset));
	2113	r = kvm_vcpu_ioctl(cpu, KVM_SET_SIGNAL_MASK, sigmask);
	2114	g_free(sigmask);
	2115
	2116	return r;
	2117	}
	2118	int kvm_on_sigbus_vcpu(CPUState cpu, int code, void addr)
	2119	{
	2120	return kvm_arch_on_sigbus_vcpu(cpu, code, addr);
	2121	}
	2122
	2123	int kvm_on_sigbus(int code, void *addr)
	2124	{
	2125	return kvm_arch_on_sigbus(code, addr);
	2126	}
	2127
	2128	int kvm_create_device(KVMState *s, uint64_t type, bool test)
	2129	{
	2130	int ret;
	2131	struct kvm_create_device create_dev;
	2132
	2133	create_dev.type = type;
	2134	create_dev.fd = -1;
	2135	create_dev.flags = test ? KVM_CREATE_DEVICE_TEST : 0;
	2136
	2137	if (!kvm_check_extension(s, KVM_CAP_DEVICE_CTRL)) {
	2138	return -ENOTSUP;
	2139	}
	2140
	2141	ret = kvm_vm_ioctl(s, KVM_CREATE_DEVICE, &create_dev);
	2142	if (ret) {
	2143	return ret;
	2144	}
	2145
	2146	return test ? 0 : create_dev.fd;
	2147	}
	2148
	2149	int kvm_set_one_reg(CPUState cs, uint64_t id, void source)
	2150	{
	2151	struct kvm_one_reg reg;
	2152	int r;
	2153
	2154	reg.id = id;
	2155	reg.addr = (uintptr_t) source;
	2156	r = kvm_vcpu_ioctl(cs, KVM_SET_ONE_REG, &reg);
	2157	if (r) {
	2158	trace_kvm_failed_reg_set(id, strerror(r));
	2159	}
	2160	return r;
	2161	}
	2162
	2163	int kvm_get_one_reg(CPUState cs, uint64_t id, void target)
	2164	{
	2165	struct kvm_one_reg reg;
	2166	int r;
	2167
	2168	reg.id = id;
	2169	reg.addr = (uintptr_t) target;
	2170	r = kvm_vcpu_ioctl(cs, KVM_GET_ONE_REG, &reg);
	2171	if (r) {
	2172	trace_kvm_failed_reg_get(id, strerror(r));
	2173	}
	2174	return r;
	2175	}