Git Repo - qemu.git/blame_incremental

... / ...

Commit	Line	Data
	1	/*
	2	* QEMU KVM support
	3	*
	4	* Copyright IBM, Corp. 2008
	5	* Red Hat, Inc. 2008
	6	*
	7	* Authors:
	8	* Anthony Liguori <[email protected]>
	9	* Glauber Costa <[email protected]>
	10	*
	11	* This work is licensed under the terms of the GNU GPL, version 2 or later.
	12	* See the COPYING file in the top-level directory.
	13	*
	14	*/
	15
	16	#include <sys/types.h>
	17	#include <sys/ioctl.h>
	18	#include <sys/mman.h>
	19	#include <stdarg.h>
	20
	21	#include <linux/kvm.h>
	22
	23	#include "qemu-common.h"
	24	#include "qemu/atomic.h"
	25	#include "qemu/option.h"
	26	#include "qemu/config-file.h"
	27	#include "sysemu/sysemu.h"
	28	#include "hw/hw.h"
	29	#include "hw/pci/msi.h"
	30	#include "exec/gdbstub.h"
	31	#include "sysemu/kvm.h"
	32	#include "qemu/bswap.h"
	33	#include "exec/memory.h"
	34	#include "exec/ram_addr.h"
	35	#include "exec/address-spaces.h"
	36	#include "qemu/event_notifier.h"
	37	#include "trace.h"
	38
	39	#include "hw/boards.h"
	40
	41	/* This check must be after config-host.h is included */
	42	#ifdef CONFIG_EVENTFD
	43	#include <sys/eventfd.h>
	44	#endif
	45
	46	#ifdef CONFIG_VALGRIND_H
	47	#include <valgrind/memcheck.h>
	48	#endif
	49
	50	/* KVM uses PAGE_SIZE in its definition of COALESCED_MMIO_MAX */
	51	#define PAGE_SIZE TARGET_PAGE_SIZE
	52
	53	//#define DEBUG_KVM
	54
	55	#ifdef DEBUG_KVM
	56	#define DPRINTF(fmt, ...) \
	57	do { fprintf(stderr, fmt, ## __VA_ARGS__); } while (0)
	58	#else
	59	#define DPRINTF(fmt, ...) \
	60	do { } while (0)
	61	#endif
	62
	63	#define KVM_MSI_HASHTAB_SIZE 256
	64
	65	typedef struct KVMSlot
	66	{
	67	hwaddr start_addr;
	68	ram_addr_t memory_size;
	69	void *ram;
	70	int slot;
	71	int flags;
	72	} KVMSlot;
	73
	74	typedef struct kvm_dirty_log KVMDirtyLog;
	75
	76	struct KVMState
	77	{
	78	KVMSlot *slots;
	79	int nr_slots;
	80	int fd;
	81	int vmfd;
	82	int coalesced_mmio;
	83	struct kvm_coalesced_mmio_ring *coalesced_mmio_ring;
	84	bool coalesced_flush_in_progress;
	85	int broken_set_mem_region;
	86	int migration_log;
	87	int vcpu_events;
	88	int robust_singlestep;
	89	int debugregs;
	90	#ifdef KVM_CAP_SET_GUEST_DEBUG
	91	struct kvm_sw_breakpoint_head kvm_sw_breakpoints;
	92	#endif
	93	int pit_state2;
	94	int xsave, xcrs;
	95	int many_ioeventfds;
	96	int intx_set_mask;
	97	/* The man page (and posix) say ioctl numbers are signed int, but
	98	* they're not. Linux, glibc and *BSD all treat ioctl numbers as
	99	* unsigned, and treating them as signed here can break things */
	100	unsigned irq_set_ioctl;
	101	#ifdef KVM_CAP_IRQ_ROUTING
	102	struct kvm_irq_routing *irq_routes;
	103	int nr_allocated_irq_routes;
	104	uint32_t *used_gsi_bitmap;
	105	unsigned int gsi_count;
	106	QTAILQ_HEAD(msi_hashtab, KVMMSIRoute) msi_hashtab[KVM_MSI_HASHTAB_SIZE];
	107	bool direct_msi;
	108	#endif
	109	};
	110
	111	KVMState *kvm_state;
	112	bool kvm_kernel_irqchip;
	113	bool kvm_async_interrupts_allowed;
	114	bool kvm_halt_in_kernel_allowed;
	115	bool kvm_irqfds_allowed;
	116	bool kvm_msi_via_irqfd_allowed;
	117	bool kvm_gsi_routing_allowed;
	118	bool kvm_gsi_direct_mapping;
	119	bool kvm_allowed;
	120	bool kvm_readonly_mem_allowed;
	121
	122	static const KVMCapabilityInfo kvm_required_capabilites[] = {
	123	KVM_CAP_INFO(USER_MEMORY),
	124	KVM_CAP_INFO(DESTROY_MEMORY_REGION_WORKS),
	125	KVM_CAP_LAST_INFO
	126	};
	127
	128	static KVMSlot kvm_alloc_slot(KVMState s)
	129	{
	130	int i;
	131
	132	for (i = 0; i < s->nr_slots; i++) {
	133	if (s->slots[i].memory_size == 0) {
	134	return &s->slots[i];
	135	}
	136	}
	137
	138	fprintf(stderr, "%s: no free slot available\n", __func__);
	139	abort();
	140	}
	141
	142	static KVMSlot kvm_lookup_matching_slot(KVMState s,
	143	hwaddr start_addr,
	144	hwaddr end_addr)
	145	{
	146	int i;
	147
	148	for (i = 0; i < s->nr_slots; i++) {
	149	KVMSlot *mem = &s->slots[i];
	150
	151	if (start_addr == mem->start_addr &&
	152	end_addr == mem->start_addr + mem->memory_size) {
	153	return mem;
	154	}
	155	}
	156
	157	return NULL;
	158	}
	159
	160	/*
	161	* Find overlapping slot with lowest start address
	162	*/
	163	static KVMSlot kvm_lookup_overlapping_slot(KVMState s,
	164	hwaddr start_addr,
	165	hwaddr end_addr)
	166	{
	167	KVMSlot *found = NULL;
	168	int i;
	169
	170	for (i = 0; i < s->nr_slots; i++) {
	171	KVMSlot *mem = &s->slots[i];
	172
	173	if (mem->memory_size == 0 \|\|
	174	(found && found->start_addr < mem->start_addr)) {
	175	continue;
	176	}
	177
	178	if (end_addr > mem->start_addr &&
	179	start_addr < mem->start_addr + mem->memory_size) {
	180	found = mem;
	181	}
	182	}
	183
	184	return found;
	185	}
	186
	187	int kvm_physical_memory_addr_from_host(KVMState s, void ram,
	188	hwaddr *phys_addr)
	189	{
	190	int i;
	191
	192	for (i = 0; i < s->nr_slots; i++) {
	193	KVMSlot *mem = &s->slots[i];
	194
	195	if (ram >= mem->ram && ram < mem->ram + mem->memory_size) {
	196	*phys_addr = mem->start_addr + (ram - mem->ram);
	197	return 1;
	198	}
	199	}
	200
	201	return 0;
	202	}
	203
	204	static int kvm_set_user_memory_region(KVMState s, KVMSlot slot)
	205	{
	206	struct kvm_userspace_memory_region mem;
	207
	208	mem.slot = slot->slot;
	209	mem.guest_phys_addr = slot->start_addr;
	210	mem.userspace_addr = (unsigned long)slot->ram;
	211	mem.flags = slot->flags;
	212	if (s->migration_log) {
	213	mem.flags \|= KVM_MEM_LOG_DIRTY_PAGES;
	214	}
	215
	216	if (slot->memory_size && mem.flags & KVM_MEM_READONLY) {
	217	/* Set the slot size to 0 before setting the slot to the desired
	218	* value. This is needed based on KVM commit 75d61fbc. */
	219	mem.memory_size = 0;
	220	kvm_vm_ioctl(s, KVM_SET_USER_MEMORY_REGION, &mem);
	221	}
	222	mem.memory_size = slot->memory_size;
	223	return kvm_vm_ioctl(s, KVM_SET_USER_MEMORY_REGION, &mem);
	224	}
	225
	226	static void kvm_reset_vcpu(void *opaque)
	227	{
	228	CPUState *cpu = opaque;
	229
	230	kvm_arch_reset_vcpu(cpu);
	231	}
	232
	233	int kvm_init_vcpu(CPUState *cpu)
	234	{
	235	KVMState *s = kvm_state;
	236	long mmap_size;
	237	int ret;
	238
	239	DPRINTF("kvm_init_vcpu\n");
	240
	241	ret = kvm_vm_ioctl(s, KVM_CREATE_VCPU, (void *)kvm_arch_vcpu_id(cpu));
	242	if (ret < 0) {
	243	DPRINTF("kvm_create_vcpu failed\n");
	244	goto err;
	245	}
	246
	247	cpu->kvm_fd = ret;
	248	cpu->kvm_state = s;
	249	cpu->kvm_vcpu_dirty = true;
	250
	251	mmap_size = kvm_ioctl(s, KVM_GET_VCPU_MMAP_SIZE, 0);
	252	if (mmap_size < 0) {
	253	ret = mmap_size;
	254	DPRINTF("KVM_GET_VCPU_MMAP_SIZE failed\n");
	255	goto err;
	256	}
	257
	258	cpu->kvm_run = mmap(NULL, mmap_size, PROT_READ \| PROT_WRITE, MAP_SHARED,
	259	cpu->kvm_fd, 0);
	260	if (cpu->kvm_run == MAP_FAILED) {
	261	ret = -errno;
	262	DPRINTF("mmap'ing vcpu state failed\n");
	263	goto err;
	264	}
	265
	266	if (s->coalesced_mmio && !s->coalesced_mmio_ring) {
	267	s->coalesced_mmio_ring =
	268	(void )cpu->kvm_run + s->coalesced_mmio PAGE_SIZE;
	269	}
	270
	271	ret = kvm_arch_init_vcpu(cpu);
	272	if (ret == 0) {
	273	qemu_register_reset(kvm_reset_vcpu, cpu);
	274	kvm_arch_reset_vcpu(cpu);
	275	}
	276	err:
	277	return ret;
	278	}
	279
	280	/*
	281	* dirty pages logging control
	282	*/
	283
	284	static int kvm_mem_flags(KVMState *s, bool log_dirty, bool readonly)
	285	{
	286	int flags = 0;
	287	flags = log_dirty ? KVM_MEM_LOG_DIRTY_PAGES : 0;
	288	if (readonly && kvm_readonly_mem_allowed) {
	289	flags \|= KVM_MEM_READONLY;
	290	}
	291	return flags;
	292	}
	293
	294	static int kvm_slot_dirty_pages_log_change(KVMSlot *mem, bool log_dirty)
	295	{
	296	KVMState *s = kvm_state;
	297	int flags, mask = KVM_MEM_LOG_DIRTY_PAGES;
	298	int old_flags;
	299
	300	old_flags = mem->flags;
	301
	302	flags = (mem->flags & ~mask) \| kvm_mem_flags(s, log_dirty, false);
	303	mem->flags = flags;
	304
	305	/* If nothing changed effectively, no need to issue ioctl */
	306	if (s->migration_log) {
	307	flags \|= KVM_MEM_LOG_DIRTY_PAGES;
	308	}
	309
	310	if (flags == old_flags) {
	311	return 0;
	312	}
	313
	314	return kvm_set_user_memory_region(s, mem);
	315	}
	316
	317	static int kvm_dirty_pages_log_change(hwaddr phys_addr,
	318	ram_addr_t size, bool log_dirty)
	319	{
	320	KVMState *s = kvm_state;
	321	KVMSlot *mem = kvm_lookup_matching_slot(s, phys_addr, phys_addr + size);
	322
	323	if (mem == NULL) {
	324	fprintf(stderr, "BUG: %s: invalid parameters " TARGET_FMT_plx "-"
	325	TARGET_FMT_plx "\n", __func__, phys_addr,
	326	(hwaddr)(phys_addr + size - 1));
	327	return -EINVAL;
	328	}
	329	return kvm_slot_dirty_pages_log_change(mem, log_dirty);
	330	}
	331
	332	static void kvm_log_start(MemoryListener *listener,
	333	MemoryRegionSection *section)
	334	{
	335	int r;
	336
	337	r = kvm_dirty_pages_log_change(section->offset_within_address_space,
	338	int128_get64(section->size), true);
	339	if (r < 0) {
	340	abort();
	341	}
	342	}
	343
	344	static void kvm_log_stop(MemoryListener *listener,
	345	MemoryRegionSection *section)
	346	{
	347	int r;
	348
	349	r = kvm_dirty_pages_log_change(section->offset_within_address_space,
	350	int128_get64(section->size), false);
	351	if (r < 0) {
	352	abort();
	353	}
	354	}
	355
	356	static int kvm_set_migration_log(int enable)
	357	{
	358	KVMState *s = kvm_state;
	359	KVMSlot *mem;
	360	int i, err;
	361
	362	s->migration_log = enable;
	363
	364	for (i = 0; i < s->nr_slots; i++) {
	365	mem = &s->slots[i];
	366
	367	if (!mem->memory_size) {
	368	continue;
	369	}
	370	if (!!(mem->flags & KVM_MEM_LOG_DIRTY_PAGES) == enable) {
	371	continue;
	372	}
	373	err = kvm_set_user_memory_region(s, mem);
	374	if (err) {
	375	return err;
	376	}
	377	}
	378	return 0;
	379	}
	380
	381	/* get kvm's dirty pages bitmap and update qemu's */
	382	static int kvm_get_dirty_pages_log_range(MemoryRegionSection *section,
	383	unsigned long *bitmap)
	384	{
	385	ram_addr_t start = section->offset_within_region + section->mr->ram_addr;
	386	ram_addr_t pages = int128_get64(section->size) / getpagesize();
	387
	388	cpu_physical_memory_set_dirty_lebitmap(bitmap, start, pages);
	389	return 0;
	390	}
	391
	392	#define ALIGN(x, y) (((x)+(y)-1) & ~((y)-1))
	393
	394	/**
	395	* kvm_physical_sync_dirty_bitmap - Grab dirty bitmap from kernel space
	396	* This function updates qemu's dirty bitmap using
	397	* memory_region_set_dirty(). This means all bits are set
	398	* to dirty.
	399	*
	400	* @start_add: start of logged region.
	401	* @end_addr: end of logged region.
	402	*/
	403	static int kvm_physical_sync_dirty_bitmap(MemoryRegionSection *section)
	404	{
	405	KVMState *s = kvm_state;
	406	unsigned long size, allocated_size = 0;
	407	KVMDirtyLog d;
	408	KVMSlot *mem;
	409	int ret = 0;
	410	hwaddr start_addr = section->offset_within_address_space;
	411	hwaddr end_addr = start_addr + int128_get64(section->size);
	412
	413	d.dirty_bitmap = NULL;
	414	while (start_addr < end_addr) {
	415	mem = kvm_lookup_overlapping_slot(s, start_addr, end_addr);
	416	if (mem == NULL) {
	417	break;
	418	}
	419
	420	/* XXX bad kernel interface alert
	421	* For dirty bitmap, kernel allocates array of size aligned to
	422	* bits-per-long. But for case when the kernel is 64bits and
	423	* the userspace is 32bits, userspace can't align to the same
	424	* bits-per-long, since sizeof(long) is different between kernel
	425	* and user space. This way, userspace will provide buffer which
	426	* may be 4 bytes less than the kernel will use, resulting in
	427	* userspace memory corruption (which is not detectable by valgrind
	428	* too, in most cases).
	429	* So for now, let's align to 64 instead of HOST_LONG_BITS here, in
	430	* a hope that sizeof(long) wont become >8 any time soon.
	431	*/
	432	size = ALIGN(((mem->memory_size) >> TARGET_PAGE_BITS),
	433	/HOST_LONG_BITS/ 64) / 8;
	434	if (!d.dirty_bitmap) {
	435	d.dirty_bitmap = g_malloc(size);
	436	} else if (size > allocated_size) {
	437	d.dirty_bitmap = g_realloc(d.dirty_bitmap, size);
	438	}
	439	allocated_size = size;
	440	memset(d.dirty_bitmap, 0, allocated_size);
	441
	442	d.slot = mem->slot;
	443
	444	if (kvm_vm_ioctl(s, KVM_GET_DIRTY_LOG, &d) == -1) {
	445	DPRINTF("ioctl failed %d\n", errno);
	446	ret = -1;
	447	break;
	448	}
	449
	450	kvm_get_dirty_pages_log_range(section, d.dirty_bitmap);
	451	start_addr = mem->start_addr + mem->memory_size;
	452	}
	453	g_free(d.dirty_bitmap);
	454
	455	return ret;
	456	}
	457
	458	static void kvm_coalesce_mmio_region(MemoryListener *listener,
	459	MemoryRegionSection *secion,
	460	hwaddr start, hwaddr size)
	461	{
	462	KVMState *s = kvm_state;
	463
	464	if (s->coalesced_mmio) {
	465	struct kvm_coalesced_mmio_zone zone;
	466
	467	zone.addr = start;
	468	zone.size = size;
	469	zone.pad = 0;
	470
	471	(void)kvm_vm_ioctl(s, KVM_REGISTER_COALESCED_MMIO, &zone);
	472	}
	473	}
	474
	475	static void kvm_uncoalesce_mmio_region(MemoryListener *listener,
	476	MemoryRegionSection *secion,
	477	hwaddr start, hwaddr size)
	478	{
	479	KVMState *s = kvm_state;
	480
	481	if (s->coalesced_mmio) {
	482	struct kvm_coalesced_mmio_zone zone;
	483
	484	zone.addr = start;
	485	zone.size = size;
	486	zone.pad = 0;
	487
	488	(void)kvm_vm_ioctl(s, KVM_UNREGISTER_COALESCED_MMIO, &zone);
	489	}
	490	}
	491
	492	int kvm_check_extension(KVMState *s, unsigned int extension)
	493	{
	494	int ret;
	495
	496	ret = kvm_ioctl(s, KVM_CHECK_EXTENSION, extension);
	497	if (ret < 0) {
	498	ret = 0;
	499	}
	500
	501	return ret;
	502	}
	503
	504	static int kvm_set_ioeventfd_mmio(int fd, hwaddr addr, uint32_t val,
	505	bool assign, uint32_t size, bool datamatch)
	506	{
	507	int ret;
	508	struct kvm_ioeventfd iofd;
	509
	510	iofd.datamatch = datamatch ? val : 0;
	511	iofd.addr = addr;
	512	iofd.len = size;
	513	iofd.flags = 0;
	514	iofd.fd = fd;
	515
	516	if (!kvm_enabled()) {
	517	return -ENOSYS;
	518	}
	519
	520	if (datamatch) {
	521	iofd.flags \|= KVM_IOEVENTFD_FLAG_DATAMATCH;
	522	}
	523	if (!assign) {
	524	iofd.flags \|= KVM_IOEVENTFD_FLAG_DEASSIGN;
	525	}
	526
	527	ret = kvm_vm_ioctl(kvm_state, KVM_IOEVENTFD, &iofd);
	528
	529	if (ret < 0) {
	530	return -errno;
	531	}
	532
	533	return 0;
	534	}
	535
	536	static int kvm_set_ioeventfd_pio(int fd, uint16_t addr, uint16_t val,
	537	bool assign, uint32_t size, bool datamatch)
	538	{
	539	struct kvm_ioeventfd kick = {
	540	.datamatch = datamatch ? val : 0,
	541	.addr = addr,
	542	.flags = KVM_IOEVENTFD_FLAG_PIO,
	543	.len = size,
	544	.fd = fd,
	545	};
	546	int r;
	547	if (!kvm_enabled()) {
	548	return -ENOSYS;
	549	}
	550	if (datamatch) {
	551	kick.flags \|= KVM_IOEVENTFD_FLAG_DATAMATCH;
	552	}
	553	if (!assign) {
	554	kick.flags \|= KVM_IOEVENTFD_FLAG_DEASSIGN;
	555	}
	556	r = kvm_vm_ioctl(kvm_state, KVM_IOEVENTFD, &kick);
	557	if (r < 0) {
	558	return r;
	559	}
	560	return 0;
	561	}
	562
	563
	564	static int kvm_check_many_ioeventfds(void)
	565	{
	566	/* Userspace can use ioeventfd for io notification. This requires a host
	567	* that supports eventfd(2) and an I/O thread; since eventfd does not
	568	* support SIGIO it cannot interrupt the vcpu.
	569	*
	570	* Older kernels have a 6 device limit on the KVM io bus. Find out so we
	571	* can avoid creating too many ioeventfds.
	572	*/
	573	#if defined(CONFIG_EVENTFD)
	574	int ioeventfds[7];
	575	int i, ret = 0;
	576	for (i = 0; i < ARRAY_SIZE(ioeventfds); i++) {
	577	ioeventfds[i] = eventfd(0, EFD_CLOEXEC);
	578	if (ioeventfds[i] < 0) {
	579	break;
	580	}
	581	ret = kvm_set_ioeventfd_pio(ioeventfds[i], 0, i, true, 2, true);
	582	if (ret < 0) {
	583	close(ioeventfds[i]);
	584	break;
	585	}
	586	}
	587
	588	/* Decide whether many devices are supported or not */
	589	ret = i == ARRAY_SIZE(ioeventfds);
	590
	591	while (i-- > 0) {
	592	kvm_set_ioeventfd_pio(ioeventfds[i], 0, i, false, 2, true);
	593	close(ioeventfds[i]);
	594	}
	595	return ret;
	596	#else
	597	return 0;
	598	#endif
	599	}
	600
	601	static const KVMCapabilityInfo *
	602	kvm_check_extension_list(KVMState s, const KVMCapabilityInfo list)
	603	{
	604	while (list->name) {
	605	if (!kvm_check_extension(s, list->value)) {
	606	return list;
	607	}
	608	list++;
	609	}
	610	return NULL;
	611	}
	612
	613	static void kvm_set_phys_mem(MemoryRegionSection *section, bool add)
	614	{
	615	KVMState *s = kvm_state;
	616	KVMSlot *mem, old;
	617	int err;
	618	MemoryRegion *mr = section->mr;
	619	bool log_dirty = memory_region_is_logging(mr);
	620	bool writeable = !mr->readonly && !mr->rom_device;
	621	bool readonly_flag = mr->readonly \|\| memory_region_is_romd(mr);
	622	hwaddr start_addr = section->offset_within_address_space;
	623	ram_addr_t size = int128_get64(section->size);
	624	void *ram = NULL;
	625	unsigned delta;
	626
	627	/* kvm works in page size chunks, but the function may be called
	628	with sub-page size and unaligned start address. */
	629	delta = TARGET_PAGE_ALIGN(size) - size;
	630	if (delta > size) {
	631	return;
	632	}
	633	start_addr += delta;
	634	size -= delta;
	635	size &= TARGET_PAGE_MASK;
	636	if (!size \|\| (start_addr & ~TARGET_PAGE_MASK)) {
	637	return;
	638	}
	639
	640	if (!memory_region_is_ram(mr)) {
	641	if (writeable \|\| !kvm_readonly_mem_allowed) {
	642	return;
	643	} else if (!mr->romd_mode) {
	644	/* If the memory device is not in romd_mode, then we actually want
	645	* to remove the kvm memory slot so all accesses will trap. */
	646	add = false;
	647	}
	648	}
	649
	650	ram = memory_region_get_ram_ptr(mr) + section->offset_within_region + delta;
	651
	652	while (1) {
	653	mem = kvm_lookup_overlapping_slot(s, start_addr, start_addr + size);
	654	if (!mem) {
	655	break;
	656	}
	657
	658	if (add && start_addr >= mem->start_addr &&
	659	(start_addr + size <= mem->start_addr + mem->memory_size) &&
	660	(ram - start_addr == mem->ram - mem->start_addr)) {
	661	/* The new slot fits into the existing one and comes with
	662	* identical parameters - update flags and done. */
	663	kvm_slot_dirty_pages_log_change(mem, log_dirty);
	664	return;
	665	}
	666
	667	old = *mem;
	668
	669	if (mem->flags & KVM_MEM_LOG_DIRTY_PAGES) {
	670	kvm_physical_sync_dirty_bitmap(section);
	671	}
	672
	673	/* unregister the overlapping slot */
	674	mem->memory_size = 0;
	675	err = kvm_set_user_memory_region(s, mem);
	676	if (err) {
	677	fprintf(stderr, "%s: error unregistering overlapping slot: %s\n",
	678	__func__, strerror(-err));
	679	abort();
	680	}
	681
	682	/* Workaround for older KVM versions: we can't join slots, even not by
	683	* unregistering the previous ones and then registering the larger
	684	* slot. We have to maintain the existing fragmentation. Sigh.
	685	*
	686	* This workaround assumes that the new slot starts at the same
	687	* address as the first existing one. If not or if some overlapping
	688	* slot comes around later, we will fail (not seen in practice so far)
	689	* - and actually require a recent KVM version. */
	690	if (s->broken_set_mem_region &&
	691	old.start_addr == start_addr && old.memory_size < size && add) {
	692	mem = kvm_alloc_slot(s);
	693	mem->memory_size = old.memory_size;
	694	mem->start_addr = old.start_addr;
	695	mem->ram = old.ram;
	696	mem->flags = kvm_mem_flags(s, log_dirty, readonly_flag);
	697
	698	err = kvm_set_user_memory_region(s, mem);
	699	if (err) {
	700	fprintf(stderr, "%s: error updating slot: %s\n", __func__,
	701	strerror(-err));
	702	abort();
	703	}
	704
	705	start_addr += old.memory_size;
	706	ram += old.memory_size;
	707	size -= old.memory_size;
	708	continue;
	709	}
	710
	711	/* register prefix slot */
	712	if (old.start_addr < start_addr) {
	713	mem = kvm_alloc_slot(s);
	714	mem->memory_size = start_addr - old.start_addr;
	715	mem->start_addr = old.start_addr;
	716	mem->ram = old.ram;
	717	mem->flags = kvm_mem_flags(s, log_dirty, readonly_flag);
	718
	719	err = kvm_set_user_memory_region(s, mem);
	720	if (err) {
	721	fprintf(stderr, "%s: error registering prefix slot: %s\n",
	722	__func__, strerror(-err));
	723	#ifdef TARGET_PPC
	724	fprintf(stderr, "%s: This is probably because your kernel's " \
	725	"PAGE_SIZE is too big. Please try to use 4k " \
	726	"PAGE_SIZE!\n", __func__);
	727	#endif
	728	abort();
	729	}
	730	}
	731
	732	/* register suffix slot */
	733	if (old.start_addr + old.memory_size > start_addr + size) {
	734	ram_addr_t size_delta;
	735
	736	mem = kvm_alloc_slot(s);
	737	mem->start_addr = start_addr + size;
	738	size_delta = mem->start_addr - old.start_addr;
	739	mem->memory_size = old.memory_size - size_delta;
	740	mem->ram = old.ram + size_delta;
	741	mem->flags = kvm_mem_flags(s, log_dirty, readonly_flag);
	742
	743	err = kvm_set_user_memory_region(s, mem);
	744	if (err) {
	745	fprintf(stderr, "%s: error registering suffix slot: %s\n",
	746	__func__, strerror(-err));
	747	abort();
	748	}
	749	}
	750	}
	751
	752	/* in case the KVM bug workaround already "consumed" the new slot */
	753	if (!size) {
	754	return;
	755	}
	756	if (!add) {
	757	return;
	758	}
	759	mem = kvm_alloc_slot(s);
	760	mem->memory_size = size;
	761	mem->start_addr = start_addr;
	762	mem->ram = ram;
	763	mem->flags = kvm_mem_flags(s, log_dirty, readonly_flag);
	764
	765	err = kvm_set_user_memory_region(s, mem);
	766	if (err) {
	767	fprintf(stderr, "%s: error registering slot: %s\n", __func__,
	768	strerror(-err));
	769	abort();
	770	}
	771	}
	772
	773	static void kvm_region_add(MemoryListener *listener,
	774	MemoryRegionSection *section)
	775	{
	776	memory_region_ref(section->mr);
	777	kvm_set_phys_mem(section, true);
	778	}
	779
	780	static void kvm_region_del(MemoryListener *listener,
	781	MemoryRegionSection *section)
	782	{
	783	kvm_set_phys_mem(section, false);
	784	memory_region_unref(section->mr);
	785	}
	786
	787	static void kvm_log_sync(MemoryListener *listener,
	788	MemoryRegionSection *section)
	789	{
	790	int r;
	791
	792	r = kvm_physical_sync_dirty_bitmap(section);
	793	if (r < 0) {
	794	abort();
	795	}
	796	}
	797
	798	static void kvm_log_global_start(struct MemoryListener *listener)
	799	{
	800	int r;
	801
	802	r = kvm_set_migration_log(1);
	803	assert(r >= 0);
	804	}
	805
	806	static void kvm_log_global_stop(struct MemoryListener *listener)
	807	{
	808	int r;
	809
	810	r = kvm_set_migration_log(0);
	811	assert(r >= 0);
	812	}
	813
	814	static void kvm_mem_ioeventfd_add(MemoryListener *listener,
	815	MemoryRegionSection *section,
	816	bool match_data, uint64_t data,
	817	EventNotifier *e)
	818	{
	819	int fd = event_notifier_get_fd(e);
	820	int r;
	821
	822	r = kvm_set_ioeventfd_mmio(fd, section->offset_within_address_space,
	823	data, true, int128_get64(section->size),
	824	match_data);
	825	if (r < 0) {
	826	fprintf(stderr, "%s: error adding ioeventfd: %s\n",
	827	__func__, strerror(-r));
	828	abort();
	829	}
	830	}
	831
	832	static void kvm_mem_ioeventfd_del(MemoryListener *listener,
	833	MemoryRegionSection *section,
	834	bool match_data, uint64_t data,
	835	EventNotifier *e)
	836	{
	837	int fd = event_notifier_get_fd(e);
	838	int r;
	839
	840	r = kvm_set_ioeventfd_mmio(fd, section->offset_within_address_space,
	841	data, false, int128_get64(section->size),
	842	match_data);
	843	if (r < 0) {
	844	abort();
	845	}
	846	}
	847
	848	static void kvm_io_ioeventfd_add(MemoryListener *listener,
	849	MemoryRegionSection *section,
	850	bool match_data, uint64_t data,
	851	EventNotifier *e)
	852	{
	853	int fd = event_notifier_get_fd(e);
	854	int r;
	855
	856	r = kvm_set_ioeventfd_pio(fd, section->offset_within_address_space,
	857	data, true, int128_get64(section->size),
	858	match_data);
	859	if (r < 0) {
	860	fprintf(stderr, "%s: error adding ioeventfd: %s\n",
	861	__func__, strerror(-r));
	862	abort();
	863	}
	864	}
	865
	866	static void kvm_io_ioeventfd_del(MemoryListener *listener,
	867	MemoryRegionSection *section,
	868	bool match_data, uint64_t data,
	869	EventNotifier *e)
	870
	871	{
	872	int fd = event_notifier_get_fd(e);
	873	int r;
	874
	875	r = kvm_set_ioeventfd_pio(fd, section->offset_within_address_space,
	876	data, false, int128_get64(section->size),
	877	match_data);
	878	if (r < 0) {
	879	abort();
	880	}
	881	}
	882
	883	static MemoryListener kvm_memory_listener = {
	884	.region_add = kvm_region_add,
	885	.region_del = kvm_region_del,
	886	.log_start = kvm_log_start,
	887	.log_stop = kvm_log_stop,
	888	.log_sync = kvm_log_sync,
	889	.log_global_start = kvm_log_global_start,
	890	.log_global_stop = kvm_log_global_stop,
	891	.eventfd_add = kvm_mem_ioeventfd_add,
	892	.eventfd_del = kvm_mem_ioeventfd_del,
	893	.coalesced_mmio_add = kvm_coalesce_mmio_region,
	894	.coalesced_mmio_del = kvm_uncoalesce_mmio_region,
	895	.priority = 10,
	896	};
	897
	898	static MemoryListener kvm_io_listener = {
	899	.eventfd_add = kvm_io_ioeventfd_add,
	900	.eventfd_del = kvm_io_ioeventfd_del,
	901	.priority = 10,
	902	};
	903
	904	static void kvm_handle_interrupt(CPUState *cpu, int mask)
	905	{
	906	cpu->interrupt_request \|= mask;
	907
	908	if (!qemu_cpu_is_self(cpu)) {
	909	qemu_cpu_kick(cpu);
	910	}
	911	}
	912
	913	int kvm_set_irq(KVMState *s, int irq, int level)
	914	{
	915	struct kvm_irq_level event;
	916	int ret;
	917
	918	assert(kvm_async_interrupts_enabled());
	919
	920	event.level = level;
	921	event.irq = irq;
	922	ret = kvm_vm_ioctl(s, s->irq_set_ioctl, &event);
	923	if (ret < 0) {
	924	perror("kvm_set_irq");
	925	abort();
	926	}
	927
	928	return (s->irq_set_ioctl == KVM_IRQ_LINE) ? 1 : event.status;
	929	}
	930
	931	#ifdef KVM_CAP_IRQ_ROUTING
	932	typedef struct KVMMSIRoute {
	933	struct kvm_irq_routing_entry kroute;
	934	QTAILQ_ENTRY(KVMMSIRoute) entry;
	935	} KVMMSIRoute;
	936
	937	static void set_gsi(KVMState *s, unsigned int gsi)
	938	{
	939	s->used_gsi_bitmap[gsi / 32] \|= 1U << (gsi % 32);
	940	}
	941
	942	static void clear_gsi(KVMState *s, unsigned int gsi)
	943	{
	944	s->used_gsi_bitmap[gsi / 32] &= ~(1U << (gsi % 32));
	945	}
	946
	947	void kvm_init_irq_routing(KVMState *s)
	948	{
	949	int gsi_count, i;
	950
	951	gsi_count = kvm_check_extension(s, KVM_CAP_IRQ_ROUTING);
	952	if (gsi_count > 0) {
	953	unsigned int gsi_bits, i;
	954
	955	/* Round up so we can search ints using ffs */
	956	gsi_bits = ALIGN(gsi_count, 32);
	957	s->used_gsi_bitmap = g_malloc0(gsi_bits / 8);
	958	s->gsi_count = gsi_count;
	959
	960	/* Mark any over-allocated bits as already in use */
	961	for (i = gsi_count; i < gsi_bits; i++) {
	962	set_gsi(s, i);
	963	}
	964	}
	965
	966	s->irq_routes = g_malloc0(sizeof(*s->irq_routes));
	967	s->nr_allocated_irq_routes = 0;
	968
	969	if (!s->direct_msi) {
	970	for (i = 0; i < KVM_MSI_HASHTAB_SIZE; i++) {
	971	QTAILQ_INIT(&s->msi_hashtab[i]);
	972	}
	973	}
	974
	975	kvm_arch_init_irq_routing(s);
	976	}
	977
	978	void kvm_irqchip_commit_routes(KVMState *s)
	979	{
	980	int ret;
	981
	982	s->irq_routes->flags = 0;
	983	ret = kvm_vm_ioctl(s, KVM_SET_GSI_ROUTING, s->irq_routes);
	984	assert(ret == 0);
	985	}
	986
	987	static void kvm_add_routing_entry(KVMState *s,
	988	struct kvm_irq_routing_entry *entry)
	989	{
	990	struct kvm_irq_routing_entry *new;
	991	int n, size;
	992
	993	if (s->irq_routes->nr == s->nr_allocated_irq_routes) {
	994	n = s->nr_allocated_irq_routes * 2;
	995	if (n < 64) {
	996	n = 64;
	997	}
	998	size = sizeof(struct kvm_irq_routing);
	999	size += n * sizeof(*new);
	1000	s->irq_routes = g_realloc(s->irq_routes, size);
	1001	s->nr_allocated_irq_routes = n;
	1002	}
	1003	n = s->irq_routes->nr++;
	1004	new = &s->irq_routes->entries[n];
	1005
	1006	new = entry;
	1007
	1008	set_gsi(s, entry->gsi);
	1009	}
	1010
	1011	static int kvm_update_routing_entry(KVMState *s,
	1012	struct kvm_irq_routing_entry *new_entry)
	1013	{
	1014	struct kvm_irq_routing_entry *entry;
	1015	int n;
	1016
	1017	for (n = 0; n < s->irq_routes->nr; n++) {
	1018	entry = &s->irq_routes->entries[n];
	1019	if (entry->gsi != new_entry->gsi) {
	1020	continue;
	1021	}
	1022
	1023	if(!memcmp(entry, new_entry, sizeof *entry)) {
	1024	return 0;
	1025	}
	1026
	1027	entry = new_entry;
	1028
	1029	kvm_irqchip_commit_routes(s);
	1030
	1031	return 0;
	1032	}
	1033
	1034	return -ESRCH;
	1035	}
	1036
	1037	void kvm_irqchip_add_irq_route(KVMState *s, int irq, int irqchip, int pin)
	1038	{
	1039	struct kvm_irq_routing_entry e = {};
	1040
	1041	assert(pin < s->gsi_count);
	1042
	1043	e.gsi = irq;
	1044	e.type = KVM_IRQ_ROUTING_IRQCHIP;
	1045	e.flags = 0;
	1046	e.u.irqchip.irqchip = irqchip;
	1047	e.u.irqchip.pin = pin;
	1048	kvm_add_routing_entry(s, &e);
	1049	}
	1050
	1051	void kvm_irqchip_release_virq(KVMState *s, int virq)
	1052	{
	1053	struct kvm_irq_routing_entry *e;
	1054	int i;
	1055
	1056	if (kvm_gsi_direct_mapping()) {
	1057	return;
	1058	}
	1059
	1060	for (i = 0; i < s->irq_routes->nr; i++) {
	1061	e = &s->irq_routes->entries[i];
	1062	if (e->gsi == virq) {
	1063	s->irq_routes->nr--;
	1064	*e = s->irq_routes->entries[s->irq_routes->nr];
	1065	}
	1066	}
	1067	clear_gsi(s, virq);
	1068	}
	1069
	1070	static unsigned int kvm_hash_msi(uint32_t data)
	1071	{
	1072	/* This is optimized for IA32 MSI layout. However, no other arch shall
	1073	* repeat the mistake of not providing a direct MSI injection API. */
	1074	return data & 0xff;
	1075	}
	1076
	1077	static void kvm_flush_dynamic_msi_routes(KVMState *s)
	1078	{
	1079	KVMMSIRoute route, next;
	1080	unsigned int hash;
	1081
	1082	for (hash = 0; hash < KVM_MSI_HASHTAB_SIZE; hash++) {
	1083	QTAILQ_FOREACH_SAFE(route, &s->msi_hashtab[hash], entry, next) {
	1084	kvm_irqchip_release_virq(s, route->kroute.gsi);
	1085	QTAILQ_REMOVE(&s->msi_hashtab[hash], route, entry);
	1086	g_free(route);
	1087	}
	1088	}
	1089	}
	1090
	1091	static int kvm_irqchip_get_virq(KVMState *s)
	1092	{
	1093	uint32_t *word = s->used_gsi_bitmap;
	1094	int max_words = ALIGN(s->gsi_count, 32) / 32;
	1095	int i, bit;
	1096	bool retry = true;
	1097
	1098	again:
	1099	/* Return the lowest unused GSI in the bitmap */
	1100	for (i = 0; i < max_words; i++) {
	1101	bit = ffs(~word[i]);
	1102	if (!bit) {
	1103	continue;
	1104	}
	1105
	1106	return bit - 1 + i * 32;
	1107	}
	1108	if (!s->direct_msi && retry) {
	1109	retry = false;
	1110	kvm_flush_dynamic_msi_routes(s);
	1111	goto again;
	1112	}
	1113	return -ENOSPC;
	1114
	1115	}
	1116
	1117	static KVMMSIRoute kvm_lookup_msi_route(KVMState s, MSIMessage msg)
	1118	{
	1119	unsigned int hash = kvm_hash_msi(msg.data);
	1120	KVMMSIRoute *route;
	1121
	1122	QTAILQ_FOREACH(route, &s->msi_hashtab[hash], entry) {
	1123	if (route->kroute.u.msi.address_lo == (uint32_t)msg.address &&
	1124	route->kroute.u.msi.address_hi == (msg.address >> 32) &&
	1125	route->kroute.u.msi.data == le32_to_cpu(msg.data)) {
	1126	return route;
	1127	}
	1128	}
	1129	return NULL;
	1130	}
	1131
	1132	int kvm_irqchip_send_msi(KVMState *s, MSIMessage msg)
	1133	{
	1134	struct kvm_msi msi;
	1135	KVMMSIRoute *route;
	1136
	1137	if (s->direct_msi) {
	1138	msi.address_lo = (uint32_t)msg.address;
	1139	msi.address_hi = msg.address >> 32;
	1140	msi.data = le32_to_cpu(msg.data);
	1141	msi.flags = 0;
	1142	memset(msi.pad, 0, sizeof(msi.pad));
	1143
	1144	return kvm_vm_ioctl(s, KVM_SIGNAL_MSI, &msi);
	1145	}
	1146
	1147	route = kvm_lookup_msi_route(s, msg);
	1148	if (!route) {
	1149	int virq;
	1150
	1151	virq = kvm_irqchip_get_virq(s);
	1152	if (virq < 0) {
	1153	return virq;
	1154	}
	1155
	1156	route = g_malloc0(sizeof(KVMMSIRoute));
	1157	route->kroute.gsi = virq;
	1158	route->kroute.type = KVM_IRQ_ROUTING_MSI;
	1159	route->kroute.flags = 0;
	1160	route->kroute.u.msi.address_lo = (uint32_t)msg.address;
	1161	route->kroute.u.msi.address_hi = msg.address >> 32;
	1162	route->kroute.u.msi.data = le32_to_cpu(msg.data);
	1163
	1164	kvm_add_routing_entry(s, &route->kroute);
	1165	kvm_irqchip_commit_routes(s);
	1166
	1167	QTAILQ_INSERT_TAIL(&s->msi_hashtab[kvm_hash_msi(msg.data)], route,
	1168	entry);
	1169	}
	1170
	1171	assert(route->kroute.type == KVM_IRQ_ROUTING_MSI);
	1172
	1173	return kvm_set_irq(s, route->kroute.gsi, 1);
	1174	}
	1175
	1176	int kvm_irqchip_add_msi_route(KVMState *s, MSIMessage msg)
	1177	{
	1178	struct kvm_irq_routing_entry kroute = {};
	1179	int virq;
	1180
	1181	if (kvm_gsi_direct_mapping()) {
	1182	return msg.data & 0xffff;
	1183	}
	1184
	1185	if (!kvm_gsi_routing_enabled()) {
	1186	return -ENOSYS;
	1187	}
	1188
	1189	virq = kvm_irqchip_get_virq(s);
	1190	if (virq < 0) {
	1191	return virq;
	1192	}
	1193
	1194	kroute.gsi = virq;
	1195	kroute.type = KVM_IRQ_ROUTING_MSI;
	1196	kroute.flags = 0;
	1197	kroute.u.msi.address_lo = (uint32_t)msg.address;
	1198	kroute.u.msi.address_hi = msg.address >> 32;
	1199	kroute.u.msi.data = le32_to_cpu(msg.data);
	1200
	1201	kvm_add_routing_entry(s, &kroute);
	1202	kvm_irqchip_commit_routes(s);
	1203
	1204	return virq;
	1205	}
	1206
	1207	int kvm_irqchip_update_msi_route(KVMState *s, int virq, MSIMessage msg)
	1208	{
	1209	struct kvm_irq_routing_entry kroute = {};
	1210
	1211	if (kvm_gsi_direct_mapping()) {
	1212	return 0;
	1213	}
	1214
	1215	if (!kvm_irqchip_in_kernel()) {
	1216	return -ENOSYS;
	1217	}
	1218
	1219	kroute.gsi = virq;
	1220	kroute.type = KVM_IRQ_ROUTING_MSI;
	1221	kroute.flags = 0;
	1222	kroute.u.msi.address_lo = (uint32_t)msg.address;
	1223	kroute.u.msi.address_hi = msg.address >> 32;
	1224	kroute.u.msi.data = le32_to_cpu(msg.data);
	1225
	1226	return kvm_update_routing_entry(s, &kroute);
	1227	}
	1228
	1229	static int kvm_irqchip_assign_irqfd(KVMState *s, int fd, int rfd, int virq,
	1230	bool assign)
	1231	{
	1232	struct kvm_irqfd irqfd = {
	1233	.fd = fd,
	1234	.gsi = virq,
	1235	.flags = assign ? 0 : KVM_IRQFD_FLAG_DEASSIGN,
	1236	};
	1237
	1238	if (rfd != -1) {
	1239	irqfd.flags \|= KVM_IRQFD_FLAG_RESAMPLE;
	1240	irqfd.resamplefd = rfd;
	1241	}
	1242
	1243	if (!kvm_irqfds_enabled()) {
	1244	return -ENOSYS;
	1245	}
	1246
	1247	return kvm_vm_ioctl(s, KVM_IRQFD, &irqfd);
	1248	}
	1249
	1250	#else /* !KVM_CAP_IRQ_ROUTING */
	1251
	1252	void kvm_init_irq_routing(KVMState *s)
	1253	{
	1254	}
	1255
	1256	void kvm_irqchip_release_virq(KVMState *s, int virq)
	1257	{
	1258	}
	1259
	1260	int kvm_irqchip_send_msi(KVMState *s, MSIMessage msg)
	1261	{
	1262	abort();
	1263	}
	1264
	1265	int kvm_irqchip_add_msi_route(KVMState *s, MSIMessage msg)
	1266	{
	1267	return -ENOSYS;
	1268	}
	1269
	1270	static int kvm_irqchip_assign_irqfd(KVMState *s, int fd, int virq, bool assign)
	1271	{
	1272	abort();
	1273	}
	1274
	1275	int kvm_irqchip_update_msi_route(KVMState *s, int virq, MSIMessage msg)
	1276	{
	1277	return -ENOSYS;
	1278	}
	1279	#endif /* !KVM_CAP_IRQ_ROUTING */
	1280
	1281	int kvm_irqchip_add_irqfd_notifier(KVMState s, EventNotifier n,
	1282	EventNotifier *rn, int virq)
	1283	{
	1284	return kvm_irqchip_assign_irqfd(s, event_notifier_get_fd(n),
	1285	rn ? event_notifier_get_fd(rn) : -1, virq, true);
	1286	}
	1287
	1288	int kvm_irqchip_remove_irqfd_notifier(KVMState s, EventNotifier n, int virq)
	1289	{
	1290	return kvm_irqchip_assign_irqfd(s, event_notifier_get_fd(n), -1, virq,
	1291	false);
	1292	}
	1293
	1294	static int kvm_irqchip_create(KVMState *s)
	1295	{
	1296	int ret;
	1297
	1298	if (!qemu_opt_get_bool(qemu_get_machine_opts(), "kernel_irqchip", true) \|\|
	1299	!kvm_check_extension(s, KVM_CAP_IRQCHIP)) {
	1300	return 0;
	1301	}
	1302
	1303	/* First probe and see if there's a arch-specific hook to create the
	1304	* in-kernel irqchip for us */
	1305	ret = kvm_arch_irqchip_create(s);
	1306	if (ret < 0) {
	1307	return ret;
	1308	} else if (ret == 0) {
	1309	ret = kvm_vm_ioctl(s, KVM_CREATE_IRQCHIP);
	1310	if (ret < 0) {
	1311	fprintf(stderr, "Create kernel irqchip failed\n");
	1312	return ret;
	1313	}
	1314	}
	1315
	1316	kvm_kernel_irqchip = true;
	1317	/* If we have an in-kernel IRQ chip then we must have asynchronous
	1318	* interrupt delivery (though the reverse is not necessarily true)
	1319	*/
	1320	kvm_async_interrupts_allowed = true;
	1321	kvm_halt_in_kernel_allowed = true;
	1322
	1323	kvm_init_irq_routing(s);
	1324
	1325	return 0;
	1326	}
	1327
	1328	/* Find number of supported CPUs using the recommended
	1329	* procedure from the kernel API documentation to cope with
	1330	* older kernels that may be missing capabilities.
	1331	*/
	1332	static int kvm_recommended_vcpus(KVMState *s)
	1333	{
	1334	int ret = kvm_check_extension(s, KVM_CAP_NR_VCPUS);
	1335	return (ret) ? ret : 4;
	1336	}
	1337
	1338	static int kvm_max_vcpus(KVMState *s)
	1339	{
	1340	int ret = kvm_check_extension(s, KVM_CAP_MAX_VCPUS);
	1341	return (ret) ? ret : kvm_recommended_vcpus(s);
	1342	}
	1343
	1344	int kvm_init(QEMUMachine *machine)
	1345	{
	1346	static const char upgrade_note[] =
	1347	"Please upgrade to at least kernel 2.6.29 or recent kvm-kmod\n"
	1348	"(see http://sourceforge.net/projects/kvm).\n";
	1349	struct {
	1350	const char *name;
	1351	int num;
	1352	} num_cpus[] = {
	1353	{ "SMP", smp_cpus },
	1354	{ "hotpluggable", max_cpus },
	1355	{ NULL, }
	1356	}, *nc = num_cpus;
	1357	int soft_vcpus_limit, hard_vcpus_limit;
	1358	KVMState *s;
	1359	const KVMCapabilityInfo *missing_cap;
	1360	int ret;
	1361	int i, type = 0;
	1362	const char *kvm_type;
	1363
	1364	s = g_malloc0(sizeof(KVMState));
	1365
	1366	/*
	1367	* On systems where the kernel can support different base page
	1368	* sizes, host page size may be different from TARGET_PAGE_SIZE,
	1369	* even with KVM. TARGET_PAGE_SIZE is assumed to be the minimum
	1370	* page size for the system though.
	1371	*/
	1372	assert(TARGET_PAGE_SIZE <= getpagesize());
	1373	page_size_init();
	1374
	1375	#ifdef KVM_CAP_SET_GUEST_DEBUG
	1376	QTAILQ_INIT(&s->kvm_sw_breakpoints);
	1377	#endif
	1378	s->vmfd = -1;
	1379	s->fd = qemu_open("/dev/kvm", O_RDWR);
	1380	if (s->fd == -1) {
	1381	fprintf(stderr, "Could not access KVM kernel module: %m\n");
	1382	ret = -errno;
	1383	goto err;
	1384	}
	1385
	1386	ret = kvm_ioctl(s, KVM_GET_API_VERSION, 0);
	1387	if (ret < KVM_API_VERSION) {
	1388	if (ret > 0) {
	1389	ret = -EINVAL;
	1390	}
	1391	fprintf(stderr, "kvm version too old\n");
	1392	goto err;
	1393	}
	1394
	1395	if (ret > KVM_API_VERSION) {
	1396	ret = -EINVAL;
	1397	fprintf(stderr, "kvm version not supported\n");
	1398	goto err;
	1399	}
	1400
	1401	s->nr_slots = kvm_check_extension(s, KVM_CAP_NR_MEMSLOTS);
	1402
	1403	/* If unspecified, use the default value */
	1404	if (!s->nr_slots) {
	1405	s->nr_slots = 32;
	1406	}
	1407
	1408	s->slots = g_malloc0(s->nr_slots * sizeof(KVMSlot));
	1409
	1410	for (i = 0; i < s->nr_slots; i++) {
	1411	s->slots[i].slot = i;
	1412	}
	1413
	1414	/* check the vcpu limits */
	1415	soft_vcpus_limit = kvm_recommended_vcpus(s);
	1416	hard_vcpus_limit = kvm_max_vcpus(s);
	1417
	1418	while (nc->name) {
	1419	if (nc->num > soft_vcpus_limit) {
	1420	fprintf(stderr,
	1421	"Warning: Number of %s cpus requested (%d) exceeds "
	1422	"the recommended cpus supported by KVM (%d)\n",
	1423	nc->name, nc->num, soft_vcpus_limit);
	1424
	1425	if (nc->num > hard_vcpus_limit) {
	1426	fprintf(stderr, "Number of %s cpus requested (%d) exceeds "
	1427	"the maximum cpus supported by KVM (%d)\n",
	1428	nc->name, nc->num, hard_vcpus_limit);
	1429	exit(1);
	1430	}
	1431	}
	1432	nc++;
	1433	}
	1434
	1435	kvm_type = qemu_opt_get(qemu_get_machine_opts(), "kvm-type");
	1436	if (machine->kvm_type) {
	1437	type = machine->kvm_type(kvm_type);
	1438	} else if (kvm_type) {
	1439	fprintf(stderr, "Invalid argument kvm-type=%s\n", kvm_type);
	1440	goto err;
	1441	}
	1442
	1443	do {
	1444	ret = kvm_ioctl(s, KVM_CREATE_VM, type);
	1445	} while (ret == -EINTR);
	1446
	1447	if (ret < 0) {
	1448	fprintf(stderr, "ioctl(KVM_CREATE_VM) failed: %d %s\n", -ret,
	1449	strerror(-ret));
	1450
	1451	#ifdef TARGET_S390X
	1452	fprintf(stderr, "Please add the 'switch_amode' kernel parameter to "
	1453	"your host kernel command line\n");
	1454	#endif
	1455	goto err;
	1456	}
	1457
	1458	s->vmfd = ret;
	1459	missing_cap = kvm_check_extension_list(s, kvm_required_capabilites);
	1460	if (!missing_cap) {
	1461	missing_cap =
	1462	kvm_check_extension_list(s, kvm_arch_required_capabilities);
	1463	}
	1464	if (missing_cap) {
	1465	ret = -EINVAL;
	1466	fprintf(stderr, "kvm does not support %s\n%s",
	1467	missing_cap->name, upgrade_note);
	1468	goto err;
	1469	}
	1470
	1471	s->coalesced_mmio = kvm_check_extension(s, KVM_CAP_COALESCED_MMIO);
	1472
	1473	s->broken_set_mem_region = 1;
	1474	ret = kvm_check_extension(s, KVM_CAP_JOIN_MEMORY_REGIONS_WORKS);
	1475	if (ret > 0) {
	1476	s->broken_set_mem_region = 0;
	1477	}
	1478
	1479	#ifdef KVM_CAP_VCPU_EVENTS
	1480	s->vcpu_events = kvm_check_extension(s, KVM_CAP_VCPU_EVENTS);
	1481	#endif
	1482
	1483	s->robust_singlestep =
	1484	kvm_check_extension(s, KVM_CAP_X86_ROBUST_SINGLESTEP);
	1485
	1486	#ifdef KVM_CAP_DEBUGREGS
	1487	s->debugregs = kvm_check_extension(s, KVM_CAP_DEBUGREGS);
	1488	#endif
	1489
	1490	#ifdef KVM_CAP_XSAVE
	1491	s->xsave = kvm_check_extension(s, KVM_CAP_XSAVE);
	1492	#endif
	1493
	1494	#ifdef KVM_CAP_XCRS
	1495	s->xcrs = kvm_check_extension(s, KVM_CAP_XCRS);
	1496	#endif
	1497
	1498	#ifdef KVM_CAP_PIT_STATE2
	1499	s->pit_state2 = kvm_check_extension(s, KVM_CAP_PIT_STATE2);
	1500	#endif
	1501
	1502	#ifdef KVM_CAP_IRQ_ROUTING
	1503	s->direct_msi = (kvm_check_extension(s, KVM_CAP_SIGNAL_MSI) > 0);
	1504	#endif
	1505
	1506	s->intx_set_mask = kvm_check_extension(s, KVM_CAP_PCI_2_3);
	1507
	1508	s->irq_set_ioctl = KVM_IRQ_LINE;
	1509	if (kvm_check_extension(s, KVM_CAP_IRQ_INJECT_STATUS)) {
	1510	s->irq_set_ioctl = KVM_IRQ_LINE_STATUS;
	1511	}
	1512
	1513	#ifdef KVM_CAP_READONLY_MEM
	1514	kvm_readonly_mem_allowed =
	1515	(kvm_check_extension(s, KVM_CAP_READONLY_MEM) > 0);
	1516	#endif
	1517
	1518	ret = kvm_arch_init(s);
	1519	if (ret < 0) {
	1520	goto err;
	1521	}
	1522
	1523	ret = kvm_irqchip_create(s);
	1524	if (ret < 0) {
	1525	goto err;
	1526	}
	1527
	1528	kvm_state = s;
	1529	memory_listener_register(&kvm_memory_listener, &address_space_memory);
	1530	memory_listener_register(&kvm_io_listener, &address_space_io);
	1531
	1532	s->many_ioeventfds = kvm_check_many_ioeventfds();
	1533
	1534	cpu_interrupt_handler = kvm_handle_interrupt;
	1535
	1536	return 0;
	1537
	1538	err:
	1539	if (s->vmfd >= 0) {
	1540	close(s->vmfd);
	1541	}
	1542	if (s->fd != -1) {
	1543	close(s->fd);
	1544	}
	1545	g_free(s->slots);
	1546	g_free(s);
	1547
	1548	return ret;
	1549	}
	1550
	1551	static void kvm_handle_io(uint16_t port, void *data, int direction, int size,
	1552	uint32_t count)
	1553	{
	1554	int i;
	1555	uint8_t *ptr = data;
	1556
	1557	for (i = 0; i < count; i++) {
	1558	address_space_rw(&address_space_io, port, ptr, size,
	1559	direction == KVM_EXIT_IO_OUT);
	1560	ptr += size;
	1561	}
	1562	}
	1563
	1564	static int kvm_handle_internal_error(CPUState cpu, struct kvm_run run)
	1565	{
	1566	fprintf(stderr, "KVM internal error. Suberror: %d\n",
	1567	run->internal.suberror);
	1568
	1569	if (kvm_check_extension(kvm_state, KVM_CAP_INTERNAL_ERROR_DATA)) {
	1570	int i;
	1571
	1572	for (i = 0; i < run->internal.ndata; ++i) {
	1573	fprintf(stderr, "extra data[%d]: %"PRIx64"\n",
	1574	i, (uint64_t)run->internal.data[i]);
	1575	}
	1576	}
	1577	if (run->internal.suberror == KVM_INTERNAL_ERROR_EMULATION) {
	1578	fprintf(stderr, "emulation failure\n");
	1579	if (!kvm_arch_stop_on_emulation_error(cpu)) {
	1580	cpu_dump_state(cpu, stderr, fprintf, CPU_DUMP_CODE);
	1581	return EXCP_INTERRUPT;
	1582	}
	1583	}
	1584	/* FIXME: Should trigger a qmp message to let management know
	1585	* something went wrong.
	1586	*/
	1587	return -1;
	1588	}
	1589
	1590	void kvm_flush_coalesced_mmio_buffer(void)
	1591	{
	1592	KVMState *s = kvm_state;
	1593
	1594	if (s->coalesced_flush_in_progress) {
	1595	return;
	1596	}
	1597
	1598	s->coalesced_flush_in_progress = true;
	1599
	1600	if (s->coalesced_mmio_ring) {
	1601	struct kvm_coalesced_mmio_ring *ring = s->coalesced_mmio_ring;
	1602	while (ring->first != ring->last) {
	1603	struct kvm_coalesced_mmio *ent;
	1604
	1605	ent = &ring->coalesced_mmio[ring->first];
	1606
	1607	cpu_physical_memory_write(ent->phys_addr, ent->data, ent->len);
	1608	smp_wmb();
	1609	ring->first = (ring->first + 1) % KVM_COALESCED_MMIO_MAX;
	1610	}
	1611	}
	1612
	1613	s->coalesced_flush_in_progress = false;
	1614	}
	1615
	1616	static void do_kvm_cpu_synchronize_state(void *arg)
	1617	{
	1618	CPUState *cpu = arg;
	1619
	1620	if (!cpu->kvm_vcpu_dirty) {
	1621	kvm_arch_get_registers(cpu);
	1622	cpu->kvm_vcpu_dirty = true;
	1623	}
	1624	}
	1625
	1626	void kvm_cpu_synchronize_state(CPUState *cpu)
	1627	{
	1628	if (!cpu->kvm_vcpu_dirty) {
	1629	run_on_cpu(cpu, do_kvm_cpu_synchronize_state, cpu);
	1630	}
	1631	}
	1632
	1633	void kvm_cpu_synchronize_post_reset(CPUState *cpu)
	1634	{
	1635	kvm_arch_put_registers(cpu, KVM_PUT_RESET_STATE);
	1636	cpu->kvm_vcpu_dirty = false;
	1637	}
	1638
	1639	void kvm_cpu_synchronize_post_init(CPUState *cpu)
	1640	{
	1641	kvm_arch_put_registers(cpu, KVM_PUT_FULL_STATE);
	1642	cpu->kvm_vcpu_dirty = false;
	1643	}
	1644
	1645	int kvm_cpu_exec(CPUState *cpu)
	1646	{
	1647	struct kvm_run *run = cpu->kvm_run;
	1648	int ret, run_ret;
	1649
	1650	DPRINTF("kvm_cpu_exec()\n");
	1651
	1652	if (kvm_arch_process_async_events(cpu)) {
	1653	cpu->exit_request = 0;
	1654	return EXCP_HLT;
	1655	}
	1656
	1657	do {
	1658	if (cpu->kvm_vcpu_dirty) {
	1659	kvm_arch_put_registers(cpu, KVM_PUT_RUNTIME_STATE);
	1660	cpu->kvm_vcpu_dirty = false;
	1661	}
	1662
	1663	kvm_arch_pre_run(cpu, run);
	1664	if (cpu->exit_request) {
	1665	DPRINTF("interrupt exit requested\n");
	1666	/*
	1667	* KVM requires us to reenter the kernel after IO exits to complete
	1668	* instruction emulation. This self-signal will ensure that we
	1669	* leave ASAP again.
	1670	*/
	1671	qemu_cpu_kick_self();
	1672	}
	1673	qemu_mutex_unlock_iothread();
	1674
	1675	run_ret = kvm_vcpu_ioctl(cpu, KVM_RUN, 0);
	1676
	1677	qemu_mutex_lock_iothread();
	1678	kvm_arch_post_run(cpu, run);
	1679
	1680	if (run_ret < 0) {
	1681	if (run_ret == -EINTR \|\| run_ret == -EAGAIN) {
	1682	DPRINTF("io window exit\n");
	1683	ret = EXCP_INTERRUPT;
	1684	break;
	1685	}
	1686	fprintf(stderr, "error: kvm run failed %s\n",
	1687	strerror(-run_ret));
	1688	abort();
	1689	}
	1690
	1691	trace_kvm_run_exit(cpu->cpu_index, run->exit_reason);
	1692	switch (run->exit_reason) {
	1693	case KVM_EXIT_IO:
	1694	DPRINTF("handle_io\n");
	1695	kvm_handle_io(run->io.port,
	1696	(uint8_t *)run + run->io.data_offset,
	1697	run->io.direction,
	1698	run->io.size,
	1699	run->io.count);
	1700	ret = 0;
	1701	break;
	1702	case KVM_EXIT_MMIO:
	1703	DPRINTF("handle_mmio\n");
	1704	cpu_physical_memory_rw(run->mmio.phys_addr,
	1705	run->mmio.data,
	1706	run->mmio.len,
	1707	run->mmio.is_write);
	1708	ret = 0;
	1709	break;
	1710	case KVM_EXIT_IRQ_WINDOW_OPEN:
	1711	DPRINTF("irq_window_open\n");
	1712	ret = EXCP_INTERRUPT;
	1713	break;
	1714	case KVM_EXIT_SHUTDOWN:
	1715	DPRINTF("shutdown\n");
	1716	qemu_system_reset_request();
	1717	ret = EXCP_INTERRUPT;
	1718	break;
	1719	case KVM_EXIT_UNKNOWN:
	1720	fprintf(stderr, "KVM: unknown exit, hardware reason %" PRIx64 "\n",
	1721	(uint64_t)run->hw.hardware_exit_reason);
	1722	ret = -1;
	1723	break;
	1724	case KVM_EXIT_INTERNAL_ERROR:
	1725	ret = kvm_handle_internal_error(cpu, run);
	1726	break;
	1727	default:
	1728	DPRINTF("kvm_arch_handle_exit\n");
	1729	ret = kvm_arch_handle_exit(cpu, run);
	1730	break;
	1731	}
	1732	} while (ret == 0);
	1733
	1734	if (ret < 0) {
	1735	cpu_dump_state(cpu, stderr, fprintf, CPU_DUMP_CODE);
	1736	vm_stop(RUN_STATE_INTERNAL_ERROR);
	1737	}
	1738
	1739	cpu->exit_request = 0;
	1740	return ret;
	1741	}
	1742
	1743	int kvm_ioctl(KVMState *s, int type, ...)
	1744	{
	1745	int ret;
	1746	void *arg;
	1747	va_list ap;
	1748
	1749	va_start(ap, type);
	1750	arg = va_arg(ap, void *);
	1751	va_end(ap);
	1752
	1753	trace_kvm_ioctl(type, arg);
	1754	ret = ioctl(s->fd, type, arg);
	1755	if (ret == -1) {
	1756	ret = -errno;
	1757	}
	1758	return ret;
	1759	}
	1760
	1761	int kvm_vm_ioctl(KVMState *s, int type, ...)
	1762	{
	1763	int ret;
	1764	void *arg;
	1765	va_list ap;
	1766
	1767	va_start(ap, type);
	1768	arg = va_arg(ap, void *);
	1769	va_end(ap);
	1770
	1771	trace_kvm_vm_ioctl(type, arg);
	1772	ret = ioctl(s->vmfd, type, arg);
	1773	if (ret == -1) {
	1774	ret = -errno;
	1775	}
	1776	return ret;
	1777	}
	1778
	1779	int kvm_vcpu_ioctl(CPUState *cpu, int type, ...)
	1780	{
	1781	int ret;
	1782	void *arg;
	1783	va_list ap;
	1784
	1785	va_start(ap, type);
	1786	arg = va_arg(ap, void *);
	1787	va_end(ap);
	1788
	1789	trace_kvm_vcpu_ioctl(cpu->cpu_index, type, arg);
	1790	ret = ioctl(cpu->kvm_fd, type, arg);
	1791	if (ret == -1) {
	1792	ret = -errno;
	1793	}
	1794	return ret;
	1795	}
	1796
	1797	int kvm_device_ioctl(int fd, int type, ...)
	1798	{
	1799	int ret;
	1800	void *arg;
	1801	va_list ap;
	1802
	1803	va_start(ap, type);
	1804	arg = va_arg(ap, void *);
	1805	va_end(ap);
	1806
	1807	trace_kvm_device_ioctl(fd, type, arg);
	1808	ret = ioctl(fd, type, arg);
	1809	if (ret == -1) {
	1810	ret = -errno;
	1811	}
	1812	return ret;
	1813	}
	1814
	1815	int kvm_has_sync_mmu(void)
	1816	{
	1817	return kvm_check_extension(kvm_state, KVM_CAP_SYNC_MMU);
	1818	}
	1819
	1820	int kvm_has_vcpu_events(void)
	1821	{
	1822	return kvm_state->vcpu_events;
	1823	}
	1824
	1825	int kvm_has_robust_singlestep(void)
	1826	{
	1827	return kvm_state->robust_singlestep;
	1828	}
	1829
	1830	int kvm_has_debugregs(void)
	1831	{
	1832	return kvm_state->debugregs;
	1833	}
	1834
	1835	int kvm_has_xsave(void)
	1836	{
	1837	return kvm_state->xsave;
	1838	}
	1839
	1840	int kvm_has_xcrs(void)
	1841	{
	1842	return kvm_state->xcrs;
	1843	}
	1844
	1845	int kvm_has_pit_state2(void)
	1846	{
	1847	return kvm_state->pit_state2;
	1848	}
	1849
	1850	int kvm_has_many_ioeventfds(void)
	1851	{
	1852	if (!kvm_enabled()) {
	1853	return 0;
	1854	}
	1855	return kvm_state->many_ioeventfds;
	1856	}
	1857
	1858	int kvm_has_gsi_routing(void)
	1859	{
	1860	#ifdef KVM_CAP_IRQ_ROUTING
	1861	return kvm_check_extension(kvm_state, KVM_CAP_IRQ_ROUTING);
	1862	#else
	1863	return false;
	1864	#endif
	1865	}
	1866
	1867	int kvm_has_intx_set_mask(void)
	1868	{
	1869	return kvm_state->intx_set_mask;
	1870	}
	1871
	1872	void kvm_setup_guest_memory(void *start, size_t size)
	1873	{
	1874	#ifdef CONFIG_VALGRIND_H
	1875	VALGRIND_MAKE_MEM_DEFINED(start, size);
	1876	#endif
	1877	if (!kvm_has_sync_mmu()) {
	1878	int ret = qemu_madvise(start, size, QEMU_MADV_DONTFORK);
	1879
	1880	if (ret) {
	1881	perror("qemu_madvise");
	1882	fprintf(stderr,
	1883	"Need MADV_DONTFORK in absence of synchronous KVM MMU\n");
	1884	exit(1);
	1885	}
	1886	}
	1887	}
	1888
	1889	#ifdef KVM_CAP_SET_GUEST_DEBUG
	1890	struct kvm_sw_breakpoint kvm_find_sw_breakpoint(CPUState cpu,
	1891	target_ulong pc)
	1892	{
	1893	struct kvm_sw_breakpoint *bp;
	1894
	1895	QTAILQ_FOREACH(bp, &cpu->kvm_state->kvm_sw_breakpoints, entry) {
	1896	if (bp->pc == pc) {
	1897	return bp;
	1898	}
	1899	}
	1900	return NULL;
	1901	}
	1902
	1903	int kvm_sw_breakpoints_active(CPUState *cpu)
	1904	{
	1905	return !QTAILQ_EMPTY(&cpu->kvm_state->kvm_sw_breakpoints);
	1906	}
	1907
	1908	struct kvm_set_guest_debug_data {
	1909	struct kvm_guest_debug dbg;
	1910	CPUState *cpu;
	1911	int err;
	1912	};
	1913
	1914	static void kvm_invoke_set_guest_debug(void *data)
	1915	{
	1916	struct kvm_set_guest_debug_data *dbg_data = data;
	1917
	1918	dbg_data->err = kvm_vcpu_ioctl(dbg_data->cpu, KVM_SET_GUEST_DEBUG,
	1919	&dbg_data->dbg);
	1920	}
	1921
	1922	int kvm_update_guest_debug(CPUState *cpu, unsigned long reinject_trap)
	1923	{
	1924	struct kvm_set_guest_debug_data data;
	1925
	1926	data.dbg.control = reinject_trap;
	1927
	1928	if (cpu->singlestep_enabled) {
	1929	data.dbg.control \|= KVM_GUESTDBG_ENABLE \| KVM_GUESTDBG_SINGLESTEP;
	1930	}
	1931	kvm_arch_update_guest_debug(cpu, &data.dbg);
	1932	data.cpu = cpu;
	1933
	1934	run_on_cpu(cpu, kvm_invoke_set_guest_debug, &data);
	1935	return data.err;
	1936	}
	1937
	1938	int kvm_insert_breakpoint(CPUState *cpu, target_ulong addr,
	1939	target_ulong len, int type)
	1940	{
	1941	struct kvm_sw_breakpoint *bp;
	1942	int err;
	1943
	1944	if (type == GDB_BREAKPOINT_SW) {
	1945	bp = kvm_find_sw_breakpoint(cpu, addr);
	1946	if (bp) {
	1947	bp->use_count++;
	1948	return 0;
	1949	}
	1950
	1951	bp = g_malloc(sizeof(struct kvm_sw_breakpoint));
	1952	if (!bp) {
	1953	return -ENOMEM;
	1954	}
	1955
	1956	bp->pc = addr;
	1957	bp->use_count = 1;
	1958	err = kvm_arch_insert_sw_breakpoint(cpu, bp);
	1959	if (err) {
	1960	g_free(bp);
	1961	return err;
	1962	}
	1963
	1964	QTAILQ_INSERT_HEAD(&cpu->kvm_state->kvm_sw_breakpoints, bp, entry);
	1965	} else {
	1966	err = kvm_arch_insert_hw_breakpoint(addr, len, type);
	1967	if (err) {
	1968	return err;
	1969	}
	1970	}
	1971
	1972	CPU_FOREACH(cpu) {
	1973	err = kvm_update_guest_debug(cpu, 0);
	1974	if (err) {
	1975	return err;
	1976	}
	1977	}
	1978	return 0;
	1979	}
	1980
	1981	int kvm_remove_breakpoint(CPUState *cpu, target_ulong addr,
	1982	target_ulong len, int type)
	1983	{
	1984	struct kvm_sw_breakpoint *bp;
	1985	int err;
	1986
	1987	if (type == GDB_BREAKPOINT_SW) {
	1988	bp = kvm_find_sw_breakpoint(cpu, addr);
	1989	if (!bp) {
	1990	return -ENOENT;
	1991	}
	1992
	1993	if (bp->use_count > 1) {
	1994	bp->use_count--;
	1995	return 0;
	1996	}
	1997
	1998	err = kvm_arch_remove_sw_breakpoint(cpu, bp);
	1999	if (err) {
	2000	return err;
	2001	}
	2002
	2003	QTAILQ_REMOVE(&cpu->kvm_state->kvm_sw_breakpoints, bp, entry);
	2004	g_free(bp);
	2005	} else {
	2006	err = kvm_arch_remove_hw_breakpoint(addr, len, type);
	2007	if (err) {
	2008	return err;
	2009	}
	2010	}
	2011
	2012	CPU_FOREACH(cpu) {
	2013	err = kvm_update_guest_debug(cpu, 0);
	2014	if (err) {
	2015	return err;
	2016	}
	2017	}
	2018	return 0;
	2019	}
	2020
	2021	void kvm_remove_all_breakpoints(CPUState *cpu)
	2022	{
	2023	struct kvm_sw_breakpoint bp, next;
	2024	KVMState *s = cpu->kvm_state;
	2025
	2026	QTAILQ_FOREACH_SAFE(bp, &s->kvm_sw_breakpoints, entry, next) {
	2027	if (kvm_arch_remove_sw_breakpoint(cpu, bp) != 0) {
	2028	/* Try harder to find a CPU that currently sees the breakpoint. */
	2029	CPU_FOREACH(cpu) {
	2030	if (kvm_arch_remove_sw_breakpoint(cpu, bp) == 0) {
	2031	break;
	2032	}
	2033	}
	2034	}
	2035	QTAILQ_REMOVE(&s->kvm_sw_breakpoints, bp, entry);
	2036	g_free(bp);
	2037	}
	2038	kvm_arch_remove_all_hw_breakpoints();
	2039
	2040	CPU_FOREACH(cpu) {
	2041	kvm_update_guest_debug(cpu, 0);
	2042	}
	2043	}
	2044
	2045	#else /* !KVM_CAP_SET_GUEST_DEBUG */
	2046
	2047	int kvm_update_guest_debug(CPUState *cpu, unsigned long reinject_trap)
	2048	{
	2049	return -EINVAL;
	2050	}
	2051
	2052	int kvm_insert_breakpoint(CPUState *cpu, target_ulong addr,
	2053	target_ulong len, int type)
	2054	{
	2055	return -EINVAL;
	2056	}
	2057
	2058	int kvm_remove_breakpoint(CPUState *cpu, target_ulong addr,
	2059	target_ulong len, int type)
	2060	{
	2061	return -EINVAL;
	2062	}
	2063
	2064	void kvm_remove_all_breakpoints(CPUState *cpu)
	2065	{
	2066	}
	2067	#endif /* !KVM_CAP_SET_GUEST_DEBUG */
	2068
	2069	int kvm_set_signal_mask(CPUState cpu, const sigset_t sigset)
	2070	{
	2071	struct kvm_signal_mask *sigmask;
	2072	int r;
	2073
	2074	if (!sigset) {
	2075	return kvm_vcpu_ioctl(cpu, KVM_SET_SIGNAL_MASK, NULL);
	2076	}
	2077
	2078	sigmask = g_malloc(sizeof(sigmask) + sizeof(sigset));
	2079
	2080	sigmask->len = 8;
	2081	memcpy(sigmask->sigset, sigset, sizeof(*sigset));
	2082	r = kvm_vcpu_ioctl(cpu, KVM_SET_SIGNAL_MASK, sigmask);
	2083	g_free(sigmask);
	2084
	2085	return r;
	2086	}
	2087	int kvm_on_sigbus_vcpu(CPUState cpu, int code, void addr)
	2088	{
	2089	return kvm_arch_on_sigbus_vcpu(cpu, code, addr);
	2090	}
	2091
	2092	int kvm_on_sigbus(int code, void *addr)
	2093	{
	2094	return kvm_arch_on_sigbus(code, addr);
	2095	}
	2096
	2097	int kvm_create_device(KVMState *s, uint64_t type, bool test)
	2098	{
	2099	int ret;
	2100	struct kvm_create_device create_dev;
	2101
	2102	create_dev.type = type;
	2103	create_dev.fd = -1;
	2104	create_dev.flags = test ? KVM_CREATE_DEVICE_TEST : 0;
	2105
	2106	if (!kvm_check_extension(s, KVM_CAP_DEVICE_CTRL)) {
	2107	return -ENOTSUP;
	2108	}
	2109
	2110	ret = kvm_vm_ioctl(s, KVM_CREATE_DEVICE, &create_dev);
	2111	if (ret) {
	2112	return ret;
	2113	}
	2114
	2115	return test ? 0 : create_dev.fd;
	2116	}