Git Repo - qemu.git/blame_incremental

... / ...

Commit	Line	Data
	1	/*
	2	* QEMU KVM support
	3	*
	4	* Copyright IBM, Corp. 2008
	5	* Red Hat, Inc. 2008
	6	*
	7	* Authors:
	8	* Anthony Liguori <[email protected]>
	9	* Glauber Costa <[email protected]>
	10	*
	11	* This work is licensed under the terms of the GNU GPL, version 2 or later.
	12	* See the COPYING file in the top-level directory.
	13	*
	14	*/
	15
	16	#include <sys/types.h>
	17	#include <sys/ioctl.h>
	18	#include <sys/mman.h>
	19	#include <stdarg.h>
	20
	21	#include <linux/kvm.h>
	22
	23	#include "qemu-common.h"
	24	#include "qemu-barrier.h"
	25	#include "qemu-option.h"
	26	#include "qemu-config.h"
	27	#include "sysemu.h"
	28	#include "hw/hw.h"
	29	#include "hw/msi.h"
	30	#include "gdbstub.h"
	31	#include "kvm.h"
	32	#include "bswap.h"
	33	#include "memory.h"
	34	#include "exec-memory.h"
	35	#include "event_notifier.h"
	36
	37	/* This check must be after config-host.h is included */
	38	#ifdef CONFIG_EVENTFD
	39	#include <sys/eventfd.h>
	40	#endif
	41
	42	#ifdef CONFIG_VALGRIND_H
	43	#include <valgrind/memcheck.h>
	44	#endif
	45
	46	/* KVM uses PAGE_SIZE in its definition of COALESCED_MMIO_MAX */
	47	#define PAGE_SIZE TARGET_PAGE_SIZE
	48
	49	//#define DEBUG_KVM
	50
	51	#ifdef DEBUG_KVM
	52	#define DPRINTF(fmt, ...) \
	53	do { fprintf(stderr, fmt, ## __VA_ARGS__); } while (0)
	54	#else
	55	#define DPRINTF(fmt, ...) \
	56	do { } while (0)
	57	#endif
	58
	59	#define KVM_MSI_HASHTAB_SIZE 256
	60
	61	typedef struct KVMSlot
	62	{
	63	hwaddr start_addr;
	64	ram_addr_t memory_size;
	65	void *ram;
	66	int slot;
	67	int flags;
	68	} KVMSlot;
	69
	70	typedef struct kvm_dirty_log KVMDirtyLog;
	71
	72	struct KVMState
	73	{
	74	KVMSlot slots[32];
	75	int fd;
	76	int vmfd;
	77	int coalesced_mmio;
	78	struct kvm_coalesced_mmio_ring *coalesced_mmio_ring;
	79	bool coalesced_flush_in_progress;
	80	int broken_set_mem_region;
	81	int migration_log;
	82	int vcpu_events;
	83	int robust_singlestep;
	84	int debugregs;
	85	#ifdef KVM_CAP_SET_GUEST_DEBUG
	86	struct kvm_sw_breakpoint_head kvm_sw_breakpoints;
	87	#endif
	88	int pit_state2;
	89	int xsave, xcrs;
	90	int many_ioeventfds;
	91	int intx_set_mask;
	92	/* The man page (and posix) say ioctl numbers are signed int, but
	93	* they're not. Linux, glibc and *BSD all treat ioctl numbers as
	94	* unsigned, and treating them as signed here can break things */
	95	unsigned irq_set_ioctl;
	96	#ifdef KVM_CAP_IRQ_ROUTING
	97	struct kvm_irq_routing *irq_routes;
	98	int nr_allocated_irq_routes;
	99	uint32_t *used_gsi_bitmap;
	100	unsigned int gsi_count;
	101	QTAILQ_HEAD(msi_hashtab, KVMMSIRoute) msi_hashtab[KVM_MSI_HASHTAB_SIZE];
	102	bool direct_msi;
	103	#endif
	104	};
	105
	106	KVMState *kvm_state;
	107	bool kvm_kernel_irqchip;
	108	bool kvm_async_interrupts_allowed;
	109	bool kvm_irqfds_allowed;
	110	bool kvm_msi_via_irqfd_allowed;
	111	bool kvm_gsi_routing_allowed;
	112
	113	static const KVMCapabilityInfo kvm_required_capabilites[] = {
	114	KVM_CAP_INFO(USER_MEMORY),
	115	KVM_CAP_INFO(DESTROY_MEMORY_REGION_WORKS),
	116	KVM_CAP_LAST_INFO
	117	};
	118
	119	static KVMSlot kvm_alloc_slot(KVMState s)
	120	{
	121	int i;
	122
	123	for (i = 0; i < ARRAY_SIZE(s->slots); i++) {
	124	if (s->slots[i].memory_size == 0) {
	125	return &s->slots[i];
	126	}
	127	}
	128
	129	fprintf(stderr, "%s: no free slot available\n", __func__);
	130	abort();
	131	}
	132
	133	static KVMSlot kvm_lookup_matching_slot(KVMState s,
	134	hwaddr start_addr,
	135	hwaddr end_addr)
	136	{
	137	int i;
	138
	139	for (i = 0; i < ARRAY_SIZE(s->slots); i++) {
	140	KVMSlot *mem = &s->slots[i];
	141
	142	if (start_addr == mem->start_addr &&
	143	end_addr == mem->start_addr + mem->memory_size) {
	144	return mem;
	145	}
	146	}
	147
	148	return NULL;
	149	}
	150
	151	/*
	152	* Find overlapping slot with lowest start address
	153	*/
	154	static KVMSlot kvm_lookup_overlapping_slot(KVMState s,
	155	hwaddr start_addr,
	156	hwaddr end_addr)
	157	{
	158	KVMSlot *found = NULL;
	159	int i;
	160
	161	for (i = 0; i < ARRAY_SIZE(s->slots); i++) {
	162	KVMSlot *mem = &s->slots[i];
	163
	164	if (mem->memory_size == 0 \|\|
	165	(found && found->start_addr < mem->start_addr)) {
	166	continue;
	167	}
	168
	169	if (end_addr > mem->start_addr &&
	170	start_addr < mem->start_addr + mem->memory_size) {
	171	found = mem;
	172	}
	173	}
	174
	175	return found;
	176	}
	177
	178	int kvm_physical_memory_addr_from_host(KVMState s, void ram,
	179	hwaddr *phys_addr)
	180	{
	181	int i;
	182
	183	for (i = 0; i < ARRAY_SIZE(s->slots); i++) {
	184	KVMSlot *mem = &s->slots[i];
	185
	186	if (ram >= mem->ram && ram < mem->ram + mem->memory_size) {
	187	*phys_addr = mem->start_addr + (ram - mem->ram);
	188	return 1;
	189	}
	190	}
	191
	192	return 0;
	193	}
	194
	195	static int kvm_set_user_memory_region(KVMState s, KVMSlot slot)
	196	{
	197	struct kvm_userspace_memory_region mem;
	198
	199	mem.slot = slot->slot;
	200	mem.guest_phys_addr = slot->start_addr;
	201	mem.memory_size = slot->memory_size;
	202	mem.userspace_addr = (unsigned long)slot->ram;
	203	mem.flags = slot->flags;
	204	if (s->migration_log) {
	205	mem.flags \|= KVM_MEM_LOG_DIRTY_PAGES;
	206	}
	207	return kvm_vm_ioctl(s, KVM_SET_USER_MEMORY_REGION, &mem);
	208	}
	209
	210	static void kvm_reset_vcpu(void *opaque)
	211	{
	212	CPUArchState *env = opaque;
	213
	214	kvm_arch_reset_vcpu(env);
	215	}
	216
	217	int kvm_init_vcpu(CPUArchState *env)
	218	{
	219	KVMState *s = kvm_state;
	220	long mmap_size;
	221	int ret;
	222
	223	DPRINTF("kvm_init_vcpu\n");
	224
	225	ret = kvm_vm_ioctl(s, KVM_CREATE_VCPU, env->cpu_index);
	226	if (ret < 0) {
	227	DPRINTF("kvm_create_vcpu failed\n");
	228	goto err;
	229	}
	230
	231	env->kvm_fd = ret;
	232	env->kvm_state = s;
	233	env->kvm_vcpu_dirty = 1;
	234
	235	mmap_size = kvm_ioctl(s, KVM_GET_VCPU_MMAP_SIZE, 0);
	236	if (mmap_size < 0) {
	237	ret = mmap_size;
	238	DPRINTF("KVM_GET_VCPU_MMAP_SIZE failed\n");
	239	goto err;
	240	}
	241
	242	env->kvm_run = mmap(NULL, mmap_size, PROT_READ \| PROT_WRITE, MAP_SHARED,
	243	env->kvm_fd, 0);
	244	if (env->kvm_run == MAP_FAILED) {
	245	ret = -errno;
	246	DPRINTF("mmap'ing vcpu state failed\n");
	247	goto err;
	248	}
	249
	250	if (s->coalesced_mmio && !s->coalesced_mmio_ring) {
	251	s->coalesced_mmio_ring =
	252	(void )env->kvm_run + s->coalesced_mmio PAGE_SIZE;
	253	}
	254
	255	ret = kvm_arch_init_vcpu(env);
	256	if (ret == 0) {
	257	qemu_register_reset(kvm_reset_vcpu, env);
	258	kvm_arch_reset_vcpu(env);
	259	}
	260	err:
	261	return ret;
	262	}
	263
	264	/*
	265	* dirty pages logging control
	266	*/
	267
	268	static int kvm_mem_flags(KVMState *s, bool log_dirty)
	269	{
	270	return log_dirty ? KVM_MEM_LOG_DIRTY_PAGES : 0;
	271	}
	272
	273	static int kvm_slot_dirty_pages_log_change(KVMSlot *mem, bool log_dirty)
	274	{
	275	KVMState *s = kvm_state;
	276	int flags, mask = KVM_MEM_LOG_DIRTY_PAGES;
	277	int old_flags;
	278
	279	old_flags = mem->flags;
	280
	281	flags = (mem->flags & ~mask) \| kvm_mem_flags(s, log_dirty);
	282	mem->flags = flags;
	283
	284	/* If nothing changed effectively, no need to issue ioctl */
	285	if (s->migration_log) {
	286	flags \|= KVM_MEM_LOG_DIRTY_PAGES;
	287	}
	288
	289	if (flags == old_flags) {
	290	return 0;
	291	}
	292
	293	return kvm_set_user_memory_region(s, mem);
	294	}
	295
	296	static int kvm_dirty_pages_log_change(hwaddr phys_addr,
	297	ram_addr_t size, bool log_dirty)
	298	{
	299	KVMState *s = kvm_state;
	300	KVMSlot *mem = kvm_lookup_matching_slot(s, phys_addr, phys_addr + size);
	301
	302	if (mem == NULL) {
	303	fprintf(stderr, "BUG: %s: invalid parameters " TARGET_FMT_plx "-"
	304	TARGET_FMT_plx "\n", __func__, phys_addr,
	305	(hwaddr)(phys_addr + size - 1));
	306	return -EINVAL;
	307	}
	308	return kvm_slot_dirty_pages_log_change(mem, log_dirty);
	309	}
	310
	311	static void kvm_log_start(MemoryListener *listener,
	312	MemoryRegionSection *section)
	313	{
	314	int r;
	315
	316	r = kvm_dirty_pages_log_change(section->offset_within_address_space,
	317	section->size, true);
	318	if (r < 0) {
	319	abort();
	320	}
	321	}
	322
	323	static void kvm_log_stop(MemoryListener *listener,
	324	MemoryRegionSection *section)
	325	{
	326	int r;
	327
	328	r = kvm_dirty_pages_log_change(section->offset_within_address_space,
	329	section->size, false);
	330	if (r < 0) {
	331	abort();
	332	}
	333	}
	334
	335	static int kvm_set_migration_log(int enable)
	336	{
	337	KVMState *s = kvm_state;
	338	KVMSlot *mem;
	339	int i, err;
	340
	341	s->migration_log = enable;
	342
	343	for (i = 0; i < ARRAY_SIZE(s->slots); i++) {
	344	mem = &s->slots[i];
	345
	346	if (!mem->memory_size) {
	347	continue;
	348	}
	349	if (!!(mem->flags & KVM_MEM_LOG_DIRTY_PAGES) == enable) {
	350	continue;
	351	}
	352	err = kvm_set_user_memory_region(s, mem);
	353	if (err) {
	354	return err;
	355	}
	356	}
	357	return 0;
	358	}
	359
	360	/* get kvm's dirty pages bitmap and update qemu's */
	361	static int kvm_get_dirty_pages_log_range(MemoryRegionSection *section,
	362	unsigned long *bitmap)
	363	{
	364	unsigned int i, j;
	365	unsigned long page_number, c;
	366	hwaddr addr, addr1;
	367	unsigned int len = ((section->size / TARGET_PAGE_SIZE) + HOST_LONG_BITS - 1) / HOST_LONG_BITS;
	368	unsigned long hpratio = getpagesize() / TARGET_PAGE_SIZE;
	369
	370	/*
	371	* bitmap-traveling is faster than memory-traveling (for addr...)
	372	* especially when most of the memory is not dirty.
	373	*/
	374	for (i = 0; i < len; i++) {
	375	if (bitmap[i] != 0) {
	376	c = leul_to_cpu(bitmap[i]);
	377	do {
	378	j = ffsl(c) - 1;
	379	c &= ~(1ul << j);
	380	page_number = (i * HOST_LONG_BITS + j) * hpratio;
	381	addr1 = page_number * TARGET_PAGE_SIZE;
	382	addr = section->offset_within_region + addr1;
	383	memory_region_set_dirty(section->mr, addr,
	384	TARGET_PAGE_SIZE * hpratio);
	385	} while (c != 0);
	386	}
	387	}
	388	return 0;
	389	}
	390
	391	#define ALIGN(x, y) (((x)+(y)-1) & ~((y)-1))
	392
	393	/**
	394	* kvm_physical_sync_dirty_bitmap - Grab dirty bitmap from kernel space
	395	* This function updates qemu's dirty bitmap using
	396	* memory_region_set_dirty(). This means all bits are set
	397	* to dirty.
	398	*
	399	* @start_add: start of logged region.
	400	* @end_addr: end of logged region.
	401	*/
	402	static int kvm_physical_sync_dirty_bitmap(MemoryRegionSection *section)
	403	{
	404	KVMState *s = kvm_state;
	405	unsigned long size, allocated_size = 0;
	406	KVMDirtyLog d;
	407	KVMSlot *mem;
	408	int ret = 0;
	409	hwaddr start_addr = section->offset_within_address_space;
	410	hwaddr end_addr = start_addr + section->size;
	411
	412	d.dirty_bitmap = NULL;
	413	while (start_addr < end_addr) {
	414	mem = kvm_lookup_overlapping_slot(s, start_addr, end_addr);
	415	if (mem == NULL) {
	416	break;
	417	}
	418
	419	/* XXX bad kernel interface alert
	420	* For dirty bitmap, kernel allocates array of size aligned to
	421	* bits-per-long. But for case when the kernel is 64bits and
	422	* the userspace is 32bits, userspace can't align to the same
	423	* bits-per-long, since sizeof(long) is different between kernel
	424	* and user space. This way, userspace will provide buffer which
	425	* may be 4 bytes less than the kernel will use, resulting in
	426	* userspace memory corruption (which is not detectable by valgrind
	427	* too, in most cases).
	428	* So for now, let's align to 64 instead of HOST_LONG_BITS here, in
	429	* a hope that sizeof(long) wont become >8 any time soon.
	430	*/
	431	size = ALIGN(((mem->memory_size) >> TARGET_PAGE_BITS),
	432	/HOST_LONG_BITS/ 64) / 8;
	433	if (!d.dirty_bitmap) {
	434	d.dirty_bitmap = g_malloc(size);
	435	} else if (size > allocated_size) {
	436	d.dirty_bitmap = g_realloc(d.dirty_bitmap, size);
	437	}
	438	allocated_size = size;
	439	memset(d.dirty_bitmap, 0, allocated_size);
	440
	441	d.slot = mem->slot;
	442
	443	if (kvm_vm_ioctl(s, KVM_GET_DIRTY_LOG, &d) == -1) {
	444	DPRINTF("ioctl failed %d\n", errno);
	445	ret = -1;
	446	break;
	447	}
	448
	449	kvm_get_dirty_pages_log_range(section, d.dirty_bitmap);
	450	start_addr = mem->start_addr + mem->memory_size;
	451	}
	452	g_free(d.dirty_bitmap);
	453
	454	return ret;
	455	}
	456
	457	static void kvm_coalesce_mmio_region(MemoryListener *listener,
	458	MemoryRegionSection *secion,
	459	hwaddr start, hwaddr size)
	460	{
	461	KVMState *s = kvm_state;
	462
	463	if (s->coalesced_mmio) {
	464	struct kvm_coalesced_mmio_zone zone;
	465
	466	zone.addr = start;
	467	zone.size = size;
	468	zone.pad = 0;
	469
	470	(void)kvm_vm_ioctl(s, KVM_REGISTER_COALESCED_MMIO, &zone);
	471	}
	472	}
	473
	474	static void kvm_uncoalesce_mmio_region(MemoryListener *listener,
	475	MemoryRegionSection *secion,
	476	hwaddr start, hwaddr size)
	477	{
	478	KVMState *s = kvm_state;
	479
	480	if (s->coalesced_mmio) {
	481	struct kvm_coalesced_mmio_zone zone;
	482
	483	zone.addr = start;
	484	zone.size = size;
	485	zone.pad = 0;
	486
	487	(void)kvm_vm_ioctl(s, KVM_UNREGISTER_COALESCED_MMIO, &zone);
	488	}
	489	}
	490
	491	int kvm_check_extension(KVMState *s, unsigned int extension)
	492	{
	493	int ret;
	494
	495	ret = kvm_ioctl(s, KVM_CHECK_EXTENSION, extension);
	496	if (ret < 0) {
	497	ret = 0;
	498	}
	499
	500	return ret;
	501	}
	502
	503	static int kvm_check_many_ioeventfds(void)
	504	{
	505	/* Userspace can use ioeventfd for io notification. This requires a host
	506	* that supports eventfd(2) and an I/O thread; since eventfd does not
	507	* support SIGIO it cannot interrupt the vcpu.
	508	*
	509	* Older kernels have a 6 device limit on the KVM io bus. Find out so we
	510	* can avoid creating too many ioeventfds.
	511	*/
	512	#if defined(CONFIG_EVENTFD)
	513	int ioeventfds[7];
	514	int i, ret = 0;
	515	for (i = 0; i < ARRAY_SIZE(ioeventfds); i++) {
	516	ioeventfds[i] = eventfd(0, EFD_CLOEXEC);
	517	if (ioeventfds[i] < 0) {
	518	break;
	519	}
	520	ret = kvm_set_ioeventfd_pio_word(ioeventfds[i], 0, i, true);
	521	if (ret < 0) {
	522	close(ioeventfds[i]);
	523	break;
	524	}
	525	}
	526
	527	/* Decide whether many devices are supported or not */
	528	ret = i == ARRAY_SIZE(ioeventfds);
	529
	530	while (i-- > 0) {
	531	kvm_set_ioeventfd_pio_word(ioeventfds[i], 0, i, false);
	532	close(ioeventfds[i]);
	533	}
	534	return ret;
	535	#else
	536	return 0;
	537	#endif
	538	}
	539
	540	static const KVMCapabilityInfo *
	541	kvm_check_extension_list(KVMState s, const KVMCapabilityInfo list)
	542	{
	543	while (list->name) {
	544	if (!kvm_check_extension(s, list->value)) {
	545	return list;
	546	}
	547	list++;
	548	}
	549	return NULL;
	550	}
	551
	552	static void kvm_set_phys_mem(MemoryRegionSection *section, bool add)
	553	{
	554	KVMState *s = kvm_state;
	555	KVMSlot *mem, old;
	556	int err;
	557	MemoryRegion *mr = section->mr;
	558	bool log_dirty = memory_region_is_logging(mr);
	559	hwaddr start_addr = section->offset_within_address_space;
	560	ram_addr_t size = section->size;
	561	void *ram = NULL;
	562	unsigned delta;
	563
	564	/* kvm works in page size chunks, but the function may be called
	565	with sub-page size and unaligned start address. */
	566	delta = TARGET_PAGE_ALIGN(size) - size;
	567	if (delta > size) {
	568	return;
	569	}
	570	start_addr += delta;
	571	size -= delta;
	572	size &= TARGET_PAGE_MASK;
	573	if (!size \|\| (start_addr & ~TARGET_PAGE_MASK)) {
	574	return;
	575	}
	576
	577	if (!memory_region_is_ram(mr)) {
	578	return;
	579	}
	580
	581	ram = memory_region_get_ram_ptr(mr) + section->offset_within_region + delta;
	582
	583	while (1) {
	584	mem = kvm_lookup_overlapping_slot(s, start_addr, start_addr + size);
	585	if (!mem) {
	586	break;
	587	}
	588
	589	if (add && start_addr >= mem->start_addr &&
	590	(start_addr + size <= mem->start_addr + mem->memory_size) &&
	591	(ram - start_addr == mem->ram - mem->start_addr)) {
	592	/* The new slot fits into the existing one and comes with
	593	* identical parameters - update flags and done. */
	594	kvm_slot_dirty_pages_log_change(mem, log_dirty);
	595	return;
	596	}
	597
	598	old = *mem;
	599
	600	if (mem->flags & KVM_MEM_LOG_DIRTY_PAGES) {
	601	kvm_physical_sync_dirty_bitmap(section);
	602	}
	603
	604	/* unregister the overlapping slot */
	605	mem->memory_size = 0;
	606	err = kvm_set_user_memory_region(s, mem);
	607	if (err) {
	608	fprintf(stderr, "%s: error unregistering overlapping slot: %s\n",
	609	__func__, strerror(-err));
	610	abort();
	611	}
	612
	613	/* Workaround for older KVM versions: we can't join slots, even not by
	614	* unregistering the previous ones and then registering the larger
	615	* slot. We have to maintain the existing fragmentation. Sigh.
	616	*
	617	* This workaround assumes that the new slot starts at the same
	618	* address as the first existing one. If not or if some overlapping
	619	* slot comes around later, we will fail (not seen in practice so far)
	620	* - and actually require a recent KVM version. */
	621	if (s->broken_set_mem_region &&
	622	old.start_addr == start_addr && old.memory_size < size && add) {
	623	mem = kvm_alloc_slot(s);
	624	mem->memory_size = old.memory_size;
	625	mem->start_addr = old.start_addr;
	626	mem->ram = old.ram;
	627	mem->flags = kvm_mem_flags(s, log_dirty);
	628
	629	err = kvm_set_user_memory_region(s, mem);
	630	if (err) {
	631	fprintf(stderr, "%s: error updating slot: %s\n", __func__,
	632	strerror(-err));
	633	abort();
	634	}
	635
	636	start_addr += old.memory_size;
	637	ram += old.memory_size;
	638	size -= old.memory_size;
	639	continue;
	640	}
	641
	642	/* register prefix slot */
	643	if (old.start_addr < start_addr) {
	644	mem = kvm_alloc_slot(s);
	645	mem->memory_size = start_addr - old.start_addr;
	646	mem->start_addr = old.start_addr;
	647	mem->ram = old.ram;
	648	mem->flags = kvm_mem_flags(s, log_dirty);
	649
	650	err = kvm_set_user_memory_region(s, mem);
	651	if (err) {
	652	fprintf(stderr, "%s: error registering prefix slot: %s\n",
	653	__func__, strerror(-err));
	654	#ifdef TARGET_PPC
	655	fprintf(stderr, "%s: This is probably because your kernel's " \
	656	"PAGE_SIZE is too big. Please try to use 4k " \
	657	"PAGE_SIZE!\n", __func__);
	658	#endif
	659	abort();
	660	}
	661	}
	662
	663	/* register suffix slot */
	664	if (old.start_addr + old.memory_size > start_addr + size) {
	665	ram_addr_t size_delta;
	666
	667	mem = kvm_alloc_slot(s);
	668	mem->start_addr = start_addr + size;
	669	size_delta = mem->start_addr - old.start_addr;
	670	mem->memory_size = old.memory_size - size_delta;
	671	mem->ram = old.ram + size_delta;
	672	mem->flags = kvm_mem_flags(s, log_dirty);
	673
	674	err = kvm_set_user_memory_region(s, mem);
	675	if (err) {
	676	fprintf(stderr, "%s: error registering suffix slot: %s\n",
	677	__func__, strerror(-err));
	678	abort();
	679	}
	680	}
	681	}
	682
	683	/* in case the KVM bug workaround already "consumed" the new slot */
	684	if (!size) {
	685	return;
	686	}
	687	if (!add) {
	688	return;
	689	}
	690	mem = kvm_alloc_slot(s);
	691	mem->memory_size = size;
	692	mem->start_addr = start_addr;
	693	mem->ram = ram;
	694	mem->flags = kvm_mem_flags(s, log_dirty);
	695
	696	err = kvm_set_user_memory_region(s, mem);
	697	if (err) {
	698	fprintf(stderr, "%s: error registering slot: %s\n", __func__,
	699	strerror(-err));
	700	abort();
	701	}
	702	}
	703
	704	static void kvm_region_add(MemoryListener *listener,
	705	MemoryRegionSection *section)
	706	{
	707	kvm_set_phys_mem(section, true);
	708	}
	709
	710	static void kvm_region_del(MemoryListener *listener,
	711	MemoryRegionSection *section)
	712	{
	713	kvm_set_phys_mem(section, false);
	714	}
	715
	716	static void kvm_log_sync(MemoryListener *listener,
	717	MemoryRegionSection *section)
	718	{
	719	int r;
	720
	721	r = kvm_physical_sync_dirty_bitmap(section);
	722	if (r < 0) {
	723	abort();
	724	}
	725	}
	726
	727	static void kvm_log_global_start(struct MemoryListener *listener)
	728	{
	729	int r;
	730
	731	r = kvm_set_migration_log(1);
	732	assert(r >= 0);
	733	}
	734
	735	static void kvm_log_global_stop(struct MemoryListener *listener)
	736	{
	737	int r;
	738
	739	r = kvm_set_migration_log(0);
	740	assert(r >= 0);
	741	}
	742
	743	static void kvm_mem_ioeventfd_add(MemoryListener *listener,
	744	MemoryRegionSection *section,
	745	bool match_data, uint64_t data,
	746	EventNotifier *e)
	747	{
	748	int fd = event_notifier_get_fd(e);
	749	int r;
	750
	751	assert(match_data && section->size <= 8);
	752
	753	r = kvm_set_ioeventfd_mmio(fd, section->offset_within_address_space,
	754	data, true, section->size);
	755	if (r < 0) {
	756	abort();
	757	}
	758	}
	759
	760	static void kvm_mem_ioeventfd_del(MemoryListener *listener,
	761	MemoryRegionSection *section,
	762	bool match_data, uint64_t data,
	763	EventNotifier *e)
	764	{
	765	int fd = event_notifier_get_fd(e);
	766	int r;
	767
	768	r = kvm_set_ioeventfd_mmio(fd, section->offset_within_address_space,
	769	data, false, section->size);
	770	if (r < 0) {
	771	abort();
	772	}
	773	}
	774
	775	static void kvm_io_ioeventfd_add(MemoryListener *listener,
	776	MemoryRegionSection *section,
	777	bool match_data, uint64_t data,
	778	EventNotifier *e)
	779	{
	780	int fd = event_notifier_get_fd(e);
	781	int r;
	782
	783	assert(match_data && section->size == 2);
	784
	785	r = kvm_set_ioeventfd_pio_word(fd, section->offset_within_address_space,
	786	data, true);
	787	if (r < 0) {
	788	abort();
	789	}
	790	}
	791
	792	static void kvm_io_ioeventfd_del(MemoryListener *listener,
	793	MemoryRegionSection *section,
	794	bool match_data, uint64_t data,
	795	EventNotifier *e)
	796
	797	{
	798	int fd = event_notifier_get_fd(e);
	799	int r;
	800
	801	r = kvm_set_ioeventfd_pio_word(fd, section->offset_within_address_space,
	802	data, false);
	803	if (r < 0) {
	804	abort();
	805	}
	806	}
	807
	808	static MemoryListener kvm_memory_listener = {
	809	.region_add = kvm_region_add,
	810	.region_del = kvm_region_del,
	811	.log_start = kvm_log_start,
	812	.log_stop = kvm_log_stop,
	813	.log_sync = kvm_log_sync,
	814	.log_global_start = kvm_log_global_start,
	815	.log_global_stop = kvm_log_global_stop,
	816	.eventfd_add = kvm_mem_ioeventfd_add,
	817	.eventfd_del = kvm_mem_ioeventfd_del,
	818	.coalesced_mmio_add = kvm_coalesce_mmio_region,
	819	.coalesced_mmio_del = kvm_uncoalesce_mmio_region,
	820	.priority = 10,
	821	};
	822
	823	static MemoryListener kvm_io_listener = {
	824	.eventfd_add = kvm_io_ioeventfd_add,
	825	.eventfd_del = kvm_io_ioeventfd_del,
	826	.priority = 10,
	827	};
	828
	829	static void kvm_handle_interrupt(CPUArchState *env, int mask)
	830	{
	831	env->interrupt_request \|= mask;
	832
	833	if (!qemu_cpu_is_self(env)) {
	834	qemu_cpu_kick(env);
	835	}
	836	}
	837
	838	int kvm_set_irq(KVMState *s, int irq, int level)
	839	{
	840	struct kvm_irq_level event;
	841	int ret;
	842
	843	assert(kvm_async_interrupts_enabled());
	844
	845	event.level = level;
	846	event.irq = irq;
	847	ret = kvm_vm_ioctl(s, s->irq_set_ioctl, &event);
	848	if (ret < 0) {
	849	perror("kvm_set_irq");
	850	abort();
	851	}
	852
	853	return (s->irq_set_ioctl == KVM_IRQ_LINE) ? 1 : event.status;
	854	}
	855
	856	#ifdef KVM_CAP_IRQ_ROUTING
	857	typedef struct KVMMSIRoute {
	858	struct kvm_irq_routing_entry kroute;
	859	QTAILQ_ENTRY(KVMMSIRoute) entry;
	860	} KVMMSIRoute;
	861
	862	static void set_gsi(KVMState *s, unsigned int gsi)
	863	{
	864	s->used_gsi_bitmap[gsi / 32] \|= 1U << (gsi % 32);
	865	}
	866
	867	static void clear_gsi(KVMState *s, unsigned int gsi)
	868	{
	869	s->used_gsi_bitmap[gsi / 32] &= ~(1U << (gsi % 32));
	870	}
	871
	872	static void kvm_init_irq_routing(KVMState *s)
	873	{
	874	int gsi_count, i;
	875
	876	gsi_count = kvm_check_extension(s, KVM_CAP_IRQ_ROUTING);
	877	if (gsi_count > 0) {
	878	unsigned int gsi_bits, i;
	879
	880	/* Round up so we can search ints using ffs */
	881	gsi_bits = ALIGN(gsi_count, 32);
	882	s->used_gsi_bitmap = g_malloc0(gsi_bits / 8);
	883	s->gsi_count = gsi_count;
	884
	885	/* Mark any over-allocated bits as already in use */
	886	for (i = gsi_count; i < gsi_bits; i++) {
	887	set_gsi(s, i);
	888	}
	889	}
	890
	891	s->irq_routes = g_malloc0(sizeof(*s->irq_routes));
	892	s->nr_allocated_irq_routes = 0;
	893
	894	if (!s->direct_msi) {
	895	for (i = 0; i < KVM_MSI_HASHTAB_SIZE; i++) {
	896	QTAILQ_INIT(&s->msi_hashtab[i]);
	897	}
	898	}
	899
	900	kvm_arch_init_irq_routing(s);
	901	}
	902
	903	static void kvm_irqchip_commit_routes(KVMState *s)
	904	{
	905	int ret;
	906
	907	s->irq_routes->flags = 0;
	908	ret = kvm_vm_ioctl(s, KVM_SET_GSI_ROUTING, s->irq_routes);
	909	assert(ret == 0);
	910	}
	911
	912	static void kvm_add_routing_entry(KVMState *s,
	913	struct kvm_irq_routing_entry *entry)
	914	{
	915	struct kvm_irq_routing_entry *new;
	916	int n, size;
	917
	918	if (s->irq_routes->nr == s->nr_allocated_irq_routes) {
	919	n = s->nr_allocated_irq_routes * 2;
	920	if (n < 64) {
	921	n = 64;
	922	}
	923	size = sizeof(struct kvm_irq_routing);
	924	size += n * sizeof(*new);
	925	s->irq_routes = g_realloc(s->irq_routes, size);
	926	s->nr_allocated_irq_routes = n;
	927	}
	928	n = s->irq_routes->nr++;
	929	new = &s->irq_routes->entries[n];
	930	memset(new, 0, sizeof(*new));
	931	new->gsi = entry->gsi;
	932	new->type = entry->type;
	933	new->flags = entry->flags;
	934	new->u = entry->u;
	935
	936	set_gsi(s, entry->gsi);
	937
	938	kvm_irqchip_commit_routes(s);
	939	}
	940
	941	static int kvm_update_routing_entry(KVMState *s,
	942	struct kvm_irq_routing_entry *new_entry)
	943	{
	944	struct kvm_irq_routing_entry *entry;
	945	int n;
	946
	947	for (n = 0; n < s->irq_routes->nr; n++) {
	948	entry = &s->irq_routes->entries[n];
	949	if (entry->gsi != new_entry->gsi) {
	950	continue;
	951	}
	952
	953	entry->type = new_entry->type;
	954	entry->flags = new_entry->flags;
	955	entry->u = new_entry->u;
	956
	957	kvm_irqchip_commit_routes(s);
	958
	959	return 0;
	960	}
	961
	962	return -ESRCH;
	963	}
	964
	965	void kvm_irqchip_add_irq_route(KVMState *s, int irq, int irqchip, int pin)
	966	{
	967	struct kvm_irq_routing_entry e;
	968
	969	assert(pin < s->gsi_count);
	970
	971	e.gsi = irq;
	972	e.type = KVM_IRQ_ROUTING_IRQCHIP;
	973	e.flags = 0;
	974	e.u.irqchip.irqchip = irqchip;
	975	e.u.irqchip.pin = pin;
	976	kvm_add_routing_entry(s, &e);
	977	}
	978
	979	void kvm_irqchip_release_virq(KVMState *s, int virq)
	980	{
	981	struct kvm_irq_routing_entry *e;
	982	int i;
	983
	984	for (i = 0; i < s->irq_routes->nr; i++) {
	985	e = &s->irq_routes->entries[i];
	986	if (e->gsi == virq) {
	987	s->irq_routes->nr--;
	988	*e = s->irq_routes->entries[s->irq_routes->nr];
	989	}
	990	}
	991	clear_gsi(s, virq);
	992
	993	kvm_irqchip_commit_routes(s);
	994	}
	995
	996	static unsigned int kvm_hash_msi(uint32_t data)
	997	{
	998	/* This is optimized for IA32 MSI layout. However, no other arch shall
	999	* repeat the mistake of not providing a direct MSI injection API. */
	1000	return data & 0xff;
	1001	}
	1002
	1003	static void kvm_flush_dynamic_msi_routes(KVMState *s)
	1004	{
	1005	KVMMSIRoute route, next;
	1006	unsigned int hash;
	1007
	1008	for (hash = 0; hash < KVM_MSI_HASHTAB_SIZE; hash++) {
	1009	QTAILQ_FOREACH_SAFE(route, &s->msi_hashtab[hash], entry, next) {
	1010	kvm_irqchip_release_virq(s, route->kroute.gsi);
	1011	QTAILQ_REMOVE(&s->msi_hashtab[hash], route, entry);
	1012	g_free(route);
	1013	}
	1014	}
	1015	}
	1016
	1017	static int kvm_irqchip_get_virq(KVMState *s)
	1018	{
	1019	uint32_t *word = s->used_gsi_bitmap;
	1020	int max_words = ALIGN(s->gsi_count, 32) / 32;
	1021	int i, bit;
	1022	bool retry = true;
	1023
	1024	again:
	1025	/* Return the lowest unused GSI in the bitmap */
	1026	for (i = 0; i < max_words; i++) {
	1027	bit = ffs(~word[i]);
	1028	if (!bit) {
	1029	continue;
	1030	}
	1031
	1032	return bit - 1 + i * 32;
	1033	}
	1034	if (!s->direct_msi && retry) {
	1035	retry = false;
	1036	kvm_flush_dynamic_msi_routes(s);
	1037	goto again;
	1038	}
	1039	return -ENOSPC;
	1040
	1041	}
	1042
	1043	static KVMMSIRoute kvm_lookup_msi_route(KVMState s, MSIMessage msg)
	1044	{
	1045	unsigned int hash = kvm_hash_msi(msg.data);
	1046	KVMMSIRoute *route;
	1047
	1048	QTAILQ_FOREACH(route, &s->msi_hashtab[hash], entry) {
	1049	if (route->kroute.u.msi.address_lo == (uint32_t)msg.address &&
	1050	route->kroute.u.msi.address_hi == (msg.address >> 32) &&
	1051	route->kroute.u.msi.data == msg.data) {
	1052	return route;
	1053	}
	1054	}
	1055	return NULL;
	1056	}
	1057
	1058	int kvm_irqchip_send_msi(KVMState *s, MSIMessage msg)
	1059	{
	1060	struct kvm_msi msi;
	1061	KVMMSIRoute *route;
	1062
	1063	if (s->direct_msi) {
	1064	msi.address_lo = (uint32_t)msg.address;
	1065	msi.address_hi = msg.address >> 32;
	1066	msi.data = msg.data;
	1067	msi.flags = 0;
	1068	memset(msi.pad, 0, sizeof(msi.pad));
	1069
	1070	return kvm_vm_ioctl(s, KVM_SIGNAL_MSI, &msi);
	1071	}
	1072
	1073	route = kvm_lookup_msi_route(s, msg);
	1074	if (!route) {
	1075	int virq;
	1076
	1077	virq = kvm_irqchip_get_virq(s);
	1078	if (virq < 0) {
	1079	return virq;
	1080	}
	1081
	1082	route = g_malloc(sizeof(KVMMSIRoute));
	1083	route->kroute.gsi = virq;
	1084	route->kroute.type = KVM_IRQ_ROUTING_MSI;
	1085	route->kroute.flags = 0;
	1086	route->kroute.u.msi.address_lo = (uint32_t)msg.address;
	1087	route->kroute.u.msi.address_hi = msg.address >> 32;
	1088	route->kroute.u.msi.data = msg.data;
	1089
	1090	kvm_add_routing_entry(s, &route->kroute);
	1091
	1092	QTAILQ_INSERT_TAIL(&s->msi_hashtab[kvm_hash_msi(msg.data)], route,
	1093	entry);
	1094	}
	1095
	1096	assert(route->kroute.type == KVM_IRQ_ROUTING_MSI);
	1097
	1098	return kvm_set_irq(s, route->kroute.gsi, 1);
	1099	}
	1100
	1101	int kvm_irqchip_add_msi_route(KVMState *s, MSIMessage msg)
	1102	{
	1103	struct kvm_irq_routing_entry kroute;
	1104	int virq;
	1105
	1106	if (!kvm_gsi_routing_enabled()) {
	1107	return -ENOSYS;
	1108	}
	1109
	1110	virq = kvm_irqchip_get_virq(s);
	1111	if (virq < 0) {
	1112	return virq;
	1113	}
	1114
	1115	kroute.gsi = virq;
	1116	kroute.type = KVM_IRQ_ROUTING_MSI;
	1117	kroute.flags = 0;
	1118	kroute.u.msi.address_lo = (uint32_t)msg.address;
	1119	kroute.u.msi.address_hi = msg.address >> 32;
	1120	kroute.u.msi.data = msg.data;
	1121
	1122	kvm_add_routing_entry(s, &kroute);
	1123
	1124	return virq;
	1125	}
	1126
	1127	int kvm_irqchip_update_msi_route(KVMState *s, int virq, MSIMessage msg)
	1128	{
	1129	struct kvm_irq_routing_entry kroute;
	1130
	1131	if (!kvm_irqchip_in_kernel()) {
	1132	return -ENOSYS;
	1133	}
	1134
	1135	kroute.gsi = virq;
	1136	kroute.type = KVM_IRQ_ROUTING_MSI;
	1137	kroute.flags = 0;
	1138	kroute.u.msi.address_lo = (uint32_t)msg.address;
	1139	kroute.u.msi.address_hi = msg.address >> 32;
	1140	kroute.u.msi.data = msg.data;
	1141
	1142	return kvm_update_routing_entry(s, &kroute);
	1143	}
	1144
	1145	static int kvm_irqchip_assign_irqfd(KVMState *s, int fd, int virq, bool assign)
	1146	{
	1147	struct kvm_irqfd irqfd = {
	1148	.fd = fd,
	1149	.gsi = virq,
	1150	.flags = assign ? 0 : KVM_IRQFD_FLAG_DEASSIGN,
	1151	};
	1152
	1153	if (!kvm_irqfds_enabled()) {
	1154	return -ENOSYS;
	1155	}
	1156
	1157	return kvm_vm_ioctl(s, KVM_IRQFD, &irqfd);
	1158	}
	1159
	1160	#else /* !KVM_CAP_IRQ_ROUTING */
	1161
	1162	static void kvm_init_irq_routing(KVMState *s)
	1163	{
	1164	}
	1165
	1166	void kvm_irqchip_release_virq(KVMState *s, int virq)
	1167	{
	1168	}
	1169
	1170	int kvm_irqchip_send_msi(KVMState *s, MSIMessage msg)
	1171	{
	1172	abort();
	1173	}
	1174
	1175	int kvm_irqchip_add_msi_route(KVMState *s, MSIMessage msg)
	1176	{
	1177	return -ENOSYS;
	1178	}
	1179
	1180	static int kvm_irqchip_assign_irqfd(KVMState *s, int fd, int virq, bool assign)
	1181	{
	1182	abort();
	1183	}
	1184	#endif /* !KVM_CAP_IRQ_ROUTING */
	1185
	1186	int kvm_irqchip_add_irqfd_notifier(KVMState s, EventNotifier n, int virq)
	1187	{
	1188	return kvm_irqchip_assign_irqfd(s, event_notifier_get_fd(n), virq, true);
	1189	}
	1190
	1191	int kvm_irqchip_remove_irqfd_notifier(KVMState s, EventNotifier n, int virq)
	1192	{
	1193	return kvm_irqchip_assign_irqfd(s, event_notifier_get_fd(n), virq, false);
	1194	}
	1195
	1196	static int kvm_irqchip_create(KVMState *s)
	1197	{
	1198	QemuOptsList *list = qemu_find_opts("machine");
	1199	int ret;
	1200
	1201	if (QTAILQ_EMPTY(&list->head) \|\|
	1202	!qemu_opt_get_bool(QTAILQ_FIRST(&list->head),
	1203	"kernel_irqchip", true) \|\|
	1204	!kvm_check_extension(s, KVM_CAP_IRQCHIP)) {
	1205	return 0;
	1206	}
	1207
	1208	ret = kvm_vm_ioctl(s, KVM_CREATE_IRQCHIP);
	1209	if (ret < 0) {
	1210	fprintf(stderr, "Create kernel irqchip failed\n");
	1211	return ret;
	1212	}
	1213
	1214	kvm_kernel_irqchip = true;
	1215	/* If we have an in-kernel IRQ chip then we must have asynchronous
	1216	* interrupt delivery (though the reverse is not necessarily true)
	1217	*/
	1218	kvm_async_interrupts_allowed = true;
	1219
	1220	kvm_init_irq_routing(s);
	1221
	1222	return 0;
	1223	}
	1224
	1225	static int kvm_max_vcpus(KVMState *s)
	1226	{
	1227	int ret;
	1228
	1229	/* Find number of supported CPUs using the recommended
	1230	* procedure from the kernel API documentation to cope with
	1231	* older kernels that may be missing capabilities.
	1232	*/
	1233	ret = kvm_check_extension(s, KVM_CAP_MAX_VCPUS);
	1234	if (ret) {
	1235	return ret;
	1236	}
	1237	ret = kvm_check_extension(s, KVM_CAP_NR_VCPUS);
	1238	if (ret) {
	1239	return ret;
	1240	}
	1241
	1242	return 4;
	1243	}
	1244
	1245	int kvm_init(void)
	1246	{
	1247	static const char upgrade_note[] =
	1248	"Please upgrade to at least kernel 2.6.29 or recent kvm-kmod\n"
	1249	"(see http://sourceforge.net/projects/kvm).\n";
	1250	KVMState *s;
	1251	const KVMCapabilityInfo *missing_cap;
	1252	int ret;
	1253	int i;
	1254	int max_vcpus;
	1255
	1256	s = g_malloc0(sizeof(KVMState));
	1257
	1258	/*
	1259	* On systems where the kernel can support different base page
	1260	* sizes, host page size may be different from TARGET_PAGE_SIZE,
	1261	* even with KVM. TARGET_PAGE_SIZE is assumed to be the minimum
	1262	* page size for the system though.
	1263	*/
	1264	assert(TARGET_PAGE_SIZE <= getpagesize());
	1265
	1266	#ifdef KVM_CAP_SET_GUEST_DEBUG
	1267	QTAILQ_INIT(&s->kvm_sw_breakpoints);
	1268	#endif
	1269	for (i = 0; i < ARRAY_SIZE(s->slots); i++) {
	1270	s->slots[i].slot = i;
	1271	}
	1272	s->vmfd = -1;
	1273	s->fd = qemu_open("/dev/kvm", O_RDWR);
	1274	if (s->fd == -1) {
	1275	fprintf(stderr, "Could not access KVM kernel module: %m\n");
	1276	ret = -errno;
	1277	goto err;
	1278	}
	1279
	1280	ret = kvm_ioctl(s, KVM_GET_API_VERSION, 0);
	1281	if (ret < KVM_API_VERSION) {
	1282	if (ret > 0) {
	1283	ret = -EINVAL;
	1284	}
	1285	fprintf(stderr, "kvm version too old\n");
	1286	goto err;
	1287	}
	1288
	1289	if (ret > KVM_API_VERSION) {
	1290	ret = -EINVAL;
	1291	fprintf(stderr, "kvm version not supported\n");
	1292	goto err;
	1293	}
	1294
	1295	max_vcpus = kvm_max_vcpus(s);
	1296	if (smp_cpus > max_vcpus) {
	1297	ret = -EINVAL;
	1298	fprintf(stderr, "Number of SMP cpus requested (%d) exceeds max cpus "
	1299	"supported by KVM (%d)\n", smp_cpus, max_vcpus);
	1300	goto err;
	1301	}
	1302
	1303	s->vmfd = kvm_ioctl(s, KVM_CREATE_VM, 0);
	1304	if (s->vmfd < 0) {
	1305	#ifdef TARGET_S390X
	1306	fprintf(stderr, "Please add the 'switch_amode' kernel parameter to "
	1307	"your host kernel command line\n");
	1308	#endif
	1309	ret = s->vmfd;
	1310	goto err;
	1311	}
	1312
	1313	missing_cap = kvm_check_extension_list(s, kvm_required_capabilites);
	1314	if (!missing_cap) {
	1315	missing_cap =
	1316	kvm_check_extension_list(s, kvm_arch_required_capabilities);
	1317	}
	1318	if (missing_cap) {
	1319	ret = -EINVAL;
	1320	fprintf(stderr, "kvm does not support %s\n%s",
	1321	missing_cap->name, upgrade_note);
	1322	goto err;
	1323	}
	1324
	1325	s->coalesced_mmio = kvm_check_extension(s, KVM_CAP_COALESCED_MMIO);
	1326
	1327	s->broken_set_mem_region = 1;
	1328	ret = kvm_check_extension(s, KVM_CAP_JOIN_MEMORY_REGIONS_WORKS);
	1329	if (ret > 0) {
	1330	s->broken_set_mem_region = 0;
	1331	}
	1332
	1333	#ifdef KVM_CAP_VCPU_EVENTS
	1334	s->vcpu_events = kvm_check_extension(s, KVM_CAP_VCPU_EVENTS);
	1335	#endif
	1336
	1337	s->robust_singlestep =
	1338	kvm_check_extension(s, KVM_CAP_X86_ROBUST_SINGLESTEP);
	1339
	1340	#ifdef KVM_CAP_DEBUGREGS
	1341	s->debugregs = kvm_check_extension(s, KVM_CAP_DEBUGREGS);
	1342	#endif
	1343
	1344	#ifdef KVM_CAP_XSAVE
	1345	s->xsave = kvm_check_extension(s, KVM_CAP_XSAVE);
	1346	#endif
	1347
	1348	#ifdef KVM_CAP_XCRS
	1349	s->xcrs = kvm_check_extension(s, KVM_CAP_XCRS);
	1350	#endif
	1351
	1352	#ifdef KVM_CAP_PIT_STATE2
	1353	s->pit_state2 = kvm_check_extension(s, KVM_CAP_PIT_STATE2);
	1354	#endif
	1355
	1356	#ifdef KVM_CAP_IRQ_ROUTING
	1357	s->direct_msi = (kvm_check_extension(s, KVM_CAP_SIGNAL_MSI) > 0);
	1358	#endif
	1359
	1360	s->intx_set_mask = kvm_check_extension(s, KVM_CAP_PCI_2_3);
	1361
	1362	s->irq_set_ioctl = KVM_IRQ_LINE;
	1363	if (kvm_check_extension(s, KVM_CAP_IRQ_INJECT_STATUS)) {
	1364	s->irq_set_ioctl = KVM_IRQ_LINE_STATUS;
	1365	}
	1366
	1367	ret = kvm_arch_init(s);
	1368	if (ret < 0) {
	1369	goto err;
	1370	}
	1371
	1372	ret = kvm_irqchip_create(s);
	1373	if (ret < 0) {
	1374	goto err;
	1375	}
	1376
	1377	kvm_state = s;
	1378	memory_listener_register(&kvm_memory_listener, &address_space_memory);
	1379	memory_listener_register(&kvm_io_listener, &address_space_io);
	1380
	1381	s->many_ioeventfds = kvm_check_many_ioeventfds();
	1382
	1383	cpu_interrupt_handler = kvm_handle_interrupt;
	1384
	1385	return 0;
	1386
	1387	err:
	1388	if (s->vmfd >= 0) {
	1389	close(s->vmfd);
	1390	}
	1391	if (s->fd != -1) {
	1392	close(s->fd);
	1393	}
	1394	g_free(s);
	1395
	1396	return ret;
	1397	}
	1398
	1399	static void kvm_handle_io(uint16_t port, void *data, int direction, int size,
	1400	uint32_t count)
	1401	{
	1402	int i;
	1403	uint8_t *ptr = data;
	1404
	1405	for (i = 0; i < count; i++) {
	1406	if (direction == KVM_EXIT_IO_IN) {
	1407	switch (size) {
	1408	case 1:
	1409	stb_p(ptr, cpu_inb(port));
	1410	break;
	1411	case 2:
	1412	stw_p(ptr, cpu_inw(port));
	1413	break;
	1414	case 4:
	1415	stl_p(ptr, cpu_inl(port));
	1416	break;
	1417	}
	1418	} else {
	1419	switch (size) {
	1420	case 1:
	1421	cpu_outb(port, ldub_p(ptr));
	1422	break;
	1423	case 2:
	1424	cpu_outw(port, lduw_p(ptr));
	1425	break;
	1426	case 4:
	1427	cpu_outl(port, ldl_p(ptr));
	1428	break;
	1429	}
	1430	}
	1431
	1432	ptr += size;
	1433	}
	1434	}
	1435
	1436	static int kvm_handle_internal_error(CPUArchState env, struct kvm_run run)
	1437	{
	1438	fprintf(stderr, "KVM internal error.");
	1439	if (kvm_check_extension(kvm_state, KVM_CAP_INTERNAL_ERROR_DATA)) {
	1440	int i;
	1441
	1442	fprintf(stderr, " Suberror: %d\n", run->internal.suberror);
	1443	for (i = 0; i < run->internal.ndata; ++i) {
	1444	fprintf(stderr, "extra data[%d]: %"PRIx64"\n",
	1445	i, (uint64_t)run->internal.data[i]);
	1446	}
	1447	} else {
	1448	fprintf(stderr, "\n");
	1449	}
	1450	if (run->internal.suberror == KVM_INTERNAL_ERROR_EMULATION) {
	1451	fprintf(stderr, "emulation failure\n");
	1452	if (!kvm_arch_stop_on_emulation_error(env)) {
	1453	cpu_dump_state(env, stderr, fprintf, CPU_DUMP_CODE);
	1454	return EXCP_INTERRUPT;
	1455	}
	1456	}
	1457	/* FIXME: Should trigger a qmp message to let management know
	1458	* something went wrong.
	1459	*/
	1460	return -1;
	1461	}
	1462
	1463	void kvm_flush_coalesced_mmio_buffer(void)
	1464	{
	1465	KVMState *s = kvm_state;
	1466
	1467	if (s->coalesced_flush_in_progress) {
	1468	return;
	1469	}
	1470
	1471	s->coalesced_flush_in_progress = true;
	1472
	1473	if (s->coalesced_mmio_ring) {
	1474	struct kvm_coalesced_mmio_ring *ring = s->coalesced_mmio_ring;
	1475	while (ring->first != ring->last) {
	1476	struct kvm_coalesced_mmio *ent;
	1477
	1478	ent = &ring->coalesced_mmio[ring->first];
	1479
	1480	cpu_physical_memory_write(ent->phys_addr, ent->data, ent->len);
	1481	smp_wmb();
	1482	ring->first = (ring->first + 1) % KVM_COALESCED_MMIO_MAX;
	1483	}
	1484	}
	1485
	1486	s->coalesced_flush_in_progress = false;
	1487	}
	1488
	1489	static void do_kvm_cpu_synchronize_state(void *_env)
	1490	{
	1491	CPUArchState *env = _env;
	1492
	1493	if (!env->kvm_vcpu_dirty) {
	1494	kvm_arch_get_registers(env);
	1495	env->kvm_vcpu_dirty = 1;
	1496	}
	1497	}
	1498
	1499	void kvm_cpu_synchronize_state(CPUArchState *env)
	1500	{
	1501	if (!env->kvm_vcpu_dirty) {
	1502	run_on_cpu(env, do_kvm_cpu_synchronize_state, env);
	1503	}
	1504	}
	1505
	1506	void kvm_cpu_synchronize_post_reset(CPUArchState *env)
	1507	{
	1508	kvm_arch_put_registers(env, KVM_PUT_RESET_STATE);
	1509	env->kvm_vcpu_dirty = 0;
	1510	}
	1511
	1512	void kvm_cpu_synchronize_post_init(CPUArchState *env)
	1513	{
	1514	kvm_arch_put_registers(env, KVM_PUT_FULL_STATE);
	1515	env->kvm_vcpu_dirty = 0;
	1516	}
	1517
	1518	int kvm_cpu_exec(CPUArchState *env)
	1519	{
	1520	struct kvm_run *run = env->kvm_run;
	1521	int ret, run_ret;
	1522
	1523	DPRINTF("kvm_cpu_exec()\n");
	1524
	1525	if (kvm_arch_process_async_events(env)) {
	1526	env->exit_request = 0;
	1527	return EXCP_HLT;
	1528	}
	1529
	1530	do {
	1531	if (env->kvm_vcpu_dirty) {
	1532	kvm_arch_put_registers(env, KVM_PUT_RUNTIME_STATE);
	1533	env->kvm_vcpu_dirty = 0;
	1534	}
	1535
	1536	kvm_arch_pre_run(env, run);
	1537	if (env->exit_request) {
	1538	DPRINTF("interrupt exit requested\n");
	1539	/*
	1540	* KVM requires us to reenter the kernel after IO exits to complete
	1541	* instruction emulation. This self-signal will ensure that we
	1542	* leave ASAP again.
	1543	*/
	1544	qemu_cpu_kick_self();
	1545	}
	1546	qemu_mutex_unlock_iothread();
	1547
	1548	run_ret = kvm_vcpu_ioctl(env, KVM_RUN, 0);
	1549
	1550	qemu_mutex_lock_iothread();
	1551	kvm_arch_post_run(env, run);
	1552
	1553	if (run_ret < 0) {
	1554	if (run_ret == -EINTR \|\| run_ret == -EAGAIN) {
	1555	DPRINTF("io window exit\n");
	1556	ret = EXCP_INTERRUPT;
	1557	break;
	1558	}
	1559	fprintf(stderr, "error: kvm run failed %s\n",
	1560	strerror(-run_ret));
	1561	abort();
	1562	}
	1563
	1564	switch (run->exit_reason) {
	1565	case KVM_EXIT_IO:
	1566	DPRINTF("handle_io\n");
	1567	kvm_handle_io(run->io.port,
	1568	(uint8_t *)run + run->io.data_offset,
	1569	run->io.direction,
	1570	run->io.size,
	1571	run->io.count);
	1572	ret = 0;
	1573	break;
	1574	case KVM_EXIT_MMIO:
	1575	DPRINTF("handle_mmio\n");
	1576	cpu_physical_memory_rw(run->mmio.phys_addr,
	1577	run->mmio.data,
	1578	run->mmio.len,
	1579	run->mmio.is_write);
	1580	ret = 0;
	1581	break;
	1582	case KVM_EXIT_IRQ_WINDOW_OPEN:
	1583	DPRINTF("irq_window_open\n");
	1584	ret = EXCP_INTERRUPT;
	1585	break;
	1586	case KVM_EXIT_SHUTDOWN:
	1587	DPRINTF("shutdown\n");
	1588	qemu_system_reset_request();
	1589	ret = EXCP_INTERRUPT;
	1590	break;
	1591	case KVM_EXIT_UNKNOWN:
	1592	fprintf(stderr, "KVM: unknown exit, hardware reason %" PRIx64 "\n",
	1593	(uint64_t)run->hw.hardware_exit_reason);
	1594	ret = -1;
	1595	break;
	1596	case KVM_EXIT_INTERNAL_ERROR:
	1597	ret = kvm_handle_internal_error(env, run);
	1598	break;
	1599	default:
	1600	DPRINTF("kvm_arch_handle_exit\n");
	1601	ret = kvm_arch_handle_exit(env, run);
	1602	break;
	1603	}
	1604	} while (ret == 0);
	1605
	1606	if (ret < 0) {
	1607	cpu_dump_state(env, stderr, fprintf, CPU_DUMP_CODE);
	1608	vm_stop(RUN_STATE_INTERNAL_ERROR);
	1609	}
	1610
	1611	env->exit_request = 0;
	1612	return ret;
	1613	}
	1614
	1615	int kvm_ioctl(KVMState *s, int type, ...)
	1616	{
	1617	int ret;
	1618	void *arg;
	1619	va_list ap;
	1620
	1621	va_start(ap, type);
	1622	arg = va_arg(ap, void *);
	1623	va_end(ap);
	1624
	1625	ret = ioctl(s->fd, type, arg);
	1626	if (ret == -1) {
	1627	ret = -errno;
	1628	}
	1629	return ret;
	1630	}
	1631
	1632	int kvm_vm_ioctl(KVMState *s, int type, ...)
	1633	{
	1634	int ret;
	1635	void *arg;
	1636	va_list ap;
	1637
	1638	va_start(ap, type);
	1639	arg = va_arg(ap, void *);
	1640	va_end(ap);
	1641
	1642	ret = ioctl(s->vmfd, type, arg);
	1643	if (ret == -1) {
	1644	ret = -errno;
	1645	}
	1646	return ret;
	1647	}
	1648
	1649	int kvm_vcpu_ioctl(CPUArchState *env, int type, ...)
	1650	{
	1651	int ret;
	1652	void *arg;
	1653	va_list ap;
	1654
	1655	va_start(ap, type);
	1656	arg = va_arg(ap, void *);
	1657	va_end(ap);
	1658
	1659	ret = ioctl(env->kvm_fd, type, arg);
	1660	if (ret == -1) {
	1661	ret = -errno;
	1662	}
	1663	return ret;
	1664	}
	1665
	1666	int kvm_has_sync_mmu(void)
	1667	{
	1668	return kvm_check_extension(kvm_state, KVM_CAP_SYNC_MMU);
	1669	}
	1670
	1671	int kvm_has_vcpu_events(void)
	1672	{
	1673	return kvm_state->vcpu_events;
	1674	}
	1675
	1676	int kvm_has_robust_singlestep(void)
	1677	{
	1678	return kvm_state->robust_singlestep;
	1679	}
	1680
	1681	int kvm_has_debugregs(void)
	1682	{
	1683	return kvm_state->debugregs;
	1684	}
	1685
	1686	int kvm_has_xsave(void)
	1687	{
	1688	return kvm_state->xsave;
	1689	}
	1690
	1691	int kvm_has_xcrs(void)
	1692	{
	1693	return kvm_state->xcrs;
	1694	}
	1695
	1696	int kvm_has_pit_state2(void)
	1697	{
	1698	return kvm_state->pit_state2;
	1699	}
	1700
	1701	int kvm_has_many_ioeventfds(void)
	1702	{
	1703	if (!kvm_enabled()) {
	1704	return 0;
	1705	}
	1706	return kvm_state->many_ioeventfds;
	1707	}
	1708
	1709	int kvm_has_gsi_routing(void)
	1710	{
	1711	#ifdef KVM_CAP_IRQ_ROUTING
	1712	return kvm_check_extension(kvm_state, KVM_CAP_IRQ_ROUTING);
	1713	#else
	1714	return false;
	1715	#endif
	1716	}
	1717
	1718	int kvm_has_intx_set_mask(void)
	1719	{
	1720	return kvm_state->intx_set_mask;
	1721	}
	1722
	1723	void *kvm_vmalloc(ram_addr_t size)
	1724	{
	1725	#ifdef TARGET_S390X
	1726	void *mem;
	1727
	1728	mem = kvm_arch_vmalloc(size);
	1729	if (mem) {
	1730	return mem;
	1731	}
	1732	#endif
	1733	return qemu_vmalloc(size);
	1734	}
	1735
	1736	void kvm_setup_guest_memory(void *start, size_t size)
	1737	{
	1738	#ifdef CONFIG_VALGRIND_H
	1739	VALGRIND_MAKE_MEM_DEFINED(start, size);
	1740	#endif
	1741	if (!kvm_has_sync_mmu()) {
	1742	int ret = qemu_madvise(start, size, QEMU_MADV_DONTFORK);
	1743
	1744	if (ret) {
	1745	perror("qemu_madvise");
	1746	fprintf(stderr,
	1747	"Need MADV_DONTFORK in absence of synchronous KVM MMU\n");
	1748	exit(1);
	1749	}
	1750	}
	1751	}
	1752
	1753	#ifdef KVM_CAP_SET_GUEST_DEBUG
	1754	struct kvm_sw_breakpoint kvm_find_sw_breakpoint(CPUArchState env,
	1755	target_ulong pc)
	1756	{
	1757	struct kvm_sw_breakpoint *bp;
	1758
	1759	QTAILQ_FOREACH(bp, &env->kvm_state->kvm_sw_breakpoints, entry) {
	1760	if (bp->pc == pc) {
	1761	return bp;
	1762	}
	1763	}
	1764	return NULL;
	1765	}
	1766
	1767	int kvm_sw_breakpoints_active(CPUArchState *env)
	1768	{
	1769	return !QTAILQ_EMPTY(&env->kvm_state->kvm_sw_breakpoints);
	1770	}
	1771
	1772	struct kvm_set_guest_debug_data {
	1773	struct kvm_guest_debug dbg;
	1774	CPUArchState *env;
	1775	int err;
	1776	};
	1777
	1778	static void kvm_invoke_set_guest_debug(void *data)
	1779	{
	1780	struct kvm_set_guest_debug_data *dbg_data = data;
	1781	CPUArchState *env = dbg_data->env;
	1782
	1783	dbg_data->err = kvm_vcpu_ioctl(env, KVM_SET_GUEST_DEBUG, &dbg_data->dbg);
	1784	}
	1785
	1786	int kvm_update_guest_debug(CPUArchState *env, unsigned long reinject_trap)
	1787	{
	1788	struct kvm_set_guest_debug_data data;
	1789
	1790	data.dbg.control = reinject_trap;
	1791
	1792	if (env->singlestep_enabled) {
	1793	data.dbg.control \|= KVM_GUESTDBG_ENABLE \| KVM_GUESTDBG_SINGLESTEP;
	1794	}
	1795	kvm_arch_update_guest_debug(env, &data.dbg);
	1796	data.env = env;
	1797
	1798	run_on_cpu(env, kvm_invoke_set_guest_debug, &data);
	1799	return data.err;
	1800	}
	1801
	1802	int kvm_insert_breakpoint(CPUArchState *current_env, target_ulong addr,
	1803	target_ulong len, int type)
	1804	{
	1805	struct kvm_sw_breakpoint *bp;
	1806	CPUArchState *env;
	1807	int err;
	1808
	1809	if (type == GDB_BREAKPOINT_SW) {
	1810	bp = kvm_find_sw_breakpoint(current_env, addr);
	1811	if (bp) {
	1812	bp->use_count++;
	1813	return 0;
	1814	}
	1815
	1816	bp = g_malloc(sizeof(struct kvm_sw_breakpoint));
	1817	if (!bp) {
	1818	return -ENOMEM;
	1819	}
	1820
	1821	bp->pc = addr;
	1822	bp->use_count = 1;
	1823	err = kvm_arch_insert_sw_breakpoint(current_env, bp);
	1824	if (err) {
	1825	g_free(bp);
	1826	return err;
	1827	}
	1828
	1829	QTAILQ_INSERT_HEAD(&current_env->kvm_state->kvm_sw_breakpoints,
	1830	bp, entry);
	1831	} else {
	1832	err = kvm_arch_insert_hw_breakpoint(addr, len, type);
	1833	if (err) {
	1834	return err;
	1835	}
	1836	}
	1837
	1838	for (env = first_cpu; env != NULL; env = env->next_cpu) {
	1839	err = kvm_update_guest_debug(env, 0);
	1840	if (err) {
	1841	return err;
	1842	}
	1843	}
	1844	return 0;
	1845	}
	1846
	1847	int kvm_remove_breakpoint(CPUArchState *current_env, target_ulong addr,
	1848	target_ulong len, int type)
	1849	{
	1850	struct kvm_sw_breakpoint *bp;
	1851	CPUArchState *env;
	1852	int err;
	1853
	1854	if (type == GDB_BREAKPOINT_SW) {
	1855	bp = kvm_find_sw_breakpoint(current_env, addr);
	1856	if (!bp) {
	1857	return -ENOENT;
	1858	}
	1859
	1860	if (bp->use_count > 1) {
	1861	bp->use_count--;
	1862	return 0;
	1863	}
	1864
	1865	err = kvm_arch_remove_sw_breakpoint(current_env, bp);
	1866	if (err) {
	1867	return err;
	1868	}
	1869
	1870	QTAILQ_REMOVE(&current_env->kvm_state->kvm_sw_breakpoints, bp, entry);
	1871	g_free(bp);
	1872	} else {
	1873	err = kvm_arch_remove_hw_breakpoint(addr, len, type);
	1874	if (err) {
	1875	return err;
	1876	}
	1877	}
	1878
	1879	for (env = first_cpu; env != NULL; env = env->next_cpu) {
	1880	err = kvm_update_guest_debug(env, 0);
	1881	if (err) {
	1882	return err;
	1883	}
	1884	}
	1885	return 0;
	1886	}
	1887
	1888	void kvm_remove_all_breakpoints(CPUArchState *current_env)
	1889	{
	1890	struct kvm_sw_breakpoint bp, next;
	1891	KVMState *s = current_env->kvm_state;
	1892	CPUArchState *env;
	1893
	1894	QTAILQ_FOREACH_SAFE(bp, &s->kvm_sw_breakpoints, entry, next) {
	1895	if (kvm_arch_remove_sw_breakpoint(current_env, bp) != 0) {
	1896	/* Try harder to find a CPU that currently sees the breakpoint. */
	1897	for (env = first_cpu; env != NULL; env = env->next_cpu) {
	1898	if (kvm_arch_remove_sw_breakpoint(env, bp) == 0) {
	1899	break;
	1900	}
	1901	}
	1902	}
	1903	}
	1904	kvm_arch_remove_all_hw_breakpoints();
	1905
	1906	for (env = first_cpu; env != NULL; env = env->next_cpu) {
	1907	kvm_update_guest_debug(env, 0);
	1908	}
	1909	}
	1910
	1911	#else /* !KVM_CAP_SET_GUEST_DEBUG */
	1912
	1913	int kvm_update_guest_debug(CPUArchState *env, unsigned long reinject_trap)
	1914	{
	1915	return -EINVAL;
	1916	}
	1917
	1918	int kvm_insert_breakpoint(CPUArchState *current_env, target_ulong addr,
	1919	target_ulong len, int type)
	1920	{
	1921	return -EINVAL;
	1922	}
	1923
	1924	int kvm_remove_breakpoint(CPUArchState *current_env, target_ulong addr,
	1925	target_ulong len, int type)
	1926	{
	1927	return -EINVAL;
	1928	}
	1929
	1930	void kvm_remove_all_breakpoints(CPUArchState *current_env)
	1931	{
	1932	}
	1933	#endif /* !KVM_CAP_SET_GUEST_DEBUG */
	1934
	1935	int kvm_set_signal_mask(CPUArchState env, const sigset_t sigset)
	1936	{
	1937	struct kvm_signal_mask *sigmask;
	1938	int r;
	1939
	1940	if (!sigset) {
	1941	return kvm_vcpu_ioctl(env, KVM_SET_SIGNAL_MASK, NULL);
	1942	}
	1943
	1944	sigmask = g_malloc(sizeof(sigmask) + sizeof(sigset));
	1945
	1946	sigmask->len = 8;
	1947	memcpy(sigmask->sigset, sigset, sizeof(*sigset));
	1948	r = kvm_vcpu_ioctl(env, KVM_SET_SIGNAL_MASK, sigmask);
	1949	g_free(sigmask);
	1950
	1951	return r;
	1952	}
	1953
	1954	int kvm_set_ioeventfd_mmio(int fd, uint32_t addr, uint32_t val, bool assign,
	1955	uint32_t size)
	1956	{
	1957	int ret;
	1958	struct kvm_ioeventfd iofd;
	1959
	1960	iofd.datamatch = val;
	1961	iofd.addr = addr;
	1962	iofd.len = size;
	1963	iofd.flags = KVM_IOEVENTFD_FLAG_DATAMATCH;
	1964	iofd.fd = fd;
	1965
	1966	if (!kvm_enabled()) {
	1967	return -ENOSYS;
	1968	}
	1969
	1970	if (!assign) {
	1971	iofd.flags \|= KVM_IOEVENTFD_FLAG_DEASSIGN;
	1972	}
	1973
	1974	ret = kvm_vm_ioctl(kvm_state, KVM_IOEVENTFD, &iofd);
	1975
	1976	if (ret < 0) {
	1977	return -errno;
	1978	}
	1979
	1980	return 0;
	1981	}
	1982
	1983	int kvm_set_ioeventfd_pio_word(int fd, uint16_t addr, uint16_t val, bool assign)
	1984	{
	1985	struct kvm_ioeventfd kick = {
	1986	.datamatch = val,
	1987	.addr = addr,
	1988	.len = 2,
	1989	.flags = KVM_IOEVENTFD_FLAG_DATAMATCH \| KVM_IOEVENTFD_FLAG_PIO,
	1990	.fd = fd,
	1991	};
	1992	int r;
	1993	if (!kvm_enabled()) {
	1994	return -ENOSYS;
	1995	}
	1996	if (!assign) {
	1997	kick.flags \|= KVM_IOEVENTFD_FLAG_DEASSIGN;
	1998	}
	1999	r = kvm_vm_ioctl(kvm_state, KVM_IOEVENTFD, &kick);
	2000	if (r < 0) {
	2001	return r;
	2002	}
	2003	return 0;
	2004	}
	2005
	2006	int kvm_on_sigbus_vcpu(CPUArchState env, int code, void addr)
	2007	{
	2008	return kvm_arch_on_sigbus_vcpu(env, code, addr);
	2009	}
	2010
	2011	int kvm_on_sigbus(int code, void *addr)
	2012	{
	2013	return kvm_arch_on_sigbus(code, addr);
	2014	}