target-i386: Implement BNDCL, BNDCU, BNDCN

[qemu.git] / target-i386 / kvm.c
diff --git a/target-i386/kvm.c b/target-i386/kvm.c

index 7692b5984d6ad4dfa6eba94cc3244644bb1f3983..7974acb399f7a46350366198d7d994d7c88ee337 100644 (file)
--- a/target-i386/kvm.c
+++ b/target-i386/kvm.c
@@ -12,7 +12,7 @@
   *
   */
  
-#include <sys/types.h>
+#include "qemu/osdep.h"
  #include <sys/ioctl.h>
  #include <sys/mman.h>
  #include <sys/utsname.h>
@@ -39,6 +39,7 @@
  #include "exec/ioport.h"
  #include "standard-headers/asm-x86/hyperv.h"
  #include "hw/pci/pci.h"
+#include "hw/pci/msi.h"
  #include "migration/migration.h"
  #include "exec/memattrs.h"
  
@@ -531,6 +532,36 @@ static bool hyperv_enabled(X86CPU *cpu)
              cpu->hyperv_stimer);
  }
  
+static int kvm_arch_set_tsc_khz(CPUState *cs)
+{
+    X86CPU *cpu = X86_CPU(cs);
+    CPUX86State *env = &cpu->env;
+    int r;
+
+    if (!env->tsc_khz) {
+        return 0;
+    }
+
+    r = kvm_check_extension(cs->kvm_state, KVM_CAP_TSC_CONTROL) ?
+        kvm_vcpu_ioctl(cs, KVM_SET_TSC_KHZ, env->tsc_khz) :
+        -ENOTSUP;
+    if (r < 0) {
+        /* When KVM_SET_TSC_KHZ fails, it's an error only if the current
+         * TSC frequency doesn't match the one we want.
+         */
+        int cur_freq = kvm_check_extension(cs->kvm_state, KVM_CAP_GET_TSC_KHZ) ?
+                       kvm_vcpu_ioctl(cs, KVM_GET_TSC_KHZ) :
+                       -ENOTSUP;
+        if (cur_freq <= 0 || cur_freq != env->tsc_khz) {
+            error_report("warning: TSC frequency mismatch between "
+                         "VM and host, and TSC scaling unavailable");
+            return r;
+        }
+    }
+
+    return 0;
+}
+
  static Error *invtsc_mig_blocker;
  
  #define KVM_MAX_CPUID_ENTRIES  100
@@ -858,12 +889,22 @@ int kvm_arch_init_vcpu(CPUState *cs)
          return r;
      }
  
-    r = kvm_check_extension(cs->kvm_state, KVM_CAP_TSC_CONTROL);
-    if (r && env->tsc_khz) {
-        r = kvm_vcpu_ioctl(cs, KVM_SET_TSC_KHZ, env->tsc_khz);
-        if (r < 0) {
-            fprintf(stderr, "KVM_SET_TSC_KHZ failed\n");
-            return r;
+    r = kvm_arch_set_tsc_khz(cs);
+    if (r < 0) {
+        return r;
+    }
+
+    /* vcpu's TSC frequency is either specified by user, or following
+     * the value used by KVM if the former is not present. In the
+     * latter case, we query it from KVM and record in env->tsc_khz,
+     * so that vcpu's TSC frequency can be migrated later via this field.
+     */
+    if (!env->tsc_khz) {
+        r = kvm_check_extension(cs->kvm_state, KVM_CAP_GET_TSC_KHZ) ?
+            kvm_vcpu_ioctl(cs, KVM_GET_TSC_KHZ) :
+            -ENOTSUP;
+        if (r > 0) {
+            env->tsc_khz = r;
          }
      }
  
@@ -1144,7 +1185,7 @@ static void set_seg(struct kvm_segment *lhs, const SegmentCache *rhs)
      lhs->l = (flags >> DESC_L_SHIFT) & 1;
      lhs->g = (flags & DESC_G_MASK) != 0;
      lhs->avl = (flags & DESC_AVL_MASK) != 0;
-    lhs->unusable = 0;
+    lhs->unusable = !lhs->present;
      lhs->padding = 0;
  }
  
@@ -1153,14 +1194,18 @@ static void get_seg(SegmentCache *lhs, const struct kvm_segment *rhs)
      lhs->selector = rhs->selector;
      lhs->base = rhs->base;
      lhs->limit = rhs->limit;
-    lhs->flags = (rhs->type << DESC_TYPE_SHIFT) |
-                 (rhs->present * DESC_P_MASK) |
-                 (rhs->dpl << DESC_DPL_SHIFT) |
-                 (rhs->db << DESC_B_SHIFT) |
-                 (rhs->s * DESC_S_MASK) |
-                 (rhs->l << DESC_L_SHIFT) |
-                 (rhs->g * DESC_G_MASK) |
-                 (rhs->avl * DESC_AVL_MASK);
+    if (rhs->unusable) {
+        lhs->flags = 0;
+    } else {
+        lhs->flags = (rhs->type << DESC_TYPE_SHIFT) |
+                     (rhs->present * DESC_P_MASK) |
+                     (rhs->dpl << DESC_DPL_SHIFT) |
+                     (rhs->db << DESC_B_SHIFT) |
+                     (rhs->s * DESC_S_MASK) |
+                     (rhs->l << DESC_L_SHIFT) |
+                     (rhs->g * DESC_G_MASK) |
+                     (rhs->avl * DESC_AVL_MASK);
+    }
  }
  
  static void kvm_getput_reg(__u64 *kvm_reg, target_ulong *qemu_reg, int set)
@@ -1232,8 +1277,8 @@ static int kvm_put_fpu(X86CPU *cpu)
      }
      memcpy(fpu.fpr, env->fpregs, sizeof env->fpregs);
      for (i = 0; i < CPU_NB_REGS; i++) {
-        stq_p(&fpu.xmm[i][0], env->xmm_regs[i].XMM_Q(0));
-        stq_p(&fpu.xmm[i][8], env->xmm_regs[i].XMM_Q(1));
+        stq_p(&fpu.xmm[i][0], env->xmm_regs[i].ZMM_Q(0));
+        stq_p(&fpu.xmm[i][8], env->xmm_regs[i].ZMM_Q(1));
      }
      fpu.mxcsr = env->mxcsr;
  
@@ -1254,6 +1299,7 @@ static int kvm_put_fpu(X86CPU *cpu)
  #define XSAVE_OPMASK      272
  #define XSAVE_ZMM_Hi256   288
  #define XSAVE_Hi16_ZMM    416
+#define XSAVE_PKRU        672
  
  static int kvm_put_xsave(X86CPU *cpu)
  {
@@ -1294,19 +1340,20 @@ static int kvm_put_xsave(X86CPU *cpu)
      ymmh = (uint8_t *)&xsave->region[XSAVE_YMMH_SPACE];
      zmmh = (uint8_t *)&xsave->region[XSAVE_ZMM_Hi256];
      for (i = 0; i < CPU_NB_REGS; i++, xmm += 16, ymmh += 16, zmmh += 32) {
-        stq_p(xmm,     env->xmm_regs[i].XMM_Q(0));
-        stq_p(xmm+8,   env->xmm_regs[i].XMM_Q(1));
-        stq_p(ymmh,    env->xmm_regs[i].XMM_Q(2));
-        stq_p(ymmh+8,  env->xmm_regs[i].XMM_Q(3));
-        stq_p(zmmh,    env->xmm_regs[i].XMM_Q(4));
-        stq_p(zmmh+8,  env->xmm_regs[i].XMM_Q(5));
-        stq_p(zmmh+16, env->xmm_regs[i].XMM_Q(6));
-        stq_p(zmmh+24, env->xmm_regs[i].XMM_Q(7));
+        stq_p(xmm,     env->xmm_regs[i].ZMM_Q(0));
+        stq_p(xmm+8,   env->xmm_regs[i].ZMM_Q(1));
+        stq_p(ymmh,    env->xmm_regs[i].ZMM_Q(2));
+        stq_p(ymmh+8,  env->xmm_regs[i].ZMM_Q(3));
+        stq_p(zmmh,    env->xmm_regs[i].ZMM_Q(4));
+        stq_p(zmmh+8,  env->xmm_regs[i].ZMM_Q(5));
+        stq_p(zmmh+16, env->xmm_regs[i].ZMM_Q(6));
+        stq_p(zmmh+24, env->xmm_regs[i].ZMM_Q(7));
      }
  
  #ifdef TARGET_X86_64
      memcpy(&xsave->region[XSAVE_Hi16_ZMM], &env->xmm_regs[16],
              16 * sizeof env->xmm_regs[16]);
+    memcpy(&xsave->region[XSAVE_PKRU], &env->pkru, sizeof env->pkru);
  #endif
      r = kvm_vcpu_ioctl(CPU(cpu), KVM_SET_XSAVE, xsave);
      return r;
@@ -1660,8 +1707,8 @@ static int kvm_get_fpu(X86CPU *cpu)
      }
      memcpy(env->fpregs, fpu.fpr, sizeof env->fpregs);
      for (i = 0; i < CPU_NB_REGS; i++) {
-        env->xmm_regs[i].XMM_Q(0) = ldq_p(&fpu.xmm[i][0]);
-        env->xmm_regs[i].XMM_Q(1) = ldq_p(&fpu.xmm[i][8]);
+        env->xmm_regs[i].ZMM_Q(0) = ldq_p(&fpu.xmm[i][0]);
+        env->xmm_regs[i].ZMM_Q(1) = ldq_p(&fpu.xmm[i][8]);
      }
      env->mxcsr = fpu.mxcsr;
  
@@ -1712,19 +1759,20 @@ static int kvm_get_xsave(X86CPU *cpu)
      ymmh = (const uint8_t *)&xsave->region[XSAVE_YMMH_SPACE];
      zmmh = (const uint8_t *)&xsave->region[XSAVE_ZMM_Hi256];
      for (i = 0; i < CPU_NB_REGS; i++, xmm += 16, ymmh += 16, zmmh += 32) {
-        env->xmm_regs[i].XMM_Q(0) = ldq_p(xmm);
-        env->xmm_regs[i].XMM_Q(1) = ldq_p(xmm+8);
-        env->xmm_regs[i].XMM_Q(2) = ldq_p(ymmh);
-        env->xmm_regs[i].XMM_Q(3) = ldq_p(ymmh+8);
-        env->xmm_regs[i].XMM_Q(4) = ldq_p(zmmh);
-        env->xmm_regs[i].XMM_Q(5) = ldq_p(zmmh+8);
-        env->xmm_regs[i].XMM_Q(6) = ldq_p(zmmh+16);
-        env->xmm_regs[i].XMM_Q(7) = ldq_p(zmmh+24);
+        env->xmm_regs[i].ZMM_Q(0) = ldq_p(xmm);
+        env->xmm_regs[i].ZMM_Q(1) = ldq_p(xmm+8);
+        env->xmm_regs[i].ZMM_Q(2) = ldq_p(ymmh);
+        env->xmm_regs[i].ZMM_Q(3) = ldq_p(ymmh+8);
+        env->xmm_regs[i].ZMM_Q(4) = ldq_p(zmmh);
+        env->xmm_regs[i].ZMM_Q(5) = ldq_p(zmmh+8);
+        env->xmm_regs[i].ZMM_Q(6) = ldq_p(zmmh+16);
+        env->xmm_regs[i].ZMM_Q(7) = ldq_p(zmmh+24);
      }
  
  #ifdef TARGET_X86_64
      memcpy(&env->xmm_regs[16], &xsave->region[XSAVE_Hi16_ZMM],
             16 * sizeof env->xmm_regs[16]);
+    memcpy(&env->pkru, &xsave->region[XSAVE_PKRU], sizeof env->pkru);
  #endif
      return 0;
  }
@@ -1807,13 +1855,16 @@ static int kvm_get_sregs(X86CPU *cpu)
         HF_OSFXSR_MASK | HF_LMA_MASK | HF_CS32_MASK | \
         HF_SS32_MASK | HF_CS64_MASK | HF_ADDSEG_MASK)
  
-    hflags = (env->segs[R_SS].flags >> DESC_DPL_SHIFT) & HF_CPL_MASK;
+    hflags = env->hflags & HFLAG_COPY_MASK;
+    hflags |= (env->segs[R_SS].flags >> DESC_DPL_SHIFT) & HF_CPL_MASK;
      hflags |= (env->cr[0] & CR0_PE_MASK) << (HF_PE_SHIFT - CR0_PE_SHIFT);
      hflags |= (env->cr[0] << (HF_MP_SHIFT - CR0_MP_SHIFT)) &
                  (HF_MP_MASK | HF_EM_MASK | HF_TS_MASK);
      hflags |= (env->eflags & (HF_TF_MASK | HF_VM_MASK | HF_IOPL_MASK));
-    hflags |= (env->cr[4] & CR4_OSFXSR_MASK) <<
-                (HF_OSFXSR_SHIFT - CR4_OSFXSR_SHIFT);
+
+    if (env->cr[4] & CR4_OSFXSR_MASK) {
+        hflags |= HF_OSFXSR_MASK;
+    }
  
      if (env->efer & MSR_EFER_LMA) {
          hflags |= HF_LMA_MASK;
@@ -1834,7 +1885,7 @@ static int kvm_get_sregs(X86CPU *cpu)
                          env->segs[R_SS].base) != 0) << HF_ADDSEG_SHIFT;
          }
      }
-    env->hflags = (env->hflags & HFLAG_COPY_MASK) | hflags;
+    env->hflags = hflags;
  
      return 0;
  }
@@ -2462,6 +2513,15 @@ int kvm_arch_put_registers(CPUState *cpu, int level)
          }
      }
  
+    if (level == KVM_PUT_FULL_STATE) {
+        /* We don't check for kvm_arch_set_tsc_khz() errors here,
+         * because TSC frequency mismatch shouldn't abort migration,
+         * unless the user explicitly asked for a more strict TSC
+         * setting (e.g. using an explicit "tsc-freq" option).
+         */
+        kvm_arch_set_tsc_khz(cpu);
+    }
+
      ret = kvm_getput_regs(x86_cpu, 1);
      if (ret < 0) {
          return ret;
@@ -2528,41 +2588,44 @@ int kvm_arch_get_registers(CPUState *cs)
  
      ret = kvm_getput_regs(cpu, 0);
      if (ret < 0) {
-        return ret;
+        goto out;
      }
      ret = kvm_get_xsave(cpu);
      if (ret < 0) {
-        return ret;
+        goto out;
      }
      ret = kvm_get_xcrs(cpu);
      if (ret < 0) {
-        return ret;
+        goto out;
      }
      ret = kvm_get_sregs(cpu);
      if (ret < 0) {
-        return ret;
+        goto out;
      }
      ret = kvm_get_msrs(cpu);
      if (ret < 0) {
-        return ret;
+        goto out;
      }
      ret = kvm_get_mp_state(cpu);
      if (ret < 0) {
-        return ret;
+        goto out;
      }
      ret = kvm_get_apic(cpu);
      if (ret < 0) {
-        return ret;
+        goto out;
      }
      ret = kvm_get_vcpu_events(cpu);
      if (ret < 0) {
-        return ret;
+        goto out;
      }
      ret = kvm_get_debugregs(cpu);
      if (ret < 0) {
-        return ret;
+        goto out;
      }
-    return 0;
+    ret = 0;
+ out:
+    cpu_sync_bndcs_hflags(&cpu->env);
+    return ret;
  }
  
  void kvm_arch_pre_run(CPUState *cpu, struct kvm_run *run)
@@ -2597,7 +2660,7 @@ void kvm_arch_pre_run(CPUState *cpu, struct kvm_run *run)
          }
      }
  
-    if (!kvm_irqchip_in_kernel()) {
+    if (!kvm_pic_in_kernel()) {
          qemu_mutex_lock_iothread();
      }
  
@@ -2615,7 +2678,7 @@ void kvm_arch_pre_run(CPUState *cpu, struct kvm_run *run)
          }
      }
  
-    if (!kvm_irqchip_in_kernel()) {
+    if (!kvm_pic_in_kernel()) {
          /* Try to inject an interrupt if the guest can accept it */
          if (run->ready_for_interrupt_injection &&
              (cpu->interrupt_request & CPU_INTERRUPT_HARD) &&
@@ -3017,6 +3080,10 @@ int kvm_arch_handle_exit(CPUState *cs, struct kvm_run *run)
      case KVM_EXIT_HYPERV:
          ret = kvm_hv_handle_exit(cpu, &run->hyperv);
          break;
+    case KVM_EXIT_IOAPIC_EOI:
+        ioapic_eoi_broadcast(run->eoi.vector);
+        ret = 0;
+        break;
      default:
          fprintf(stderr, "KVM: unknown exit reason %d\n", run->exit_reason);
          ret = -1;
@@ -3051,6 +3118,39 @@ void kvm_arch_init_irq_routing(KVMState *s)
       */
      kvm_msi_via_irqfd_allowed = true;
      kvm_gsi_routing_allowed = true;
+
+    if (kvm_irqchip_is_split()) {
+        int i;
+
+        /* If the ioapic is in QEMU and the lapics are in KVM, reserve
+           MSI routes for signaling interrupts to the local apics. */
+        for (i = 0; i < IOAPIC_NUM_PINS; i++) {
+            struct MSIMessage msg = { 0x0, 0x0 };
+            if (kvm_irqchip_add_msi_route(s, msg, NULL) < 0) {
+                error_report("Could not enable split IRQ mode.");
+                exit(1);
+            }
+        }
+    }
+}
+
+int kvm_arch_irqchip_create(MachineState *ms, KVMState *s)
+{
+    int ret;
+    if (machine_kernel_irqchip_split(ms)) {
+        ret = kvm_vm_enable_cap(s, KVM_CAP_SPLIT_IRQCHIP, 0, 24);
+        if (ret) {
+            error_report("Could not enable split irqchip mode: %s\n",
+                         strerror(-ret));
+            exit(1);
+        } else {
+            DPRINTF("Enabled KVM_CAP_SPLIT_IRQCHIP\n");
+            kvm_split_irqchip = true;
+            return 1;
+        }
+    } else {
+        return 0;
+    }
  }
  
  /* Classic KVM device assignment interface. Will remain x86 only. */