spapr: Set VSMT to smp_threads by default

[qemu.git] / hw / ppc / spapr.c
diff --git a/hw/ppc/spapr.c b/hw/ppc/spapr.c

index e2b33e5890ae4ac6865c20276c0ca6641c06ff3f..428b834f306e0485247635c65198f89bb095501b 100644 (file)
--- a/hw/ppc/spapr.c
+++ b/hw/ppc/spapr.c
@@ -22,15 +22,18 @@
   * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
   * OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN
   * THE SOFTWARE.
- *
   */
+
  #include "qemu/osdep.h"
+#include "qemu-common.h"
  #include "qapi/error.h"
  #include "qapi/visitor.h"
  #include "sysemu/sysemu.h"
+#include "sysemu/hostmem.h"
  #include "sysemu/numa.h"
  #include "sysemu/qtest.h"
-#include "hw/hw.h"
+#include "sysemu/reset.h"
+#include "sysemu/runstate.h"
  #include "qemu/log.h"
  #include "hw/fw-path-provider.h"
  #include "elf.h"
@@ -40,12 +43,13 @@
  #include "sysemu/hw_accel.h"
  #include "kvm_ppc.h"
  #include "migration/misc.h"
+#include "migration/qemu-file-types.h"
  #include "migration/global_state.h"
  #include "migration/register.h"
  #include "mmu-hash64.h"
  #include "mmu-book3s-v3.h"
  #include "cpu-models.h"
-#include "qom/cpu.h"
+#include "hw/core/cpu.h"
  
  #include "hw/boards.h"
  #include "hw/ppc/ppc.h"
@@ -54,6 +58,7 @@
  #include "hw/ppc/fdt.h"
  #include "hw/ppc/spapr.h"
  #include "hw/ppc/spapr_vio.h"
+#include "hw/qdev-properties.h"
  #include "hw/pci-host/spapr.h"
  #include "hw/pci/msi.h"
  
@@ -74,6 +79,9 @@
  #include "qemu/cutils.h"
  #include "hw/ppc/spapr_cpu_core.h"
  #include "hw/mem/memory-device.h"
+#include "hw/ppc/spapr_tpm_proxy.h"
+
+#include "monitor/monitor.h"
  
  #include <libfdt.h>
  
@@ -88,7 +96,6 @@
   * We load our kernel at 4M, leaving space for SLOF initial image
   */
  #define FDT_MAX_SIZE            0x100000
-#define RTAS_MAX_SIZE           0x10000
  #define RTAS_MAX_ADDR           0x80000000 /* RTAS must stay below that */
  #define FW_MAX_SIZE             0x400000
  #define FW_FILE_NAME            "slof.bin"
@@ -105,6 +112,9 @@
   */
  static int spapr_vcpu_id(SpaprMachineState *spapr, int cpu_index)
  {
+    MachineState *ms = MACHINE(spapr);
+    unsigned int smp_threads = ms->smp.threads;
+
      assert(spapr->vsmt);
      return
          (cpu_index / smp_threads) * spapr->vsmt + cpu_index % smp_threads;
@@ -152,8 +162,10 @@ static void pre_2_10_vmstate_unregister_dummy_icp(int i)
  
  int spapr_max_server_number(SpaprMachineState *spapr)
  {
+    MachineState *ms = MACHINE(spapr);
+
      assert(spapr->vsmt);
-    return DIV_ROUND_UP(max_cpus * spapr->vsmt, smp_threads);
+    return DIV_ROUND_UP(ms->smp.max_cpus * spapr->vsmt, ms->smp.threads);
  }
  
  static int spapr_fixup_cpu_smt_dt(void *fdt, int offset, PowerPCCPU *cpu,
@@ -207,8 +219,7 @@ static int spapr_fixup_cpu_numa_dt(void *fdt, int offset, PowerPCCPU *cpu)
  /* Populate the "ibm,pa-features" property */
  static void spapr_populate_pa_features(SpaprMachineState *spapr,
                                         PowerPCCPU *cpu,
-                                       void *fdt, int offset,
-                                       bool legacy_guest)
+                                       void *fdt, int offset)
  {
      uint8_t pa_features_206[] = { 6, 0,
          0xf6, 0x1f, 0xc7, 0x00, 0x80, 0xc0 };
@@ -274,7 +285,7 @@ static void spapr_populate_pa_features(SpaprMachineState *spapr,
      if ((spapr_get_cap(spapr, SPAPR_CAP_HTM) != 0) && pa_size > 24) {
          pa_features[24] |= 0x80;    /* Transactional memory support */
      }
-    if (legacy_guest && pa_size > 40) {
+    if (spapr->cas_pre_isa3_guest && pa_size > 40) {
          /* Workaround for broken kernels that attempt (guest) radix
           * mode when they can't handle it, if they see the radix bit set
           * in pa-features. So hide it from them. */
@@ -284,71 +295,13 @@ static void spapr_populate_pa_features(SpaprMachineState *spapr,
      _FDT((fdt_setprop(fdt, offset, "ibm,pa-features", pa_features, pa_size)));
  }
  
-static int spapr_fixup_cpu_dt(void *fdt, SpaprMachineState *spapr)
-{
-    int ret = 0, offset, cpus_offset;
-    CPUState *cs;
-    char cpu_model[32];
-    uint32_t pft_size_prop[] = {0, cpu_to_be32(spapr->htab_shift)};
-
-    CPU_FOREACH(cs) {
-        PowerPCCPU *cpu = POWERPC_CPU(cs);
-        DeviceClass *dc = DEVICE_GET_CLASS(cs);
-        int index = spapr_get_vcpu_id(cpu);
-        int compat_smt = MIN(smp_threads, ppc_compat_max_vthreads(cpu));
-
-        if (!spapr_is_thread0_in_vcore(spapr, cpu)) {
-            continue;
-        }
-
-        snprintf(cpu_model, 32, "%s@%x", dc->fw_name, index);
-
-        cpus_offset = fdt_path_offset(fdt, "/cpus");
-        if (cpus_offset < 0) {
-            cpus_offset = fdt_add_subnode(fdt, 0, "cpus");
-            if (cpus_offset < 0) {
-                return cpus_offset;
-            }
-        }
-        offset = fdt_subnode_offset(fdt, cpus_offset, cpu_model);
-        if (offset < 0) {
-            offset = fdt_add_subnode(fdt, cpus_offset, cpu_model);
-            if (offset < 0) {
-                return offset;
-            }
-        }
-
-        ret = fdt_setprop(fdt, offset, "ibm,pft-size",
-                          pft_size_prop, sizeof(pft_size_prop));
-        if (ret < 0) {
-            return ret;
-        }
-
-        if (nb_numa_nodes > 1) {
-            ret = spapr_fixup_cpu_numa_dt(fdt, offset, cpu);
-            if (ret < 0) {
-                return ret;
-            }
-        }
-
-        ret = spapr_fixup_cpu_smt_dt(fdt, offset, cpu, compat_smt);
-        if (ret < 0) {
-            return ret;
-        }
-
-        spapr_populate_pa_features(spapr, cpu, fdt, offset,
-                                   spapr->cas_legacy_guest_workaround);
-    }
-    return ret;
-}
-
  static hwaddr spapr_node0_size(MachineState *machine)
  {
-    if (nb_numa_nodes) {
+    if (machine->numa_state->num_nodes) {
          int i;
-        for (i = 0; i < nb_numa_nodes; ++i) {
-            if (numa_info[i].node_mem) {
-                return MIN(pow2floor(numa_info[i].node_mem),
+        for (i = 0; i < machine->numa_state->num_nodes; ++i) {
+            if (machine->numa_state->nodes[i].node_mem) {
+                return MIN(pow2floor(machine->numa_state->nodes[i].node_mem),
                             machine->ram_size);
              }
          }
@@ -376,7 +329,7 @@ static int spapr_populate_memory_node(void *fdt, int nodeid, hwaddr start,
      mem_reg_property[0] = cpu_to_be64(start);
      mem_reg_property[1] = cpu_to_be64(size);
  
-    sprintf(mem_name, "memory@" TARGET_FMT_lx, start);
+    sprintf(mem_name, "memory@%" HWADDR_PRIx, start);
      off = fdt_add_subnode(fdt, 0, mem_name);
      _FDT(off);
      _FDT((fdt_setprop_string(fdt, off, "device_type", "memory")));
@@ -391,16 +344,8 @@ static int spapr_populate_memory(SpaprMachineState *spapr, void *fdt)
  {
      MachineState *machine = MACHINE(spapr);
      hwaddr mem_start, node_size;
-    int i, nb_nodes = nb_numa_nodes;
-    NodeInfo *nodes = numa_info;
-    NodeInfo ramnode;
-
-    /* No NUMA nodes, assume there is just one node with whole RAM */
-    if (!nb_numa_nodes) {
-        nb_nodes = 1;
-        ramnode.node_mem = machine->ram_size;
-        nodes = &ramnode;
-    }
+    int i, nb_nodes = machine->numa_state->num_nodes;
+    NodeInfo *nodes = machine->numa_state->nodes;
  
      for (i = 0, mem_start = 0; i < nb_nodes; ++i) {
          if (!nodes[i].node_mem) {
@@ -441,6 +386,7 @@ static int spapr_populate_memory(SpaprMachineState *spapr, void *fdt)
  static void spapr_populate_cpu_dt(CPUState *cs, void *fdt, int offset,
                                    SpaprMachineState *spapr)
  {
+    MachineState *ms = MACHINE(spapr);
      PowerPCCPU *cpu = POWERPC_CPU(cs);
      CPUPPCState *env = &cpu->env;
      PowerPCCPUClass *pcc = POWERPC_CPU_GET_CLASS(cs);
@@ -452,7 +398,8 @@ static void spapr_populate_cpu_dt(CPUState *cs, void *fdt, int offset,
      uint32_t cpufreq = kvm_enabled() ? kvmppc_get_clockfreq() : 1000000000;
      uint32_t page_sizes_prop[64];
      size_t page_sizes_prop_size;
-    uint32_t vcpus_per_socket = smp_threads * smp_cores;
+    unsigned int smp_threads = ms->smp.threads;
+    uint32_t vcpus_per_socket = smp_threads * ms->smp.cores;
      uint32_t pft_size_prop[] = {0, cpu_to_be32(spapr->htab_shift)};
      int compat_smt = MIN(smp_threads, ppc_compat_max_vthreads(cpu));
      SpaprDrc *drc;
@@ -537,7 +484,7 @@ static void spapr_populate_cpu_dt(CPUState *cs, void *fdt, int offset,
                            page_sizes_prop, page_sizes_prop_size)));
      }
  
-    spapr_populate_pa_features(spapr, cpu, fdt, offset, false);
+    spapr_populate_pa_features(spapr, cpu, fdt, offset);
  
      _FDT((fdt_setprop_cell(fdt, offset, "ibm,chip-id",
                             cs->cpu_index / vcpus_per_socket)));
@@ -545,7 +492,7 @@ static void spapr_populate_cpu_dt(CPUState *cs, void *fdt, int offset,
      _FDT((fdt_setprop(fdt, offset, "ibm,pft-size",
                        pft_size_prop, sizeof(pft_size_prop))));
  
-    if (nb_numa_nodes > 1) {
+    if (ms->numa_state->num_nodes > 1) {
          _FDT(spapr_fixup_cpu_numa_dt(fdt, offset, cpu));
      }
  
@@ -852,6 +799,7 @@ static int spapr_populate_drmem_v1(SpaprMachineState *spapr, void *fdt,
  static int spapr_populate_drconf_memory(SpaprMachineState *spapr, void *fdt)
  {
      MachineState *machine = MACHINE(spapr);
+    int nb_numa_nodes = machine->numa_state->num_nodes;
      int ret, i, offset;
      uint64_t lmb_size = SPAPR_MEMORY_BLOCK_SIZE;
      uint32_t prop_lmb_size[] = {0, cpu_to_be32(lmb_size)};
@@ -969,11 +917,13 @@ static bool spapr_hotplugged_dev_before_cas(void)
      return false;
  }
  
+static void *spapr_build_fdt(SpaprMachineState *spapr);
+
  int spapr_h_cas_compose_response(SpaprMachineState *spapr,
                                   target_ulong addr, target_ulong size,
                                   SpaprOptionVector *ov5_updates)
  {
-    void *fdt, *fdt_skel;
+    void *fdt;
      SpaprDeviceTreeUpdateHeader hdr = { .version_id = 1 };
  
      if (spapr_hotplugged_dev_before_cas()) {
@@ -989,28 +939,11 @@ int spapr_h_cas_compose_response(SpaprMachineState *spapr,
  
      size -= sizeof(hdr);
  
-    /* Create skeleton */
-    fdt_skel = g_malloc0(size);
-    _FDT((fdt_create(fdt_skel, size)));
-    _FDT((fdt_finish_reservemap(fdt_skel)));
-    _FDT((fdt_begin_node(fdt_skel, "")));
-    _FDT((fdt_end_node(fdt_skel)));
-    _FDT((fdt_finish(fdt_skel)));
-    fdt = g_malloc0(size);
-    _FDT((fdt_open_into(fdt_skel, fdt, size)));
-    g_free(fdt_skel);
-
-    /* Fixup cpu nodes */
-    _FDT((spapr_fixup_cpu_dt(fdt, spapr)));
-
-    if (spapr_dt_cas_updates(spapr, fdt, ov5_updates)) {
-        return -1;
-    }
-
-    /* Pack resulting tree */
+    fdt = spapr_build_fdt(spapr);
      _FDT((fdt_pack(fdt)));
  
      if (fdt_totalsize(fdt) + sizeof(hdr) > size) {
+        g_free(fdt);
          trace_spapr_cas_failed(size);
          return -1;
      }
@@ -1018,13 +951,18 @@ int spapr_h_cas_compose_response(SpaprMachineState *spapr,
      cpu_physical_memory_write(addr, &hdr, sizeof(hdr));
      cpu_physical_memory_write(addr + sizeof(hdr), fdt, fdt_totalsize(fdt));
      trace_spapr_cas_continue(fdt_totalsize(fdt) + sizeof(hdr));
-    g_free(fdt);
+
+    g_free(spapr->fdt_blob);
+    spapr->fdt_size = fdt_totalsize(fdt);
+    spapr->fdt_initial_size = spapr->fdt_size;
+    spapr->fdt_blob = fdt;
  
      return 0;
  }
  
  static void spapr_dt_rtas(SpaprMachineState *spapr, void *fdt)
  {
+    MachineState *ms = MACHINE(spapr);
      int rtas;
      GString *hypertas = g_string_sized_new(256);
      GString *qemu_hypertas = g_string_sized_new(256);
@@ -1035,7 +973,7 @@ static void spapr_dt_rtas(SpaprMachineState *spapr, void *fdt)
          cpu_to_be32(max_device_addr >> 32),
          cpu_to_be32(max_device_addr & 0xffffffff),
          0, cpu_to_be32(SPAPR_MEMORY_BLOCK_SIZE),
-        cpu_to_be32(max_cpus / smp_threads),
+        cpu_to_be32(ms->smp.max_cpus / ms->smp.threads),
      };
      uint32_t maxdomain = cpu_to_be32(spapr->gpu_numa_id > 1 ? 1 : 0);
      uint32_t maxdomains[] = {
@@ -1056,6 +994,7 @@ static void spapr_dt_rtas(SpaprMachineState *spapr, void *fdt)
      add_str(hypertas, "hcall-tce");
      add_str(hypertas, "hcall-vio");
      add_str(hypertas, "hcall-splpar");
+    add_str(hypertas, "hcall-join");
      add_str(hypertas, "hcall-bulk");
      add_str(hypertas, "hcall-set-mode");
      add_str(hypertas, "hcall-sprg0");
@@ -1119,19 +1058,28 @@ static void spapr_dt_ov5_platform_support(SpaprMachineState *spapr, void *fdt,
      PowerPCCPU *first_ppc_cpu = POWERPC_CPU(first_cpu);
  
      char val[2 * 4] = {
-        23, spapr->irq->ov5, /* Xive mode. */
+        23, 0x00, /* XICS / XIVE mode */
          24, 0x00, /* Hash/Radix, filled in below. */
          25, 0x00, /* Hash options: Segment Tables == no, GTSE == no. */
          26, 0x40, /* Radix options: GTSE == yes. */
      };
  
+    if (spapr->irq->xics && spapr->irq->xive) {
+        val[1] = SPAPR_OV5_XIVE_BOTH;
+    } else if (spapr->irq->xive) {
+        val[1] = SPAPR_OV5_XIVE_EXPLOIT;
+    } else {
+        assert(spapr->irq->xics);
+        val[1] = SPAPR_OV5_XIVE_LEGACY;
+    }
+
      if (!ppc_check_compat(first_ppc_cpu, CPU_POWERPC_LOGICAL_3_00, 0,
                            first_ppc_cpu->compat_pvr)) {
          /*
           * If we're in a pre POWER9 compat mode then the guest should
           * do hash and use the legacy interrupt mode
           */
-        val[1] = 0x00; /* XICS */
+        val[1] = SPAPR_OV5_XIVE_LEGACY; /* XICS */
          val[3] = 0x00; /* Hash */
      } else if (kvm_enabled()) {
          if (kvmppc_has_cap_mmu_radix() && kvmppc_has_cap_mmu_hash_v3()) {
@@ -1152,6 +1100,7 @@ static void spapr_dt_ov5_platform_support(SpaprMachineState *spapr, void *fdt,
  static void spapr_dt_chosen(SpaprMachineState *spapr, void *fdt)
  {
      MachineState *machine = MACHINE(spapr);
+    SpaprMachineClass *smc = SPAPR_MACHINE_GET_CLASS(machine);
      int chosen;
      const char *boot_device = machine->boot_order;
      char *stdout_path = spapr_vio_stdout_path(spapr->vio_bus);
@@ -1160,11 +1109,16 @@ static void spapr_dt_chosen(SpaprMachineState *spapr, void *fdt)
  
      _FDT(chosen = fdt_add_subnode(fdt, 0, "chosen"));
  
-    _FDT(fdt_setprop_string(fdt, chosen, "bootargs", machine->kernel_cmdline));
-    _FDT(fdt_setprop_cell(fdt, chosen, "linux,initrd-start",
-                          spapr->initrd_base));
-    _FDT(fdt_setprop_cell(fdt, chosen, "linux,initrd-end",
-                          spapr->initrd_base + spapr->initrd_size));
+    if (machine->kernel_cmdline && machine->kernel_cmdline[0]) {
+        _FDT(fdt_setprop_string(fdt, chosen, "bootargs",
+                                machine->kernel_cmdline));
+    }
+    if (spapr->initrd_size) {
+        _FDT(fdt_setprop_cell(fdt, chosen, "linux,initrd-start",
+                              spapr->initrd_base));
+        _FDT(fdt_setprop_cell(fdt, chosen, "linux,initrd-end",
+                              spapr->initrd_base + spapr->initrd_size));
+    }
  
      if (spapr->kernel_size) {
          uint64_t kprop[2] = { cpu_to_be64(KERNEL_LOAD_ADDR),
@@ -1209,6 +1163,11 @@ static void spapr_dt_chosen(SpaprMachineState *spapr, void *fdt)
          _FDT(fdt_setprop_string(fdt, chosen, "stdout-path", stdout_path));
      }
  
+    /* We can deal with BAR reallocation just fine, advertise it to the guest */
+    if (smc->linux_pci_probe) {
+        _FDT(fdt_setprop_cell(fdt, chosen, "linux,pci-probe-only", 0));
+    }
+
      spapr_dt_ov5_platform_support(spapr, fdt, chosen);
  
      g_free(stdout_path);
@@ -1309,8 +1268,7 @@ static void *spapr_build_fdt(SpaprMachineState *spapr)
      }
  
      QLIST_FOREACH(phb, &spapr->phbs, list) {
-        ret = spapr_populate_pci_dt(phb, PHANDLE_INTC, fdt,
-                                    spapr->irq->nr_msis, NULL);
+        ret = spapr_dt_phb(phb, PHANDLE_INTC, fdt, spapr->irq->nr_msis, NULL);
          if (ret < 0) {
              error_report("couldn't setup PCI devices in fdt");
              exit(1);
@@ -1321,13 +1279,12 @@ static void *spapr_build_fdt(SpaprMachineState *spapr)
      spapr_populate_cpus_dt_node(fdt, spapr);
  
      if (smc->dr_lmb_enabled) {
-        _FDT(spapr_drc_populate_dt(fdt, 0, NULL, SPAPR_DR_CONNECTOR_TYPE_LMB));
+        _FDT(spapr_dt_drc(fdt, 0, NULL, SPAPR_DR_CONNECTOR_TYPE_LMB));
      }
  
      if (mc->has_hotpluggable_cpus) {
          int offset = fdt_path_offset(fdt, "/cpus");
-        ret = spapr_drc_populate_dt(fdt, offset, NULL,
-                                    SPAPR_DR_CONNECTOR_TYPE_CPU);
+        ret = spapr_dt_drc(fdt, offset, NULL, SPAPR_DR_CONNECTOR_TYPE_CPU);
          if (ret < 0) {
              error_report("Couldn't set up CPU DR device tree properties");
              exit(1);
@@ -1364,7 +1321,7 @@ static void *spapr_build_fdt(SpaprMachineState *spapr)
      }
  
      if (smc->dr_phb_enabled) {
-        ret = spapr_drc_populate_dt(fdt, 0, NULL, SPAPR_DR_CONNECTOR_TYPE_PHB);
+        ret = spapr_dt_drc(fdt, 0, NULL, SPAPR_DR_CONNECTOR_TYPE_PHB);
          if (ret < 0) {
              error_report("Couldn't set up PHB DR device tree properties");
              exit(1);
@@ -1692,13 +1649,11 @@ static int spapr_reset_drcs(Object *child, void *opaque)
      return 0;
  }
  
-static void spapr_machine_reset(void)
+static void spapr_machine_reset(MachineState *machine)
  {
-    MachineState *machine = MACHINE(qdev_get_machine());
      SpaprMachineState *spapr = SPAPR_MACHINE(machine);
      PowerPCCPU *first_ppc_cpu;
-    uint32_t rtas_limit;
-    hwaddr rtas_addr, fdt_addr;
+    hwaddr fdt_addr;
      void *fdt;
      int rc;
  
@@ -1719,6 +1674,8 @@ static void spapr_machine_reset(void)
          spapr_setup_hpt_and_vrma(spapr);
      }
  
+    qemu_devices_reset();
+
      /*
       * If this reset wasn't generated by CAS, we should reset our
       * negotiated options and start from scratch
@@ -1727,25 +1684,9 @@ static void spapr_machine_reset(void)
          spapr_ovec_cleanup(spapr->ov5_cas);
          spapr->ov5_cas = spapr_ovec_new();
  
-        ppc_set_compat(first_ppc_cpu, spapr->max_compat_pvr, &error_fatal);
-    }
-
-    if (!SPAPR_MACHINE_GET_CLASS(spapr)->legacy_irq_allocation) {
-        spapr_irq_msi_reset(spapr);
+        ppc_set_compat_all(spapr->max_compat_pvr, &error_fatal);
      }
  
-    /*
-     * NVLink2-connected GPU RAM needs to be placed on a separate NUMA node.
-     * We assign a new numa ID per GPU in spapr_pci_collect_nvgpu() which is
-     * called from vPHB reset handler so we initialize the counter here.
-     * If no NUMA is configured from the QEMU side, we start from 1 as GPU RAM
-     * must be equally distant from any other node.
-     * The final value of spapr->gpu_numa_id is going to be written to
-     * max-associativity-domains in spapr_build_fdt().
-     */
-    spapr->gpu_numa_id = MAX(1, nb_numa_nodes);
-    qemu_devices_reset();
-
      /*
       * This is fixing some of the default configuration of the XIVE
       * devices. To be called after the reset of the machine devices.
@@ -1776,14 +1717,10 @@ static void spapr_machine_reset(void)
       * or just below 2GB, whichever is lower, so that it can be
       * processed with 32-bit real mode code if necessary
       */
-    rtas_limit = MIN(spapr->rma_size, RTAS_MAX_ADDR);
-    rtas_addr = rtas_limit - RTAS_MAX_SIZE;
-    fdt_addr = rtas_addr - FDT_MAX_SIZE;
+    fdt_addr = MIN(spapr->rma_size, RTAS_MAX_ADDR) - FDT_MAX_SIZE;
  
      fdt = spapr_build_fdt(spapr);
  
-    spapr_load_rtas(spapr, fdt, rtas_addr);
-
      rc = fdt_pack(fdt);
  
      /* Should only fail if we've built a corrupted tree */
@@ -2530,12 +2467,12 @@ static void spapr_validate_node_memory(MachineState *machine, Error **errp)
          return;
      }
  
-    for (i = 0; i < nb_numa_nodes; i++) {
-        if (numa_info[i].node_mem % SPAPR_MEMORY_BLOCK_SIZE) {
+    for (i = 0; i < machine->numa_state->num_nodes; i++) {
+        if (machine->numa_state->nodes[i].node_mem % SPAPR_MEMORY_BLOCK_SIZE) {
              error_setg(errp,
                         "Node %d memory size 0x%" PRIx64
                         " is not aligned to %" PRIu64 " MiB",
-                       i, numa_info[i].node_mem,
+                       i, machine->numa_state->nodes[i].node_mem,
                         SPAPR_MEMORY_BLOCK_SIZE / MiB);
              return;
          }
@@ -2545,7 +2482,7 @@ static void spapr_validate_node_memory(MachineState *machine, Error **errp)
  /* find cpu slot in machine->possible_cpus by core_id */
  static CPUArchId *spapr_find_cpu_slot(MachineState *ms, uint32_t id, int *idx)
  {
-    int index = id / smp_threads;
+    int index = id / ms->smp.threads;
  
      if (index >= ms->possible_cpus->len) {
          return NULL;
@@ -2558,10 +2495,13 @@ static CPUArchId *spapr_find_cpu_slot(MachineState *ms, uint32_t id, int *idx)
  
  static void spapr_set_vsmt_mode(SpaprMachineState *spapr, Error **errp)
  {
+    MachineState *ms = MACHINE(spapr);
+    SpaprMachineClass *smc = SPAPR_MACHINE_GET_CLASS(spapr);
      Error *local_err = NULL;
      bool vsmt_user = !!spapr->vsmt;
      int kvm_smt = kvmppc_smt_threads();
      int ret;
+    unsigned int smp_threads = ms->smp.threads;
  
      if (!kvm_enabled() && (smp_threads > 1)) {
          error_setg(&local_err, "TCG cannot support more than 1 thread/core "
@@ -2583,7 +2523,7 @@ static void spapr_set_vsmt_mode(SpaprMachineState *spapr, Error **errp)
              goto out;
          }
          /* In this case, spapr->vsmt has been set by the command line */
-    } else {
+    } else if (!smc->smp_threads_vsmt) {
          /*
           * Default VSMT value is tricky, because we need it to be as
           * consistent as possible (for migration), but this requires
@@ -2592,6 +2532,8 @@ static void spapr_set_vsmt_mode(SpaprMachineState *spapr, Error **errp)
           * overwhelmingly common case in production systems.
           */
          spapr->vsmt = MAX(8, smp_threads);
+    } else {
+        spapr->vsmt = smp_threads;
      }
  
      /* KVM: If necessary, set the SMT mode: */
@@ -2635,6 +2577,9 @@ static void spapr_init_cpus(SpaprMachineState *spapr)
      SpaprMachineClass *smc = SPAPR_MACHINE_GET_CLASS(machine);
      const char *type = spapr_get_cpu_core_type(machine->cpu_type);
      const CPUArchIdList *possible_cpus;
+    unsigned int smp_cpus = machine->smp.cpus;
+    unsigned int smp_threads = machine->smp.threads;
+    unsigned int max_cpus = machine->smp.max_cpus;
      int boot_cores_nr = smp_cpus / smp_threads;
      int i;
  
@@ -2826,13 +2771,57 @@ static void spapr_machine_init(MachineState *machine)
      spapr_ovec_set(spapr->ov5, OV5_DRMEM_V2);
  
      /* advertise XIVE on POWER9 machines */
-    if (spapr->irq->ov5 & (SPAPR_OV5_XIVE_EXPLOIT | SPAPR_OV5_XIVE_BOTH)) {
+    if (spapr->irq->xive) {
          spapr_ovec_set(spapr->ov5, OV5_XIVE_EXPLOIT);
      }
  
      /* init CPUs */
      spapr_init_cpus(spapr);
  
+    /*
+     * check we don't have a memory-less/cpu-less NUMA node
+     * Firmware relies on the existing memory/cpu topology to provide the
+     * NUMA topology to the kernel.
+     * And the linux kernel needs to know the NUMA topology at start
+     * to be able to hotplug CPUs later.
+     */
+    if (machine->numa_state->num_nodes) {
+        for (i = 0; i < machine->numa_state->num_nodes; ++i) {
+            /* check for memory-less node */
+            if (machine->numa_state->nodes[i].node_mem == 0) {
+                CPUState *cs;
+                int found = 0;
+                /* check for cpu-less node */
+                CPU_FOREACH(cs) {
+                    PowerPCCPU *cpu = POWERPC_CPU(cs);
+                    if (cpu->node_id == i) {
+                        found = 1;
+                        break;
+                    }
+                }
+                /* memory-less and cpu-less node */
+                if (!found) {
+                    error_report(
+                       "Memory-less/cpu-less nodes are not supported (node %d)",
+                                 i);
+                    exit(1);
+                }
+            }
+        }
+
+    }
+
+    /*
+     * NVLink2-connected GPU RAM needs to be placed on a separate NUMA node.
+     * We assign a new numa ID per GPU in spapr_pci_collect_nvgpu() which is
+     * called from vPHB reset handler so we initialize the counter here.
+     * If no NUMA is configured from the QEMU side, we start from 1 as GPU RAM
+     * must be equally distant from any other node.
+     * The final value of spapr->gpu_numa_id is going to be written to
+     * max-associativity-domains in spapr_build_fdt().
+     */
+    spapr->gpu_numa_id = MAX(1, machine->numa_state->num_nodes);
+
      if ((!kvm_enabled() || kvmppc_has_cap_mmu_radix()) &&
          ppc_type_check_compat(machine->cpu_type, CPU_POWERPC_LOGICAL_3_00, 0,
                                spapr->max_compat_pvr)) {
@@ -2894,28 +2883,6 @@ static void spapr_machine_init(MachineState *machine)
          spapr_create_lmb_dr_connectors(spapr);
      }
  
-    filename = qemu_find_file(QEMU_FILE_TYPE_BIOS, "spapr-rtas.bin");
-    if (!filename) {
-        error_report("Could not find LPAR rtas '%s'", "spapr-rtas.bin");
-        exit(1);
-    }
-    spapr->rtas_size = get_image_size(filename);
-    if (spapr->rtas_size < 0) {
-        error_report("Could not get size of LPAR rtas '%s'", filename);
-        exit(1);
-    }
-    spapr->rtas_blob = g_malloc(spapr->rtas_size);
-    if (load_image_size(filename, spapr->rtas_blob, spapr->rtas_size) < 0) {
-        error_report("Could not load LPAR rtas '%s'", filename);
-        exit(1);
-    }
-    if (spapr->rtas_size > RTAS_MAX_SIZE) {
-        error_report("RTAS too big ! 0x%zx bytes (max is 0x%x)",
-                     (size_t)spapr->rtas_size, RTAS_MAX_SIZE);
-        exit(1);
-    }
-    g_free(filename);
-
      /* Set up RTAS event infrastructure */
      spapr_events_init(spapr);
  
@@ -3057,7 +3024,7 @@ static void spapr_machine_init(MachineState *machine)
       * interface, this is a legacy from the sPAPREnvironment structure
       * which predated MachineState but had a similar function */
      vmstate_register(NULL, 0, &vmstate_spapr, spapr);
-    register_savevm_live(NULL, "spapr/htab", -1, 1,
+    register_savevm_live("spapr/htab", -1, 1,
                           &savevm_htab_handlers, spapr);
  
      qbus_set_hotplug_handler(sysbus_get_default(), OBJECT(machine),
@@ -3065,6 +3032,13 @@ static void spapr_machine_init(MachineState *machine)
  
      qemu_register_boot_set(spapr_boot_set, spapr);
  
+    /*
+     * Nothing needs to be done to resume a suspended guest because
+     * suspending does not change the machine state, so no need for
+     * a ->wakeup method.
+     */
+    qemu_register_wakeup_support();
+
      if (kvm_enabled()) {
          /* to stop and start vmclock */
          qemu_add_vm_change_state_handler(cpu_ppc_clock_vm_state_change,
@@ -3808,6 +3782,7 @@ static void spapr_core_plug(HotplugHandler *hotplug_dev, DeviceState *dev,
      CPUArchId *core_slot;
      int index;
      bool hotplugged = spapr_drc_hotplugged(dev);
+    int i;
  
      core_slot = spapr_find_cpu_slot(MACHINE(hotplug_dev), cc->core_id, &index);
      if (!core_slot) {
@@ -3841,13 +3816,26 @@ static void spapr_core_plug(HotplugHandler *hotplug_dev, DeviceState *dev,
      core_slot->cpu = OBJECT(dev);
  
      if (smc->pre_2_10_has_unused_icps) {
-        int i;
-
          for (i = 0; i < cc->nr_threads; i++) {
              cs = CPU(core->threads[i]);
              pre_2_10_vmstate_unregister_dummy_icp(cs->cpu_index);
          }
      }
+
+    /*
+     * Set compatibility mode to match the boot CPU, which was either set
+     * by the machine reset code or by CAS.
+     */
+    if (hotplugged) {
+        for (i = 0; i < cc->nr_threads; i++) {
+            ppc_set_compat(core->threads[i], POWERPC_CPU(first_cpu)->compat_pvr,
+                           &local_err);
+            if (local_err) {
+                error_propagate(errp, local_err);
+                return;
+            }
+        }
+    }
  }
  
  static void spapr_core_pre_plug(HotplugHandler *hotplug_dev, DeviceState *dev,
@@ -3861,6 +3849,7 @@ static void spapr_core_pre_plug(HotplugHandler *hotplug_dev, DeviceState *dev,
      const char *type = object_get_typename(OBJECT(dev));
      CPUArchId *core_slot;
      int index;
+    unsigned int smp_threads = machine->smp.threads;
  
      if (dev->hotplugged && !mc->has_hotpluggable_cpus) {
          error_setg(&local_err, "CPU hotplug not supported for this machine");
@@ -3917,8 +3906,8 @@ int spapr_phb_dt_populate(SpaprDrc *drc, SpaprMachineState *spapr,
          return -1;
      }
  
-    if (spapr_populate_pci_dt(sphb, intc_phandle, fdt, spapr->irq->nr_msis,
-                              fdt_start_offset)) {
+    if (spapr_dt_phb(sphb, intc_phandle, fdt, spapr->irq->nr_msis,
+                     fdt_start_offset)) {
          error_setg(errp, "unable to create FDT node for PHB %d", sphb->index);
          return -1;
      }
@@ -4018,6 +4007,29 @@ static void spapr_phb_unplug_request(HotplugHandler *hotplug_dev,
      }
  }
  
+static void spapr_tpm_proxy_plug(HotplugHandler *hotplug_dev, DeviceState *dev,
+                                 Error **errp)
+{
+    SpaprMachineState *spapr = SPAPR_MACHINE(OBJECT(hotplug_dev));
+    SpaprTpmProxy *tpm_proxy = SPAPR_TPM_PROXY(dev);
+
+    if (spapr->tpm_proxy != NULL) {
+        error_setg(errp, "Only one TPM proxy can be specified for this machine");
+        return;
+    }
+
+    spapr->tpm_proxy = tpm_proxy;
+}
+
+static void spapr_tpm_proxy_unplug(HotplugHandler *hotplug_dev, DeviceState *dev)
+{
+    SpaprMachineState *spapr = SPAPR_MACHINE(OBJECT(hotplug_dev));
+
+    object_property_set_bool(OBJECT(dev), false, "realized", NULL);
+    object_unparent(OBJECT(dev));
+    spapr->tpm_proxy = NULL;
+}
+
  static void spapr_machine_device_plug(HotplugHandler *hotplug_dev,
                                        DeviceState *dev, Error **errp)
  {
@@ -4027,6 +4039,8 @@ static void spapr_machine_device_plug(HotplugHandler *hotplug_dev,
          spapr_core_plug(hotplug_dev, dev, errp);
      } else if (object_dynamic_cast(OBJECT(dev), TYPE_SPAPR_PCI_HOST_BRIDGE)) {
          spapr_phb_plug(hotplug_dev, dev, errp);
+    } else if (object_dynamic_cast(OBJECT(dev), TYPE_SPAPR_TPM_PROXY)) {
+        spapr_tpm_proxy_plug(hotplug_dev, dev, errp);
      }
  }
  
@@ -4039,6 +4053,8 @@ static void spapr_machine_device_unplug(HotplugHandler *hotplug_dev,
          spapr_core_unplug(hotplug_dev, dev);
      } else if (object_dynamic_cast(OBJECT(dev), TYPE_SPAPR_PCI_HOST_BRIDGE)) {
          spapr_phb_unplug(hotplug_dev, dev);
+    } else if (object_dynamic_cast(OBJECT(dev), TYPE_SPAPR_TPM_PROXY)) {
+        spapr_tpm_proxy_unplug(hotplug_dev, dev);
      }
  }
  
@@ -4073,6 +4089,8 @@ static void spapr_machine_device_unplug_request(HotplugHandler *hotplug_dev,
              return;
          }
          spapr_phb_unplug_request(hotplug_dev, dev, errp);
+    } else if (object_dynamic_cast(OBJECT(dev), TYPE_SPAPR_TPM_PROXY)) {
+        spapr_tpm_proxy_unplug(hotplug_dev, dev);
      }
  }
  
@@ -4093,9 +4111,21 @@ static HotplugHandler *spapr_get_hotplug_handler(MachineState *machine,
  {
      if (object_dynamic_cast(OBJECT(dev), TYPE_PC_DIMM) ||
          object_dynamic_cast(OBJECT(dev), TYPE_SPAPR_CPU_CORE) ||
-        object_dynamic_cast(OBJECT(dev), TYPE_SPAPR_PCI_HOST_BRIDGE)) {
+        object_dynamic_cast(OBJECT(dev), TYPE_SPAPR_PCI_HOST_BRIDGE) ||
+        object_dynamic_cast(OBJECT(dev), TYPE_SPAPR_TPM_PROXY)) {
          return HOTPLUG_HANDLER(machine);
      }
+    if (object_dynamic_cast(OBJECT(dev), TYPE_PCI_DEVICE)) {
+        PCIDevice *pcidev = PCI_DEVICE(dev);
+        PCIBus *root = pci_device_root_bus(pcidev);
+        SpaprPhbState *phb =
+            (SpaprPhbState *)object_dynamic_cast(OBJECT(BUS(root)->parent),
+                                                 TYPE_SPAPR_PCI_HOST_BRIDGE);
+
+        if (phb) {
+            return HOTPLUG_HANDLER(phb);
+        }
+    }
      return NULL;
  }
  
@@ -4115,14 +4145,16 @@ spapr_cpu_index_to_props(MachineState *machine, unsigned cpu_index)
  
  static int64_t spapr_get_default_cpu_node_id(const MachineState *ms, int idx)
  {
-    return idx / smp_cores % nb_numa_nodes;
+    return idx / ms->smp.cores % ms->numa_state->num_nodes;
  }
  
  static const CPUArchIdList *spapr_possible_cpu_arch_ids(MachineState *machine)
  {
      int i;
+    unsigned int smp_threads = machine->smp.threads;
+    unsigned int smp_cpus = machine->smp.cpus;
      const char *core_type;
-    int spapr_max_cores = max_cpus / smp_threads;
+    int spapr_max_cores = machine->smp.max_cpus / smp_threads;
      MachineClass *mc = MACHINE_GET_CLASS(machine);
  
      if (!mc->has_hotpluggable_cpus) {
@@ -4235,6 +4267,8 @@ static void spapr_pic_print_info(InterruptStatsProvider *obj,
      SpaprMachineState *spapr = SPAPR_MACHINE(obj);
  
      spapr->irq->print_info(spapr, mon);
+    monitor_printf(mon, "irqchip: %s\n",
+                   kvm_irqchip_in_kernel() ? "in-kernel" : "emulated");
  }
  
  int spapr_get_vcpu_id(PowerPCCPU *cpu)
@@ -4245,6 +4279,7 @@ int spapr_get_vcpu_id(PowerPCCPU *cpu)
  void spapr_set_vcpu_id(PowerPCCPU *cpu, int cpu_index, Error **errp)
  {
      SpaprMachineState *spapr = SPAPR_MACHINE(qdev_get_machine());
+    MachineState *ms = MACHINE(spapr);
      int vcpu_id;
  
      vcpu_id = spapr_vcpu_id(spapr, cpu_index);
@@ -4253,7 +4288,7 @@ void spapr_set_vcpu_id(PowerPCCPU *cpu, int cpu_index, Error **errp)
          error_setg(errp, "Can't create CPU with id %d in KVM", vcpu_id);
          error_append_hint(errp, "Adjust the number of cpus to %d "
                            "or try to raise the number of threads per core\n",
-                          vcpu_id * smp_threads / spapr->vsmt);
+                          vcpu_id * ms->smp.threads / spapr->vsmt);
          return;
      }
  
@@ -4275,6 +4310,53 @@ PowerPCCPU *spapr_find_cpu(int vcpu_id)
      return NULL;
  }
  
+static void spapr_cpu_exec_enter(PPCVirtualHypervisor *vhyp, PowerPCCPU *cpu)
+{
+    SpaprCpuState *spapr_cpu = spapr_cpu_state(cpu);
+
+    /* These are only called by TCG, KVM maintains dispatch state */
+
+    spapr_cpu->prod = false;
+    if (spapr_cpu->vpa_addr) {
+        CPUState *cs = CPU(cpu);
+        uint32_t dispatch;
+
+        dispatch = ldl_be_phys(cs->as,
+                               spapr_cpu->vpa_addr + VPA_DISPATCH_COUNTER);
+        dispatch++;
+        if ((dispatch & 1) != 0) {
+            qemu_log_mask(LOG_GUEST_ERROR,
+                          "VPA: incorrect dispatch counter value for "
+                          "dispatched partition %u, correcting.\n", dispatch);
+            dispatch++;
+        }
+        stl_be_phys(cs->as,
+                    spapr_cpu->vpa_addr + VPA_DISPATCH_COUNTER, dispatch);
+    }
+}
+
+static void spapr_cpu_exec_exit(PPCVirtualHypervisor *vhyp, PowerPCCPU *cpu)
+{
+    SpaprCpuState *spapr_cpu = spapr_cpu_state(cpu);
+
+    if (spapr_cpu->vpa_addr) {
+        CPUState *cs = CPU(cpu);
+        uint32_t dispatch;
+
+        dispatch = ldl_be_phys(cs->as,
+                               spapr_cpu->vpa_addr + VPA_DISPATCH_COUNTER);
+        dispatch++;
+        if ((dispatch & 1) != 1) {
+            qemu_log_mask(LOG_GUEST_ERROR,
+                          "VPA: incorrect dispatch counter value for "
+                          "preempted partition %u, correcting.\n", dispatch);
+            dispatch++;
+        }
+        stl_be_phys(cs->as,
+                    spapr_cpu->vpa_addr + VPA_DISPATCH_COUNTER, dispatch);
+    }
+}
+
  static void spapr_machine_class_init(ObjectClass *oc, void *data)
  {
      MachineClass *mc = MACHINE_CLASS(oc);
@@ -4331,6 +4413,8 @@ static void spapr_machine_class_init(ObjectClass *oc, void *data)
      vhc->hpte_set_r = spapr_hpte_set_r;
      vhc->get_pate = spapr_get_pate;
      vhc->encode_hpt_for_kvm_pr = spapr_encode_hpt_for_kvm_pr;
+    vhc->cpu_exec_enter = spapr_cpu_exec_enter;
+    vhc->cpu_exec_exit = spapr_cpu_exec_exit;
      xic->ics_get = spapr_ics_get;
      xic->ics_resend = spapr_ics_resend;
      xic->icp_get = spapr_icp_get;
@@ -4340,6 +4424,8 @@ static void spapr_machine_class_init(ObjectClass *oc, void *data)
       * in which LMBs are represented and hot-added
       */
      mc->numa_mem_align_shift = 28;
+    mc->numa_mem_supported = true;
+    mc->auto_enable_numa = true;
  
      smc->default_caps.caps[SPAPR_CAP_HTM] = SPAPR_CAP_OFF;
      smc->default_caps.caps[SPAPR_CAP_VSX] = SPAPR_CAP_ON;
@@ -4354,6 +4440,8 @@ static void spapr_machine_class_init(ObjectClass *oc, void *data)
      spapr_caps_add_properties(smc, &error_abort);
      smc->irq = &spapr_irq_dual;
      smc->dr_phb_enabled = true;
+    smc->linux_pci_probe = true;
+    smc->smp_threads_vsmt = true;
  }
  
  static const TypeInfo spapr_machine_info = {
@@ -4398,15 +4486,35 @@ static const TypeInfo spapr_machine_info = {
      }                                                                \
      type_init(spapr_machine_register_##suffix)
  
+/*
+ * pseries-4.2
+ */
+static void spapr_machine_4_2_class_options(MachineClass *mc)
+{
+    /* Defaults for the latest behaviour inherited from the base class */
+}
+
+DEFINE_SPAPR_MACHINE(4_2, "4.2", true);
+
  /*
   * pseries-4.1
   */
  static void spapr_machine_4_1_class_options(MachineClass *mc)
  {
-    /* Defaults for the latest behaviour inherited from the base class */
+    SpaprMachineClass *smc = SPAPR_MACHINE_CLASS(mc);
+    static GlobalProperty compat[] = {
+        /* Only allow 4kiB and 64kiB IOMMU pagesizes */
+        { TYPE_SPAPR_PCI_HOST_BRIDGE, "pgsz", "0x11000" },
+    };
+
+    spapr_machine_4_2_class_options(mc);
+    smc->linux_pci_probe = false;
+    smc->smp_threads_vsmt = false;
+    compat_props_add(mc->compat_props, hw_compat_4_1, hw_compat_4_1_len);
+    compat_props_add(mc->compat_props, compat, G_N_ELEMENTS(compat));
  }
  
-DEFINE_SPAPR_MACHINE(4_1, "4.1", true);
+DEFINE_SPAPR_MACHINE(4_1, "4.1", false);
  
  /*
   * pseries-4.0