]> Git Repo - qemu.git/blob - linux-user/qemu.h
linux-user: Provide safe_syscall for fixing races between signals and syscalls
[qemu.git] / linux-user / qemu.h
1 #ifndef QEMU_H
2 #define QEMU_H
3
4 #include "hostdep.h"
5 #include "cpu.h"
6 #include "exec/exec-all.h"
7 #include "exec/cpu_ldst.h"
8
9 #undef DEBUG_REMAP
10 #ifdef DEBUG_REMAP
11 #endif /* DEBUG_REMAP */
12
13 #include "exec/user/abitypes.h"
14
15 #include "exec/user/thunk.h"
16 #include "syscall_defs.h"
17 #include "target_syscall.h"
18 #include "exec/gdbstub.h"
19 #include "qemu/queue.h"
20
21 #define THREAD __thread
22
23 /* This struct is used to hold certain information about the image.
24  * Basically, it replicates in user space what would be certain
25  * task_struct fields in the kernel
26  */
27 struct image_info {
28         abi_ulong       load_bias;
29         abi_ulong       load_addr;
30         abi_ulong       start_code;
31         abi_ulong       end_code;
32         abi_ulong       start_data;
33         abi_ulong       end_data;
34         abi_ulong       start_brk;
35         abi_ulong       brk;
36         abi_ulong       start_mmap;
37         abi_ulong       start_stack;
38         abi_ulong       stack_limit;
39         abi_ulong       entry;
40         abi_ulong       code_offset;
41         abi_ulong       data_offset;
42         abi_ulong       saved_auxv;
43         abi_ulong       auxv_len;
44         abi_ulong       arg_start;
45         abi_ulong       arg_end;
46         uint32_t        elf_flags;
47         int             personality;
48 #ifdef CONFIG_USE_FDPIC
49         abi_ulong       loadmap_addr;
50         uint16_t        nsegs;
51         void           *loadsegs;
52         abi_ulong       pt_dynamic_addr;
53         struct image_info *other_info;
54 #endif
55 };
56
57 #ifdef TARGET_I386
58 /* Information about the current linux thread */
59 struct vm86_saved_state {
60     uint32_t eax; /* return code */
61     uint32_t ebx;
62     uint32_t ecx;
63     uint32_t edx;
64     uint32_t esi;
65     uint32_t edi;
66     uint32_t ebp;
67     uint32_t esp;
68     uint32_t eflags;
69     uint32_t eip;
70     uint16_t cs, ss, ds, es, fs, gs;
71 };
72 #endif
73
74 #if defined(TARGET_ARM) && defined(TARGET_ABI32)
75 /* FPU emulator */
76 #include "nwfpe/fpa11.h"
77 #endif
78
79 #define MAX_SIGQUEUE_SIZE 1024
80
81 struct sigqueue {
82     struct sigqueue *next;
83     target_siginfo_t info;
84 };
85
86 struct emulated_sigtable {
87     int pending; /* true if signal is pending */
88     struct sigqueue *first;
89     struct sigqueue info; /* in order to always have memory for the
90                              first signal, we put it here */
91 };
92
93 /* NOTE: we force a big alignment so that the stack stored after is
94    aligned too */
95 typedef struct TaskState {
96     pid_t ts_tid;     /* tid (or pid) of this task */
97 #ifdef TARGET_ARM
98 # ifdef TARGET_ABI32
99     /* FPA state */
100     FPA11 fpa;
101 # endif
102     int swi_errno;
103 #endif
104 #ifdef TARGET_UNICORE32
105     int swi_errno;
106 #endif
107 #if defined(TARGET_I386) && !defined(TARGET_X86_64)
108     abi_ulong target_v86;
109     struct vm86_saved_state vm86_saved_regs;
110     struct target_vm86plus_struct vm86plus;
111     uint32_t v86flags;
112     uint32_t v86mask;
113 #endif
114     abi_ulong child_tidptr;
115 #ifdef TARGET_M68K
116     int sim_syscalls;
117     abi_ulong tp_value;
118 #endif
119 #if defined(TARGET_ARM) || defined(TARGET_M68K) || defined(TARGET_UNICORE32)
120     /* Extra fields for semihosted binaries.  */
121     uint32_t heap_base;
122     uint32_t heap_limit;
123 #endif
124     uint32_t stack_base;
125     int used; /* non zero if used */
126     bool sigsegv_blocked; /* SIGSEGV blocked by guest */
127     struct image_info *info;
128     struct linux_binprm *bprm;
129
130     struct emulated_sigtable sigtab[TARGET_NSIG];
131     struct sigqueue sigqueue_table[MAX_SIGQUEUE_SIZE]; /* siginfo queue */
132     struct sigqueue *first_free; /* first free siginfo queue entry */
133     int signal_pending; /* non zero if a signal may be pending */
134 } __attribute__((aligned(16))) TaskState;
135
136 extern char *exec_path;
137 void init_task_state(TaskState *ts);
138 void task_settid(TaskState *);
139 void stop_all_tasks(void);
140 extern const char *qemu_uname_release;
141 extern unsigned long mmap_min_addr;
142
143 /* ??? See if we can avoid exposing so much of the loader internals.  */
144
145 /* Read a good amount of data initially, to hopefully get all the
146    program headers loaded.  */
147 #define BPRM_BUF_SIZE  1024
148
149 /*
150  * This structure is used to hold the arguments that are
151  * used when loading binaries.
152  */
153 struct linux_binprm {
154         char buf[BPRM_BUF_SIZE] __attribute__((aligned));
155         abi_ulong p;
156         int fd;
157         int e_uid, e_gid;
158         int argc, envc;
159         char **argv;
160         char **envp;
161         char * filename;        /* Name of binary */
162         int (*core_dump)(int, const CPUArchState *); /* coredump routine */
163 };
164
165 void do_init_thread(struct target_pt_regs *regs, struct image_info *infop);
166 abi_ulong loader_build_argptr(int envc, int argc, abi_ulong sp,
167                               abi_ulong stringp, int push_ptr);
168 int loader_exec(int fdexec, const char *filename, char **argv, char **envp,
169              struct target_pt_regs * regs, struct image_info *infop,
170              struct linux_binprm *);
171
172 int load_elf_binary(struct linux_binprm *bprm, struct image_info *info);
173 int load_flt_binary(struct linux_binprm *bprm, struct image_info *info);
174
175 abi_long memcpy_to_target(abi_ulong dest, const void *src,
176                           unsigned long len);
177 void target_set_brk(abi_ulong new_brk);
178 abi_long do_brk(abi_ulong new_brk);
179 void syscall_init(void);
180 abi_long do_syscall(void *cpu_env, int num, abi_long arg1,
181                     abi_long arg2, abi_long arg3, abi_long arg4,
182                     abi_long arg5, abi_long arg6, abi_long arg7,
183                     abi_long arg8);
184 void gemu_log(const char *fmt, ...) GCC_FMT_ATTR(1, 2);
185 extern THREAD CPUState *thread_cpu;
186 void cpu_loop(CPUArchState *env);
187 char *target_strerror(int err);
188 int get_osversion(void);
189 void init_qemu_uname_release(void);
190 void fork_start(void);
191 void fork_end(int child);
192
193 /* Creates the initial guest address space in the host memory space using
194  * the given host start address hint and size.  The guest_start parameter
195  * specifies the start address of the guest space.  guest_base will be the
196  * difference between the host start address computed by this function and
197  * guest_start.  If fixed is specified, then the mapped address space must
198  * start at host_start.  The real start address of the mapped memory space is
199  * returned or -1 if there was an error.
200  */
201 unsigned long init_guest_space(unsigned long host_start,
202                                unsigned long host_size,
203                                unsigned long guest_start,
204                                bool fixed);
205
206 #include "qemu/log.h"
207
208 /* safe_syscall.S */
209
210 /**
211  * safe_syscall:
212  * @int number: number of system call to make
213  * ...: arguments to the system call
214  *
215  * Call a system call if guest signal not pending.
216  * This has the same API as the libc syscall() function, except that it
217  * may return -1 with errno == TARGET_ERESTARTSYS if a signal was pending.
218  *
219  * Returns: the system call result, or -1 with an error code in errno
220  * (Errnos are host errnos; we rely on TARGET_ERESTARTSYS not clashing
221  * with any of the host errno values.)
222  */
223
224 /* A guide to using safe_syscall() to handle interactions between guest
225  * syscalls and guest signals:
226  *
227  * Guest syscalls come in two flavours:
228  *
229  * (1) Non-interruptible syscalls
230  *
231  * These are guest syscalls that never get interrupted by signals and
232  * so never return EINTR. They can be implemented straightforwardly in
233  * QEMU: just make sure that if the implementation code has to make any
234  * blocking calls that those calls are retried if they return EINTR.
235  * It's also OK to implement these with safe_syscall, though it will be
236  * a little less efficient if a signal is delivered at the 'wrong' moment.
237  *
238  * (2) Interruptible syscalls
239  *
240  * These are guest syscalls that can be interrupted by signals and
241  * for which we need to either return EINTR or arrange for the guest
242  * syscall to be restarted. This category includes both syscalls which
243  * always restart (and in the kernel return -ERESTARTNOINTR), ones
244  * which only restart if there is no handler (kernel returns -ERESTARTNOHAND
245  * or -ERESTART_RESTARTBLOCK), and the most common kind which restart
246  * if the handler was registered with SA_RESTART (kernel returns
247  * -ERESTARTSYS). System calls which are only interruptible in some
248  * situations (like 'open') also need to be handled this way.
249  *
250  * Here it is important that the host syscall is made
251  * via this safe_syscall() function, and *not* via the host libc.
252  * If the host libc is used then the implementation will appear to work
253  * most of the time, but there will be a race condition where a
254  * signal could arrive just before we make the host syscall inside libc,
255  * and then then guest syscall will not correctly be interrupted.
256  * Instead the implementation of the guest syscall can use the safe_syscall
257  * function but otherwise just return the result or errno in the usual
258  * way; the main loop code will take care of restarting the syscall
259  * if appropriate.
260  *
261  * (If the implementation needs to make multiple host syscalls this is
262  * OK; any which might really block must be via safe_syscall(); for those
263  * which are only technically blocking (ie which we know in practice won't
264  * stay in the host kernel indefinitely) it's OK to use libc if necessary.
265  * You must be able to cope with backing out correctly if some safe_syscall
266  * you make in the implementation returns either -TARGET_ERESTARTSYS or
267  * EINTR though.)
268  *
269  *
270  * How and why the safe_syscall implementation works:
271  *
272  * The basic setup is that we make the host syscall via a known
273  * section of host native assembly. If a signal occurs, our signal
274  * handler checks the interrupted host PC against the addresse of that
275  * known section. If the PC is before or at the address of the syscall
276  * instruction then we change the PC to point at a "return
277  * -TARGET_ERESTARTSYS" code path instead, and then exit the signal handler
278  * (causing the safe_syscall() call to immediately return that value).
279  * Then in the main.c loop if we see this magic return value we adjust
280  * the guest PC to wind it back to before the system call, and invoke
281  * the guest signal handler as usual.
282  *
283  * This winding-back will happen in two cases:
284  * (1) signal came in just before we took the host syscall (a race);
285  *   in this case we'll take the guest signal and have another go
286  *   at the syscall afterwards, and this is indistinguishable for the
287  *   guest from the timing having been different such that the guest
288  *   signal really did win the race
289  * (2) signal came in while the host syscall was blocking, and the
290  *   host kernel decided the syscall should be restarted;
291  *   in this case we want to restart the guest syscall also, and so
292  *   rewinding is the right thing. (Note that "restart" semantics mean
293  *   "first call the signal handler, then reattempt the syscall".)
294  * The other situation to consider is when a signal came in while the
295  * host syscall was blocking, and the host kernel decided that the syscall
296  * should not be restarted; in this case QEMU's host signal handler will
297  * be invoked with the PC pointing just after the syscall instruction,
298  * with registers indicating an EINTR return; the special code in the
299  * handler will not kick in, and we will return EINTR to the guest as
300  * we should.
301  *
302  * Notice that we can leave the host kernel to make the decision for
303  * us about whether to do a restart of the syscall or not; we do not
304  * need to check SA_RESTART flags in QEMU or distinguish the various
305  * kinds of restartability.
306  */
307 #ifdef HAVE_SAFE_SYSCALL
308 /* The core part of this function is implemented in assembly */
309 extern long safe_syscall_base(int *pending, long number, ...);
310
311 #define safe_syscall(...)                                               \
312     ({                                                                  \
313         long ret_;                                                      \
314         int *psp_ = &((TaskState *)thread_cpu->opaque)->signal_pending; \
315         ret_ = safe_syscall_base(psp_, __VA_ARGS__);                    \
316         if (is_error(ret_)) {                                           \
317             errno = -ret_;                                              \
318             ret_ = -1;                                                  \
319         }                                                               \
320         ret_;                                                           \
321     })
322
323 #else
324
325 /* Fallback for architectures which don't yet provide a safe-syscall assembly
326  * fragment; note that this is racy!
327  * This should go away when all host architectures have been updated.
328  */
329 #define safe_syscall syscall
330
331 #endif
332
333 /* syscall.c */
334 int host_to_target_waitstatus(int status);
335
336 /* strace.c */
337 void print_syscall(int num,
338                    abi_long arg1, abi_long arg2, abi_long arg3,
339                    abi_long arg4, abi_long arg5, abi_long arg6);
340 void print_syscall_ret(int num, abi_long arg1);
341 extern int do_strace;
342
343 /* signal.c */
344 void process_pending_signals(CPUArchState *cpu_env);
345 void signal_init(void);
346 int queue_signal(CPUArchState *env, int sig, target_siginfo_t *info);
347 void host_to_target_siginfo(target_siginfo_t *tinfo, const siginfo_t *info);
348 void target_to_host_siginfo(siginfo_t *info, const target_siginfo_t *tinfo);
349 int target_to_host_signal(int sig);
350 int host_to_target_signal(int sig);
351 long do_sigreturn(CPUArchState *env);
352 long do_rt_sigreturn(CPUArchState *env);
353 abi_long do_sigaltstack(abi_ulong uss_addr, abi_ulong uoss_addr, abi_ulong sp);
354 int do_sigprocmask(int how, const sigset_t *set, sigset_t *oldset);
355
356 #ifdef TARGET_I386
357 /* vm86.c */
358 void save_v86_state(CPUX86State *env);
359 void handle_vm86_trap(CPUX86State *env, int trapno);
360 void handle_vm86_fault(CPUX86State *env);
361 int do_vm86(CPUX86State *env, long subfunction, abi_ulong v86_addr);
362 #elif defined(TARGET_SPARC64)
363 void sparc64_set_context(CPUSPARCState *env);
364 void sparc64_get_context(CPUSPARCState *env);
365 #endif
366
367 /* mmap.c */
368 int target_mprotect(abi_ulong start, abi_ulong len, int prot);
369 abi_long target_mmap(abi_ulong start, abi_ulong len, int prot,
370                      int flags, int fd, abi_ulong offset);
371 int target_munmap(abi_ulong start, abi_ulong len);
372 abi_long target_mremap(abi_ulong old_addr, abi_ulong old_size,
373                        abi_ulong new_size, unsigned long flags,
374                        abi_ulong new_addr);
375 int target_msync(abi_ulong start, abi_ulong len, int flags);
376 extern unsigned long last_brk;
377 extern abi_ulong mmap_next_start;
378 abi_ulong mmap_find_vma(abi_ulong, abi_ulong);
379 void cpu_list_lock(void);
380 void cpu_list_unlock(void);
381 void mmap_fork_start(void);
382 void mmap_fork_end(int child);
383
384 /* main.c */
385 extern unsigned long guest_stack_size;
386
387 /* user access */
388
389 #define VERIFY_READ 0
390 #define VERIFY_WRITE 1 /* implies read access */
391
392 static inline int access_ok(int type, abi_ulong addr, abi_ulong size)
393 {
394     return page_check_range((target_ulong)addr, size,
395                             (type == VERIFY_READ) ? PAGE_READ : (PAGE_READ | PAGE_WRITE)) == 0;
396 }
397
398 /* NOTE __get_user and __put_user use host pointers and don't check access.
399    These are usually used to access struct data members once the struct has
400    been locked - usually with lock_user_struct.  */
401
402 /* Tricky points:
403    - Use __builtin_choose_expr to avoid type promotion from ?:,
404    - Invalid sizes result in a compile time error stemming from
405      the fact that abort has no parameters.
406    - It's easier to use the endian-specific unaligned load/store
407      functions than host-endian unaligned load/store plus tswapN.  */
408
409 #define __put_user_e(x, hptr, e)                                        \
410   (__builtin_choose_expr(sizeof(*(hptr)) == 1, stb_p,                   \
411    __builtin_choose_expr(sizeof(*(hptr)) == 2, stw_##e##_p,             \
412    __builtin_choose_expr(sizeof(*(hptr)) == 4, stl_##e##_p,             \
413    __builtin_choose_expr(sizeof(*(hptr)) == 8, stq_##e##_p, abort))))   \
414      ((hptr), (x)), (void)0)
415
416 #define __get_user_e(x, hptr, e)                                        \
417   ((x) = (typeof(*hptr))(                                               \
418    __builtin_choose_expr(sizeof(*(hptr)) == 1, ldub_p,                  \
419    __builtin_choose_expr(sizeof(*(hptr)) == 2, lduw_##e##_p,            \
420    __builtin_choose_expr(sizeof(*(hptr)) == 4, ldl_##e##_p,             \
421    __builtin_choose_expr(sizeof(*(hptr)) == 8, ldq_##e##_p, abort))))   \
422      (hptr)), (void)0)
423
424 #ifdef TARGET_WORDS_BIGENDIAN
425 # define __put_user(x, hptr)  __put_user_e(x, hptr, be)
426 # define __get_user(x, hptr)  __get_user_e(x, hptr, be)
427 #else
428 # define __put_user(x, hptr)  __put_user_e(x, hptr, le)
429 # define __get_user(x, hptr)  __get_user_e(x, hptr, le)
430 #endif
431
432 /* put_user()/get_user() take a guest address and check access */
433 /* These are usually used to access an atomic data type, such as an int,
434  * that has been passed by address.  These internally perform locking
435  * and unlocking on the data type.
436  */
437 #define put_user(x, gaddr, target_type)                                 \
438 ({                                                                      \
439     abi_ulong __gaddr = (gaddr);                                        \
440     target_type *__hptr;                                                \
441     abi_long __ret = 0;                                                 \
442     if ((__hptr = lock_user(VERIFY_WRITE, __gaddr, sizeof(target_type), 0))) { \
443         __put_user((x), __hptr);                                \
444         unlock_user(__hptr, __gaddr, sizeof(target_type));              \
445     } else                                                              \
446         __ret = -TARGET_EFAULT;                                         \
447     __ret;                                                              \
448 })
449
450 #define get_user(x, gaddr, target_type)                                 \
451 ({                                                                      \
452     abi_ulong __gaddr = (gaddr);                                        \
453     target_type *__hptr;                                                \
454     abi_long __ret = 0;                                                 \
455     if ((__hptr = lock_user(VERIFY_READ, __gaddr, sizeof(target_type), 1))) { \
456         __get_user((x), __hptr);                                \
457         unlock_user(__hptr, __gaddr, 0);                                \
458     } else {                                                            \
459         /* avoid warning */                                             \
460         (x) = 0;                                                        \
461         __ret = -TARGET_EFAULT;                                         \
462     }                                                                   \
463     __ret;                                                              \
464 })
465
466 #define put_user_ual(x, gaddr) put_user((x), (gaddr), abi_ulong)
467 #define put_user_sal(x, gaddr) put_user((x), (gaddr), abi_long)
468 #define put_user_u64(x, gaddr) put_user((x), (gaddr), uint64_t)
469 #define put_user_s64(x, gaddr) put_user((x), (gaddr), int64_t)
470 #define put_user_u32(x, gaddr) put_user((x), (gaddr), uint32_t)
471 #define put_user_s32(x, gaddr) put_user((x), (gaddr), int32_t)
472 #define put_user_u16(x, gaddr) put_user((x), (gaddr), uint16_t)
473 #define put_user_s16(x, gaddr) put_user((x), (gaddr), int16_t)
474 #define put_user_u8(x, gaddr)  put_user((x), (gaddr), uint8_t)
475 #define put_user_s8(x, gaddr)  put_user((x), (gaddr), int8_t)
476
477 #define get_user_ual(x, gaddr) get_user((x), (gaddr), abi_ulong)
478 #define get_user_sal(x, gaddr) get_user((x), (gaddr), abi_long)
479 #define get_user_u64(x, gaddr) get_user((x), (gaddr), uint64_t)
480 #define get_user_s64(x, gaddr) get_user((x), (gaddr), int64_t)
481 #define get_user_u32(x, gaddr) get_user((x), (gaddr), uint32_t)
482 #define get_user_s32(x, gaddr) get_user((x), (gaddr), int32_t)
483 #define get_user_u16(x, gaddr) get_user((x), (gaddr), uint16_t)
484 #define get_user_s16(x, gaddr) get_user((x), (gaddr), int16_t)
485 #define get_user_u8(x, gaddr)  get_user((x), (gaddr), uint8_t)
486 #define get_user_s8(x, gaddr)  get_user((x), (gaddr), int8_t)
487
488 /* copy_from_user() and copy_to_user() are usually used to copy data
489  * buffers between the target and host.  These internally perform
490  * locking/unlocking of the memory.
491  */
492 abi_long copy_from_user(void *hptr, abi_ulong gaddr, size_t len);
493 abi_long copy_to_user(abi_ulong gaddr, void *hptr, size_t len);
494
495 /* Functions for accessing guest memory.  The tget and tput functions
496    read/write single values, byteswapping as necessary.  The lock_user function
497    gets a pointer to a contiguous area of guest memory, but does not perform
498    any byteswapping.  lock_user may return either a pointer to the guest
499    memory, or a temporary buffer.  */
500
501 /* Lock an area of guest memory into the host.  If copy is true then the
502    host area will have the same contents as the guest.  */
503 static inline void *lock_user(int type, abi_ulong guest_addr, long len, int copy)
504 {
505     if (!access_ok(type, guest_addr, len))
506         return NULL;
507 #ifdef DEBUG_REMAP
508     {
509         void *addr;
510         addr = malloc(len);
511         if (copy)
512             memcpy(addr, g2h(guest_addr), len);
513         else
514             memset(addr, 0, len);
515         return addr;
516     }
517 #else
518     return g2h(guest_addr);
519 #endif
520 }
521
522 /* Unlock an area of guest memory.  The first LEN bytes must be
523    flushed back to guest memory. host_ptr = NULL is explicitly
524    allowed and does nothing. */
525 static inline void unlock_user(void *host_ptr, abi_ulong guest_addr,
526                                long len)
527 {
528
529 #ifdef DEBUG_REMAP
530     if (!host_ptr)
531         return;
532     if (host_ptr == g2h(guest_addr))
533         return;
534     if (len > 0)
535         memcpy(g2h(guest_addr), host_ptr, len);
536     free(host_ptr);
537 #endif
538 }
539
540 /* Return the length of a string in target memory or -TARGET_EFAULT if
541    access error. */
542 abi_long target_strlen(abi_ulong gaddr);
543
544 /* Like lock_user but for null terminated strings.  */
545 static inline void *lock_user_string(abi_ulong guest_addr)
546 {
547     abi_long len;
548     len = target_strlen(guest_addr);
549     if (len < 0)
550         return NULL;
551     return lock_user(VERIFY_READ, guest_addr, (long)(len + 1), 1);
552 }
553
554 /* Helper macros for locking/unlocking a target struct.  */
555 #define lock_user_struct(type, host_ptr, guest_addr, copy)      \
556     (host_ptr = lock_user(type, guest_addr, sizeof(*host_ptr), copy))
557 #define unlock_user_struct(host_ptr, guest_addr, copy)          \
558     unlock_user(host_ptr, guest_addr, (copy) ? sizeof(*host_ptr) : 0)
559
560 #include <pthread.h>
561
562 /* Include target-specific struct and function definitions;
563  * they may need access to the target-independent structures
564  * above, so include them last.
565  */
566 #include "target_cpu.h"
567 #include "target_signal.h"
568 #include "target_structs.h"
569
570 #endif /* QEMU_H */
This page took 0.057595 seconds and 4 git commands to generate.