]> Git Repo - cpuminer-multi.git/commitdiff
Aligned our shit and used faster SSE load ops.
authorWolf <[email protected]>
Thu, 22 May 2014 05:39:25 +0000 (00:39 -0500)
committerWolf <[email protected]>
Thu, 22 May 2014 05:39:25 +0000 (00:39 -0500)
aesb-x64.S
cryptonight.c

index c04fa894203f1a4175c73a185aad204fa4c9695c..06dd189c432e254e248e948957588c043452df5c 100644 (file)
 fast_aesb_single_round:
 _fast_aesb_single_round:
 #if defined(_WIN64) || defined(__CYGWIN__)
-    movdqu (%rcx), %xmm1
+    movdqa (%rcx), %xmm1
     aesenc (%r8), %xmm1
-    movdqu %xmm1, (%rdx)
+    movdqa %xmm1, (%rdx)
 #else
-    movdqu (%rdi), %xmm1
+    movdqa (%rdi), %xmm1
     aesenc (%rdx), %xmm1
-    movdqu %xmm1, (%rsi)
+    movdqa %xmm1, (%rsi)
 #endif
     ret
 
@@ -30,7 +30,7 @@ _fast_aesb_pseudo_round_mut:
 #if defined(_WIN64) || defined(__CYGWIN__)
     mov %rdx, %r9
     add $0xA0, %r9
-    movdqu (%rcx), %xmm1
+    movdqa (%rcx), %xmm1
  
     .LOOP:
             aesenc (%rdx), %xmm1
@@ -38,11 +38,11 @@ _fast_aesb_pseudo_round_mut:
                        cmp %r9, %rdx
             jl .LOOP
 
-    movdqu %xmm1, (%rcx)
+    movdqa %xmm1, (%rcx)
 #else
     mov %rsi, %r9
     add $0xA0, %r9
-    movdqu (%rdi), %xmm1
+    movdqa (%rdi), %xmm1
  
     .LOOP:
             aesenc (%rsi), %xmm1
@@ -50,6 +50,6 @@ _fast_aesb_pseudo_round_mut:
             cmp %r9, %rsi
             jl .LOOP
 
-    movdqu %xmm1, (%rdi)
+    movdqa %xmm1, (%rdi)
 #endif
     ret
index 6042af980de0b674b203d309a8c50bda5cbc3da9..8180dfe16d5a2a2c39f6470808fb1ec3b7d145f2 100644 (file)
@@ -123,7 +123,7 @@ static inline void xor_blocks_dst(const uint8_t* a, const uint8_t* b, uint8_t* d
 struct cryptonight_ctx {
     uint8_t long_state[MEMORY] __attribute((aligned(16)));
     union cn_slow_hash_state state;
-    uint8_t text[INIT_SIZE_BYTE];
+    uint8_t text[INIT_SIZE_BYTE] __attribute((aligned(16)));
     uint8_t a[AES_BLOCK_SIZE] __attribute__((aligned(16)));
     uint8_t b[AES_BLOCK_SIZE] __attribute__((aligned(16)));
     uint8_t c[AES_BLOCK_SIZE] __attribute__((aligned(16)));
This page took 0.028127 seconds and 4 git commands to generate.