Use scalar emulation of gather instruction for arg methods

Raghuveer Devulapalli · Raghuveer Devulapalli · commit f2ca68b5ce70 · 2023-09-07T13:28:29.000-07:00
diff --git a/src/avx512-64bit-argsort.hpp b/src/avx512-64bit-argsort.hpp
@@ -85,7 +85,7 @@ X86_SIMD_SORT_INLINE void argsort_16_64bit(type_t *arr, int64_t *arg, int32_t N)
     typename vtype::opmask_t load_mask = (0x01 << (N - 8)) - 0x01;
     argzmm_t argzmm1 = argtype::loadu(arg);
     argzmm_t argzmm2 = argtype::maskz_loadu(load_mask, arg + 8);
-    reg_t arrzmm1 = vtype::template i64gather<sizeof(type_t)>(argzmm1, arr);
+    reg_t arrzmm1 = vtype::i64gather(arr, arg);
     reg_t arrzmm2 = vtype::template mask_i64gather<sizeof(type_t)>(
             vtype::zmm_max(), load_mask, argzmm2, arr);
     arrzmm1 = sort_zmm_64bit<vtype, argtype>(arrzmm1, argzmm1);
@@ -111,7 +111,7 @@ X86_SIMD_SORT_INLINE void argsort_32_64bit(type_t *arr, int64_t *arg, int32_t N)
 X86_SIMD_SORT_UNROLL_LOOP(2)
     for (int ii = 0; ii < 2; ++ii) {
         argzmm[ii] = argtype::loadu(arg + 8 * ii);
-        arrzmm[ii] = vtype::template i64gather<sizeof(type_t)>(argzmm[ii], arr);
+        arrzmm[ii] = vtype::i64gather(arr, arg + 8 * ii);
         arrzmm[ii] = sort_zmm_64bit<vtype, argtype>(arrzmm[ii], argzmm[ii]);
     }
 
@@ -154,7 +154,7 @@ X86_SIMD_SORT_INLINE void argsort_64_64bit(type_t *arr, int64_t *arg, int32_t N)
 X86_SIMD_SORT_UNROLL_LOOP(4)
     for (int ii = 0; ii < 4; ++ii) {
         argzmm[ii] = argtype::loadu(arg + 8 * ii);
-        arrzmm[ii] = vtype::template i64gather<sizeof(type_t)>(argzmm[ii], arr);
+        arrzmm[ii] = vtype::i64gather(arr, arg + 8 * ii);
         arrzmm[ii] = sort_zmm_64bit<vtype, argtype>(arrzmm[ii], argzmm[ii]);
     }
 
@@ -206,7 +206,7 @@ X86_SIMD_SORT_UNROLL_LOOP(4)
 //X86_SIMD_SORT_UNROLL_LOOP(8)
 //    for (int ii = 0; ii < 8; ++ii) {
 //        argzmm[ii] = argtype::loadu(arg + 8*ii);
-//        arrzmm[ii] = vtype::template i64gather<sizeof(type_t)>(argzmm[ii], arr);
+//        arrzmm[ii] = vtype::i64gather(argzmm[ii], arr);
 //        arrzmm[ii] = sort_zmm_64bit<vtype, argtype>(arrzmm[ii], argzmm[ii]);
 //    }
 //
@@ -257,17 +257,14 @@ type_t get_pivot_64bit(type_t *arr,
         // median of 8
         int64_t size = (right - left) / 8;
         using reg_t = typename vtype::reg_t;
-        // TODO: Use gather here too:
-        __m512i rand_index = _mm512_set_epi64(arg[left + size],
-                                              arg[left + 2 * size],
-                                              arg[left + 3 * size],
-                                              arg[left + 4 * size],
-                                              arg[left + 5 * size],
-                                              arg[left + 6 * size],
-                                              arg[left + 7 * size],
-                                              arg[left + 8 * size]);
-        reg_t rand_vec
-                = vtype::template i64gather<sizeof(type_t)>(rand_index, arr);
+        reg_t rand_vec = vtype::set(arr[arg[left + size]],
+                                    arr[arg[left + 2 * size]],
+                                    arr[arg[left + 3 * size]],
+                                    arr[arg[left + 4 * size]],
+                                    arr[arg[left + 5 * size]],
+                                    arr[arg[left + 6 * size]],
+                                    arr[arg[left + 7 * size]],
+                                    arr[arg[left + 8 * size]]);
         // pivot will never be a nan, since there are no nan's!
         reg_t sort = sort_zmm_64bit<vtype>(rand_vec);
         return ((type_t *)&sort)[4];
diff --git a/src/avx512-64bit-common.h b/src/avx512-64bit-common.h
@@ -45,12 +45,22 @@ struct ymm_vector<float> {
     {
         return _mm256_set1_ps(type_max());
     }
-
     static zmmi_t
     seti(int v1, int v2, int v3, int v4, int v5, int v6, int v7, int v8)
     {
         return _mm256_set_epi32(v1, v2, v3, v4, v5, v6, v7, v8);
     }
+    static reg_t set(type_t v1,
+                     type_t v2,
+                     type_t v3,
+                     type_t v4,
+                     type_t v5,
+                     type_t v6,
+                     type_t v7,
+                     type_t v8)
+    {
+        return _mm256_set_ps(v1, v2, v3, v4, v5, v6, v7, v8);
+    }
     static opmask_t kxor_opmask(opmask_t x, opmask_t y)
     {
         return _kxor_mask8(x, y);
@@ -86,10 +96,16 @@ struct ymm_vector<float> {
     {
         return _mm512_mask_i64gather_ps(src, mask, index, base, scale);
     }
-    template <int scale>
-    static reg_t i64gather(__m512i index, void const *base)
+    static reg_t i64gather(type_t *arr, int64_t *ind)
     {
-        return _mm512_i64gather_ps(index, base, scale);
+        return set(arr[ind[7]],
+                   arr[ind[6]],
+                   arr[ind[5]],
+                   arr[ind[4]],
+                   arr[ind[3]],
+                   arr[ind[2]],
+                   arr[ind[1]],
+                   arr[ind[0]]);
     }
     static reg_t loadu(void const *mem)
     {
@@ -195,6 +211,17 @@ struct ymm_vector<uint32_t> {
     {
         return _mm256_set_epi32(v1, v2, v3, v4, v5, v6, v7, v8);
     }
+    static reg_t set(type_t v1,
+                     type_t v2,
+                     type_t v3,
+                     type_t v4,
+                     type_t v5,
+                     type_t v6,
+                     type_t v7,
+                     type_t v8)
+    {
+        return _mm256_set_epi32(v1, v2, v3, v4, v5, v6, v7, v8);
+    }
     static opmask_t kxor_opmask(opmask_t x, opmask_t y)
     {
         return _kxor_mask8(x, y);
@@ -221,10 +248,16 @@ struct ymm_vector<uint32_t> {
     {
         return _mm512_mask_i64gather_epi32(src, mask, index, base, scale);
     }
-    template <int scale>
-    static reg_t i64gather(__m512i index, void const *base)
+    static reg_t i64gather(type_t *arr, int64_t *ind)
     {
-        return _mm512_i64gather_epi32(index, base, scale);
+        return set(arr[ind[7]],
+                   arr[ind[6]],
+                   arr[ind[5]],
+                   arr[ind[4]],
+                   arr[ind[3]],
+                   arr[ind[2]],
+                   arr[ind[1]],
+                   arr[ind[0]]);
     }
     static reg_t loadu(void const *mem)
     {
@@ -324,6 +357,17 @@ struct ymm_vector<int32_t> {
     {
         return _mm256_set_epi32(v1, v2, v3, v4, v5, v6, v7, v8);
     }
+    static reg_t set(type_t v1,
+                     type_t v2,
+                     type_t v3,
+                     type_t v4,
+                     type_t v5,
+                     type_t v6,
+                     type_t v7,
+                     type_t v8)
+    {
+        return _mm256_set_epi32(v1, v2, v3, v4, v5, v6, v7, v8);
+    }
     static opmask_t kxor_opmask(opmask_t x, opmask_t y)
     {
         return _kxor_mask8(x, y);
@@ -350,10 +394,16 @@ struct ymm_vector<int32_t> {
     {
         return _mm512_mask_i64gather_epi32(src, mask, index, base, scale);
     }
-    template <int scale>
-    static reg_t i64gather(__m512i index, void const *base)
+    static reg_t i64gather(type_t *arr, int64_t *ind)
     {
-        return _mm512_i64gather_epi32(index, base, scale);
+        return set(arr[ind[7]],
+                   arr[ind[6]],
+                   arr[ind[5]],
+                   arr[ind[4]],
+                   arr[ind[3]],
+                   arr[ind[2]],
+                   arr[ind[1]],
+                   arr[ind[0]]);
     }
     static reg_t loadu(void const *mem)
     {
@@ -456,6 +506,17 @@ struct zmm_vector<int64_t> {
     {
         return _mm512_set_epi64(v1, v2, v3, v4, v5, v6, v7, v8);
     }
+    static reg_t set(type_t v1,
+                     type_t v2,
+                     type_t v3,
+                     type_t v4,
+                     type_t v5,
+                     type_t v6,
+                     type_t v7,
+                     type_t v8)
+    {
+        return _mm512_set_epi64(v1, v2, v3, v4, v5, v6, v7, v8);
+    }
     static opmask_t kxor_opmask(opmask_t x, opmask_t y)
     {
         return _kxor_mask8(x, y);
@@ -482,10 +543,16 @@ struct zmm_vector<int64_t> {
     {
         return _mm512_mask_i64gather_epi64(src, mask, index, base, scale);
     }
-    template <int scale>
-    static reg_t i64gather(__m512i index, void const *base)
+    static reg_t i64gather(type_t *arr, int64_t *ind)
     {
-        return _mm512_i64gather_epi64(index, base, scale);
+        return set(arr[ind[7]],
+                   arr[ind[6]],
+                   arr[ind[5]],
+                   arr[ind[4]],
+                   arr[ind[3]],
+                   arr[ind[2]],
+                   arr[ind[1]],
+                   arr[ind[0]]);
     }
     static reg_t loadu(void const *mem)
     {
@@ -589,16 +656,33 @@ struct zmm_vector<uint64_t> {
     {
         return _mm512_set_epi64(v1, v2, v3, v4, v5, v6, v7, v8);
     }
+    static reg_t set(type_t v1,
+                     type_t v2,
+                     type_t v3,
+                     type_t v4,
+                     type_t v5,
+                     type_t v6,
+                     type_t v7,
+                     type_t v8)
+    {
+        return _mm512_set_epi64(v1, v2, v3, v4, v5, v6, v7, v8);
+    }
     template <int scale>
     static reg_t
     mask_i64gather(reg_t src, opmask_t mask, __m512i index, void const *base)
     {
         return _mm512_mask_i64gather_epi64(src, mask, index, base, scale);
     }
-    template <int scale>
-    static reg_t i64gather(__m512i index, void const *base)
+    static reg_t i64gather(type_t *arr, int64_t *ind)
     {
-        return _mm512_i64gather_epi64(index, base, scale);
+        return set(arr[ind[7]],
+                   arr[ind[6]],
+                   arr[ind[5]],
+                   arr[ind[4]],
+                   arr[ind[3]],
+                   arr[ind[2]],
+                   arr[ind[1]],
+                   arr[ind[0]]);
     }
     static opmask_t knot_opmask(opmask_t x)
     {
@@ -704,13 +788,22 @@ struct zmm_vector<double> {
     {
         return _mm512_set1_pd(type_max());
     }
-
     static zmmi_t
     seti(int v1, int v2, int v3, int v4, int v5, int v6, int v7, int v8)
     {
         return _mm512_set_epi64(v1, v2, v3, v4, v5, v6, v7, v8);
     }
-
+    static reg_t set(type_t v1,
+                     type_t v2,
+                     type_t v3,
+                     type_t v4,
+                     type_t v5,
+                     type_t v6,
+                     type_t v7,
+                     type_t v8)
+    {
+        return _mm512_set_pd(v1, v2, v3, v4, v5, v6, v7, v8);
+    }
     static reg_t maskz_loadu(opmask_t mask, void const *mem)
     {
         return _mm512_maskz_loadu_pd(mask, mem);
@@ -742,10 +835,16 @@ struct zmm_vector<double> {
     {
         return _mm512_mask_i64gather_pd(src, mask, index, base, scale);
     }
-    template <int scale>
-    static reg_t i64gather(__m512i index, void const *base)
+    static reg_t i64gather(type_t *arr, int64_t *ind)
     {
-        return _mm512_i64gather_pd(index, base, scale);
+        return set(arr[ind[7]],
+                   arr[ind[6]],
+                   arr[ind[5]],
+                   arr[ind[4]],
+                   arr[ind[3]],
+                   arr[ind[2]],
+                   arr[ind[1]],
+                   arr[ind[0]]);
     }
     static reg_t loadu(void const *mem)
     {
@@ -841,7 +940,6 @@ X86_SIMD_SORT_INLINE reg_t sort_zmm_64bit(reg_t zmm)
 template <typename vtype, typename reg_t = typename vtype::reg_t>
 X86_SIMD_SORT_INLINE reg_t bitonic_merge_zmm_64bit(reg_t zmm)
 {
-
     // 1) half_cleaner[8]: compare 0-4, 1-5, 2-6, 3-7
     zmm = cmp_merge<vtype>(
             zmm,
diff --git a/src/avx512-common-argsort.h b/src/avx512-common-argsort.h
@@ -75,7 +75,7 @@ static inline int64_t partition_avx512(type_t *arr,
 
     if (right - left == vtype::numlanes) {
         argzmm_t argvec = argtype::loadu(arg + left);
-        reg_t vec = vtype::template i64gather<sizeof(type_t)>(argvec, arr);
+        reg_t vec = vtype::i64gather(arr, arg + left);
         int32_t amount_gt_pivot = partition_vec<vtype>(arg,
                                                        left,
                                                        left + vtype::numlanes,
@@ -91,11 +91,9 @@ static inline int64_t partition_avx512(type_t *arr,
 
     // first and last vtype::numlanes values are partitioned at the end
     argzmm_t argvec_left = argtype::loadu(arg + left);
-    reg_t vec_left
-            = vtype::template i64gather<sizeof(type_t)>(argvec_left, arr);
+    reg_t vec_left = vtype::i64gather(arr, arg + left);
     argzmm_t argvec_right = argtype::loadu(arg + (right - vtype::numlanes));
-    reg_t vec_right
-            = vtype::template i64gather<sizeof(type_t)>(argvec_right, arr);
+    reg_t vec_right = vtype::i64gather(arr, arg + (right - vtype::numlanes));
     // store points of the vectors
     int64_t r_store = right - vtype::numlanes;
     int64_t l_store = left;
@@ -113,11 +111,11 @@ static inline int64_t partition_avx512(type_t *arr,
         if ((r_store + vtype::numlanes) - right < left - l_store) {
             right -= vtype::numlanes;
             arg_vec = argtype::loadu(arg + right);
-            curr_vec = vtype::template i64gather<sizeof(type_t)>(arg_vec, arr);
+            curr_vec = vtype::i64gather(arr, arg + right);
         }
         else {
             arg_vec = argtype::loadu(arg + left);
-            curr_vec = vtype::template i64gather<sizeof(type_t)>(arg_vec, arr);
+            curr_vec = vtype::i64gather(arr, arg + left);
             left += vtype::numlanes;
         }
         // partition the current vector and save it on both sides of the array
@@ -201,12 +199,11 @@ static inline int64_t partition_avx512_unrolled(type_t *arr,
 X86_SIMD_SORT_UNROLL_LOOP(8)
     for (int ii = 0; ii < num_unroll; ++ii) {
         argvec_left[ii] = argtype::loadu(arg + left + vtype::numlanes * ii);
-        vec_left[ii] = vtype::template i64gather<sizeof(type_t)>(
-                argvec_left[ii], arr);
+        vec_left[ii] = vtype::i64gather(arr, arg + left + vtype::numlanes * ii);
         argvec_right[ii] = argtype::loadu(
                 arg + (right - vtype::numlanes * (num_unroll - ii)));
-        vec_right[ii] = vtype::template i64gather<sizeof(type_t)>(
-                argvec_right[ii], arr);
+        vec_right[ii] = vtype::i64gather(
+                arr, arg + (right - vtype::numlanes * (num_unroll - ii)));
     }
     // store points of the vectors
     int64_t r_store = right - vtype::numlanes;
@@ -228,16 +225,16 @@ X86_SIMD_SORT_UNROLL_LOOP(8)
             for (int ii = 0; ii < num_unroll; ++ii) {
                 arg_vec[ii]
                         = argtype::loadu(arg + right + ii * vtype::numlanes);
-                curr_vec[ii] = vtype::template i64gather<sizeof(type_t)>(
-                        arg_vec[ii], arr);
+                curr_vec[ii] = vtype::i64gather(
+                        arr, arg + right + ii * vtype::numlanes);
             }
         }
         else {
 X86_SIMD_SORT_UNROLL_LOOP(8)
             for (int ii = 0; ii < num_unroll; ++ii) {
                 arg_vec[ii] = argtype::loadu(arg + left + ii * vtype::numlanes);
-                curr_vec[ii] = vtype::template i64gather<sizeof(type_t)>(
-                        arg_vec[ii], arr);
+                curr_vec[ii] = vtype::i64gather(
+                        arr, arg + left + ii * vtype::numlanes);
             }
             left += num_unroll * vtype::numlanes;
         }
diff --git a/src/avx512-common-qsort.h b/src/avx512-common-qsort.h

Original file line number	Diff line number	Diff line change
`@@ -45,12 +45,22 @@ struct ymm_vector<float> {`
`45`	`45`	`{`
`46`	`46`	`return _mm256_set1_ps(type_max());`
`47`	`47`	`}`
`48`		`-`
`49`	`48`	`static zmmi_t`
`50`	`49`	`seti(int v1, int v2, int v3, int v4, int v5, int v6, int v7, int v8)`
`51`	`50`	`{`
`52`	`51`	`return _mm256_set_epi32(v1, v2, v3, v4, v5, v6, v7, v8);`
`53`	`52`	`}`
	`53`	`+ static reg_t set(type_t v1,`
	`54`	`+ type_t v2,`
	`55`	`+ type_t v3,`
	`56`	`+ type_t v4,`
	`57`	`+ type_t v5,`
	`58`	`+ type_t v6,`
	`59`	`+ type_t v7,`
	`60`	`+ type_t v8)`
	`61`	`+ {`
	`62`	`+ return _mm256_set_ps(v1, v2, v3, v4, v5, v6, v7, v8);`
	`63`	`+ }`
`54`	`64`	`static opmask_t kxor_opmask(opmask_t x, opmask_t y)`
`55`	`65`	`{`
`56`	`66`	`return _kxor_mask8(x, y);`
`@@ -86,10 +96,16 @@ struct ymm_vector<float> {`
`86`	`96`	`{`
`87`	`97`	`return _mm512_mask_i64gather_ps(src, mask, index, base, scale);`
`88`	`98`	`}`
`89`		`- template <int scale>`
`90`		`- static reg_t i64gather(__m512i index, void const *base)`
	`99`	`+ static reg_t i64gather(type_t arr, int64_t ind)`
`91`	`100`	`{`
`92`		`- return _mm512_i64gather_ps(index, base, scale);`
	`101`	`+ return set(arr[ind[7]],`
	`102`	`+ arr[ind[6]],`
	`103`	`+ arr[ind[5]],`
	`104`	`+ arr[ind[4]],`
	`105`	`+ arr[ind[3]],`
	`106`	`+ arr[ind[2]],`
	`107`	`+ arr[ind[1]],`
	`108`	`+ arr[ind[0]]);`
`93`	`109`	`}`
`94`	`110`	`static reg_t loadu(void const *mem)`
`95`	`111`	`{`
`@@ -195,6 +211,17 @@ struct ymm_vector<uint32_t> {`
`195`	`211`	`{`
`196`	`212`	`return _mm256_set_epi32(v1, v2, v3, v4, v5, v6, v7, v8);`
`197`	`213`	`}`
	`214`	`+ static reg_t set(type_t v1,`
	`215`	`+ type_t v2,`
	`216`	`+ type_t v3,`
	`217`	`+ type_t v4,`
	`218`	`+ type_t v5,`
	`219`	`+ type_t v6,`
	`220`	`+ type_t v7,`
	`221`	`+ type_t v8)`
	`222`	`+ {`
	`223`	`+ return _mm256_set_epi32(v1, v2, v3, v4, v5, v6, v7, v8);`
	`224`	`+ }`
`198`	`225`	`static opmask_t kxor_opmask(opmask_t x, opmask_t y)`
`199`	`226`	`{`
`200`	`227`	`return _kxor_mask8(x, y);`
`@@ -221,10 +248,16 @@ struct ymm_vector<uint32_t> {`
`221`	`248`	`{`
`222`	`249`	`return _mm512_mask_i64gather_epi32(src, mask, index, base, scale);`
`223`	`250`	`}`
`224`		`- template <int scale>`
`225`		`- static reg_t i64gather(__m512i index, void const *base)`
	`251`	`+ static reg_t i64gather(type_t arr, int64_t ind)`
`226`	`252`	`{`
`227`		`- return _mm512_i64gather_epi32(index, base, scale);`
	`253`	`+ return set(arr[ind[7]],`
	`254`	`+ arr[ind[6]],`
	`255`	`+ arr[ind[5]],`
	`256`	`+ arr[ind[4]],`
	`257`	`+ arr[ind[3]],`
	`258`	`+ arr[ind[2]],`
	`259`	`+ arr[ind[1]],`
	`260`	`+ arr[ind[0]]);`
`228`	`261`	`}`
`229`	`262`	`static reg_t loadu(void const *mem)`
`230`	`263`	`{`
`@@ -324,6 +357,17 @@ struct ymm_vector<int32_t> {`
`324`	`357`	`{`
`325`	`358`	`return _mm256_set_epi32(v1, v2, v3, v4, v5, v6, v7, v8);`
`326`	`359`	`}`
	`360`	`+ static reg_t set(type_t v1,`
	`361`	`+ type_t v2,`
	`362`	`+ type_t v3,`
	`363`	`+ type_t v4,`
	`364`	`+ type_t v5,`
	`365`	`+ type_t v6,`
	`366`	`+ type_t v7,`
	`367`	`+ type_t v8)`
	`368`	`+ {`
	`369`	`+ return _mm256_set_epi32(v1, v2, v3, v4, v5, v6, v7, v8);`
	`370`	`+ }`
`327`	`371`	`static opmask_t kxor_opmask(opmask_t x, opmask_t y)`
`328`	`372`	`{`
`329`	`373`	`return _kxor_mask8(x, y);`
`@@ -350,10 +394,16 @@ struct ymm_vector<int32_t> {`
`350`	`394`	`{`
`351`	`395`	`return _mm512_mask_i64gather_epi32(src, mask, index, base, scale);`
`352`	`396`	`}`
`353`		`- template <int scale>`
`354`		`- static reg_t i64gather(__m512i index, void const *base)`
	`397`	`+ static reg_t i64gather(type_t arr, int64_t ind)`
`355`	`398`	`{`
`356`		`- return _mm512_i64gather_epi32(index, base, scale);`
	`399`	`+ return set(arr[ind[7]],`
	`400`	`+ arr[ind[6]],`
	`401`	`+ arr[ind[5]],`
	`402`	`+ arr[ind[4]],`
	`403`	`+ arr[ind[3]],`
	`404`	`+ arr[ind[2]],`
	`405`	`+ arr[ind[1]],`
	`406`	`+ arr[ind[0]]);`
`357`	`407`	`}`
`358`	`408`	`static reg_t loadu(void const *mem)`
`359`	`409`	`{`
`@@ -456,6 +506,17 @@ struct zmm_vector<int64_t> {`
`456`	`506`	`{`
`457`	`507`	`return _mm512_set_epi64(v1, v2, v3, v4, v5, v6, v7, v8);`
`458`	`508`	`}`
	`509`	`+ static reg_t set(type_t v1,`
	`510`	`+ type_t v2,`
	`511`	`+ type_t v3,`
	`512`	`+ type_t v4,`
	`513`	`+ type_t v5,`
	`514`	`+ type_t v6,`
	`515`	`+ type_t v7,`
	`516`	`+ type_t v8)`
	`517`	`+ {`
	`518`	`+ return _mm512_set_epi64(v1, v2, v3, v4, v5, v6, v7, v8);`
	`519`	`+ }`
`459`	`520`	`static opmask_t kxor_opmask(opmask_t x, opmask_t y)`
`460`	`521`	`{`
`461`	`522`	`return _kxor_mask8(x, y);`
`@@ -482,10 +543,16 @@ struct zmm_vector<int64_t> {`
`482`	`543`	`{`
`483`	`544`	`return _mm512_mask_i64gather_epi64(src, mask, index, base, scale);`
`484`	`545`	`}`
`485`		`- template <int scale>`
`486`		`- static reg_t i64gather(__m512i index, void const *base)`
	`546`	`+ static reg_t i64gather(type_t arr, int64_t ind)`
`487`	`547`	`{`
`488`		`- return _mm512_i64gather_epi64(index, base, scale);`
	`548`	`+ return set(arr[ind[7]],`
	`549`	`+ arr[ind[6]],`
	`550`	`+ arr[ind[5]],`
	`551`	`+ arr[ind[4]],`
	`552`	`+ arr[ind[3]],`
	`553`	`+ arr[ind[2]],`
	`554`	`+ arr[ind[1]],`
	`555`	`+ arr[ind[0]]);`
`489`	`556`	`}`
`490`	`557`	`static reg_t loadu(void const *mem)`
`491`	`558`	`{`
`@@ -589,16 +656,33 @@ struct zmm_vector<uint64_t> {`
`589`	`656`	`{`
`590`	`657`	`return _mm512_set_epi64(v1, v2, v3, v4, v5, v6, v7, v8);`
`591`	`658`	`}`
	`659`	`+ static reg_t set(type_t v1,`
	`660`	`+ type_t v2,`
	`661`	`+ type_t v3,`
	`662`	`+ type_t v4,`
	`663`	`+ type_t v5,`
	`664`	`+ type_t v6,`
	`665`	`+ type_t v7,`
	`666`	`+ type_t v8)`
	`667`	`+ {`
	`668`	`+ return _mm512_set_epi64(v1, v2, v3, v4, v5, v6, v7, v8);`
	`669`	`+ }`
`592`	`670`	`template <int scale>`
`593`	`671`	`static reg_t`
`594`	`672`	`mask_i64gather(reg_t src, opmask_t mask, __m512i index, void const *base)`
`595`	`673`	`{`
`596`	`674`	`return _mm512_mask_i64gather_epi64(src, mask, index, base, scale);`
`597`	`675`	`}`
`598`		`- template <int scale>`
`599`		`- static reg_t i64gather(__m512i index, void const *base)`
	`676`	`+ static reg_t i64gather(type_t arr, int64_t ind)`
`600`	`677`	`{`
`601`		`- return _mm512_i64gather_epi64(index, base, scale);`
	`678`	`+ return set(arr[ind[7]],`
	`679`	`+ arr[ind[6]],`
	`680`	`+ arr[ind[5]],`
	`681`	`+ arr[ind[4]],`
	`682`	`+ arr[ind[3]],`
	`683`	`+ arr[ind[2]],`
	`684`	`+ arr[ind[1]],`
	`685`	`+ arr[ind[0]]);`
`602`	`686`	`}`
`603`	`687`	`static opmask_t knot_opmask(opmask_t x)`
`604`	`688`	`{`
`@@ -704,13 +788,22 @@ struct zmm_vector<double> {`
`704`	`788`	`{`
`705`	`789`	`return _mm512_set1_pd(type_max());`
`706`	`790`	`}`
`707`		`-`
`708`	`791`	`static zmmi_t`
`709`	`792`	`seti(int v1, int v2, int v3, int v4, int v5, int v6, int v7, int v8)`
`710`	`793`	`{`
`711`	`794`	`return _mm512_set_epi64(v1, v2, v3, v4, v5, v6, v7, v8);`
`712`	`795`	`}`
`713`		`-`
	`796`	`+ static reg_t set(type_t v1,`
	`797`	`+ type_t v2,`
	`798`	`+ type_t v3,`
	`799`	`+ type_t v4,`
	`800`	`+ type_t v5,`
	`801`	`+ type_t v6,`
	`802`	`+ type_t v7,`
	`803`	`+ type_t v8)`
	`804`	`+ {`
	`805`	`+ return _mm512_set_pd(v1, v2, v3, v4, v5, v6, v7, v8);`
	`806`	`+ }`
`714`	`807`	`static reg_t maskz_loadu(opmask_t mask, void const *mem)`
`715`	`808`	`{`
`716`	`809`	`return _mm512_maskz_loadu_pd(mask, mem);`
`@@ -742,10 +835,16 @@ struct zmm_vector<double> {`
`742`	`835`	`{`
`743`	`836`	`return _mm512_mask_i64gather_pd(src, mask, index, base, scale);`
`744`	`837`	`}`
`745`		`- template <int scale>`
`746`		`- static reg_t i64gather(__m512i index, void const *base)`
	`838`	`+ static reg_t i64gather(type_t arr, int64_t ind)`
`747`	`839`	`{`
`748`		`- return _mm512_i64gather_pd(index, base, scale);`
	`840`	`+ return set(arr[ind[7]],`
	`841`	`+ arr[ind[6]],`
	`842`	`+ arr[ind[5]],`
	`843`	`+ arr[ind[4]],`
	`844`	`+ arr[ind[3]],`
	`845`	`+ arr[ind[2]],`
	`846`	`+ arr[ind[1]],`
	`847`	`+ arr[ind[0]]);`
`749`	`848`	`}`
`750`	`849`	`static reg_t loadu(void const *mem)`
`751`	`850`	`{`
`@@ -841,7 +940,6 @@ X86_SIMD_SORT_INLINE reg_t sort_zmm_64bit(reg_t zmm)`
`841`	`940`	`template <typename vtype, typename reg_t = typename vtype::reg_t>`
`842`	`941`	`X86_SIMD_SORT_INLINE reg_t bitonic_merge_zmm_64bit(reg_t zmm)`
`843`	`942`	`{`
`844`		`-`
`845`	`943`	`// 1) half_cleaner[8]: compare 0-4, 1-5, 2-6, 3-7`
`846`	`944`	`zmm = cmp_merge<vtype>(`
`847`	`945`	`zmm,`