numpy
diff --git a/‎src/avx512-16bit-qsort.hpp‎
Lines changed: 2 additions & 2 deletions b/‎src/avx512-16bit-qsort.hpp‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎src/avx512-32bit-qsort.hpp‎
Lines changed: 10 additions & 4 deletions b/‎src/avx512-32bit-qsort.hpp‎
Lines changed: 10 additions & 4 deletions
diff --git a/‎src/avx512-64bit-argsort.hpp‎
Lines changed: 39 additions & 27 deletions b/‎src/avx512-64bit-argsort.hpp‎
Lines changed: 39 additions & 27 deletions
diff --git a/‎src/avx512-64bit-keyvalue-networks.hpp‎
Lines changed: 32 additions & 32 deletions b/‎src/avx512-64bit-keyvalue-networks.hpp‎
Lines changed: 32 additions & 32 deletions
diff --git a/‎src/avx512-64bit-qsort.hpp‎
Lines changed: 14 additions & 5 deletions b/‎src/avx512-64bit-qsort.hpp‎
Lines changed: 14 additions & 5 deletions
diff --git a/‎src/avx512fp16-16bit-qsort.hpp‎
Lines changed: 2 additions & 2 deletions b/‎src/avx512fp16-16bit-qsort.hpp‎
Lines changed: 2 additions & 2 deletions
@@ -433,11 +433,11 @@ void avx512_qselect_fp16(uint16_t *arr, int64_t k, int64_t arrsize, bool hasnan)
 {
     int64_t indx_last_elem = arrsize - 1;
     if (UNLIKELY(hasnan)) {
-         indx_last_elem = move_nans_to_end_of_array(arr, arrsize);
+        indx_last_elem = move_nans_to_end_of_array(arr, arrsize);
     }
     if (indx_last_elem >= k) {
         qselect_16bit_<zmm_vector<float16>, uint16_t>(
-            arr, k, 0, indx_last_elem, 2 * (int64_t)log2(indx_last_elem));
+                arr, k, 0, indx_last_elem, 2 * (int64_t)log2(indx_last_elem));
     }
 }
 
 
@@ -715,7 +715,10 @@ replace_inf_with_nan(float *arr, int64_t arrsize, int64_t nan_count)
 }
 
 template <>
-void avx512_qselect<int32_t>(int32_t *arr, int64_t k, int64_t arrsize, bool hasnan)
+void avx512_qselect<int32_t>(int32_t *arr,
+                             int64_t k,
+                             int64_t arrsize,
+                             bool hasnan)
 {
     if (arrsize > 1) {
         qselect_32bit_<zmm_vector<int32_t>, int32_t>(
@@ -724,7 +727,10 @@ void avx512_qselect<int32_t>(int32_t *arr, int64_t k, int64_t arrsize, bool hasn
 }
 
 template <>
-void avx512_qselect<uint32_t>(uint32_t *arr, int64_t k, int64_t arrsize, bool hasnan)
+void avx512_qselect<uint32_t>(uint32_t *arr,
+                              int64_t k,
+                              int64_t arrsize,
+                              bool hasnan)
 {
     if (arrsize > 1) {
         qselect_32bit_<zmm_vector<uint32_t>, uint32_t>(
@@ -737,11 +743,11 @@ void avx512_qselect<float>(float *arr, int64_t k, int64_t arrsize, bool hasnan)
 {
     int64_t indx_last_elem = arrsize - 1;
     if (UNLIKELY(hasnan)) {
-         indx_last_elem = move_nans_to_end_of_array(arr, arrsize);
+        indx_last_elem = move_nans_to_end_of_array(arr, arrsize);
     }
     if (indx_last_elem >= k) {
         qselect_32bit_<zmm_vector<float>, float>(
-            arr, k, 0, indx_last_elem, 2 * (int64_t)log2(indx_last_elem));
+                arr, k, 0, indx_last_elem, 2 * (int64_t)log2(indx_last_elem));
     }
 }
 
 
@@ -8,33 +8,45 @@
 #define AVX512_ARGSORT_64BIT
 
 #include "avx512-64bit-common.h"
-#include "avx512-common-argsort.h"
 #include "avx512-64bit-keyvalue-networks.hpp"
+#include "avx512-common-argsort.h"
 
 template <typename T>
-void std_argselect_withnan(T *arr, int64_t *arg, int64_t k, int64_t left, int64_t right)
+void std_argselect_withnan(
+        T *arr, int64_t *arg, int64_t k, int64_t left, int64_t right)
 {
     std::nth_element(arg + left,
                      arg + k,
                      arg + right,
                      [arr](int64_t a, int64_t b) -> bool {
-                     if ((!std::isnan(arr[a])) && (!std::isnan(arr[b]))) {return arr[a] < arr[b];}
-                     else if (std::isnan(arr[a])) {return false;}
-                     else {return true;}
+                         if ((!std::isnan(arr[a])) && (!std::isnan(arr[b]))) {
+                             return arr[a] < arr[b];
+                         }
+                         else if (std::isnan(arr[a])) {
+                             return false;
+                         }
+                         else {
+                             return true;
+                         }
                      });
 }
 
-
 /* argsort using std::sort */
 template <typename T>
 void std_argsort_withnan(T *arr, int64_t *arg, int64_t left, int64_t right)
 {
     std::sort(arg + left,
               arg + right,
               [arr](int64_t left, int64_t right) -> bool {
-              if ((!std::isnan(arr[left])) && (!std::isnan(arr[right]))) {return arr[left] < arr[right];}
-              else if (std::isnan(arr[left])) {return false;}
-              else {return true;}
+                  if ((!std::isnan(arr[left])) && (!std::isnan(arr[right]))) {
+                      return arr[left] < arr[right];
+                  }
+                  else if (std::isnan(arr[left])) {
+                      return false;
+                  }
+                  else {
+                      return true;
+                  }
               });
 }
 
@@ -325,13 +337,15 @@ static void argselect_64bit_(type_t *arr,
     int64_t pivot_index = partition_avx512_unrolled<vtype, 4>(
             arr, arg, left, right + 1, pivot, &smallest, &biggest);
     if ((pivot != smallest) && (pos < pivot_index))
-        argselect_64bit_<vtype>(arr, arg, pos, left, pivot_index - 1, max_iters - 1);
+        argselect_64bit_<vtype>(
+                arr, arg, pos, left, pivot_index - 1, max_iters - 1);
     else if ((pivot != biggest) && (pos >= pivot_index))
-        argselect_64bit_<vtype>(arr, arg, pos, pivot_index, right, max_iters - 1);
+        argselect_64bit_<vtype>(
+                arr, arg, pos, pivot_index, right, max_iters - 1);
 }
 
 template <typename vtype, typename type_t>
-bool has_nan(type_t* arr, int64_t arrsize)
+bool has_nan(type_t *arr, int64_t arrsize)
 {
     using opmask_t = typename vtype::opmask_t;
     using zmm_t = typename vtype::zmm_t;
@@ -346,7 +360,7 @@ bool has_nan(type_t* arr, int64_t arrsize)
         else {
             in = vtype::loadu(arr);
         }
-        opmask_t nanmask = vtype::template fpclass<0x01|0x80>(in);
+        opmask_t nanmask = vtype::template fpclass<0x01 | 0x80>(in);
         arr += vtype::numlanes;
         arrsize -= vtype::numlanes;
         if (nanmask != 0x00) {
@@ -357,10 +371,9 @@ bool has_nan(type_t* arr, int64_t arrsize)
     return found_nan;
 }
 
-
 /* argsort methods for 32-bit and 64-bit dtypes */
 template <typename T>
-void avx512_argsort(T* arr, int64_t *arg, int64_t arrsize)
+void avx512_argsort(T *arr, int64_t *arg, int64_t arrsize)
 {
     if (arrsize > 1) {
         argsort_64bit_<zmm_vector<T>>(
@@ -369,7 +382,7 @@ void avx512_argsort(T* arr, int64_t *arg, int64_t arrsize)
 }
 
 template <>
-void avx512_argsort(double* arr, int64_t *arg, int64_t arrsize)
+void avx512_argsort(double *arr, int64_t *arg, int64_t arrsize)
 {
     if (arrsize > 1) {
         if (has_nan<zmm_vector<double>>(arr, arrsize)) {
@@ -382,9 +395,8 @@ void avx512_argsort(double* arr, int64_t *arg, int64_t arrsize)
     }
 }
 
-
 template <>
-void avx512_argsort(int32_t* arr, int64_t *arg, int64_t arrsize)
+void avx512_argsort(int32_t *arr, int64_t *arg, int64_t arrsize)
 {
     if (arrsize > 1) {
         argsort_64bit_<ymm_vector<int32_t>>(
@@ -393,7 +405,7 @@ void avx512_argsort(int32_t* arr, int64_t *arg, int64_t arrsize)
 }
 
 template <>
-void avx512_argsort(uint32_t* arr, int64_t *arg, int64_t arrsize)
+void avx512_argsort(uint32_t *arr, int64_t *arg, int64_t arrsize)
 {
     if (arrsize > 1) {
         argsort_64bit_<ymm_vector<uint32_t>>(
@@ -402,7 +414,7 @@ void avx512_argsort(uint32_t* arr, int64_t *arg, int64_t arrsize)
 }
 
 template <>
-void avx512_argsort(float* arr, int64_t *arg, int64_t arrsize)
+void avx512_argsort(float *arr, int64_t *arg, int64_t arrsize)
 {
     if (arrsize > 1) {
         if (has_nan<ymm_vector<float>>(arr, arrsize)) {
@@ -416,7 +428,7 @@ void avx512_argsort(float* arr, int64_t *arg, int64_t arrsize)
 }
 
 template <typename T>
-std::vector<int64_t> avx512_argsort(T* arr, int64_t arrsize)
+std::vector<int64_t> avx512_argsort(T *arr, int64_t arrsize)
 {
     std::vector<int64_t> indices(arrsize);
     std::iota(indices.begin(), indices.end(), 0);
@@ -426,7 +438,7 @@ std::vector<int64_t> avx512_argsort(T* arr, int64_t arrsize)
 
 /* argselect methods for 32-bit and 64-bit dtypes */
 template <typename T>
-void avx512_argselect(T* arr, int64_t *arg, int64_t k, int64_t arrsize)
+void avx512_argselect(T *arr, int64_t *arg, int64_t k, int64_t arrsize)
 {
     if (arrsize > 1) {
         argselect_64bit_<zmm_vector<T>>(
@@ -435,7 +447,7 @@ void avx512_argselect(T* arr, int64_t *arg, int64_t k, int64_t arrsize)
 }
 
 template <>
-void avx512_argselect(double* arr, int64_t *arg, int64_t k, int64_t arrsize)
+void avx512_argselect(double *arr, int64_t *arg, int64_t k, int64_t arrsize)
 {
     if (arrsize > 1) {
         if (has_nan<zmm_vector<double>>(arr, arrsize)) {
@@ -449,7 +461,7 @@ void avx512_argselect(double* arr, int64_t *arg, int64_t k, int64_t arrsize)
 }
 
 template <>
-void avx512_argselect(int32_t* arr, int64_t *arg, int64_t k, int64_t arrsize)
+void avx512_argselect(int32_t *arr, int64_t *arg, int64_t k, int64_t arrsize)
 {
     if (arrsize > 1) {
         argselect_64bit_<ymm_vector<int32_t>>(
@@ -458,7 +470,7 @@ void avx512_argselect(int32_t* arr, int64_t *arg, int64_t k, int64_t arrsize)
 }
 
 template <>
-void avx512_argselect(uint32_t* arr, int64_t *arg, int64_t k, int64_t arrsize)
+void avx512_argselect(uint32_t *arr, int64_t *arg, int64_t k, int64_t arrsize)
 {
     if (arrsize > 1) {
         argselect_64bit_<ymm_vector<uint32_t>>(
@@ -467,7 +479,7 @@ void avx512_argselect(uint32_t* arr, int64_t *arg, int64_t k, int64_t arrsize)
 }
 
 template <>
-void avx512_argselect(float* arr, int64_t *arg, int64_t k, int64_t arrsize)
+void avx512_argselect(float *arr, int64_t *arg, int64_t k, int64_t arrsize)
 {
     if (arrsize > 1) {
         if (has_nan<ymm_vector<float>>(arr, arrsize)) {
@@ -481,7 +493,7 @@ void avx512_argselect(float* arr, int64_t *arg, int64_t k, int64_t arrsize)
 }
 
 template <typename T>
-std::vector<int64_t> avx512_argselect(T* arr, int64_t k, int64_t arrsize)
+std::vector<int64_t> avx512_argselect(T *arr, int64_t k, int64_t arrsize)
 {
     std::vector<int64_t> indices(arrsize);
     std::iota(indices.begin(), indices.end(), 0);
 
@@ -136,14 +136,14 @@ X86_SIMD_SORT_INLINE void bitonic_merge_four_zmm_64bit(zmm_t *key_zmm,
     typename vtype1::opmask_t movmask1 = vtype1::eq(key_zmm_t1, key_zmm[0]);
     typename vtype1::opmask_t movmask2 = vtype1::eq(key_zmm_t2, key_zmm[1]);
 
-    index_type index_zmm_t1 = vtype2::mask_mov(
-            index_zmm3r, movmask1, index_zmm[0]);
-    index_type index_zmm_m1 = vtype2::mask_mov(
-            index_zmm[0], movmask1, index_zmm3r);
-    index_type index_zmm_t2 = vtype2::mask_mov(
-            index_zmm2r, movmask2, index_zmm[1]);
-    index_type index_zmm_m2 = vtype2::mask_mov(
-            index_zmm[1], movmask2, index_zmm2r);
+    index_type index_zmm_t1
+            = vtype2::mask_mov(index_zmm3r, movmask1, index_zmm[0]);
+    index_type index_zmm_m1
+            = vtype2::mask_mov(index_zmm[0], movmask1, index_zmm3r);
+    index_type index_zmm_t2
+            = vtype2::mask_mov(index_zmm2r, movmask2, index_zmm[1]);
+    index_type index_zmm_m2
+            = vtype2::mask_mov(index_zmm[1], movmask2, index_zmm2r);
 
     // 2) Recursive half clearer: 16
     zmm_t key_zmm_t3 = vtype1::permutexvar(rev_index1, key_zmm_m2);
@@ -159,14 +159,14 @@ X86_SIMD_SORT_INLINE void bitonic_merge_four_zmm_64bit(zmm_t *key_zmm,
     movmask1 = vtype1::eq(key_zmm0, key_zmm_t1);
     movmask2 = vtype1::eq(key_zmm2, key_zmm_t3);
 
-    index_type index_zmm0 = vtype2::mask_mov(
-            index_zmm_t2, movmask1, index_zmm_t1);
-    index_type index_zmm1 = vtype2::mask_mov(
-            index_zmm_t1, movmask1, index_zmm_t2);
-    index_type index_zmm2 = vtype2::mask_mov(
-            index_zmm_t4, movmask2, index_zmm_t3);
-    index_type index_zmm3 = vtype2::mask_mov(
-            index_zmm_t3, movmask2, index_zmm_t4);
+    index_type index_zmm0
+            = vtype2::mask_mov(index_zmm_t2, movmask1, index_zmm_t1);
+    index_type index_zmm1
+            = vtype2::mask_mov(index_zmm_t1, movmask1, index_zmm_t2);
+    index_type index_zmm2
+            = vtype2::mask_mov(index_zmm_t4, movmask2, index_zmm_t3);
+    index_type index_zmm3
+            = vtype2::mask_mov(index_zmm_t3, movmask2, index_zmm_t4);
 
     key_zmm[0] = bitonic_merge_zmm_64bit<vtype1, vtype2>(key_zmm0, index_zmm0);
     key_zmm[1] = bitonic_merge_zmm_64bit<vtype1, vtype2>(key_zmm1, index_zmm1);
@@ -212,22 +212,22 @@ X86_SIMD_SORT_INLINE void bitonic_merge_eight_zmm_64bit(zmm_t *key_zmm,
     typename vtype1::opmask_t movmask3 = vtype1::eq(key_zmm_t3, key_zmm[2]);
     typename vtype1::opmask_t movmask4 = vtype1::eq(key_zmm_t4, key_zmm[3]);
 
-    index_type index_zmm_t1 = vtype2::mask_mov(
-            index_zmm7r, movmask1, index_zmm[0]);
-    index_type index_zmm_m1 = vtype2::mask_mov(
-            index_zmm[0], movmask1, index_zmm7r);
-    index_type index_zmm_t2 = vtype2::mask_mov(
-            index_zmm6r, movmask2, index_zmm[1]);
-    index_type index_zmm_m2 = vtype2::mask_mov(
-            index_zmm[1], movmask2, index_zmm6r);
-    index_type index_zmm_t3 = vtype2::mask_mov(
-            index_zmm5r, movmask3, index_zmm[2]);
-    index_type index_zmm_m3 = vtype2::mask_mov(
-            index_zmm[2], movmask3, index_zmm5r);
-    index_type index_zmm_t4 = vtype2::mask_mov(
-            index_zmm4r, movmask4, index_zmm[3]);
-    index_type index_zmm_m4 = vtype2::mask_mov(
-            index_zmm[3], movmask4, index_zmm4r);
+    index_type index_zmm_t1
+            = vtype2::mask_mov(index_zmm7r, movmask1, index_zmm[0]);
+    index_type index_zmm_m1
+            = vtype2::mask_mov(index_zmm[0], movmask1, index_zmm7r);
+    index_type index_zmm_t2
+            = vtype2::mask_mov(index_zmm6r, movmask2, index_zmm[1]);
+    index_type index_zmm_m2
+            = vtype2::mask_mov(index_zmm[1], movmask2, index_zmm6r);
+    index_type index_zmm_t3
+            = vtype2::mask_mov(index_zmm5r, movmask3, index_zmm[2]);
+    index_type index_zmm_m3
+            = vtype2::mask_mov(index_zmm[2], movmask3, index_zmm5r);
+    index_type index_zmm_t4
+            = vtype2::mask_mov(index_zmm4r, movmask4, index_zmm[3]);
+    index_type index_zmm_m4
+            = vtype2::mask_mov(index_zmm[3], movmask4, index_zmm4r);
 
     zmm_t key_zmm_t5 = vtype1::permutexvar(rev_index1, key_zmm_m4);
     zmm_t key_zmm_t6 = vtype1::permutexvar(rev_index1, key_zmm_m3);
 
@@ -784,7 +784,10 @@ static void qselect_64bit_(type_t *arr,
 }
 
 template <>
-void avx512_qselect<int64_t>(int64_t *arr, int64_t k, int64_t arrsize, bool hasnan)
+void avx512_qselect<int64_t>(int64_t *arr,
+                             int64_t k,
+                             int64_t arrsize,
+                             bool hasnan)
 {
     if (arrsize > 1) {
         qselect_64bit_<zmm_vector<int64_t>, int64_t>(
@@ -793,7 +796,10 @@ void avx512_qselect<int64_t>(int64_t *arr, int64_t k, int64_t arrsize, bool hasn
 }
 
 template <>
-void avx512_qselect<uint64_t>(uint64_t *arr, int64_t k, int64_t arrsize, bool hasnan)
+void avx512_qselect<uint64_t>(uint64_t *arr,
+                              int64_t k,
+                              int64_t arrsize,
+                              bool hasnan)
 {
     if (arrsize > 1) {
         qselect_64bit_<zmm_vector<uint64_t>, uint64_t>(
@@ -802,15 +808,18 @@ void avx512_qselect<uint64_t>(uint64_t *arr, int64_t k, int64_t arrsize, bool ha
 }
 
 template <>
-void avx512_qselect<double>(double *arr, int64_t k, int64_t arrsize, bool hasnan)
+void avx512_qselect<double>(double *arr,
+                            int64_t k,
+                            int64_t arrsize,
+                            bool hasnan)
 {
     int64_t indx_last_elem = arrsize - 1;
     if (UNLIKELY(hasnan)) {
-         indx_last_elem = move_nans_to_end_of_array(arr, arrsize);
+        indx_last_elem = move_nans_to_end_of_array(arr, arrsize);
     }
     if (indx_last_elem >= k) {
         qselect_64bit_<zmm_vector<double>, double>(
-            arr, k, 0, indx_last_elem, 2 * (int64_t)log2(indx_last_elem));
+                arr, k, 0, indx_last_elem, 2 * (int64_t)log2(indx_last_elem));
     }
 }
 
 
@@ -157,11 +157,11 @@ void avx512_qselect(_Float16 *arr, int64_t k, int64_t arrsize, bool hasnan)
 {
     int64_t indx_last_elem = arrsize - 1;
     if (UNLIKELY(hasnan)) {
-         indx_last_elem = move_nans_to_end_of_array(arr, arrsize);
+        indx_last_elem = move_nans_to_end_of_array(arr, arrsize);
     }
     if (indx_last_elem >= k) {
         qselect_16bit_<zmm_vector<_Float16>, _Float16>(
-            arr, k, 0, indx_last_elem, 2 * (int64_t)log2(indx_last_elem));
+                arr, k, 0, indx_last_elem, 2 * (int64_t)log2(indx_last_elem));
     }
 }
Original file line number	Diff line number	Diff line change
`@@ -433,11 +433,11 @@ void avx512_qselect_fp16(uint16_t *arr, int64_t k, int64_t arrsize, bool hasnan)`
`433`	`433`	`{`
`434`	`434`	`int64_t indx_last_elem = arrsize - 1;`
`435`	`435`	`if (UNLIKELY(hasnan)) {`
`436`		`- indx_last_elem = move_nans_to_end_of_array(arr, arrsize);`
	`436`	`+ indx_last_elem = move_nans_to_end_of_array(arr, arrsize);`
`437`	`437`	`}`
`438`	`438`	`if (indx_last_elem >= k) {`
`439`	`439`	`qselect_16bit_<zmm_vector<float16>, uint16_t>(`
`440`		`- arr, k, 0, indx_last_elem, 2 * (int64_t)log2(indx_last_elem));`
	`440`	`+ arr, k, 0, indx_last_elem, 2 * (int64_t)log2(indx_last_elem));`
`441`	`441`	`}`
`442`	`442`	`}`
`443`	`443`
Original file line number	Diff line number	Diff line change
`@@ -715,7 +715,10 @@ replace_inf_with_nan(float *arr, int64_t arrsize, int64_t nan_count)`
`715`	`715`	`}`
`716`	`716`
`717`	`717`	`template <>`
`718`		`-void avx512_qselect<int32_t>(int32_t *arr, int64_t k, int64_t arrsize, bool hasnan)`
	`718`	`+void avx512_qselect<int32_t>(int32_t *arr,`
	`719`	`+ int64_t k,`
	`720`	`+ int64_t arrsize,`
	`721`	`+ bool hasnan)`
`719`	`722`	`{`
`720`	`723`	`if (arrsize > 1) {`
`721`	`724`	`qselect_32bit_<zmm_vector<int32_t>, int32_t>(`
`@@ -724,7 +727,10 @@ void avx512_qselect<int32_t>(int32_t *arr, int64_t k, int64_t arrsize, bool hasn`
`724`	`727`	`}`
`725`	`728`
`726`	`729`	`template <>`
`727`		`-void avx512_qselect<uint32_t>(uint32_t *arr, int64_t k, int64_t arrsize, bool hasnan)`
	`730`	`+void avx512_qselect<uint32_t>(uint32_t *arr,`
	`731`	`+ int64_t k,`
	`732`	`+ int64_t arrsize,`
	`733`	`+ bool hasnan)`
`728`	`734`	`{`
`729`	`735`	`if (arrsize > 1) {`
`730`	`736`	`qselect_32bit_<zmm_vector<uint32_t>, uint32_t>(`
`@@ -737,11 +743,11 @@ void avx512_qselect<float>(float *arr, int64_t k, int64_t arrsize, bool hasnan)`
`737`	`743`	`{`
`738`	`744`	`int64_t indx_last_elem = arrsize - 1;`
`739`	`745`	`if (UNLIKELY(hasnan)) {`
`740`		`- indx_last_elem = move_nans_to_end_of_array(arr, arrsize);`
	`746`	`+ indx_last_elem = move_nans_to_end_of_array(arr, arrsize);`
`741`	`747`	`}`
`742`	`748`	`if (indx_last_elem >= k) {`
`743`	`749`	`qselect_32bit_<zmm_vector<float>, float>(`
`744`		`- arr, k, 0, indx_last_elem, 2 * (int64_t)log2(indx_last_elem));`
	`750`	`+ arr, k, 0, indx_last_elem, 2 * (int64_t)log2(indx_last_elem));`
`745`	`751`	`}`
`746`	`752`	`}`
`747`	`753`
Original file line number	Diff line number	Diff line change
`@@ -784,7 +784,10 @@ static void qselect_64bit_(type_t *arr,`
`784`	`784`	`}`
`785`	`785`
`786`	`786`	`template <>`
`787`		`-void avx512_qselect<int64_t>(int64_t *arr, int64_t k, int64_t arrsize, bool hasnan)`
	`787`	`+void avx512_qselect<int64_t>(int64_t *arr,`
	`788`	`+ int64_t k,`
	`789`	`+ int64_t arrsize,`
	`790`	`+ bool hasnan)`
`788`	`791`	`{`
`789`	`792`	`if (arrsize > 1) {`
`790`	`793`	`qselect_64bit_<zmm_vector<int64_t>, int64_t>(`
`@@ -793,7 +796,10 @@ void avx512_qselect<int64_t>(int64_t *arr, int64_t k, int64_t arrsize, bool hasn`
`793`	`796`	`}`
`794`	`797`
`795`	`798`	`template <>`
`796`		`-void avx512_qselect<uint64_t>(uint64_t *arr, int64_t k, int64_t arrsize, bool hasnan)`
	`799`	`+void avx512_qselect<uint64_t>(uint64_t *arr,`
	`800`	`+ int64_t k,`
	`801`	`+ int64_t arrsize,`
	`802`	`+ bool hasnan)`
`797`	`803`	`{`
`798`	`804`	`if (arrsize > 1) {`
`799`	`805`	`qselect_64bit_<zmm_vector<uint64_t>, uint64_t>(`
`@@ -802,15 +808,18 @@ void avx512_qselect<uint64_t>(uint64_t *arr, int64_t k, int64_t arrsize, bool ha`
`802`	`808`	`}`
`803`	`809`
`804`	`810`	`template <>`
`805`		`-void avx512_qselect<double>(double *arr, int64_t k, int64_t arrsize, bool hasnan)`
	`811`	`+void avx512_qselect<double>(double *arr,`
	`812`	`+ int64_t k,`
	`813`	`+ int64_t arrsize,`
	`814`	`+ bool hasnan)`
`806`	`815`	`{`
`807`	`816`	`int64_t indx_last_elem = arrsize - 1;`
`808`	`817`	`if (UNLIKELY(hasnan)) {`
`809`		`- indx_last_elem = move_nans_to_end_of_array(arr, arrsize);`
	`818`	`+ indx_last_elem = move_nans_to_end_of_array(arr, arrsize);`
`810`	`819`	`}`
`811`	`820`	`if (indx_last_elem >= k) {`
`812`	`821`	`qselect_64bit_<zmm_vector<double>, double>(`
`813`		`- arr, k, 0, indx_last_elem, 2 * (int64_t)log2(indx_last_elem));`
	`822`	`+ arr, k, 0, indx_last_elem, 2 * (int64_t)log2(indx_last_elem));`
`814`	`823`	`}`
`815`	`824`	`}`
`816`	`825`
Original file line number	Diff line number	Diff line change
`@@ -157,11 +157,11 @@ void avx512_qselect(_Float16 *arr, int64_t k, int64_t arrsize, bool hasnan)`
`157`	`157`	`{`
`158`	`158`	`int64_t indx_last_elem = arrsize - 1;`
`159`	`159`	`if (UNLIKELY(hasnan)) {`
`160`		`- indx_last_elem = move_nans_to_end_of_array(arr, arrsize);`
	`160`	`+ indx_last_elem = move_nans_to_end_of_array(arr, arrsize);`
`161`	`161`	`}`
`162`	`162`	`if (indx_last_elem >= k) {`
`163`	`163`	`qselect_16bit_<zmm_vector<_Float16>, _Float16>(`
`164`		`- arr, k, 0, indx_last_elem, 2 * (int64_t)log2(indx_last_elem));`
	`164`	`+ arr, k, 0, indx_last_elem, 2 * (int64_t)log2(indx_last_elem));`
`165`	`165`	`}`
`166`	`166`	`}`
`167`	`167`