NVIDIA · brycelelbach · Dec 11, 2024 · Dec 13, 2024
@@ -2,24 +2,26 @@
 #
 # SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
 
-from cuda.cooperative.experimental.block._block_merge_sort import merge_sort_keys
+from cuda.cooperative.experimental.block._block_load_store import load
+from cuda.cooperative.experimental.block._block_load_store import store
 from cuda.cooperative.experimental.block._block_reduce import reduce
 from cuda.cooperative.experimental.block._block_reduce import sum
 from cuda.cooperative.experimental.block._block_scan import exclusive_sum
+from cuda.cooperative.experimental.block._block_scan import inclusive_sum
+from cuda.cooperative.experimental.block._block_merge_sort import merge_sort_keys
 from cuda.cooperative.experimental.block._block_radix_sort import radix_sort_keys
 from cuda.cooperative.experimental.block._block_radix_sort import (
     radix_sort_keys_descending,
 )
-from cuda.cooperative.experimental.block._block_load_store import load
-from cuda.cooperative.experimental.block._block_load_store import store
 
 __all__ = [
-    "merge_sort_keys",
+    "load",
+    "store",
     "reduce",
     "sum",
     "exclusive_sum",
+    "inclusive_sum",
+    "merge_sort_keys",
     "radix_sort_keys",
     "radix_sort_keys_descending",
-    "load",
-    "store",
 ]
@@ -91,3 +91,43 @@ def exclusive_sum(dtype, threads_in_block, items_per_thread, prefix_op=None):
         temp_storage_bytes=specialization.get_temp_storage_bytes(),
         algorithm=specialization,
     )
+
+def inclusive_sum(dtype, threads_in_block, items_per_thread, prefix_op=None):
+    template = Algorithm(
+        "BlockScan",
+        "InclusiveSum",
+        "block_scan",
+        ["cub/block/block_scan.cuh"],
+        [TemplateParameter("T"), TemplateParameter("BLOCK_DIM_X")],
+        [
+            [
+                Pointer(numba.uint8),
+                DependentArray(Dependency("T"), Dependency("ITEMS_PER_THREAD")),
+                DependentArray(Dependency("T"), Dependency("ITEMS_PER_THREAD")),
+                DependentOperator(
+                    Dependency("T"), [Dependency("T")], Dependency("PrefixOp")
+                ),
+            ],
+            [
+                Pointer(numba.uint8),
+                DependentArray(Dependency("T"), Dependency("ITEMS_PER_THREAD")),
+                DependentArray(Dependency("T"), Dependency("ITEMS_PER_THREAD")),
+            ],
+        ],
+    )
+    specialization = template.specialize(
+        {
+            "T": dtype,
+            "BLOCK_DIM_X": threads_in_block,
+            "ITEMS_PER_THREAD": items_per_thread,
+            "PrefixOp": prefix_op,
+        }
+    )
+    return Invocable(
+        temp_files=[
+            make_binary_tempfile(ltoir, ".ltoir")
+            for ltoir in specialization.get_lto_ir()
+        ],
+        temp_storage_bytes=specialization.get_temp_storage_bytes(),
+        algorithm=specialization,
+    )