hpcaitech · flybird11111 · Sep 14, 2023 · Sep 14, 2023
@@ -1,14 +1,7 @@
 from .cuda_native import FusedScaleMaskSoftmax, LayerNorm, MultiHeadAttention
-from .triton import llama_context_attn_fwd, bloom_context_attn_fwd
-from .triton import softmax
-from .triton import copy_kv_cache_to_dest
 
 __all__ = [
     "LayerNorm",
     "FusedScaleMaskSoftmax",
     "MultiHeadAttention",
-    "llama_context_attn_fwd",
-    "bloom_context_attn_fwd",
-    "softmax",
-    "copy_kv_cache_to_dest",
 ]
@@ -1,5 +0,0 @@
-from .context_attention import bloom_context_attn_fwd, llama_context_attn_fwd
-from .copy_kv_cache_dest import copy_kv_cache_to_dest
-from .fused_layernorm import layer_norm
-from .rms_norm import rmsnorm_forward
-from .softmax import softmax

@@ -10,7 +10,7 @@
     import triton
     import triton.language as tl
 
-    from colossalai.kernel.triton import llama_context_attn_fwd
+    from colossalai.kernel.triton.context_attention import llama_context_attn_fwd
     from tests.test_infer_ops.triton.kernel_utils import torch_context_attention
     HAS_TRITON = True
 except ImportError: