UbiquitousLearning · chenghuaWang · Dec 30, 2025 · Dec 30, 2025 · Dec 30, 2025 · Dec 30, 2025
diff --git a/examples/qwen3_qnn_aot/qnn_aot_cfg.json b/examples/qwen3_qnn_aot/qnn_aot_cfg.json
@@ -15,6 +15,7 @@
     "split_graph": 1,
     "quant_recipe": {
         "llm_recipe": true,
+        "layers": 28,
         "builtin_llm_pass": {
             "model": "qwen3",
             "lm_head": {

@@ -4,18 +4,19 @@
 
 #include <QNN/QnnTypes.h>
 
+#include <QNN/QnnGraph.h>
 #include <QNN/QnnContext.h>
 #include <QNN/HTP/QnnHtpDevice.h>
 #include <QNN/HTP/QnnHtpCommon.h>
 #include <QNN/HTP/QnnHtpContext.h>
 
-#include "mllm/backends/qnn/aot/passes/AOTCompileContext.hpp"
-#include "mllm/core/DataTypes.hpp"
 #include "mllm/utils/Common.hpp"
+#include "mllm/core/DataTypes.hpp"
 #include "mllm/backends/qnn/QNNTypeMacros.hpp"
 #include "mllm/compile/ir/linalg/Attribute.hpp"
 #include "mllm/backends/qnn/aot/QnnWrappersAPI.hpp"
 #include "mllm/backends/qnn/aot/QnnTargetMachine.hpp"
+#include "mllm/backends/qnn/aot/passes/AOTCompileContext.hpp"
 
 namespace mllm::qnn::aot {
 
@@ -139,13 +140,6 @@ Qnn_Param_t* QnnAOTParamTensor::getQnnParam() { return &qnn_param_; }
 Qnn_Tensor_t* QnnAOTParamTensor::getQnnTensor() { return &qnn_param_.tensorParam; }
 
 QnnAOTNodeTensor::QnnAOTNodeTensor(const ir::tensor::TensorValue::ptr_t& v, bool force_static_weight) {
-  // TODO Constant value should also use Static!!! And they can be pruned
-  // TODO Constant value should also use Static!!! And they can be pruned
-  // TODO Constant value should also use Static!!! And they can be pruned
-  // TODO Constant value should also use Static!!! And they can be pruned
-  // TODO Constant value should also use Static!!! And they can be pruned
-  // TODO Constant value should also use Static!!! And they can be pruned
-
   name_ = v->name();
   mllm_tensor_ = v->tensor_;
   quant_spec_ = v->getAttr("quant_recipe")->cast_<ir::linalg::LinalgIRQuantizatonSpecAttr>()->spec_;
@@ -232,6 +226,7 @@ Qnn_TensorType_t QnnAOTNodeTensor::parseQnnTensorTypeFromIR(const ir::tensor::Te
   // Check Attribute. The Attribute priority is higher than tensor type
   if (v->getAttr("qnn_graph_outputs")) { ret_qnn_tensor_type = QNN_TENSOR_TYPE_APP_READ; }
   if (v->getAttr("qnn_graph_inputs")) { ret_qnn_tensor_type = QNN_TENSOR_TYPE_APP_READWRITE; }
+  if (v->getAttr("constant")) { ret_qnn_tensor_type = QNN_TENSOR_TYPE_STATIC; }
 
   return ret_qnn_tensor_type;
 }
@@ -470,6 +465,17 @@ QnnAOTNodeOperation::ptr_t QnnAOTNodeOperation::setPackageName(const std::string
   return shared_from_this();
 }
 
+QnnAOTGraph::QnnAOTGraph(const std::string& g_name, const std::shared_ptr<QnnDeviceAndContext>& context)
+    : graph_name_(g_name), qnn_context_(context) {
+  belongs_context_name_ = context->name_;
+
+  auto env = AOTCompileContext::getInstance().getEnv();
+  auto qnn_interface = env->getFuncSymbol().qnn_interface_;
+
+  auto ok = qnn_interface.graphCreate(context->qnn_ctx_handle_, g_name.c_str(), nullptr /*graph_config*/, &qnn_graph_handle_);
+  MLLM_RT_ASSERT_EQ(ok, QNN_SUCCESS);
+}
+
 void QnnAOTGraph::addOperation(const QnnAOTNodeOperation::ptr_t& qnn_op) {
   auto env = AOTCompileContext::getInstance().getEnv();
   auto qnn_interface = env->getFuncSymbol().qnn_interface_;
@@ -481,20 +487,52 @@ void QnnAOTGraph::addOperation(const QnnAOTNodeOperation::ptr_t& qnn_op) {
   qnn_op_config.v1.packageName = qnn_op->package_name_.c_str();
   qnn_op_config.v1.typeName = qnn_op->op_name_.c_str();
 
-  // TODO PARAMs
-  // TODO Inputs
-  // TODO Outputs
+  // Params
+  uint32_t param_counter = 0;
+  size_t total_param_size = qnn_op->param_scalar.size() + qnn_op->param_tensor.size();
+  Qnn_Param_t* qnn_param_array = (Qnn_Param_t*)malloc(total_param_size * sizeof(Qnn_Param_t));
+  qnn_op->unreachable_handle_.emplace_back(qnn_param_array);
+  {
+    // Tensor Param
+    for (const auto& p : qnn_op->param_tensor) {
+      auto ok = qnn_interface.tensorCreateGraphTensor(qnn_graph_handle_, p->getQnnTensor());
+      MLLM_RT_ASSERT_EQ(ok, QNN_SUCCESS);
+      qnn_param_array[param_counter++] = *p->getQnnParam();
+    }
+    for (const auto& p : qnn_op->param_scalar) { qnn_param_array[param_counter++] = *p->getQnnParam(); }
+  }
+
+  // Inputs
+  Qnn_Tensor_t* qnn_inputs_array = (Qnn_Tensor_t*)malloc(qnn_op->inputs.size() * sizeof(Qnn_Tensor_t));
+  qnn_op->unreachable_handle_.emplace_back(qnn_inputs_array);
+  for (int i = 0; i < qnn_op->inputs.size(); ++i) { qnn_inputs_array[i] = *qnn_op->inputs[i]->getQnnTensor(); }
 
-  // TODO node validations
+  // Outputs
+  Qnn_Tensor_t* qnn_outputs_array = (Qnn_Tensor_t*)malloc(qnn_op->outputs.size() * sizeof(Qnn_Tensor_t));
+  qnn_op->unreachable_handle_.emplace_back(qnn_outputs_array);
+  for (int i = 0; i < qnn_op->outputs.size(); ++i) { qnn_outputs_array[i] = *qnn_op->outputs[i]->getQnnTensor(); }
 
-  // TODO add node to graph.
+  qnn_op_config.v1.params = qnn_param_array;
+  qnn_op_config.v1.numOfParams = total_param_size;
+  qnn_op_config.v1.inputTensors = qnn_inputs_array;
+  qnn_op_config.v1.numOfInputs = qnn_op->inputs.size();
+  qnn_op_config.v1.outputTensors = qnn_outputs_array;
+  qnn_op_config.v1.numOfOutputs = qnn_op->outputs.size();
+
+  auto ok = qnn_interface.backendValidateOpConfig(env->getContext(belongs_context_name_)->bk_handle_, qnn_op_config);
+  MLLM_RT_ASSERT_EQ(ok, QNN_SUCCESS);
+  ok = qnn_interface.graphAddNode(qnn_graph_handle_, qnn_op_config);
+  MLLM_RT_ASSERT_EQ(ok, QNN_SUCCESS);
 
   op_node_.insert({qnn_op->getName(), qnn_op});
 }
 
 bool QnnAOTGraph::compile() {
   if (is_compiled_) { return true; }
-  // TODO
+
+  auto env = AOTCompileContext::getInstance().getEnv();
+  auto qnn_interface = env->getFuncSymbol().qnn_interface_;
+  qnn_interface.graphFinalize(qnn_graph_handle_, env->getContext(belongs_context_name_)->profile_bk_handle_, nullptr);
 
   is_compiled_ = true;
   return true;
@@ -692,25 +730,6 @@ std::shared_ptr<QnnDeviceAndContext> QnnAOTEnv::createContext(const std::string&
   // clang-format off
   {
     // FIXME(wch): we need to register our own opset of qnn.
-    // struct OpPackageInfo {
-    //   std::string path;
-    //   std::string interface_provider;
-    //   std::string target;
-    // };
-
-    // std::vector<OpPackageInfo> op_packages = {
-    //     {.path = "libQnnMllmPackageCPU.so", .interface_provider = "MllmPackageInterfaceProvider", .target = "CPU"},
-    //     {.path = "libQnnMllmPackageHTP.so", .interface_provider = "MllmPackageInterfaceProvider", .target = "HTP"},
-    // };
-
-    // for (const auto& pkg : op_packages) {
-    //   if (!qnn_htp_func_symbols_.qnn_interface_.backendRegisterOpPackage) {
-    //     MLLM_ERROR_EXIT(ExitCode::kCoreError, "qnn_htp_func_symbols_.qnn_interface_.backendRegisterOpPackage is nullptr.");
-    //   }
-    //   auto status = qnn_htp_func_symbols_.qnn_interface_.backendRegisterOpPackage(context->bk_handle_, pkg.path.c_str(), pkg.interface_provider.c_str(), pkg.target.c_str());
-    //   MLLM_RT_ASSERT_EQ(status, QNN_BACKEND_NO_ERROR);
-    //   MLLM_INFO("QNN Registered op package: {}, interface provider: {}, target: {}", pkg.path, pkg.interface_provider, pkg.target);
-    // }
   }
   // clang-format on
 
@@ -800,8 +819,11 @@ std::vector<QnnContext_CustomConfig_t> QnnAOTEnv::createContextCustomConfig(bool
 }
 
 QnnAOTGraph::ptr_t QnnAOTEnv::captureAOTGraph(const std::string& qnn_context_name, const std::string& g_name) {
-  // TODO
-  return nullptr;
+  MLLM_RT_ASSERT(contexts_.count(qnn_context_name) == 1);
+  auto ret = QnnAOTGraph::create(g_name, contexts_[qnn_context_name]);
+  ret->belongs_context_name_ = qnn_context_name;
+  contexts_[qnn_context_name]->graphs_.insert({g_name, ret});
+  return ret;
 }
 
 void QnnAOTEnv::captureAOTNodeOp(const std::string& qnn_context_name, const std::string& graph_name,
@@ -813,18 +835,13 @@ void QnnAOTEnv::captureAOTNodeOp(const std::string& qnn_context_name, const std:
 
 QnnAOTNodeTensor::ptr_t QnnAOTEnv::captureQnnAOTNodeTensor(const std::string& qnn_context_name, const std::string& graph_name,
                                                            const ir::tensor::TensorValue::ptr_t& v, bool force_static_weight) {
-  // TODO Constant value should also use Static!!! And they can be pruned
-  // TODO Constant value should also use Static!!! And they can be pruned
-  // TODO Constant value should also use Static!!! And they can be pruned
-  // TODO Constant value should also use Static!!! And they can be pruned
-  // TODO Constant value should also use Static!!! And they can be pruned
-  // TODO Constant value should also use Static!!! And they can be pruned
   auto __qnn_tensor_name = v->name();
 
   bool __qnn_enable_static_weight = force_static_weight;
 
   // Check if this value want static qnn weight. The static qnn weight will be shared through one context in diff graphs!
-  if (v->tensor_.memType() == kGlobal || (v->tensor_.memType() <= kParams_End && v->tensor_.memType() >= kParams_Start)) {
+  if (v->tensor_.memType() == kGlobal || (v->tensor_.memType() <= kParams_End && v->tensor_.memType() >= kParams_Start)
+      || v->getAttr("constant")) {
     __qnn_enable_static_weight = true;
   }
 
@@ -848,11 +865,17 @@ QnnAOTNodeTensor::ptr_t QnnAOTEnv::captureQnnAOTNodeTensor(const std::string& qn
   auto ret = QnnAOTNodeTensor::create(v, __qnn_enable_static_weight);
   if (__qnn_enable_static_weight) {
     contexts_[qnn_context_name]->static_tensor_.insert({__qnn_tensor_name, ret});
+    qnn_htp_func_symbols_.qnn_interface_.tensorCreateContextTensor(contexts_[qnn_context_name]->qnn_ctx_handle_,
+                                                                   ret->getQnnTensor());
   } else {
     contexts_[qnn_context_name]->graphs_[graph_name]->all_tensors_.insert({__qnn_tensor_name, ret});
+    qnn_htp_func_symbols_.qnn_interface_.tensorCreateGraphTensor(
+        contexts_[qnn_context_name]->graphs_[graph_name]->qnn_graph_handle_, ret->getQnnTensor());
   }
 
   return ret;
 }
 
+std::shared_ptr<QnnDeviceAndContext> QnnAOTEnv::getContext(const std::string& name) { return contexts_[name]; }
+
 }  // namespace mllm::qnn::aot
@@ -106,6 +106,8 @@ class QnnAOTNodeTensor : public std::enable_shared_from_this<QnnAOTNodeTensor> {
 
   explicit QnnAOTNodeTensor(const ir::tensor::TensorValue::ptr_t& v, bool force_static_weight = false);
 
+  inline Qnn_Tensor_t* getQnnTensor() { return &qnn_tensor_; }
+
  private:
   Qnn_TensorType_t parseQnnTensorTypeFromIR(const ir::tensor::TensorValue::ptr_t& v);
 
@@ -171,10 +173,18 @@ class QnnAOTNodeOperation : public std::enable_shared_from_this<QnnAOTNodeOperat
   std::vector<void*> unreachable_handle_;
 };
 
+struct QnnDeviceAndContext;
 class QnnAOTGraph : public std::enable_shared_from_this<QnnAOTGraph> {
  public:
   using ptr_t = std::shared_ptr<QnnAOTGraph>;
 
+  QnnAOTGraph(const std::string& g_name, const std::shared_ptr<QnnDeviceAndContext>& context);
+
+  static inline ptr_t create(const std::string& g_name, const std::shared_ptr<QnnDeviceAndContext>& context) {
+    auto ret = std::make_shared<QnnAOTGraph>(g_name, context);
+    return ret;
+  }
+
   void addOperation(const QnnAOTNodeOperation::ptr_t& qnn_op);
 
   bool compile();
@@ -183,13 +193,15 @@ class QnnAOTGraph : public std::enable_shared_from_this<QnnAOTGraph> {
   std::unordered_map<std::string, QnnAOTNodeOperation::ptr_t> op_node_;
   std::unordered_map<std::string, QnnAOTNodeTensor::ptr_t> all_tensors_;
 
- private:
   std::string graph_name_;
   std::string belongs_context_name_;
   Qnn_GraphHandle_t qnn_graph_handle_ = nullptr;
+  std::shared_ptr<QnnDeviceAndContext> qnn_context_ = nullptr;
 };
 
 struct QnnDeviceAndContext {
+  using ptr_t = std::shared_ptr<QnnDeviceAndContext>;
+
   std::string name_;
   Qnn_LogHandle_t log_ = nullptr;
   Qnn_BackendHandle_t bk_handle_ = nullptr;
@@ -283,6 +295,8 @@ class QnnAOTEnv {
 
   inline QnnFuncSymbols& getFuncSymbol() { return qnn_htp_func_symbols_; }
 
+  std::shared_ptr<QnnDeviceAndContext> getContext(const std::string& name);
+
  private:
   void _setup(const std::string& path = "");
 

@@ -1,10 +1,12 @@
 #include "mllm/backends/qnn/aot/passes/AOTPipeline.hpp"
 #include "mllm/backends/qnn/aot/passes/AOTCompileContext.hpp"
+#include "mllm/backends/qnn/aot/passes/LLM2QnnLoweringPass.hpp"
 #include "mllm/backends/qnn/aot/passes/LLMQuantRecipePass.hpp"
 #include "mllm/backends/qnn/aot/passes/MarkQnnGraphPass.hpp"
 #include "mllm/backends/qnn/aot/passes/MarkTensorIO.hpp"
 #include "mllm/backends/qnn/aot/passes/MergeLLMHeadIntoMainGraphPass.hpp"
 #include "mllm/backends/qnn/aot/passes/OpNamingPass.hpp"
+#include "mllm/backends/qnn/aot/passes/SplitLLMGraphPass.hpp"
 
 namespace mllm::qnn::aot {
 std::vector<std::shared_ptr<ir::Pass>> createQnnAOTLoweringPipeline(QnnAOTEnv* env, const std::string& config_path) {
@@ -20,6 +22,9 @@ std::vector<std::shared_ptr<ir::Pass>> createQnnAOTLoweringPipeline(QnnAOTEnv* e
     ret.emplace_back(createOpNamingPass());
     ret.emplace_back(createMergeLLMHeadIntoMainGraphPass());
     ret.emplace_back(createLLMQuantRecipePass());
+    ret.emplace_back(createSplitLLMGraphPass());
+    ret.emplace_back(createMarkTensorIOPass());
+    ret.emplace_back(createLLM2QnnLoweringPass());
   } else {
     MLLM_WARN("This pass currently only supports LLM applications. Please ensure your config contains 'quant_recipe.llm_recipe "
               "= true'.");