m5stack
diff --git a/‎projects/llm_framework/main/SConstruct‎
Lines changed: 2 additions & 1 deletion b/‎projects/llm_framework/main/SConstruct‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎projects/llm_framework/main_cosy_voice/SConstruct‎
Lines changed: 4 additions & 5 deletions b/‎projects/llm_framework/main_cosy_voice/SConstruct‎
Lines changed: 4 additions & 5 deletions
diff --git a/‎projects/llm_framework/main_cosy_voice/models/mode_CosyVoice2-0.5B-ax650.json‎
Lines changed: 2 additions & 1 deletion b/‎projects/llm_framework/main_cosy_voice/models/mode_CosyVoice2-0.5B-ax650.json‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎projects/llm_framework/main_cosy_voice/src/main.cpp‎
Lines changed: 1 addition & 4 deletions b/‎projects/llm_framework/main_cosy_voice/src/main.cpp‎
Lines changed: 1 addition & 4 deletions
diff --git a/‎projects/llm_framework/main_cosy_voice/src/runner/Token2wav.hpp‎
Lines changed: 79 additions & 18 deletions b/‎projects/llm_framework/main_cosy_voice/src/runner/Token2wav.hpp‎
Lines changed: 79 additions & 18 deletions
diff --git a/‎projects/llm_framework/main_kws_new/SConstruct‎
Lines changed: 10 additions & 7 deletions b/‎projects/llm_framework/main_kws_new/SConstruct‎
Lines changed: 10 additions & 7 deletions
@@ -28,7 +28,8 @@ STATIC_FILES += [AFile('../static_lib/sherpa/ncnn/libsherpa-ncnn-core.so'),
                  AFile('../static_lib/wetext/libfst.so.16'),
                  AFile('../static_lib/libonnxruntime.so.1'),
                  AFile('../static_lib/libonnxruntime.so.1.14.0'),
-                 AFile('../static_lib/libzmq.so.5')
+                 AFile('../static_lib/libzmq.so.5'),
+                 AFile('../static_lib/libMNN.so')
                  ]
 
 env['COMPONENTS'].append({'target':'static_file-1.0',
 
@@ -17,7 +17,7 @@ LDFLAGS = []
 LINK_SEARCH_PATH = []
 STATIC_FILES = []
 
-python_venv = check_wget_down("https://m5stack.oss-cn-shenzhen.aliyuncs.com/resource/linux/llm/m5stack_llm-llm-python-venv_v1.7.tar.gz", 'm5stack_llm-llm-python-venv_v1.7.tar.gz')
+python_venv = check_wget_down("https://m5stack.oss-cn-shenzhen.aliyuncs.com/resource/linux/llm/m5stack_llm-cosy-voice-python-venv_v1.7.tar.gz", 'm5stack_llm-cosy-voice-python-venv_v1.7.tar.gz')
 
 # REQUIREMENTS += ['Backward_cpp']
 # DYNAMIC_LIB += [ AFile('../static_lib/libdw.so.1'),
@@ -29,25 +29,24 @@ python_venv = check_wget_down("https://m5stack.oss-cn-shenzhen.aliyuncs.com/reso
 DEFINITIONS += ['-O2']
 DEFINITIONS += ['-std=c++17']
 LDFLAGS+=['-Wl,-rpath=/opt/m5stack/lib', '-Wl,-rpath=/usr/local/m5stack/lib', '-Wl,-rpath=/usr/local/m5stack/lib/gcc-10.3', '-Wl,-rpath=/opt/lib', '-Wl,-rpath=/opt/usr/lib', '-Wl,-rpath=./']
-REQUIREMENTS += ['ax_engine', 'ax_interpreter', 'ax_sys', 'utilities']
+REQUIREMENTS += ['ax_engine', 'ax_interpreter', 'ax_sys', 'utilities', 'MNN']
 LINK_SEARCH_PATH += [ADir('../static_lib')]
 
 
 INCLUDE += [ADir('src/runner'), ADir('src/runner/utils')]
 INCLUDE += [ADir('../static_lib/include/sentencepiece'),
             ADir('../static_lib/include/protobuf-lite'),
             ADir('../static_lib/include/abseil-cpp'),
+            ADir('../static_lib/include/mnn'),
             ADir('../static_lib/include/re2')]
 
 static_file = Glob('../static_lib/module-llm/libabsl_*')
 static_file += [AFile('../static_lib/module-llm/libre2.a'), AFile('../static_lib/module-llm/libsentencepiece.a'), AFile('../static_lib/module-llm/libsentencepiece_train.a')]
 STATIC_LIB += static_file * 4
 
-# STATIC_FILES += [os.path.join(python_venv, 'llm')]
-# STATIC_FILES += Glob('scripts/tokenizer_*.py')
+STATIC_FILES += [os.path.join(python_venv, 'cosy-voice')]
 STATIC_FILES += Glob('scripts/tokenizer*')
 STATIC_FILES += Glob('models/mode_*.json')
-# STATIC_FILES += [AFile('scripts/llm-llm_tokenizer_auto.py')]
 
 IGNORE_FILES = []
 IGNORE_FILES += ['llm']
 
@@ -38,7 +38,8 @@
         "b_use_mmap_load_embed": true,
         "b_dynamic_load_axmodel_layer": false,
         "ext_scripts": [
-            "tokenizer_cosyvoice2-0.5B-ax650.py"
+            "tokenizer_CosyVoice2-0.5B-ax650.py",
+            "tokenizer"
         ]
     }
 }
@@ -203,7 +203,7 @@ class llm_task {
 
                     tokenizer_pid_ = fork();
                     if (tokenizer_pid_ == 0) {
-                        setenv("PYTHONPATH", "/opt/m5stack/lib/cosy_voice/site-packages", 1);
+                        setenv("PYTHONPATH", "/opt/m5stack/lib/cosy-voice/site-packages", 1);
                         const std::string port_str = std::to_string(port_);
                         const std::string model_id = base_model + "tokenizer";
 
@@ -266,11 +266,8 @@ class llm_task {
             if (!lToken2Wav.Init(mode_config_.token2wav_axmodel_dir, mode_config_.n_timesteps)) {
                 return -1;
             }
-            SLOGE();
             lLaMa_->TextToken2Embeds(prompt_text_token, prompt_text_embeds);
-            SLOGE();
             lLaMa_->SpeechToken2Embeds(prompt_speech_token, prompt_speech_embeds);
-            SLOGE();
             lToken2Wav.SpeechToken2Embeds(prompt_speech_token, prompt_speech_embeds_flow);
 
         } catch (...) {
 
@@ -20,6 +20,9 @@
 #include "timer.hpp"
 // #include "opencv2/opencv.hpp"
 #include "ax_sys_api.h"
+#include "MNN/MNNDefine.h"
+#include "MNN/MNNForwardType.h"
+#include "MNN/Interpreter.hpp"
 
 class Token2Wav
 {
@@ -44,8 +47,15 @@ class Token2Wav
     ax_runner_ax650 flow_estimator_250;
     ax_runner_ax650 flow_estimator_300;
 
-    ax_runner_ax650 hift_50_first;
-    ax_runner_ax650 hift_58;
+    ax_runner_ax650 hift_p2_50_first;
+    ax_runner_ax650 hift_p2_58;
+
+    std::shared_ptr<MNN::Interpreter> hift_p1_50_first = nullptr;
+    std::shared_ptr<MNN::Interpreter> hift_p1_58 = nullptr;
+
+    MNN::Session * sess_hift_p1_50_first = nullptr;
+    MNN::Session * sess_hift_p1_58 = nullptr;
+
 
     std::vector<float> rand_noise;
     std::vector<float> t_span;
@@ -161,20 +171,44 @@ class Token2Wav
             return false;
         }
 
-        ret = hift_50_first.init((model_dir+"/hift_50_first.axmodel").c_str(), false);
+        ret = hift_p2_50_first.init((model_dir+"/hift_p2_50_first.axmodel").c_str(), false);
         if (ret != 0)
         {
-            ALOGE("init axmodel(%s) failed", (model_dir+"/hift_50_first.axmodel").c_str());
+            ALOGE("init axmodel(%s) failed", (model_dir+"/hift_p2_50_first.axmodel").c_str());
             return false;
         }
 
-        ret = hift_58.init((model_dir+"/hift_58.axmodel").c_str(), false);
+        ret = hift_p2_58.init((model_dir+"/hift_p2_58.axmodel").c_str(), false);
         if (ret != 0)
         {
-            ALOGE("init axmodel(%s) failed", (model_dir+"/hift_58.axmodel").c_str());
+            ALOGE("init axmodel(%s) failed", (model_dir+"/hift_p2_58.axmodel").c_str());
             return false;
         }
 
+        MNN::ScheduleConfig config;
+        config.numThread = 2;
+        config.type      = static_cast<MNNForwardType>(MNN_FORWARD_CPU);
+        MNN::BackendConfig backendConfig;
+        backendConfig.precision = (MNN::BackendConfig::PrecisionMode)1;
+        config.backendConfig = &backendConfig;
+
+        hift_p1_50_first = std::shared_ptr<MNN::Interpreter>(MNN::Interpreter::createFromFile( (model_dir+"/hift_p1_50_first.mnn").c_str() ));
+        if(nullptr == hift_p1_50_first)
+        {
+            ALOGE("init mnn model(%s) failed", (model_dir+"/hift_p1_50_first.mnn").c_str());
+            return false;
+        }
+        sess_hift_p1_50_first = hift_p1_50_first->createSession(config);
+
+        hift_p1_58 = std::shared_ptr<MNN::Interpreter>(MNN::Interpreter::createFromFile( (model_dir+"/hift_p1_58.mnn").c_str() ));
+        if(nullptr == hift_p1_58)
+        {
+            ALOGE("init mnn model(%s) failed", (model_dir+"/hift_p1_58.mnn").c_str() );
+            return false;
+        }
+
+        sess_hift_p1_58 = hift_p1_58->createSession(config);
+
         ALOGI("Token2Wav init ok");
         return true;
     }
@@ -188,8 +222,8 @@ class Token2Wav
         flow_estimator_200.release();
         flow_estimator_250.release();
         flow_estimator_300.release();
-        hift_50_first.release();
-        hift_58.release();
+        hift_p2_50_first.release();
+        hift_p2_58.release();
         flow_embed_selector.Deinit();
     }
 
@@ -318,39 +352,66 @@ class Token2Wav
     int infer_hift(std::vector<float> &mel, std::vector<float> &cache_source, 
                     std::vector<float> & tts_speech, std::vector<float> & tts_source)
     {
-        ax_runner_ax650 * model;
+        std::shared_ptr<MNN::Interpreter> model_p1;
+        MNN::Session * sess_p1;
+        ax_runner_ax650 * model_p2;
         int len = mel.size()/(80);
 
         if(len == 50 && cache_source.empty())
         { 
-            model = &hift_50_first;
+            model_p1 = hift_p1_50_first;
+            sess_p1 = sess_hift_p1_50_first;
+            model_p2 = &hift_p2_50_first;
         }else if(len == 58 && !cache_source.empty())
         {
-            model = &hift_58;
+            model_p1 = hift_p1_58;
+            sess_p1 = sess_hift_p1_58;
+            model_p2 = &hift_p2_58;
         }else
         {
             ALOGE("invalid size: %d", len);
             return -1;
         }
 
-        void * p = model->get_input("mel").pVirAddr;
+        std::vector<int> dims{1, 80, len};
+        auto tensor = MNN::Tensor::create<float>(dims, NULL, MNN::Tensor::CAFFE);
+        auto p_tensor   = tensor->host<float>();
+        auto size   = tensor->size();
+        std::memcpy(p_tensor, mel.data(), size);
+        
+        auto inputTensor = model_p1->getSessionInput(sess_p1, nullptr);
+        inputTensor->copyFromHostTensor(tensor);
+        
+        model_p1->runSession(sess_p1);
+        
+        MNN::Tensor *p_out  = model_p1->getSessionOutput(sess_p1, "s");
+        MNN::Tensor out_host(p_out, p_out->getDimensionType());
+        p_out->copyToHostTensor(&out_host);
+        
+        auto p_s = out_host.host<float>();
+
+        void * p = model_p2->get_input("s").pVirAddr;
+        memcpy(p, p_s, len * 480 * sizeof(float));
+        
+        p = model_p2->get_input("mel").pVirAddr;
         memcpy(p, mel.data(), mel.size() * sizeof(float));
+        
         if(!cache_source.empty())
         {
-            p = model->get_input("hift_cache_source").pVirAddr;
+            p = model_p2->get_input("hift_cache_source").pVirAddr;
             memcpy(p, cache_source.data(), cache_source.size() * sizeof(float));
         }
-
-        model->inference();
-
-        auto &output_speech = model->get_output("audio");
+        
+        model_p2->inference();
+        
+        auto &output_speech = model_p2->get_output("audio");
         if(tts_speech.empty() || tts_speech.size() != output_speech.nSize / sizeof(float))
         {
             tts_speech.resize(output_speech.nSize / sizeof(float));
         }
         memcpy(tts_speech.data(), output_speech.pVirAddr, output_speech.nSize);
 
-        auto &output_source = model->get_output("x");
+        auto &output_source = model_p2->get_output(1);
         if(tts_source.empty() || tts_source.size() != output_source.nSize / sizeof(float))
         {
             tts_source.resize(output_source.nSize / sizeof(float));
 
@@ -22,16 +22,19 @@ DEFINITIONS += ['-std=c++17']
 LDFLAGS+=['-Wl,-rpath=/opt/m5stack/lib', '-Wl,-rpath=/usr/local/m5stack/lib', '-Wl,-rpath=/usr/local/m5stack/lib/gcc-10.3', '-Wl,-rpath=/opt/lib', '-Wl,-rpath=/opt/usr/lib', '-Wl,-rpath=./']
 LINK_SEARCH_PATH += [ADir('../static_lib')]
 
-INCLUDE += [ADir('../static_lib/include/sherpa'),
-            ADir('../static_lib/include/sherpa/sherpa-onnx'),
+INCLUDE += [
+    # ADir('../static_lib/include/sherpa'),
+            # ADir('../static_lib/include/sherpa/sherpa-onnx'),
             ADir('../static_lib/include/sherpa/sherpa-onnx/onnxruntime-src'),
-            ADir('../static_lib/include/sherpa/sherpa-onnx/openfst-src')
+            ADir('src/runner'),
+            # ADir('../static_lib/include/sherpa/sherpa-onnx/openfst-src')
             ]
 
-LINK_SEARCH_PATH += [ADir('../static_lib/sherpa/onnx')]
-LDFLAGS += ['-l:libcargs.a',
-            '-l:libsherpa-onnx-core.a', '-l:libkaldi-native-fbank-core.a',
-            '-l:libkaldi-decoder-core.a', '-l:libssentencepiece_core.a']
+LINK_SEARCH_PATH += [ADir('../static_lib/sherpa/fbank')]
+LDFLAGS += [
+            '-l:libkaldi-native-fbank-core.a',
+            '-l:libkissfft-float.a',
+            ]
 
 REQUIREMENTS += ['onnxruntime']
Original file line number	Diff line number	Diff line change
`@@ -28,7 +28,8 @@ STATIC_FILES += [AFile('../static_lib/sherpa/ncnn/libsherpa-ncnn-core.so'),`
`28`	`28`	`AFile('../static_lib/wetext/libfst.so.16'),`
`29`	`29`	`AFile('../static_lib/libonnxruntime.so.1'),`
`30`	`30`	`AFile('../static_lib/libonnxruntime.so.1.14.0'),`
`31`		`- AFile('../static_lib/libzmq.so.5')`
	`31`	`+ AFile('../static_lib/libzmq.so.5'),`
	`32`	`+ AFile('../static_lib/libMNN.so')`
`32`	`33`	`]`
`33`	`34`
`34`	`35`	`env['COMPONENTS'].append({'target':'static_file-1.0',`
Original file line number	Diff line number	Diff line change
`@@ -38,7 +38,8 @@`
`38`	`38`	`"b_use_mmap_load_embed": true,`
`39`	`39`	`"b_dynamic_load_axmodel_layer": false,`
`40`	`40`	`"ext_scripts": [`
`41`		`- "tokenizer_cosyvoice2-0.5B-ax650.py"`
	`41`	`+ "tokenizer_CosyVoice2-0.5B-ax650.py",`
	`42`	`+ "tokenizer"`
`42`	`43`	`]`
`43`	`44`	`}`
`44`	`45`	`}`