m5stack
diff --git a/‎projects/llm_framework/main_cosy_voice/SConstruct‎
Lines changed: 4 additions & 2 deletions b/‎projects/llm_framework/main_cosy_voice/SConstruct‎
Lines changed: 4 additions & 2 deletions
diff --git a/‎projects/llm_framework/main_cosy_voice/models/mode_CosyVoice2-0.5B-ax650.json‎
Lines changed: 19 additions & 2 deletions b/‎projects/llm_framework/main_cosy_voice/models/mode_CosyVoice2-0.5B-ax650.json‎
Lines changed: 19 additions & 2 deletions
diff --git a/‎projects/llm_framework/main_cosy_voice/scripts/tokenizer/tokenizer.py‎
Lines changed: 51 additions & 179 deletions b/‎projects/llm_framework/main_cosy_voice/scripts/tokenizer/tokenizer.py‎
Lines changed: 51 additions & 179 deletions
@@ -29,21 +29,23 @@ python_venv = check_wget_down("https://m5stack.oss-cn-shenzhen.aliyuncs.com/reso
 DEFINITIONS += ['-O2']
 DEFINITIONS += ['-std=c++17']
 LDFLAGS+=['-Wl,-rpath=/opt/m5stack/lib', '-Wl,-rpath=/usr/local/m5stack/lib', '-Wl,-rpath=/usr/local/m5stack/lib/gcc-10.3', '-Wl,-rpath=/opt/lib', '-Wl,-rpath=/opt/usr/lib', '-Wl,-rpath=./']
-REQUIREMENTS += ['ax_engine', 'ax_interpreter', 'ax_sys', 'utilities', 'MNN']
+REQUIREMENTS += ['ax_engine', 'ax_interpreter', 'ax_sys', 'utilities']
+REQUIREMENTS += ['samplerate']
 LINK_SEARCH_PATH += [ADir('../static_lib')]
 
 
 INCLUDE += [ADir('src/runner'), ADir('src/runner/utils')]
 INCLUDE += [ADir('../static_lib/include/sentencepiece'),
             ADir('../static_lib/include/protobuf-lite'),
             ADir('../static_lib/include/abseil-cpp'),
-            ADir('../static_lib/include/mnn'),
+            ADir('../static_lib/include/onnxruntime/core/session'),
             ADir('../static_lib/include/re2')]
 
 static_file = Glob('../static_lib/module-llm/libabsl_*')
 static_file += [AFile('../static_lib/module-llm/libre2.a'), AFile('../static_lib/module-llm/libsentencepiece.a'), AFile('../static_lib/module-llm/libsentencepiece_train.a')]
 STATIC_LIB += static_file * 4
 
+REQUIREMENTS += ['onnxruntime']
 STATIC_FILES += [os.path.join(python_venv, 'cosy-voice')]
 STATIC_FILES += Glob('scripts/tokenizer*')
 STATIC_FILES += Glob('models/mode_*.json')
 
@@ -22,8 +22,25 @@
         "filename_post_axmodel": "qwen2_post.axmodel",
         "filename_decoder_axmodel": "llm_decoder.axmodel",
         "template_filename_axmodel": "qwen2_p128_l%d_together.axmodel",
-        "token2wav_axmodel_dir": "",
-        "prompt_files": "zh_man1",
+        "flow_input_embedding": "flow.input_embedding.float16.bin",
+        "rand_noise": "rand_noise_1_80_300.txt",
+        "speech_window": "speech_window_2x8x480.txt",
+        "flow_encoder_28": "flow_encoder_28.axmodel",
+        "flow_encoder_53": "flow_encoder_53.axmodel",
+        "flow_encoder_78": "flow_encoder_78.axmodel",
+        "flow_encoder_50_final": "flow_encoder_50_final.axmodel",
+        "flow_estimator_200": "flow_estimator_200.axmodel",
+        "flow_estimator_250": "flow_estimator_250.axmodel",
+        "flow_estimator_300": "flow_estimator_300.axmodel",
+        "hift_p2_50_first": "hift_p2_50_first.axmodel",
+        "hift_p2_58": "hift_p2_58.axmodel",
+        "hift_p1_50_first": "hift_p1_50_first.ort",
+        "hift_p1_58": "hift_p1_58.ort",
+        "prompt_dir": "prompt_data",
+        "prompt_text": "prompt_text.txt",
+        "llm_prompt_speech_token": "llm_prompt_speech_token.txt",
+        "prompt_speech_feat": "prompt_speech_feat.txt",
+        "flow_embedding": "flow_embedding.txt",
         "b_use_topk": false,
         "b_bos": false,
         "b_eos": false,
 
@@ -4,168 +4,53 @@
 from typing import Optional
 import torch
 from transformers import AutoTokenizer
-from whisper.tokenizer import Tokenizer
-
 import tiktoken
 
 LANGUAGES = {
-    "en": "english",
-    "zh": "chinese",
-    "de": "german",
-    "es": "spanish",
-    "ru": "russian",
-    "ko": "korean",
-    "fr": "french",
-    "ja": "japanese",
-    "pt": "portuguese",
-    "tr": "turkish",
-    "pl": "polish",
-    "ca": "catalan",
-    "nl": "dutch",
-    "ar": "arabic",
-    "sv": "swedish",
-    "it": "italian",
-    "id": "indonesian",
-    "hi": "hindi",
-    "fi": "finnish",
-    "vi": "vietnamese",
-    "he": "hebrew",
-    "uk": "ukrainian",
-    "el": "greek",
-    "ms": "malay",
-    "cs": "czech",
-    "ro": "romanian",
-    "da": "danish",
-    "hu": "hungarian",
-    "ta": "tamil",
-    "no": "norwegian",
-    "th": "thai",
-    "ur": "urdu",
-    "hr": "croatian",
-    "bg": "bulgarian",
-    "lt": "lithuanian",
-    "la": "latin",
-    "mi": "maori",
-    "ml": "malayalam",
-    "cy": "welsh",
-    "sk": "slovak",
-    "te": "telugu",
-    "fa": "persian",
-    "lv": "latvian",
-    "bn": "bengali",
-    "sr": "serbian",
-    "az": "azerbaijani",
-    "sl": "slovenian",
-    "kn": "kannada",
-    "et": "estonian",
-    "mk": "macedonian",
-    "br": "breton",
-    "eu": "basque",
-    "is": "icelandic",
-    "hy": "armenian",
-    "ne": "nepali",
-    "mn": "mongolian",
-    "bs": "bosnian",
-    "kk": "kazakh",
-    "sq": "albanian",
-    "sw": "swahili",
-    "gl": "galician",
-    "mr": "marathi",
-    "pa": "punjabi",
-    "si": "sinhala",
-    "km": "khmer",
-    "sn": "shona",
-    "yo": "yoruba",
-    "so": "somali",
-    "af": "afrikaans",
-    "oc": "occitan",
-    "ka": "georgian",
-    "be": "belarusian",
-    "tg": "tajik",
-    "sd": "sindhi",
-    "gu": "gujarati",
-    "am": "amharic",
-    "yi": "yiddish",
-    "lo": "lao",
-    "uz": "uzbek",
-    "fo": "faroese",
-    "ht": "haitian creole",
-    "ps": "pashto",
-    "tk": "turkmen",
-    "nn": "nynorsk",
-    "mt": "maltese",
-    "sa": "sanskrit",
-    "lb": "luxembourgish",
-    "my": "myanmar",
-    "bo": "tibetan",
-    "tl": "tagalog",
-    "mg": "malagasy",
-    "as": "assamese",
-    "tt": "tatar",
-    "haw": "hawaiian",
-    "ln": "lingala",
-    "ha": "hausa",
-    "ba": "bashkir",
-    "jw": "javanese",
-    "su": "sundanese",
-    "yue": "cantonese",
-    "minnan": "minnan",
-    "wuyu": "wuyu",
-    "dialect": "dialect",
-    "zh/en": "zh/en",
-    "en/zh": "en/zh",
+    "en": "english", "zh": "chinese", "de": "german", "es": "spanish", "ru": "russian",
+    "ko": "korean", "fr": "french", "ja": "japanese", "pt": "portuguese", "tr": "turkish",
+    "pl": "polish", "ca": "catalan", "nl": "dutch", "ar": "arabic", "sv": "swedish", "it": "italian",
+    "id": "indonesian", "hi": "hindi", "fi": "finnish", "vi": "vietnamese", "he": "hebrew",
+    "uk": "ukrainian", "el": "greek", "ms": "malay", "cs": "czech", "ro": "romanian", "da": "danish",
+    "hu": "hungarian", "ta": "tamil", "no": "norwegian", "th": "thai", "ur": "urdu", "hr": "croatian",
+    "bg": "bulgarian", "lt": "lithuanian", "la": "latin", "mi": "maori", "ml": "malayalam", "cy": "welsh",
+    "sk": "slovak", "te": "telugu", "fa": "persian", "lv": "latvian", "bn": "bengali", "sr": "serbian",
+    "az": "azerbaijani", "sl": "slovenian", "kn": "kannada", "et": "estonian", "mk": "macedonian",
+    "br": "breton", "eu": "basque", "is": "icelandic", "hy": "armenian", "ne": "nepali", "mn": "mongolian",
+    "bs": "bosnian", "kk": "kazakh", "sq": "albanian", "sw": "swahili", "gl": "galician", "mr": "marathi",
+    "pa": "punjabi", "si": "sinhala", "km": "khmer", "sn": "shona", "yo": "yoruba", "so": "somali",
+    "af": "afrikaans", "oc": "occitan", "ka": "georgian", "be": "belarusian", "tg": "tajik",
+    "sd": "sindhi", "gu": "gujarati", "am": "amharic", "yi": "yiddish", "lo": "lao", "uz": "uzbek",
+    "fo": "faroese", "ht": "haitian creole", "ps": "pashto", "tk": "turkmen", "nn": "nynorsk",
+    "mt": "maltese", "sa": "sanskrit", "lb": "luxembourgish", "my": "myanmar", "bo": "tibetan",
+    "tl": "tagalog", "mg": "malagasy", "as": "assamese", "tt": "tatar", "haw": "hawaiian",
+    "ln": "lingala", "ha": "hausa", "ba": "bashkir", "jw": "javanese", "su": "sundanese",
+    "yue": "cantonese", "minnan": "minnan", "wuyu": "wuyu", "dialect": "dialect", "zh/en": "zh/en", "en/zh": "en/zh"
 }
 
-# language code lookup by name, with a few language aliases
 TO_LANGUAGE_CODE = {
     **{language: code for code, language in LANGUAGES.items()},
-    "burmese": "my",
-    "valencian": "ca",
-    "flemish": "nl",
-    "haitian": "ht",
-    "letzeburgesch": "lb",
-    "pushto": "ps",
-    "panjabi": "pa",
-    "moldavian": "ro",
-    "moldovan": "ro",
-    "sinhalese": "si",
-    "castilian": "es",
-    "mandarin": "zh",
+    "burmese": "my", "valencian": "ca", "flemish": "nl", "haitian": "ht", "letzeburgesch": "lb",
+    "pushto": "ps", "panjabi": "pa", "moldavian": "ro", "moldovan": "ro", "sinhalese": "si",
+    "castilian": "es", "mandarin": "zh",
 }
 
 AUDIO_EVENT = {
-    "ASR": "ASR",
-    "AED": "AED",
-    "SER": "SER",
-    "Speech": "Speech",
-    "/Speech": "/Speech",
-    "BGM": "BGM",
-    "/BGM": "/BGM",
-    "Laughter": "Laughter",
-    "/Laughter": "/Laughter",
-    "Applause": "Applause",
-    "/Applause": "/Applause",
+    "ASR": "ASR", "AED": "AED", "SER": "SER", "Speech": "Speech", "/Speech": "/Speech",
+    "BGM": "BGM", "/BGM": "/BGM", "Laughter": "Laughter", "/Laughter": "/Laughter",
+    "Applause": "Applause", "/Applause": "/Applause",
 }
 
 EMOTION = {
-    "HAPPY": "HAPPY",
-    "SAD": "SAD",
-    "ANGRY": "ANGRY",
-    "NEUTRAL": "NEUTRAL",
+    "HAPPY": "HAPPY", "SAD": "SAD", "ANGRY": "ANGRY", "NEUTRAL": "NEUTRAL",
 }
 
 TTS_Vocal_Token = {
-    "TTS/B": "TTS/B",
-    "TTS/O": "TTS/O",
-    "TTS/Q": "TTS/Q",
-    "TTS/A": "TTS/A",
-    "TTS/CO": "TTS/CO",
-    "TTS/CL": "TTS/CL",
-    "TTS/H": "TTS/H",
-    **{f"TTS/SP{i:02d}": f"TTS/SP{i:02d}" for i in range(1, 14)}
+    "TTS/B": "TTS/B", "TTS/O": "TTS/O", "TTS/Q": "TTS/Q", "TTS/A": "TTS/A", "TTS/CO": "TTS/CO",
+    "TTS/CL": "TTS/CL", "TTS/H": "TTS/H", **{f"TTS/SP{i:02d}": f"TTS/SP{i:02d}" for i in range(1, 14)}
 }
 
-
+# ===== 构造 Encoding =====
 @lru_cache(maxsize=None)
 def get_encoding(name: str = "gpt2", num_languages: int = 99):
     vocab_path = os.path.join(os.path.dirname(__file__), "assets", f"{name}.tiktoken")
@@ -175,28 +60,20 @@ def get_encoding(name: str = "gpt2", num_languages: int = 99):
     }
     n_vocab = len(ranks)
     special_tokens = {}
-
     specials = [
-        "<|endoftext|>",
-        "<|startoftranscript|>",
+        "<|endoftext|>", "<|startoftranscript|>",
         *[f"<|{lang}|>" for lang in list(LANGUAGES.keys())[:num_languages]],
         *[f"<|{audio_event}|>" for audio_event in list(AUDIO_EVENT.keys())],
         *[f"<|{emotion}|>" for emotion in list(EMOTION.keys())],
-        "<|translate|>",
-        "<|transcribe|>",
-        "<|startoflm|>",
-        "<|startofprev|>",
-        "<|nospeech|>",
-        "<|notimestamps|>",
-        *[f"<|SPECIAL_TOKEN_{i}|>" for i in range(1, 31)],        # register special tokens for ASR
-        *[f"<|{tts}|>" for tts in list(TTS_Vocal_Token.keys())],  # register special tokens for TTS
+        "<|translate|>", "<|transcribe|>", "<|startoflm|>", "<|startofprev|>",
+        "<|nospeech|>", "<|notimestamps|>",
+        *[f"<|SPECIAL_TOKEN_{i}|>" for i in range(1, 31)],
+        *[f"<|{tts}|>" for tts in list(TTS_Vocal_Token.keys())],
         *[f"<|{i * 0.02:.2f}|>" for i in range(1501)],
     ]
-
     for token in specials:
         special_tokens[token] = n_vocab
         n_vocab += 1
-
     return tiktoken.Encoding(
         name=os.path.basename(vocab_path),
         explicit_n_vocab=n_vocab,
@@ -205,23 +82,32 @@ def get_encoding(name: str = "gpt2", num_languages: int = 99):
         special_tokens=special_tokens,
     )
 
+class SimpleTokenizer:
+    def __init__(self, encoding, num_languages: int = 99, language: Optional[str] = None, task: Optional[str] = None):
+        self.encoding = encoding
+        self.num_languages = num_languages
+        self.language = language
+        self.task = task
+    def encode(self, text: str):
+        return self.encoding.encode(text)
+    def decode(self, tokens: list):
+        return self.encoding.decode(tokens)
 
 @lru_cache(maxsize=None)
 def get_tokenizer(
     multilingual: bool,
     *,
     num_languages: int = 99,
     language: Optional[str] = None,
-    task: Optional[str] = None,  # Literal["transcribe", "translate", None]
-) -> Tokenizer:
+    task: Optional[str] = None,
+) -> SimpleTokenizer:
     if language is not None:
         language = language.lower()
         if language not in LANGUAGES:
             if language in TO_LANGUAGE_CODE:
                 language = TO_LANGUAGE_CODE[language]
             else:
                 raise ValueError(f"Unsupported language: {language}")
-
     if multilingual:
         encoding_name = "multilingual_zh_ja_yue_char_del"
         language = language or "en"
@@ -230,18 +116,12 @@ def get_tokenizer(
         encoding_name = "gpt2"
         language = None
         task = None
-
     encoding = get_encoding(name=encoding_name, num_languages=num_languages)
-
-    return Tokenizer(
-        encoding=encoding, num_languages=num_languages, language=language, task=task
-    )
-
+    return SimpleTokenizer(encoding=encoding, num_languages=num_languages, language=language, task=task)
 
 class QwenTokenizer():
     def __init__(self, token_path, skip_special_tokens=True):
         super().__init__()
-        # NOTE: non-chat model, all these special tokens keep randomly initialized.
         special_tokens = {
             'eos_token': '<|endoftext|>',
             'pad_token': '<|endoftext|>',
@@ -259,21 +139,13 @@ def __init__(self, token_path, skip_special_tokens=True):
         self.tokenizer = AutoTokenizer.from_pretrained(token_path)
         self.tokenizer.add_special_tokens(special_tokens)
         self.skip_special_tokens = skip_special_tokens
-
     def encode(self, text, **kwargs):
         tokens = self.tokenizer([text], return_tensors="pt")
-        tokens = tokens["input_ids"][0].cpu().tolist()
-        return tokens
-
+        return tokens["input_ids"][0].cpu().tolist()
     def decode(self, tokens):
         tokens = torch.tensor(tokens, dtype=torch.int64)
-        text = self.tokenizer.batch_decode([tokens], skip_special_tokens=self.skip_special_tokens)[0]
-        return text
-
+        return self.tokenizer.batch_decode([tokens], skip_special_tokens=self.skip_special_tokens)[0]
 
 @lru_cache(maxsize=None)
-def get_qwen_tokenizer(
-    token_path: str,
-    skip_special_tokens: bool
-) -> QwenTokenizer:
-    return QwenTokenizer(token_path=token_path, skip_special_tokens=skip_special_tokens)
+def get_qwen_tokenizer(token_path: str, skip_special_tokens: bool) -> QwenTokenizer:
+    return QwenTokenizer(token_path=token_path, skip_special_tokens=skip_special_tokens)