[update] Add qwen3-vl-2B-Init4-ax630c model

LittleMouse · LittleMouse · commit 87123285d3fc · 2025-11-26T19:00:01.000+08:00
diff --git a/projects/llm_framework/main_vlm/models/mode_qwen3-vl-2B-Int4-ax630c.json b/projects/llm_framework/main_vlm/models/mode_qwen3-vl-2B-Int4-ax630c.json
@@ -0,0 +1,54 @@
+{
+    "mode": "qwen3-vl-2B-Int4-ax630c",
+    "type": "vlm",
+    "homepage": "https://huggingface.co/AXERA-TECH/Qwen3-VL-2B-Instruct",
+    "capabilities": [
+        "text_generation",
+        "chat"
+    ],
+    "input_type": [
+        "vlm.chat_completion",
+        "vlm.chat_completion.stream"
+    ],
+    "output_type": [
+        "vlm.utf-8",
+        "vlm.utf-8.stream"
+    ],
+    "mode_param": {
+        "tokenizer_type": 2,
+        "url_tokenizer_model": "http://localhost:8080",
+        "filename_tokens_embed": "model.embed_tokens.weight.bfloat16.bin",
+        "filename_post_axmodel": "qwen3_vl_text_post.axmodel",
+        "template_filename_axmodel": "qwen3_vl_text_p64_l%d_together.axmodel",
+        "filename_image_encoder_axmodel": "Qwen3-VL-2B-Instruct_vision_u8_384_ax630c.axmodel",
+        "enable_temperature": true,
+        "temperature": 0.7,
+        "enable_top_p_sampling": false,
+        "top_p": 0.9,
+        "enable_top_k_sampling": true,
+        "top_k": 40,
+        "enable_repetition_penalty": false,
+        "repetition_penalty": 1.1,
+        "penalty_window": 50,
+        "axmodel_num": 28,
+        "tokens_embed_num": 151936,
+        "tokens_embed_size": 2048,
+        "b_use_mmap_load_embed": true,
+        "b_video": false,
+        "vision_config.temporal_patch_size": 2,
+        "vision_config.tokens_per_second": 2,
+        "vision_config.spatial_merge_size": 2,
+        "vision_config.patch_size": 16,
+        "vision_config.height": 384,
+        "vision_config.width": 384,
+        "vision_config.fps": 1,
+        "image_token_id": 151655,
+        "video_token_id": 151656,
+        "vision_start_token_id": 151652,
+        "precompute_len": 0,
+        "cmm_size": 3582336,
+        "ext_scripts": [
+            "tokenizer_qwen3-vl-2B-Int4-ax630c.py"
+        ]
+    }
+}
diff --git a/projects/llm_framework/main_vlm/scripts/tokenizer_qwen3-vl-2B-Int4-ax630c.py b/projects/llm_framework/main_vlm/scripts/tokenizer_qwen3-vl-2B-Int4-ax630c.py
@@ -0,0 +1,162 @@
+from transformers import AutoTokenizer, PreTrainedTokenizerFast
+from transformers.tokenization_utils_base import AddedToken
+from http.server import HTTPServer, BaseHTTPRequestHandler
+import json
+import argparse
+
+class Tokenizer_Http:
+    def __init__(self, model_id, system_content="You are a helpful assistant."):
+        self.tokenizer = AutoTokenizer.from_pretrained(
+            model_id,
+            trust_remote_code=True,
+            use_fast=False
+        )
+        self.token_ids_cache = []
+        self.system_content = system_content
+
+    def encode(self, content):
+        text = [
+            f'<|im_start|>system\n{self.system_content}<|im_end|>\n'
+            f'<|im_start|>user\n{content}<|im_end|>\n'
+            f'<|im_start|>assistant\n'
+        ]
+        input_ids = self.tokenizer(text)
+        return input_ids["input_ids"][0]
+
+    def encode_vpm_image(self, content="Describe this image.", num_img=1, img_token_num=256):
+        imgs_token = (
+            '<|vision_start|>'
+            + '<|image_pad|>' * img_token_num
+            + '<|vision_end|>'
+        )
+        imgs_token *= num_img
+        text = (
+            f'<|im_start|>system\n{self.system_content}<|im_end|>\n'
+            f'<|im_start|>user\n{imgs_token}{content}<|im_end|>\n'
+            f'<|im_start|>assistant\n'
+        )
+        text_inputs = self.tokenizer([text])
+        return text_inputs["input_ids"][0]
+
+    def encode_vpm_video(self, content="Describe this image.", num_img=1, img_token_num=256):
+        imgs_token = (
+            '<|vision_start|>'
+            + '<|video_pad|>' * img_token_num * num_img
+            + '<|vision_end|>'
+        )
+        text = (
+            f'<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n'
+            f'<|im_start|>user\n{imgs_token}{content}<|im_end|>\n'
+            f'<|im_start|>assistant\n'
+        )
+        text_inputs = self.tokenizer([text])
+        return text_inputs["input_ids"][0]
+    
+    def decode(self, token_ids):
+        self.token_ids_cache += token_ids
+        text = self.tokenizer.decode(self.token_ids_cache)
+        if "\ufffd" in text:
+            print("text 中包含非法字符")
+            return ""
+        else:
+            self.token_ids_cache.clear()
+            return text
+
+    @property
+    def bos_id(self):
+        return self.tokenizer.bos_token_id
+
+    @property
+    def eos_id(self):
+        return self.tokenizer.eos_token_id
+
+    @property
+    def bos_token(self):
+        return self.tokenizer.bos_token
+
+    @property
+    def eos_token(self):
+        return self.tokenizer.eos_token
+
+    @property
+    def img_start_token(self):
+        return self.tokenizer.encode("<|vision_start|>")[0]
+
+    @property
+    def img_context_token(self):
+        return self.tokenizer.encode("<|image_pad|>")[0]
+
+class Request(BaseHTTPRequestHandler):
+    timeout = 5
+    server_version = 'Apache'
+
+    def do_GET(self):
+        print(self.path)
+        self.send_response(200)
+        self.send_header("type", "get")
+        self.end_headers()
+        if self.path == '/bos_id':
+            bos_id = tokenizer.bos_id
+            msg = json.dumps({'bos_id': -1 if bos_id is None else bos_id})
+        elif self.path == '/eos_id':
+            eos_id = tokenizer.eos_id
+            msg = json.dumps({'eos_id': -1 if eos_id is None else eos_id})
+        elif self.path == '/img_start_token':
+            img_start_token = tokenizer.img_start_token
+            msg = json.dumps({'img_start_token': -1 if img_start_token is None else img_start_token})
+        elif self.path == '/img_context_token':
+            img_context_token = tokenizer.img_context_token
+            msg = json.dumps({'img_context_token': -1 if img_context_token is None else img_context_token})
+        else:
+            msg = 'error'
+        print(msg)
+        msg = str(msg).encode()
+        self.wfile.write(msg)
+
+    def do_POST(self):
+        data = self.rfile.read(int(self.headers['content-length']))
+        req = json.loads(data.decode())
+        if self.path == "/encode":
+            prompt = req['text']
+            b_img_prompt = req.get('img_prompt', False)
+            img_type = req.get('img_type', 'image')
+            if b_img_prompt:
+                if img_type == 'image':
+                    token_ids = tokenizer.encode_vpm_image(
+                        prompt,
+                        req.get("num_img", 1),
+                        req.get("img_token_num", 256)
+                    )
+                elif img_type == 'video':
+                    token_ids = tokenizer.encode_vpm_video(
+                        prompt,
+                        req.get("num_img", 1),
+                        req.get("img_token_num", 256)
+                    )
+                else:
+                    token_ids = tokenizer.encode(prompt)
+            else:
+                token_ids = tokenizer.encode(prompt)
+            msg = json.dumps({'token_ids': -1 if token_ids is None else token_ids})
+        elif self.path == "/decode":
+            token_ids = req['token_ids']
+            text = tokenizer.decode(token_ids)
+            msg = json.dumps({'text': "" if text is None else text})
+        else:
+            msg = 'error'
+        self.send_response(200)
+        self.end_headers()
+        self.wfile.write(str(msg).encode())
+
+if __name__ == "__main__":
+    args = argparse.ArgumentParser()
+    args.add_argument('--host', type=str, default='localhost')
+    args.add_argument('--port', type=int, default=8080)
+    args.add_argument('--model_id', type=str, default='tokenizer')
+    args.add_argument('--content', type=str, default='You are a helpful assistant.')
+    args = args.parse_args()
+    tokenizer = Tokenizer_Http(args.model_id, system_content=args.content)
+    host = (args.host, args.port)
+    print(f"http://{args.host}:{args.port}")
+    server = HTTPServer(host, Request)
+    server.serve_forever()
diff --git a/projects/llm_framework/main_vlm/src/runner/Tokenizer/Tokenizer.cpp b/projects/llm_framework/main_vlm/src/runner/Tokenizer/Tokenizer.cpp
@@ -162,9 +162,9 @@ class Tokenizer_Http : public BaseTokenizer {
 
         try {
             cli = std::make_shared<httplib::Client>(base_url);
-            cli->set_connection_timeout(1);
-            cli->set_read_timeout(1);
-            cli->set_write_timeout(1);
+            cli->set_connection_timeout(10);
+            cli->set_read_timeout(10);
+            cli->set_write_timeout(10);
             {
                 auto ret = cli->Get("/bos_id");
                 auto rep = ret.value();
@@ -209,9 +209,9 @@ class Tokenizer_Http : public BaseTokenizer {
 
         try {
             cli = std::make_shared<httplib::Client>(base_url);
-            cli->set_connection_timeout(1);
-            cli->set_read_timeout(1);
-            cli->set_write_timeout(1);
+            cli->set_connection_timeout(10);
+            cli->set_read_timeout(10);
+            cli->set_write_timeout(10);
             {
                 auto ret = cli->Get("/bos_id");
                 auto rep = ret.value();
diff --git a/projects/llm_framework/tools/llm_pack.py b/projects/llm_framework/tools/llm_pack.py
@@ -465,6 +465,7 @@ def create_bin_deb(package_name, version, src_folder, revision = 'm5stack1', dep
         'llm-model-qwen2.5-1.5B-Int4-ax630c':[create_data_deb,'llm-model-qwen2.5-1.5B-Int4-ax630c', '0.4', src_folder, revision],
         'llm-model-qwen2.5-coder-0.5B-ax630c':[create_data_deb,'llm-model-qwen2.5-coder-0.5B-ax630c', data_version, src_folder, revision],
         'llm-model-qwen3-0.6B-ax630c':[create_data_deb,'llm-model-qwen3-0.6B-ax630c', '0.4', src_folder, revision],
+        'llm-model-qwen3-vl-2B-Int4-ax630c':[create_data_deb,'llm-model-qwen3-vl-2B-Int4-ax630c', '0.5', src_folder, revision],
         ## AX650
         'llm-model-qwen2.5-0.5B-Int4-ax650':[create_data_deb,'llm-model-qwen2.5-0.5B-Int4-ax650', '0.4', src_folder, revision],
         'llm-model-qwen2.5-HA-0.5B-ctx-ax650':[create_data_deb,'llm-model-qwen2.5-HA-0.5B-ctx-ax650', '0.5', src_folder, revision],