Project-HAMi
diff --git a/‎i18n/zh/docusaurus-plugin-content-docs/current/contributor/contributers.md‎
Lines changed: 24 additions & 0 deletions b/‎i18n/zh/docusaurus-plugin-content-docs/current/contributor/contributers.md‎
Lines changed: 24 additions & 0 deletions
diff --git a/‎i18n/zh/docusaurus-plugin-content-docs/current/core-concepts/introduction.md‎
Lines changed: 32 additions & 26 deletions b/‎i18n/zh/docusaurus-plugin-content-docs/current/core-concepts/introduction.md‎
Lines changed: 32 additions & 26 deletions
diff --git a/‎i18n/zh/docusaurus-plugin-content-docs/current/developers/kunlunxin-topology.md‎
Lines changed: 52 additions & 0 deletions b/‎i18n/zh/docusaurus-plugin-content-docs/current/developers/kunlunxin-topology.md‎
Lines changed: 52 additions & 0 deletions
diff --git a/‎i18n/zh/docusaurus-plugin-content-docs/current/get-started/deploy-with-helm.md‎
Lines changed: 186 additions & 0 deletions b/‎i18n/zh/docusaurus-plugin-content-docs/current/get-started/deploy-with-helm.md‎
Lines changed: 186 additions & 0 deletions
diff --git a/‎i18n/zh/docusaurus-plugin-content-docs/current/resources/kunlunxin_filter.png‎
348 KB b/‎i18n/zh/docusaurus-plugin-content-docs/current/resources/kunlunxin_filter.png‎
348 KB
diff --git a/‎i18n/zh/docusaurus-plugin-content-docs/current/resources/kunlunxin_topo.jpg‎
33.6 KB b/‎i18n/zh/docusaurus-plugin-content-docs/current/resources/kunlunxin_topo.jpg‎
33.6 KB
@@ -0,0 +1,24 @@
+---
+title: 贡献者名单
+---
+
+- 请查阅[HAMi社区成员制度](https://github.com/Project-HAMi/community/blob/main/community-membership.md)了解如何成为贡献者。
+- 完整[维护者名单](https://github.com/Project-HAMi/community/blob/main/MAINTAINERS.md)请参见此处。
+
+以下贡献者（按字母顺序排列）已签署或提交了HAMi代码库的提交记录：
+
+| 贡献者 | 邮箱 |
+|-----------------|-----------|
+| [archlitchi](https://github.com/archlitchi) | [email protected]|
+| [atttx123](https://github.com/atttx123) | - |
+| [chaunceyjiang](https://github.com/chaunceyjiang) | [email protected]|
+| [CoderTH](https://github.com/CoderTH) | - |
+| [gsakun](https://github.com/gsakun) | - |
+| [lengrongfu](https://github.com/lengrongfu) | - |
+| [ouyangluwei](https://github.com/ouyangluwei163) | [email protected] |
+| peizhaoyou | [email protected] |
+| [wawa0210](https://github.com/wawa0210) | [email protected] |
+| [whybeyoung](https://github.com/whybeyoung) | - |
+| [yinyu](https://github.com/Nimbus318) | [email protected] |
+| [yangshiqi](https://github.com/yangshiqi) | [email protected] |
+| zhengbingxian | - |
@@ -1,41 +1,47 @@
 ---
-slug: /
-title: 什么是 HAMi？
+title: 什么是HAMi？
 translated: true
+slug: /
 ---
 
-## HAMi: 异构AI计算虚拟化中间件
+## 目录 {#toc}
+
+- [HAMi：异构AI计算虚拟化中间件](#hami-heterogeneous-ai-computing-virtualization-middleware)
+- [为什么选择HAMi](#why-hami)
+- [后续步骤](#whats-next)
+
+## HAMi：异构AI计算虚拟化中间件 {#hami-heterogeneous-ai-computing-virtualization-middleware}
 
-异构AI计算虚拟化中间件（HAMi），前称为k8s-vGPU-scheduler，是一个设计用于管理k8s集群中异构AI计算设备的“全合一”图表。它可以提供在任务之间共享异构AI设备的能力。
+异构AI计算虚拟化中间件（HAMi），前身为k8s-vGPU-scheduler，是一个专为管理k8s集群中异构AI计算设备而设计的"一体化"Helm Chart。它能够实现异构AI设备在多个任务间的共享能力。
 
-HAMi是一个[云原生计算基金会](https://cncf.io/)的沙箱项目和[景观项目](https://landscape.cncf.io/?item=orchestration-management--scheduling-orchestration--hami)以及[CNAI景观项目](https://landscape.cncf.io/?group=cnai&item=cnai--general-orchestration--hami)。
+HAMi是[云原生计算基金会（CNCF）](https://cncf.io/)的SandBox项目，同时被收录于[CNCF技术全景图-编排与调度类目](https://landscape.cncf.io/?item=orchestration-management--scheduling-orchestration--hami)及[CNAI技术全景图](https://landscape.cncf.io/?group=cnai&item=cnai--general-orchestration--hami)。
 
-## 为什么选择HAMi：
-- __设备共享__
-    - 支持多种异构AI计算设备
-    - 支持多设备容器的设备共享
+## 为什么选择HAMi {#why-hami}
 
-- __设备内存控制__
-    - 容器内的硬限制
-    - 支持动态设备内存分配
-    - 支持按MB或百分比分配内存
+- **设备共享**
+  - 支持多种异构AI计算设备（如NVIDIA GPU/CUDA）
+  - 支持多设备容器的设备共享
 
-- __设备规格__
-    - 支持指定某种类型的异构AI计算设备  
-    - 支持使用设备UUID指定某个异构AI计算设备
+- **设备内存控制**
+  - 容器内硬性内存限制
+  - 支持动态设备内存分配
+  - 支持按MB或百分比分配内存
 
-- __易于尝试__
-    - 对容器内的任务透明
-    - 使用helm安装/卸载，简单且环保
+- **设备规格指定**
+  - 支持指定特定类型的异构AI计算设备
+  - 支持通过设备UUID指定具体设备
 
-- __开放和中立__
-    - 由互联网、金融、制造、云服务提供商等共同发起
-    - 目标是与CNCF进行开放治理
+- **开箱即用**
+  - 对容器内任务透明无感
+  - 通过helm一键安装/卸载，简洁环保
 
+- **开放中立**
+  - 由互联网、金融、制造业、云服务商等多领域联合发起
+  - 以CNCF开放治理为目标
 
-## 下一步
+## 后续步骤 {#whats-next}
 
-以下是一些推荐的下一步操作：
+推荐继续了解：
 
-- 了解HAMi的[架构](./architecture.md)。
-- 开始[安装HAMi](../installation/prequisities.md)。
+- 学习HAMi的[架构设计](./architecture.md)
+- 开始[安装HAMi](../installation/prequisities.md)
@@ -0,0 +1,52 @@
+---
+title: 昆仑芯拓扑感知调度
+---
+
+## 背景
+
+当单个P800服务器配置多块XPU时，若GPU连接或位于同一NUMA节点内（如下图所示），可获得最优性能表现。这种配置会在服务器内所有GPU之间形成特定拓扑关系。
+
+![img](../resources/kunlunxin_topo.jpg)
+
+当用户作业申请特定数量的`kunlunxin.com/xpu`资源时，Kubernetes会将pod调度到合适节点以最小化资源碎片并保持高性能。选定节点后，XPU设备会根据以下规则进行细粒度资源分配：
+
+1. 仅允许1、2、4或8卡分配方案
+2. 1/2/4卡分配不得跨NUMA节点
+3. 分配后应最小化资源碎片
+
+## 过滤阶段
+
+过滤阶段识别所有符合分配条件的节点。针对每个节点，系统会筛选最优XPU组合方案并缓存，供评分阶段使用。筛选流程如下图所示：
+
+![img](../resources/kunlunxin_filter.png)
+
+## 评分阶段
+
+在评分阶段，所有通过过滤的节点会接受评估并打分以选择最优调度目标。我们引入**MTF**（最小填充分任务数）指标，用于量化节点在分配后容纳未来任务的能力。
+
+下表展示了XPU占用情况与对应MTF值的示例：
+
+| XPU占用状态 | MTF | 说明 |
+|----------------|-----|-------------|
+| 11111111       | 0   | 完全占用，无法调度新任务 |
+| 00000000       | 1   | 可被一个8-XPU任务完全占用 |
+| 00000011       | 2   | 可调度一个4-XPU任务和一个2-XPU任务 |
+| 00000001       | 3   | 可容纳一个4-XPU、一个2-XPU和一个1-XPU任务 |
+| 00010001       | 4   | 可容纳两个2-XPU任务和两个1-XPU任务 |
+
+节点得分基于分配前后的**MTF差值**计算。差值越小表示适配度越高，得分也越高。具体评分逻辑如下：
+
+| MTF差值 | 得分  | 示例 |
+|------------|-------|---------|
+|   -1       | 2000  | 00000111->00001111 |
+|    0       | 1000  | 00000111->00110111 |
+|    1       | 0     | 00001111->00011111 |
+|    2       | -1000 | 00000000->00000001 |
+
+## 绑定阶段
+
+在绑定阶段，分配结果会以注解形式注入pod。例如：
+
+```
+BAIDU_COM_DEVICE_IDX=0,1,2,3
+```
@@ -0,0 +1,186 @@
+---  
+title: 使用helm部署HAMi  
+---  
+
+## 目录 {#toc}  
+
+- [先决条件](#prerequisites)  
+- [安装步骤](#installation)  
+- [演示](#demo)  
+
+本指南将涵盖：  
+
+- 为每个GPU节点配置nvidia容器运行时  
+- 使用helm安装HAMi  
+- 启动vGPU任务  
+- 验证容器内设备资源是否受限  
+
+## 先决条件 {#prerequisites}  
+
+- [Helm](https://helm.sh/zh/docs/) v3+版本  
+- [kubectl](https://kubernetes.io/docs/tasks/tools/install-kubectl/) v1.16+版本  
+- [CUDA](https://developer.nvidia.com/cuda-toolkit) v10.2+版本  
+- [NVIDIA驱动](https://www.nvidia.cn/drivers/unix/) v440+版本  
+
+## 安装步骤 {#installation}  
+
+### 1. 配置nvidia-container-toolkit {#configure-nvidia-container-toolkit}  
+
+<summary> 配置nvidia-container-toolkit </summary>  
+
+在所有GPU节点执行以下操作。  
+
+本文档假设已预装NVIDIA驱动和`nvidia-container-toolkit`，并已将`nvidia-container-runtime`配置为默认底层运行时。  
+
+参考：[nvidia-container-toolkit安装指南](https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html)  
+
+#### 基于Debian系统（使用`Docker`和`containerd`）示例 {#example-for-debian-based-systems-with-docker-and-containerd}  
+
+##### 安装`nvidia-container-toolkit` {#install-the-nvidia-container-toolkit}  
+
+```bash  
+distribution=$(. /etc/os-release;echo $ID$VERSION_ID)  
+curl -s -L https://nvidia.github.io/libnvidia-container/gpgkey | sudo apt-key add -  
+curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | \  
+  sudo tee /etc/apt/sources.list.d/libnvidia-container.list  
+
+sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit  
+```  
+
+##### 配置`Docker` {#configure-docker}  
+
+当使用`Docker`运行`Kubernetes`时，编辑配置文件（通常位于`/etc/docker/daemon.json`），将`nvidia-container-runtime`设为默认底层运行时：  
+
+```json  
+{  
+  "default-runtime": "nvidia",  
+  "runtimes": {  
+    "nvidia": {  
+      "path": "/usr/bin/nvidia-container-runtime",  
+      "runtimeArgs": []  
+    }  
+  }  
+}  
+```  
+
+然后重启`Docker`：  
+
+```bash  
+sudo systemctl daemon-reload && systemctl restart docker  
+```  
+
+##### 配置`containerd` {#configure-containerd}  
+
+当使用`containerd`运行`Kubernetes`时，修改配置文件（通常位于`/etc/containerd/config.toml`），将`nvidia-container-runtime`设为默认底层运行时：  
+
+```toml  
+version = 2  
+[plugins]  
+  [plugins."io.containerd.grpc.v1.cri"]  
+    [plugins."io.containerd.grpc.v1.cri".containerd]  
+      default_runtime_name = "nvidia"  
+
+      [plugins."io.containerd.grpc.v1.cri".containerd.runtimes]  
+        [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.nvidia]  
+          privileged_without_host_devices = false  
+          runtime_engine = ""  
+          runtime_root = ""  
+          runtime_type = "io.containerd.runc.v2"  
+          [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.nvidia.options]  
+            BinaryName = "/usr/bin/nvidia-container-runtime"  
+```  
+
+然后重启`containerd`：  
+
+```bash  
+sudo systemctl daemon-reload && systemctl restart containerd  
+```  
+
+#### 2. 标记节点 {#label-your-nodes}  
+
+通过添加"gpu=on"标签将GPU节点标记为可调度HAMi任务。未标记的节点将无法被调度器管理。  
+
+```bash  
+kubectl label nodes {节点ID} gpu=on  
+```  
+
+#### 3. 使用helm部署HAMi {#deploy-hami-using-helm}  
+
+首先通过以下命令确认Kubernetes版本：  
+
+```bash  
+kubectl version  
+```  
+
+然后添加helm仓库：  
+
+```bash  
+helm repo add hami-charts https://project-hami.github.io/HAMi/  
+```  
+
+安装时需设置Kubernetes调度器镜像版本与集群版本匹配。例如集群版本为1.16.8时，使用以下命令部署：  
+
+```bash  
+helm install hami hami-charts/hami \  
+  --set scheduler.kubeScheduler.imageTag=v1.16.8 \  
+  -n kube-system  
+```  
+
+若一切正常，可见vgpu-device-plugin和vgpu-scheduler的Pod均处于Running状态  
+
+### 演示 {#demo}  
+
+#### 1. 提交演示任务 {#submit-demo-task}  
+
+容器现在可通过`nvidia.com/gpu`资源类型申请NVIDIA vGPU：  
+
+```yaml  
+apiVersion: v1  
+kind: Pod  
+metadata:  
+  name: gpu-pod  
+spec:  
+  containers:  
+    - name: ubuntu-container  
+      image: ubuntu:18.04  
+      command: ["bash", "-c", "sleep 86400"]  
+      resources:  
+        limits:  
+          nvidia.com/gpu: 1 # 申请1个vGPU  
+          nvidia.com/gpumem: 10240 # 每个vGPU包含10240m设备内存（可选，整型）  
+```  
+
+#### 验证容器内资源限制 {#verify-in-container-resouce-control}  
+
+执行查询命令：  
+
+```bash  
+kubectl exec -it gpu-pod nvidia-smi  
+```  
+
+预期输出：  
+
+```text  
+[HAMI-core Msg(28:140561996502848:libvgpu.c:836)]: 初始化中.....  
+2024年4月10日 星期三 09:28:58  
++-----------------------------------------------------------------------------------------+  
+| NVIDIA-SMI 550.54.15              驱动版本: 550.54.15     CUDA版本: 12.4     |  
+|-----------------------------------------+------------------------+----------------------+  
+| GPU  名称                 持久化-M | 总线ID         显存.A | 易失性ECC错误 |  
+| 风扇  温度  性能          功耗:使用/上限 |           显存使用率 | GPU利用率  计算模式 |  
+|                                         |                        |              MIG模式 |  
+|=========================================+========================+======================|  
+|   0  Tesla V100-PCIE-32GB           启用 |   00000000:3E:00.0 关闭 |                   0 |  
+| N/A   29C    P0             24W/250W |      0MiB/10240MiB |     0%      默认模式 |  
+|                                         |                        |                 N/A |  
++-----------------------------------------+------------------------+----------------------+  
+
++-----------------------------------------------------------------------------------------+  
+| 进程:                                                                               |  
+|  GPU  GI  CI        进程ID   类型   进程名称                              显存使用量 |  
+|        ID  ID                                                               |  
+|=========================================================================================|  
+|  未找到运行中的进程                                                             |  
++-----------------------------------------------------------------------------------------+  
+[HAMI-core Msg(28:140561996502848:multiprocess_memory_limit.c:434)]: 调用退出处理程序28  
+```