MultimodalSDK
English | 中文
快速参考
MultimodalSDK简介
多模态大模型推理流程中需要处理大量复杂的数据。MultimodalSDK 通过提供一系列高性能的昇腾设备亲和性接口,加速大模型推理预处理流程。预处理接口当前在 CPU 上执行(DeviceMode.CPU),通常与 CANN/NPU 推理框架配合部署。
- 包括图像视频加载和解码,resize、crop等预处理常用操作。
- 支持多种开源数据结构与加速库数据结构的相互转换,方便快速使用和移植。
支持的 Tags 及 Dockerfile 链接
Tag 规范
Tag 遵循以下格式:
<MultimodalSDK版本>-<芯片系列>-<操作系统>-<python版本>
| 字段 | 示例值 | 说明 |
|---|---|---|
MultimodalSDK版本 |
26.0.0 |
MultimodalSDK 版本号 |
芯片系列 |
910 |
目标芯片系列 |
操作系统 |
ubuntu22.04、openeuler24.03 |
基础操作系统 |
python版本 |
py3.11 |
Python 版本 |
支持的tags及Dockerfile
| Tag | Dockerfile |
|---|---|
26.0.0-910b-openeuler24.03-py3.11 |
Dockerfile.910b.openEuler |
26.0.0-910b-ubuntu22.04-py3.11 |
Dockerfile.910b.ubuntu |
快速开始
前置要求(可选)
安装驱动
主机上必须安装与容器内 CANN 版本兼容的 NPU 驱动。请参阅 CANN 兼容性矩阵 了解驱动与 CANN 版本的对应关系。
如何本地构建
docker build -t {your_repo}/multimodal:latest -f Dockerfile.<芯片系列>.<操作系统> .
运行 MultimodalSDK 容器
docker run \
--name multimodal_container \
--device /dev/davinci1 \
--device /dev/davinci_manager \
--device /dev/devmm_svm \
--device /dev/hisi_hdc \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-it ascend/multimodal:tag bash
进入容器
docker exec -it multimodal_container bash
如何二次开发
FROM swr.cn-south-1.myhuaweicloud.com/ascendhub/multimodalsdk:26.0.0-910b-ubuntu22.04-py3.11-aarch64
RUN apt update -y && \
apt install gcc ...
...
MultimodalSDK使用说明
MultimodalSDK 提供丰富的示例代码,帮助开发者快速上手。您可以通过以下链接获取最新的示例:
支持的硬件
| 产品型号 | 架构 |
|---|---|
| Atlas 800I A2 | ARM64 |
许可证
查看这些镜像中包含的 CANN 和 Mind 系列软件的许可证信息。
与所有容器镜像一样,预装软件包(Python、系统库等)可能受其自身许可证约束。