MultimodalSDK:基于昇腾生态的多模态大模型推理预处理加速工具

MultimodalSDK

分支3Tags1

Multimodal SDK

昇腾多模态大模型推理预处理加速工具

Ascend License Zread DeepWiki

✨ 最新消息

ℹ️ 简介

多模态大模型推理流程中需要处理大量复杂的数据。Multimodal SDK 通过提供一系列高性能的昇腾设备亲和性接口,加速大模型推理预处理流程,包括图像视频加载和解码、resize、crop 等预处理常用操作,并支持多种开源数据结构与加速库数据结构的相互转换,方便快速使用和移植。

⚙️ 功能介绍

类别 模块 功能简介 文档
加速库 功能函数 Tensor / Image / video_decode / load_audio 等预处理接口 功能函数参考
适配器 Adapter Qwen2VL、InternVL2 模型预处理适配 Adapter
补丁 Patcher vLLM 框架预处理加速补丁 patcher
API Python 接口 数据类型枚举与接口目录 Python 接口说明

🚀 快速入门

只需约 5 分钟,即可通过 Docker 快速启动环境并完成首次体验,详见快速入门

📦 安装指南

详细的安装部署说明请参见安装指南

📘 使用指南

详细的开发者文档请参见Multimodal SDK 开发者文档

🛠️ 贡献指南

欢迎参与项目贡献,请参见贡献指南

⚖️ 相关说明

🤝 建议与交流

欢迎大家为社区做贡献,贡献前,请先签署开放项目贡献者许可协议(CLA)