(beta)torch_npu::init_npu
|
初始化NPU设备。
|
(beta)torch_npu::finalize_npu
|
反初始化NPU设备,即进行NPU资源释放。
|
(beta)torch::npu::synchronize
|
NPU设备同步接口,与void torch::cuda::synchronize(int64_t device_index = -1)相同。
|
(beta)c10::npu::current_device
|
获取当前NPU设备,返回值类型DeviceIndex,与c10::DeviceIndex c10::cuda::current_device()相同。
|
(beta)at::Device
|
在安装torch_npu后,Device类型新增支持NPU字段,可以从字符串描述中指示设备。
|
(beta)struct c10_npu::NPUEvent
|
NPUEvent是一个事件类,实现了NPU设备事件管理的相关功能,可用于监视设备的进度、精确测量计时以及同步NPU流。
|
(beta)class at_npu::NPUGeneratorImpl
|
NPUGeneratorImpl是一个随机数生成器类,实现了NPU设备随机数的相关功能,可用于众多依赖随机数的方法。
|
(beta)at_npu::detail::getDefaultNPUGenerator
|
NPU设备默认生成器获取,返回值类型at::Generator常量引用,与at::Generator& at::cuda::detail::getDefaultCUDAGenerator(c10::DeviceIndex device_index = -1)相同。
|
(beta)at_npu::detail::createNPUGenerator
|
NPU设备默认生成器创建,返回值类型at::Generator,与at::Generator at::cuda::detail::createCUDAGenerator(c10::DeviceIndex device_index = -1)相同。
|
(beta)class c10_npu::NPUStream
|
NPUStream是一个NPU流类,实现了NPU流管理的相关功能,是属于NPU设备的线性执行序列。
|
(beta)c10_npu::getNPUStreamFromPool
|
从NPU流池中获得一条新流,返回值类型NPUStream,与c10::CUDA::CUDAStream c10::CUDA::getStreamFromPool(const bool isHighPriority = false, c10::DeviceIndex device = -1)相同。
|
(beta)c10_npu::getDefaultNPUStream
|
获取默认NPU流,返回值类型NPUStream,与c10::cuda::CUDAStream c10::cuda::getDefaultCUDAStream(c10::DeviceIndex device_index = -1)相同。
|
(beta)c10_npu::getCurrentNPUStream
|
获取当前NPU流,返回值类型NPUStream,与c10::CUDA::CUDAStream c10::CUDA::getCurrentCUDAStream(c10::DeviceIndex device_index = -1)相同。
|
(beta)c10_npu::setCurrentNPUStream
|
设置当前NPU流,与void c10::CUDA::setCurrentCUDAStream(c10::CUDA::CUDAStream stream)相同。
|
(beta)class at_npu::native::OpCommand
|
OpCommand是一个封装下层算子调用的类,实现了NPU设备下层算子调用的相关功能。
|
(beta)struct c10_npu::NPUHooksInterface
|
NPUHooksInterface是一个Hook接口类,提供了NPU Hook的相关接口。
|
(beta)struct c10_npu::NPUHooksArgs
|
NPUHooksArgs是一个Hook参数类,提供了NPU Hook的相关参数。
|
(beta)c10_npu::device_count
|
NPU设备数量获取,返回值类型DeviceIndex,与c10::DeviceIndex c10::cuda::device_count()相同。
|
(beta)c10_npu::GetDevice
|
NPU设备id获取,返回值类型aclError,与cudaError_t c10::cuda::GetDevice(int *device)相同。
|
(beta)c10_npu::SetDevice
|
NPU设备设置,返回值类型aclError,与cudaError_t c10::cuda::SetDevice(int device)相同。
|
(beta)c10_npu::current_device
|
NPU设备id获取,返回值类型DeviceIndex,为获取到的设备id,与c10::DeviceIndex c10::cuda::current_device()相同,与c10_npu::GetDevice主要区别是增加了错误检查。
|
(beta)c10_npu::set_device
|
NPU设备设置,与void c10::cuda::set_device(c10::DeviceIndex device)相同,与c10_npu::SetDevice主要区别是增加了错误检查。
|
(beta)c10_npu::warning_state
|
获取当前同步时警告等级,返回值类型WarningState为枚举类,包含无警告L_DISABLED、警告L_WARN和报错L_ERROR,与WarningState& c10::cuda::warning_state()相同。
|
(beta)c10_npu::warn_or_error_on_sync
|
NPU同步时警告,无返回值,根据当前警告等级进行报错或警告,与void c10::cuda::warn_or_error_on_sync()相同。
|
(beta)at_npu::native::get_npu_format
|
获取NPU tensor格式信息,返回值类型int64_t,表示获取的NPU tensor格式信息。
|
(beta)at_npu::native::get_npu_storage_sizes
|
获取NPU tensor的内存大小,返回值类型vector<int64_t>,表示获取的NPU tensor内存大小。
|
(beta)at_npu::native::npu_format_cast
|
NPU tensor格式转换,返回值类型Tensor,表示转换后的tensor。
|
(beta)at_npu::native::empty_with_format
|
获取指定格式的NPU空tensor,返回值类型Tensor,表示获取的空tensor。
|
(beta)c10_npu::c10_npu_get_error_message
|
获取报错信息,返回值类型char *,表示获取到的报错信息字符串。
|
(beta)at_npu::native::npu_dropout_gen_mask
|
训练过程中,按照概率p随机生成mask,用于元素置零。
|
at_npu.native-empty_with_swapped_memory
|
申请一个device信息为NPU且实际内存在host侧的特殊Tensor。
|
c10_npu::NPUStreamGuard
|
NPU设备流guard,保障作用域内的设备流,与`c10::cuda::CUDAStreamGuard`相同。
|
c10_npu::NPUStreamGuard::current_device
|
返回guard当前设备。
|
c10_npu::NPUStreamGuard::current_stream
|
返回guard当前保障的流。
|
c10_npu::NPUStreamGuard::NPUStreamGuard
|
构造函数,创建一个流guard。
|
c10_npu::NPUStreamGuard::original_device
|
返回guard构造时的设备。
|
c10_npu::NPUStreamGuard::original_stream
|
返回guard构造时设置的流。
|
c10_npu::NPUStreamGuard::reset_stream
|
给guard重新设置新的流。
|
c10_npu::stream_synchronize
|
NPU设备流同步,与`c10::cuda::stream_synchronize`相同。
|
c10d_npu::ProcessGroupHCCL
|
ProcessGroupHCCL继承自`c10d::Backend`,实现`HCCL`后端的相关接口,用于通信算子调用。
|
c10d_npu::ProcessGroupHCCL::batch_isend_irecv
|
发送或接收一批tensor,异步处理P2P操作序列中的每一个操作,并返回对应的请求。
|