MindSpeed-LLM/mindspeed_llm/tasks/models/spec · Ascend/MindSpeed-LLM - AtomGit

Ii-robot!3335 [pytorch][bugfix]fix qwen3_next mpt bug

d4f5f57b创建于 2025年9月18日历史提交

文件	最后提交记录	最后更新时间
__init__.py	!1998 rename: repo package name from modellink to mindspeed_llm Merge pull request !1998 from MeiFei/master-package-rename	1 年前
bailing_spec.py	!3238 [pytorch][model]support bailing_mini 0day Merge pull request !3238 from jzh/bailing	9 个月前
deepseek_spec.py	!3316 [pytorch][model]add qwen3_next model Merge pull request !3316 from guozhihua/qwen3_next_master	9 个月前
gemma2_spec.py	!2032 refactor: TransformerLayerSpecWithPostNorm Merge pull request !2032 from RuanZhiXiang/refactor-support-feature-spec-mapping	1 年前
grok_spec.py	!2032 refactor: TransformerLayerSpecWithPostNorm Merge pull request !2032 from RuanZhiXiang/refactor-support-feature-spec-mapping	1 年前
hunyuan_spec.py	!2414 codecheck更改 Merge pull request !2414 from shenjiarun/master	1 年前
mamba_spec.py	!2555 [mamba] supports state_space_duality implementations for both mamba2 and mamba2_hybrid architectures. Merge pull request !2555 from guozhihua/master	1 年前
minicpm_spec.py	!2971 [pytorch][refactor]MLA module upgrade, parameter alignment with Megatron. Merge pull request !2971 from mhh001/master	11 个月前
phi35_moe_spec.py	!2414 codecheck更改 Merge pull request !2414 from shenjiarun/master	1 年前
qwen2_moe_spec.py	!3105 [pytorch][refactor]add qwen2_moe spec with shared_expert_gate Merge pull request !3105 from guozhihua/add_qwen2_moe_spec	10 个月前
qwen3_next_spec.py	!3335 [pytorch][bugfix]fix qwen3_next mpt bug Merge pull request !3335 from guozhihua/fix_qwen3_next_mtp	9 个月前
qwen3_spec.py	!3105 [pytorch][refactor]add qwen2_moe spec with shared_expert_gate Merge pull request !3105 from guozhihua/add_qwen2_moe_spec	10 个月前