针对gpt4-x-alpaca-13b的4位128g CUDA量化版本,解决旧版GPTQ-for-LLaMA及KoboldAI兼容性问题,便于在相关环境中稳定运行。【此简介由AI生成】
以下内容由 AI 翻译,如有问题请 点此提交 issue 反馈
对 https://huggingface.co/chavinlo/gpt4-x-alpaca 进行量化处理
虽然 https://huggingface.co/anon8231489123/gpt4-x-alpaca-13b-native-4bit-128g 已存在量化版本,但其上传的triton和cuda版本均无法兼容旧版GPTQ-for-LLaMA(例如当前0cc4m分支中KoboldAI用于4bit支持的版本)。
本版本采用cuda而非triton进行量化。
执行命令:
python llama.py ./gpt4-x-alpaca c4 --wbits 4 --true-sequential --groupsize 128 --save_safetensors gpt-x-alpaca-13b-native-4bit-128g-cuda.safetensors