小型GPT-2模型,采用Lakhclean数据集训练,以16分音符分辨率生成4/4拍音乐,每次生成4小节,支持音符密度条件控制,助力音乐创作。【此简介由AI生成】
tags:
- gpt2
- text-generation
- music-modeling
- music-generation widget:
- text: PIECE_START
- text: PIECE_START PIECE_START TRACK_START INST=34 DENSITY=8
- text: PIECE_START TRACK_START INST=1
用于音乐生成的GPT-2模型
诸如GPT-2之类的语言模型可用于音乐生成。其核心思想是将音乐片段表示为文本形式,从而将任务简化为语言生成任务。
本模型是基于Lakhclean数据集训练的较小规模GPT-2实例。该模型以16分音符分辨率生成4/4拍号的音乐片段,每次生成4小节内容。
如果您希望参与贡献、打招呼或了解更多信息,可通过以下方式联系我:
- https://www.linkedin.com/in/dr-tristan-behrens-734967a2/
- https://www.youtube.com/@drtristanbehrens
- https://twitter.com/DrTBehrens
- https://github.com/AI-Guru
- https://huggingface.co/TristanBehrens
- https://huggingface.co/ai-guru
在Google Colab上运行模型:https://colab.research.google.com/drive/1Mz-KJ8vX4Wylr4mzvgP-MclDwQJ06KSq?usp=sharing
许可协议
您可在任何开源场景中免费使用本模型。使用时请注明作者归属。
若需将模型用于商业用途,请联系我商讨许可条款。根据具体使用场景,商业用途可能涉及相关费用。我愿意协商许可条款以满足您的需求并确保模型的合理使用。请随时通过上述渠道与我联系。
模型描述
本模型采用GPT-2架构,包含6个解码器层,每层配备8个注意力头。上下文长度为2048,嵌入维度为512。
模型系列
本模型属于我训练的大型Transformer模型组的一部分,其中大多数模型未公开提供。
如果您对使用和/或授权某个模型感兴趣,请与我们联系。
Lakhclean系列
这些模型基于Lakhclean数据集中约15,000个MIDI文件进行训练(与当前查看模型相同的数据集)。
- lakhclean_mmmbar_4bars_d-2048:4小节分辨率,小节修复,音符密度条件控制
- lakhclean_mmmbar_8bars_d-2048:8小节分辨率,小节修复,音符密度条件控制
- lakhclean_mmmtrack_4bars_chords:4小节分辨率,和弦条件控制
- lakhclean_mmmtrack_4bars_d-2048:4小节分辨率,音符密度条件控制(本模型)
- lakhclean_mmmtrack_4bars_simple-2048:4小节分辨率基础版
- lakhclean_mmmtrack_8bars_d-2048:8小节分辨率,音符密度条件控制
Lakh完整数据集模型
这些模型基于Lakh数据集中约17.5万个MIDI文件进行训练。
- lakhfull_mmmtrack_4bars_d-2048:4小节分辨率,带音符密度条件控制(该系列的增强版本)
- lakhfull_mmmtrack_4bars_simple-2048:4小节分辨率
金属乐模型
这些模型基于个人收藏的约7000个MIDI文件训练,支持流派条件控制。
- metal_mmmbar_4bars_d-2048:4小节分辨率,小节修复,音符密度条件控制
- metal_mmmbar_8bars_d-2048:8小节分辨率,小节修复,音符密度条件控制
- metal_mmmtrack_4bars_d-2048:4小节分辨率,音符密度条件控制
- metal_mmmtrack_8bars_d-2048:8小节分辨率,音符密度条件控制
MetaMIDI数据集流派模型
这些模型基于MetaMIDI数据集的特定流派子集训练。
- mmd-baroque_mmmtrack_4bars_d-2048:4小节分辨率,音符密度条件控制
- mmd-baroque_mmmtrack_8bars_d-2048:8小节分辨率,音符密度条件控制
- mmd-classical_mmmtrack_8bars_d-2048:8小节分辨率,音符密度条件控制
- mmd-noncontemporary_mmmtrack_8bars_d-2048:8小节分辨率,音符密度条件控制
- mmd-pop_mmmtrack_8bars_d-2048:8小节分辨率,音符密度条件控制
- mmd-renaissance_mmmtrack_8bars_d-2048:8小节分辨率,音符密度条件控制
MetaMIDI完整数据集模型
这些模型基于MetaMIDI数据集约40万个MIDI文件训练。
- mmd-full_mmmtrack_4bars_d-2048:4小节分辨率,音符密度条件控制
- mmd-full_mmmtrack_8bars_d-2048:8小节分辨率,音符密度条件控制
- mmd-full_mmmtrack_4bars_chords-d-2048:4小节分辨率,音符密度条件控制,和弦条件控制(本系列中最强大的模型)
使用场景与限制
本模型仅为概念验证,旨在展示HuggingFace平台可用于音乐作曲。
使用方法
代码库中提供了可生成符号音乐并进行渲染的Jupyter Notebook。
局限性与偏差
由于该模型仅在极少量音乐数据上进行训练,存在严重的过拟合现象。
致谢
本模型的开发得到了英伟达(NVIDIA)的算力支持,特别感谢其提供的GPU计算资源!
下载使用量
项目总下载次数(含Clone、Pull、 zip 包及 release 下载),每日凌晨更新