ascend-robot[docs]update README.md, renamed the performance optimization doc, add feature development doc

性能调优指导

随着大模型参数规模的指数级增长，训练过程面临着显存瓶颈、计算效率低下、通信开销巨大等多重挑战。特别是在千亿乃至万亿参数规模的模型训练中，传统的数据并行策略已难以满足需求，混合并行策略的复杂性也给开发者带来了极高的门槛。如何高效利用大规模集群的算力资源，实现训练吞吐量的最大化，成为大模型训练的核心难题。

MindSpeed作为面向昇腾AI处理器的大模型训练加速库，针对上述挑战提供了一系列创新解决方案。其核心优势包括：自适应的并行策略配置，能够根据模型结构和硬件拓扑自动优化并行维度划分；高效的显存管理机制，通过重计算、激活值压缩等技术显著降低显存占用；以及深度优化的通信算子，充分利用昇腾芯片的互联带宽优势。在性能特性方面，MindSpeed支持动态负载均衡、细粒度算子融合、以及面向长序列的优化技术，实测在典型大模型训练场景下可实现显著的吞吐量提升。

Megatron-LM性能优化

基于上述技术积累，MindSpeed进一步针对Megatron-LM框架进行了深度性能优化。通过重构关键计算路径、优化分布式通信模式、以及引入昇腾特有的算子加速能力，实现了在大规模集群环境下的高效训练加速。详细内容请参考Megatron-LM性能优化。