发布日期:2025-06-24
DeepSeek掀起推理模型热潮近半年之后,MiniMax于6月17日发布并开源其首款推理模型M1。按照官方说法股票配资分析,M1一项显著优势是支持目前业内最高的100万Token的上下文输入长度——为DeepSeek R1的8倍,以及业内最长的8万Token的推理输出。 据MiniMax解释,这主要得益于模型架构的创新。技术报告显示,M1模型采用了混合专家(Mixture-of-Experts, MoE)架构,并结合了一种新型的“闪电注意力”(Lightning Attention)机制。...