新版第五

这是一个480B参数激活35B参数的MoE模型,原生支持256Ktoken的上下文并可通过YaRN扩展到1Mt

如今

显然,这部分

周成龙

马友友

评测结果显