MiniMax 潜心研发,视频生成大模型强势来袭!
元描述: MiniMax 发布首款视频生成大模型,旨在打造更快的多模态内容生成平台。该模型拥有先进的技术,能够比 Runway 更有效地生成视频,并计划在未来推出图生视频和文+图生成视频功能。
在众多科技巨头竞相发布视频生成模型的当下,MiniMax 却显得格外低调。然而,这家公司凭借其强大的技术实力,在 8 月 31 日悄然发布了首款视频生成大模型,并同时发布了一段由该模型生成的 2 分钟视频《魔法硬币》。 这段视频不仅展示了 MiniMax 模型的强大性能,更预示着该公司在多模态内容生成领域迈出了重要一步。虽然 MiniMax 目前并未公开模型的具体参数和技术细节,但其创始人闫俊杰在接受媒体采访时自信地表示,“我们确实在视频模型生成方面取得很大的进展,根据内部评测以及跑分,我们比 Runway 的(生成视频)效果更好。”
MiniMax 的视频生成大模型并非一蹴而就,而是经过了长时间的潜心研发和技术突破。 闫俊杰透露,该模型目前只是第一版,未来还将不断迭代升级,并扩展至图生视频和文+图生成视频等功能。“我们的策略是再等一两周,等新东西到达满意状态后,可能会考虑商业化。” 闫俊杰补充道。
MiniMax 的商业化策略主要分为两部分:开放平台和产品广告机制。 截至目前,该公司的开放平台已拥有超过 2000 家客户。“现阶段,最重要的东西不是商业化,而是技术能够到达广泛可用的程度。” 闫俊杰强调。
MiniMax 的视频生成模型在时间上晚于快手可灵,但背后却蕴藏着更深层的技术挑战。 闫俊杰解释道,团队一直在解决更难的技术问题——如何训练算力较高的内容。 生成视频需要将视频转化为 token,而这些 token 非常长且复杂,给训练带来了巨大的难度。“最终,MiniMax 团队通过算法不断降低复杂度,压缩率变得更高,因此发布时间晚了一两个月。”
MiniMax 的核心研发思路并非仅仅追求微小的提升,而是致力于突破性的技术进步。 “如果能提升几倍就一定要做出来,只提升 5% 就不太值得做。”闫俊杰坚定地说。
为什么一定要做文生视频?
MiniMax 团队之所以执着于开发文生视频模型,是因为他们深刻理解了人类内容消费的趋势。 闫俊杰指出,“人类每天消费的大部分内容是图文和视频,文字占比不高。为了有更高的用户覆盖度和使用度,唯一的办法是输出多模态内容,而不是单纯输出文字内容,一定要做多模态,这个路线是一以贯之的。”
然而,视频生成大模型并非易事。 闫俊杰解释道,“视频的工作复杂度比做文本更难,视频的上下文文本天然很长,处理难度大。其次,视频量很大,例如 5 秒视频有几兆,100 个字可能都不到 1K,背后是几千倍的存储差距。”
生成视频模型的挑战在于,之前基于文本建立的底层基础设施不适用于视频生成。 例如,如何处理、清洗以及标注数据,这些都需要升级基础设施。
速度是关键
在当天的发布会上,闫俊杰着重提及“快”。 他认为,“长期看,进步越快的东西就越好。不管是做 MOE 还是 Linear attention,还是其他探索,本质上还是让同样的效果模型变得更快。快才意味着同样的算力(训练内容)可以变得更好。”
大模型面临的挑战
MiniMax 开放平台负责人魏伟业在活动中指出,当前,大模型的效果、成本和多模态还面临着挑战。
1. 幻觉问题: 大模型不可避免地存在幻觉,也会因为对指令遵从和语言理解能力不足,导致输出不符合预期。因此,必须坚持做更高、更快、更强的模型。
2. 成本问题: 去年到今年上半年,成本是制约很多企业用不起大模型的主要原因。今年五月以来,大模型领域掀起价格战,API 价格一路降至“白菜价”。魏伟认为,低成本能够激发出更多应用场景的出现,未来 API 成本会再进一步降级。
3. 多模态应用: 多模态会触发出更多的应用场景,比如文本和语音的结合,能够让大模型更好地识别和表达情绪。语音和视频的结合,能够生成带配音的短视频和广告片段。
展望未来
当前,大模型领域存在很多非共识:到底要做 toB(企业)还是 toC(用户)?国内市场还是做海外市场,Scaling Law(规模法则)能否延续?
针对这些行业内普遍的问题,闫俊杰直言: “尽管有很多挑战,我们属于最乐观的公司,对技术进步、用户、产品迭代效率都充满乐观。”
总结
MiniMax 视频生成大模型的发布,标志着该公司在多模态内容生成领域取得了重大突破。该模型拥有强大的性能和未来发展潜力,将为内容创作带来革命性的变革。MiniMax 团队将继续致力于技术创新,推动多模态内容生成技术的进步,为用户提供更优质、更便捷的内容创作体验。
常见问题解答
1. MiniMax 的视频生成大模型有哪些优势?
MiniMax 的视频生成大模型拥有以下优势:
- 生成视频质量高,比 Runway 的效果更好。
- 训练效率高,能够快速生成高质量视频。
- 支持多种功能,包括文生视频、图生视频和文+图生成视频。
2. MiniMax 的视频生成大模型如何商业化?
MiniMax 的商业化策略主要分为两部分:开放平台和产品广告机制。开放平台已拥有超过 2000 家客户,为企业提供定制化的视频生成服务。产品广告机制则通过广告嵌入的方式,为公司带来收益。
3. MiniMax 的视频生成大模型面临哪些挑战?
MiniMax 的视频生成大模型面临以下挑战:
- 幻觉问题:大模型不可避免地存在幻觉,需要不断改进模型以提高准确性。
- 成本问题:大模型训练和运行成本高昂,需要降低成本以提高可及性。
- 多模态应用:多模态应用场景需要进一步探索和开发。
4. MiniMax 的视频生成大模型未来发展方向如何?
MiniMax 的视频生成大模型未来将继续迭代升级,并扩展至图生视频和文+图生成视频等功能。同时,MiniMax 将继续探索多模态应用场景,为用户提供更丰富的功能和体验。
5. MiniMax 的视频生成大模型对内容创作的影响是什么?
MiniMax 的视频生成大模型将极大地改变内容创作方式,让内容创作变得更加便捷、高效和个性化。用户可以轻松地生成各种类型的视频,满足不同的需求。
6. MiniMax 的视频生成大模型与其他视频生成模型相比有何不同?
MiniMax 的视频生成大模型与其他视频生成模型相比,在性能、效率和功能方面都具有优势。MiniMax 团队一直在不断探索新的技术,致力于打造更高效、更便捷的多模态内容生成平台。