結論

MiniMax-M2.7 は、2x RTX PRO 6000 Blackwell 96GB 上でピーク 105.9 t/s、平均 71.9 t/s というかなり強い初速を見せた。229B MoE をローカルでここまで軽快に動かせる時点で、エージェント用途としての実用性はかなり高い。

ただ、最終的に止まったのは性能ではなくライセンスだった。MiniMax-M2.7 は modified-MIT で、商用利用には MiniMax の事前許諾が必要になる。出力品質、ツールの挙動、サイズ感はかなり良かったが、業務や商用ワークフローにそのまま載せにくいため、今回は軽いベンチだけ取り、モデルは削除した。

完全に個人用途に閉じるなら話は別で、Claude や Codex に投げる前の雑なワンクッション、プロンプトやツール呼び出しの荒い当たりを見るテスト用途にはかなり向いていると思う。今回の検証機は dual Blackwell 96GB であり、DGX Spark や Mac Studio (128GB) での運用は未検証だが、サイズ感と挙動の印象としては、個人専用のローカル環境に置く候補としては魅力がある。

前提

今回の計測は、YouTube に上げた 14 分の無編集動画から逆算した。推論ログを別保存し忘れたため、画面右側の llama.cpp ログに出ていた slot print_timing をフレーム単位で読み起こし、10 点サンプリングしている。

検証タスクは、Zed Editor の AI Agent に WordPress 風 Django ブログの仕様を渡し、どこまで自律的に組み上げられるかを見るものだった。

動画リンク: https://www.youtube.com/watch?v=4QIc4A5Yly4

実験環境

項目内容
GPU2x NVIDIA RTX PRO 6000 Blackwell 96GB
CPUAMD EPYC 9175F
RAM768GB
Engineik_llama.cpp (ubergarm fork)
Quantizationsmol-IQ3_KS
Context262,144 tokens
KV bufferCUDA0 32,768 MiB + CUDA1 30,720 MiB
Prompt cache8,192 MiB
Graph splits3

ベンチマーク結果

Token Generation

フェーズKV cache速度
初期約2.7k tokens105.9 t/s
序盤平均25k tokens 未満77.5 t/s
中盤平均27k-47k tokens64.7 t/s
終盤平均54k-56k tokens54.3 t/s
  • 平均: 71.9 t/s
  • 最大: 105.9 t/s
  • 最小: 53.9 t/s
  • 劣化率: 2.7k から 56.4k context で -49%

Prompt Processing

条件速度
Cold start (2,493 tokens)4,067 t/s
Cache hit 平均911 t/s

10 点サンプル

KV cacheTG
2.7k105.9 t/s
18.3k79.2 t/s
19.1k78.8 t/s
21.2k77.1 t/s
23.7k75.0 t/s
27.2k71.4 t/s
38.4k63.8 t/s
46.6k58.9 t/s
53.9k54.7 t/s
56.4k53.9 t/s

立ち上がりはかなり速いが、長いセッションではほぼ線形に落ちる。56k context 時点でもまだ実用速度ではあるものの、100k を超える長時間セッションは分割前提で考えた方が良さそうだった。

何が生成されたか

Zed Agent に WordPress 風 Django ブログ/CMS の仕様を渡したところ、約 14 分の無編集セッションで以下を生成した。

  • Django config 一式
  • accounts, content, core, media, comments, navigation, seo, taxonomy の 8 app
  • 各 app の model, admin, app config
  • テスト群
  • Gitea issue 作成 API 統合
  • 50 以上のファイル

セッション中に edit_file の path prefix バグへ自力で気づいて修正しており、単にコードを書くだけでなく、ツールの癖に合わせて立ち回る力も見えた。

進行スクリーンショット

MiniMax-M2.7 のサーバー初期化とモデルロード画面
起動直後 — モデルロードと初期化
Zed Agent が Django 設定まわりを生成している様子
序盤 — Django 設定と構造を生成中
複数の Django app が生成された中盤の画面
中盤 — 複数 app が揃い始めた状態
50ファイル以上とテスト群が生成された最終状態
終盤 — 50+ files とテスト群まで到達

MiniMax-2.5 と比べてどうだったか

MiniMax-2.5 の検証記事では、単体 96GB GPU に Expert Offload を組み合わせて 34-37 t/s を安定維持できた。あちらは長めのコンテキストでも TG が比較的安定していて、Web 生成タスクにそのまま使える実感があった。

今回の M2.7 は厳密な横比較ではない。M2.5 は single GPU + Expert Offload、M2.7 は dual Blackwell + smol-IQ3_KS の full local inference に近い構成で、前提条件がかなり違う。それでも使っていて感じたのは、ツール仕様への順応や出力内容は M2.5 でもかなり良かった一方で、M2.7 にはもう一段余裕があることだった。 m2.5の検証より複雑な仕様にも関わらず、tokenUsageが半分位だった。(今回は66kほど, m2.5の生成には122kほどだった記憶)

M2.5 でも十分に良かったので M2.7 にはかなり期待していたし、実際にサイズ感、ツール仕様、出力内容のどれも申し分なかった。ただ、最終的には性能差よりライセンスで詰んでいるので検証もするつもりはなかったけど、communityのコメント欄も荒れていて、もしかしたらワンチャンスあるかなと期待してベンチだけでもといったあわよくばである。

ライセンスはmodified-mitだけどM2.5とM2.7では全然違うので注意

MiniMax-M2.7 は modified-MIT で、商用利用が自由ではない。 一方で、M2.5 の modified-MIT は少なくとも 2026 年 3 月時点で自分が読んだ範囲では商用利用を妨げる形ではなかった。その差があるので、商用につながる運用を考えるなら、現実的には M2.5 側を fine-tuning するなどして自分のシステムに寄せていく方がまだ筋が良い。

  • ベンチマーク用、学習用、個人用途のローカル検証には面白い
  • 業務フロー、顧客案件、社内の商用開発ループにはそのまま入れにくい
  • 「とりあえず常用ローカルモデルにする」という判断ができない

性能面の評価は高いが、導入可否を決める軸がライセンスになってしまう。生成物や副産物まで含めてどこまで影響が及ぶのかを読み切れず、その不確実さ込みで常用候補にはならない。

計測方法

今回は最初から本番系に組み込む前提ではなかったので、検証自体かなりラフに進めてしまい、推論ログも取り忘れていた。

後から動画の該当箇所だけを Claude に渡し、フレームを指定しながら PP/TG の値を拾って集計したため、数値には読み取り誤差が入っている可能性がある。動画の出力されたものが正としてください。