LLM リサーチ

大規模言語モデルのベンチマーク、CPU/GPU推論検証、最適化リサーチ。

技術メモとして残していた ObsidianノートにAIの要約を利用しています。

Qwen3.5-122B-A10B ローカル推論による Django 5 旅行予約サイト生成テスト

クラウドAPIを使わず、Qwen3.5-122B-A10B (Q5_K_M) のローカル推論だけでDjango 5フルスタックWebアプリをMCPエージェント経由で生成させた検証記録

GLM-5.2 (744B-A40B)のGGUFをローカルで動かす: MTPは効いたか、量子化とexpert配置をいくつか試した記録

GLM-5.2 (744B-A40B MoE)のGGUF量子化モデル2種(1.630bpw / 2.244bpw)を、dual RTX PRO 6000 Blackwell Max-Q …

DeepSeek-V4-FlashをDwarfStar4で2ノード起動し、オーケストレーション

RTX PRO 6000 Blackwell Max-Q 2枚にDeepSeek-V4-Flash IQ2XXSを1ノードずつ載せ、DwarfStar4の2ノード構成でマルチエージェントcodingシ …

Step-3.7-Flash-NVFP4をローカルのオーケストレータに: マルチエージェントでシステム開発

Step-3.7-Flash-NVFP4をオーケストレータに、自作マルチエージェント基盤familiarでDjangoベースの業務システムをローカル生成させた検証。約1時間で完動し、迅速に7割完成のプ …

Gemma 4 31BをvLLM/SGLangで実測: NVFP4/FP8、MTP比較

Gemma 4 31B ITをvLLM 0.21.0とSGLang gemma4-mtpで動かし、NVFP4/FP8 block量子化、FP8/BF16 KV cache、Gemma 4 MTP投機デ …

MiMo V2.5 Pro IQ2_Sをローカルで動かす: RTX PRO 6000 Blackwell x1/x2 ベンチマーク

Xiaomi MiMo V2.5 Pro 1.02T MoE の IQ2_S GGUF を llama.cpp CUDA13 と RTX PRO 6000 Blackwell Max-Q x 2 で動 …

DwarfStar4 RTX PRO 6000 Blackwell: DeepSeek V4 Flash Q2 First Look 43 tok/s

NVIDIA RTX PRO 6000 Blackwell Max-Q 96GB 上で antirez の DwarfStar 4 推論エンジンを検証。DeepSeek V4 Flash 284B の …

Qwen3.6-27B NVFP4+MTPをvLLMで実測:RTX PRO 6000 Blackwell Max-Q x 2でTG ~190tok/s

Qwen3.6-27B-Text-NVFP4-MTP を vLLM v0.19.2rc1 + MTP 投機デコードで RTX PRO 6000 Blackwell 96GB x 2 に載せて …

DeepSeek-V4-Flash を llama.cpp WIP ブランチで動かす: Blackwell Max-Q 96GB x2 の初回ローカル推論

DeepSeek-V4-Flash (284B MoE / 13B active) を RTX PRO 6000 Blackwell Max-Q 96GB x 2 上で llama.cpp の WIP …

Qwen3.6-27B-FP8: ロール別ファインチューニング戦略と自作エージェントスタックへの統合

Qwen3.6-27B-FP8をRTX PRO 6000 Blackwell上で運用し、SGLangでの実測性能とロール別LoRAアダプタ戦略を整理した。

Kimi-K2.6 をローカルで実行: ik_llama.cpp と Blackwell で 1T MoE を実用化する

Kimi-K2.6 (1T MoE, 384 experts × 8 active) を IQ3_K / Q4_X で RTX PRO 6000 Blackwell Max-Q 96GB 環境に載せ …

LLM-jp-4-32B-NVFP4 x CAT-Translate-7B-NVFP4で日本語データ生成パイプラインを検証する

RTX PRO 6000 Blackwell で NVFP4 量子化を使い、Claude Opus 4.6 蒸留データの messages[N].user 質問文 887 件を日本語 3 スタイル ( …

GLM-5.1 IQ3_KS をローカルで動かす: CPU/GPU Hybrid 推論と expert layer 配置

GLM-5.1 IQ3_KS (744B MoE) を dual RTX PRO 6000 Blackwell Max-Q (96GB×2) + 768GB RAM の homelab で動かした実測 …

MiniMax-M2.7 (229B MoE) を 2x Blackwell 96GB で回す: 平均71.9 t/s、ただし商用利用不可

MiniMax-M2.7 (229B MoE, smol-IQ3_KS) を dual RTX PRO 6000 Blackwell 96GB でローカル推論した記録。動画から llama.cpp の …

Qwen3.5-397B-A17B 検証：Blackwell 96GB×2 で 55 t/s と 262k tool-use ループを実用運用する

Qwen3.5-397B-A17B（Q4_K_M, 227.5 GiB）を RTX PRO 6000 Blackwell 96GB×2 で検証。平均 55.8 t/s を維持しつつ 262k コンテキ …

GLM-5.1 + Qwen3-Coder-Next 構成最適化: orchestrator TG 実測と最終レイアウト設計

GLM-5.1 (744B MoE, IQ3_KS) を familiar の orchestrator として運用するための実測記録。cpu-moe 全載せ …

Dagster 会話リネージュ・評価・データセット生成システムの設計と実装

agent-gateway の既存 Dagster パイプライン上に、会話を再実行可能な分岐グラフとして扱う3アセットグループ（Conversation …

Qwen3.5のコーディング能力を静的デンタルクリニックサイトで評価する

Qwen3.5にHTML+Tailwind CSS+Alpine.jsで6ページの歯科クリニックサイトを18分で作らせ、情報設計・アクセシビリティ・インタラクション実装・エラー復旧を評価したコーディン …

GPUとCPUを分業させるローカルLLM構成の計画と、現実の試行錯誤

Blackwell 96GB + EPYC 9175F で、CPU を Dagster 冪等パイプライン、GPU をユーザー対話＋日次 LoRA 更新に分業させる計画を立てた。現実は …

PLAMO-translate AI MODEL 向け日英双方向 system prompt の設計

PLAMO-translate AI MODEL 向けに設計した日英双方向の system prompt の全文と設計意図。En to Ja（自然な日本語翻訳）と Ja to En（英訳しやすい日本語 …

LTX-2 動画生成プロンプトエンジニアリング：ホラー36シーンからシネマティック連続パイプラインまで

LTX-2向けの構造化プロンプト仕様を整理する。36シーン×5秒のホラーシナリオ生成テンプレート、シネマティック・ショット設計の原則、そしてマルチシーン連結時のビジュアル継続性制御まで、実運用で得た知 …

Hermes-4.3-36Bの量子化を比べて、常用モデルをどう決めるか

Hermes-4.3-36BをBlackwell GPU上でBF16・FP8・nvfp4の3パターンで比較検証。単なる速度比較ではなく、対話の初動、コンテキスト余裕、コード生成での安全性まで含めて、常 …

40B Denseモデルの現実：IQuest-Coder-V1-40BをCPU/GPU/Aiderで回して分かったこと

IQuest-Coder-V1-40B-Instruct（Dense 40B）をCPU Q5_K_M、GPU nvfp4、Aider whole-editの3構成で検証。CPU推論は構造的に破綻 …

Command-A Reasoning 08-2025 を Aider のコーディングループに入れて見えたこと

command-a-reasoning-08-2025-nvfp4 を Aider のコーディングループに投入し、Go のユニットテスト生成を題材にモデルの実用性を評価した記録。推論品質とエージェント …

Serena MCPでローカルAIコーディング環境を組み直す構想

Serena MCPを中心にObsidianからVSCodeまでを繋ぐローカルAIコーディング基盤の構想と、拡張方向の整理。

GLM-4.7-Flash Uncensored を試して見えた、使える場面と危ない場面

uncensored GLM-4.7 Flash をセキュリティ解析用途で評価した記録。観点出しの速さは有用だが、脆弱性の成立条件を満たさずに断定する傾向があり、防御判断の根拠としては使えない。性能ベ …

IQuest-Coder Loop-Instruct が aider で遅く感じる理由

IQuest-Coder-V1-40B-Loop-Instruct を aider で使うと prefill は速いのに decode が 0.6〜8 tok/s まで落ちる理由を切り分けた記録 …

Zedでは詰まり、VSCode Remote SSHでは通ったMCP運用の整理

remote SSH 環境で MCP を動かす際、Zed がローカル起点で解決するのに対し VSCode Remote SSH は拡張ホストを remote 側で動かすため MCP コマンドが …

なぜEPYC 9175Fの512MB L3キャッシュはMoE推論に効くのか：1Tモデル実測による仮説検証

AMD EPYC 9175FでKimi-K2.5（1T級MoE）をCPUオンリー実行し、「巨大L3キャッシュがMoE推論を加速する」という仮説を実測データで検証した記録。当初仮説の棄却から修正版への過 …

MiniMax-2.5 (229B MoE) Expert Offload 運用と Web 生成検証：IQ5_K から IQ3_S まで

229B級MoEモデル MiniMax-2.5 を EPYC 9175F + RTX PRO 6000 環境で動かした全記録。IQ5_K/IQ4_NL/IQ3_S の3段階の量子化で Expert …

Qwen3.5-397B IQ4_NL実測：28回のランで平均22.5tok/s、ハイブリッドオフロード構成と400B級MoEの常用可能性

Qwen3.5-397B-A17B（397B総パラメータ/17B活性MoE）をIQ4_NL量子化でEPYC 9175F + GPU環境にハイブリッドデプロイ。28回の連続推論で平均TG …

Llama-4-Scout-17B-16E実測：CPU Q6_K 17tok/s vs GPU nvfp4 60tok/s、キャッシュ戦略と100kコンテキスト境界

Llama-4-Scout（17B活性/16エキスパートMoE）をEPYC 9175FのCPU Q6_K推論とRTX PRO 6000 Blackwell Max-QのGPU nvfp4推論で実測比較 …

1T級MoE Kimi-K2.5のCPU推論実測：スレッド最適化からLong Context運用設計まで

Kimi-K2.5（1.03T MoE, Q4_K_S/Q4_K_M）をEPYC 9175FでCPU推論した全記録。スレッド最適化でth=13が最適解になる理由、Q4_K_Mでの16k Long …

Llama-4-Maverick-17B-128E CPU推論：Q4_K_M vs Q8_0の速度・品質トレードオフ実測

Llama-4-Maverick（17B活性/128エキスパートMoE）をEPYC 9175FのCPU推論でQ4_K_MとQ8_0の両方を実測比較。Q4で21-24 tok/s、Q8で15-16 …

Qwen3-Coder-Next 80Bを3モードで回す：BF16 CPU / IQ4_NL Hybrid / nvfp4 GPU実測比較

Qwen3-Coder-Next（約80B MoE）をBF16 CPU推論（7.59 tok/s）、IQ4_NL Hybrid GPU offload（59-85 tok/s）、nvfp4 …

GLM-4.7-Flash IQ5_K ベンチマーク：CPU/Hybrid/Full GPUの3パターン実測比較

GLM-4.7-Flash（IQ5_K GGUF）をCPUオンリー、MoE Expertオフロード（Hybrid）、Full GPUの3構成で実測。Prefill 100 vs 1635 vs …

なぜDeepSeek-V3.2はKimi-K2.5より遅く見えるのか：プロンプトキャッシュ不一致とTGボトルネックの解析

DeepSeek-V3.2をllama.cppで実行した際のベンチマークログから、デコード速度が14-15 tok/sに張り付く原因をプロンプトキャッシュ不一致とメモリ帯域の観点で分析した記録。

Qwen3.5-397B 自律コード生成検証：歯科医院サイトから Django CMS 基盤まで

400B級 MoE モデル Qwen3.5-397B を用いた2つのコード生成検証の記録。歯科医院向け6ページ静的サイト（HTML+Tailwind+Alpine.js）のワンショット生成と …