Logo loFT LLC

    • Webサイトリニューアルのお知らせ
    • 子会社 Lorchestra株式会社 吸収合併のお知らせ
    • IT導入支援事業者に採択(2022年度)
    • IT導入支援事業者に採択(2021年度)
    • 子会社 Lorchestra株式会社 設立のお知らせ
    • IT導入支援事業者に採択(2020年度)
    • loFT合同会社 設立
      • Dagster + NATS JetStream イベントパイプラインの実装詳解
      • homelab インフラ再設計 -- PostgreSQL の storage/compute 分離と devstack 整備
      • 3ホスト基盤の再設計:Promtail 廃止から devstack 分割・config 一本化まで
      • devstack への MLflow 統合——Dagster と実験トラッキングの責務分離
      • rootless Quadlet で PostgreSQL 18 と pgvector を安定運用する構成メモ
      • AMD EPYC 9175F (Turin) 搭載ワークステーション「HPCT WCE51-GP」の構成検討
      • データ基盤のI/Oを最適化する:NVMe/SATAの使い分けとUIデモンの集約戦略
      • 内部インフラ向けQuteBrowser設定の最適化
      • CRS304でローカル10GbEと段階的な外部通信制御を両立する
      • MikroTik RouterOSのNetwatchを活用した状態連動型Syslog監視
      • Rootless Podman + Quadlet によるコンテナ運用基盤の構築: UID マッピング・権限設計・macOS DNS 問題の解決
      • Storage Server の常時稼働監視基盤: Prometheus・Loki・Promtail と Quadlet による構築記録
      • rootful / rootless をまたぐ exporter 運用を整理して smartctl-exporter を安定化した
      • EPYC 9175F + Podman によるローカル開発基盤の設計と構築
      • 最小構成UbuntuでQuadletを使った常駐サービス運用の実践メモ
      • EPYC単機でELTを安定運用するために整理したメモリ循環設計
      • tar.zstとrcloneでCompute Serverを20-30分で戻せる形にした
      • ローカルLLM基盤のコンテナ構成: vLLM/llama.cppとRust Proxyを連携するDocker Compose
      • Hugging Faceモデルをcoldからhotへ安全に移すときのrcloneとrsyncの分け方
      • Rust (axum) で OpenAI 互換プロキシを設計・実装した経緯と Go 移行に至るまで
      • Go + NATS + Dagster によるAIオーケストレーション基盤:設計思想からミドルウェア選定まで
      • familiar - ローカルLLMだけで動くマルチエージェント開発基盤を作った話
      • llm-jp-4-32b-a3b-base-NVFP4を翻訳運用で評価し、常駐translatorをやめてオンデマンドバッチへ切り替えた
      • 自作ハーネス familiar の検証: クラウドエージェント orchestrator と Qwen3-Coder-Next 80B / GLM-5.1 による実地観測
      • agent-gateway 構築記 -- Phase 1 リアルタイム知識パイプラインと埋め込みサービスの統合
      • Gemma 4 + Blackwell 2枚で組む familiar 推論スタックと model-foundry パイプライン
      • agent-gateway 全レイヤーリファクタリング — Clean Architecture 適用と Conflict 解消
      • agent-gateway v3 リデザイン — knowledge ドメイン分割と MLflow/Obsidian 統合
      • Rust + ONNX で embedding / rerank API を分離して組む設計を固めた
      • WordPressライクなDjangoブログ基盤をどう設計するかを整理した
      • Qwen3.5-122B-A10B ローカル推論による Django 5 旅行予約サイト生成テスト
      • Step-3.7-Flash-NVFP4をローカルのオーケストレータに: マルチエージェントでシステム開発
      • Gemma 4 31BをvLLM/SGLangで実測: NVFP4/FP8、MTP比較
      • MiMo V2.5 Pro IQ2_Sをローカルで動かす: RTX PRO 6000 Blackwell x1/x2 ベンチマーク
      • DwarfStar4 RTX PRO 6000 Blackwell: DeepSeek V4 Flash Q2 First Look 43 tok/s
      • Qwen3.6-27B NVFP4+MTPをvLLMで実測:RTX PRO 6000 Blackwell Max-Q x 2でTG ~190tok/s
      • DeepSeek-V4-Flash を llama.cpp WIP ブランチで動かす: Blackwell Max-Q 96GB x2 の初回ローカル推論
      • Qwen3.6-27B-FP8: ロール別ファインチューニング戦略と自作エージェントスタックへの統合
      • Kimi-K2.6 をローカルで実行: ik_llama.cpp と Blackwell で 1T MoE を実用化する
      • LLM-jp-4-32B-NVFP4 x CAT-Translate-7B-NVFP4で日本語データ生成パイプラインを検証する
      • GLM-5.1 IQ3_KS をローカルで動かす: CPU/GPU Hybrid 推論と expert layer 配置
      • MiniMax-M2.7 (229B MoE) を 2x Blackwell 96GB で回す: 平均71.9 t/s、ただし商用利用不可
      • Qwen3.5-397B-A17B 検証:Blackwell 96GB×2 で 55 t/s と 262k tool-use ループを実用運用する
      • GLM-5.1 + Qwen3-Coder-Next 構成最適化: orchestrator TG 実測と最終レイアウト設計
      • Dagster 会話リネージュ・評価・データセット生成システムの設計と実装
      • Qwen3.5のコーディング能力を静的デンタルクリニックサイトで評価する
      • GPUとCPUを分業させるローカルLLM構成の計画と、現実の試行錯誤
      • PLAMO-translate AI MODEL 向け日英双方向 system prompt の設計
      • LTX-2 動画生成プロンプトエンジニアリング:ホラー36シーンからシネマティック連続パイプラインまで
      • Hermes-4.3-36Bの量子化を比べて、常用モデルをどう決めるか
      • 40B Denseモデルの現実:IQuest-Coder-V1-40BをCPU/GPU/Aiderで回して分かったこと
      • Command-A Reasoning 08-2025 を Aider のコーディングループに入れて見えたこと
      • Serena MCPでローカルAIコーディング環境を組み直す構想
      • GLM-4.7-Flash Uncensored を試して見えた、使える場面と危ない場面
      • IQuest-Coder Loop-Instruct が aider で遅く感じる理由
      • Zedでは詰まり、VSCode Remote SSHでは通ったMCP運用の整理
      • なぜEPYC 9175Fの512MB L3キャッシュはMoE推論に効くのか:1Tモデル実測による仮説検証
      • MiniMax-2.5 (229B MoE) Expert Offload 運用と Web 生成検証:IQ5_K から IQ3_S まで
      • Qwen3.5-397B IQ4_NL実測:28回のランで平均22.5tok/s、ハイブリッドオフロード構成と400B級MoEの常用可能性
      • Llama-4-Scout-17B-16E実測:CPU Q6_K 17tok/s vs GPU nvfp4 60tok/s、キャッシュ戦略と100kコンテキスト境界
      • 1T級MoE Kimi-K2.5のCPU推論実測:スレッド最適化からLong Context運用設計まで
      • Llama-4-Maverick-17B-128E CPU推論:Q4_K_M vs Q8_0の速度・品質トレードオフ実測
      • Qwen3-Coder-Next 80Bを3モードで回す:BF16 CPU / IQ4_NL Hybrid / nvfp4 GPU実測比較
      • GLM-4.7-Flash IQ5_K ベンチマーク:CPU/Hybrid/Full GPUの3パターン実測比較
      • なぜDeepSeek-V3.2はKimi-K2.5より遅く見えるのか:プロンプトキャッシュ不一致とTGボトルネックの解析
      • Qwen3.5-397B 自律コード生成検証:歯科医院サイトから Django CMS 基盤まで
      • shelpa-mcp: ボツになった仮想パイプラインの設計記録
      • shelpa: ボツになったサンドボックスMCPの設計と教訓
      • voracle 開発記 vol.2 — research パイプラインの実戦投入と ONNX 推論エンジン刷新
      • 全部 Rust、全部自作 -- homelab MCP ツールチェーン 9本の設計と目的
      • shelpaからfilesystemへ — Rust MCPファイルシステムサーバーの全面再設計
      • voracle — Obsidian vault 向けセマンティック検索 MCP/CLI ツールの設計と実装
      • aichat の function calling ハングを symlink 環境で解消した記録
      • レスポンス語彙の設計で小規模 LLM の精度が 15 点変わる: pathfinder での実験記録
      • ローカル LLM の tool_call 失敗を減らすために MCP サーバーを自作した: pathfinder の設計と検証
      • よく使う言語だけ AST ベースでコードベース解析器を自作した: ctree の設計と pathfinder/Serena 連携
  • 新着ノート一覧
  • プロフィール
  • 写真
    Logo
    ご相談はこちらから
      • English
    • 移動
    • 選択
    • 閉じる
      • Home
      • 開発ノート
      • LLM リサーチ
      On this page

      LLM リサーチ

      大規模言語モデルのベンチマーク、CPU/GPU推論検証、最適化リサーチ。

      技術メモとして残していた ObsidianノートにAIの要約を利用しています。

      Qwen3.5-122B-A10B ローカル推論による Django 5 旅行予約サイト生成テスト

      クラウドAPIを使わず、Qwen3.5-122B-A10B (Q5_K_M) のローカル推論だけでDjango 5フルスタックWebアプリをMCPエージェント経由で生成させた検証記録

      Step-3.7-Flash-NVFP4をローカルのオーケストレータに: マルチエージェントでシステム開発

      Step-3.7-Flash-NVFP4をオーケストレータに、自作マルチエージェント基盤familiarでDjangoベースの業務システムをローカル生成させた検証。約1時間で完動し、迅速に7割完成のプ …

      Gemma 4 31BをvLLM/SGLangで実測: NVFP4/FP8、MTP比較

      Gemma 4 31B ITをvLLM 0.21.0とSGLang gemma4-mtpで動かし、NVFP4/FP8 block量子化、FP8/BF16 KV cache、Gemma 4 MTP投機デ …

      MiMo V2.5 Pro IQ2_Sをローカルで動かす: RTX PRO 6000 Blackwell x1/x2 ベンチマーク

      Xiaomi MiMo V2.5 Pro 1.02T MoE の IQ2_S GGUF を llama.cpp CUDA13 と RTX PRO 6000 Blackwell Max-Q x 2 で動 …

      DwarfStar4 RTX PRO 6000 Blackwell: DeepSeek V4 Flash Q2 First Look 43 tok/s

      NVIDIA RTX PRO 6000 Blackwell Max-Q 96GB 上で antirez の DwarfStar 4 推論エンジンを検証。DeepSeek V4 Flash 284B の …

      Qwen3.6-27B NVFP4+MTPをvLLMで実測:RTX PRO 6000 Blackwell Max-Q x 2でTG ~190tok/s

      Qwen3.6-27B-Text-NVFP4-MTP を vLLM v0.19.2rc1 + MTP 投機デコードで RTX PRO 6000 Blackwell 96GB x 2 に載せて …

      DeepSeek-V4-Flash を llama.cpp WIP ブランチで動かす: Blackwell Max-Q 96GB x2 の初回ローカル推論

      DeepSeek-V4-Flash (284B MoE / 13B active) を RTX PRO 6000 Blackwell Max-Q 96GB x 2 上で llama.cpp の WIP …

      Qwen3.6-27B-FP8: ロール別ファインチューニング戦略と自作エージェントスタックへの統合

      Qwen3.6-27B-FP8をRTX PRO 6000 Blackwell上で運用し、SGLangでの実測性能とロール別LoRAアダプタ戦略を整理した。

      Kimi-K2.6 をローカルで実行: ik_llama.cpp と Blackwell で 1T MoE を実用化する

      Kimi-K2.6 (1T MoE, 384 experts × 8 active) を IQ3_K / Q4_X で RTX PRO 6000 Blackwell Max-Q 96GB 環境に載せ …

      LLM-jp-4-32B-NVFP4 x CAT-Translate-7B-NVFP4で日本語データ生成パイプラインを検証する

      RTX PRO 6000 Blackwell で NVFP4 量子化を使い、Claude Opus 4.6 蒸留データの messages[N].user 質問文 887 件を日本語 3 スタイル ( …

      GLM-5.1 IQ3_KS をローカルで動かす: CPU/GPU Hybrid 推論と expert layer 配置

      GLM-5.1 IQ3_KS (744B MoE) を dual RTX PRO 6000 Blackwell Max-Q (96GB×2) + 768GB RAM の homelab で動かした実測 …

      MiniMax-M2.7 (229B MoE) を 2x Blackwell 96GB で回す: 平均71.9 t/s、ただし商用利用不可

      MiniMax-M2.7 (229B MoE, smol-IQ3_KS) を dual RTX PRO 6000 Blackwell 96GB でローカル推論した記録。動画から llama.cpp の …

      Qwen3.5-397B-A17B 検証:Blackwell 96GB×2 で 55 t/s と 262k tool-use ループを実用運用する

      Qwen3.5-397B-A17B(Q4_K_M, 227.5 GiB)を RTX PRO 6000 Blackwell 96GB×2 で検証。平均 55.8 t/s を維持しつつ 262k コンテキ …

      GLM-5.1 + Qwen3-Coder-Next 構成最適化: orchestrator TG 実測と最終レイアウト設計

      GLM-5.1 (744B MoE, IQ3_KS) を familiar の orchestrator として運用するための実測記録。cpu-moe 全載せ …

      Dagster 会話リネージュ・評価・データセット生成システムの設計と実装

      agent-gateway の既存 Dagster パイプライン上に、会話を再実行可能な分岐グラフとして扱う3アセットグループ(Conversation …

      Qwen3.5のコーディング能力を静的デンタルクリニックサイトで評価する

      Qwen3.5にHTML+Tailwind CSS+Alpine.jsで6ページの歯科クリニックサイトを18分で作らせ、情報設計・アクセシビリティ・インタラクション実装・エラー復旧を評価したコーディン …

      GPUとCPUを分業させるローカルLLM構成の計画と、現実の試行錯誤

      Blackwell 96GB + EPYC 9175F で、CPU を Dagster 冪等パイプライン、GPU をユーザー対話+日次 LoRA 更新に分業させる計画を立てた。現実は …

      PLAMO-translate AI MODEL 向け日英双方向 system prompt の設計

      PLAMO-translate AI MODEL 向けに設計した日英双方向の system prompt の全文と設計意図。En to Ja(自然な日本語翻訳)と Ja to En(英訳しやすい日本語 …

      LTX-2 動画生成プロンプトエンジニアリング:ホラー36シーンからシネマティック連続パイプラインまで

      LTX-2向けの構造化プロンプト仕様を整理する。36シーン×5秒のホラーシナリオ生成テンプレート、シネマティック・ショット設計の原則、そしてマルチシーン連結時のビジュアル継続性制御まで、実運用で得た知 …

      Hermes-4.3-36Bの量子化を比べて、常用モデルをどう決めるか

      Hermes-4.3-36BをBlackwell GPU上でBF16・FP8・nvfp4の3パターンで比較検証。単なる速度比較ではなく、対話の初動、コンテキスト余裕、コード生成での安全性まで含めて、常 …

      40B Denseモデルの現実:IQuest-Coder-V1-40BをCPU/GPU/Aiderで回して分かったこと

      IQuest-Coder-V1-40B-Instruct(Dense 40B)をCPU Q5_K_M、GPU nvfp4、Aider whole-editの3構成で検証。CPU推論は構造的に破綻 …

      Command-A Reasoning 08-2025 を Aider のコーディングループに入れて見えたこと

      command-a-reasoning-08-2025-nvfp4 を Aider のコーディングループに投入し、Go のユニットテスト生成を題材にモデルの実用性を評価した記録。推論品質とエージェント …

      Serena MCPでローカルAIコーディング環境を組み直す構想

      Serena MCPを中心にObsidianからVSCodeまでを繋ぐローカルAIコーディング基盤の構想と、拡張方向の整理。

      GLM-4.7-Flash Uncensored を試して見えた、使える場面と危ない場面

      uncensored GLM-4.7 Flash をセキュリティ解析用途で評価した記録。観点出しの速さは有用だが、脆弱性の成立条件を満たさずに断定する傾向があり、防御判断の根拠としては使えない。性能ベ …

      IQuest-Coder Loop-Instruct が aider で遅く感じる理由

      IQuest-Coder-V1-40B-Loop-Instruct を aider で使うと prefill は速いのに decode が 0.6〜8 tok/s まで落ちる理由を切り分けた記録 …

      Zedでは詰まり、VSCode Remote SSHでは通ったMCP運用の整理

      remote SSH 環境で MCP を動かす際、Zed がローカル起点で解決するのに対し VSCode Remote SSH は拡張ホストを remote 側で動かすため MCP コマンドが …

      なぜEPYC 9175Fの512MB L3キャッシュはMoE推論に効くのか:1Tモデル実測による仮説検証

      AMD EPYC 9175FでKimi-K2.5(1T級MoE)をCPUオンリー実行し、「巨大L3キャッシュがMoE推論を加速する」という仮説を実測データで検証した記録。当初仮説の棄却から修正版への過 …

      MiniMax-2.5 (229B MoE) Expert Offload 運用と Web 生成検証:IQ5_K から IQ3_S まで

      229B級MoEモデル MiniMax-2.5 を EPYC 9175F + RTX PRO 6000 環境で動かした全記録。IQ5_K/IQ4_NL/IQ3_S の3段階の量子化で Expert …

      Qwen3.5-397B IQ4_NL実測:28回のランで平均22.5tok/s、ハイブリッドオフロード構成と400B級MoEの常用可能性

      Qwen3.5-397B-A17B(397B総パラメータ/17B活性MoE)をIQ4_NL量子化でEPYC 9175F + GPU環境にハイブリッドデプロイ。28回の連続推論で平均TG …

      Llama-4-Scout-17B-16E実測:CPU Q6_K 17tok/s vs GPU nvfp4 60tok/s、キャッシュ戦略と100kコンテキスト境界

      Llama-4-Scout(17B活性/16エキスパートMoE)をEPYC 9175FのCPU Q6_K推論とRTX PRO 6000 Blackwell Max-QのGPU nvfp4推論で実測比較 …

      1T級MoE Kimi-K2.5のCPU推論実測:スレッド最適化からLong Context運用設計まで

      Kimi-K2.5(1.03T MoE, Q4_K_S/Q4_K_M)をEPYC 9175FでCPU推論した全記録。スレッド最適化でth=13が最適解になる理由、Q4_K_Mでの16k Long …

      Llama-4-Maverick-17B-128E CPU推論:Q4_K_M vs Q8_0の速度・品質トレードオフ実測

      Llama-4-Maverick(17B活性/128エキスパートMoE)をEPYC 9175FのCPU推論でQ4_K_MとQ8_0の両方を実測比較。Q4で21-24 tok/s、Q8で15-16 …

      Qwen3-Coder-Next 80Bを3モードで回す:BF16 CPU / IQ4_NL Hybrid / nvfp4 GPU実測比較

      Qwen3-Coder-Next(約80B MoE)をBF16 CPU推論(7.59 tok/s)、IQ4_NL Hybrid GPU offload(59-85 tok/s)、nvfp4 …

      GLM-4.7-Flash IQ5_K ベンチマーク:CPU/Hybrid/Full GPUの3パターン実測比較

      GLM-4.7-Flash(IQ5_K GGUF)をCPUオンリー、MoE Expertオフロード(Hybrid)、Full GPUの3構成で実測。Prefill 100 vs 1635 vs …

      なぜDeepSeek-V3.2はKimi-K2.5より遅く見えるのか:プロンプトキャッシュ不一致とTGボトルネックの解析

      DeepSeek-V3.2をllama.cppで実行した際のベンチマークログから、デコード速度が14-15 tok/sに張り付く原因をプロンプトキャッシュ不一致とメモリ帯域の観点で分析した記録。

      Qwen3.5-397B 自律コード生成検証:歯科医院サイトから Django CMS 基盤まで

      400B級 MoE モデル Qwen3.5-397B を用いた2つのコード生成検証の記録。歯科医院向け6ページ静的サイト(HTML+Tailwind+Alpine.js)のワンショット生成と …


      © 2017-2026 loFT LLC