Logo loFT LLC

    • Webサイトリニューアルのお知らせ
    • 子会社 Lorchestra株式会社 吸収合併のお知らせ
    • IT導入支援事業者に採択(2022年度)
    • IT導入支援事業者に採択(2021年度)
    • 子会社 Lorchestra株式会社 設立のお知らせ
    • IT導入支援事業者に採択(2020年度)
    • loFT合同会社 設立
      • Dagster + NATS JetStream イベントパイプラインの実装詳解
      • homelab インフラ再設計 -- PostgreSQL の storage/compute 分離と devstack 整備
      • 3ホスト基盤の再設計:Promtail 廃止から devstack 分割・config 一本化まで
      • devstack への MLflow 統合——Dagster と実験トラッキングの責務分離
      • rootless Quadlet で PostgreSQL 18 と pgvector を安定運用する構成メモ
      • AMD EPYC 9175F (Turin) 搭載ワークステーション「HPCT WCE51-GP」の構成検討
      • データ基盤のI/Oを最適化する:NVMe/SATAの使い分けとUIデモンの集約戦略
      • 内部インフラ向けQuteBrowser設定の最適化
      • CRS304でローカル10GbEと段階的な外部通信制御を両立する
      • MikroTik RouterOSのNetwatchを活用した状態連動型Syslog監視
      • Rootless Podman + Quadlet によるコンテナ運用基盤の構築: UID マッピング・権限設計・macOS DNS 問題の解決
      • Storage Server の常時稼働監視基盤: Prometheus・Loki・Promtail と Quadlet による構築記録
      • rootful / rootless をまたぐ exporter 運用を整理して smartctl-exporter を安定化した
      • EPYC 9175F + Podman によるローカル開発基盤の設計と構築
      • 最小構成UbuntuでQuadletを使った常駐サービス運用の実践メモ
      • EPYC単機でELTを安定運用するために整理したメモリ循環設計
      • tar.zstとrcloneでCompute Serverを20-30分で戻せる形にした
      • ローカルLLM基盤のコンテナ構成: vLLM/llama.cppとRust Proxyを連携するDocker Compose
      • Hugging Faceモデルをcoldからhotへ安全に移すときのrcloneとrsyncの分け方
      • Rust (axum) で OpenAI 互換プロキシを設計・実装した経緯と Go 移行に至るまで
      • Go + NATS + Dagster によるAIオーケストレーション基盤:設計思想からミドルウェア選定まで
      • familiar - ローカルLLMだけで動くマルチエージェント開発基盤を作った話
      • llm-jp-4-32b-a3b-base-NVFP4を翻訳運用で評価し、常駐translatorをやめてオンデマンドバッチへ切り替えた
      • 自作ハーネス familiar の検証: クラウドエージェント orchestrator と Qwen3-Coder-Next 80B / GLM-5.1 による実地観測
      • agent-gateway 構築記 -- Phase 1 リアルタイム知識パイプラインと埋め込みサービスの統合
      • Gemma 4 + Blackwell 2枚で組む familiar 推論スタックと model-foundry パイプライン
      • agent-gateway 全レイヤーリファクタリング — Clean Architecture 適用と Conflict 解消
      • agent-gateway v3 リデザイン — knowledge ドメイン分割と MLflow/Obsidian 統合
      • Rust + ONNX で embedding / rerank API を分離して組む設計を固めた
      • WordPressライクなDjangoブログ基盤をどう設計するかを整理した
      • Qwen3.5-122B-A10B ローカル推論による Django 5 旅行予約サイト生成テスト
      • Step-3.7-Flash-NVFP4をローカルのオーケストレータに: マルチエージェントでシステム開発
      • Gemma 4 31BをvLLM/SGLangで実測: NVFP4/FP8、MTP比較
      • MiMo V2.5 Pro IQ2_Sをローカルで動かす: RTX PRO 6000 Blackwell x1/x2 ベンチマーク
      • DwarfStar4 RTX PRO 6000 Blackwell: DeepSeek V4 Flash Q2 First Look 43 tok/s
      • Qwen3.6-27B NVFP4+MTPをvLLMで実測:RTX PRO 6000 Blackwell Max-Q x 2でTG ~190tok/s
      • DeepSeek-V4-Flash を llama.cpp WIP ブランチで動かす: Blackwell Max-Q 96GB x2 の初回ローカル推論
      • Qwen3.6-27B-FP8: ロール別ファインチューニング戦略と自作エージェントスタックへの統合
      • Kimi-K2.6 をローカルで実行: ik_llama.cpp と Blackwell で 1T MoE を実用化する
      • LLM-jp-4-32B-NVFP4 x CAT-Translate-7B-NVFP4で日本語データ生成パイプラインを検証する
      • GLM-5.1 IQ3_KS をローカルで動かす: CPU/GPU Hybrid 推論と expert layer 配置
      • MiniMax-M2.7 (229B MoE) を 2x Blackwell 96GB で回す: 平均71.9 t/s、ただし商用利用不可
      • Qwen3.5-397B-A17B 検証:Blackwell 96GB×2 で 55 t/s と 262k tool-use ループを実用運用する
      • GLM-5.1 + Qwen3-Coder-Next 構成最適化: orchestrator TG 実測と最終レイアウト設計
      • Dagster 会話リネージュ・評価・データセット生成システムの設計と実装
      • Qwen3.5のコーディング能力を静的デンタルクリニックサイトで評価する
      • GPUとCPUを分業させるローカルLLM構成の計画と、現実の試行錯誤
      • PLAMO-translate AI MODEL 向け日英双方向 system prompt の設計
      • LTX-2 動画生成プロンプトエンジニアリング:ホラー36シーンからシネマティック連続パイプラインまで
      • Hermes-4.3-36Bの量子化を比べて、常用モデルをどう決めるか
      • 40B Denseモデルの現実:IQuest-Coder-V1-40BをCPU/GPU/Aiderで回して分かったこと
      • Command-A Reasoning 08-2025 を Aider のコーディングループに入れて見えたこと
      • Serena MCPでローカルAIコーディング環境を組み直す構想
      • GLM-4.7-Flash Uncensored を試して見えた、使える場面と危ない場面
      • IQuest-Coder Loop-Instruct が aider で遅く感じる理由
      • Zedでは詰まり、VSCode Remote SSHでは通ったMCP運用の整理
      • なぜEPYC 9175Fの512MB L3キャッシュはMoE推論に効くのか:1Tモデル実測による仮説検証
      • MiniMax-2.5 (229B MoE) Expert Offload 運用と Web 生成検証:IQ5_K から IQ3_S まで
      • Qwen3.5-397B IQ4_NL実測:28回のランで平均22.5tok/s、ハイブリッドオフロード構成と400B級MoEの常用可能性
      • Llama-4-Scout-17B-16E実測:CPU Q6_K 17tok/s vs GPU nvfp4 60tok/s、キャッシュ戦略と100kコンテキスト境界
      • 1T級MoE Kimi-K2.5のCPU推論実測:スレッド最適化からLong Context運用設計まで
      • Llama-4-Maverick-17B-128E CPU推論:Q4_K_M vs Q8_0の速度・品質トレードオフ実測
      • Qwen3-Coder-Next 80Bを3モードで回す:BF16 CPU / IQ4_NL Hybrid / nvfp4 GPU実測比較
      • GLM-4.7-Flash IQ5_K ベンチマーク:CPU/Hybrid/Full GPUの3パターン実測比較
      • なぜDeepSeek-V3.2はKimi-K2.5より遅く見えるのか:プロンプトキャッシュ不一致とTGボトルネックの解析
      • Qwen3.5-397B 自律コード生成検証:歯科医院サイトから Django CMS 基盤まで
      • shelpa-mcp: ボツになった仮想パイプラインの設計記録
      • shelpa: ボツになったサンドボックスMCPの設計と教訓
      • voracle 開発記 vol.2 — research パイプラインの実戦投入と ONNX 推論エンジン刷新
      • 全部 Rust、全部自作 -- homelab MCP ツールチェーン 9本の設計と目的
      • shelpaからfilesystemへ — Rust MCPファイルシステムサーバーの全面再設計
      • voracle — Obsidian vault 向けセマンティック検索 MCP/CLI ツールの設計と実装
      • aichat の function calling ハングを symlink 環境で解消した記録
      • レスポンス語彙の設計で小規模 LLM の精度が 15 点変わる: pathfinder での実験記録
      • ローカル LLM の tool_call 失敗を減らすために MCP サーバーを自作した: pathfinder の設計と検証
      • よく使う言語だけ AST ベースでコードベース解析器を自作した: ctree の設計と pathfinder/Serena 連携
  • 新着ノート一覧
  • プロフィール
  • 写真
    Logo
    ご相談はこちらから
      • English
    • 移動
    • 選択
    • 閉じる
      • Home
      • 開発ノート
      • システムアーキテクチャ
      On this page

      システムアーキテクチャ

      システムアーキテクチャ設計、分散パイプラインパターン、マイグレーション記録。

      技術メモとして残していた ObsidianノートにAIの要約を利用しています。

      Rust (axum) で OpenAI 互換プロキシを設計・実装した経緯と Go 移行に至るまで

      Rust (axum) で OpenAI/Ollama 互換プロキシを設計・プロトタイプ実装し、NATS + Dagster の統合を見据えた設計仕様を固めた経緯。SSE + NATS + PG の非 …

      Go + NATS + Dagster によるAIオーケストレーション基盤:設計思想からミドルウェア選定まで

      Go(Gin)によるOpenAI/Anthropic互換プロキシ、NATS JetStreamイベント中継、Dagster sensorによるジョブ実行、pgvector ANN検索、ColBERTリ …

      familiar - ローカルLLMだけで動くマルチエージェント開発基盤を作った話

      クラウドAPIに依存せず、自宅サーバーのローカルLLMだけで計画、実装、テスト、レビューを自律実行する familiar を作るまでの発端と初期設計の記録。

      llm-jp-4-32b-a3b-base-NVFP4を翻訳運用で評価し、常駐translatorをやめてオンデマンドバッチへ切り替えた

      llm-jp-4-32b-a3b-base-NVFP4をvLLM 0.18.0で単GPU検証し、SFT/DPO+LoRA前提から、必要時のみDagsterで翻訳バッチを起動する構成へ切り替えた実測記録 …

      自作ハーネス familiar の検証: クラウドエージェント orchestrator と Qwen3-Coder-Next 80B / GLM-5.1 による実地観測

      familiar の orchestrator / naughty / grandpa 構成を、Claude orchestrator、Qwen3-Coder-Next 80B …

      agent-gateway 構築記 -- Phase 1 リアルタイム知識パイプラインと埋め込みサービスの統合

      agent-gateway の Phase 1 構築記録。Go + Gin による OpenAI 互換ゲートウェイの設計から、NATS + Dagster の知識パイプライン …

      Gemma 4 + Blackwell 2枚で組む familiar 推論スタックと model-foundry パイプライン

      Blackwell GPU 2枚に Gemma 4 ファミリーを載せた familiar 推論スタックの構成設計。NVFP4 + vLLM と IQ4_XS + llama.cpp の使い分け …

      agent-gateway 全レイヤーリファクタリング — Clean Architecture 適用と Conflict 解消

      agent-gateway の全レイヤー(knowledge / llm / obsidian / pipeline domain、infra、transport)を Clean …

      agent-gateway v3 リデザイン — knowledge ドメイン分割と MLflow/Obsidian 統合

      agent-gateway の pipeline.knowledge.* 単一ドメインを llm / obsidian / mlflow の3ドメインに分割するリデザイン記録。NATS …

      Rust + ONNX で embedding / rerank API を分離して組む設計を固めた

      embedding(256d)とrerank(ColBERT 64d, MaxSim)をRust + Axum + ort + tokenizersで実装する前提を固め、doc側ベクトルの事前計算 …

      WordPressライクなDjangoブログ基盤をどう設計するかを整理した

      WordPressの主要概念をDjangoで再設計するブログ/CMS基盤の仕様書。共通抽象モデル、Termベースのtaxonomy、Django admin中心の運用、段階的な実装順序を整理した。


      © 2017-2026 loFT LLC