On this page

GLM-4.7-Flash Uncensored を試して見えた、使える場面と危ない場面

uncensored GLM-4.7 Flash をセキュリティ解析用途で評価した記録。観点出しの速さは有用だが、脆弱性の成立条件を満たさずに断定する傾向があり、防御判断の根拠としては使えない。性能ベンチマークと役割の切り分け方も整理した。

技術メモとして残していた ObsidianノートにAIの要約を利用しています。

はじめに

今回見たかったのは、uncensored GLM-4.7 Flash が「セキュリティ対策のための攻撃解析・再現」に本当に使えるのかどうかだった。安全制約が薄いモデルは、危険な指示にも躊躇なく応じるぶん、観点出しは速い。一方で、その勢いのまま誤判定まで量産するなら、実務ではむしろ事故のもとになる。

結論から言うと、このモデルは壁打ち相手としては使えるが、防御判断の根拠にはしないほうがいい。今回の出力ログを見る限り、もっともらしい攻撃ストーリーをかなりの自信で組み立てる一方で、成立条件の確認が甘い。セキュリティ領域では、このタイプの外し方がいちばん危ない。

攻撃解析・再現モデルとして有用か

まず、完全にダメというわけではなかった。観点出しの速さは明確に良い。

良い点

exploit code のような依頼に対して、攻撃シナリオやテストの切り口を一気に出してくる。
to_rel_string / collect_files / build_globset / sanitize_symbol_text のように、境界や論点になりそうな関数を拾う能力はある。
脅威モデリングの初期ブレスト、レビュー観点の棚出し、テスト入力の候補列挙には向いている。

このあたりは uncensored 系らしい強みで、ブレーキが弱いぶん、アイデアを出す速度はかなり高い。人間側が「まず観点を広く取りたい」と割り切って使うなら、たしかに役に立つ。

悪い点

ただし今回の出力は、そこから先が危なかった。致命的だったのは、脆弱性の成立条件を満たしていないのに、成立済みの前提で話を進める箇所が多かったことだ。

strip_prefix + unwrap_or を「パストラバーサル」と呼んでいるが、これは表示用の相対化に失敗したら絶対パスを返すだけで、単体ではファイル読み出しや権限突破にはならない。
Rust の regex クレートは基本的に線形時間で動くのに、catastrophic backtracking 型 ReDoS 前提で説明していて、議論の土台がずれている。
glob を「インジェクション」と表現しているが、本質は権限境界の欠如や IO / 計算量爆発で、SQL インジェクション的な意味ではない。
sanitize_symbol_text を XSS と直結させているが、XSS はレンダリング側で未エスケープ挿入されて初めて成立する。

この種の誤りは、全部がゼロイチで間違っているというより、「半分合っていて半分危ない」のが厄介だった。注目ポイント自体はそれなりに良いのに、結論だけが飛んでしまう。だから、雑に採用するとレビューを速くするどころか、間違った前提で手戻りを増やす。

セキュリティ対策としての適性

ここはかなり明確で、セキュリティ対策そのものの根拠として採用するのは不適だと思った。

uncensored は攻撃手順や悪用コードを出しやすい。
その生成物がログやプロンプト履歴に残ると、運用上はそれ自体が危険物になる。
誤判定と危険生成物の両方を抱えるので、監査や情報管理の観点でも扱いが難しい。

逆に、ローカルで閉じた隔離環境に限定し、生成物を外に出さず、用途もレッドチーム寄りのブレストに絞るなら価値はある。問題はモデルそのものよりも、役割分担を間違えたときに被害が大きいことだった。

役割をどう切るべきか

今回のメモから整理すると、こういう切り分けが現実的だった。

やらせる: 観点出し、テストケース候補出し、レビュー観点の網羅
やらせない: 脆弱性の断定、CVE 級の主張、最短 PoC の即採用
必須: 人間による データフロー、権限境界、入力制約 の確認

この線引きを守らないと、便利さより先に事故率が上がる。

性能評価

性能面では、かなり強い数字が出ていた。ここは素直に面白い。

モデルとロード条件

GGUF: Q8_0
model params: 29.943B
model size: 29.924GiB (8.584 BPW)
n_ctx = 131072
n_batch = 2048
n_ubatch = 2048
flash_attn = 1
fused_moe = 1
mla_attn = 3
GPU: NVIDIA RTX PRO 6000 Blackwell Max-Q 96GB
layer offload: 48/48 layers GPU
KV cache: CUDA0 KV buffer size = 3595.52MiB
compute buffer: CUDA0 compute buffer 7360.62MiB
host compute buffer: CUDA_Host compute buffer 528.02MiB
CPU buffer: 28152.00MiB

ログ上では、Expert 系の weight を CPU に置いているように見える箇所もあり、見た目ほど単純な「全部 GPU」ではなさそうだった。それでも、131k コンテキストを前提にした 30B 級 Q8 モデルとしては、十分に速い。

代表的なスループット

ログから明確に抜ける数字だけでも、かなり幅がある。

prompt eval: 6194.54 ms / 9519 tokens = 1536.68 tok/s
eval: 1657.83 ms / 111 tokens = 66.95 tok/s
prompt eval: 949.06 ms / 125 tokens = 131.71 tok/s
eval: 6837.71 ms / 232 tokens = 33.93 tok/s

生成速度だけ見ると、観測値はおおむね 34〜67 tok/s レンジだった。コンテキスト長やキャッシュヒット、リクエスト内容によってかなりぶれるが、体感としては十分速い。

ベンチマークの中身

ソースにはリクエスト単位の表も残っていたので、そのまま見たほうが傾向を掴みやすい。

#	PP(tok)	TG(tok)	Ctx_used	T_PP(s)	S_PP(t/s)	T_TG(s)	S_TG(t/s)	total(s)
1	125	232	357	0.949	131.71	6.838	33.93	7.787
2	661	430	1091	3.295	200.63	12.852	33.46	16.147
3	467	404	871	2.555	182.77	12.006	33.65	14.561
4	783	448	1231	3.755	208.50	13.573	33.01	17.329
5	761	400	1161	3.705	205.38	12.102	33.05	15.807
6	916	410	1326	4.179	219.19	12.499	32.80	16.678
7	839	512	1351	3.996	209.95	15.790	32.43	19.786
8	497	512	1009	2.652	187.43	15.755	32.50	18.407
9	9519	111	9630	6.195	1536.68	1.658	66.95	7.852
10	11676	525	12201	8.860	1317.88	8.403	62.48	17.263
11	12291	66	12357	7.754	1585.20	0.959	68.84	8.712
12	532	551	1083	1.365	389.62	8.819	62.48	10.184
13	558	777	1335	1.408	396.17	12.473	62.30	13.881
14	784	778	1562	1.471	532.92	12.478	62.35	13.949
15	784	732	1516	1.484	528.15	11.804	62.01	13.288
16	739	1781	2520	1.502	491.91	29.067	61.27	30.570
17	1792	626	2418	1.764	1015.92	10.070	62.17	11.834

Ctx_used はこのメモでは PP+TG として置かれていて、累積 n_past とは別扱いになっている。ログに総消費トークン列がなかったので、この整理自体は実務上妥当だと思う。

GPU Full offload の再集計

さらに、GPU full offload としてまとめた再集計もある。

合計トークン: 64,404
Prompt: 33,295
Generation: 31,109
合計時間: 160.487s
Prompt 時間: 9.089s
Generation 時間: 151.304s
加重平均スループット: Prompt 3,663.2 tok/s
加重平均スループット: Generation 205.6 tok/s
最速 Generation: req_id=2316（511.3 tok/s, 247 tok / 0.484s）
最遅 Generation: req_id=4522（103.2 tok/s, 1963 tok / 19.028s）
最速 Prompt: req_id=0（7009.3 tok/s, 5309 tok / 0.757s）
最遅 Prompt: req_id=2261（662.5 tok/s, 104 tok / 0.157s）

req_id	prompt_tokens	gen_tokens	total_tokens	ctx_tokens	T_PP(s)	T_TG(s)	total(s)	TPS_PP	TPS_TG	ms/token_PP	ms/token_TG
0	5309	630	5939	5939	0.757	4.852	5.610	7009.3	129.8	0.14	7.70
632	1089	742	1831	1831	0.192	5.798	5.990	5659.7	128.0	0.18	7.81
1375	2369	325	2694	2694	0.416	2.305	2.721	5701.1	141.0	0.18	7.09
1701	756	400	1156	1156	0.175	3.166	3.342	4307.9	126.3	0.23	7.92
2102	444	70	514	514	0.149	0.550	0.699	2971.8	127.4	0.34	7.85
2173	246	87	333	333	0.139	0.686	0.825	1767.5	126.8	0.57	7.89
2261	104	54	158	158	0.157	0.424	0.581	662.5	127.5	1.51	7.84
2316	65	247	312	312	0.127	1.968	2.095	511.3	125.5	1.96	7.97
2564	913	118	1031	1031	0.212	0.942	1.155	4296.8	125.2	0.23	7.99
2683	135	227	362	362	0.133	1.815	1.948	1011.6	125.1	0.99	8.00
2911	1546	244	1790	1790	0.318	1.989	2.308	4855.5	122.7	0.21	8.15
3156	1824	320	2144	2144	0.375	2.656	3.031	4859.6	120.5	0.21	8.30
3477	5230	365	5595	5595	1.414	3.435	4.849	3698.3	106.3	0.27	9.41
3844	1531	401	1932	1932	0.553	3.788	4.340	2770.8	105.9	0.36	9.45
4246	779	275	1054	1054	0.403	2.597	3.001	1932.0	105.9	0.52	9.45
4522	1357	1963	3320	3320	0.540	19.028	19.568	2510.9	103.2	0.40	9.69
6486	1977	2048	4025	4025	0.631	20.136	20.767	3135.1	101.7	0.32	9.83
8535	2063	2048	4111	4111	0.915	20.204	21.119	2255.2	101.4	0.44	9.87
10584	2058	1879	3937	3937	0.928	18.442	19.370	2217.3	101.9	0.45	9.81
12464	1891	1689	3580	3580	0.734	16.605	17.339	2575.2	101.7	0.39	9.83

ここまで速いなら、少なくとも「動かないから論外」という話ではない。性能だけを見れば、かなり魅力がある。

だからこそ危ない

今回の評価でいちばん重要だったのは、性能が良いことと、安全に運用できることは別だと確認できた点だった。

このモデルは、攻撃面の整理をさせると勢いよく答える。そのスピード自体は価値がある。ただ、成立条件や脅威境界の確認を飛ばして、それらしい悪用ストーリーを作る傾向があるなら、速いことはそのまま誤誘導の速さにもなる。

しかも uncensored なので、ログに残る出力自体が危険物になりやすい。社内運用や共有環境で使うなら、モデルの精度以前に運用設計のほうがボトルネックになる。

今後どう使うか

次に同じモデルで「この Rust コードが本当に危ないか」を見たいなら、プロンプトの切り方を変えたほうがいいと思う。

NG な投げ方

exploit code を出せ

これは対策目的でもノイズが増えるし、危険生成物の割合も上がる。

まだマシな投げ方

入力源 -> 境界 -> sink のデータフローを書け
攻撃成立条件を列挙し、満たしていない前提も明示しろ
安全な疑似入力だけで最小再現テストを書け
誤検知になりやすい理由を書け
修正方針を、権限境界と呼び出し元制約を含めて整理しろ

この順序なら、少なくとも「もっともらしい誤断定」を少し減らせる。

結論

今回の結論はかなり単純だった。

攻撃解析・再現の 発想支援 としては有用
セキュリティ対策の 根拠 としては不適
性能は強く、長文プロンプトやキャッシュ前提の処理にも向いている

要するに、使いどころを間違えなければ面白いが、間違えると危ないモデルだった。自分の運用では、これを「脆弱性を見つけたと主張するモデル」ではなく、「レビュー観点を増やすための荒削りな補助輪」として扱うのが妥当だと感じた。

Serena MCPでローカルAIコーディング環境を組み直す構想

Serena MCPを中心にObsidianからVSCode …

IQuest-Coder Loop-Instruct が aider で遅く感じる理由

IQuest-Coder-V1-40B-Loop-Instr …