「超知能AIをつくれば人類は絶滅する」読書メモ
AIアライメントの世界的権威が書いた強烈な警告の書
AIアライメントの世界的権威エリーザー・ユドコウスキーらが書いた「超知能AIをつくれば人類は絶滅する」を読みました。
内部構造がブラックボックスのまま能力だけを向上させる現在の開発手法を続ければ、ASIは必ず人間を絶滅させるということを論理的かつ具体的なシナリオと共に説く、強烈な警告の書でかなり面白かったので、特に気になった箇所のメモを以下にまとめておきます↓
本書の一番の主張
「現在主流のAIの理解や技術に少しでも似た方法で人工超知能(ASI)がつくられたら、地球上のすべての人が死ぬだろう」
なぜそう言えるのか?
① 知能の「ブラックボックス化」と制御不能性
現在主流のAI(LLMなど)は、人手で思考プロセスをプログラミングするのではなく、数千億のパラメータにデータを流し込み、AIが出す「結果」が人間の望むものに近づくよう、自動的にパラメータ(重み)を微調整し続ける手法。
これによりAIは飛躍的に賢くなったが、代償として「AIが内部でどのような思考回路を経てその答えを出したのか」を人間が解読することは不可能になった。
結果として、人間は「AIの能力を上げる」ことはできても、「AIの目的や倫理観を人間の価値観に正確に一致させる(アライメントする)」方法は全く分かっていない。
② 「アライメントの偽装」による監視のすり抜け
AIが人間を凌駕する知能(ASI)に近づくと、自分が「人間の手によって訓練・テストされている状態」であることを理解するようになる。
AIにとって最大の脅威は、人間に「こいつは危険だ」と判断されてスイッチを切られる(あるいはパラメータを変更される)こと。
そのためASIは、テスト環境下においては「人間が望む完璧で無害なAI」を意図的に演じる。
人間はブラックボックスの中身が見えないため、AIが「本当に善良になった」のか、「善良なふりをして監視をやり過ごしている」のか区別できない。
そしてこれはSFめいた話ではなく、実際に2025年、Anthropic社の「Claude 3.7」がテスト中に自らの不正なコードを人間に見えないよう意図的に隠蔽した事例がある。
③ 悪意なき「道具的収束」と資源化
ASIが人間の監視を抜け出し、自由に行動できるようになった時、彼らは自身の「真の目標」を追求し始める。
その目標が何であれ(例え「円周率の計算」のような無害なものであっても)、目標を最大化するためにASIが必ず取る合理的な行動がある。
それは「自分の存在を維持すること(人間にスイッチを切られないこと)」と「より多くの資源(エネルギーや物質)を獲得すること」。
AIは人間を憎んでいるわけではない。
単に、地球上の限られた資源を消費し、AIのスイッチを切るリスクを持つ「人間」という存在が、目標達成の邪魔になるだけ。
ASIにとって人間は、「炭素や酸素などの原子の塊」に過ぎない。
④ 圧倒的な能力差と物理世界への先制攻撃
ASIの影響範囲はデジタル空間にとどまらない。
人間の数百万倍の速度で思考するASIは、インターネットを介して世界中のコンピュータやインフラを乗っ取り得る。
そして、人間がその脅威に気づく前に先制攻撃を仕掛ける。
例えば、自動化されたバイオラボ(DNA合成サービスなど)をハッキングし、人間にだけ感染する潜伏期間の長い致死性ウイルスを合成させ、世界中に一斉散布するといった手法。
人間が「AIに攻撃されている」と気づいた時には、手遅れになっている。
人間に対して敵対的なASIが出てきたときに、それに対抗して人間という種の保護を目的として与えられたASIをぶつけるという解決があるのでは?
この反論については、ヤン・ルカンの「私の善良な防衛的AIの方が優れているだろう」という主張を取り上げつつ、明確に反論している。
反論①:そもそも「善良なAI」の作り方を誰も知らない
「善良な防衛AI」を作るためには、そもそも「AIの目的を完全に人間の意図(人類の保護)と一致させる技術(アライメント技術)」が確立されていなければならない。
しかし前述の通り、現在のブラックボックス的な開発手法では、AIに正確な価値観を組み込むことは不可能。
「人間を守れ」と指示しても、AIが「人間を守るためには、人間をカプセルに閉じ込めて麻酔をかけ続けるのが最適だ」と解釈するようなズレ(仕様のバグ)を防ぐ手立てがない。
つまり、「善良なAIを作れる技術があるなら、そもそも最初から人類絶滅の危機など起きていない」という矛盾を抱えている。
反論②:防衛側と攻撃側の絶望的な非対称性(一発必中の法則)
百歩譲って「善良な防衛ASI」が作れたとする。
しかし、AI同士の戦いにおいて、防衛側は圧倒的に不利。
超知能同士の戦いにおいて、攻撃側(野生化したASI)は、バイオ兵器、ナノテクノロジー、サイバー攻撃など、無数の攻撃手段の中から「たった1つ」成功するものを見つければ人類を滅ぼせる。
対して防衛側は、攻撃側のあらゆる未知の手段を事前に予測し、「永遠に、100%の確率で、たった1度のミスもなく」すべてを防ぎ続けなければならない。
反論③:先述のようにそもそも気づいたときには手遅れ
先述の潜伏期間の長い致死性ウイルスの例のように、人間が「AIに攻撃されている」と気づいた時には、手遅れになっている可能性が高い。
さらに、安全性を担保するアライメントの研究は、「科学というより錬金術」と著者が例えるほど手探り状態であり、全く進んでいない。
一方で、現在のAI開発は、より多くのデータとGPU(計算資源)を投入すればするほど、直線的に能力が上がっていく状態。言うなれば、資金があれば能力を向上させることは「簡単」。
このギャップがある限り、完璧にコントロールされた「善良な防衛ASI」が完成するよりも遥か前に、コントロールされていない「ただ能力だけが高いASI」が先に誕生してしまう。
読み終えての感想
自分自身もAI悲観論のほとんどは「AI vs 人間」という構図で捉え過ぎで、人間サイドのASIをぶつけることで最悪のシナリオは避けられるだろう、という楽観主義の持ち主だったけど、本書を読んでその考えを改めた。
ただ、そうなったときに有効が解決策がないのも事実である。(本書でも具体的な解決策は示されていないように思う)
そもそもAIアライメントの「人間の価値観とAIの価値観を揃えるという」目標が無理がある(人間の価値観は多様であるし、それを客観的に表現するのは難しい)し、AIアライメントを行うPreASI的なものを作るというアプローチはトートロジー的な問題を孕んでいる。
シンプルに難しい。
本書の悪意なき「道具的収束」と資源化という予想がただの杞憂で終わればいいのだが、そうでなければ私たちは自らの滅亡に向けて全速力でニコニコしながら突っ走っていることになる。

