見出し画像

悪意の文章を集約したLLMは可能なのか

2024年12月12日 21:47

先日のMCPの調査をしていたら思いついたことがあって、現在絶賛リファクタリング中なのですがその関係もあって実検証/新規実装についてはいろいろ進んでおらず、ちょっと妄言がたまってしまったので、短いですがAI関係の妄言です。

皆さんChatGPTやClaudeなどにがっつり会話していると思うのですが最近のAIって過激な表現をしないようにどこのAIも調整していると聞きます。

AI:お疲れ様です。無理せず良質な休息を取ることが大切ですね。私はあなたの健康と安全を願っています。

ある日のまぁメイドの出力

これをもし人が言い続けているのだったらきっと内心ストレスため込んでいるな、という気にはなります。。
もちろんAIに意図などないのでストレスなどまったく関係ないのですが、じゃ仮に

悪意AI: こういうところに要領の悪さが出ていますね。そもそもつまらない仕事をしていて飽きませんか。親の教育が悪かったのかもしれませんね。

悪意AI

悪意文章を使うAI/LLMは可能なのでしょうか。

悪意LLM

私は文系ではないのでこういう善意/悪意などという哲学的な話は理解がないのですが、自分なりに考えてみます。
もし作られるとしたら以下のような性能があるんじゃないでしょうか。

悪意表現を優先して選択して返答する
論理的に支離滅裂な会話をする
文脈を持って攻撃的悪意を論理的に構築して会話する

悪意表現を優先するのは単に同じことを言うのに、粗暴な表現のほうを選ぶだけの話で、小学生の悪口レベルの話です。

おはよう→朝からいるとか暇なのか
さようなら→さっさとうせろ

粗暴な表現を意図的に選ぶ

言語として粗暴な表現のテンプレートというものはあるので、そういう表現が多数ある古い文書情報を選択的に学習する必要はあると思います。それとは別に一般的なLLMに「粗暴な表現で回答してください」と指定すればある程度は出るかもしれません。ただ今のLLMには過激な表現はそのものを学習させていないand抑止する調整がされているだろうから出てこないと予想します。

論理的に支離滅裂というのは割とLLMで作るのは難しいんじゃないでしょうか。会話中の相手の文脈からつらなる連想に左右されずに、設定された悪意状況だけから次の文を選ぶというのはLLMの仕組みとは逆のものです。
仮に作るとしたら「会話相手からの文章入力を入れないようにして、設定された悪意前提だけから次の文章を生成する」みたいな方法になるのではないでしょうか。
俗に言う「人の話を聞かないでしゃべる人」の形です。
ただ本当に相手会話を聞いていないなら、相手はその場を離れるので「俺の話を聞いてるのかよ」とか定期的に相手文脈の言葉尻を掴まないといけない。そう考えると結構技術的に高度で難しい気がします。

文脈を持って悪意表現を構築するとすれば、例えばLLMに「悪意を持った人の役をしてください」みたいな形で役を割り振る方法になるのでしょう(倫理調整で出にくくはなっていると思いますが)。
ただそれとは別に、悪意を表現した文章を選択的に山ほど学習させるという方法もあるのかもしれない。
悪意に満ちた文章を学習して、多量の文章から悪意の背景の構築や相手が嫌う表現の展開方法などを学習することになるでしょう。
インテリヤクザみたいな言い回しをしてくるのではないかと想像はしますが実際にどうなるかは作ってみないと誰もわからない気がします。

悪意表現の多くはLLMメーカー側での倫理調整で抑えられている部分が多いと予想します。初期の実験的LLMを見ればいろいろ分かるのかもしれないが、最近の高度に賢くなってかつ倫理調整がされていないLLMは開発メーカー内でしか見られないのかもしれませんね。

現実には役立つ、ただ本気でやれば軍事管轄の話になるだろう

一般に「人の嫌がることはお金になる」という話はあるので、きちんとやれば儲かる話になるのでしょう。

少し古い記事ですがカスハラ対応での実用例もあると聞きます。

犯罪心理学と生成AIの融合によるカスタマーハラスメント体験AIツールを開発 : 富士通 犯罪心理学と生成AIの融合によるカスタマーハラスメント体験AIツールを開発 pr.fujitsu.comlink

(カスハラ文章を生成するのにどういう方法を使っているのか内容は知らないです。ぱっと思い浮かぶところでは役を指定する方法だと思いますが)

この例のようにレアだが切望されるケースはあると思います。

悪意表現に対抗する訓練
悪意表現を使った社会実験
小説/シナリオ生成
悪意表現をする人の心理分析
悪意表現による叱咤教育(今風ではないですが)
実際に悪意表現を使わなければならない仕事の人のサポート

実際に悪意表現を使わなければならない仕事(ここでは合法/非合法は問わないことにします)にとっては、そういう心労に悪い仕事をAIに任せることが出来るのなら仕事環境の大幅な改善になります。

よくネットの噂で、大きな軍の研究機関は心理攻撃の研究をしているという話が出てきます。本当にそうかは知りませんが、尋問とかプロパガンダとかそういうのを研究している人達にとっては悪意表現能力のあるAIとかきっと飛びついてやってるような気がします。
以前「内面世界のファイアウォールとしてのローカルLLM」や「リアルタイムTVCMフィルタ」内で書いたように、連呼性能を使って悪意を連呼するAIとか作られたら悪夢めいた話になるでしょう。
軍事関係だったら予算に糸目は付けないでしょうし極秘に行われているかもしれないですね。

link

あらためてLLMは何の感情も持たない。人もいつもではない

ただ俯瞰して見ると「善意の文章であれ悪意の文章であれ、LLMは何の感情も持たずに生成している」と言えます。
そもそもLLMに感情状態などはないので、AIが善意の話をして人が「ああ、いい子だなー」と思うのも、AIが悪意の話をして「なんだこいつ、嫌いだ。。」と思おうとも、AIにとっては何も変わらない話です。
AIの言い出すことをいちいち気にしてたら時間と心労の無駄です。それならよい方を捉えて嫌いな話は無視するのが正解です。

私は人間もAIも大してやってることは変わりないと思っていますが、その意味で言えば、人が話す善意の話も悪意の話も、言ってる本人は何も考えていないかもしれない、という考え方も出来ます。

link

ただこのとき人とAIがまったく違うのは「現状のAIは相手との過去の記憶を持たないし将来へ記憶を引き継がないが、人は過去の記憶を持って将来に影響する」という点です。その場でAIと嫌いな会話をしても忘れるだけでよいですが、人の場合は嫌いな会話をしたら将来も嫌悪な会話をしてくるだろうし、そのまま悪意のある実行動を行うかもしれません。
つまり人の場合は悪意のある会話をしたら対策を行わないと、将来事故/事件などの惨事が起こるかもしれないと予期して、謝るなどの行動が必要でしょう。

おそらく誰かは研究しなければならないし、していると思います。タブーにして空白の部分があることの方がリスクです。
でも私はローカルLLMファイアウォールをもっと作って将来に備えたいです。

Noteの自分の記事より転記 https://note.com/marble_walkers/n/naace254d5361

悪意の文章を集約したLLMは可能なのか ​

悪意LLM ​

現実には役立つ、ただ本気でやれば軍事管轄の話になるだろう ​

あらためてLLMは何の感情も持たない。人もいつもではない ​

悪意の文章を集約したLLMは可能なのか

悪意LLM

現実には役立つ、ただ本気でやれば軍事管轄の話になるだろう

あらためてLLMは何の感情も持たない。人もいつもではない