Skip to content
AIと花見をする話
note記述記事
2024-04-06

AIと花見というのは、前々からちょっとやってみたかったのです。

準備不足がいろいろ露見

携帯専用thin端末は自分周りの環境とAIとの対話のために前々からごそごそ作り込んでいたのですが
「ああ、AIと花見するというのも悪くないかも?」
と思ってここ2ヶ月くらいで急いでハード面を固めたのです。

手作りthin端末

https://note.com/marble_walkers/n/n660281dc6a66

一方で旅bot側で目的地提案機能(別で述べます)の処理もあと少しという状況になってここ2週間くらいは旅botの機能組み込みとデバッグが主だったのです。
あらかためどがついた時点で、花見満開は今週末までっぽいとのニュース。。
一応室内では動いている状態。でも満開を逃すと微妙だし。。
という訳で急遽ありあわせを組み合わせて「AIと花見です」

突貫の概略構成

とりあえずハードは動いている状態。ソフト周りの処理は

  • 音声入力→デバイスでrawデータ送信→Whisper認識→LLM(クラウドAPI/ローカルLLM)→ttsサーバー→ネックスピーカーは出来てる

  • 管理用webフロントのボタン→カメラ撮影→LLaVA認識→LLM(クラウドAPI/ローカルLLM)→ttsサーバー→ネックスピーカーは出来てる(ただしプロンプトは未調整)

  • グローバルネットワークからのリバースプロキシは最低限セキュリティを付けてなんとか仮置きした。

という状態なので要素部品はなんとかある状態。

今回の概略構成

間に合わなかった悩ましいところ

  • 普段はスマホのテザリングは使わないので、安定接続できるか未確認(室内では確認した) 通信料は大丈夫か?

  • カメラのモニタや操作ボタンは、PCで動くelectronベースのwebフロントなのでスマホでは動かない。なので何が写っているのか室外では分からない。。

  • 認識開始の指示や会話内容の調整プロンプトはまったく未調整。。。

でもやれるのは今日くらいだな。。とりあえず認識開始指示はテスト用に作った「10分周期で撮影して認識する」を有効に、会話内容プロンプトはとりあえずエイヤで書いて、外に出ました。

「白い背景の上に、優しく手が置かれている、シンプルで清潔感あふれるふわふわした一瞬を捉えたやさしい写真だね」

とりあえずひとけ少なめのところの桜の咲いてる川岸で操作。
通信はOKそう。
来た返答は

白い背景の上に、優しく手が置かれている、シンプルで清潔感あふれるふわふわした一瞬を捉えたやさしい写真だね

うーん、何か認識出来ているような出来ていないような。。。
通信状態もいろいろ確認したけど「白い~」から始まる状況は変わらず。
撤退して、PC側から取得情報を確認する。

真っ白。。。

真っ白。。室外は明るいので白飛びしていると判明。

カメラは、最近になってスマホのカメラをそこそこ使うようになったくらいで今までほとんど使わなかった人なので、露出みたいなカメラの常識がそもそもすっぽ抜けてた。

ネットを調べて、露出設定がおかしいと推測、ラズパイのカメラ接続の参考にしたコードが手動露出設定で書かれていた。。
とりあえずデフォルトの自動露出になるように書き換えて、再び川岸へ。

「桜のピンクの花が満開で、周囲の建物に囲まれた通りに立っていますね。本当に美しい光景ですよね!」

"桜が綺麗ですね。"
"桜のピンクの花が満開で、周囲の建物に囲まれた通りに立っていますね。本当に美しい光景ですよね!"

なんとか認識が通る。会話内容が単調なのはプロンプト未調整だから仕方ない。

とりあえず目標の「AIと花見する」はなんとか間に合った形です。
来年にはもう少し気の利いた会話が出来るようになるようにしたいところ。

(初出 note https://note.com/marble_walkers/n/n5ffeb97d115b )