Report 6844

愛する人の死後、その遺品をどう扱うかは決して容易なことではありません。しかし、アラスカ州の裁判所が経験したように、不正確であったり誤解を招くような人工知能チャットボットは、事態を悪化させてしまう可能性があります。

アラスカ州の裁判所は1年以上にわたり、アラスカ・バーチャル・アシスタント（AVA）と呼ばれる、先駆的な生成型AIチャットボットの開発に取り組んできました。これは、故人の財産を相続させる司法手続きである遺言検認に関わる複雑な書類や手続きを住民がスムーズに進められるよう支援するものです。

しかし、司法へのアクセス向上に向けたAI活用による迅速な飛躍的進歩となるはずだったこの取り組みは、失敗や誤った回答に悩まされる、1年にも及ぶ長期の道のりへと転落しました。

AVAは「3ヶ月間のプロジェクトになるはずだった」と、AVAの進化に携わり、その軌跡を目の当たりにしてきた全米州裁判所センター (NCSC)のコンサルタント、オーブリー・ソウザ氏は述べています。「今から1年3ヶ月以上経ちましたが、それはすべて、正しく動作させるために必要だったデューデリジェンスのおかげです。」

この特注のAIソリューションの設計を通して、米国中の政府機関が、真実と信頼性が最も重要となる現実世界の問題に強力なAIシステムを適用する際に直面している困難が明らかになりました。

「このようなプロジェクトでは100%の正確性が求められますが、この技術ではそれは本当に難しいのです」と、アラスカ州裁判所システムの管理ディレクターであり、AVAプロジェクトのリーダーの一人であるステイシー・マーズ氏は述べています。

「他の技術プロジェクトでも、スタッフと冗談を言い合っています。『これらのシステムが完璧だとは期待できない。そうでなければ、決して展開できないだろうから』と。最低限の機能を備えた製品が完成したら、それを世に送り出し、そこから学びながら改良を加えていきましょう。」

しかしマーズ氏は、このチャットボットにはより高い基準が必要だと考えています。「もし人々がプロンプトから得た情報に基づいて行動を起こした場合、それが正確でなかったり不完全だったりすると、実際に損害を被る可能性があります。本人、家族、あるいは財産に甚大な損害を与える可能性があります。」

多くの地方自治体が、住民の運転免許証の申請支援から市職員の住宅給付金手続きの迅速化まで、様々なユースケースでAIツールの実験を行っていますが、最近のデロイトレポートによると、地方自治体の実務担当者のうち、サービス提供ツールとしてAIを優先している割合は6%未満でした。

AVA の経験は、政府機関が効率性の向上やサービスの向上のために AI を活用しようとする際に直面する障壁を示しています。これには、重大な状況での信頼性と信用性に関する懸念や、急速に変化する AI システムにおける人間による監視の役割に関する疑問などが含まれます。これらの制約は、今日のAIに関する過剰な誇大宣伝と衝突し、AI投資の急増とAI導入の限界の間のより大きな乖離を説明する一助となる可能性があります。

マーズ氏は、AVAプロジェクトを、アラスカ州の家族法ヘルプラインの最先端かつ低コスト版として構想しました。このヘルプラインは裁判所職員が対応し、離婚から家庭内暴力保護命令まで、幅広い法的問題に関する無料相談を提供しています。

「私たちの目標は、基本的に、人間のファシリテーターが提供するサービスを、チャットボットで再現することです」とマーズ氏はNBCニュースに語りました。AVAの弁護士、技術専門家、そしてNCSCのアドバイザーで構成されるチームについて言及しました。「私たちも、誰かが話しかけてきて、『こういうことで助けが必要なんです。私の状況はこうです』と教えてくれるような、同じようなセルフヘルプ体験を提供したいと考えていました。」

NCSCは、AIに関する成長著しい取り組みの一環として、AVAを立ち上げるための初期助成金を提供しましたが、このチャットボットの技術的開発は、弁護士であり法学教授でもあるトム・マーティン氏によって行われました。マーティン氏は、法律に特化したAI企業LawDroidを設立し、法律関連のAIツールを設計しています。

マーティン氏はAVAサービスについて説明し、AIシステムのパーソナリティの選択と形成など、設計プロセスにおける多くの重要な決定と考慮事項を強調しました。

多くのコメンテーターや研究者は、特定のモデルやAIシステムのバージョンが、まるで異なるペルソナを採用しているかのように、どのように異なる動作をするかを説明しています。研究者やユーザーでさえ、技術的な調整によってこれらのペルソナを変更できます。これは、OpenAIサービスが、熱狂的で媚びへつらう性格と感情的に距離を置く性格の間を変動したときに、多くのChatGPTユーザーが今年初めに発見したとおりです。 xAIのGrokのような他のモデルは、ガードレールが緩く、物議を醸すトピックを積極的に受け入れる姿勢を持つことで知られています。

「モデルによって性格が全く異なります」とマーティン氏はNBCニュースに語りました。「ルールを守るのが非常に得意なモデルもあれば、ルールを守るのが苦手で、自分が一番賢い人間だと証明しようとするモデルもあります。」

「法務アプリケーションでは、そのようなモデルは望ましくありません」とマーティン氏は言います。「ルールを守りながらも賢く、平易な言葉で説明できるモデルが求められます。」

本来であれば歓迎される特性でさえ、遺言検認のような重要なトピックに適用すると、より問題が生じます。 NCSCのソウザ氏は、マーティン氏と共同作業を進める中で、AVAの初期バージョンは共感的になりすぎて、実際に悲しみに暮れていて遺言検認手続きに関する回答を求めているユーザーを苛立たせていたと指摘しました。「ユーザーテストを通して、皆が『周りの人みんなが私の死を悼むのにうんざりだ』と言っていました。」

「ですから、私たちは基本的にそのような弔意の言葉を排除しました。AIチャットボットに弔意の言葉はもう必要ないからです」とソウザ氏は言います。

システムの表面的な口調やお世辞だけでなく、マーティン氏とソウザ氏は深刻な幻覚の問題、つまりAIシステムが自信満々に虚偽または誇張した情報を共有してしまうという問題にも対処しなければなりませんでした。

「モデルに関わらず、チャットボットが知識ベース以外のものを実際に使用しないという想定のもと、幻覚に問題がありました」とソウザ氏はNBCニュースに語った。「例えば、『法律相談はどこで受けられますか？』と尋ねると、『アラスカにはロースクールがあるので、卒業生ネットワークを調べてください』と答えるのですが、アラスカにはロースクールはありません。」

マーティン氏は、チャットボットが広範なウェブ検索を行うのではなく、アラスカ州裁判所システムの遺言検認文書の関連部分のみを参照するように、多大な努力を払ってきた。

AI業界全体で、AIによる幻覚は時間とともに減少しており、数ヶ月前よりも脅威は小さくなっている。AIエージェントプロバイダーのManus（最近Metaに2億ドル以上で買収された）のようなAIアプリケーションを開発している多くの企業は、 10億ポンド[(https://www.wsj.com/tech/ai/meta-buys-ai-startup-manus-adding-millions-of-paying-users-f1dc7ef8?gaa_at=eafs&gaa_n=AWEtsqdpM3rddkadD3sHmHyHyaogdpWNjqSn9r8qp45utxo5g0oxvzHxINrFg_tpaOA%3D&gaa_ts=69576f8e&gaa_sig=tBJqJhH7w6eGVpX22daR12_SzHlPWvtM-C7j0egXXzfwOIhU6egVAZ3jqS9ZW1FHF3b5y6fYm7s6jLVNZW3WuA%3D%3D]は、サービスの信頼性を強調し、複数のレイヤーのセキュリティ対策を講じています。 AIを活用した検証により、結果の正確性を確保しています。

AVAの回答の正確性と有用性を評価するため、AVAチームは遺言検認に関する91の質問を作成しました。例えば、亡くなった親族の車の名義を自分の名前に変更したい場合、どの遺言検認フォームを提出するのが適切かをチャットボットに尋ねました。

しかし、アラスカ州裁判所システムの司法アクセスサービス担当ディレクターであるジーニー・サトウ氏によると、この91の質問からなるテストは、対象となる利害関係と人間によるレビューの必要性を考えると、実行と評価に時間がかかりすぎることが判明しました。

そこでサトウ氏によると、チームは「AVAが誤って回答した質問、複雑な質問、そしてAVAが頻繁に尋ねると思われる非常に基本的な質問」を含む、わずか16のテスト質問に絞り込みました。

コストはサトウ氏とAVAチームにとってもう一つの重要な問題です。 AIシステムの新しいイテレーションやバージョンにより、使用料は急激に低下しました。AVAチームは、限られた裁判所予算を考慮すると、これをAIツールの重要な利点と見ています。

マーティン氏はNBCニュースに対し、ある技術的な設定では、AVAクエリ20件のコストはわずか約11セントだと述べました。「私はミッションドリブンであり、世界中の人々を助けることの重要性を常に考えています」とマーティン氏は述べました。「もちろん、そのミッションを遂行するためには、コストは極めて重要です。」

しかし、AVAの回答を支えるシステム（OpenAIのGPTモデルファミリーなど）は常に変化し、進化しているため、管理チームはAVAの動作や精度の変化がないか、継続的かつ定期的に監視する必要があるでしょう。

「定期的なチェックが必要になり、新しいプロンプトやモデルが登場したり、既存のモデルが廃止されたりするたびに、更新が必要になると予想しています。これは、完全に手放しで対応するのではなく、常に最新の状態を把握しておく必要があるものです」とマーティン氏は述べています。

AVAは、試行錯誤を繰り返しながらも、計画通りに進めば1月下旬の立ち上げが予定されています。マーズ氏は、アラスカ州民が遺言検認制度を利用する上でAVAが果たす可能性について楽観的な見方を維持していますが、AIの現状の限界についてはより明確な見解を示しています。

「このプロジェクトの目標は少し変更しました」とマーズ氏は言います。「セルフヘルプセンターの人間のファシリテーターが人々に提供できるものを再現したかったのです。しかし、不正確さや不完全さの問題があるため、ボットがそのように機能するかどうかは確信が持てません。しかし、モデルの更新が進めば、状況は変わり、精度と完全性が向上するでしょう。」

「これを実現するのは本当に大変な労力がかかりました」とマーズ氏は付け加えた。「生成AIは話題になり、誰もがこれが自己啓発に革命をもたらし、裁判所へのアクセスを民主化すると言っているにもかかわらずです。実際にそれを実現するのはかなり大きな挑戦です。」

レポート 6844

アラスカ州の裁判所はAIチャットボットを構築したが、スムーズにはいかなかった。