こんにちは、ひろかずです
生成AIサービスを利用している / 生成AIサービスを使ったシステムを開発したい のだけど、これで良かったんだっけ?という声をよく聞くようになったので一筆書きます。
これは何?
- 現在利用している生成AIサービスやこれから開発しようとする生成AIサービスを使ったシステムに対して、注意ポイントを素早く検出する軽量なフレームワークです
執筆に至った背景
- 執筆時点で、生成AIサービス利用に関する注意ポイントを解説する資料は散在してますが、それぞれ視点や観点がばらついていました
- また、この分野での権威ドキュメントがなく、ユースケースにと照らし合わせて注意ポイントを検出できるようなフレームワークを見つけることができませんでした
- 本来は、必ず一次ソースや権威ドキュメントを参照するのですが、これらの現状を踏まえて、フレームワークを考えるに至りました
本ブログでカバーするもの
- 生成AIサービスに関わる入出力データの取り扱いに対する考え方
- 生成AIサービスの学習モデルの取り扱いに対する考え方
- 個人情報・要配慮個人情報に対する考え方
- 世の中のユースケースに当てはめてみた結果の共有
本ブログでカバーしないもの
- AIサービスの利用や生成したコンテンツの著作権の考え方
- 文化庁のドキュメントを参照するのがいいです
- [デジタル化・ネットワーク化の進展に対応した柔軟な権利制限規定に関する基本的な考え方(著作権法第30条の4,第47条の4及び第47条の5関係)]
- ソースコード生成に関するライセンシング
- 注意ポイントに抵触する状況を回避する具体的な方法論
- そのほかの法解釈や判断
さっそくフレームワーク
フレームワークのコンポーネント解説
- AIサービス
- 入力データを受け付け、読み取りデータを参照し、出力データを生成する機能
- 入力データや読み取りデータを基に学習し、AI学習モデルに反映する機能を有する
- 入力データ
- AIサービスを利用するものが、プロンプトやアップローダー、APIなどを通じてAIサービスに与える指示や情報を指す
- 読み取りデータ
- AIサービスが、入力データに基づいて参照するデータを指す
- AIサービスが、学習する際に参照するデータを指す
- 出力データ
- 入力データと読み取りデータを基に、AI学習モデルを用いて生成されたコンテンツ(文章・画像・音声・その他)
- AI学習モデル
- 入力データや読み取りデータを基に学習した結果をモデル化したもの
- AIサービスによって再利用される
フレームワークのコンポーネントに対する注意ポイントの設定
- フレームワークのコンポーネントに対して、注意ポイントを設定します
- ここに記載するのは、ひろかずが考えた注意ポイントですので、組織の特性を鑑みて、注意ポイントの追加やカスタムをするといいと思います
出力データは重大な判断の材料になるか
- 原則として、AIサービスが生成したコンテンツは、生命や財産に係わる重大な判断の材料に使ってはならない。
- 生命とは、自己・他者の心身の健康に関与するものである
- 財産とは、自己・他者の金銭の使用(入手・支払・貸付・借入・投資など)に直接・間接的な判断に関与するものである
- 対応コンポーネント
- 出力データ
情報の公開範囲は変化するか
- 情報の公開範囲とは、あらかじめ設定している、コンテンツにアクセスして良いグループやチーム・組織などのことを指します
- 情報の公開範囲の変化とは、クラウドストレージなどの公開範囲があらかじめ設定されている領域からファイルをダウンロードし、チャットなどの別の公開範囲が設定されている領域へファイルをアップロードするケースをイメージしてもらうといいでしょう
- 対応コンポーネント
- 入力データ
- 読み取りデータ
- 出力データ
- 学習データ
「入力データと読み取りデータ」に対して、「出力データ」の公開範囲が一致致しているか
- 「入力データと読み取りデータ」に対して、「出力データ」の公開範囲が一致しない場合は、そのまま利用することはできない
- 出力データに対する無害化が必要となる
「入力データと読み取りデータ」に対して、「AI学習モデル」の公開範囲が一致しているか
- AIサービスは、入力データや読み取りデータに基づいて学習をし、AI学習モデルを生成する場合がある
- AIサービスの設定や特性上、生成したAI学習モデルを誰が使うのかにフォーカスして考える
- 「入力データと読み取りデータ」の公開範囲に対して、生成されたAI学習モデルが一致しない場合において、設定などによってこれを制御できない限り、当該のAIサービスの利用せずに別のAIサービスの利用を検討する
著作権利への影響が軽微であるか
- AIサービスが生成するものが、文章であるか画像であるかで判断は大きく分かれる
- 対応コンポーネント
- 入力データ
- 読み取りデータ
- 出力データ
画像の場合
- 入力データや読み取りデータが著作権処理されているか
- 著作権処理が曖昧な場合、AIサービスが生成したコンテンツはそのまま利用しない
- 利用する場合は、AIによる出力であることを明示し、あくまで参考やイメージであることを提示するなどの十分な配慮を要するものと考えます
- [参考 : 人間の創造性の拡大のために〜Adobe Stock、画像生成AIで作成したコンテンツについて新たなガイドラインを制定]
文章の場合
- 出力データが、人の感情に訴えかけるものであるか、またはその用途で用いる可能性があるか
- 出力データを書籍や出版物には利用するか
- 少なくとも出典を提示できる状態にならない場合は、登用リスクが残留する
あらかじめ定められたデータの取り扱い方に沿っているか
- 組織によっては、輸出規制や経済安全保障などがあるでしょうが、ここでは個人情報を取り上げます
「入力データと読み取りデータ」に個人情報や個人データ、要配慮個人情報、特定個人情報が含まれているか、適切な処理がされているか
- 個人情報や要配慮個人情報がどこにあるか・どれであるかは、組織が管理していると思いますが、入力データや読み取りデータに含まれないかの確認は改めてした方がいいでしょう
- 個人情報を収集する際に取り交わした利用目的の範囲内で利用する必要があります
- 個人情報の目的外利用とならないか、利用目的とユースケースを付き合わせての確認が必要です
- 入力データや読み取りデータのサニタイズ(無害化)は、匿名加工情報や仮名加工情報にするための手続きがあるので、独自の手法では行わないようにしましょう
- 仮名加工情報を基に作成した出力データの利用者が第三者である場合、出力データと当該の第三者が有する情報を組み合わせて個人情報となる場合は、本人の同意が必要です
- 個人情報や個人データをAIサービスで利用する場合は、取得の際の同意にてAIサービスの利用や第三者提供に関する記載があるかがポイントとなる
- 「入力データと読み取りデータ」が、学習モデルへの利用がなされる場合は、含まれる個人情報・個人データの「第三者提供」に該当する恐れがあるため、注意が必要
- 要配慮個人情報は、1件の漏洩でも報告の対象となるので、AIサービスでは利用しない
成功事例に対するフレームワークを用いた評価
- 公開事例に対して、フレームワークを適用し、注意ポイントがクリアされているかを見てみましょう
農林水産省
- 農林水産省が公開しているマニュアルの検索性や使い勝手の悪さを解決するために、Open AIを用いたプロンプト対話式の早引きソリューション
- [農水省が4月中にも中央省庁初のChatGPT利用、先陣切って実際の業務で使うワケ]
おわりに
- 紹介したのはフレームワークなので、「こうすればいい」というHow toではありません
- まだまだ揉まれるものだと思うので、使ってみた感想やフィードバックは歓迎です
今日はここまでです。
お疲れ様でした。