大規模言語モデル(LLM)は、OpenAIが生成的事前学習変換(GPT)エンジンを発表し、2022年11月にChatGPTをデビューさせた後、世界を席巻した。ChatGPTはわずか2ヶ月で週間アクティブユーザー数1億人という重要なマイルストーンを達成し、業界を超えたビジネスリーダーやテクノロジーリーダーの注目を集めました。
今日、LLMを業務に統合することを熱望するユーザーが増加している一方で、このテクノロジーは、現在の姿では、最適なパフォーマンスを発揮するためには、まだかなりの研究開発が必要です。29カ国の150人の上級管理職を対象とした最近の調査では、58%の企業がLLMを試験的に導入していることが明らかになった。
今日のLLMは、短期間のうちに、顧客サービスの自動化からテストの自動化や検証まで、幅広い分野で応用されるようになった。しかし、自然言語処理(NLP)を含む基礎となるシステムは、依然として様々な限界に直面している。ここでは、その限界を探り、将来的に何が待ち受けているのかを明らかにする。
LLMは紛れもなく世界中の企業やユーザーの想像力をかきたてているが、いくつかの重大な限界がないわけではない。以下がその例である:
データに埋め込まれた偏見と偏見
LLMは、人間にとって自然に感じられる言語を作成するように設計されていますが、必ずしも正確な情報を提供するわけではありません。このため、モデルが歪んだデータで学習された場合、偏見や誤った結果が生じる可能性があります。その結果、「幻覚」を見る傾向が生じ、説得力がありながら事実とは異なる出力が生成されることになります。
したがって組織は、モデルが偏りのないデータでトレーニングされ、実際の企業データに対してLLM予測を検証する必要がある。
この例は、グーグルのAIチャットボットBardで観察され、ジェイムズ・ウェッブ宇宙望遠鏡による存在しない発見を誤って回答に含めた。このミスはグーグルの株価に大きな影響を与え、ライブデモで強調された後、1000億ドルの損失を引き起こした。別の例では、ChatGPTが訴訟で使用され、存在しない判例が引用され、適切な検証なしにLLMが生成した情報に依存することのリスクが浮き彫りになりました。
データ・セキュリティとプライバシー
LLMは膨大な量のデータから学習しますが、その中には個人情報、企業秘密、知的財産権などの個人情報や機密情報が含まれることがあります。その結果、これらのモデルは、テキストの生成や処理中に、そのような情報を不注意に暴露したり、漏えいさせたりする可能性がある。例えば、韓国の有名な電子機器メーカーでは、あるエンジニアがチップコードのエラーを修正するためにChatGPTを利用した際に、データ漏えいが発生しました。別のケースでは、別の従業員が欠陥検出コードをChatGPTにコピーしました。
これらの事例は、機密情報が公開LLMと共有された場合、それが学習データに組み込まれ、特定のプロンプトで検索可能になる可能性があるというリスクを強調している。セキュリティの専門家はこの危険性を警告し、LLMと共有する情報を慎重に検討するようアドバイスしている。データの保護という点では、Llammaをオンプレミスでデプロイする方が、OpenAIのクラウドサービス上でGPTを使用するよりも安全なオプションです。
プロンプトインジェクション
プロンプトインジェクションは、ハッカーが戦略的に入力を操作してLLMの応答や行動に影響を与えるサイバーセキュリティの懸念事項です。例えば、カスタマーサービス・チャットボットのクエリを微妙に変更するサイバー犯罪者は、通常のように見える質問を入力することができますが、チャットボットを騙してユーザーの機密データを明らかにするコマンドを埋め込むことができます。これは直接プロンプトインジェクションとして知られており、攻撃者はモデルのプロンプトを直接変更して、そうでなければ許可されていないデータにアクセスします。
一方、間接的なプロンプト・インジェクションでは、ハッカーは悪意のあるコードを文書に挿入することができる。LLMがこの文書を処理する際、おそらくはその内容を要約するために、隠されたコードがLLMを惑わし、誤った情報や有害な情報を生成させる可能性がある。
プロンプト・インジェクションのリスクは、不正なデータ漏えいから自動化された判断の操作まで多岐にわたるため、このような脆弱性からLLMを保護することの重要性が強調される。
開発とトレーニングのコスト
公開LLMにはいくつかのデメリットがある一方で、セルフホスト型LLMを確立するには、主に金銭的な問題があります。GPT-3のようなLLMの開発とトレーニングには、OpenAIが460万ドル以上を費やしたように、膨大なデータとコンピューティング・パワーが必要であり、どのようなビジネスにとっても高額な投資となる。
さらに、セルフホスト型LLMの導入と維持には、専用のハードウェアとソフトウェアへの初期投資だけでなく、基本的なセットアップの場合は5年間で約6万ドル、スケーラブルなオプションの場合は最大9万5000ドルもの費用がかかる。データサイエンティストチームやサポートスタッフの雇用、LLMの適切な運用環境の構築、継続的なメンテナンス費用など、高額な費用がかかることも多い。
環境への影響
言語処理モデルに必要なサーバーを設置するのに不可欠なデータセンターは、膨大なエネルギーを消費し、二酸化炭素排出量に大きく寄与する。ChatGPTのようなモデルは、年間8.4トンの二酸化炭素を排出すると推定され、環境に大きな影響を与えています。
カリフォルニア大学による別の研究では、AIモデルのウォーターフットプリントが強調されている。マイクロソフトのGPT-3モデルをトレーニングした結果、データセンターで約70万リットルの淡水が消費されたと報告している。この量は、自動車数百台を生産するのに必要な水量に匹敵する。学習プロセスではかなりの熱が発生するため、冷却のために大量の淡水が必要となる。
言語モデルの規模が大きくなるにつれ、環境への影響を軽減する方法を見つけることが、持続可能な発展のために重要になってくる。しかし、私たちが直面している環境と持続可能性の課題は、大規模言語モデル(LLM)に限ったことではなく、クラウド・コンピューティング・テクノロジーのランドスケープ全体に広がっていることに注意することが重要です。
LLMの急成長と採用の加速は、業界やセグメント全体に変革をもたらすものです。重要なプロジェクトではLLMを慎重に活用し、専門家の精査を受けることをお勧めする。しかし、ミッション・クリティカルな仕事ほど集中力を必要としないクリエイティブな仕事には、LLMが理想的であることに変わりはない。
私たちが前進するためには、技術革新と倫理的配慮のバランスを取り、LLMを確実に開発し、企業に貢献しながら社会に利益をもたらす方法で利用することが不可欠です。したがって、これらの限界を克服するための私たちの旅は、開発者、ユーザー、政策立案者を巻き込んだ集団的な努力でなければならない。LLMが誕生した理由、その現状を検証し、将来の発展と統合に向けた道筋を描く必要がある。
これらの課題に真正面から取り組むことで、LLMの可能性を最大限に活用し、より多くの情報に基づいた、公平で持続可能な解決策を生み出すことができる。