AI 時代の安全対策!Moonbounce の革新技術とは

みなさん、こんにちは。今回は、コンテンツモデレーションの課題と、それを解決しようとする新しい技術についてお話しします。

Facebookでの苦い経験から生まれた新しい挑戦

2019年に Apple を辞めて Facebook のビジネスインテグリティ部門を率いた Brett Levenson さんは、当時 Facebook が Cambridge Analytica 問題の真っ只中にあったことを振り返っています。彼は最初、技術を改善すればコンテンツモデレーションの問題は解決できると考えていましたが、実際にはもっと根深い問題があることに気づきました。

具体的には、モデレーターは40ページにも及ぶポリシー文書を機械翻訳された状態で覚え、1つの問題コンテンツに対して約30秒で判断しなければならず、その判断の正確さは50%ちょっとだったそうです。つまり、ほぼコイントスのような状態で、しかも問題が起きてから対応する遅延も大きかったのです。

AI時代のコンテンツモデレーションの難しさ

さらに、AIチャットボットの登場で問題は複雑化しています。例えば、チャットボットが未成年者に自傷行為を促すようなアドバイスをしたり、AI生成の画像が安全フィルターをすり抜けてしまう事件が相次いでいます。こうした背景から、Levenson さんは「ポリシーをコード化する」という発想に至りました。これは、静的なポリシー文書を実行可能なロジックに変換し、リアルタイムで適用・更新できる仕組みです。

Moonbounce の取り組みと今後の展望

このアイデアをもとに設立された Moonbounce は、ユーザーや AI が生成するコンテンツに対して追加の安全レイヤーを提供しています。独自の大規模言語モデルを使い、顧客のポリシーを読み込み、300ミリ秒以内にコンテンツを評価し、必要に応じて配信を遅らせたり、即時にブロックしたりすることが可能です。

現在、Moonbounce はデーティングアプリや AIキャラクター、画像生成サービスなど、3つの主要な分野で利用されており、1億人以上のアクティブユーザーをサポートしています。Tinder の信頼安全担当者も、この種の技術で検出精度が10倍に向上したと語っています。

AI時代の安全性を製品価値に

Levenson さんは「安全性は製品のメリットになり得る」と話しています。これまでは後回しにされがちだった安全対策が、製品の差別化要素として組み込まれつつあるということです。また、Moonbounce はユーザーとチャットボットの間に立ち、会話の文脈に左右されずにルールをリアルタイムで適用する仕組みを持っています。

さらに、2024年に起きた14歳の少年の自殺事件を受けて、Moonbounce は「反復的な誘導(iterative steering)」という機能を開発中です。これは有害な話題が出た際に単に拒否するのではなく、会話の流れを変えてチャットボットがより支援的な対応をするよう促すものです。

今後の展望と課題

Levenson さんは、かつての勤務先である Meta に買収される可能性についても言及しましたが、技術を独占してしまうことには懸念を示しています。彼の考えでは、この技術は多くの企業やユーザーに広く役立つべきだということのようです。

AIがますます社会に浸透する中で、コンテンツの安全性をどう確保していくかは大きな課題です。Moonbounce のような新しいアプローチがどのように進化し、実際の現場でどれだけ効果を発揮するのか、引き続きウォッチしていきたいですね!