Wikipedia、AI学習用プラットフォームでBotに対抗

Image: shutterstock

4月16日、ウィキメディア財団は、Google（グーグル）が所有するデータサイエンスコミュニティプラットフォーム｢Kaggle｣と提携し、AIモデルの学習に最適化されたWikipediaのバージョンを公開すると発表しました。

この施策は英語版とフランス語版から始まり、文献や参照、マークダウンコードを除いた簡易版のWikipediaが提供されるとのこと。

AI学習用のBotが大量流入することが問題になっていた

非営利でボランティア主導のプラットフォームであるWikipediaは、主に寄付金によって運営されており、誰でも内容を自由に編集することができるサービスです。Wikipediaとしては、その情報に誰がアクセスしようと、これといって問題ではないものの、AI学習のためボットが大量流入することは対処すべき課題でした。

AI学習のためにウェブサイトを巡回するボットが大量に同サイトにアクセスすることで、Wikipediaへの｢非人間によるトラフィック｣が急増しており、この対処が問題となっていたようです。

今月初め、財団は｢Wikipediaのサーバーが処理しているデータ転送量が、2024年1月から50%増加した｣と発表。そこで、財団はWikipediaの記事をAI学習用のフォーマットで別に公開することで、AI開発者によるWikipediaへの過剰アクセスを抑制しようと考えたのです。

Kaggleのパートナーシップリーダーのブレンダ・フリン氏はThe Vergeに対し、以下のように語りました。

機械学習コミュニティがツールやテストを求めて訪れる場所であるKaggleは、Wikimedia財団のデータのホストとなることを非常に嬉しく思っています。

Kaggleは、Wikipediaのデータを、アクセス可能で、利用しやすく、役立つもとして維持する役割を担えることを誇りに思います。

AI企業によるクリエイターへのリスペクトの欠如

さて、テック企業がコンテンツクリエイターを根本的に尊重せず、個々の創作物にあまり価値を置かないのは公然の事実となりつつあります。

業界では｢すべてのコンテンツは無料であるべきだ｣｢言語モデルの変容的な性質から見て、ウェブ上のコンテンツをAIモデルを学習させることはフェアユースに該当する｣という考え方が増えています。

しかし、コンテンツは誰かが生み出して初めて成立するものであり、それは簡単なことではありません。にもかかわらず、多くのAIスタートアップはサイトをクロールしないという従来の規範を無視することに抵抗がないのです。

人間のようなテキストを生成する言語モデルは膨大な量の素材を学習する必要があり、その｢訓練データ｣はAIブームの中で、まるで石油のような価値を持つものとなりました。主要な言語モデルが著作権のある作品を用いて学習されていることは周知の事実であり、複数のAI企業がそうした問題で訴訟に直面しています。

もちろんAI学習を嫌がる人も存在する

CheggやStack Overflowのような知識を提供するようなサイトでは、AIが自社コンテンツを学習に利用しているにもかかわらず、ユーザーは学習したAIだけで満足してしまい、元のサイトにアクセスしなくなるという問題があります。

こうした理由やその他の事情から、Wikipediaの寄稿者の中には、自分のコンテンツがAI学習に利用されることを嫌がる人もいるかもしれません。

Wikipedia上の全ての記述は、クリエイティブ・コモンズ表示-継承（CC BY-SA）ライセンスの下で提供されており、これは、誰でも自由に共有ができて、商用利用まで可能です。一方で、このような場合は、元の文章の作者へのクレジットや派生作品にも同じライセンスを適用することが求められます。

ウィキメディア財団は米Gizmodoに対し、Kaggleは｢Wikimedia Enterprise｣を通じてデータの提供料を支払っていると述べました。財団はまた、AIモデル企業のような再利用者であっても、Wikipediaの帰属表示およびライセンス条件を引き続き遵守することを期待していると述べています。

【Amazon.co.jp 限定】ギズモード・ジャパンのテック教室（特典:オリジナルステッカー）