日本は世界有数の「AI天国」だった？厳しいと思いきや“原則自由”でのデータ学習が許されている“納得の理由”《それでも警戒すべきリスクとは》

　ChatGPTや画像生成AIを使うとき、ふと「これ、法律的に大丈夫なのかな?」と不安になったことはないだろうか。どのような利用であればセーフで、逆に何をやったらアウトなのか……。【写真】この記事の写真を見る（2枚）　ここでは、STORIA法律事務所の弁護士柿沼太一氏が『 AIの倫理』（栗原聡・編著/角川新書）に寄せた、AIと法律に関する論考の一部を抜粋。日本における著作権法の実情を紹介する。 ◆◆◆

　画像生成、文章作成、音楽生成、そして人間のような自然な会話。生成AI（ジェネレーティブAI）の進化は凄まじく、私たちの仕事や日常生活に大きな変化をもたらしつつある。しかし、その驚くべき能力の裏側には、著作権、プライバシー、そしてこれまで想定されていなかったような法的問題が潜んでいる。　この記事では、生成AIを開発したり利用したりする際に、特に注意すべき法的な課題について、具体的な事例を交えながら、一般の読者にも分かりやすく解説していく。AIが生み出す未来は明るいものばかりではないかもしれないが、法的なリスクを正しく理解し、適切に対処することで、私たちはAI技術の恩恵をより安全に享受できるはずである。　本稿が、AIと賢く付き合っていくための一助となれば幸いである。なお、生成AIと著作権に関しては米国を中心に裁判も多数提起されており、まだまだ議論の途中である。本稿の内容は、執筆時点（25年11月）での筆者の意見をまとめたものであることに留意されたい。

　生成AIは、インターネット上などに存在する膨大なデータ（文章、画像、音声など）を「学習」することで、新たなコンテンツを「生成」する。この「学習」と「生成」のプロセスにおいて、著作権はどのように関わってくるのだろうか。（1）web上のどんなデータでAIを学習させても大丈夫? 事例:Web上の様々なデータやデータセットを大規模に集めて学習用のデータセットを作り、それを使って生成AIモデルを開発した。後になって、学習に使ったデータの一部に、海賊版サイト上の著作物が含まれていたことが分かった。このままAIモデルを公開し続けても問題ないだろうか。　結論から言うと、日本の著作権法の下では、AI開発者がたとえ海賊版と知りながら、あるいは後から知ったとしても、そのデータをAIの学習に利用する行為自体は、原則として著作権侵害にはならない。これは、日本の著作権法第30条の4という規定によるものである。この条文は、AI開発のような「情報解析」の目的であれば、著作物を原則自由に利用できると定めており、学習データが適法に入手されたものであることまでは求めていない。これは、諸外国の法律と比較しても、日本の特徴的な点である。　ただし、これにはいくつかの重要な注意点がある。

Page 2

　一つは、「学習」の目的が問題となる場合である。例えば、特定のキャラクターや特定のイラストレーターの作品をそっくり真似た画像を意図的に生成させるために、ごく少量のデータ（例えばそのキャラクターの画像だけ）を集中的に学習させることを目的として海賊版等の権利侵害複製物を掲載するウェブサイトからの学習データの収集を行うケースである。このような、元々の著作物の表現をそのまま出力させる意図（「表現出力目的」と呼ばれる）が明らかである場合は、30条の4の保護を受けられず、著作権侵害となる可能性が高い。しかし、一般的な大規模言語モデル（LLM）などの開発のように、膨大なデータを学習させる場合は、通常このような「表現出力目的」があるとは考えにくいため、問題となるケースは少ないだろう。　もう一点は、開発したAIモデルを使って、ユーザーが著作権侵害となるような使い方をした場合である。例えば、あるユーザーがAIを使って、既存のキャラクターそっくりの画像を生成し、それを無断で販売した場合、当然そのユーザーは著作権侵害の責任を負う。それに加えて、一定の条件を満たせば、AIの開発者も責任を問われる可能性が出てくるのである。具体的には、開発者が（1）海賊版と知りながらデータを収集し、（2）特定の著作物の表現を強く再現するような特殊な学習を行い、（3）その結果、著作権侵害が起こりやすいことを認識しており、（4）それを避ける対策を怠った、といった複数の要素が重なった場合である。これも、大規模モデル開発では通常考えにくいが、注意は必要である。　また、ウェブサイト側が「AIによる学習お断り」の意思表示をしている場合（例えば、robots.txtというファイルでクローラーによるアクセスを制限している場合）や、データにコピーガードのような技術的な保護手段が施されている場合、それを無視・回避してデータを収集し学習に使うことはどうだろうか。　robots.txtによるアクセス制限については、日本の著作権法30条の4にはこれを無視・回避してはいけないという明確な規定はないため、これを回避して情報解析を行うこと自体は、著作権侵害にはならないと解釈されている。一方、コピーガードのような技術的保護手段を解除してデータを利用する行為は、原則として著作権侵害となりうる。ただし、これも情報解析のための研究開発目的であれば、例外的に適法となる場合が多いと考えられる。

次ページは：「データセットの公開」も合法? 驚きのカラクリ

文春オンライン

＊＊＊＊＊＊＊

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

＊＊＊＊＊＊＊