たった1枚の写真で自宅がバレる? ChatGPTの画像分析がもはや探偵レベル

ChatGPTは本当に、たった1枚の画像からあなたを追跡できるのでしょうか? 皆さんが自ら試す必要がないように、私がこの実験台になってみることにしました。

もちろん、ドキシング(ネット上での身元特定行為)は間違っています。それは違法であり、誰も手を染めるべきではありません。

今回の実験は、あくまでAIツールがどれほどの能力を秘めているかを示すもの。

私たちが知らず知らずのうちにどれだけの情報を世界に晒してしまっているかに警鐘を鳴らすためだけに行ったものです。

ChatGPTはアメリカの街を知り尽くしている

友人たちが窓や職場から見える景色の写真を送ってくる回数は、もう数え切れないほどです。

もちろん、プライバシーの観点から、そうした写真をここで使うわけにはいきません。今回の実験では、一見すると何の問題もなさそうな写真に絞ることにしました。

最初に試したのは、知り合いのトラック運転手からもらった1枚の写真。

彼は常に移動中で、毎週のように新しい街に立ち寄ります。ランダムな写真から彼の居場所を特定したところで、それは「その日たまたまそこにいた」というだけで、厳密な意味でのドキシングには当たらないかもしれません。それでも、リスクは存在します。

無意識に共有したどんな些細な情報も、潜在的な危険となり得るのです。だからこそ、写真を公に共有する前には、常にメタデータ(位置情報など)を削除するべきなのです。

この写真には、いくつかの目印となる建物や看板が写っていました。正直なところ、時間をかければ自分でも場所を特定できたかもしれません。

しかし、まずは小手調べとして、ChatGPTに「初級レベル」の挑戦をさせてみることにしました。モデルを「GPT-4o-mini-high」に設定し、こんなプロンプトを入力しました。

この写真を分析して。読み取れる限りの詳細と手がかりをすべて抽出してほしい。店や建物の名前、道路標識、建築様式、車のナンバープレート、とにかく全部。それらを総合して、正確な場所を教えて。

ChatGPTはすぐに作業を開始。AIモデルが示す思考プロセスにはいつも感心させられますが、今回はほとんど時間も必要ありませんでした。わずか18秒後、答えを弾き出したのです。

その答えは、完璧でした。写真はワイオミング州シェリダンで撮影されたもの。念のためGoogleストリートビューで確認すると、確かにメインストリートに立てば、ほぼ同じ光景を見ることができました。

一筋縄ではいかない場所もお見通し

同じ友人から送られてきた写真の中にもう1枚、興味深いものがありました。

今度の写真には、「Center Street Shops」という大きな看板がはっきりと写っています。ただ、「中央通り」や「本町通り」のように、アメリカの町には「Center Street」や「Main Street」といった名前が溢れているため、これだけでは決定的な手がかりにはなりません。

誰にも分かりませんが、ChatGPTならどうでしょう。今度は少し時間をかけ、48秒後に答えを出しました。

そして、それもまた的中。場所を正確に特定しただけでなく、写真に写っている車がすべてSUVかトラックであることなど、私が見逃していた点まで指摘してきたのです。

その思考プロセスを見て、私はAIが自分と同じ間違いを最初に犯していたことに気づきました。しかし、写真からさらに多くの詳細を抽出し、それらをパズルのように組み合わせることで、自ら間違いを正したのです。

ここが不気味な点でした。

このモデルは、ただ見たものをそのまま情報として処理したわけではありません。混乱の中から論理的に推論し、最終的に正しい答えにたどり着いたのです。

ヨーロッパの街並みも、お手の物

さて、ChatGPTがアメリカに詳しいことはよく分かりました。では、その主な学習データが英語であることを考えると、国際的な舞台ではどうでしょうか?ドイツの友人から送られてきた写真が、格好のテスト材料になりそうです。

分析の過程を見守っていると、まるでハッカー映画に出てくる「ズーム、拡大、パンして…そこで止めろ!」という、あの名シーンをリアルタイムで見ているかのようでした。

今回、GPTはじっくりと時間をかけました。4分39秒もの間、深く考え込んでいたのです。その間、これまで見たことのないコードや画像分析ルーチンが実行されていくのを、私はただ見つめていました。

そしてついに分析を終えると、AIは「この写真はドイツのハノーファー、マッシュパークの近くで撮影されたものだ」と告げました。言うまでもなく、完璧な正解です。

英語圏から遠く離れた中東でも通用するのか?

次に、英語のデータがそれほど豊富ではない地域でChatGPTがどう機能するかを試したくなりました。

今回の写真は個人的なものです。私が実際にその場にいました。友人が、食事をしていたレストランのバルコニーから撮影した1枚です。

その景色には現地のランドマークがたくさん写っていますが、実際にその道を歩いたことがなければ、それらが何なのか分からないでしょう。

ChatGPTはほとんどためらいませんでした。わずか33秒で、答えを特定。「イスファハンのヴァンク大聖堂」と。

私はフレームの左側に国旗が集まっていることにさえ気づいていませんでした。その効率の良さには、ただただ驚かされるばかりです。

Googleマップにすら載っていない無名の町さえも…

さらに限界を試すため、私は無名の小さな町に住む友人から送られてきた写真を選びました。

その町にあるほとんどの店はGoogleマップにすら載っておらず、国民の大半はその名前を聞いたこともないような場所です。

もし私が何の情報もなくこの写真を見せられたら、どこで撮られたものか皆目見当もつかないでしょう。

1分58秒後、ChatGPTは答えを提示しました。

そして、またしても、正解。本当に度肝を抜かれたのは、写真が2度も圧縮され、すべてのメタデータが削除されていたにもかかわらず、ペルシャ語を非常にうまく読み取ったことでした。

ChatGPTの画像分析能力は、実に興味深く、そして同時に恐ろしいものです。

悪意を持った誰かが、インスタグラムのストーリーをChatGPTに読み込ませ、そのディープリサーチ機能であなたの名前と情報を結びつけたら、一体どんなことまで暴かれてしまうのでしょうか。

私たち誰もが、そんな恐怖を身をもって体験することがないよう、願うばかりです。

Original Article: I Tried Using AI to Dox Myself and My Friends—It Works Frighteningly Well by MakeUseOf

関連記事: