【山田祥平のRe:config.sys】近頃都に流行るAIボイスレコーダ

アクセスランキング

Special Site

PC Watch をフォローする

最新記事

Impress Watchシリーズ 人気記事

おすすめ記事

 情報収集にはメモが欠かせない。かつてはノートにペンで殴り書きするしかなかったメモも、今はPCのワープロが使えるし、念のために録音もしておける。そこにAIが介入することで、メモの新しい当たり前が爆誕した。

 個人的に、これまではボイスレコーダを積極的に使うことはなかった。インタビューなどで同席した編集者が念のために録音することはあっても、自分が取材内容のメモのために録音することはしなかった。

 ずっとノートPCを使って取材メモをとっていたので、手書きよりずっと高速に入力できたし、あとで自分でも何を書いたか分からないような汚い殴り書きを判読するハメになることはない。時折ひどい誤変換があったりしても笑い話で済む程度だ。それに、ちょっとタイプがもたついたときに、次の質問などを考える余裕もできる。

 そんなわけでボイスレコーダはテープの時代、ICの時代、どちらも愛用することはなかった。だがAIサービスとの連携は、ボイスレコーダの付加価値を大きく変えた。いや、むしろボイスレコーダの使い勝手よりも、AIサービスの質のほうが問われると言ってもいい。

 というのも、多くの製品は、単に音声を録音するだけではなく、クラウドサービスとの連携が特徴になっているからだ。会議やセミナー、第三者との面談の際に、その音声を記録しておき、AIに後処理させて全内容を文字起こししたり、それを翻訳したり要約させたり、次のアクションを提案させたりと、いろいろな活用ができる。

 ビジネス利用はもちろん、たとえば、病院に行って医師の説明を録音するとか、旅行に行った時に観光ガイドの説明を録音しておくといった用途など、その応用範囲は広い。

 基本的にクラウドサービスの使い勝手に依存すると言ってもいいわけだが、そのAIエンジンは、ChatGPTやGeminiだったりするので、ハードウェアとしてのボイスレコーダは好みだけで選んでも大きな失敗はない。

 また、各サービスは音声ファイルをアップロードして処理させたり、PCでWebサービスを開き、PCの内蔵マイクを使って会議などを録音するようなこともできる。こちらもマイク入力はAI制御されてクリアな音声を拾えるように進化している。

 結局のところ、会議や面談の現場の音声の記録を手に入れることができれば、任意のサービスに処理させるといったことができるわけだ。多くのサービスはサブスクプランだが、月に○○分まで無料の文字起こしや要約などが含まれる。

 音声データの転送については専用ハードウェアとサービスの組み合わせの使い勝手がいいが、その気になれば、音声ファイルの手動アップロードで任意のハードウェアとサービスの組み合わせもできるし、むしろ、汎用生成AIであるChatGPTやGeminiに音声ファイルを処理させて、文字起こしや要約などを得ることもできる。

 こうした道具立てが整うまでは、Androidのレコーダアプリが生成する文字起こしで満足していた。あの時点で、ボイスレコーダはすでに音声を記録するだけの道具ではなく、文字としての記録を残す道具になっていた。そして、その先には、冗長な表現をそぎ落とした要約の世界が待っている。

 スマートフォンが当たり前の時代に、AIボイスレコーダが独立したハードウェアとしてもてはやされるのはなぜなのか。おそらくは録音中に着信してしまう可能性や汎用機で稼働するソフトウェアの特性上、フリーズなどの懸念があるからなのだろう。専用のハードウェアにも同じような心配はあるだろうけれど、トラブルの確率は低くなるように思う。

 昨今のスマホはマイクのビームフォーミングなどで環境音をシャットアウトし、クリアな音声を記録するようになっている。専用機としてのボイスレコーダも同様だ。そして専用機は周辺の音声を録音することを追求している。だからこそ分かりやすく使いやすく感じるわけだ。

 昔のレコーダなら走行するテープとリールの回転で録音が正常に行なわれているであろうことが想像できた。今の時代も、専用機としてのレコーダなら、物理的に動かなくても録音していることを光などで遠目にもはっきりと分かるようにしてほしいとは思う。

 無償のAIサービスの組み合わせでは、毎日のAI音声処理にはちょっと間に合わない。すぐにデータ分析の制限に達してしまう。実用に使うのはちょっと難しそうだ。

 また、ChromeでGeminiに音声ファイルを単純に文字起こしだけをさせると全部の音声が改行なしの1行になってしまう。生成中、目の前のPCはたいした仕事もしていないのに、マウスカーソルが動かなくなるほど重い状態になってしまう。少なくとも話題ごとにブロックに分けて、それぞれに見出しをつけるように指示しておけば、そういうこともなくなる。これはある種のノウハウだ。このあたりの使い勝手もだんだんよくなっていくのだろう。

 今後、AIサービスが順調に人々の暮らしに浸透していったとき、そのサービスの利用に伴うコストはどのようになるのだろうか。どのくらいの額が妥当だとされるようになるのだろう。

 現時点でほとんどのサービスで、無料の次の有料サブスクは、月額3,000円くらいの価格設定となっている。これを高いと感じるか安いと感じるかは人それぞれだと思うが、その利用でQOLが向上するなら悪くない価格だとも思う。でも、ほとんど使わなかった月でも同じ値段というのに抵抗を感じるユーザーもいそうだ。まるで一昔前の携帯電話プランのようだ。

 今後は、オンデバイスでの処理で済むことも多くなるだろう。最初からそれなりの知識を持ったAIをローカルに持ち、オンデバイスで各種の処理を行なうわけだ。多くの場合は、ハードウェアのコストに含まれるかたちでの提供となるだろう。

 処理がオンデバイスの限界を超えたときだけクラウドサービスを使ったり、最新の情報収集のために検索を行なう検索拡張生成(Retrieval-Augmented Generation / RAG)などが併用されたりすることで、コストを抑制することもできそうだ。問題がなければハイブリッドという手段もある。そのときに、一定額での使い放題というモデルがどのように進化するのかが気になるところだ。

 一方で、オンデバイスAIには、異なる環境との学習結果をどう連携させるかという課題が残る。連合学習(Federated Learning)などと呼ばれる技術だが、プライバシーに留意しつつ、中央サーバーが連合的に各デバイスから学習結果を収集して集約するような仕組みが合理的に使えるようになってほしいものだ。

トップページに戻る

関連記事: