MacBookで無料AI。「ローカルLLM」がいい感じに進化してます
ローカルLLMとは、ざっくり言ってしまうと「無料で公開されている大規模言語モデル」のことで、自分のPCにダウンロード・専用ソフトで読み込んで使います。ChatGPTのように会話できますし、API利用(対応アプリや自分で作ったプログラムからAIを呼び出して使う)も可能です。
ChatGPTといった主流のAIはサブスクリプションサービス、API利用は従量課金制となっているので、対極に位置するAIだと言えます。
そんなローカルLLMですが、これまでは一部の通な人が使うものって感じでした。一時期話題になったDeepSeekのように非常に性能がいいものも登場していますが、動かすのにとても性能のいいマシンが必要です。ChatGPTに数年課金してもまだそっちのほうが安いという。普通のPCで動くものも以前からありましたが、そちらはあまり賢くありませんでした。
動かしたいけど実は高くて動かせない。動かせるのは動かす意味があんまりない。
しかし最近のローカルLLMはこの二律背反を解消しつつあります。動かす価値があるAIが登場し、それらの中にはごくスタンダードな性能のPCで動作するものも。確実に「無料」が意味を持ち始めています。
この記事では、ローカルLLMがどのように進化していて、どんな「使いどころ」が生まれてきているのかをご紹介します。
「賢さはそこそこだけど、PCもそこそこでいいローカルLLM」が登場
Image: Google先月、GoogleがローカルLLM「Gemma 3n E4B」を一般公開しました。このAIは、2025年基準で標準的なチップを搭載していて、メモリが16GBほどあれば動作します。ここ1年くらいに発売になったMacBook AirやCopilot+ PC(最新のWindowsノートPCの一部)で使えるのです。
多言語での推論能力・指示追従性ともに良好です。プロンプトは日本語でOK、回答も平易で読みやすい日本語です。有名AI評価サイト「LM Arena」でも高い評価を受けています。
こういった「コンパクトだけど悪くない性能のローカルLLM」が着実に増えています。日本語が堪能なモデルはまだ少ない印象ですが、全体として見ると「賢いモデルは高価なマシンが必要で、動作させやすいモデルは賢くない」は解消されつつあり、Gemma 3n E4Bはその代表格と言えます。
ローカルLLMアプリ「LM Studio」ですぐ試せる
LM Studio ChatモードローカルLLMを動かすには専用のソフトが必要なものの、既に高性能で扱いやすいものが無料で利用可能です。その中でも「LM Studio」はかなり扱いやすく、おすすめできます。MacでもWindowsでも使えます。
LM StudioはChatGPTに似たインターフェースを備えており、ローカルLLMを一般的なAIチャットボットと同じ感覚で扱えます。回答の品質は起動できるLLMの性能によって決まり、ハイスペックを要求するモデルほど、基本的には高性能です。
LM Studio ChatモードでGemma 3n E4Bをロードし、日本史に関する質問をしてみたところ今回は先に紹介したGemma 3n E4Bを例にどんな回答をしてくるのかをお見せしますが、ぱっと見悪くない感じがしませんか? 一部変なところがありますが(信長の美濃攻略は1567年だとか、後半に謎のアラビア文字があるとか)、回答は全体的にかなりしっかりしています。
正確な評価は難しいですが、Gemma 3n E4Bは少なくともトップモデルではありません。ローカルLLM全体のレベルが上がっていて、そういった立ち位置のモデルでも実用できる水準に達しているのは伝わるのではないかと。
動作環境が異なりますが、Gemma 3n E4Bはこちらの記事でもテストしているので、気になる方は併せてご覧ください。
ローカルLLMの特性と、メリットが感じられる使い方
ローカルLLMでいちばん難しいのは、「どう使えば効果的か?」です。できることはChatGPTやGeminiと同じで、チャットとAPI利用。何も考えずに使うと「性能が劣る安いモデルを使ってるだけ」になりやすいです。自分も当初は「悪くないけどChatGPTでよくない?」という感じでした。
メリットを感じられるようになったのは、ChatGPTなどの「ネットのAI」との性質の違いに気づいてからです。ローカルLLMをいい感じで使うに当たって重要なのは大きく以下2つになるでしょう。
1. 料金がかからない
やはりこれが最大の特徴、本当に無料です。その代わりに劣る性能をどうカバーするかがネックになります。
1-1. 「ローカルLLMで十分じゃない?」がけっこうある
LM Studio Serverモード(ローカルLLMをAPIとして利用できるようになる)で、自作のコードから翻訳を実行しているところ自分がローカルLLMに行わせている主なタスクは翻訳です。
これはいろいろなモデルを試しているうちに気づいたのですが、翻訳って意外とハイエンドなモデルでなくてもこなせます。高性能なモデルのほうが上手ではありますが、そこまでの性能がなくても「だいぶ読める」のがポイント。機械翻訳よりは格段に上です。
Gemma 3n E4Bでも論文などのハイコンテクスト・論理的に難しい文章でなければ── ネットのニュース記事のようなものであれば、普通に読める翻訳がでています。
Cursorの拡張機能「Continue」を用いてローカルLLMでコード生成をさせたところ。このコードは少し手直しが必要でしたが、きちんと動作しましたコード生成もGemma 3n E4Bでいけるタスクのひとつです。コンセプトがシンプルなら問題なく動作するものが書けます。エンジニアの方だと物足りないのかもしれませんが、非エンジニアの自分がワークフローを改善するちょっとしたプログラムを作るくらいであれば、十分以上に機能しています。
AIを使ってプログラム開発を行えるツール「Cursor」と連携させるとかなり便利でした。拡張機能を用いることでローカルLLMでコード生成できるのですが、これがけっこう効く。
Cursorはサブスクして使いますが、課金していても短時間に大量の処理をしようとすると処理が極端に遅くなったりします。そうなったらローカルLLMに切り替える、で問題なく作業を継続できるようになりました。
1-2. 「日常的に大量にやるタスク」と相性がいい
LM Studio Serverモード自分は毎日、おもしろい話はないかな?と英語のニュースやブログ記事を漁っており、1日数十本は読みます。とにかく当たる量が多いので、より読むのが速い日本語で読みたいところですが…ChatGPTで1個1個訳す気にはならないし、APIでやると料金が発生します。
そこにGemma 3n E4Bがハマりました。「見とくか」という記事は専用のスクリプトに投げて、何の気兼ねもなくすべて翻訳できるように。こういったところを見つけて導入できると、かなりお得感があります。本当に無料でやりたいことが実現できているので。
2. ネット接続なしで使える
Cursor+ContinueでローカルLLMコード生成無料以外の強みとしては「処理が自分のPC内で完結する」が挙げられます。
2-1. ネットにアップしにくいデータの処理に使える
これは個人情報や機密データなどのローカルで処理するのが望ましいデータと相性がいいということです。
自分の場合だと、インタビュー録音の文字起こしがこれに当たります(だいたいのインタビューには公表できない内容が含まれ、編集してやっと公開できるようになります)。OpenAIは「データはしっかり管理するし、オプトアウトしたら中は見ないよ」と言ってはいますが、データを送信した時点で、漏洩の可能性がゼロではなくなってしまいます。
そのため、ChatGPTなどで記事に使うために綺麗に整文したりするのは望ましくないのですが…AIを使って手っ取り早く処理しちゃいたいデータではあるという。
ローカルLLMならこういったデータの編集作業などにも使えます。データが自分のPCから外に出ないので。
2-2. 処理が安定している
実際にローカルLLMを使い始めると、これが思った以上に快適でした。その理由は以下の3つにまとめられます。
2-2-1. 回線やサーバーの影響を受けない
回線やサーバーが重くてChatGPTの回答が遅かったりすると、特に先に挙げた「そんなに難しくない翻訳」みたいな作業ではちょっとイライラしてしまいます。AIでの処理はそこそこに、さっさと「アウトプットの利用」に入りたいからです。
ローカルLLMだとこういうのがありません。処理には相応に時間がかかりますが、分量比例で見積もりやすく、「処理中は別のことやっとくか」もやりやすいです。
2-2-2. リクエスト制限がない
API利用ではユーザーごとに時間当たりに使える量が決められており、自分の場合だと長文を翻訳にかけたりするとこの制限にかかりがちです。途中で処理が止まってしまいます。
ローカルLLMにはそのような制限は存在しないので、必ず最後まで処理できます。
理由が回線・サーバーであろうが、リクエスト制限であろうが、想定と動作や処理時間が変わるのは不愉快なことです。それがないのは、ローカルLLMの大きな魅力です。
2-2-3. モデルが不変
ChatGPTでありませんか? 昨日と回答の文体がまるでちがう、みたいなこと。キャラが変わっちゃうというか。
個人的に、これが発生するとけっこうやりにくいのですが、ローカルLLMではこれがあまり発生しない印象です。ずっとダウンロードしたときのままの状態だからでしょうか?(ChatGPTはときおり細かなアップデートが入っています)
空気を読む能力は高性能なモデルのほうがかなり上なので、会話相手としてはそちらのほうが向いているとは思いますが、System Promptを使って自分好みにチューニングするなら、ローカルLLMのほうが「キャラを保存」しやすい気がします。
ローカルLLMとChatGPTは「使い分け」の関係に
ChatGPTなどの高性能AIは雑に仕事を任せられるのが魅力ですが、Gemma 3n E4B(などの動かしやすいローカルLLM)はなんというか「そこそこの推論能力」だけをポンと手渡されるような感覚です。ユーザー側で「自分の仕事や日常のどこでそれを活かせばいいか?」を考え、工夫する必要がどうしてもあります。
ただ、今のところローカルLLMは、ChatGPTやGeminiのサブとして使うといい感じかなと思います。メインのAIが不調なときに使ってみる、料金がかさみそうなときにトライしてみる。そんな感じがいいでしょう。
実際に使えるかはユーザーのニーズに大きく依存するはずですが、応用範囲はかなり広い気がします。自分は文章を作るというかなり文系な仕事をしていますが、思った以上にローカルLLMとは相性がよく、1日のAI処理の8割くらいがローカルLLMとなりました。
ただ、そこでやっているのは翻訳のような“作業然とした作業”です。「企画をどうするか」「どういう構成の文章を書くべきか」といった方針の検討・決定は高性能なChatGPTでないと厳しく、今のところChatGPTをカットできる、という状況でもありません。使い分けになっている、ということですね。
無料なので気軽に試せる
ローカルLLMはまだ発展途上ではありますが、既に相応の実用性があります。もし気になったのであれば、「LM Studio」で試してみるのがいいでしょう。GUIつきアプリなので、直感的に入っていきやすいはずです。本稿では具体的な導入方法や使い方は扱いませんが、検索すると紹介しているページが多数あります。
本稿で実際に使用したローカルLLM「Gemma 3n E4B」のモデルデータ膨大なローカルLLMからどれを使うかを決めダウンロードする必要もありますが、それについては「Gemma 3n E4B Instruct text」(4bit量子化版・本稿でも利用)をおすすめしておきます。モデルサイズは4.24GBほど、利用中はメモリ16GB中14GBほどを専有しますが、Chromeと同時に起動できており、YouTubeを見てるうちに翻訳完了!みたいな感じで使えています。
万人向けとはまだ言えませんが、もう活用できる方もいらっしゃるのではないかと思います。ハマるところがあるなら、なかなか便利ですよ。