SAM 3: 言葉で指定できる画像・動画セグメンテーション - Metaが実現した次世代の物体認識 - Blog

「この画像の中から、赤い野球帽をかぶっている人を全員見つけて」——こんなお願いを、AIが理解して自動で処理してくれたら便利ですよね？

2025年11月19日、Metaが発表した**SAM 3（Segment Anything Model 3）**は、まさにそれを実現した最新のAIモデルです。テキストで「赤い野球帽」と入力するだけで、画像や動画の中から該当する物体を自動的に見つけ出し、セグメント（領域分割）してくれます。

論文: SAM 3: Segment Anything with Concepts 公式サイト: Meta AI - SAM 3 GitHub: facebookresearch/sam3

著者: Sera

大学院でAI作曲に関して研究中！
来春からデータサイエンティストとして働く予定の技術オタク。

登場人物: あかり

流行りのAIやWeb技術に興味津々！
『知りたい』気持ちで質問を止められない、好奇心旺盛な学生。

初心者

セグメンテーションって何？画像認識とは違うの？

専門家

いい質問だね！画像認識は「この写真に犬がいる」って判断するだけなんだ。でもセグメンテーションは、「この犬の形はこの部分」って、ピクセル単位で物体の領域を正確に切り出す技術なんだよ。

初心者

ピクセル単位！？めちゃくちゃ細かいんだね

専門家

そうそう。例えば、写真から人物だけを切り抜いて背景を変えたいとき、この技術が使われてるんだ。Instagramのストーリーとかでもね。

SAM 3の何が革新的なのか

初心者

SAM 3って、SAMの3代目ってこと？何が新しくなったの？

専門家

SAM 3の最大の革新はPromptable Concept Segmentation（PCS）って呼ばれる新しい機能なんだ。これまでのSAMは、マウスでクリックした場所とか、四角い枠を指定する必要があったけど、SAM 3はテキストで概念を指定できるようになったんだよ。

初心者

概念を指定？どういうこと？

専門家

例えば、「黄色いスクールバス」って短い文章を入力するだけで、画像や動画の中から該当する物体を全部見つけてくれるんだ。しかも、画像の例を見せて「これと同じものを探して」っていう指定もできる。

初心者

テキストで指定できるの！？それってめちゃくちゃ便利じゃん！

専門家

そうなんだ。これが概念ベースのセグメンテーションってやつで、従来の「この点をクリック」とか「この四角い範囲」みたいな物理的な指定じゃなくて、抽象的な概念で指定できるのが画期的なんだよ。

驚異的な性能：人間の75-80%に到達

初心者

で、どれくらいすごいの？性能的には

専門家

SAM 3は、**SA-Co（Segment Anything with Concepts）っていう新しいベンチマークで評価されてるんだけど、なんと人間の性能の75-80%**を達成したんだ。

初心者

75-80%！？結構すごくない！？

専門家

すごいよ！しかもこのベンチマーク、27万個のユニークな概念を含んでるんだ。これは既存のベンチマークの50倍以上の規模なんだよ。

初心者

27万個！？多すぎて想像つかないんだけど...

専門家

例えば、「赤いリンゴ」「青いバックパック」「木製の椅子」みたいな、色や材質、形状の組み合わせを全部含めた概念の数なんだ。しかもSAM 3は、学習時に見たことがない新しい概念でも対応できるんだよ。

初心者

見たことない概念でも！？どうやって？

専門家

それがオープンボキャブラリーって呼ばれる技術の強みなんだ。SAM 3は固定された物体カテゴリじゃなくて、言語の理解を通じて、新しい概念も推論できるように設計されてるんだよ。

革新的なアーキテクチャ設計

初心者

技術的にはどんな仕組みなの？

専門家

SAM 3は848Mパラメータのモデルで、2つの主要なコンポーネントから構成されてるんだ。ディテクター（検出器）とトラッカー（追跡器）だね。

初心者

ディテクターとトラッカー？それぞれ何をするの？

専門家

ディテクターは、画像の中から指定された概念に一致する物体を見つける役割。トラッカーは、動画で物体を追跡し続ける役割なんだ。面白いのは、この2つが1つの共通のビジョンエンコーダーを共有してることなんだよ。

初心者

あー、無駄なく効率的に動くようになってるんだ

Presence Headの革新

専門家

もう一つ重要な技術革新がPresence Head（プレゼンスヘッド）なんだ。これは、物体の「認識」と「位置特定」を分離する仕組みなんだよ。

初心者

認識と位置特定を分ける？どうゆうメリットがあるの？

専門家

例えば、「赤い車」と「青い車」を探すとき、従来のモデルは色の違いを正確に判別するのが苦手だったんだ。でもPresence Headを使うと、まず「その色の車が画像に存在するか」を判断してから、位置を特定するから、似た概念の識別精度が大幅に向上するんだよ。

初心者

なるほど！2段階で処理するから正確なんだね

史上最大規模の学習データセット

初心者

こんなすごい性能、どうやって実現したの？

専門家

SAM 3の強さの秘密は、スケーラブルなデータエンジンにあるんだ。このエンジンを使って、400万個のユニークな概念ラベルを含む、史上最大規模の高品質セグメンテーションデータセットを作成したんだよ。

初心者

400万個！？さっきの27万の何倍もあるじゃん！

専門家

そうなんだ。学習データには400万個の概念が含まれてて、テストでは27万個の概念で評価してるんだ。しかも、このデータエンジンはハードネガティブも含めてるのが重要なんだよ。

初心者

ハードネガティブって何？

専門家

例えば、「赤いリンゴ」を学習させるとき、「緑のリンゴ」とか「赤いトマト」みたいな、似てるけど違うものも一緒に学習させるんだ。これによって、微妙な違いを見分ける能力が向上するんだよ。

初心者

引っかけ問題みたいなものも勉強するんだね！

画像と動画の両方に対応

初心者

動画にも対応してるって言ってたけど、どう違うの？

専門家

静止画のセグメンテーションと動画のセグメンテーションは、結構違う課題なんだ。動画では、フレーム間での時間的一貫性を保つ必要があるんだよ。

初心者

時間的一貫性？

専門家

例えば、「赤い野球帽をかぶった人」を追跡する場合、その人が動いても、向きを変えても、同じ人として認識し続ける必要があるでしょ？SAM 3のトラッカーは、SAM 2の技術を引き継いで、この追跡機能を実現してるんだ。

初心者

あー、動いても見失わないようにしてるんだ

専門家

そう。しかも、テキストや画像の例で指定した概念を、動画全体で自動的に検出して追跡してくれるから、手作業でフレームごとに指定する必要がないんだよ。

初心者

それは便利！動画編集とかめちゃくちゃ楽になりそう

実用的な使いやすさ

初心者

実際に使うのって難しいの？

専門家

SAM 3はかなり使いやすく設計されてるよ。まず、Segment Anything PlaygroundっていうWebツールが公開されてて、プログラミングの知識がなくても試せるんだ。

初心者

え！？ブラウザで試せるの！？

専門家

そうそう。それに、開発者向けには、GitHubで完全なコードとモデルの重みが公開されてるんだ。Jupyter Notebookのサンプルもあるから、すぐに自分のプロジェクトで使い始められるよ。

技術要件

専門家

ただし、自分の環境で動かすには、ある程度のスペックが必要なんだ。

初心者

どれくらい必要？

専門家

Python 3.12以上、PyTorch 2.7以上、CUDA 12.6以上が必要で、それなりのGPUがないと厳しいね。でも、Hugging Faceでモデルのチェックポイントを取得できるから、セットアップは比較的簡単なんだ。

初心者

なるほど。結構ハイスペックが必要なんだね

性能の詳細：ベンチマーク結果

初心者

さっき人間の75-80%って言ってたけど、具体的な数字はどうなの？

専門家

SA-Co/Goldベンチマークで、インスタンスセグメンテーションでcgF1スコア54.1、ボックス検出でcgF1スコア55.7を達成してるんだ。

初心者

cgF1スコアって何？

専門家

cgF1はConcept-aware F1 Scoreの略で、複数の概念にわたる平均的な検出精度を測る指標なんだ。この数値が高いほど、様々な概念を正確に検出できるってことなんだよ。

専門家

しかも重要なのは、SAM 3は既存のシステムと比べて精度を2倍にしたってことなんだ。つまり、従来の技術が25-40%程度の精度だったのを、50%以上に引き上げたんだよ。

初心者

2倍！？それはすごい進歩だね

SAM 3Dとの同時発表

初心者

SAM 3と一緒に、SAM 3Dってのも発表されたって聞いたけど？

専門家

そう！SAM 3Dは、SAM 3と同時に発表された3D再構築のモデルなんだ。1枚の画像から、3Dオブジェクトを復元できるんだよ。

初心者

1枚の画像から3Dに！？どうやって？

専門家

SAM 3Dは、物体の形状推定と人体の形状推定の両方に対応してるんだ。これによって、1枚の写真から、物体の立体的な形を推測できるようになった。SAM 3で物体を切り抜いて、SAM 3Dで3D化する、みたいな使い方もできるかもね。

初心者

SAM 3とSAM 3Dを組み合わせたら、面白いことできそう！

実用的なアプリケーション

初心者

実際にはどんなことに使えるの？

専門家

使い道はたくさんあるよ。まず、動画編集では、特定の物体を自動で切り抜いて背景を変えたり、エフェクトをかけたりできるね。

初心者

YouTuberとかが喜びそう！

専門家

それから、コンテンツ分析にも使えるんだ。例えば、大量の画像や動画から「ブランドロゴが映ってるシーン」を自動で見つけ出したり、商品の露出を分析したりできる。

初心者

マーケティングとかに便利そうだね

専門家

あとは、医療画像分析や自動運転、ロボティクスなんかでも活用できるね。例えば、「赤い血球」を自動で検出したり、道路上の「歩行者」を追跡したりできるんだ。

初心者

いろんな分野で使えるんだね

オープンソースの力

初心者

さっきオープンソースって言ってたけど、全部公開されてるの？

専門家

そう！Metaはモデルの重み、学習コード、推論コード、そしてSA-Coベンチマークまで全部公開してるんだ。これはすごく重要なことなんだよ。

初心者

なんで重要なの？

専門家

オープンソースにすることで、世界中の研究者や開発者が自由に使えるし、改良もできるんだ。しかも、学習データやベンチマークも公開されてるから、再現可能な研究ができるようになったんだよ。

初心者

みんなで良くしていけるってことだね！

専門家

まさにそう。実際、RoboflowやHugging Faceでもデータセットが公開されてるから、誰でもアクセスできるんだ。

ファインチューニングも可能

初心者

自分のデータで学習させることもできるの？

専門家

もちろん！SAM 3はファインチューニングに対応してるんだ。つまり、自分の特定のユースケースに合わせて、モデルを追加学習させられるんだよ。

初心者

例えば？

専門家

例えば、工場の品質管理で「特定の種類の不良品」を検出したい場合、その不良品の画像でファインチューニングすれば、より高精度な検出システムが作れるんだ。

初心者

自分の用途に合わせてカスタマイズできるんだね

専門家

そう。GitHubのリポジトリには、ファインチューニング用のコードやドキュメントも含まれてるから、比較的簡単に始められるよ。

今後の展望

初心者

これからどうなっていくと思う？

専門家

SAM 3は、概念ベースのセグメンテーションという新しい分野を切り開いたんだ。これからは、より複雑な概念の理解や、リアルタイム処理の高速化なんかが進んでいくと思うよ。

初心者

リアルタイム処理？

専門家

今のSAM 3でも十分速いんだけど、ライブ配信とかリアルタイムのビデオ通話で使うには、まだ少し重いんだ。でも、モデルの軽量化技術が進めば、スマホでもサクサク動くようになるかもね。

初心者

スマホで動いたら、もっと面白いアプリが作れそう！

専門家

それから、マルチモーダルな理解も期待されてるね。テキストだけじゃなくて、音声で「この動画から、犬が走ってるシーンを全部抽出して」みたいな指示ができるようになるかもしれない。

初心者

それは未来的！

まとめ

初心者

SAM 3のこと、よくわかった！すごい技術だね

専門家

まとめると、SAM 3の主なポイントはこんな感じだね：

テキストで概念を指定できる画像・動画セグメンテーション
27万個の概念を認識し、人間の75-80%の性能
既存システムの2倍の精度を達成
848Mパラメータの効率的なモデル設計
400万個の概念を含む史上最大の学習データ
完全オープンソースで誰でも利用可能
ファインチューニングでカスタマイズ可能

初心者

すぐに試してみたくなった！

専門家

Segment Anything Playgroundなら、今すぐブラウザで試せるし、開発したいならGitHubのリポジトリをチェックしてみるといいよ。オープンソースだから、コミュニティも活発だと思うんだ。

初心者

ありがとう！早速試してみる！

参考リンク:

論文: SAM 3: Segment Anything with Concepts (arXiv)
公式サイト: Meta AI - SAM 3
GitHub: facebookresearch/sam3
Roboflow解説: What Is Segment Anything 3 (SAM 3)?
Ultralytics解説: SAM 3: Segment Anything with Concepts
MarkTechPost記事: Meta AI Releases SAM 3
Meta公式発表: New Segment Anything Models