SAM 3: 言葉で指定できる画像・動画セグメンテーション - Metaが実現した次世代の物体認識

「赤い野球帽」と入力するだけで、画像や動画から該当する物体を全て検出・追跡できるMetaの最新AI「SAM 3」を解説。従来の27万個の概念を認識し、人間の75-80%の性能を達成した革新的技術とは?

「この画像の中から、赤い野球帽をかぶっている人を全員見つけて」——こんなお願いを、AIが理解して自動で処理してくれたら便利ですよね?

2025年11月19日、Metaが発表した**SAM 3(Segment Anything Model 3)**は、まさにそれを実現した最新のAIモデルです。テキストで「赤い野球帽」と入力するだけで、画像や動画の中から該当する物体を自動的に見つけ出し、セグメント(領域分割)してくれます。

論文: SAM 3: Segment Anything with Concepts 公式サイト: Meta AI - SAM 3 GitHub: facebookresearch/sam3

著者
著者: Sera
大学院でAI作曲に関して研究中!
来春からデータサイエンティストとして働く予定の技術オタク。
初心者
登場人物: あかり
流行りのAIやWeb技術に興味津々!
『知りたい』気持ちで質問を止められない、好奇心旺盛な学生。
confusedの表情
初心者

セグメンテーションって何?画像認識とは違うの?

専門家

いい質問だね!画像認識は「この写真に犬がいる」って判断するだけなんだ。でもセグメンテーションは、「この犬の形はこの部分」って、ピクセル単位で物体の領域を正確に切り出す技術なんだよ。

surprisedの表情
初心者

ピクセル単位!?めちゃくちゃ細かいんだね

専門家

そうそう。例えば、写真から人物だけを切り抜いて背景を変えたいとき、この技術が使われてるんだ。Instagramのストーリーとかでもね。

SAM 3の何が革新的なのか

normalの表情
初心者

SAM 3って、SAMの3代目ってこと?何が新しくなったの?

専門家

SAM 3の最大の革新はPromptable Concept Segmentation(PCS)って呼ばれる新しい機能なんだ。これまでのSAMは、マウスでクリックした場所とか、四角い枠を指定する必要があったけど、SAM 3はテキストで概念を指定できるようになったんだよ。

confusedの表情
初心者

概念を指定?どういうこと?

専門家

例えば、「黄色いスクールバス」って短い文章を入力するだけで、画像や動画の中から該当する物体を全部見つけてくれるんだ。しかも、画像の例を見せて「これと同じものを探して」っていう指定もできる。

excitedの表情
初心者

テキストで指定できるの!?それってめちゃくちゃ便利じゃん!

専門家

そうなんだ。これが概念ベースのセグメンテーションってやつで、従来の「この点をクリック」とか「この四角い範囲」みたいな物理的な指定じゃなくて、抽象的な概念で指定できるのが画期的なんだよ。

驚異的な性能:人間の75-80%に到達

normalの表情
初心者

で、どれくらいすごいの?性能的には

専門家

SAM 3は、**SA-Co(Segment Anything with Concepts)っていう新しいベンチマークで評価されてるんだけど、なんと人間の性能の75-80%**を達成したんだ。

surprisedの表情
初心者

75-80%!?結構すごくない!?

専門家

すごいよ!しかもこのベンチマーク、27万個のユニークな概念を含んでるんだ。これは既存のベンチマークの50倍以上の規模なんだよ。

confusedの表情
初心者

27万個!?多すぎて想像つかないんだけど...

専門家

例えば、「赤いリンゴ」「青いバックパック」「木製の椅子」みたいな、色や材質、形状の組み合わせを全部含めた概念の数なんだ。しかもSAM 3は、学習時に見たことがない新しい概念でも対応できるんだよ。

surprisedの表情
初心者

見たことない概念でも!?どうやって?

専門家

それがオープンボキャブラリーって呼ばれる技術の強みなんだ。SAM 3は固定された物体カテゴリじゃなくて、言語の理解を通じて、新しい概念も推論できるように設計されてるんだよ。

革新的なアーキテクチャ設計

normalの表情
初心者

技術的にはどんな仕組みなの?

専門家

SAM 3は848Mパラメータのモデルで、2つの主要なコンポーネントから構成されてるんだ。ディテクター(検出器)とトラッカー(追跡器)だね。

confusedの表情
初心者

ディテクターとトラッカー?それぞれ何をするの?

専門家

ディテクターは、画像の中から指定された概念に一致する物体を見つける役割。トラッカーは、動画で物体を追跡し続ける役割なんだ。面白いのは、この2つが1つの共通のビジョンエンコーダーを共有してることなんだよ。

happyの表情
初心者

あー、無駄なく効率的に動くようになってるんだ

Presence Headの革新

専門家

もう一つ重要な技術革新がPresence Head(プレゼンスヘッド)なんだ。これは、物体の「認識」と「位置特定」を分離する仕組みなんだよ。

confusedの表情
初心者

認識と位置特定を分ける?どうゆうメリットがあるの?

専門家

例えば、「赤い車」と「青い車」を探すとき、従来のモデルは色の違いを正確に判別するのが苦手だったんだ。でもPresence Headを使うと、まず「その色の車が画像に存在するか」を判断してから、位置を特定するから、似た概念の識別精度が大幅に向上するんだよ。

surprisedの表情
初心者

なるほど!2段階で処理するから正確なんだね

史上最大規模の学習データセット

normalの表情
初心者

こんなすごい性能、どうやって実現したの?

専門家

SAM 3の強さの秘密は、スケーラブルなデータエンジンにあるんだ。このエンジンを使って、400万個のユニークな概念ラベルを含む、史上最大規模の高品質セグメンテーションデータセットを作成したんだよ。

surprisedの表情
初心者

400万個!?さっきの27万の何倍もあるじゃん!

専門家

そうなんだ。学習データには400万個の概念が含まれてて、テストでは27万個の概念で評価してるんだ。しかも、このデータエンジンはハードネガティブも含めてるのが重要なんだよ。

confusedの表情
初心者

ハードネガティブって何?

専門家

例えば、「赤いリンゴ」を学習させるとき、「緑のリンゴ」とか「赤いトマト」みたいな、似てるけど違うものも一緒に学習させるんだ。これによって、微妙な違いを見分ける能力が向上するんだよ。

happyの表情
初心者

引っかけ問題みたいなものも勉強するんだね!

画像と動画の両方に対応

normalの表情
初心者

動画にも対応してるって言ってたけど、どう違うの?

専門家

静止画のセグメンテーションと動画のセグメンテーションは、結構違う課題なんだ。動画では、フレーム間での時間的一貫性を保つ必要があるんだよ。

confusedの表情
初心者

時間的一貫性?

専門家

例えば、「赤い野球帽をかぶった人」を追跡する場合、その人が動いても、向きを変えても、同じ人として認識し続ける必要があるでしょ?SAM 3のトラッカーは、SAM 2の技術を引き継いで、この追跡機能を実現してるんだ。

happyの表情
初心者

あー、動いても見失わないようにしてるんだ

専門家

そう。しかも、テキストや画像の例で指定した概念を、動画全体で自動的に検出して追跡してくれるから、手作業でフレームごとに指定する必要がないんだよ。

excitedの表情
初心者

それは便利!動画編集とかめちゃくちゃ楽になりそう

実用的な使いやすさ

normalの表情
初心者

実際に使うのって難しいの?

専門家

SAM 3はかなり使いやすく設計されてるよ。まず、Segment Anything PlaygroundっていうWebツールが公開されてて、プログラミングの知識がなくても試せるんだ。

happyの表情
初心者

え!?ブラウザで試せるの!?

専門家

そうそう。それに、開発者向けには、GitHubで完全なコードモデルの重みが公開されてるんだ。Jupyter Notebookのサンプルもあるから、すぐに自分のプロジェクトで使い始められるよ。

技術要件

専門家

ただし、自分の環境で動かすには、ある程度のスペックが必要なんだ。

confusedの表情
初心者

どれくらい必要?

専門家

Python 3.12以上PyTorch 2.7以上CUDA 12.6以上が必要で、それなりのGPUがないと厳しいね。でも、Hugging Faceでモデルのチェックポイントを取得できるから、セットアップは比較的簡単なんだ。

normalの表情
初心者

なるほど。結構ハイスペックが必要なんだね

性能の詳細:ベンチマーク結果

normalの表情
初心者

さっき人間の75-80%って言ってたけど、具体的な数字はどうなの?

専門家

SA-Co/Goldベンチマークで、インスタンスセグメンテーションでcgF1スコア54.1ボックス検出でcgF1スコア55.7を達成してるんだ。

confusedの表情
初心者

cgF1スコアって何?

専門家

cgF1はConcept-aware F1 Scoreの略で、複数の概念にわたる平均的な検出精度を測る指標なんだ。この数値が高いほど、様々な概念を正確に検出できるってことなんだよ。

専門家

しかも重要なのは、SAM 3は既存のシステムと比べて精度を2倍にしたってことなんだ。つまり、従来の技術が25-40%程度の精度だったのを、50%以上に引き上げたんだよ。

surprisedの表情
初心者

2倍!?それはすごい進歩だね

SAM 3Dとの同時発表

normalの表情
初心者

SAM 3と一緒に、SAM 3Dってのも発表されたって聞いたけど?

専門家

そう!SAM 3Dは、SAM 3と同時に発表された3D再構築のモデルなんだ。1枚の画像から、3Dオブジェクトを復元できるんだよ。

surprisedの表情
初心者

1枚の画像から3Dに!?どうやって?

専門家

SAM 3Dは、物体の形状推定と人体の形状推定の両方に対応してるんだ。これによって、1枚の写真から、物体の立体的な形を推測できるようになった。SAM 3で物体を切り抜いて、SAM 3Dで3D化する、みたいな使い方もできるかもね。

happyの表情
初心者

SAM 3とSAM 3Dを組み合わせたら、面白いことできそう!

実用的なアプリケーション

normalの表情
初心者

実際にはどんなことに使えるの?

専門家

使い道はたくさんあるよ。まず、動画編集では、特定の物体を自動で切り抜いて背景を変えたり、エフェクトをかけたりできるね。

excitedの表情
初心者

YouTuberとかが喜びそう!

専門家

それから、コンテンツ分析にも使えるんだ。例えば、大量の画像や動画から「ブランドロゴが映ってるシーン」を自動で見つけ出したり、商品の露出を分析したりできる。

normalの表情
初心者

マーケティングとかに便利そうだね

専門家

あとは、医療画像分析自動運転ロボティクスなんかでも活用できるね。例えば、「赤い血球」を自動で検出したり、道路上の「歩行者」を追跡したりできるんだ。

happyの表情
初心者

いろんな分野で使えるんだね

オープンソースの力

normalの表情
初心者

さっきオープンソースって言ってたけど、全部公開されてるの?

専門家

そう!Metaはモデルの重み学習コード推論コード、そしてSA-Coベンチマークまで全部公開してるんだ。これはすごく重要なことなんだよ。

confusedの表情
初心者

なんで重要なの?

専門家

オープンソースにすることで、世界中の研究者や開発者が自由に使えるし、改良もできるんだ。しかも、学習データやベンチマークも公開されてるから、再現可能な研究ができるようになったんだよ。

happyの表情
初心者

みんなで良くしていけるってことだね!

専門家

まさにそう。実際、RoboflowやHugging Faceでもデータセットが公開されてるから、誰でもアクセスできるんだ。

ファインチューニングも可能

normalの表情
初心者

自分のデータで学習させることもできるの?

専門家

もちろん!SAM 3はファインチューニングに対応してるんだ。つまり、自分の特定のユースケースに合わせて、モデルを追加学習させられるんだよ。

excitedの表情
初心者

例えば?

専門家

例えば、工場の品質管理で「特定の種類の不良品」を検出したい場合、その不良品の画像でファインチューニングすれば、より高精度な検出システムが作れるんだ。

happyの表情
初心者

自分の用途に合わせてカスタマイズできるんだね

専門家

そう。GitHubのリポジトリには、ファインチューニング用のコードやドキュメントも含まれてるから、比較的簡単に始められるよ。

今後の展望

normalの表情
初心者

これからどうなっていくと思う?

専門家

SAM 3は、概念ベースのセグメンテーションという新しい分野を切り開いたんだ。これからは、より複雑な概念の理解や、リアルタイム処理の高速化なんかが進んでいくと思うよ。

confusedの表情
初心者

リアルタイム処理?

専門家

今のSAM 3でも十分速いんだけど、ライブ配信とかリアルタイムのビデオ通話で使うには、まだ少し重いんだ。でも、モデルの軽量化技術が進めば、スマホでもサクサク動くようになるかもね。

excitedの表情
初心者

スマホで動いたら、もっと面白いアプリが作れそう!

専門家

それから、マルチモーダルな理解も期待されてるね。テキストだけじゃなくて、音声で「この動画から、犬が走ってるシーンを全部抽出して」みたいな指示ができるようになるかもしれない。

happyの表情
初心者

それは未来的!

まとめ

happyの表情
初心者

SAM 3のこと、よくわかった!すごい技術だね

専門家

まとめると、SAM 3の主なポイントはこんな感じだね:

  • テキストで概念を指定できる画像・動画セグメンテーション
  • 27万個の概念を認識し、人間の75-80%の性能
  • 既存システムの2倍の精度を達成
  • 848Mパラメータの効率的なモデル設計
  • 400万個の概念を含む史上最大の学習データ
  • 完全オープンソースで誰でも利用可能
  • ファインチューニングでカスタマイズ可能
normalの表情
初心者

すぐに試してみたくなった!

専門家

Segment Anything Playgroundなら、今すぐブラウザで試せるし、開発したいならGitHubのリポジトリをチェックしてみるといいよ。オープンソースだから、コミュニティも活発だと思うんだ。

excitedの表情
初心者

ありがとう!早速試してみる!


参考リンク:

← ブログ一覧に戻る