「この画像の中から、赤い野球帽をかぶっている人を全員見つけて」——こんなお願いを、AIが理解して自動で処理してくれたら便利ですよね?
2025年11月19日、Metaが発表した**SAM 3(Segment Anything Model 3)**は、まさにそれを実現した最新のAIモデルです。テキストで「赤い野球帽」と入力するだけで、画像や動画の中から該当する物体を自動的に見つけ出し、セグメント(領域分割)してくれます。
論文: SAM 3: Segment Anything with Concepts 公式サイト: Meta AI - SAM 3 GitHub: facebookresearch/sam3
来春からデータサイエンティストとして働く予定の技術オタク。
『知りたい』気持ちで質問を止められない、好奇心旺盛な学生。
セグメンテーションって何?画像認識とは違うの?
いい質問だね!画像認識は「この写真に犬がいる」って判断するだけなんだ。でもセグメンテーションは、「この犬の形はこの部分」って、ピクセル単位で物体の領域を正確に切り出す技術なんだよ。
ピクセル単位!?めちゃくちゃ細かいんだね
そうそう。例えば、写真から人物だけを切り抜いて背景を変えたいとき、この技術が使われてるんだ。Instagramのストーリーとかでもね。
SAM 3の何が革新的なのか
SAM 3って、SAMの3代目ってこと?何が新しくなったの?
SAM 3の最大の革新はPromptable Concept Segmentation(PCS)って呼ばれる新しい機能なんだ。これまでのSAMは、マウスでクリックした場所とか、四角い枠を指定する必要があったけど、SAM 3はテキストで概念を指定できるようになったんだよ。
概念を指定?どういうこと?
例えば、「黄色いスクールバス」って短い文章を入力するだけで、画像や動画の中から該当する物体を全部見つけてくれるんだ。しかも、画像の例を見せて「これと同じものを探して」っていう指定もできる。
テキストで指定できるの!?それってめちゃくちゃ便利じゃん!
そうなんだ。これが概念ベースのセグメンテーションってやつで、従来の「この点をクリック」とか「この四角い範囲」みたいな物理的な指定じゃなくて、抽象的な概念で指定できるのが画期的なんだよ。
驚異的な性能:人間の75-80%に到達
で、どれくらいすごいの?性能的には
SAM 3は、**SA-Co(Segment Anything with Concepts)っていう新しいベンチマークで評価されてるんだけど、なんと人間の性能の75-80%**を達成したんだ。
75-80%!?結構すごくない!?
すごいよ!しかもこのベンチマーク、27万個のユニークな概念を含んでるんだ。これは既存のベンチマークの50倍以上の規模なんだよ。
27万個!?多すぎて想像つかないんだけど...
例えば、「赤いリンゴ」「青いバックパック」「木製の椅子」みたいな、色や材質、形状の組み合わせを全部含めた概念の数なんだ。しかもSAM 3は、学習時に見たことがない新しい概念でも対応できるんだよ。
見たことない概念でも!?どうやって?
それがオープンボキャブラリーって呼ばれる技術の強みなんだ。SAM 3は固定された物体カテゴリじゃなくて、言語の理解を通じて、新しい概念も推論できるように設計されてるんだよ。
革新的なアーキテクチャ設計
技術的にはどんな仕組みなの?
SAM 3は848Mパラメータのモデルで、2つの主要なコンポーネントから構成されてるんだ。ディテクター(検出器)とトラッカー(追跡器)だね。
ディテクターとトラッカー?それぞれ何をするの?
ディテクターは、画像の中から指定された概念に一致する物体を見つける役割。トラッカーは、動画で物体を追跡し続ける役割なんだ。面白いのは、この2つが1つの共通のビジョンエンコーダーを共有してることなんだよ。
あー、無駄なく効率的に動くようになってるんだ
Presence Headの革新
もう一つ重要な技術革新がPresence Head(プレゼンスヘッド)なんだ。これは、物体の「認識」と「位置特定」を分離する仕組みなんだよ。
認識と位置特定を分ける?どうゆうメリットがあるの?
例えば、「赤い車」と「青い車」を探すとき、従来のモデルは色の違いを正確に判別するのが苦手だったんだ。でもPresence Headを使うと、まず「その色の車が画像に存在するか」を判断してから、位置を特定するから、似た概念の識別精度が大幅に向上するんだよ。
なるほど!2段階で処理するから正確なんだね
史上最大規模の学習データセット
こんなすごい性能、どうやって実現したの?
SAM 3の強さの秘密は、スケーラブルなデータエンジンにあるんだ。このエンジンを使って、400万個のユニークな概念ラベルを含む、史上最大規模の高品質セグメンテーションデータセットを作成したんだよ。
400万個!?さっきの27万の何倍もあるじゃん!
そうなんだ。学習データには400万個の概念が含まれてて、テストでは27万個の概念で評価してるんだ。しかも、このデータエンジンはハードネガティブも含めてるのが重要なんだよ。
ハードネガティブって何?
例えば、「赤いリンゴ」を学習させるとき、「緑のリンゴ」とか「赤いトマト」みたいな、似てるけど違うものも一緒に学習させるんだ。これによって、微妙な違いを見分ける能力が向上するんだよ。
引っかけ問題みたいなものも勉強するんだね!
画像と動画の両方に対応
動画にも対応してるって言ってたけど、どう違うの?
静止画のセグメンテーションと動画のセグメンテーションは、結構違う課題なんだ。動画では、フレーム間での時間的一貫性を保つ必要があるんだよ。
時間的一貫性?
例えば、「赤い野球帽をかぶった人」を追跡する場合、その人が動いても、向きを変えても、同じ人として認識し続ける必要があるでしょ?SAM 3のトラッカーは、SAM 2の技術を引き継いで、この追跡機能を実現してるんだ。
あー、動いても見失わないようにしてるんだ
そう。しかも、テキストや画像の例で指定した概念を、動画全体で自動的に検出して追跡してくれるから、手作業でフレームごとに指定する必要がないんだよ。
それは便利!動画編集とかめちゃくちゃ楽になりそう
実用的な使いやすさ
実際に使うのって難しいの?
SAM 3はかなり使いやすく設計されてるよ。まず、Segment Anything PlaygroundっていうWebツールが公開されてて、プログラミングの知識がなくても試せるんだ。
え!?ブラウザで試せるの!?
そうそう。それに、開発者向けには、GitHubで完全なコードとモデルの重みが公開されてるんだ。Jupyter Notebookのサンプルもあるから、すぐに自分のプロジェクトで使い始められるよ。
技術要件
ただし、自分の環境で動かすには、ある程度のスペックが必要なんだ。
どれくらい必要?
Python 3.12以上、PyTorch 2.7以上、CUDA 12.6以上が必要で、それなりのGPUがないと厳しいね。でも、Hugging Faceでモデルのチェックポイントを取得できるから、セットアップは比較的簡単なんだ。
なるほど。結構ハイスペックが必要なんだね
性能の詳細:ベンチマーク結果
さっき人間の75-80%って言ってたけど、具体的な数字はどうなの?
SA-Co/Goldベンチマークで、インスタンスセグメンテーションでcgF1スコア54.1、ボックス検出でcgF1スコア55.7を達成してるんだ。
cgF1スコアって何?
cgF1はConcept-aware F1 Scoreの略で、複数の概念にわたる平均的な検出精度を測る指標なんだ。この数値が高いほど、様々な概念を正確に検出できるってことなんだよ。
しかも重要なのは、SAM 3は既存のシステムと比べて精度を2倍にしたってことなんだ。つまり、従来の技術が25-40%程度の精度だったのを、50%以上に引き上げたんだよ。
2倍!?それはすごい進歩だね
SAM 3Dとの同時発表
SAM 3と一緒に、SAM 3Dってのも発表されたって聞いたけど?
そう!SAM 3Dは、SAM 3と同時に発表された3D再構築のモデルなんだ。1枚の画像から、3Dオブジェクトを復元できるんだよ。
1枚の画像から3Dに!?どうやって?
SAM 3Dは、物体の形状推定と人体の形状推定の両方に対応してるんだ。これによって、1枚の写真から、物体の立体的な形を推測できるようになった。SAM 3で物体を切り抜いて、SAM 3Dで3D化する、みたいな使い方もできるかもね。
SAM 3とSAM 3Dを組み合わせたら、面白いことできそう!
実用的なアプリケーション
実際にはどんなことに使えるの?
使い道はたくさんあるよ。まず、動画編集では、特定の物体を自動で切り抜いて背景を変えたり、エフェクトをかけたりできるね。
YouTuberとかが喜びそう!
それから、コンテンツ分析にも使えるんだ。例えば、大量の画像や動画から「ブランドロゴが映ってるシーン」を自動で見つけ出したり、商品の露出を分析したりできる。
マーケティングとかに便利そうだね
あとは、医療画像分析や自動運転、ロボティクスなんかでも活用できるね。例えば、「赤い血球」を自動で検出したり、道路上の「歩行者」を追跡したりできるんだ。
いろんな分野で使えるんだね
オープンソースの力
さっきオープンソースって言ってたけど、全部公開されてるの?
そう!Metaはモデルの重み、学習コード、推論コード、そしてSA-Coベンチマークまで全部公開してるんだ。これはすごく重要なことなんだよ。
なんで重要なの?
オープンソースにすることで、世界中の研究者や開発者が自由に使えるし、改良もできるんだ。しかも、学習データやベンチマークも公開されてるから、再現可能な研究ができるようになったんだよ。
みんなで良くしていけるってことだね!
まさにそう。実際、RoboflowやHugging Faceでもデータセットが公開されてるから、誰でもアクセスできるんだ。
ファインチューニングも可能
自分のデータで学習させることもできるの?
もちろん!SAM 3はファインチューニングに対応してるんだ。つまり、自分の特定のユースケースに合わせて、モデルを追加学習させられるんだよ。
例えば?
例えば、工場の品質管理で「特定の種類の不良品」を検出したい場合、その不良品の画像でファインチューニングすれば、より高精度な検出システムが作れるんだ。
自分の用途に合わせてカスタマイズできるんだね
そう。GitHubのリポジトリには、ファインチューニング用のコードやドキュメントも含まれてるから、比較的簡単に始められるよ。
今後の展望
これからどうなっていくと思う?
SAM 3は、概念ベースのセグメンテーションという新しい分野を切り開いたんだ。これからは、より複雑な概念の理解や、リアルタイム処理の高速化なんかが進んでいくと思うよ。
リアルタイム処理?
今のSAM 3でも十分速いんだけど、ライブ配信とかリアルタイムのビデオ通話で使うには、まだ少し重いんだ。でも、モデルの軽量化技術が進めば、スマホでもサクサク動くようになるかもね。
スマホで動いたら、もっと面白いアプリが作れそう!
それから、マルチモーダルな理解も期待されてるね。テキストだけじゃなくて、音声で「この動画から、犬が走ってるシーンを全部抽出して」みたいな指示ができるようになるかもしれない。
それは未来的!
まとめ
SAM 3のこと、よくわかった!すごい技術だね
まとめると、SAM 3の主なポイントはこんな感じだね:
- テキストで概念を指定できる画像・動画セグメンテーション
- 27万個の概念を認識し、人間の75-80%の性能
- 既存システムの2倍の精度を達成
- 848Mパラメータの効率的なモデル設計
- 400万個の概念を含む史上最大の学習データ
- 完全オープンソースで誰でも利用可能
- ファインチューニングでカスタマイズ可能
すぐに試してみたくなった!
Segment Anything Playgroundなら、今すぐブラウザで試せるし、開発したいならGitHubのリポジトリをチェックしてみるといいよ。オープンソースだから、コミュニティも活発だと思うんだ。
ありがとう!早速試してみる!
参考リンク:
- 論文: SAM 3: Segment Anything with Concepts (arXiv)
- 公式サイト: Meta AI - SAM 3
- GitHub: facebookresearch/sam3
- Roboflow解説: What Is Segment Anything 3 (SAM 3)?
- Ultralytics解説: SAM 3: Segment Anything with Concepts
- MarkTechPost記事: Meta AI Releases SAM 3
- Meta公式発表: New Segment Anything Models