- SAM 3 memahami teks kompleks untuk mengelompokkan dan melacak objek dalam gambar dan video dengan tepat.
- SAM 3D merekonstruksi objek dan orang dari satu gambar dan memungkinkan ekspor objek dalam PLY atau video.
- Playground memudahkan pengujian, pemilihan, dan ekspor, dengan modul manusia terbatas untuk mencegah penggunaan yang sensitif.
- Aplikasi dunia nyata dalam Edit, Vibes, dan Marketplace, ditambah potensi dalam robotika, sains, pendidikan, dan AR/VR.

Dalam beberapa bulan terakhir, dunia penyuntingan dan kreasi visual telah mengalami kemajuan pesat dengan hadirnya SAM 3 dan, khususnya, SAM 3D. Meta telah meluncurkan teknologi yang mampu mendeteksi, melacak, dan merekonstruksi objek dan orang dalam 3D Dengan kemudahan yang, hingga baru-baru ini, terasa seperti fiksi ilmiah. Kemajuan ini menghadirkan fitur penyuntingan dan visualisasi 3D tingkat lanjut bagi siapa pun yang memiliki peramban dan ingin bereksperimen.
Hal yang menarik adalah bahwa sistem tidak hanya "melihat" apa yang ada di foto atau video, tetapi juga memahami apa yang kita minta melalui teks dan melaksanakannya dengan tepat. Sekarang Anda dapat mengetikkan nama objek di kotak promptatau klik di atasnya, dan model mengisolasinya untuk diedit, melacak pergerakannya, atau mengubahnya menjadi model tiga dimensi yang dapat digunakan dalam perangkat lunak profesional, termasuk teknik untuk membuat karakter 3DSemua ini semakin ditingkatkan dengan platform pengujian berbasis web yang membuat eksperimen menjadi mudah.
Apa itu SAM 3 dan apa yang ditawarkan SAM 3D?
Ketika kita berbicara tentang SAM 3, kita mengacu pada generasi baru Model Segment Anything yang terkenal dari Meta yang berfokus pada deteksi dan segmentasi dalam gambar dan video. Perbedaan utama dibandingkan versi sebelumnya adalah pemahaman instruksi teks yang lebih kompleks.Hal ini memungkinkan Anda menemukan bukan hanya "mobil" atau "bola", tetapi juga konsep yang jauh lebih spesifik seperti "topi baseball merah". Kemampuan ini membawa segmentasi ke tingkat yang lebih tinggi, memungkinkan penyaringan dan transformasi elemen dengan kontrol yang presisi.
Saudaranya yang paling mencolok adalah SAM 3D. Model ini melangkah lebih jauh dengan merekonstruksi geometri dan penampilan objek dan orang dari satu gambarDengan menggunakan masker dan deteksi SAM 3 sebagai fondasi, SAM 3D mengisolasi elemen yang dipilih dan merekonstruksinya untuk diekspor dan digunakan dalam jalur 3D, baik dalam perangkat lunak pemodelan seperti Blender atau dalam mesin rendering. permainan seperti Unreal Engine atau Unity.
Meta telah merancang SAM 3D dengan dua modul berbeda untuk mencakup kasus penggunaan yang berbeda. Di satu sisi ada modul berorientasi objek dan berorientasi adegan, ideal untuk memilih elemen dalam foto dan merekonstruksinya; di sisi lain, modul yang dikhususkan untuk orang, selain melakukan segmentasi, juga menghasilkan jaring perkiraan dengan kerangka dan menyesuaikan pose untuk visualisasi.
Namun, ada nuansa penting dalam mengekspor. Di Playground, modul orang tidak mengizinkan pengambilan model 3D lengkap.Sementara untuk objek, alat ini dapat mengekspor hasilnya secara terpisah. Desain ini menanggapi keterbatasan versi uji coba dan pertimbangan penggunaan yang bertanggung jawab terkait wajah dan tubuh manusia.

Segment Anything Playground: tempat pengujian
Untuk membuat fitur-fitur baru ini dapat diakses oleh semua orang, Meta telah meluncurkan Segment Anything Playground, sebuah aplikasi web tempat Anda dapat mengunggah foto atau video dan mulai bermain dengan pilihan dan efek. Antarmukanya mengingatkan pada alat tongkat ajaib Photoshop.Anda mengeklik objek tersebut, sistem akan membuat topeng, dan Anda menyempurnakannya hingga sesuai dengan selera Anda.
Editor Playground menyertakan beberapa petunjuk yang telah ditentukan sebelumnya untuk memulai, tetapi kesenangan dimulai saat Anda mengunggah konten Anda sendiri. Cukup ketik apa yang ingin Anda isolasi ke dalam kotak instruksi.SAM 3 memahami perintah tersebut dan secara otomatis menyiapkan seleksi. Bagi editor video, ini merupakan terobosan baru: segmentasi dan pelacakan elemen frame demi frame, sebelumnya, merupakan tugas yang membosankan.
Perlu dicatat bahwa alat ini sengaja dibuat sederhana. Ia tidak bermaksud bersaing dengan editor profesional seperti Premiere.Sebaliknya, ini bertujuan untuk menunjukkan potensi model segmentasi dan, kebetulan, mendemonstrasikan bagaimana model tersebut dapat diintegrasikan ke dalam alur kerja yang lebih kompleks. Meskipun demikian, model ini sudah memungkinkan pengguna untuk memotong, menambahkan efek, dan memvisualisasikan bagaimana model tersebut akan merespons berbagai perintah.
Mengenai ekspor, Playground memungkinkan Anda mengekstrak hasilnya secara terpisah. Untuk objek, Anda dapat mengekspor file PLY atau bahkan video. dengan rekonstruksi. Ini adalah cara cepat untuk memindahkan material ke perangkat lunak 3D favorit Anda atau untuk menyiapkan pratinjau tanpa komplikasi, misalnya untuk Presentasi 3D dengan animasi.
Bagi mereka yang bekerja dengan orang, modul manusia Playground, seperti yang kami katakan, tidak memungkinkan ekstraksi model akhir. Meski begitu, ia menghasilkan gambaran perkiraan dengan kerangka dan pose yang disesuaikan untuk visualisasi., cukup untuk memverifikasi potensi dan memahami bagaimana potensi itu akan cocok dengan jaringan yang lebih lengkap di masa mendatang.
Hasil, keterbatasan dan cara memaksimalkannya
Jika Anda mengharapkan model hiper-realistis langsung dari kotaknya, sebaiknya turunkan sedikit ekspektasi Anda. Objek diekspor sebagai titik awan, bukan sebagai jaring.Ini adalah format umum dalam fotogrametri dan rekonstruksi, sangat berguna sebagai dasar, tetapi memerlukan langkah tambahan jika Anda menginginkan gambaran yang bersih dengan tekstur dan keseluruhan paket.
Kabar baiknya adalah langkah ekstra ini dapat diselesaikan dengan alat yang sudah ada. Program seperti MeshLab atau simpul geometri Blender dapat digunakan untuk mengubah titik awan menjadi jaring. dan terus memoles; atau bahkan menggunakan Pembangun 3D WindowsAnda tidak akan langsung mendapatkan model yang sangat realistis, tetapi ini merupakan titik awal yang baik untuk mengulanginya.
Penting untuk membedakan apa yang ditampilkan Playground dari apa yang dapat Anda capai melalui pekerjaan pasca-pemrosesan. Penampil Playground menawarkan tampilan hasil yang mencolokNamun, membawanya ke tahap produksi melibatkan pembersihan, retopologi, dan, jika perlu, proyeksi tekstur. Proses ini memang bukan sulap, tetapi menghemat banyak waktu pada tahap pengambilan atau segmentasi awal.
Dalam kasus manusia, selain batasan ekspor, implikasi etis harus dipertimbangkan. Merekonstruksi tubuh atau wajah tanpa izin dapat menimbulkan konsekuensi hukum dan reputasi.Oleh karena itu, meskipun teknologi memungkinkan hal-hal tertentu, rekomendasinya adalah bekerja dengan persetujuan yang eksplisit dan konteks yang tepat.
Sebagai praktik terbaik, sebelum Anda mulai menerbitkan model, pastikan untuk memeriksa metadata, sumber materi, dan izin. Meta sendiri menyatakan akan mengintegrasikan kontrol untuk mengurangi penyalahgunaanNamun pada akhirnya, tanggung jawab atas konten dan penyebarannya terletak pada orang yang membuat dan membagikannya.
Teks, indikasi dan deteksi: kunci SAM 3
Melampaui 3D, lompatan kualitatif SAM 3 terletak pada pemahamannya terhadap bahasa. Anda sekarang dapat memproses deskripsi terperinci dan menautkannya ke elemen tertentu dalam gambar dan video.Hal ini memperluas cakupan segmentasi jauh melampaui kategori generik, sehingga memungkinkan alur kerja berbasis perintah yang sebelumnya tidak mungkin dilakukan.
Peningkatan ini didasarkan pada arsitektur yang dilatih dengan volume data besar dan pada kombinasi isyarat visual dan tekstual. Model ini mencocokkan apa yang Anda tulis dengan apa yang dilihatnya, menafsirkan konsep dan hubungan visual lebih akurat daripada SAM 1 atau SAM 2, yang bekerja baik dengan isyarat visual tetapi kesulitan dengan bahasa alami yang kompleks.
Konsep kunci lain yang muncul dalam model tersebut adalah generalisasi tanpa peluang. Dalam praktiknya, ini berarti Anda dapat mengelompokkan objek yang belum Anda lihat dalam basis data Anda. Asalkan diberikan referensi visual atau tekstual yang sesuai. Kemampuan ini penting dalam dunia nyata, di mana elemen-elemennya beragam dan tidak selalu masuk ke dalam kategori yang tetap.
Berdasarkan informasi yang tersedia, pelatihan ekosistem ini bergantung pada pasokan masker dalam jumlah besar dari berbagai sumber publik. Repositori visual yang banyak digunakan disebutkan, seperti Wikipedia, Flickr atau InstagramIni menjelaskan ketahanan model dalam menggeneralisasi dan kinerjanya dalam mengidentifikasi objek dalam konteks heterogen.
Sebagai manfaat sampingan, SAM 3 menawarkan beberapa keluaran masker, yang sangat berguna untuk merutekan hasil ke sistem lain. Masker ini dapat dirangkai dengan editor 2D dan 3D, alat pelacak video, atau proses kreatif. seperti komposisi dan kolase, yang secara signifikan menyederhanakan alur kerja pascaproduksi.
Integrasi ke dalam produk Meta dan penggunaan di dunia nyata
Strategi Meta tidak tinggal di laboratorium. Perusahaan telah mengumumkan bahwa mereka akan mengintegrasikan SAM 3 ke dalam Edits, alat mereka untuk membuat video pendek di Instagram dan Facebookmirip dengan tutup potongIni membuka pintu bagi filter segmentasi yang lebih halus, efek yang diterapkan pada elemen tertentu, dan perubahan latar belakang tanpa mengorbankan kualitas.
Di bidang pengalaman generatif, Meta juga menargetkan Vibes, di mana ia berencana untuk menerapkan model segmentasinya ke video yang dibuat oleh IA. Idenya adalah menggunakan presisi SAM 3 untuk mengisolasi dan mengubah elemen dalam klip tanpa intervensi manual yang menutupi setiap frame, sesuatu yang sangat mempersulit alur kerja tradisional.
Mungkin penerapan yang paling nyata bagi masyarakat umum akan datang melalui perdagangan. Di Facebook Marketplace, fitur Lihat di Ruangan akan memungkinkan Anda melihat produk di rumah.menggunakan model 3D yang dihasilkan secara otomatis yang dapat membantu menghasilkan adegan 3D yang tampak sinematikPikirkan hal ini dengan lampu atau perabotan: Anda mengarahkan kamera ke ruang tamu dan melihat bagaimana objek itu akan terlihat sebelum Anda membelinya.
Di luar jaringan dan belanja, potensinya melampaui hiburan. Aplikasinya tercatat dalam robotika, sains, pendidikan, pembuatan permainan video, dan pengalaman VR/AR.Mampu merekonstruksi dalam 3D dari foto sangat menyederhanakan penangkapan dan pembuatan prototipe untuk simulator, analisis, dan konten pelatihan.
Dalam kedokteran olahraga, misalnya, penggunaan rekonstruksi berbasis gambar dapat membantu menghasilkan materi pendidikan atau simulasi gerakan. Skenario ini masih memerlukan validasi klinis dan proses kualitasNamun, dasar teknis untuk segmentasi dan rekonstruksi membuka jalan yang menjanjikan untuk eksplorasi.
Cara bekerja dengan objek dan orang di SAM 3D
Modul objek dan pemandangan bekerja dengan logika pemilihan terbantu. Anda memilih elemen dengan klik dan sistem menghasilkan topeng dalam gaya "tongkat ajaib"mengenali tepi dan fitur. Kemudian Anda dapat menyempurnakan topeng tersebut dan memulai rekonstruksi untuk diekspor.
Dalam ekspor tersebut, format utamanya adalah PLY, yang terdiri dari titik awan yang mewakili objek. Berkas ini dapat dibawa ke alat seperti Blender atau MeshLab untuk mengubahnya menjadi mesh. dan terus menyempurnakannya; atau bahkan menggunakannya untuk operasi cepat. Berkas ini dapat dimasukkan ke dalam alat seperti Blender atau MeshLab untuk dikonversi menjadi mesh dan disempurnakan lebih lanjut. Berkas ini dapat dibawa ke alat seperti Blender atau MeshLab untuk mengubahnya menjadi mesh. dan teruslah menyempurnakannya. Anda mungkin tidak akan langsung memiliki model yang sangat realistis, tetapi ini merupakan fondasi yang baik untuk terus mengembangkannya.
Modul orang mengikuti filosofi serupa mengenai pemilihan, tetapi outputnya terbatas pada versi uji web. Menghasilkan jaring perkiraan dengan kerangka dan menyesuaikan postur, fungsi praktis untuk memvisualisasikan figur atau pose, meskipun tanpa mengunduh model 3D lengkap dari Playground.
Perbedaan ini menanggapi masalah teknis dan pertimbangan etika. Pemrosesan data biometrik dan rekonstruksi identitas memerlukan kehati-hatian.Oleh karena itu, pembatasan ekspor dalam modul manusia mencegah penggunaan yang sensitif sementara komunitas dan alat kontrol menjadi matang.
Sumber daya terbuka, pembandingan, dan komunitas
Untuk mempromosikan penelitian dan adopsi, Meta telah menyediakan sumber daya model dan kumpulan data pembanding. Peneliti, pengembang, dan seniman dapat mengakses kode dan beragam koleksi gambar. yang dapat digunakan untuk mengevaluasi kinerja dan membandingkan hasil secara konsisten.
Pembukaan ini tidak hanya berguna untuk mengukur keadaan seni. Ini juga menetapkan landasan bersama bagi komunitas untuk mengulang, menemukan keterbatasan, dan mengusulkan perbaikan. di area seperti kesetiaan geometri rekonstruksi, ketahanan terhadap oklusi, atau pemahaman bahasa alami dalam domain khusus.
Namun, penting untuk menghormati kerangka kerja penggunaan. Meta menegaskan bahwa model tersebut harus digunakan untuk tujuan penelitian pada tahap ini dan bukan untuk penggunaan komersial langsung. Pendekatan ini membantu mengurangi risiko, sekaligus mengumpulkan bukti dan membangun praktik terbaik.
Sementara itu, berbagai tim kreatif dan pemasaran sudah menguji cara menyesuaikannya dengan alur kerja nyata. Agensi dan departemen pertunjukan tengah menjajaki cara memanfaatkan topeng dan rekonstruksi ini. untuk meningkatkan segmentasi dalam kampanye atau pembuatan materi audiovisual, menghubungkan dengan alat-alat seperti Google Pengelola Data Iklan saat konten visual memainkan peran utama.
Keuntungan praktis yang membuat semua perbedaan
Dalam kehidupan sehari-hari, beberapa keuntungan menonjol dibandingkan dengan yang ada sebelumnya. Beberapa perintah input (klik, titik, teks) menyederhanakan pemilihan Tanpa langkah perantara, mempercepat proses pengeditan. Fleksibilitas ini juga memungkinkan pengguna non-teknis untuk mendapatkan hasil yang memuaskan.
Interoperabilitas merupakan keuntungan lainnya. Desain SAM memfasilitasi integrasi dengan sistem AR/VR, editor, dan mesin.Oleh karena itu, biasanya akan dianggap hanya sebagai blok lain dalam alur kerja yang sudah ada. Ini bukan tentang menciptakan kembali alur kerja, melainkan menambahkan bagian baru yang menghemat waktu Anda.
Output dalam bentuk beberapa topeng dan objek terpisah memungkinkan informasi disalurkan ke tempat yang dituju. Dari pelacakan video hingga komposisi kompleks, termasuk jalur 3DIdenya adalah bahwa apa yang keluar dari SAM cocok seperti kunci di lubang kunci bersama dengan peralatan lainnya.
Akhirnya, lompatan dalam memahami dunia visual, yang didorong oleh penyimpanan data besar, terlihat dalam kinerja dalam kasus dunia nyata. Bahwa sistem memahami “apa yang Anda katakan” dan menghubungkannya dengan “apa yang dilihatnya” Itulah yang membuatnya berguna di luar laboratorium.
Etika, keselamatan dan praktik yang baik
Kekuasaan datang bersama tanggung jawab. Bekerja dengan gambar orang memerlukan persetujuan dan menghormati privasiTerutama jika Anda berencana untuk membagikan atau mempublikasikan hasilnya. Hindari merekonstruksi wajah orang lain, memanipulasi adegan sensitif, atau membagikan model yang dapat mengungkapkan informasi pribadi.
Setiap alur kerja profesional harus menyertakan pemeriksaan sumber dan izin. Verifikasi asal gambar, hapus metadata sensitif jika perlu dan membatasi distribusi pada konteks yang sesuai. Jika konten tersebut mencakup anak di bawah umur atau kelompok rentan, pihaknya akan meningkatkan tindakan pencegahan atau menghentikan proyek tersebut.
Meta telah mengindikasikan bahwa mereka akan memperkenalkan kontrol untuk mengurangi penyalahgunaan, tetapi hal itu tidak mengecualikan kreator. Akuntabilitas terletak pada siapa pun yang mengunggah, memproses, dan menerbitkan.Menerapkan pedoman etika dan keamanan internal sama pentingnya dengan mengetahui cara menggunakan alat tersebut.
Selain itu, jika Anda akan membawa hasil ke tahap produksi, rancanglah suatu jalur produksi dengan pengendalian mutu. Ini mencakup validasi teknis (geometri, oklusi, artefak) dan validasi hukum (izin, lisensi)dan dokumentasikan prosesnya agar dapat diaudit. Anda akan mengurangi risiko dan mendapatkan ketertelusuran.
Penulis yang bersemangat tentang dunia byte dan teknologi secara umum. Saya suka berbagi ilmu melalui tulisan, dan itulah yang akan saya lakukan di blog ini, menunjukkan kepada Anda semua hal paling menarik tentang gadget, perangkat lunak, perangkat keras, tren teknologi, dan banyak lagi. Tujuan saya adalah membantu Anda menavigasi dunia digital dengan cara yang sederhana dan menghibur.