Cara membersihkan data duplikat di database langkah demi langkah

Pembaharuan Terakhir: 12/12/2025
penulis: Isaac
  • Data duplikat mendistorsi analisis dan pengambilan keputusan, oleh karena itu sangat penting untuk mendeteksi dan mengendalikannya sebelum mengolahnya.
  • Program spreadsheet seperti Excel memungkinkan Anda untuk menyorot, memfilter, dan menghapus duplikat dengan menggabungkan pemformatan bersyarat, filter lanjutan, dan fungsi teks.
  • En database SQL, SELECT DISTINCT dan alternatif seperti GROUP BY membantu mendapatkan hasil tanpa baris yang berulang tanpa mengubah data asli.
  • Alat manajemen bibliografi serta praktik pencadangan dan pra-peninjauan yang baik mengurangi risiko kehilangan informasi yang relevan dengan menghilangkan duplikat.

Membersihkan data duplikat dalam basis data

Saat Anda bekerja dengan basis data, spreadsheet atau sistem informasi, Data duplikat dapat menjadi masalah yang sangat merepotkan.Data yang berulang, nama yang dieja dengan seribu cara berbeda, format tanggal yang buruk, atau spasi tambahan membuat analisis menjadi tidak dapat diandalkan dan membuang waktu Anda untuk memeriksa secara manual apa yang sebenarnya dapat dibantu oleh sistem untuk dibersihkan dalam hitungan detik.

Kabar baiknya adalah ada Alat canggih untuk menemukan, menyoroti, dan menghapus data duplikat. baik di Excel dan Google Lembaran seperti pada database SQL atau alat manajemen bibliografi. Memahami cara kerjanya, perbedaannya, dan risiko yang ditimbulkannya (seperti menghapus informasi yang mungkin Anda lewatkan kemudian) adalah kunci untuk menjaga data Anda tetap terorganisasi dan dapat menganalisisnya dengan tenang.

Mengapa data duplikat muncul dan mengapa hal itu menjadi masalah?

Dalam praktek, Duplikat muncul akibat kesalahan manusia, impor berulang, atau sistem yang kurang terkoordinasi.Formulir yang dikirim dua kali, berkas yang digabungkan tanpa pembersihan terlebih dahulu, atau integrasi antar aplikasi yang tidak memvalidasi informasi dengan benar adalah lahan subur bagi sistem Anda untuk dipenuhi dengan data duplikat.

Selain duplikat yang jelas, Anda akan menemukan sedikit variasi yang sebenarnya mewakili data yang samaNama dengan campuran huruf besar dan kecil, spasi tambahan, singkatan yang berbeda, atau tanggal dengan format berbeda yang tidak dikenali sistem sebagai hal yang sama, meskipun jelas bagi seseorang bahwa semuanya merujuk pada hal yang sama.

Dampaknya sangat signifikan: Statistik tersebut diputarbalikkan; jumlah pelanggan atau pasien digembungkan.Email diulang dalam kampanye email, faktur diduplikasi, atau jumlah pesanan diperkirakan terlalu tinggi. Hal ini dapat menyebabkan pengambilan keputusan yang buruk, biaya tambahan, dan kurangnya kepercayaan yang signifikan terhadap kualitas data.

Oleh karena itu, sebelum mulai membuat dasbor atau analisis tingkat lanjut, ada baiknya meluangkan waktu untuk mempelajari hal berikut: Alat pembersihan data yang sangat baik untuk mendeteksi dan memperbaiki inkonsistensi.Menghapus duplikat adalah bagian penting dari proses ini, tetapi bukan satu-satunya: Anda juga harus homogenisasi teks, hapus spasi yang aneh dan normalkan tanggal.

Mendeteksi dan menyoroti data duplikat dalam spreadsheet.

Perangkat lunak seperti Excel menawarkan fungsi yang sangat praktis untuk untuk dengan cepat mengidentifikasi nilai mana yang berulang dalam rentang sel.Sebelum menghapus apa pun, sebaiknya gunakan format visual yang membantu Anda meninjau dan dengan tenang memutuskan apa yang ingin Anda simpan.

Cara yang sangat umum untuk memulai adalah dengan... Pemformatan bersyarat untuk menyoroti nilai yang muncul lebih dari sekali.Dengan cara ini, Anda tidak mengubah isi sel, Anda hanya menandainya agar dapat dianalisis.

Alur kerja tipikal melibatkan pemilihan sel yang akan ditinjau terlebih dahulu, kemudian menerapkan sebuah Aturan pemformatan bersyarat yang menandai duplikat dengan warna latar belakang atau font yang berbeda.Hal ini memungkinkan Anda untuk mengidentifikasi pola: misalnya, untuk melihat apakah seseorang muncul beberapa kali dalam daftar pelanggan atau apakah kode produk tertentu telah terdaftar lebih dari sekali.

Selain itu, Anda dapat menggabungkan penyorotan otomatis ini dengan filter di dalam spreadsheet itu sendiri untuk Hanya lihat baris yang terpengaruh oleh data duplikat dan tinjau satu per satu.Ini memberi Anda kendali dan mengurangi risiko penghapusan informasi penting secara tidak sengaja.

Cara menghapus nilai duplikat dengan aman di Excel.

Setelah Anda memahami pengulangan mana yang tidak perlu, Excel menyertakan fungsi khusus yang disebut “Hapus duplikat” yang secara permanen menghapus baris yang berulang.Di sinilah Anda harus berhati-hati, karena apa yang Anda hapus tidak mudah dipulihkan jika Anda belum menyimpan salinannya.

  Perbaikan: Tidak Dapat Membuka Kontak di Ponsel Android

Sebelum menjalankan alat ini, sangat disarankan untuk Salin rentang data asli ke lembar kerja lain atau file cadangan.Dengan cara ini, jika pembersihan menghasilkan hasil yang tidak terduga, Anda dapat meninjau apa yang telah Anda hapus dan memulihkan informasi tanpa masalah.

Prosedur ini didasarkan pada pemilihan rentang sel yang ingin Anda bersihkan, lalu menunjukkan kolom mana yang nilainya harus dibandingkan untuk menentukan apakah suatu baris merupakan duplikat. Jika Anda memilih beberapa kolom, hanya baris yang kombinasi lengkapnya cocok dengan baris lain yang akan dianggap sebagai duplikat.yang sangat berguna saat bekerja dengan data yang kompleks.

Setelah mengkonfirmasi operasi, Excel menghapus baris tambahan dan Ini menunjukkan kepada Anda ringkasan berapa banyak data duplikat yang telah dihapus dan berapa banyak data unik yang tersisa.Laporan singkat ini membantu Anda memvalidasi apakah hasilnya sesuai dengan yang Anda harapkan saat memulai pembersihan.

Perlu diingat bahwa Memfilter nilai unik tidak sama dengan menghapus duplikat.Saat Anda memfilter, baris duplikat hanya disembunyikan sementara, tetapi tetap ada; menghapus duplikat akan menghapusnya sepenuhnya. Itulah mengapa memulai dengan filter unik atau pemformatan bersyarat adalah strategi yang lebih bijaksana.

Kriteria untuk menganggap suatu nilai sebagai nilai yang terduplikasi

Saat alat spreadsheet membandingkan data duplikat, Mereka melakukannya berdasarkan apa yang sebenarnya terlihat di dalam sel, bukan berdasarkan nilai interpretasi yang mendasarinya.Hal ini memiliki beberapa konsekuensi menarik yang perlu Anda ketahui agar Anda tidak mendapat kejutan.

Sebagai contoh, dua tanggal yang mewakili hari yang sama mungkin tidak dianggap sebagai duplikat jika Salah satunya ditulis sebagai “08/03/2006” dan yang lainnya sebagai “8 Maret 2006”Karena isi teksnya berbeda meskipun maknanya identik. Hal yang sama dapat terjadi pada nama dan rangkaian karakter dengan spasi atau kapitalisasi yang berbeda.

Demikian pula, angka yang disimpan sebagai teks dan angka yang sama dalam format numerik Nilai-nilai tersebut dapat diperlakukan sebagai nilai yang berbeda. Itulah mengapa sangat penting untuk menormalkan format sebelum mencoba menghapus baris duplikat secara massal.

Sebelum melakukan pembersihan secara agresif, ada baiknya terlebih dahulu memfilter berdasarkan nilai unik atau menggunakan pemformatan bersyarat untuk konfirmasi. bahwa kriteria perbandingan tersebut berfungsi seperti yang Anda yakini.Menetapkan aturan main ini sejak awal mencegah hilangnya data yang valid atau meninggalkan duplikat yang tersamarkan.

Fungsi teks di spreadsheet untuk membersihkan data yang tidak rapi.

Sebagian besar masalah dengan data duplikat tidak berasal dari nilai yang persis sama yang diulang, tetapi dari fakta bahwa Informasi yang sama ditulis dengan cara yang sedikit berbeda.Di situlah fungsi teks Excel atau Google Sheets berperan untuk menstandarisasi dan mempersiapkan dasar sebelum menghilangkan pengulangan.

Sangat umum menemukan kolom di mana beberapa nama ditulis dengan huruf besar, yang lain dengan huruf kecil, dan yang lainnya dicampur secara acak. Untuk menyatukannya, Anda memiliki fungsi yang dapat Mereka mengubah semuanya menjadi huruf kecil, semuanya menjadi huruf besar, atau hanya mengkapitalisasi huruf pertama dari setiap kata.Hal ini memastikan bahwa “ANA PÉREZ”, “ana pérez” dan “Ana Pérez” diperlakukan dengan cara yang sama.

Teks dengan spasi tambahan, baik di dalam rantai maupun di awal atau akhir.Fungsi khusus dapat menghilangkan spasi tambahan dan hanya menyisakan spasi normal di antara kata-kata, sehingga menghilangkan "Juan García" atau frasa serupa yang merusak perbandingan.

Untuk data yang tersusun rapat, seperti kode gabungan atau nama dan фамилия dalam sel yang sama, akan sangat berguna untuk menggunakan fungsi ekstraksi dan penggabungan. Anda dapat ekstrak sebagian teks Menunjukkan dari posisi mana dan berapa banyak karakter yang ingin Anda ekstrak atau gabungkan beberapa string menjadi satu untuk merekonstruksi bidang yang lebih koheren.

Dalam kasus tanggal, jika tanggal tersebut datang sebagai teks dengan gaya yang berbeda, ada baiknya untuk mengubahnya menjadi format yang sesuai. Format tanggal standar berdasarkan tahun, bulan, dan hari.Dengan cara ini, spreadsheet memperlakukannya sebagai tanggal sungguhan, Anda dapat mengurutkannya dengan benar, dan perbandingan tidak lagi bergantung pada tampilan visual sel.

  Cara Mudah Memperbaiki Sistem yang Rusak di Excel

Saring nilai unik dan hapus duplikat dalam spreadsheet.

Selain alat pemformatan dan fungsi teks, Excel dan Google Sheets sama-sama memungkinkan Saring dengan cepat untuk hanya melihat nilai unik dari sebuah kolom atau sekumpulan kolom.Ini adalah cara yang sangat efektif untuk meninjau hasil sebelum membuat keputusan yang tidak dapat diubah.

Di beberapa lingkungan, Anda dapat menggunakan opsi pemfilteran lanjutan untuk menunjukkan bahwa Anda hanya ingin menampilkan baris dengan nilai unik di satu atau lebih kolom tertentu. Penyaringan ini tidak menghapus data, melainkan hanya menyembunyikan data duplikat untuk sementara waktu., yang menjadikannya langkah perantara yang sangat bijaksana.

Setelah Anda memastikan bahwa tampilan unik tersebut adalah yang Anda minati, Anda memiliki perintah khusus untuk Hapus duplikat langsung dari menu data.Biasanya, Anda mengakses sesuatu seperti "Data > Hapus Duplikat", di mana Anda memilih kolom mana yang akan dijadikan dasar perbandingan.

Opsi lain adalah menggunakan pemformatan bersyarat untuk menyoroti baik nilai duplikat maupun nilai unik, tergantung kebutuhan Anda. Misalnya, Anda dapat: Sorot baris yang hanya muncul sekali dengan warna cerah. dan menganalisis apakah itu catatan yang tidak lazim, kesalahan pemuatan, atau hanya kasus langka yang perlu dilestarikan.

Jika Anda bekerja dengan daftar dropdown atau validasi data, ada baiknya untuk membersihkannya juga. Anda dapat melakukan ini melalui menu validasi. mendefinisikan daftar tertutup yang mencegah masuknya variasi tipografi, sehingga mengurangi terjadinya duplikat palsu yang sebenarnya hanya kesalahan ketik.

Membersihkan data duplikat dalam basis data SQL dengan SELECT DISTINCT

Ketika kita beralih dari dunia spreadsheet ke dunia databasePendekatannya sedikit berbeda. Dalam SQL, salah satu alat pertama untuk mengelola informasi yang berulang adalah operator. DISTINCT, yang digunakan bersamaan dengan perintah SELECT untuk mengembalikan baris tanpa duplikat. dalam hasil kueri.

Idenya sederhana: saat membuat pernyataan SELECT, Anda dapat menambahkan kata kunci DISTINCT untuk menunjukkan bahwa Anda hanya menginginkan satu kali kemunculan untuk setiap kombinasi nilai. pada kolom yang dipilih. Dengan cara ini, jika baris logis yang sama diulang beberapa kali dalam tabel, kueri akan mengembalikan satu baris saja.

Penting untuk dipahami bahwa SELECT DISTINCT tidak menghapus apa pun dari basis data: Hal itu hanya memengaruhi hasil yang Anda lihat saat menjalankan kueri.Informasi asli tetap tidak berubah dalam tabel, yang sangat cocok untuk analisis eksplorasi di mana Anda belum ingin memodifikasi data.

Adapun sintaksnya, pola umumnya terdiri dari menggabungkan SELECT DISTINCT dengan daftar kolom yang Anda minati, diikuti oleh klausa FROM untuk menunjukkan tabel dan, secara opsional, Klausul WHERE untuk memfilter berdasarkan kondisi tertentuDengan cara ini, Anda dapat meminta, misalnya, pelanggan unik hanya dari satu negara atau produk berbeda dari kategori tertentu.

Pendekatan ini sangat berguna ketika Anda ingin mempersempit hasil ke entri yang tidak duplikat, baik untuk Dapatkan daftar pelanggan tanpa duplikasi karena beberapa pesanan., menampilkan daftar kode produk yang berbeda atau menghasilkan hitungan item unik dalam sebuah dataset.

Perbedaan antara DISTINCT dan cara lain untuk menghindari duplikasi di SQL

Meskipun kata BERBEDA dan UNIK mungkin terdengar mirip, Mereka tidak memainkan peran yang sama dalam ekosistem SQL.DISTINCT digunakan dalam kueri SELECT, memengaruhi baris yang dikembalikan; UNIQUE biasanya terkait dengan batasan dalam definisi tabel, menunjukkan bahwa bidang tertentu tidak boleh berisi nilai yang berulang.

Selain itu, dalam konteks dengan jumlah data yang besar, penggunaan SELECT DISTINCT dapat memakan banyak sumber daya kinerja, karena Mesin basis data perlu membandingkan semua kolom yang dipilih. untuk menentukan baris mana yang sama. Pada tabel besar atau tabel dengan banyak kolom, hal ini bisa menjadi rumit.

Oleh karena itu, dalam beberapa kasus ada baiknya mempertimbangkan alternatif. Salah satu yang paling umum adalah dengan menggunakan Gunakan GROUP BY untuk mengelompokkan baris berdasarkan satu atau lebih kolom. dan menerapkan fungsi agregasi (seperti COUNT, MIN, atau MAX) yang memungkinkan Anda meringkas data secara efisien.

  Tidak ada program yang terkait dengan file ini[DIPERBAIKI].

Anda juga dapat mengandalkan klausa seperti EXISTS untuk periksa apakah nilai-nilai tertentu ada di tabel lainIni menghindari penggabungan baris duplikat yang tidak perlu. Atau, Anda dapat menggunakan subkueri dengan klausa SELECT, FROM, dan WHERE yang terdefinisi dengan baik untuk menentukan dengan lebih tepat catatan mana yang ingin Anda ambil.

Saat Anda ingin menghitung berapa banyak nilai unik yang ada dalam sebuah kolom, biasanya Anda menggabungkan COUNT dengan DISTINCT, sehingga Anda mendapatkan jumlah elemen yang berbeda secara langsung. tanpa perlu memeriksa satu per satu secara manual.

Contoh praktis: pertanyaan dan alamat pelanggan tanpa duplikasi

Bayangkan Anda sedang bekerja dengan tabel pesanan di mana setiap baris mewakili pembelian yang dilakukan. Biasanya, Pelanggan yang sama akan muncul beberapa kali jika mereka telah melakukan lebih dari satu pesanan.Jika Anda hanya ingin melihat setiap pelanggan sekali saja, SELECT DISTINCT adalah alat yang sangat jelas.

Dalam skenario ini, Anda akan membuat kueri yang memilih kolom identifikasi pelanggan (misalnya, ID dan nama mereka) dan menerapkan DISTINCT ke Anda hanya akan menerima daftar setiap klien sekali saja., meskipun tabel aslinya memiliki sepuluh pesanan berbeda.

Hal serupa terjadi jika Anda perlu melihat semuanya. alamat pengiriman unik tempat produk telah dikirimJika setiap pesanan menyertakan alamat, tabel akan penuh dengan pengulangan; namun, dengan menambahkan DISTINCT pada kolom alamat, Anda dapat menghasilkan daftar titik pengiriman yang ringkas.

Jika Anda ingin fokus pada pelanggan dari area tertentu, Anda dapat menambahkan klausa WHERE untuk menunjukkan, misalnya, bahwa Anda hanya tertarik pada catatan dari negara tertentu.Dengan cara ini, SELECT DISTINCT hanya bekerja pada sebagian data dalam tabel, dan bukan pada seluruh data.

Di bidang perawatan kesehatan atau akademis, operator juga sangat praktis untuk data kelompok dari pasien atau penulis yang muncul beberapa kali dalam berbagai studi atau artikel, hanya menampilkan satu entri per entitas untuk tujuan analisis.

Mengelola referensi duplikat dalam basis data bibliografi

Dalam bidang dokumentasi ilmiah, basis data bibliografi biasanya menawarkan alat khusus untuk menghapus referensi duplikat Saat Anda melakukan pencarian di berbagai sumber, hal ini sangat penting untuk mencegah tinjauan pustaka Anda dipenuhi dengan artikel duplikat.

Pada sistem ini, biasanya terdapat perintah "Hapus duplikat" di dalam menu alat, yang Sistem ini menganalisis kumpulan hasil dan secara otomatis menghapus referensi duplikat.Sistem biasanya melaporkan berapa banyak elemen yang telah dihapus dan berapa banyak yang tersisa dalam himpunan saat ini.

Di banyak platform, Anda dapat mengkonfigurasi hal tersebut dari bagian preferensi. Penghapusan referensi duplikat dilakukan secara otomatis. setiap kali Anda melakukan pencarian baru. Ini menghemat banyak pekerjaan manual, meskipun disarankan untuk secara teratur memeriksa apakah kriteria duplikat sudah benar.

Selain penghapusan massal, pengelola ini memungkinkan Anda untuk memilih referensi tertentu secara manual untuk memutuskan apakah akan menyimpan atau menghapusnya. Tinjauan manual ini berguna ketika sistem tidak yakin apakah dua catatan sebenarnya adalah item yang sama. atau jika keduanya sesuai dengan versi yang berbeda (misalnya, versi pracetak dan versi final).

Setelah menghapus duplikat, kumpulan hasil diperbarui dan menunjukkan berkurangnya jumlah referensiKontrol numerik ini membantu memvalidasi bahwa proses debugging telah memberikan efek dan untuk mendokumentasikan proses tersebut dalam tinjauan sistematis atau laporan pencarian.

temukan duplikat di akses
Artikel terkait:
Menemukan dan Menghapus Duplikat di Access: Panduan Lengkap