Paano linisin ang mga duplicate na data sa mga database

Mundobytes » Compute » Mga database » Paano linisin ang mga duplicate na data sa mga database nang sunud-sunod

Ang dobleng datos ay nakakasira sa pagsusuri at mga desisyon, kaya mahalagang matukoy at makontrol ito bago ito gamitin.
Ang mga spreadsheet tulad ng Excel ay nagbibigay-daan sa iyong i-highlight, i-filter, at alisin ang mga duplicate sa pamamagitan ng pagsasama-sama ng conditional formatting, mga advanced na filter, at mga function ng teksto.
En mga database Ang SQL, SELECT DISTINCT at mga alternatibo tulad ng GROUP BY ay nakakatulong na makakuha ng mga resulta nang walang paulit-ulit na mga hilera nang hindi binabago ang orihinal na datos.
Ang mga kagamitan sa pamamahala ng bibliograpiya at mahusay na mga kasanayan sa pag-backup at paunang pagsusuri ay nakakabawas sa panganib ng pagkawala ng mga kaugnay na impormasyon sa pamamagitan ng pag-aalis ng mga duplikado.

Paglilinis ng mga duplicate na data sa mga database

Kapag nagtatrabaho ka sa mga database, mga spreadsheet o mga sistema ng impormasyon, ang Ang mga duplicate na data ay maaaring maging isang tunay na sakit ng uloAng mga paulit-ulit na tala, mga pangalang binabaybay sa libu-libong iba't ibang paraan, mga petsa na hindi maayos ang pagkaka-format, o mga dagdag na espasyo ay nagpapahirap sa mga pagsusuri at nagsasayang ng iyong oras sa manu-manong pagsuri kung ano ang maaaring makatulong sa iyo na linisin ng system sa loob lamang ng ilang segundo.

Ang magandang balita ay mayroon Mga makapangyarihang tool para sa paghahanap, pag-highlight, at pag-alis ng mga duplicate na data kapwa sa Excel at Google Mga sheet gaya ng sa Mga database ng SQL o mga kagamitan sa pamamahala ng bibliograpiya. Ang pag-unawa kung paano sila gumagana, kung paano sila nagkakaiba, at kung anong mga panganib ang dulot ng mga ito (tulad ng pagbura ng impormasyong maaari mong makaligtaan sa kalaunan) ay susi sa pagpapanatiling organisado ng iyong datos at kakayahang suriin ito nang may kapanatagan ng loob.

Bakit lumalabas ang mga duplicate na data at bakit ito isang problema?

Sa pagsasagawa, Ang mga duplikado ay nagmumula sa pagkakamali ng tao, paulit-ulit na pag-import, o mga sistemang hindi maayos ang koordinasyon.Ang mga form na isinumite nang dalawang beses, mga file na pinagsama-sama nang walang paunang paglilinis, o mga integrasyon sa pagitan ng mga application na hindi wastong nagpapatunay sa impormasyon ay ang perpektong lugar para mapuno ng mga duplicate na rekord ang iyong system.

Bukod sa mga halatang duplikado, makikita mo mga bahagyang pagkakaiba-iba na aktwal na kumakatawan sa parehong datosMga pangalang may magkahalong malalaki at maliliit na letra, mga dagdag na espasyo, magkakaibang pagdadaglat, o mga petsang may magkakaibang format na hindi kinikilala ng sistema bilang magkapareho, kahit na malinaw sa isang tao na pareho ang tinutukoy nila.

Malaki ang epekto: Pinipilit ang mga estadistika; pinalaki ang bilang ng mga kostumer o pasyente.Paulit-ulit ang mga email sa mga kampanya sa email, dinoble ang mga invoice, o labis na tinatantya ang bilang ng mga order. Maaari itong humantong sa mga maling desisyon, karagdagang gastos, at malaking kawalan ng tiwala sa kalidad ng data.

Samakatuwid, bago sumubok sa paggawa ng mga dashboard o mga advanced na pagsusuri, sulit na maglaan ng oras sa isang Mahusay na tool sa paglilinis ng datos para sa pagtuklas at pagwawasto ng mga hindi pagkakapare-parehoAng pag-aalis ng mga duplicate ay isang mahalagang bahagi ng prosesong ito, ngunit hindi lamang ito: kailangan mo ring gawing homogenous ang teksto, alisin ang mga kakaibang espasyo at gawing normal ang mga petsa.

Tukuyin at i-highlight ang mga duplicate na data sa mga spreadsheet

Ang mga kagamitang tulad ng Excel ay nag-aalok ng mga napaka-maginhawang function para sa upang mabilis na matukoy kung aling mga halaga ang inuulit sa isang hanay ng mga cellBago magbura ng kahit ano, ipinapayong gumamit ng biswal na format na makakatulong sa iyong suriin at mahinahong magdesisyon kung ano ang gusto mong itago.

Isang napakakaraniwang paraan upang magsimula ay sa pamamagitan ng... Conditional formatting upang i-highlight ang mga value na lumalabas nang higit sa isang besesSa ganitong paraan, hindi mo babaguhin ang nilalaman ng mga cell, minamarkahan mo lang ang mga ito para masuri mo ang mga ito.

Ang karaniwang daloy ng trabaho ay kinabibilangan muna ng pagpili ng mga cell na susuriin at pagkatapos ay paglalapat ng isang Panuntunan sa pag-format na may kondisyon na nagmamarka ng mga duplicate gamit ang ibang kulay ng background o fontNagbibigay-daan ito sa iyo na matukoy ang mga pattern: halimbawa, upang makita kung ang isang tao ay lumilitaw nang maraming beses sa isang listahan ng customer o kung ang ilang partikular na product code ay nairehistro nang higit sa isang beses.

Bukod pa rito, maaari mong pagsamahin ang awtomatikong pag-highlight na ito sa mga filter sa loob mismo ng spreadsheet upang Tingnan lamang ang mga row na apektado ng mga duplicate at suriin ang mga ito nang isa-isa.Nagbibigay ito sa iyo ng kontrol at binabawasan ang panganib ng aksidenteng pagbura ng mahahalagang impormasyon.

Ligtas na tanggalin ang mga dobleng halaga sa Excel

Kapag malinaw mo na kung aling mga pag-uulit ang hindi kinakailangan, isasama ng Excel ang isang partikular na function na tinatawag na "Alisin ang mga duplicate" na permanenteng nagtatanggal ng mga paulit-ulit na hileraDito ka dapat mag-ingat, dahil ang binura mo ay hindi madaling mabawi kung wala kang na-save na kopya.

Pag-aayos: Hindi Mabuksan ang Mga Contact sa Android Cellphone

Bago patakbuhin ang tool na ito, lubos na inirerekomenda Kopyahin ang orihinal na hanay ng data sa isa pang sheet o backup fileSa ganitong paraan, kung ang paglilinis ay magbunga ng hindi inaasahang resulta, maaari mong suriin ang iyong inalis at mabawi ang impormasyon nang walang anumang problema.

Ang pamamaraan ay batay sa pagpili ng hanay ng mga cell na gusto mong linisin at pagkatapos ay ipinapahiwatig kung aling mga column ang dapat ihambing ang mga halaga upang magpasya kung ang isang hilera ay nadoble. Kung pipili ka ng maraming column, tanging ang row na ang kumpletong kombinasyon ay tumutugma sa isa pang row ang ituturing na duplicate.na lubhang kapaki-pakinabang kapag nagtatrabaho sa kumplikadong datos.

Kapag nakumpirma na ang operasyon, aalisin ng Excel ang mga karagdagang hilera at Ipinapakita nito sa iyo ang buod ng kung gaano karaming mga duplicate ang nabura at kung gaano karaming mga natatanging tala ang natitira.Ang maikling ulat na ito ay makakatulong sa iyo na mapatunayan kung ang mga resulta ay tumutugma sa iyong inaasahan noong sinimulan mo ang paglilinis.

Dapat itong isipin na Ang pag-filter ng mga natatanging halaga ay hindi katulad ng pag-alis ng mga duplicate.Kapag nag-filter ka, pansamantala lamang nakatago ang mga duplicate row, ngunit naroon pa rin ang mga ito; ang pag-alis ng mga duplicate ay tuluyang magbubura sa mga ito. Kaya naman ang pagsisimula sa isang natatanging filter o conditional formatting ay isang mas maingat na estratehiya.

Mga pamantayan para sa pagsasaalang-alang sa isang halaga na maaaring i-duplicate

Kapag pinaghahambing ng mga spreadsheet tool ang mga duplicate, Ginagawa nila ito batay sa kung ano talaga ang nakikita sa selula, hindi sa pinagbabatayang halaga na binigyang-kahulugan.Mayroon itong ilang kakaibang mga kahihinatnan na kailangan mong malaman upang wala kang magulat.

Halimbawa, ang dalawang petsa na kumakatawan sa iisang araw ay maaaring hindi ituring na duplikado kung Ang isa ay nakasulat bilang “08/03/2006” at ang isa naman ay bilang “Marso 8, 2006”dahil magkakaiba ang nilalaman ng teksto kahit magkapareho ang kahulugan. Maaari rin itong mangyari sa mga pangalan at string na may magkakaibang espasyo o malaking titik.

Katulad nito, isang numerong nakaimbak bilang teksto at ang parehong numero sa numerical format Maaari silang ituring bilang magkakaibang halaga. Kaya naman napakahalagang i-normalize ang mga format bago subukang burahin nang maramihan ang mga duplicate na row.

Bago magsagawa ng agresibong paglilinis, sulit munang i-filter ang mga natatanging halaga o gumamit ng conditional formatting upang kumpirmahin. na ang pamantayan sa paghahambing ay gumagana ayon sa iyong iniisipAng pagtatakda ng mga patakarang ito sa simula pa lamang ay nakakapigil sa pagkawala ng wastong datos o pag-iiwan ng mga nakatagong duplikado.

Mga function ng teksto sa mga spreadsheet upang linisin ang maruming data

Malaking bahagi ng mga problema sa mga duplicate ay hindi nagmumula sa pag-uulit ng eksaktong parehong halaga, kundi sa katotohanan na Ang parehong impormasyon ay isinusulat sa bahagyang magkaibang paraanDiyan pumapasok ang mga function ng teksto sa Excel o Google Sheets upang gawing pamantayan at ihanda ang pundasyon bago alisin ang mga pag-uulit.

Karaniwang makakita ng mga kolum kung saan ang ilang pangalan ay nasa malalaking titik, ang iba ay nasa maliliit na titik, at ang iba ay random na pinaghalo. Para pag-isahin ang mga ito, mayroon kang mga function na Kino-convert nila ang lahat sa maliliit na titik, ang lahat sa malalaking titik, o pinapalaki lang ang unang titik ng bawat salita.Tinitiyak nito na sina “ANA PÉREZ”, “ana pérez” at “Ana Pérez” ay tratuhin nang magkapareho.

Mga teksto na may mga karagdagang espasyo, kapwa sa loob ng kadena at sa simula o duloKayang alisin ng isang espesyalisadong tungkulin ang mga sobrang espasyo at mag-iwan lamang ng normal na espasyo sa pagitan ng mga salita, kaya inaalis ang "Juan García" o mga katulad na parirala na sumisira sa mga paghahambing.

Para sa datos na magkakasamang naka-empake, tulad ng mga pinagsamang code o mga pangalan at apelyido sa iisang cell, kapaki-pakinabang ang paggamit ng mga extraction at union function. Maaari mong kumuha ng isang bahagi ng teksto na nagpapahiwatig kung saang posisyon at kung ilang karakter ang gusto mong kunin o pagsamahin ang ilang string sa isa upang muling buuin ang mas magkakaugnay na mga field.

Sa kaso ng mga petsa, kung ang mga ito ay dumating bilang teksto na may iba't ibang estilo, mainam na baguhin ang mga ito sa isang karaniwang format ng petsa batay sa taon, buwan, at arawSa ganitong paraan, tinatrato sila ng mga spreadsheet bilang mga totoong petsa, maaari mo silang pagbukud-bukurin nang tama, at ang mga paghahambing ay hindi na nakadepende sa biswal na anyo ng cell.

Mga Madaling Paraan para Ayusin ang Sirang System sa Excel

Salain ang mga natatanging halaga at alisin ang mga duplicate sa mga spreadsheet

Bukod sa mga tool sa pag-format at mga function ng teksto, parehong pinapayagan ng Excel at Google Sheets Mabilis na i-filter upang makita lamang ang mga natatanging halaga mula sa isang column o isang hanay ng mga columnIto ay isang napaka-epektibong paraan upang suriin ang mga resulta bago gumawa ng mga hindi na mababawi na desisyon.

Sa ilang mga kapaligiran, maaari mong gamitin ang mga advanced na opsyon sa pagsala upang ipahiwatig na gusto mo lamang ipakita ang mga hilera na may mga natatanging halaga sa isa o higit pang mga partikular na hanay. Hindi binubura ng pag-filter na ito ang data, pansamantala lamang nitong itinatago ang mga duplicate., na ginagawa itong isang napaka-maingat na pansamantalang hakbang.

Kapag nakumpirma mo na ang natatanging view ang siyang interesado ka, mayroon ka nang comandos tiyak para sa Alisin ang mga duplicate nang direkta mula sa mga menu ng dataKadalasan, may ina-access kang parang "Data > Remove Duplicates", kung saan mo pipiliin kung aling mga column ang pagbabatayan ng paghahambing.

Ang isa pang pagpipilian ay ang paggamit ng conditional formatting upang i-highlight ang parehong mga duplicate at natatanging mga value, depende sa iyong mga pangangailangan. Halimbawa, maaari mong: I-highlight gamit ang maliwanag na kulay ang mga hilera na lumilitaw nang isang beses lamang at suriin kung ang mga ito ay mga hindi pangkaraniwang talaan, mga error sa paglo-load, o mga madalang na kaso lamang na kailangang mapanatili.

Kung gumagamit ka ng mga dropdown list o data validation, makatuwiran din na linisin ang mga ito. Magagawa mo ito sa pamamagitan ng mga menu ng validation. tukuyin ang mga saradong listahan na pumipigil sa pagpapakilala ng mga baryasyon sa tipograpiko, kaya binabawasan ang paglitaw ng mga maling duplikado na sa totoo lang ay mga typo lamang.

Paglilinis ng mga duplicate sa mga database ng SQL gamit ang SELECT DISTINCT

Noong lumipat tayo mula sa mundo ng mga spreadsheet patungo sa mundo ng mga databaseBahagyang nagbabago ang pamamaraan. Sa SQL, isa sa mga unang kagamitan para sa pamamahala ng paulit-ulit na impormasyon ay ang operator DISTINCT, na ginagamit kasabay ng utos na SELECT upang magbalik ng mga hilera nang walang mga duplikado sa mga resulta ng isang query.

Simple lang ang ideya: kapag bumubuo ng SELECT statement, maaari mong idagdag ang DISTINCT keyword para ipahiwatig na Isang paglitaw lang ng bawat kombinasyon ng mga halaga ang gusto mo sa mga napiling kolum. Sa ganitong paraan, kung ang parehong lohikal na hilera ay inulit nang ilang beses sa talahanayan, ang query ay magbabalik ng isang linya lamang.

Mahalagang maunawaan na ang SELECT DISTINCT ay hindi nagtatanggal ng kahit ano mula sa database: Nakakaapekto lamang ito sa resultang nakikita mo kapag pinatakbo mo ang query.Ang orihinal na impormasyon ay nananatiling hindi nagbabago sa mga talahanayan, na perpekto para sa eksplorasyong pagsusuri kung saan hindi mo pa gustong baguhin ang datos.

Kung tungkol sa sintaks, ang pangkalahatang padron ay binubuo ng pagsasama ng SELECT DISTINCT sa listahan ng mga kolum na interesado ka, na sinusundan ng sugnay na FROM upang ipahiwatig ang talahanayan at, opsyonal, isang sugnay na WHERE upang i-filter ayon sa mga partikular na kundisyonSa ganitong paraan, maaari kang humiling, halimbawa, ng mga natatanging customer mula sa iisang bansa lamang o iba't ibang produkto mula sa isang partikular na kategorya.

Ang pamamaraang ito ay lubhang kapaki-pakinabang kapag gusto mong paliitin ang mga resulta sa mga hindi nadobleng entry, maging para sa Kumuha ng listahan ng mga customer nang walang pagdoble dahil sa maraming order, magpakita ng listahan ng mga natatanging product code o bumuo ng bilang ng mga natatanging item sa isang dataset.

Mga pagkakaiba sa pagitan ng DISTINCT at iba pang mga paraan upang maiwasan ang mga duplicate sa SQL

Bagama't maaaring magkatulad ang tunog ng DISTINCT at UNIQUE, Hindi pareho ang kanilang ginagampanang papel sa loob ng SQL ecosystemGumagana ang DISTINCT sa mga query na SELECT, na nakakaapekto sa mga row na ibinalik; ang UNIQUE ay karaniwang nauugnay sa mga paghihigpit sa kahulugan ng mga talahanayan, na nagpapahiwatig na ang ilang partikular na field ay hindi maaaring maglaman ng mga paulit-ulit na halaga.

Bukod pa rito, sa mga kontekstong may malalaking dami ng datos, ang paggamit ng SELECT DISTINCT ay maaaring maging masinsinan sa pagganap, dahil Kailangang ihambing ng database engine ang lahat ng napiling column. para matukoy kung aling mga hanay ang magkapareho. Sa malalaking talahanayan o mga talahanayan na may maraming hanay, maaari itong maging mahirap.

Samakatuwid, sa ilang mga pagkakataon, sulit na isaalang-alang ang mga alternatibo. Isa sa mga pinakakaraniwan ay ang paggamit ng GROUP BY para pangkatin ang mga hilera ayon sa isa o higit pang mga hanay at maglapat ng mga function ng aggregation (tulad ng COUNT, MIN, o MAX) na nagbibigay-daan sa iyong ibuod ang data nang mahusay.

Walang program na nauugnay sa file na ito[FIXED].

Maaari ka ring umasa sa mga sugnay tulad ng EXISTS para sa suriin kung ang ilang mga halaga ay naroroon sa ibang talahanayanNaiiwasan nito ang pagsasama-sama ng mga hindi kinakailangang duplicate na row. O, maaari kang gumamit ng mga subquery na may mahusay na natukoy na mga sugnay na SELECT, FROM, at WHERE upang mas mahusay na matukoy kung aling mga record ang gusto mong kunin.

Kapag gusto mong bilangin kung ilang natatanging halaga ang nasa isang column, karaniwan na pagsamahin ang COUNT at DISTINCT, para Direktang makukuha mo ang bilang ng iba't ibang elemento. nang hindi na kailangang manu-manong suriin ang bawat isa sa mga ito.

Mga praktikal na halimbawa: mga katanungan at address ng customer nang walang mga duplikado

Isipin mong gumagamit ka ng isang order table kung saan ang bawat row ay kumakatawan sa isang binili. Karaniwan na Lilitaw ang parehong kostumer nang maraming beses kung nakapag-order na sila ng higit sa isang beses.Kung isang beses mo lang gustong makita ang bawat customer, ang SELECT DISTINCT ay isang napakalinaw na tool.

Sa sitwasyong ito, bubuo ka ng query na pipili ng mga column ng pagkakakilanlan ng customer (halimbawa, ang kanilang ID at ang kanilang pangalan) at ilalapat ang DISTINCT sa makatanggap ng listahan para sa bawat kliyente nang isang beses lamang., bagama't ang orihinal na mesa ay may sampung magkakaibang order.

May katulad na mangyayari kung kailangan mong makita ang lahat ng mga natatanging address sa pagpapadala kung saan ipinadala ang mga produktoKung ang bawat order ay may kasamang address, ang talahanayan ay mapupuno ng mga pag-uulit; gayunpaman, gamit ang DISTINCT sa mga column ng address, maaari kang bumuo ng isang siksik na listahan ng mga shipping point.

Kapag gusto mong tumuon sa mga customer mula sa isang partikular na lugar, maaari kang magdagdag ng WHERE clause para ipahiwatig, halimbawa, na Interesado ka lang sa mga rekord mula sa isang partikular na bansaSa ganitong paraan, ang SELECT DISTINCT ay kumikilos sa isang subset ng talahanayan, at hindi sa lahat ng data.

Sa larangan ng pangangalagang pangkalusugan o akademiko, ang operator ay praktikal din para sa pangkatang datos mula sa mga pasyente o may-akda na lumilitaw nang maraming beses sa iba't ibang pag-aaral o artikulo, na nagpapakita lamang ng isang entry bawat entity para sa mga layunin ng pagsusuri.

Pamamahala ng mga dobleng sanggunian sa mga bibliograpikong database

Sa larangan ng dokumentasyong siyentipiko, ang mga bibliograpikong database ay karaniwang nag-aalok ng mga partikular na tool para sa pag-alis ng mga dobleng sanggunian Kapag nagsasagawa ka ng mga paghahanap sa iba't ibang mapagkukunan, mahalaga ito upang maiwasan ang pagkapuno ng mga duplikadong artikulo sa iyong mga pagsusuri sa literatura.

Sa mga sistemang ito, karaniwang mayroong utos na "Alisin ang mga duplicate" sa loob ng menu ng mga tool, na Sinusuri nito ang hanay ng resulta at awtomatikong inaalis ang mga dobleng sanggunian.Karaniwang iniuulat ng sistema kung gaano karaming elemento ang nabura at kung ilan ang natitira sa kasalukuyang set.

Sa maraming platform, maaari mong i-configure, mula sa seksyon ng mga kagustuhan, na Ang pag-alis ng mga dobleng sanggunian ay awtomatikong ginagawa. sa bawat pagkakataong magsagawa ka ng bagong paghahanap. Nakakatipid ito ng maraming manu-manong trabaho, bagama't ipinapayong regular na suriin kung tama ang mga duplicate na pamantayan.

Bukod sa maramihang pagtanggal, pinapayagan ka ng mga tagapamahalang ito na manu-manong pumili ng mga partikular na sanggunian upang magpasya kung itatago o tatanggalin ang mga ito. Kapaki-pakinabang ang manu-manong pagsusuring ito kapag hindi sigurado ang sistema kung ang dalawang talaan ay talagang iisang item. o kung tumutugma ang mga ito sa iba't ibang bersyon (halimbawa, mga preprint at mga pinal na bersyon).

Pagkatapos alisin ang mga duplicate, ia-update ang resulta at nagpapakita ng nabawasang bilang ng mga sanggunianNakakatulong ang numerical control na ito upang mapatunayan na nagkaroon ng epekto ang debugging at upang idokumento ang proseso sa mga sistematikong pagsusuri o ulat ng paghahanap.

Kaugnay na artikulo:

Paghahanap at Pag-alis ng mga Duplicate sa Access: Isang Kumpletong Gabay

Isaac

Masigasig na manunulat tungkol sa mundo ng mga byte at teknolohiya sa pangkalahatan. Gustung-gusto kong ibahagi ang aking kaalaman sa pamamagitan ng pagsusulat, at iyon ang gagawin ko sa blog na ito, ipakita sa iyo ang lahat ng mga pinaka-kagiliw-giliw na bagay tungkol sa mga gadget, software, hardware, teknolohikal na uso, at higit pa. Ang layunin ko ay tulungan kang mag-navigate sa digital na mundo sa simple at nakakaaliw na paraan.