Kaip žingsnis po žingsnio išvalyti pasikartojančius duomenis duomenų bazėse

Paskutiniai pakeitimai: 12/12/2025
Autorius: Izaokas
  • Pasikartojantys duomenys iškreipia analizę ir sprendimus, todėl prieš pradedant su jais dirbti, būtina juos aptikti ir kontroliuoti.
  • Skaičiuoklės, tokios kaip „Excel“, leidžia paryškinti, filtruoti ir pašalinti pasikartojančius elementus derinant sąlyginį formatavimą, išplėstinius filtrus ir teksto funkcijas.
  • En duomenų bazės SQL, SELECT DISTINCT ir alternatyvos, tokios kaip GROUP BY, padeda gauti rezultatus be pasikartojančių eilučių, nekeičiant pradinių duomenų.
  • Bibliografijos valdymo įrankiai ir gera atsarginių kopijų kūrimo bei išankstinio peržiūros praktika sumažina svarbios informacijos praradimo riziką, pašalinant dublikatus.

Duomenų bazių pasikartojančių duomenų valymas

Kai dirbate su duomenų bazėmis, skaičiuoklės arba informacinių sistemų Pasikartojantys duomenys gali tapti tikru galvos skausmuPasikartojantys įrašai, tūkstančiu skirtingais būdais parašyti vardai, prastai suformatuotos datos ar papildomi tarpai daro analizę nepatikimą ir švaisto jūsų laiką rankiniu būdu tikrinant, ką sistema galėtų padėti jums sutvarkyti per kelias sekundes.

Geros naujienos yra tai, kad yra Galingi įrankiai pasikartojančių duomenų paieškai, paryškinimui ir šalinimui tiek „Excel“, tiek "Google" Lakštai kaip ir SQL duomenų bazės arba bibliografinių valdymo įrankių. Supratimas, kaip jie veikia, kuo skiriasi ir kokią riziką kelia (pvz., informacijos, kurios vėliau galite nepastebėti, ištrynimas), yra labai svarbus norint tvarkyti duomenis ir juos ramiai analizuoti.

Kodėl atsiranda pasikartojančių duomenų ir kodėl jie yra problema?

Praktikoje, Dublikatai atsiranda dėl žmogiškųjų klaidų, pakartotinio importo arba prastai koordinuotų sistemų.Du kartus pateiktos formos, be išankstinio valymo sujungti failai arba programų integracijos, kurios tinkamai nepatvirtina informacijos, yra puiki terpė jūsų sistemai užsipildyti pasikartojančiais įrašais.

Be akivaizdžių dublikatų, rasite ir nedideli variantai, kurie iš tikrųjų atspindi tuos pačius duomenisVardai ir pavardės su mišriomis didžiosiomis ir mažosiomis raidėmis, papildomais tarpais, skirtingomis santrumpomis arba datomis skirtingais formatais, kurių sistema neatpažįsta kaip vienodų, nors žmogui akivaizdu, kad jie nurodo tą patį dalyką.

Poveikis yra reikšmingas: Statistika yra iškreipta; klientų ar pacientų skaičius yra išpūstas.El. pašto kampanijose el. laiškai kartojami, sąskaitos faktūros dubliuojamos arba užsakymų skaičius pervertinamas. Tai gali lemti prastus sprendimus, papildomas išlaidas ir didelį pasitikėjimo duomenų kokybe stoką.

Todėl prieš pradedant kurti ataskaitų suvestines ar atlikti išplėstines analizes, verta skirti laiko Puiki duomenų valymo priemonė neatitikimams aptikti ir ištaisytiDublikatų šalinimas yra pagrindinė šio proceso dalis, bet ne vienintelė: jūs taip pat turite homogenizuoti tekstą, pašalinkite keistus tarpus ir normalizuokite datas.

Aptikti ir paryškinti pasikartojančius duomenis skaičiuoklėse

Tokios priemonės kaip „Excel“ siūlo labai patogias funkcijas greitai nustatyti, kurios reikšmės kartojasi langelių diapazonePrieš ką nors ištrinant, patartina naudoti vaizdinį formatą, kuris padėtų peržiūrėti ir ramiai nuspręsti, ką norite išsaugoti.

Labai įprastas būdas pradėti yra... Sąlyginis formatavimas, skirtas paryškinti reikšmes, kurios pasirodo daugiau nei vieną kartąTokiu būdu nekeičiate langelių turinio, o tiesiog pažymite juos, kad galėtumėte juos analizuoti.

Įprasta darbo eiga apima pirmiausia peržiūrimų langelių pasirinkimą ir tada atspalvio taikymą. Sąlyginio formatavimo taisyklė, kuri žymi dublikatus su skirtinga fono spalva arba šriftuTai leidžia nustatyti modelius: pavyzdžiui, pamatyti, ar asmuo klientų sąraše pasirodo kelis kartus arba ar tam tikri produktų kodai buvo užregistruoti daugiau nei vieną kartą.

Be to, šį automatinį paryškinimą galite derinti su filtrais pačioje skaičiuoklėje, kad Peržiūrėkite tik tas eilutes, kuriose yra dublikatų, ir peržiūrėkite jas po vieną.Tai suteikia jums kontrolę ir sumažina netyčinio svarbios informacijos ištrynimo riziką.

Saugiai pašalinkite pasikartojančias reikšmes programoje „Excel“

Kai jau aiškiai nustatysite, kurie pasikartojimai nereikalingi, „Excel“ įtraukia specialią funkciją, vadinamą „Pašalinti dublikatus“, kuris visam laikui ištrina pasikartojančias eilutesČia reikia elgtis atsargiai, nes ištrintų duomenų atkurti nebus lengva, jei neišsaugojote jų kopijos.

  Taisymas: „Android“ mobiliajame telefone negalima atidaryti kontaktų

Prieš naudojant šį įrankį, labai rekomenduojama Nukopijuokite pradinį duomenų diapazoną į kitą lapą arba atsarginės kopijos failąTokiu būdu, jei valymas duos netikėtų rezultatų, galėsite peržiūrėti, ką pašalinote, ir atkurti informaciją be jokių problemų.

Procedūra pagrįsta norimų išvalyti langelių diapazono pasirinkimu ir stulpelių, kuriuose reikšmės turėtų būti lyginamos, nurodymu, ar eilutė dubliuojama. Jei pasirinksite kelis stulpelius, dublikatu bus laikoma tik ta eilutė, kurios visas derinys sutampa su kita eilute.kuris labai naudingas dirbant su sudėtingais duomenimis.

Patvirtinus operaciją, „Excel“ pašalina papildomas eilutes ir Tai rodo suvestinę, kiek dublikatų buvo ištrinta ir kiek unikalių įrašų liko.Ši trumpa ataskaita padeda patikrinti, ar rezultatai atitinka jūsų lūkesčius pradedant valyti.

Reikėtų nepamiršti to Unikalių reikšmių filtravimas nėra tas pats, kas dublikatų šalinimas.Kai filtruojate, pasikartojančios eilutės paslepiamos tik laikinai, bet jos vis tiek yra; pašalinus pasikartojančius elementus, jie ištrinami visiškai. Todėl pradėti nuo unikalaus filtro arba sąlyginio formatavimo yra apdairesnė strategija.

Kriterijai, pagal kuriuos reikšmė laikoma dubliuota

Kai skaičiuoklių įrankiai lygina dublikatus, Jie tai daro remdamiesi tuo, kas iš tikrųjų matoma ląstelėje, o ne pagrindine interpretuojama verte.Tai turi keletą įdomių pasekmių, kurias turite žinoti, kad nekiltų jokių netikėtumų.

Pavyzdžiui, dvi datos, kurios yra ta pati diena, negali būti laikomos pasikartojančiomis, jei Vienas parašytas kaip „2006-03-08“, o kitas – kaip „2006 m. kovo 8 d.“nes teksto turinys skiriasi, net jei reikšmė yra identiška. Tas pats gali nutikti ir su pavadinimais bei eilutėmis, kuriose yra skirtingi tarpai arba didžiosios raidės.

Panašiai skaičius, saugomas kaip tekstas, ir tas pats skaičius skaitmeniniu formatu Juos galima laikyti skirtingomis reikšmėmis. Štai kodėl taip svarbu normalizuoti formatus prieš bandant masiškai ištrinti pasikartojančias eilutes.

Prieš atliekant agresyvų valymą, verta pirmiausia filtruoti pagal unikalias reikšmes arba naudoti sąlyginį formatavimą, kad patvirtintumėte. kad palyginimo kriterijus veikia taip, kaip manoteNustačius šias žaidimo taisykles nuo pat pradžių, neprarandami galimi duomenys arba lieka užmaskuoti dublikatai.

Teksto funkcijos skaičiuoklėse, skirtos išvalyti nešvarius duomenis

Didžioji dalis problemų dėl dublikatų kyla ne dėl to, kad kartojasi ta pati reikšmė, o dėl to, kad Ta pati informacija parašyta šiek tiek skirtingais būdaisŠtai čia ir praverčia „Excel“ arba „Google“ skaičiuoklių teksto funkcijos, kurios standartizuoja ir paruošia pagrindą prieš pašalinant pasikartojimus.

Labai dažnai pasitaiko stulpelių, kuriuose vieni pavadinimai parašyti didžiosiomis raidėmis, kiti – mažosiomis, o kiti – atsitiktinai sumaišyti. Norėdami juos suvienodinti, turite funkcijas, kurios Jie viską konvertuoja į mažąsias raides, viską į didžiąsias arba didžiąją raidę rašo tik pirmoji kiekvieno žodžio raidė.Tai užtikrina, kad su „ANA PÉREZ“, „ana pérez“ ir „Ana Pérez“ būtų elgiamasi vienodai.

Tekstai su papildomi tarpai tiek grandinės viduje, tiek pradžioje arba pabaigojeSpecializuota funkcija gali pašalinti papildomus tarpus ir palikti tik įprastą tarpą tarp žodžių, taip panaikinant „Juan García“ ar panašias frazes, kurios nutraukia palyginimus.

Duomenims, kurie yra glaudžiai supakuoti, pvz., sujungtiems kodams arba vardams ir pavardėms tame pačiame langelyje, naudinga naudoti ištraukimo ir sujungimo funkcijas. Galite ištraukti dalį teksto nurodant, iš kurios pozicijos ir kiek simbolių norite išskirti arba sujungti kelias eilutes į vieną, kad būtų atkurti darnesni laukai.

Datų atveju, jei jos pateikiamos kaip tekstas su skirtingais stiliais, geriausia jas transformuoti į standartinis datos formatas, pagrįstas metais, mėnesiu ir dienaTokiu būdu skaičiuoklės jas traktuoja kaip tikras datas, galite jas teisingai rūšiuoti, o palyginimai nebepriklauso nuo langelio vizualinės išvaizdos.

  Paprasti būdai, kaip sutvarkyti sugedusią sistemą programoje „Excel“.

Filtruokite unikalias reikšmes ir pašalinkite dublikatus skaičiuoklėse

Be formatavimo įrankių ir teksto funkcijų, tiek „Excel“, tiek „Google“ skaičiuoklės leidžia Greitai filtruokite, kad matytumėte tik unikalias reikšmes iš stulpelio arba stulpelių rinkinioTai labai efektyvus būdas peržiūrėti rezultatus prieš priimant negrįžtamus sprendimus.

Kai kuriose aplinkose galite naudoti išplėstines filtravimo parinktis, kad nurodytumėte, jog norite rodyti tik eilutes su unikaliomis reikšmėmis viename ar keliuose konkrečiuose stulpeliuose. Šis filtravimas neištrina duomenų, jis tiesiog laikinai paslepia dublikatus., todėl tai labai apdairus tarpinis žingsnis.

Kai patvirtinsite, kad jus domina unikalus rodinys, turėsite komandos specifinis Pašalinkite dublikatus tiesiai iš duomenų meniuPaprastai galite pasiekti kažką panašaus į „Duomenys > Pašalinti dublikatus“, kur pasirenkate, kuriais stulpeliais bus grindžiamas palyginimas.

Kita galimybė – naudoti sąlyginį formatavimą, kad būtų paryškintos ir pasikartojančios, ir unikalios reikšmės, atsižvelgiant į jūsų poreikius. Pavyzdžiui, galite: Ryškia spalva paryškinkite eilutes, kurios rodomos tik vieną kartą ir išanalizuoti, ar tai netipiniai įrašai, įkėlimo klaidos, ar tiesiog reti atvejai, kuriuos reikia išsaugoti.

Jei dirbate su išskleidžiamaisiais sąrašais arba duomenų patvirtinimu, labai prasminga juos taip pat išvalyti. Tai galite padaryti naudodami patvirtinimo meniu. apibrėžti uždarus sąrašus, kurie neleidžia įvesti tipografinių variantų, taip sumažinant klaidingų dublikatų, kurie iš tikrųjų yra tik rašybos klaidos, atsiradimą.

SQL duomenų bazių dublikatų valymas naudojant SELECT DISTINCT

Kai perėjome iš skaičiuoklių pasaulio į duomenų bazėsŠis metodas šiek tiek pasikeičia. SQL kalboje vienas iš pirmųjų įrankių pasikartojančiai informacijai valdyti yra operatorius DISTINCT, kuri naudojama kartu su SELECT komanda, norint grąžinti eilutes be pasikartojančių eilučių užklausos rezultatuose.

Idėja paprasta: kurdami SELECT sakinį, galite pridėti raktinį žodį DISTINCT, kad nurodytumėte, jog Jums reikia tik vieno kiekvieno reikšmių derinio pasikartojimo pasirinktuose stulpeliuose. Tokiu būdu, jei ta pati loginė eilutė lentelėje kartojasi kelis kartus, užklausa grąžins vieną eilutę.

Svarbu suprasti, kad SELECT DISTINCT nieko neištrina iš duomenų bazės: Tai paveikia tik rezultatą, kurį matote paleisdami užklausą.Pradinė informacija lentelėse lieka nepakitusi, o tai puikiai tinka tiriamajai analizei, kai dar nenorite modifikuoti duomenų.

Kalbant apie sintaksę, bendras modelis susideda iš SELECT DISTINCT sujungimo su jus dominančių stulpelių sąrašu, po kurio seka FROM sakinys, nurodantis lentelę, ir, pasirinktinai, WHERE sąlyga, skirta filtruoti pagal konkrečias sąlygasTokiu būdu galite, pavyzdžiui, užklausti unikalių klientų tik iš vienos šalies arba skirtingų produktų iš konkrečios kategorijos.

Šis metodas yra labai naudingas, kai norite susiaurinti rezultatus iki nesikartojančių įrašų, nesvarbu, ar tai būtų Gaukite klientų sąrašą be dublikavimo dėl kelių užsakymų, rodyti atskirų produktų kodų sąrašą arba sugeneruoti unikalių elementų skaičių duomenų rinkinyje.

DISTINCT ir kitų būdų, kaip išvengti dublikatų SQL, skirtumai

Nors DISTINCT ir UNIQUE gali skambėti panašiai, Jie nevaidina to paties vaidmens SQL ekosistemojeFunkcija DISTINCT veikia SELECT užklausose, paveikdama grąžinamas eilutes; UNIQUE paprastai susijusi su lentelių apibrėžimo apribojimais, nurodančiais, kad tam tikruose laukuose negali būti pasikartojančių reikšmių.

Be to, esant dideliems duomenų kiekiams, SELECT DISTINCT naudojimas gali būti našiai veikiantis, nes Duomenų bazės variklis turi palyginti visus pasirinktus stulpelius. norint nustatyti, kurios eilutės yra vienodos. Didelėse lentelėse arba lentelėse su daugybe stulpelių tai gali būti sudėtinga.

Todėl kai kuriais atvejais verta apsvarstyti alternatyvas. Vienas iš labiausiai paplitusių yra naudoti GROUP BY, kad grupuotumėte eilutes pagal vieną ar daugiau stulpelių ir taikyti agregavimo funkcijas (pvz., COUNT, MIN arba MAX), kurios leidžia efektyviai apibendrinti duomenis.

  Su šiuo failu nėra susietos programos[FIXED].

Taip pat galite pasikliauti tokiomis išlygomis kaip EXISTS, skirtomis patikrinkite, ar tam tikros reikšmės yra kitoje lentelėjeTaip išvengiama nereikalingų pasikartojančių eilučių sujungimo. Arba galite naudoti papildomas užklausas su aiškiai apibrėžtomis SELECT, FROM ir WHERE sąlygomis, kad geriau nurodytumėte, kuriuos įrašus norite gauti.

Kai norite suskaičiuoti, kiek unikalių reikšmių yra stulpelyje, įprasta derinti COUNT su DISTINCT, kad Jūs tiesiogiai gaunate skirtingų elementų skaičių. nereikės kiekvieno iš jų tikrinti rankiniu būdu.

Praktiniai pavyzdžiai: klientų užklausos ir adresai be pasikartojančių eilučių

Įsivaizduokite, kad dirbate su užsakymų lentele, kurioje kiekviena eilutė reiškia atliktą pirkimą. Įprasta, kad Tas pats klientas bus rodomas kelis kartus, jei pateikė daugiau nei vieną užsakymą.Jei norite matyti kiekvieną klientą tik vieną kartą, „SELECT DISTINCT“ yra labai aiškus įrankis.

Tokiu atveju sukurtumėte užklausą, kuri pasirinktų kliento identifikavimo stulpelius (pvz., jų ID ir vardą) ir pritaikytų DISTINCT funkciją. gauti kiekvieno kliento sąrašą tik vieną kartą., nors originalioje lentelėje yra dešimt skirtingų eilių.

Kažkas panašaus nutinka, jei jums reikia pamatyti viską unikalūs pristatymo adresai, į kuriuos buvo išsiųsti produktaiJei kiekviename užsakyme yra adresas, lentelėje bus daug pasikartojimų; tačiau įvedus DISTINCT adreso stulpeliuose, galite sugeneruoti kompaktišką pristatymo taškų sąrašą.

Kai norite sutelkti dėmesį į klientus iš konkrečios srities, galite pridėti sąlygą WHERE, kad nurodytumėte, pavyzdžiui, kad Jus domina tik įrašai iš konkrečios šaliesTokiu būdu SELECT DISTINCT veikia lentelės pogrupį, o ne visus duomenis.

Sveikatos priežiūros ar akademinėse srityse operatorius taip pat yra labai praktiškas grupės duomenis iš pacientų arba autorių, kurie pasirodo kelis kartus skirtinguose tyrimuose ar straipsniuose, analizės tikslais rodant tik vieną įrašą kiekvienam subjektui.

Pasikartojančių nuorodų tvarkymas bibliografinėse duomenų bazėse

Mokslinės dokumentacijos srityje bibliografinės duomenų bazės paprastai siūlo specialūs įrankiai pasikartojančioms nuorodoms pašalinti Kai atliekate paiešką skirtinguose šaltiniuose, tai labai svarbu, kad jūsų literatūros apžvalgos nebūtų užpildytos pasikartojančiais straipsniais.

Šiose sistemose įrankių meniu paprastai yra komanda „Pašalinti dublikatus“, kuri Jis analizuoja rezultatų rinkinį ir automatiškai pašalina pasikartojančias nuorodas.Sistema paprastai praneša, kiek elementų buvo ištrinta ir kiek jų liko dabartiniame rinkinyje.

Daugelyje platformų nuostatų skiltyje galite sukonfigūruoti Pasikartojančių nuorodų pašalinimas atliekamas automatiškai. kiekvieną kartą atliekant naują paiešką. Tai sutaupo daug rankinio darbo, nors patartina reguliariai tikrinti, ar pasikartojantys kriterijai yra teisingi.

Be masinio trynimo, šie tvarkytuvai leidžia rankiniu būdu pasirinkti konkrečias nuorodas ir nuspręsti, ar jas išsaugoti, ar ištrinti. Ši rankinė peržiūra naudinga, kai sistema nėra tikra, ar du įrašai iš tikrųjų yra tas pats elementas. arba jei jie atitinka skirtingas versijas (pavyzdžiui, išankstinius ir galutinius leidimus).

Pašalinus dublikatus, rezultatų rinkinys atnaujinamas ir rodo sumažėjusį nuorodų skaičiųŠi skaitmeninė kontrolė padeda patvirtinti, kad derinimas turėjo poveikį, ir dokumentuoti procesą sisteminėse apžvalgose arba paieškos ataskaitose.

rasti dublikatus „Access“ sistemoje
Susijęs straipsnis:
Dublikatų paieška ir šalinimas programoje „Access“: išsamus vadovas