- Kombinim optimal i Pandas dhe NumPy për analizën numerike dhe manipulimin e të dhënave.
- Vizualizim i avancuar me Matplotlib dhe Seaborn: nga grafikët e thjeshtë te hartat e nxehtësisë.
- Shembuj të plotë praktikë që kombinojnë pastrimin e të dhënave, analizën dhe vizualizimin.
- Aplikime të botës reale në shkencën e të dhënave duke përdorur grupe të dhënash reale, me kod dhe shpjegime.
Shkenca e të dhënave është bërë një nga degët më të fuqishme dhe më të kërkuara të teknologjisë. Piton, si një gjuhë e programimi Fleksibël dhe i arritshëm, ofron mjete të shumta për të trajtuar projekte komplekse të analizës së të dhënave. Këto përfshijnë Pandas, i mprehtë, matplotlib y I lindur në det, katër biblioteka tepër të dobishme që mund t'ju ndihmojnë shndërroni sasi të mëdha informacioni në njohuri të zbatueshme.
Pavarësisht nëse sapo keni filluar në këtë botë apo thjesht doni të përmirësoni aftësitë tuaja, ky udhëzues gjithëpërfshirës do t'ju tregojë se si t'i kombinoni këto biblioteka për të kryer gjithçka, nga operacionet bazë të pastrimit deri te vizualizimet statistikore të avancuara. Gjithçka shpjegohet me shembuj praktikë, gjuhë natyrore dhe një qasje 100% të zbatueshme.
Pse të përdorim Pandas, NumPy, Matplotlib dhe Seaborn së bashku?
Një nga sekretet e mëdha të shkencëtarëve më efikasë të të dhënave është të dinë si të integrohen bibliotekat që u lejojnë atyre të përpunojnë, analizojnë dhe vizualizojnë në mënyrë optimale të dhënat. Këtu hyjnë në lojë ato Pandas, i mprehtë, matplotlib y I lindur në det.
- i mprehtë fokusohet në llogaritje shkencore me vargje dhe operacione shumëdimensionale vektorizuar.
- Pandas kontribuon strukturat e të dhënave si
SeriesyDataFramepër të organizuar dhe manipuluar vargje tabelare. - matplotlib le të krijojmë grafikë nga e para, me gjithsej personalizimit.
- I lindur në det bazohet ne matplotlib por shton grafikët statistikorë vizualisht më i pastër dhe më i lehtë.
Kur këto mjete kombinohen, mund të shkoni nga lexoni një grup të dhënash a kryej analiza statistikore, zbulon korrelacionet, përfaqësojnë shpërndarjet grafike dhe madje edhe gjeneroni raporte vizuale që shpjegojnë qartë modelet komplekse.
Instalimi i Bibliotekave dhe Fillimi
Para se të hidheni në analizë, duhet të keni mjetet gati. Instalimi është i thjeshtë:
pip install numpy pandas matplotlib seaborn
Në fletoret e Jupyter mund të përdorni:
!pip install numpy pandas matplotlib seaborn
Pasi të instalohen, mund t'i importoni ato në mënyrën standarde të ndjekur nga komuniteti Python:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
Shënim i rëndësishëm: komanda %matplotlib inline siguron që grafikët të shfaqen direkt brenda fletores, në vend që të hapet një dritare e re.
Seksionet e mëposhtme mbulojnë nga operacionet e vargjeve, derisa vizualizime krahasuese duke përdorur grupe të dhënash reale.
Puna me vargje dhe operacionet themelore me NumPy
i mprehtë është thelbësore për përpunim numerikPërmes vargjeve të saj mund të kryeni shumëzimet e matricave, operacione statistikore, Filtrim boolean dhe më shumë
Shembull bazë i krijimit të një vargu:
import numpy as np
arr = np.array()
print(arr)
Ju gjithashtu mund të krijoni vargje shumëdimensionale:
arr2 = np.array(, ])
print(arr2.shape)
i mprehtë ju lejon të kryeni operacione vektorizuar pa nevojën për cikle. Kjo do të thotë që llogaritjet janë shumë më të shpejta dhe më efikase në përdorimin e kujtesës.
Shembull i mesatare, varianca y korrelacioni:
valores = np.array()
media = np.mean(valores)
varianza = np.var(valores)
print(media, varianza)
Mund të kryeni edhe veprime të tilla si shumëzimet vektor matrice ose llogarit regresione lineare përdorim np.dot o np.linalgAvantazhi kryesor është se i mprehtë Është baza e llogaritjes mbi të cilën punojnë bibliotekat e tjera, si p.sh. Pandas o Shkul-mësoNjohja e mirë e saj është çelësi për përparimin në shkencën e të dhënave.
Hyrje në Pandas: Aleati juaj për manipulimin e të dhënave reale
Pandas është ndërtuar mbi i mprehtë, por shton një ndërfaqe fokusuar në strukturat e të dhënave tabelare si DataFrame y SeriesGjëja vërtet e dobishme në lidhje me Pandas është se ju mund të ngarkoni shpejt skedarët CSV, Excel, JSON ose SQL dhe të punoni. sikur të kishe një spreadsheet në kodNëse doni të hyni më thellë në konceptet themelore, ju rekomandojmë të rishikoni tonën Hyrje në programimin Python.
Ngarko të dhënat nga një skedar CSV:
df = pd.read_csv("archivo.csv")
Un Korniza e të Dhënave Ka rreshta dhe indekse, të ngjashme me një tabelë në Excel. Mund t'i qaseni kolonave direkt me anë të emrit:
df
# o también df.nombre, si no hay espacios
Operacionet kryesore që mund të kryeni:
- Filtro rreshtat [për kushte të tilla si df > 30]
- Zgjidhni kolonat specifike me df]
- Modifiko vlerat në një qelizë specifike duke përdorur df.at = "Carlos"
- Zëvendësoni vlerat që mungojnë: df.fillna(0)
- Grup dhe agregat: df.groupby("qytet").mean()
Pandas gjithashtu ju lejon të konvertoni datat, të renditni vlerat, të punoni me tekstin dhe shumë më tepër. Për të mësuar më shumë rreth të dhënave dhe si t'i manipuloni ato, mund të vizitoni artikullin tonë mbi hiqni rreshtat e dyfishta në skedarë teksti, të cilët mund të plotësojnë njohuritë tuaja për pastrimin e të dhënave.
Shkrimtar i apasionuar pas botës së bajteve dhe teknologjisë në përgjithësi. Më pëlqen të ndaj njohuritë e mia përmes shkrimit, dhe kjo është ajo që do të bëj në këtë blog, duke ju treguar të gjitha gjërat më interesante në lidhje me pajisjet, softuerin, harduerin, tendencat teknologjike dhe më shumë. Qëllimi im është t'ju ndihmoj të lundroni në botën dixhitale në një mënyrë të thjeshtë dhe argëtuese.
