Kako savladati Pandas, NumPy, Matplotlib i Seaborn za nauku o podacima u Pythonu

Posljednje ažuriranje: 16/06/2025
Autor: Isaac
  • Optimalna kombinacija Pandasa i NumPy-a za numeričku analizu i manipulaciju podacima.
  • Napredna vizualizacija uz Matplotlib i Seaborn: od jednostavnih grafikona do toplotnih mapa.
  • Kompletni praktični primjeri koji kombiniraju čišćenje, analizu i vizualizaciju podataka.
  • Primjene u nauci o podacima iz stvarnog svijeta korištenjem stvarnih skupova podataka, s kodom i objašnjenjima.

Vizualizacija podataka pomoću Pythona

Znanost o podacima postala je jedna od najmoćnijih i najtraženijih grana tehnologije. piton, kao jezik programiranje Fleksibilan i pristupačan, nudi više alata za rješavanje složenih projekata analize podataka. To uključuje Pandas, numpy, matplotlib y rođen na moru, četiri nevjerovatno korisne biblioteke koje vam mogu pomoći pretvoriti ogromne količine informacija u praktično znanje.

Bez obzira da li tek počinjete u ovom svijetu ili samo želite usavršiti svoje vještine, ovaj sveobuhvatni vodič će vam pokazati kako kombinirati ove biblioteke za izvođenje svega, od osnovnih operacija čišćenja do naprednih statističkih vizualizacija. Sve je objašnjeno praktičnim primjerima, prirodnim jezikom i 100% primjenjivim pristupom.

Zašto koristiti Pandas, NumPy, Matplotlib i Seaborn zajedno?

Jedna od velikih tajni najefikasnijih naučnika podataka je poznavanje kako integrirati biblioteke koji im omogućavaju optimalnu obradu, analizu i vizualizaciju podataka. Tu oni dolaze do izražaja Pandas, numpy, matplotlib y rođen na moru.

  • numpy fokusira se na naučni proračun s višedimenzionalnim nizovima i operacijama vektorizovano.
  • Pandas doprinosi strukture podataka como Series y DataFrame organizirati i manipulirati tabelarnim nizovima.
  • matplotlib omogućava stvaranje grafika od nule, sa ukupno personalizacija.
  • rođen na moru zasnovan je na matplotlib ali dodaje statistički grafovi vizualno čistije i lakše.

Kada se ovi alati kombinuju, možete preći od pročitajte skup podataka a izvršiti statističku analizu, otkriti korelacije, predstavljaju grafičke distribucije i čak generiranje vizualnih izvještaja koji jasno objašnjavaju složene obrasce.

Instaliranje biblioteka i početak rada

Prije nego što se upustite u analizu, potrebno je da imate alati spremni. Instalacija je jednostavna:

pip install numpy pandas matplotlib seaborn

U Jupyter notesima možete koristiti:

!pip install numpy pandas matplotlib seaborn

Nakon instalacije, možete ih uvesti na standardni način koji primjenjuje Python zajednica:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline  

Važna napomena: naredba %matplotlib inline osigurava da se grafika prikazuje direktno unutar bilježnice, umjesto da se otvara u novom prozoru.

  Za šta se koriste načini rada Brzi odgovor, Dublje razmišljanje, Učenje i učenje i Pretraživanje u Copilotu?

Sljedeći odjeljci pokrivaju iz operacija niza, do komparativne vizualizacije korištenjem stvarnih skupova podataka.

Rad s nizovima i osnovne operacije s NumPy-jem

numpy je od suštinskog značaja za numerička obradaKroz njegove nizove možete izvršiti množenje matrica, statističke operacije, Booleovo filtriranje i više

Osnovni primjer kreiranja niza:

import numpy as np
arr = np.array()
print(arr)

Također možete kreirati nizove višedimenzionalni:

arr2 = np.array(, ])
print(arr2.shape)  

numpy omogućava vam da izvodite operacije vektorizovano bez potrebe za petljama. To znači da su proračuni mnogo brži i memorijski efikasniji.

Primjer srednji, varijansa y korelacija:

valores = np.array()
media = np.mean(valores)
varianza = np.var(valores)
print(media, varianza)

Također možete izvoditi operacije poput množenja matrica-vektor ili izračunajte linearne regresije koristeći np.dot o np.linalgGlavna prednost je u tome što numpy To je osnova za izračunavanje na kojoj rade druge biblioteke, kao što su Pandas o Naučite naučitiDobro poznavanje toga je ključno za napredak u nauci o podacima.

Uvod u Pande: Vaš saveznik za manipulisanje stvarnim podacima

Pandas izgrađen je na numpy, ali dodaje interfejs Fokusirano na tabelarne strukture podataka como DataFrame y SeriesZaista korisna stvar kod Pandasa je to što možete brzo učitati CSV, Excel, JSON ili SQL datoteke i raditi s njima. kao da imate tabelu u koduAko želite dublje proučiti osnovne koncepte, preporučujemo vam da pregledate naše Uvod u Python programiranje.

Učitajte podatke iz CSV datoteke:

df = pd.read_csv("archivo.csv")

Un DataFrame Ima redove i indekse, slično Excel tabeli. Kolonama možete pristupiti direktno po imenu:

df
# o también df.nombre, si no hay espacios

Glavne operacije koje možete izvršiti:

  • Filtriraj redove [za uslove kao što je df > 30]
  • Odaberite kolone specifično sa df]
  • Izmijeni vrijednosti u određenoj ćeliji koristeći df.at = "Carlos"
  • Zamijenite nedostajuće vrijednostidf.fillna(0)
  • Grupisanje i agregiranjedf.groupby("grad").mean()

Pandas vam također omogućava pretvaranje datuma, sortiranje vrijednosti, rad s tekstom i još mnogo toga. Da biste saznali više o podacima i kako ih manipulirati, možete posjetiti naš članak o uklonite duplikate linija u tekstualnim datotekama, što može upotpuniti vaše znanje o čišćenju podataka.

python
Vezani članak:
Potpuni uvod u Python programiranje s praktičnim primjerima