Kako optimizirati binarne datoteke C/C++ z GCC in Clang

Mundobajti » Linux » Optimizacija binarnih datotek v C/C++ z GCC in Clang

Osnova dobre optimizacije v C/C++ je smiselno kombiniranje -marchravni -O in nekaj varnih možnosti, kot so -pipe.
Napredne tehnike, kot so LTO, PGO, OpenMP ali Graphite, lahko zagotovijo znatne izboljšave, vendar povečajo kompleksnost prevajanja in odpravljanja napak.
Zastavice za utrjevanje (FORTIFY, stack protector, PIE, relro/now) krepijo varnost v zameno za nekaj izgube zmogljivosti.
CMake in različni generatorji vam omogočajo vzdrževanje prenosljive kode v GCC, Clang, MSVC in različnih platformah, ne da bi se dotaknili izvorne kode.

Optimizacija binarnih datotek C in C++ z GCC in Clang

Ko začneš igrati z možnosti prevajanja v C in C++ Zlahka podležemo skušnjavi, da omogočimo vse "kul" zastavice, ki jih vidimo na spletu. Toda resnica je, da lahko slaba kombinacija parametrov povzroči nestabilnost sistema, prekine gradnje ali, še huje, ustvari binarne datoteke, ki odpovedo na zelo subtilne načine ali zahtevajo ekstrakcijo informacij; v teh primerih je lahko koristna. izvleči skrito besedilo v binarnih datotekah raziskati.

Namen tega priročnika je, da na praktičen in enostaven način razumete, kako Optimizacija binarnih datotek v C/C++ z GCC in Clang z uporabo pravilnih možnosti: od klasičnih -O2, -march y -pipe...do naprednih tehnik, kot so LTO, PGO, OpenMP, Graphite in krepitev varnosti. Videli boste tudi, kako se vse to ujema s CMake, MinGW/MSYS2, Visual Studio, Xcode ali Ninja za izgradnjo prenosljivega in vzdrževalnega okolja.

Kaj sta CFLAGS in CXXFLAGS in kako ju uporabljati, ne da bi pri tem kaj zamočili?

V skoraj vseh vrstah sistemov Unix (Linux, BSD itd.) se uporabljajo spremenljivke CFLAGS y CXXFLAGS prenesti možnosti prevajalniku C in C++. Niso del nobenega formalnega standarda, vendar so tako pogosti, da jih spoštuje vsak dobro napisan sistem za gradnjo (Make, Autotools, CMake, Meson…).

V distribucijah, kot je Gentoo, so te spremenljivke definirane globalno v /etc/portage/make.confOd tam jih podedujejo vsi paketi, prevedeni s Portageom. Na drugih sistemih jih lahko izvozite v lupino ali pa jih shranite v ... Makefile, En script CMake ali podobnega.

Precej pogosto je opredeliti CXXFLAGS ponovna uporaba vsebine CFLAGS in po potrebi dodajte morebitne posebne možnosti za C++. Na primer: CXXFLAGS="${CFLAGS} -fno-exceptions"Pomembno je, da tam ne dodajate zastavic brez razlikovanja, ker bodo te uporabljene za vse, kar prevedete.

Pomembno je biti jasen, da Agresivne možnosti v CFLAGS/CXXFLAGS lahko prekinejo gradnjoTo lahko povzroči napake, ki jih je zelo težko odpraviti, ali celo upočasni binarne datoteke. Visoke stopnje optimizacije ne vodijo vedno do boljše zmogljivosti, nekatere transformacije pa lahko izkoristijo predpostavke, ki jih vaša koda ne izpolnjuje.

Osnovna optimizacija: nivoji -march, -mtune in -O

Osnova vsake smiselne prilagoditve je sestavljena iz treh delov: Izberite arhitekturo procesorja, izberite raven optimizacije in včasih aktivirajte majhne, neškodljive izboljšave. kot -pipeSkoraj vse ostalo bi moralo priti kasneje in z bistro glavo.

Izbira arhitekture: -march, -mtune in podjetje

Možnost -march=<cpu> pove GCC/Clang, katero specifično družino procesorjev volja ustvari kodoOmogoča uporabo specifičnih ukazov (SSE, AVX, AVX2, AVX-512 itd.) in prilagoditve ABI-ja. Če ste preveč pametni in izberete preveč sodoben procesor, se binarna datoteka preprosto ne bo zagnala na starejših računalnikih.

Če želite izvedeti, kaj vaš procesor podpira, si v Linuxu lahko ogledate /proc/cpuinfo ali uporabite ukazi iz samega prevajalnika slogov gcc -Q -O2 --help=targetV sodobnih sistemih x86-64 so bili generični profili standardizirani, kot so x86-64-v2, x86-64-v3 y x86-64-v4ki združujejo naraščajoče nabore ukazov in so podprti od GCC 11 naprej.

Poleg -march, obstaja -mtune=<cpu> za "izpopolnitev" načrtovanja iz kode v določen model brez uporabe novih navodil. Pojavljajo se tudi v arhitekturah, ki niso x86 -mcpu y -mtune ustrezne možnosti vključujejo (ARM, PowerPC, SPARC…). V x86, -mcpu Pravzaprav je zastarelo.

Pogosto uporabljen trik je -march=nativeTo omogoča prevajalniku, da zazna procesor lokalnega računalnika in samodejno aktivira ustrezne razširitve. To je idealno v okoljih, kjer boste binarne datoteke izvajali samo na istem računalniku, kjer jih boste prevedli, vendar je to smrtna past, če ustvarjate pakete za druge procesorje.

V novejših predelovalcih Intel In AMD, GCC vključuje posebna imena za vsako družino, kot na primer -march=rocketlake, -march=sapphirerapids, -march=znver2 o -march=znver3Te možnosti združujejo napredne ukaze (AVX2, AVX-512, FMA itd.) vsake generacije in vam omogočajo, da kar precej izkoristite prednosti strojna oprema ko veš, kam se boš namestil/a.

Stopnje optimizacije -O: kdaj uporabiti vsako od njih

Možnost -O nadzoruje splošno raven optimizacije uporabljeno v kodi. Vsak korak aktivira širši nabor transformacij, kar vpliva tako na čas prevajanja kot na porabo pomnilnika in enostavnost odpravljanja napak.

-O0Neoptimizirano. To je privzeta možnost, če ne določite ničesar. Hitro se prevede in ustvari kodo, ki jo je zelo enostavno odpravljati napake, vendar je počasna in obsežna. Idealno za zgodnji razvoj in raziskovanje kompleksnih napak.
-O1Prva raven optimizacije. Uporablja relativno poceni izboljšave, ki običajno zagotavljajo spodobno povečanje zmogljivosti, ne da bi pri tem preobsežne.
-O2: je priporočena raven za splošno uporabo v večini projektov. Doseže dobro ravnovesje med zmogljivostjo, časom prevajanja in stabilnostjo., in zato je to vrednost, ki jo številne distribucije uporabljajo privzeto.
-O3: aktivira vse optimizacije -O2 Agresivnejše transformacije, kot sta zelo močno odvijanje zanke ali intenzivnejša vektorizacija. To lahko odlično deluje v nekaterih numeričnih kodah, vendar je tudi bolj verjetno, da bo odkrilo UB v kodi ali povečalo velikost izvedljive datoteke.
-OsTo poskuša zmanjšati velikost binarne datoteke tako, da daje prednost prostoru pred hitrostjo. Uporabno je v okoljih z shranjevanje ali zelo omejen predpomnilnik.
-Oz (GCC 12+): prihranek velikosti popelje do skrajnosti, pri čemer sprejema znatne padce zmogljivosti. Uporabno za zelo majhne binarne datoteke ali zelo specifične scenarije.
-OfastTo je kot -O3 Ne drži se strogo standardov C/C++. Omogoča vam, da kršite nekatere jezikovne garancije, da dosežete dodatno zmogljivost, zlasti pri izračunih s plavajočo vejico. Uporabljati ga morate s popolnim razumevanjem tega, kaj počnete.
-OgZasnovan za odpravljanje napak. Uporablja samo optimizacije, ki ne motijo preveč odpravljalnika napak, in kodo pusti na sredini med -O0 y -O1.

Nadaljnje ravni -O3 kot -O4 o -O9 Vse so samo lažne predstavePrevajalnik jih sprejme, vendar jih interno obravnava kot -O3Ni skrite magije, samo pretvarjanje.

Valve izda Team Fortress 2 SDK in revolucionira modno skupnost

Če začnete opažati skrivnostne napake pri gradnji, nenavadne sesutja ali različne rezultate, odvisno od optimizatorja, je dober diagnostični korak ... začasno se spustite na -O1 ali celo -O0 -g2 -ggdb pridobiti enostavno odpravljajoče binarne datoteke in prijaviti napako s koristnimi informacijami.

-cev in druge osnovne možnosti

zastava -pipe pove prevajalniku, naj uporabi cevne cevi v pomnilniku Namesto začasnih datotek na disku med fazami prevajanja (predprocesiranje, prevajanje, sestavljanje). Običajno nekoliko pospeši postopek, čeprav porabi več RAM-a. Na računalnikih z zelo malo pomnilnika lahko povzroči sesutje prevajalnika, zato ga v takih primerih uporabljajte zmerno.

Druge tradicionalne možnosti, kot so -fomit-frame-pointer Omogočajo vam sprostitev registra kazalca sklada za generiranje več kode, vendar otežujejo odpravljanje napak s čistimi povratnimi sledmi. Na sodobnih arhitekturah x86-64 prevajalnik to precej dobro obvladuje in pogosto tega sploh ni treba ročno nastaviti.

Razširitve SIMD, Graphite in vektorizacija zank

Sodobni prevajalniki za x86-64 samodejno omogočijo številne SIMD ukaze, odvisno od izbranega procesorja. -marchKljub temu boste videli zastavice, kot so -msse2, -mavx2 ali podobne, ki jih je mogoče eksplicitno dodati.

Na splošno, če uporabljate -march To je primerno; ni ga treba ročno aktivirati. -msse, -msse2, -msse3, -mmmx o -m3dnowker so že privzeto omogočeni. Smiselno jih je vsiliti le na zelo specifičnih procesorjih, kjer jih GCC/Clang privzeto ne omogoči.

Za kompleksne zanke GCC vključuje nabor optimizacij grafitki se zanašajo na knjižnico ISL. Z zastavicami, kot so -ftree-loop-linear, -floop-strip-mine y -floop-block Prevajalnik analizira zanke in jih lahko prestrukturira, da izboljša lokalnost podatkov in vzporednost; za posebne primere glejte primeri nizkonivojskega C Pomaga prilagoditi kodo za te transformacije.

Te transformacije lahko dajo dobre rezultate v obsežni numerični kodi, vendar Niso neškodljiviMed prevajanjem lahko znatno povečajo porabo RAM-a in povzročijo zrušitve v velikih projektih, ki niso bili zasnovani z mislijo nanje. Zato je priporočljivo, da jih omogočite le v določenih delčkih kode ali projektih, kjer so bili preizkušeni in dokazano delujejo pravilno.

Vzporednost: zanke OpenMP, -fopenmp in -ftree-parallelize

Če vaša koda uporablja OpenmpTako GCC kot Clang ponujata dokaj solidno podporo prek te možnosti -fopenmpTo omogoča, da se deli kode, zlasti zanke, vzporedno izvajajo z uporabo direktiv v sami izvorni kodi in da prevajalnik generira delo v več nitih.

Poleg -fopenmpGCC vključuje možnost -ftree-parallelize-loops=N, kje N Običajno je nastavljeno na število razpoložljivih jeder (na primer z uporabo $(nproc) (v skriptih za gradnjo). To poskuša samodejno vzporediti zanke brez potrebe po ročnem dodajanju direktiv, čeprav je uspeh močno odvisen od tega, kako je koda napisana.

Popoln vodnik za odpiranje in uporabo upravitelja opravil v Chromebooku

Imejte v mislih, da Omogočanje OpenMP globalno v celotnem sistemu je lahko zelo problematičnoNekateri projekti na to niso pripravljeni, drugi uporabljajo lastne modele sočasnosti, nekateri pa se preprosto ne uspejo prevesti, ko na to naletijo. -fopenmpSmiselno je, da ga omogočite za vsak projekt posebej ali celo za vsak modul posebej, ne pa v globalnih CFLAGS sistema.

Optimizacija časa povezave: LTO

La Optimizacija časa povezave (LTO) Omogoča, da prevajalnik pri optimizaciji ni omejen na eno samo izvorno datoteko, temveč da v fazi povezovanja vidi celoten program in na vse vpletene objekte uporabi globalne optimizacije.

V GCC se aktivira z -fltoin na primer je mogoče določiti število niti -flto=4ali pa naj zazna število jeder z -flto=autoČe se uporablja tudi -fuse-linker-plugin skupaj s povezovalcem zlato Z vtičnikom LTO, nameščenim v binutils, lahko prevajalnik izvleče informacije LTO tudi iz statičnih knjižnic, ki sodelujejo pri vezavi.

LTO običajno generira nekoliko manjše in v mnogih primerih hitrejše izvedljive datotekeker odpravlja mrtvo kodo in omogoča vstavljanje med moduli. V zameno pa čas Časi prevajanja in poraba pomnilnika se močno povečajo, zlasti pri velikih projektih s tisoči objektnih datotek.

V okoljih, kot je Gentoo, kjer je celoten sistem ponovno preveden iz izvorne kode, se globalna uporaba LTO še vedno šteje za občutljivo zadevo: Obstaja veliko paketov, ki še vedno ne delujejo dobro z LTO. in zahtevajo selektivno onemogočanje. Zato je običajno priporočljivo, da ga omogočite le v določenih projektih ali gradnjah GCC/Clang, kjer je korist resnično opazna.

PGO: Optimizacija, vodena po profilu

La Optimizacija, vodena s profilom (PGO) Sestavljen je iz enkratnega prevajanja programa z instrumentacijo, njegovega izvajanja z reprezentativnimi delovnimi obremenitvami za zbiranje statističnih podatkov o izvajanju in nato ponovnega prevajanja z uporabo teh profilov za vodenje optimizatorja.

V GCC je tipičen potek: najprej prevedite z -fprofile-generatezaženite program (ali njegove teste) za generiranje podatkov profila in nato prevesti z -fprofile-use kaže na imenik, kjer so shranjene datoteke profila. Z dodatnimi možnostmi, kot so -fprofile-correction ali z onemogočanjem določenih obvestil (-Wno-error=coverage-mismatch) se je mogoče izogniti pogostim napakam, ki nastanejo zaradi sprememb kode med fazami; običajno je tudi koristno Spremljanje učinkovitosti delovanja z eBPF in perf za pridobitev natančnih profilov.

Ob pravilni izvedbi lahko PGO zagotoviti veliko večje izboljšave zmogljivosti kot zgolj povečanje ravni -OKer sprejema odločitve na podlagi podatkov o izvajanju v resničnem svetu in ne na podlagi generičnih modelov. Težava je v tem, da je to zapleten postopek: ponoviti ga je treba z vsako ustrezno posodobitvijo kode in je močno odvisen od tega, ali je testni scenarij reprezentativen za dejansko uporabo.

Nekateri projekti (vključno s samim GCC v nekaterih distribucijah) že ponujajo določene zastavice ali skripte za samodejno aktiviranje PGO, vendar na splošno ostaja tehnika za napredne uporabnike, ki so pripravljeni vložiti čas v postopek.

Utrjevanje: varnost na podlagi zastavic

Poleg hitrosti se mnoga okolja osredotočajo na zaščito binarnih datotek pred ranljivostmi, tudi za ceno izgube zmogljivosti. GCC in sodobni povezovalniki ponujajo dober nabor možnosti utrjevanja ki ga je mogoče aktivirati iz CFLAGS/CXXFLAGS in LDFLAGS.

Nekateri najpogostejši Zvok:

-D_FORTIFY_SOURCE=2 o =3: dodaja dodatna preverjanja določenih funkcij libc za zaznavanje prekoračitev medpomnilnika med izvajanjem.
-D_GLIBCXX_ASSERTIONS: aktivira preverjanje meja na vsebnikih in nizih C++ v STL ter zazna dostope izven območja.
-fstack-protector-strong: vstavi kanarčke v sklad, da zazna zapise, ki ga poškodujejo.
-fstack-clash-protection: blaži napade, ki temeljijo na trkih med skladom in drugimi pomnilniškimi območji.
-fcf-protection: dodaja zaščito pretoka nadzora (npr. pred napadi ROP) na arhitekturah, ki to podpirajo.
-fpie skupaj z -Wl,-pie: generira pozicionirljive izvedljive datoteke, potrebne za učinkovit ASLR.
-Wl,-z,relro y -Wl,-z,nowOtrdijo tabelo premestitev in onemogočijo leno vezavo simbolioviranje določenih vektorjev napadov.

Fusion 360 v primerjavi s Solid Edge v primerjavi s CATIA: Katera CAD programska oprema je najboljša za vas?

"Utrjeni" profili nekaterih distribucij imajo veliko teh možnosti že privzeto omogočenih. Ročno aktiviranje brez razumevanja vpliva lahko privede do opazno počasnejših binarnih datotek., zlasti pri velikih ali zelo pomnilniško intenzivnih aplikacijah, vendar je na izpostavljenih strežnikih ali občutljivih namiznih računalnikih običajno razumna cena.

Izberite prevajalnik in okolje: GCC, Clang, MSVC, MinGW, Xcode…

V praksi pogosto ne izbirate samo zastav, ampak Kateri prevajalnik in katero celotno orodje boste uporabili? na vsaki platformi. GCC in Clang sta si običajno zelo podobna po zmogljivosti, razlike pa so bolj opazne v diagnostiki, časih prevajanja ali združljivosti z določenimi razširitvami.

En Windows Na voljo imate več poti: Visual Studio (MSVC) s svojimi kompleti orodij v143, v142itd.; ali MinGW-w64 prek MSYS2 ki vam ponuja izvorni Windows GCC in Clang skupaj s potrebnimi knjižnicami Win32. MSYS2 se upravlja z pacman in ponuja okolja MinGW64 (ki temeljijo na klasičnem MSVCRT) in UCRT64 (z Universal CRT, sodobnejšim).

V sistemu macOS je standardna pot Xcode z uporabo clang/clang++, kjer je ključni koncept Osnovni SDK (različica sistema, za katero je prevedeno) in Cilj uvajanja (najnižja različica macOS, na kateri želite, da se vaša aplikacija izvaja). S pravilno prilagoditvijo tega para se izognete klasični katastrofi, ko se prevaja samo za najnovejšo različico sistema in binarne datoteke ne delujejo na nekoliko starejših različicah.

V Linuxu je običajna stvar uporaba GCC in Make ali NinjaMorda uporaba CMake kot metageneratorja. Poleg tega vam distribucije, kot je Ubuntu, omogočajo namestitev več različic GCC in njihovo izbiro z update-alternatives, podobno kot ga uporabljate v sistemu macOS xcode-select za preklop iz Xcode.

Če potrebujete udobna okolja za odpravljanje napak za projekte, ustvarjene z Make ali Ninja (ki imajo eno samo konfiguracijo), Eclipse CDT y Koda Visual Studio To sta dve zelo priročni možnosti: CMake lahko ustvari potrebne projektne datoteke ali pa se z njimi neposredno integrira za konfiguriranje, prevajanje in odpravljanje napak.

Prenosljivost in CMake: ista koda, različni nabori orodij

Za prevajanje projekta C/C++ brez dotikanja kode v sistemih Windows, Linux in macOS je potrebna dobra kombinacija obeh. CMake, razpoložljivi generatorji in različni prevajalnikiIdeja je, da datoteka CMakeLists.txt Projekt opišite abstraktno in CMake bo na vsaki platformi ustvaril ustrezno vrsto projekta.

V sistemu Windows lahko CMake pokličete z -G "Visual Studio 17 2022" za izdelavo rešitve z msbuildom ali z -G "Ninja" za hitrejše gradnje iz konzole. Poleg tega prek -T v143, v142itd., izberete Nabor orodij platforme (različica prevajalnika MSVC) in z -A x64, Win32 o arm64 Arhitekturo izbereš sam.

Z MinGW/MSYS2 je običajna uporaba -G "MinGW Makefiles" o -G "Ninja" in prek spremenljivk CMAKE_C_COMPILER y CMAKE_CXX_COMPILERIzberite, ali želite GCC ali Clang. V tem primeru se konfiguracije (Debug, Release itd.) nadzorujejo prek -DCMAKE_BUILD_TYPE, saj sta Make in Ninja enojna konfiguracija.

Na macOS, -G Xcode Omogoča vam popoln projekt za odpravljanje napak v integriranem razvojnem okolju (IDE), SDK in cilj uvajanja pa lahko nadzorujete s spremenljivkami, kot so CMAKE_OSX_DEPLOYMENT_TARGETČe želite samo Make ali Ninja, uporabite iste generatorje kot v Linuxu.

Lepota vsega tega je v tem, da lahko ob pravilni nastavitvi vzdržujete eno samo kodno bazo in dosleden nabor zastavic (včasih specifičnih za platformo) ter prevajate v katerem koli okolju, ne da bi se morali nenehno ukvarjati z izvorno kodo. Vendar si je pomembno zapomniti ključno načelo: Najprej se prepričamo, da deluje pravilno, nato pa bomo pospešili postopek optimizacije..

Glede na vse videno je splošna ideja, da se držimo zmerna, a učinkovita kombinacija (nekaj takega) -O2 -march=<cpu adecuada> -pipe (plus nekaj razumnega utrjevanja) in prihranite glavna orožja – LTO, PGO, Graphite, agresivni OpenMP – za tiste projekte ali module, kjer so izboljšave resnično izmerjene in so stroški vzdrževanja in odpravljanja napak, ki jih prinašajo, sprejeti.

Spremljanje delovanja z eBPF in bpftrace

Povezani članek:

Spremljanje delovanja z eBPF, bpftrace in perf v Linuxu

Isaac

Strasten pisec o svetu bajtov in tehnologije nasploh. Rad delim svoje znanje s pisanjem in to je tisto, kar bom počel v tem blogu, saj vam bom pokazal vse najbolj zanimive stvari o pripomočkih, programski opremi, strojni opremi, tehnoloških trendih in še več. Moj cilj je, da vam pomagam krmariti po digitalnem svetu na preprost in zabaven način.