การติดตั้ง AMD ROCm บน Windows และ Linux: คู่มือฉบับสมบูรณ์

มันโดไบต์ » ลินุกซ์ » วิธีการติดตั้ง AMD ROCm บน Windows และ Linux: คำแนะนำทีละขั้นตอนและความเข้ากันได้

ROCm ผสาน CPU และ GPU เข้ากับแพลตฟอร์มแบบเปิดโดยเน้นที่ ลินุกซ์ และการสนับสนุนล่วงหน้าใน Windows สำหรับ PyTorch
เพิ่มความเข้ากันได้: RDNA 4, รุ่น RDNA 3 ที่เลือก และการสนับสนุนเบื้องต้นสำหรับ Ryzen APU
วิธีการติดตั้งที่ยืดหยุ่น: ตัวจัดการแพ็คเกจ หลายเวอร์ชัน รันไฟล์ และโหมดออฟไลน์
ระบบนิเวศที่แข็งแกร่ง: PyTorch/TensorFlow, vLLM, JAX (การอนุมาน), ONNX Runtime พร้อมด้วย MIGraphX และยูทิลิตี้ประสิทธิภาพ

คำแนะนำในการติดตั้ง AMD ROCm บน Windows และ Linux

ถ้าคุณทำงานกับ IAหากคุณสนใจ HPC หรือการคำนวณทางวิทยาศาสตร์ และคุณมี Radeon GPU หรือ Ryzen APU คุณคงเคยได้ยินเกี่ยวกับ ROCm มาบ้างแล้ว แพลตฟอร์มของ AMD มีเป้าหมายที่จะเป็นรากฐานแบบเปิดสำหรับการเขียนโปรแกรมและการเร่งความเร็วของงาน GPUโดยมุ่งเน้นเป็นพิเศษที่ Linux และในเวอร์ชันตัวอย่าง ยังรวมถึง Windows ในบางกรณีด้วย ที่นี่คุณจะพบกับสิ่งที่คุณจำเป็นต้องรู้ทีละขั้นตอนในการติดตั้งและใช้งาน

ก่อนอื่นเลย ต้องขอพูดถึงสิ่งหนึ่งที่มักถูกมองข้ามในการทำการตลาด: ความสำเร็จของการติดตั้งและประสิทธิภาพการทำงานขึ้นอยู่กับ ฮาร์ดแวร์ของระบบปฏิบัติการและเวอร์ชันที่แน่นอนของ ROCmในส่วนต่อไปนี้ เราได้รวบรวมข้อมูลสำคัญทั้งหมดไว้แล้ว (วิธีการติดตั้งอย่างเป็นทางการ ความเข้ากันได้ เล่นกล (ประสิทธิภาพ สถานะใน Windows และประสบการณ์จริง) เพื่อให้คุณไม่ต้องประหลาดใจ

AMD ROCm คืออะไร และเหตุใดจึงสำคัญ?

ROCm คือชุดซอฟต์แวร์ของ AMD สำหรับการประมวลผลประสิทธิภาพสูง (HPC) และการเรียนรู้ของเครื่อง โดยพื้นฐานแล้ว โดยผสานรวม CPU และ GPU เพื่อเร่งภาระงานหนักซึ่งช่วยให้สามารถเขียนโปรแกรมและรันเคอร์เนลบน GPU ภายในระบบนิเวศโอเพนซอร์สเป็นหลักได้ ในอดีต มุ่งเน้นไปที่ Linux ซึ่งมีการรองรับและความสมบูรณ์ที่ดีที่สุด

บนโต๊ะทำงาน, ฐาน ROCm เดียวกับที่คุณใช้กับ Radeon สำหรับการพัฒนาในพื้นที่ นอกจากนี้ยังสามารถใช้งานร่วมกับตัวเร่งความเร็ว AMD Instinct ในศูนย์ข้อมูล (สถาปัตยกรรม CDNA) ได้อีกด้วย ความต่อเนื่องนี้ทำให้ง่ายต่อการพัฒนาในทีมของคุณ และปรับใช้ตามขนาดโดยไม่ต้องทำซ้ำงานเดิม โดยใช้ประโยชน์จากชุดไลบรารีและเครื่องมือชุดเดิม

สำหรับ AI สิ่งนี้จะแปลเป็นเฟรมเวิร์กเช่น PyTorch หรือ TensorFlow ที่ทำงานบน GPU ของ AMD นอกเหนือจาก เครื่องมือสำคัญสำหรับการอนุมานและการฝึกอบรมเป้าหมายชัดเจน: เพื่อนำเสนอเส้นทางที่เปิดกว้างและปรับขนาดได้สำหรับการวิจัย วิศวกรรม และปริมาณงานการผลิตโดยไม่ต้องล็อกอินแบบเป็นกรรมสิทธิ์

ความเข้ากันได้ของฮาร์ดแวร์และระบบ AMD ROCm

ความเข้ากันได้ของฮาร์ดแวร์และแพลตฟอร์ม

เวอร์ชัน ROCm 7.0.2 โดดเด่นในการขยายฐานอุปกรณ์ที่เข้ากันได้ รองรับซีรีส์ Radeon 9000 (RDNA 4) และรุ่นซีรีส์ 7000 (RDNA 3)นอกจากนี้ยังแนะนำการสนับสนุนเบื้องต้นสำหรับ Ryzen APU ซึ่งเปิดประตูสู่เวิร์กโฟลว์ AI บนอุปกรณ์ขนาดกะทัดรัดและ แบบพกพา ด้วยหน่วยความจำที่ใช้ร่วมกัน (สูงสุด 128 GB ในบางสถานการณ์)

ในแง่ของ OS, มันรักษาการสนับสนุนที่มั่นคงบน Linuxโดยกล่าวถึง Ubuntu และ Red Hat Enterprise Linux 9.6 โดยเฉพาะ บน Windows ROCm อยู่ในช่วง "Preview" สำหรับ PyTorch ทั้งบน Radeon GPU และ Ryzen APU บางรุ่น ซึ่งช่วยให้คุณเริ่มต้นพัฒนาแบบเนทีฟได้ แม้ว่าจะมีข้อควรระวังในการดูตัวอย่างก็ตาม

รายละเอียดที่สำคัญอย่างหนึ่ง: ไม่ใช่ GPU Radeon ทั้งหมดจะได้รับการรองรับอย่างเป็นทางการในทุกเวอร์ชัน ผู้ใช้บางรายชี้ให้เห็นว่ารุ่นเช่น 7800 XT ไม่ได้ระบุว่าเข้ากันได้อย่างเป็นทางการ ใน ROCm บางรุ่นสำหรับ Linux ดังนั้น ก่อนการติดตั้ง ขอแนะนำให้ตรวจสอบเมทริกซ์ความเข้ากันได้ของ AMD ในเอกสารอย่างเป็นทางการ และตรวจสอบทั้ง ROCm และเวอร์ชันของระบบ และหากจำเป็น ส่งออกบันทึกจาก GPU-Z.

ในแง่ของความจุการ์ดเดสก์ท็อป Radeon สามารถมี VRAM ได้สูงสุด 48 GB ซึ่งทำให้เวิร์กสเตชันภายในเครื่องเป็นทางเลือกที่ทรงพลังและเป็นส่วนตัวแทนระบบคลาวด์สำหรับผู้ที่ย้ายระหว่างการพัฒนาในพื้นที่และการปรับใช้ศูนย์ข้อมูล ความเข้ากันได้ข้ามแพลตฟอร์มกับ Instinct จะทำให้การย้ายข้อมูลง่ายขึ้น

คุณจะชาร์จคอนโทรลเลอร์ Nintendo Switch OLED อย่างถูกต้องได้อย่างไร?

วิธีการติดตั้งใน Linux

AMD จัดทำเอกสารแนวทางต่างๆ ในการติดตั้ง ROCm บน Linux ซึ่งออกแบบมาสำหรับ โปรไฟล์การใช้งานและข้อจำกัดด้านสิ่งแวดล้อมที่แตกต่างกันสิ่งที่ดีที่สุดที่ควรทำหากคุณเป็นมือใหม่ใน ROCm คือการเริ่มต้นด้วยคู่มือ เริ่มต้นอย่างรวดเร็ว เป็นทางการ.

ตัวจัดการแพ็กเกจเนทีฟ นี่เป็นวิธีที่นิยมใช้ใน Ubuntu หรือ RHEL: คุณใช้ตัวจัดการระบบเพื่อติดตั้ง อัปเดต หรือถอนการติดตั้ง แพ็กเกจ ข้อดีคือสามารถผสานรวมกับระบบได้ดีกว่า และคุณจะได้รับการสนับสนุนจากระบบนิเวศของดิสโทรของคุณ หากดิสโทรของคุณมีคลังข้อมูลที่เหมาะสม วิธีนี้สะดวกและสามารถทำซ้ำได้

การติดตั้งเวอร์ชันเดียวหรือหลายเวอร์ชัน เมื่อคุณต้องการทดสอบความเข้ากันได้ บำรุงรักษาโครงการเดิม หรือตรวจสอบการถดถอย คุณสามารถติดตั้ง ROCm หลายเวอร์ชันพร้อมกันได้AMD เผยแพร่ขั้นตอนเฉพาะสำหรับสถานการณ์หลายเวอร์ชันเหล่านี้เพื่อแยกการอ้างอิงและหลีกเลี่ยงความขัดแย้ง

โปรแกรมสร้างตัวติดตั้ง ROCm แบบออฟไลน์ หากเครื่องเป้าหมายของคุณไม่มีอินเทอร์เน็ตหรือสภาพแวดล้อมถูกแยกออก คุณสามารถสร้างแพ็คเกจการติดตั้งแบบออฟไลน์ได้ ยูทิลิตี้นี้สร้างทุกสิ่งที่จำเป็นสำหรับการปรับใช้แบบออฟไลน์ ไม่ว่าจะเป็นไดรเวอร์ AMDGPU, ROCm หรือทั้งสองอย่าง

โปรแกรมติดตั้ง ROCm Runfile เป็นทางเลือกแทนตัวจัดการแพ็กเกจ มีโปรแกรมติดตั้ง "runfile" สามารถติดตั้งได้ทั้งแบบมีหรือไม่มีการเชื่อมต่อเครือข่าย และไม่ต้องพึ่งพาระบบแพ็กเกจของดิสโทร ซึ่งมีประโยชน์ในสภาพแวดล้อมที่มีการควบคุม หรือเมื่อคุณต้องการเวอร์ชันเฉพาะเจาะจง

หมายเหตุสำหรับ SUSE/SLES ก่อนติดตั้งบน SUSE Linux Enterprise Server ลงทะเบียนและอัปเดต Enterprise Linux ของคุณ ตามขั้นตอนการแจกจ่ายของตัวเอง นี่เป็นข้อกำหนดเบื้องต้นเพื่อหลีกเลี่ยงข้อผิดพลาดในการอ้างอิงและรับคลังข้อมูลที่จำเป็น

การติดตั้งจริงบน Ubuntu และเวอร์ชันที่พัฒนาต่อยอด

ในสภาพแวดล้อม Ubuntu ล่าสุด มีขั้นตอนการติดตั้งที่เริ่มต้นจาก ที่เก็บข้อมูลที่ได้รับการดูแลโดยพนักงาน AMD (ไม่เป็นทางการ) แนวคิดคือการเพิ่มที่เก็บข้อมูลที่เหมาะสมลงในเวอร์ชันของคุณ จากนั้นจึงติดตั้งแพ็กเกจที่จำเป็น วิธีนี้จะช่วยเร่งการทดสอบและการตั้งค่าที่เน้น AI

เวอร์ชัน Ubuntu หากคุณใช้งาน Ubuntu 24.04 "Noble" หรือ 22.04 "Jammy" ปรับเปลี่ยนการอ้างอิงที่เก็บข้อมูลให้ตรงกับรุ่นของคุณการเปลี่ยน "noble" เป็น "jammy" (หรือในทางกลับกัน) ในบรรทัดดาวน์โหลดของ repo ก็เพียงพอที่จะจัดเรียงแพ็คเกจให้ตรงกับเวอร์ชันเฉพาะของคุณ

แพ็คเกจที่จะติดตั้ง นี่คือคุณสมบัติพิเศษ: ไม่มีเมตาแพ็คเกจ "รูปแบบ" เดี่ยว เส้นทางนี้จะดึงข้อมูลที่จำเป็นทั้งหมด ดังนั้นในบางขั้นตอน ส่วนประกอบต่างๆ จะถูกติดตั้งแยกต่างหาก นอกจากนี้ เส้นทางนี้มักจะรวมการอ้างอิงการคอมไพล์ที่เป็นประโยชน์สำหรับไลบรารีอย่าง FlashAttention ไว้ด้วย

หลาม และเครื่องมือต่างๆ แนะนำให้ใช้ Python เวอร์ชันระหว่าง 3.10 ถึง 3.13 และ Git ติดตั้ง ROCm, SDK และ Python ตามลำดับที่สะดวกสำหรับคุณที่สุด ขึ้นอยู่กับการแจกจ่ายของคุณ ให้ตรวจสอบว่า PIP และ virtualenv พร้อมที่จะสร้างสภาพแวดล้อมแบบแยกส่วนแล้ว วิธีนี้จะช่วยให้คุณคอมไพล์หรือติดตั้งการผูก PyTorch หรือ TensorFlow ที่ถูกต้องสำหรับ ROCm ได้

การแจกจ่ายอื่นๆ ขั้นตอนนี้ได้รับการทดสอบบน Ubuntu เป็นหลัก แต่บางระบบได้ขยายไปยังการแจกจ่ายอื่นๆ แล้ว openSUSE Leap และ Slowroll การปรับเปลี่ยนที่เก็บข้อมูลและชื่อแพ็กเกจ ในกรณีเหล่านี้ ควรตรวจสอบความถูกต้องของที่เก็บข้อมูลอย่างละเอียด เนื่องจากสถานการณ์เหล่านี้ไม่ได้รับการทดสอบอย่างเป็นทางการในระดับเดียวกัน

ROCm พร้อม SD.Next: แฟล็ก Docker และการปรับแต่งอย่างละเอียด

หากเป้าหมายของคุณคือการใช้ Stable Diffusion Next (SD.Next) ร่วมกับ GPU ของ AMD กระบวนการนี้จะตรงไปตรงมา: ขั้นแรกให้ติดตั้งไลบรารี ROCm จากนั้นเปิด SD จากนั้นใช้แฟล็ก –use-rocmการดำเนินการนี้จะบังคับให้ติดตั้งเวอร์ชันที่ถูกต้องของ Torch สำหรับสภาพแวดล้อม ROCm ของคุณ

รองเท้า ช้าในช่วงแรก ในการใช้งานครั้งแรก หลังจากเปลี่ยนความละเอียดเป็นครั้งแรกหรืออัปเดต PyTorch แล้ว ROCm จะดำเนินการ ค้นหาเคอร์เนลที่เหมาะสมที่สุด ซึ่งอาจใช้เวลา 5 ถึง 8 นาที การดำเนินการจะเกิดขึ้นหนึ่งครั้งต่อหนึ่งความละเอียด และการดำเนินการครั้งต่อๆ ไปจะเริ่มเร็วขึ้นมาก

เปลี่ยนแท็บเล็ตเก่าของคุณให้เป็นจอแสดงผล Android Auto

การควบคุม MIOPEN หากการ "วอร์มอัพ" ครั้งแรกนั้นสร้างความรำคาญ คุณสามารถปรับตัวแปรสภาพแวดล้อมได้: MIOPEN_FIND_MODE=รวดเร็ว ลด เวลา ในตอนแรกต้องแลกมาด้วยประสิทธิภาพที่ลดลงเล็กน้อย ในขณะที่ MIOPEN_FIND_ENFORCE=ค้นหา ให้ความสำคัญกับประสิทธิภาพการทำงานที่เหมาะสมที่สุด (แต่จะลดประสิทธิภาพการทำงานในช่วงเริ่มต้นลง) ควรใช้อย่างชาญฉลาดตามเวิร์กโฟลว์ของคุณ

ความแม่นยำและ VRAM บนการ์ด RDNA 3 ขึ้นไป SD.Next สามารถตรวจจับได้โดยอัตโนมัติ bf16ในบางกรณี การทำเช่นนี้จะเพิ่มการใช้งาน VRAM (16 GB หรือมากกว่า) เมื่อถอดรหัสภาพสุดท้ายหรือทำการอัปสเกลด้วยตัวอัปสเกลแบบไม่หน่วงเวลา เพื่อลดปัญหานี้ ให้ตั้งค่า ความแม่นยำใน FP16 และปิดใช้งานการอัปแคสต์ VAE ในการตั้งค่า ผู้ใช้หลายคนยังสังเกตเห็นว่าประสิทธิภาพการทำงานดีขึ้นเมื่อบังคับใช้ FP16

Flash Attention ใน RDNA 3 เพื่อให้ได้ประสิทธิภาพการให้ความสนใจแบบไขว้ คุณสามารถเปิดใช้งาน CK Flash Attention ในการตั้งค่าคอมพิวเตอร์ > Cross Attention > ตัวเลือก SDP จำเป็นต้องติดตั้ง rocm-hip-sdk เนื่องจากจะดาวน์โหลดและคอมไพล์แพ็กเกจเพิ่มเติมเมื่อเริ่มต้นระบบ

Docker: ใช่หรือไม่? คุณมีตัวเลือก ใช้รูปภาพที่สร้างไว้ล่วงหน้า เพื่อเร่งการใช้งาน หรือสร้างอิมเมจของคุณเองด้วยเวอร์ชันที่ตรงกับความต้องการ หากคุณต้องการควบคุม dependencies ต่างๆ ได้อย่างเต็มรูปแบบ แนวทาง DIY ด้วย Docker และไฟล์ requirements.txt ที่ปักหมุดไว้ ถือเป็นแนวทางปฏิบัติที่ดี

ระบบนิเวศและกรอบการทำงานที่เข้ากันได้

ROCm รุ่นล่าสุดเน้นหนักไปที่ AI ในทางปฏิบัติเป็นอย่างมาก PyTorch และ TensorFlow ได้สร้างการรองรับสำหรับการฝึกอบรมและการอนุมาน บน Radeon บน Linux การผสมผสานนี้ครอบคลุมเวิร์กโฟลว์การวิจัยและการปรับใช้ปัจจุบันส่วนใหญ่

สำหรับรุ่นขนาดใหญ่และรุ่นที่ให้บริการ vLLM มีการสนับสนุนเต็มรูปแบบสิ่งนี้ช่วยให้การอนุมาน LLM บน GPU ของ AMD มีประสิทธิภาพมากขึ้น หากคุณใช้ JAX การสนับสนุนในปัจจุบันจะเน้นที่การอนุมาน ดังนั้นควรวางแผนอย่างรอบคอบหากไปป์ไลน์ของคุณใช้การฝึก XLA

ในโลก "C++ อันดับแรก" llama.cpp ทำงานบน ROCm เพื่อการอนุมานที่รวดเร็วและจำกัดหน่วยความจำ มีประโยชน์เมื่อคุณต้องการความสามารถในการพกพาและการปรับแต่งการใช้ทรัพยากรอย่างละเอียด เป็นทางเลือกที่ยอดเยี่ยมสำหรับสภาพแวดล้อมแบบเอดจ์หรือระบบที่มีข้อจำกัดด้านทรัพยากร

ONNX Runtime พร้อม MIGraphX ขยายขอบเขตการใช้งานด้วย การสนับสนุนขยายสำหรับ INT8 และ INT4 ในการอนุมาน ซึ่งจะช่วยลดการใช้ VRAM และเร่งเวลาในการประมวลผลเมื่อต้องจัดการกับโมเดลเชิงปริมาณ โดยไม่กระทบต่อความแม่นยำที่ยอมรับได้ในการผลิต

สุดท้ายเกี่ยวกับการฝึกอบรมที่มีประสิทธิภาพ FlashAttention-2 เปิดใช้งานการส่งแบบย้อนกลับการดำเนินการนี้จะช่วยปรับปรุงประสิทธิภาพการทำงานและลดการใช้หน่วยความจำใน Transformers ซึ่งถือเป็นข้อดีหากคุณฝึกฝนหรือปรับเปลี่ยนโมเดลขนาดใหญ่ภายในเครื่อง

สถานะใน Windows: การดูตัวอย่างและทางเลือก

ครั้งแรกที่ PyTorch มีการสนับสนุนอย่างเป็นทางการบน Windows ในโหมด "ดูตัวอย่าง" สำหรับ GPU Radeon และ APU Ryzen นี่ถือเป็นข่าวดีสำหรับผู้ที่ไม่สามารถเปลี่ยนไปใช้ Linux ได้ แต่ก็ต้องยอมรับว่าบางพื้นที่ยังอยู่ระหว่างการพัฒนา และประสิทธิภาพอาจเปลี่ยนแปลงไปในแต่ละเวอร์ชัน

หากคุณกำลังมองหาทางเลือกอื่น มีการสนับสนุนที่ไม่เป็นทางการ เช่น สลูดาซึ่งบางคนใช้เพื่อรันเวิร์กโหลดบางอย่างบน Windows ด้วยฮาร์ดแวร์ AMD เส้นทางเช่น DirectML, ONNX หรือ Olive สำหรับการเร่งความเร็วและรวบรวมโมเดลในระบบนิเวศของ Microsoft โดยมีรายละเอียดและข้อจำกัดที่เฉพาะเจาะจงสำหรับแต่ละเครื่องมือ

เป็นสิ่งที่ควรเน้นย้ำว่าเนื่องจากยังอยู่ในช่วงแสดงตัวอย่าง PyTorch บน Windows บน ROCm อาจไม่ครอบคลุมทุกกรณี และไม่ได้ให้ความเสถียรในระดับเดียวกับ Linux หากโครงการของคุณมีความสำคัญ ลองพิจารณาสภาพแวดล้อมแบบ dual-boot หรือคอนเทนเนอร์บน Linux ซึ่งสแต็กจะมีความสมบูรณ์มากกว่า

ประสิทธิภาพและการแก้ไขปัญหา: ข้อดี ข้อเสีย และสิ่งที่คุณควรตรวจสอบ

มีประสบการณ์ผู้ใช้ที่แตกต่างกันมาก ในแง่หนึ่ง มีรายงานว่า การปรับปรุงที่ชัดเจนในความเข้ากันได้และประสิทธิภาพ ในการเผยแพร่แต่ละครั้ง โดยเฉพาะใน AI ประยุกต์ (PyTorch, TensorFlow, vLLM) ยังมีรายงานที่อธิบายถึงการติดตั้งที่น่าหงุดหงิดพร้อมข้อผิดพลาดด้านการอ้างอิงหรือแพ็คเกจที่ไม่พอดีกับระบบอีกด้วย

ฉันจะรู้ได้อย่างไรว่าฉันเป็น Minecraft เลเยอร์ไหน? ฉันจะรู้ได้อย่างไรว่าขีดจำกัดความสูงคือเท่าใด

ตัวอย่างในโลกแห่งความเป็นจริงเกี่ยวข้องกับผู้ใช้ที่ทดสอบ หกการแจกจ่าย Ubuntu ในโลหะ และในทุกกรณี amdgpu_install จะส่งคืนแพ็คเกจที่หายไปหรือเข้ากันไม่ได้ ฉันเปรียบเทียบประสบการณ์กับ Nvidia (ซึ่งการติดตั้ง ไดรเวอร์ (สำหรับเขาแล้ว มันเป็นเรื่องง่าย) และวิพากษ์วิจารณ์ความไม่ตรงกันระหว่างการตลาดกับความเป็นจริงเมื่อ 7800 XT ของเขาไม่ได้แสดงรายชื่อว่าได้รับการสนับสนุนอย่างเป็นทางการจาก ROCm บน Linux

ในสถานการณ์เช่นนี้ ขั้นตอนแรกคือการตรวจสอบ เมทริกซ์ความเข้ากันได้ของฮาร์ดแวร์และเวอร์ชัน การที่ AMD ไม่มีการสนับสนุนอย่างเป็นทางการสำหรับ GPU รุ่นใดรุ่นหนึ่ง มักอธิบายถึงความล้มเหลวในการติดตั้งหรือปัญหาขัดข้อง ขั้นตอนที่สองคือการปรับรุ่น เคอร์เนล และเวอร์ชัน ROCm ที่ AMD บันทึกไว้ว่า "เหมาะสม" สำหรับฮาร์ดแวร์นั้นๆ

หากคุณยังคงติดขัด โปรดพิจารณาวิธีอื่น: การติดตั้งด้วย runfileผู้สร้างตัวติดตั้งแบบออฟไลน์ หรือในบางกรณี ที่เก็บที่ดูแลโดยพนักงานของ AMD ควรเตรียมตัวเลือกหลายเวอร์ชันไว้ใกล้ตัว เพื่อทดลองใช้เวอร์ชันเก่าหรือใหม่กว่า โดยไม่กระทบต่อสภาพแวดล้อมหลักของคุณ

เพื่อประสิทธิภาพการทำงาน โปรดจำการตั้งค่าของ MIOPEN_FIND_MODE และ MIOPEN_FIND_ENFORCEตรวจสอบความแม่นยำ (โดยปกติแล้ว fp16 เป็นตัวเลือกที่ปลอดภัยสำหรับ RDNA 3+ เพื่อปรับสมดุล VRAM และความเร็ว) และเปิดใช้งาน CK Flash Attention หากจำเป็น การเปลี่ยนแปลงเล็กๆ น้อยๆ เหล่านี้สร้างความแตกต่างอย่างเห็นได้ชัดในด้านเวลาในการอนุมานและการใช้พลังงาน

ชุมชนและทรัพยากรที่มีประโยชน์

ชุมชนมีบทบาทสำคัญในชีวิตประจำวัน หากคุณทำงานด้วยเวิร์กโฟลว์เชิงสร้างสรรค์ subreddit ComfyUI ที่ไม่เป็นทางการ เป็นสถานที่พบปะที่ยอดเยี่ยมสำหรับการแบ่งปันเคล็ดลับ เทคนิค และขั้นตอนการทำงาน พวกเขาขอให้โพสต์เนื้อหาแบบ SFW หลีกเลี่ยงขั้นตอนการทำงานแบบเสียเงิน เนื้อหาต้องตรงประเด็น และที่สำคัญที่สุดคือ ขอให้ทุกคนมีน้ำใจต่อผู้ที่เพิ่งเริ่มต้น

นอกจากนี้ ยังค้นหาสคริปต์และการกำหนดค่าได้ง่ายอีกด้วย ติดตั้ง ROCm โดยอัตโนมัติเตรียมสภาพแวดล้อมด้วย PyTorch ที่รองรับ หรือปรับแต่ง SD.Next อ้างอิงสิ่งที่คุณอ่านกับเอกสารอย่างเป็นทางการและเมทริกซ์สนับสนุนปัจจุบันเสมอ เพื่อหลีกเลี่ยงการเสียเวลา

หากคุณเพิ่งเริ่มต้น คำแนะนำของ AMD ก็ชัดเจน: ใช้คู่มือเริ่มต้นอย่างรวดเร็ว จากนั้น ให้ปรับขนาดเป็นวิธีการขั้นสูง (หลายเวอร์ชัน, รันไฟล์, ออฟไลน์) เมื่อคุณเข้าใจปัญหาเฉพาะที่วิธีเหล่านั้นช่วยแก้ปัญหาของคุณได้แล้ว วิธีนี้จะช่วยให้คุณลดขั้นตอนที่ไม่จำเป็น

ภาพรวม เรามาเน้นที่องค์ประกอบหลักกันก่อน: ROCm บน Linux ถือเป็นเส้นทางที่เสถียรที่สุดในปัจจุบัน สำหรับ GPU Radeon; Windows อยู่ในขั้นตอนการสร้างด้วย PyTorch ใน "Preview"; ความเข้ากันได้ของฮาร์ดแวร์มีความสำคัญมาก และยังมีเครื่องมือที่ได้รับการพิสูจน์แล้ว (vLLM, ONNX Runtime พร้อม MIGraphX, llama.cpp, FlashAttention-2) ที่ให้พลังกับ AI ที่แท้จริงและเวิร์กโฟลว์การคำนวณ

ใครก็ตามที่ต้องการสถานี AI ในพื้นที่ส่วนตัวมีเส้นทางด้วย Radeon ที่มี VRAM สูงสุด 48GBผู้ที่กำลังมองหาแล็ปท็อปหรือพีซีขนาดกะทัดรัดสามารถสำรวจ Ryzen APU ที่มีหน่วยความจำร่วมกันได้ ขณะเดียวกัน Docker และโปรแกรมติดตั้งอื่นๆ ก็มีโซลูชันสำหรับสภาพแวดล้อมแบบควบคุมหรือแบบออฟไลน์

โดยไม่ต้องสัญญาว่าจะมีปาฏิหาริย์ ด้วยชิ้นส่วนที่ถูกต้องและเวอร์ชันที่ถูกต้องสำหรับฮาร์ดแวร์ของคุณ ROCm ช่วยให้คุณสร้างสภาพแวดล้อมที่จริงจังและมีประสิทธิผล สำหรับ AI และ HPC ทั้งในการพัฒนาและการใช้งานจริง และหากบางอย่างยังไม่สามารถใช้งานได้ในตอนแรก คุณไม่ได้อยู่คนเดียว ชุมชนและเอกสารประกอบพร้อมช่วยคุณปรับแต่ง

บทความที่เกี่ยวข้อง:

AMD ROCm คืออะไร และจะติดตั้งได้อย่างไร?

ไอแซก

นักเขียนผู้หลงใหลเกี่ยวกับโลกแห่งไบต์และเทคโนโลยีโดยทั่วไป ฉันชอบแบ่งปันความรู้ผ่านการเขียน และนั่นคือสิ่งที่ฉันจะทำในบล็อกนี้ เพื่อแสดงให้คุณเห็นสิ่งที่น่าสนใจที่สุดเกี่ยวกับอุปกรณ์ ซอฟต์แวร์ ฮาร์ดแวร์ แนวโน้มทางเทคโนโลยี และอื่นๆ เป้าหมายของฉันคือการช่วยคุณนำทางโลกดิจิทัลด้วยวิธีที่เรียบง่ายและสนุกสนาน