BerandaComputers and TechnologyAMD di Tipping Point dengan Naluri MI100 GPU Accelerators

AMD di Tipping Point dengan Naluri MI100 GPU Accelerators

Cukup sulit untuk mengejar satu pesaing. Bayangkan betapa sulitnya mengejar dua pesaing yang berbeda di pasar yang berbeda tetapi saling melengkapi sementara pada saat yang sama kedua pesaing tersebut berpikir untuk saling bertarung di dua pasar yang berbeda tersebut dan dengan demikian membawa tekanan persaingan yang lebih intens di kedua sisi.

Selamat menjadi AMD. Sama seperti AMD yang telah mengeluarkan dua generasi prosesor Epyc untuk bersaing dengan baik dengan Intel Xeon SPs dan sedang mempersiapkan generasi ketiga (dalam hal ini “Milan” Epyc 7003 yang akan dikirimkan akhir tahun ini untuk pendapatan dan diluncurkan secara resmi di awal 2021) untuk maju pesat, dan seperti halnya GPU Instinct telah keluar dari pintu dua generasi – Instinct MI25 pada tahun 2017 dan Instinct MI50 pada tahun 2018 – dan sekarang pada konferensi superkomputer SC20 yang meluncurkan Instinct MI100, Intel sedang bersiap untuk memasuki pasar dengan “Ponte Vecchio” X e HPC tahun depan karena AMD tampaknya akan bersaing cukup baik dengan mesin komputasi GPU A100 “Ampere” Nvidia saat ini , dan Nvidia sedang dalam proses membeli Arm Holdings seharga $ 40 miliar untuk mencoba mendorong chip server Arm ke pusat data melawan AMD Epycs dan Intel Xeons.

Tetapi pada saat ini, jika eselon atas pasar HPC adalah indikator utama apa pun – dan kami sangat yakin demikian – maka AMD sedang melakukan pekerjaan luar biasa untuk mengatur dirinya sendiri untuk mengambil bagian. dari Intel di CPU dan Nvidia di akselerator GPU. Akselerator GPU Instinct MI100 yang diumumkan AMD hari ini sebagai konferensi superkomputer SC20 sedang berjalan lancar adalah langkah pertama dalam mengungkapkan bagaimana hal ini telah dilakukan, dan oleh karena itu, di mana setidaknya beberapa pasar HPC dan AI akan menuju di masa mendatang. tahun.

Tidak seperti CPU dan FPGA, di mana tampaknya ada varian fitur yang tak ada habisnya yang dihidupkan atau dimatikan untuk menyediakan tumpukan SKU, hal ini tidak banyak terjadi untuk mesin komputasi HPC dan AI yang didasarkan pada GPU. Nvidia memiliki dua varian A100 – yang menggunakan NVLink 3.0 dan yang menggunakan PCI-Express 4.0 – dan GPU “Arcturus” di jantung Instinct MI100 (Radeon bukan lagi bagian dari merek akselerator server) memiliki satu SKU. Ada kemungkinan ada dua jika semua elemen komputasi yang melekat dalam cetakan dapat diaktifkan sebagai hasil yang meningkat pada proses 7 nanometer dari Taiwan Semiconductor Manufacturing Corp yang digunakan untuk meningkatkan chip Arcturus. Tapi kami tidak akan mengandalkannya.

Hal ini tentunya tidak terjadi pada akselerator GPU Instinct generasi terakhir, yang keluar selama dua tahun menggunakan GPU “Vega 20” berdasarkan arsitektur Graphics Core Next (GCN) yang memiliki clock 1,8 GHz. Instinct MI60 teratas memiliki 64 elemen komputasi dengan total 4.096 prosesor streaming sedangkan MI50 Instinct hanya memiliki 60 elemen komputasi tersebut dan oleh karena itu 3.840 prosesor streaming tersebut diaktifkan, dan oleh karena itu memiliki kinerja yang lebih rendah dengan rasio tersebut. Instinct MI50 sebenarnya datang ke pasar dan dijual, tetapi kami tidak pernah melihat Instinct MI60 di mana pun dan AMD tidak pernah membicarakannya lagi.

Kartu MI60 memiliki memori HBM2 32 GB, sedangkan kartu MI50 hanya memiliki memori 16 GB, seperti kartu MI25 generasi sebelumnya, yang juga didasarkan pada arsitektur GCN tetapi memiliki clock 1.5 yang lebih rendah. GHz menggunakan proses 14 nanometer dari GlobalFoundries dibandingkan dengan 1,8 GHz pada MI50 dan MI60 dan karena itu tidak menawarkan lebih banyak semangat. Dan demi penyelesaiannya, GPU Vega 10 berukuran 495 milimeter persegi dan memiliki 12,5 miliar transistor, sedangkan Vega 20 berukuran 331 milimeter persegi lebih kecil dan memiliki 13,2 miliar transistor menggunakan iterasi sebelumnya dari proses 7 nanometer TSMC.

Ukuran die, jumlah transistor, dan kecepatan clock untuk Arcturus belum diumumkan, tetapi mengingat bahwa menurut kami die memiliki 128 unit komputasi (oke, kami tahu karena kami menghitungnya pada die shot ), kami menduga yang satu ini kira-kira dua kali luas dengan kira-kira dua kali jumlah transistor, tetapi dengan jam yang melambat di suatu tempat sekitar 1,2 GHz untuk mengurangi panas tetapi masih meningkatkan jumlah agregat yang berderak dari chip Arcturus di atas Vega 20.

Perubahan besar pada GPU Arcturus adalah AMD membagi GPU kartu grafisnya yang ditujukan untuk para gamer, di mana pemrosesan frame per detik adalah yang terpenting, dari akselerator GPU yang ditujukan untuk HPC dan komputasi AI, di mana operasi floating point dan integer per detik adalah kuncinya. Ini adalah pemisahan antara chip RDNA dan CDNA, dalam istilah AMD, dan chip Arcturus adalah contoh pertama dari arsitektur CDNA. Perpecahan ini mirip dengan pemisahan yang dimiliki AMD antara GPU Turing T4 dan Volta V100 atau GPU Ampere A40 dan A100, dan Intel juga membuat dengan X e HP dan X e GPU HPC. ( Intel X e sebenarnya lebih lebar dari itu .) Itu tidak berarti bahwa beberapa pelanggan HPA dan AI tidak akan menggunakan chip RDNA untuk melakukan pekerjaan komputasi – banyak yang akan melakukannya karena harganya murah dan karena tidak memerlukan matematika floating point atau matematika matriks 64-bit, yang membuat mesin komputasi GPU yang lebih canggih ini menjadi lebih mahal. Tetapi chip CDNA secara tegas ditujukan untuk pekerjaan komputasi GPU dan dioptimalkan untuk ini.

Secara khusus, chip Arcturus mengeluarkan semua sirkuit dari prosesor streaming yang terkait dengan grafik, seperti cache grafik dan mesin tampilan serta fitur rasterisasi, tessellation, dan pencampuran tetapi karena beban kerja yang mengganggu pada data multimedia – seperti deteksi objek dalam aplikasi pembelajaran mesin – logika khusus untuk dekode HEVC, H.264, dan VP9 tersisa. Ini mengosongkan ruang untuk menambahkan lebih banyak prosesor aliran dan unit komputasi.

Inilah tampilan dadu Arcturus dengan empat bank memori HBM2 yang secara visual sejajar dengannya (tetapi jelas tidak terhubung secara logis:

Dan berikut adalah diagram blok yang menunjukkan elemen apa saja dari Arcturus GPU pada level tinggi:

Elemen komputasi dipecah menjadi delapan bank, dengan dua bank dengan total 32 elemen komputasi yang berbagi setiap pengontrol memori HBM2 dan karenanya 8 GB memori HBM2. Kami sangat curiga bahwa AMD pada akhirnya akan menggandakan memori HBM2 pada kartu akselerator MI100 Instinct di beberapa titik, terutama dengan Nvidia sekarang meningkatkan memori HBM2 pada kartu Ampere A100 dari 40 GB di lima pengontrol aktif (desainnya memiliki enam, tetapi satu laten) hingga 80 GB sebagai bagian dari pengumuman SC20 hari ini. Pengontrol memori Arcturus mendukung tumpukan HBM2 yang memiliki tinggi empat chip atau tinggi delapan chip, dan menurut kami kartu MI100 Instinct awal menggunakan tumpukan empat tinggi dengan 2 GB per chip. Jika demikian, maka 64 GB dimungkinkan di masa mendatang dengan menumpuk memori dua kali lebih tinggi. Konfigurasi saat ini memiliki memori yang mendukung 2,4 GT / detik, memberikan bandwidth memori agregat 1,23 TB / detik, yang menurut AMD merupakan bandwidth 20 persen lebih banyak daripada dengan kartu Instinct MI50 tetapi dalam amplop daya yang sama untuk memori.

Desain Arcturus memiliki dua blok mesin komputasi, atas dan bawah, dengan dua bank cache L2 asosiatif 16 arah yang memiliki total 32 irisan, menghubungkan semuanya satu sama lain. Kapasitas cache L2 memiliki bobot total 8 MB dan memberikan total bandwidth 6 TB / detik ke dalam dan ke luar mesin komputasi. Semua memori memiliki deteksi dan koreksi kesalahan ECC, tentu saja, yang diperlukan untuk beban kerja komputasi dan lebih sedikit untuk grafis vanilla biasa, yang dapat bertahan dari sedikit kesalahan bersendawa.

Seluruh shebang dibungkus dengan AMD’s Infinity Fabric, sebuah superset dari tautan point-to-point HyperTransport yang merupakan jantung dan jiwa dari arsitektur CPU Opteron lebih dari satu dekade yang lalu dan yang memiliki telah diperluas dan diperluas dalam banyak hal, termasuk penggunaannya sebagai interkoneksi GPU-ke-GPU dan di masa mendatang dengan interkoneksi CPU-ke-GPU. Yang penting adalah Infinity Fabric mendukung memori yang koheren di seluruh perangkat, seperti yang dilakukan NVLink Nvidia. Pada mesin komputasi GPU Arcturus, Infinity Fabric berjalan pada 23 GT / detik dan lebar 16-bit, seperti pada GPU MI50 dan MI60 Vega 20, tetapi dengan kartu Arcturus MI100, ada tiga tautan Infinity Fabric yang keluar dari mati sehingga empat GPU dapat dihubungkan silang hanya dengan satu lompatan antara dua perangkat. Masing-masing pipa Infinity Fabric tersebut memiliki bandwidth 92 GB / detik.

Memiliki tiga pipa Infinity Fabric per GPU Arcturus memungkinkan penggandengan seperti NUMA dari empat GPU dan 128 GB memori HBM2 ke dalam GPU virtual yang jauh lebih besar, seperti UltraPath Interconnect di Intel (tindak lanjut dari QuickPath Interconnect, yang terinspirasi oleh desain Opteron) memungkinkan empat CPU dihubungkan erat dan berbagi memori hanya dengan satu hop di generasi Xeon SP “Cooper Lake”. Inilah tampilan Infinity Fabric “sarang” dari empat GPU:

Dengan hanya dua port Infinity Fabric pada kartu Instinct MI50 dan MI60, bank GPU hanya dapat dihubungkan satu sama lain dalam topologi ring dan semakin besar jumlah GPU di ring, semakin banyak latensi antar perangkat.

Di masa mendatang, Epyc CPUs dan Instinct GPUs akan memiliki cukup port Infinity Fabric untuk menggabungkan satu CPU ke quad GPU, semuanya dengan memori yang koheren di seluruh perangkat. IBM telah mendukung koherensi antara prosesor Power9 dan akselerator GPU Nvidia V100 selama tiga tahun terakhir, dan ini adalah salah satu alasan mengapa Big Blue memenangkan kontrak untuk membangun superkomputer hybrid “Summit” di Laboratorium Nasional Oak Ridge dan superkomputer “Sierra” pendampingnya di Lawrence Livermore National Laboratories. Untuk alasan apa pun, koherensi antara CPU dan GPU ini tidak akan tersedia dengan prosesor Power10 dan GPU Ampere saat ini dan kami menganggap GPU Nvidia di masa mendatang karena IBM ingin menggunakan OpenCAPI dan Nvidia ingin menggunakan NVLink, dan ini mungkin salah satu alasan mengapa Big Blue tidak memenangkan kontrak untuk sistem kelas exascale “Frontier” dan “El Capitan” di dua laboratorium di Amerika Serikat ini. Meskipun demikian, kejatuhan atas OpenCAPI dan NVLink dapat menjadi salah satu akibat dari kehilangan kesepakatan, belum tentu berpengaruh.

Pada titik ini, kartu Instinct MI100 terhubung ke prosesor menggunakan tautan PCI-Express 4.0 x16 standar, yang mendukung bandwidth 32 GB / detik di setiap arah, ke sana kemari, di antara perangkat. Tambahkan semuanya, dan setiap kartu MI100 Instinct memiliki bandwidth PCI-Express 4.0 64 GB / detik dan bandwidth Infinity Fabric 276 GB / detik di tiga pipanya, dengan total 340 GB / detik bandwidth I / O.

Kami akan mendalami GPU Arcturus, termasuk arsitektur Matrix Core yang baru dan bagaimana membandingkan dan membedakannya dengan kartu Instinct sebelumnya dan mesin komputasi GPU Nvidia, tetapi untuk saat ini, berikut adalah mentahnya feed dan kecepatan:

Seperti yang Anda lihat, hanya 120 dari 128 unit komputasi pada Arcturus yang mati, dan oleh karena itu hanya 7.680 dari 8.192 prosesor streaming potensial yang diaktifkan. Ada peningkatan kinerja 6,7 ​​persen lainnya pada kecepatan clock yang sama yang melekat dalam desain saat hasil TSMC 7 nanometer meningkat – tetapi seperti yang kami katakan di atas, kami tidak akan mengandalkannya. Hal yang menyenangkan adalah bahwa Arcturus adalah akselerator GPU pertama yang menembus penghalang floating point 10 teraflop dengan presisi 64-bit – dan AMD melakukannya dalam amplop termal 300 watt untuk 11,5 teraflop, bukan yang 400 watt seperti yang dimiliki Nvidia. Ampere A100, yang memiliki berat hanya 9,7 teraflop pada floating point presisi 64-bit. Tapi, Nvidia memiliki kapasitas latennya sendiri di perangkat Ampere juga. Siapa yang akan mendapatkan hasil TSMC lebih cepat? Hmmmm . . . .

Harga Insting MI100 tidak diungkapkan, tetapi kami akan mencoba untuk melihat apa yang dikenakan OEM untuk itu. Berikut adalah vendor OEM awal dan mesin mereka yang akan mendukung akselerator GPU MI100:

OEM ini akan mulai mengirimkan mesin ini mulai bulan ini.

Read More

RELATED ARTICLES

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Most Popular

Recent Comments