본문 바로가기
ML,DL/Deep Learning

RHEL8 에 offline 중 GPU 드라이버 설치하기

by mirhenge 2021. 8. 12.

우선 dkms 를 설치 해야함
wget https://download-ib01.fedoraproject.org/pub/epel/8/Everything/aarch64/Packages/d/dkms-2.8.4-1.el8.noarch.rpm

[root@ktaicc ~]# yum install cuda-drivers -y
[root@ktaicc ~]# nvidia-smi topo -m
GPU0 GPU1 CPU Affinity NUMA Affinity
GPU0  X  SYS 0,2,4,6,8,10 0
GPU1 SYS  X  1,3,5,7,9,11 1

Legend:

  X    = Self
  SYS  = Connection traversing PCIe as well as the SMP interconnect between NUMA nodes (e.g., QPI/UPI)
  NODE = Connection traversing PCIe as well as the interconnect between PCIe Host Bridges within a NUMA node
  PHB  = Connection traversing PCIe as well as a PCIe Host Bridge (typically the CPU)
  PXB  = Connection traversing multiple PCIe bridges (without traversing the PCIe Host Bridge)
  PIX  = Connection traversing at most a single PCIe bridge
  NV#  = Connection traversing a bonded set of # NVLinks
[root@ktaicc ~]# 
[root@ktaicc ~]# lspci -tvnn
-+-[0000:ff]-+-00.0  Intel Corporation Device [8086:344c]
 |           +-00.1  Intel Corporation Device [8086:344c]
 |           +-00.2  Intel Corporation Device [8086:344c]
 |           +-00.3  Intel Corporation Device [8086:344c]
 |           +-00.4  Intel Corporation Device [8086:344c]
 |           +-00.5  Intel Corporation Device [8086:344c]
 |           +-00.6  Intel Corporation Device [8086:344c]
 |           +-00.7  Intel Corporation Device [8086:344c]
 |           +-01.0  Intel Corporation Device [8086:344c]
 |           +-01.1  Intel Corporation Device [8086:344c]
 |           +-01.2  Intel Corporation Device [8086:344c]
 |           +-01.3  Intel Corporation Device [8086:344c]
 |           +-01.4  Intel Corporation Device [8086:344c]
 |           +-01.5  Intel Corporation Device [8086:344c]
 |           +-01.6  Intel Corporation Device [8086:344c]
 |           +-01.7  Intel Corporation Device [8086:344c]
 |           +-02.0  Intel Corporation Device [8086:344c]
 |           +-02.1  Intel Corporation Device [8086:344c]
 |           +-02.2  Intel Corporation Device [8086:344c]
 |           +-02.3  Intel Corporation Device [8086:344c]
 |           +-02.4  Intel Corporation Device [8086:344c]
 |           +-02.5  Intel Corporation Device [8086:344c]
 |           +-02.6  Intel Corporation Device [8086:344c]
 |           +-02.7  Intel Corporation Device [8086:344c]
 |           +-03.0  Intel Corporation Device [8086:344c]
 |           +-03.1  Intel Corporation Device [8086:344c]
 |           +-03.2  Intel Corporation Device [8086:344c]
 |           +-03.3  Intel Corporation Device [8086:344c]
 |           +-03.4  Intel Corporation Device [8086:344c]
 |           +-03.5  Intel Corporation Device [8086:344c]
 |           +-03.6  Intel Corporation Device [8086:344c]
 |           +-03.7  Intel Corporation Device [8086:344c]
 |           +-04.0  Intel Corporation Device [8086:344c]
 |           +-04.1  Intel Corporation Device [8086:344c]
 |           +-04.2  Intel Corporation Device [8086:344c]
 |           +-04.3  Intel Corporation Device [8086:344c]
 |           +-04.4  Intel Corporation Device [8086:344c]
 |           +-04.5  Intel Corporation Device [8086:344c]
 |           +-04.6  Intel Corporation Device [8086:344c]
 |           +-04.7  Intel Corporation Device [8086:344c]
 |           +-0a.0  Intel Corporation Device [8086:344d]
 |           +-0a.1  Intel Corporation Device [8086:344d]
 |           +-0a.2  Intel Corporation Device [8086:344d]
 |           +-0a.3  Intel Corporation Device [8086:344d]
 |           +-0a.4  Intel Corporation Device [8086:344d]
 |           +-0a.5  Intel Corporation Device [8086:344d]
 |           +-0a.6  Intel Corporation Device [8086:344d]
 |           +-0a.7  Intel Corporation Device [8086:344d]
 |           +-0b.0  Intel Corporation Device [8086:344d]
 |           +-0b.1  Intel Corporation Device [8086:344d]
 |           +-0b.2  Intel Corporation Device [8086:344d]
 |           +-0b.3  Intel Corporation Device [8086:344d]
 |           +-0b.4  Intel Corporation Device [8086:344d]
 |           +-0b.5  Intel Corporation Device [8086:344d]
 |           +-0b.6  Intel Corporation Device [8086:344d]
 |           +-0b.7  Intel Corporation Device [8086:344d]
 |           +-0c.0  Intel Corporation Device [8086:344d]
 |           +-0c.1  Intel Corporation Device [8086:344d]
 |           +-0c.2  Intel Corporation Device [8086:344d]
 |           +-0c.3  Intel Corporation Device [8086:344d]
 |           +-0c.4  Intel Corporation Device [8086:344d]
 |           +-0c.5  Intel Corporation Device [8086:344d]
 |           +-0c.6  Intel Corporation Device [8086:344d]
 |           +-0c.7  Intel Corporation Device [8086:344d]
 |           +-0d.0  Intel Corporation Device [8086:344d]
 |           +-0d.1  Intel Corporation Device [8086:344d]
 |           +-0d.2  Intel Corporation Device [8086:344d]
 |           +-0d.3  Intel Corporation Device [8086:344d]
 |           +-0d.4  Intel Corporation Device [8086:344d]
 |           +-0d.5  Intel Corporation Device [8086:344d]
 |           +-0d.6  Intel Corporation Device [8086:344d]
 |           +-0d.7  Intel Corporation Device [8086:344d]
 |           +-0e.0  Intel Corporation Device [8086:344d]
 |           +-0e.1  Intel Corporation Device [8086:344d]
 |           +-0e.2  Intel Corporation Device [8086:344d]
 |           +-0e.3  Intel Corporation Device [8086:344d]
 |           +-0e.4  Intel Corporation Device [8086:344d]
 |           +-0e.5  Intel Corporation Device [8086:344d]
 |           +-0e.6  Intel Corporation Device [8086:344d]
 |           +-0e.7  Intel Corporation Device [8086:344d]
 |           +-1d.0  Intel Corporation Device [8086:344f]
 |           +-1d.1  Intel Corporation Device [8086:3457]
 |           +-1e.0  Intel Corporation Device [8086:3458]
 |           +-1e.1  Intel Corporation Device [8086:3459]
 |           +-1e.2  Intel Corporation Device [8086:345a]
 |           +-1e.3  Intel Corporation Device [8086:345b]
 |           +-1e.4  Intel Corporation Device [8086:345c]
 |           +-1e.5  Intel Corporation Device [8086:345d]
 |           +-1e.6  Intel Corporation Device [8086:345e]
 |           \-1e.7  Intel Corporation Device [8086:345f]
 +-[0000:fe]-+-00.0  Intel Corporation Device [8086:3450]
 |           +-00.1  Intel Corporation Device [8086:3451]
 |           +-00.2  Intel Corporation Device [8086:3452]
 |           +-00.3  Intel Corporation Device [8086:0998]
 |           +-00.5  Intel Corporation Device [8086:3455]
 |           +-02.0  Intel Corporation Device [8086:3440]
 |           +-02.1  Intel Corporation Device [8086:3441]
 |           +-02.2  Intel Corporation Device [8086:3442]
 |           +-03.0  Intel Corporation Device [8086:3440]
 |           +-03.1  Intel Corporation Device [8086:3441]
 |           +-03.2  Intel Corporation Device [8086:3442]
 |           +-04.0  Intel Corporation Device [8086:3440]
 |           +-04.1  Intel Corporation Device [8086:3441]
 |           +-04.2  Intel Corporation Device [8086:3442]
 |           +-04.3  Intel Corporation Device [8086:3443]
 |           +-05.0  Intel Corporation Device [8086:3445]
 |           +-05.1  Intel Corporation Device [8086:3446]
 |           +-05.2  Intel Corporation Device [8086:3447]
 |           +-06.0  Intel Corporation Device [8086:3445]
 |           +-06.1  Intel Corporation Device [8086:3446]
 |           +-06.2  Intel Corporation Device [8086:3447]
 |           +-07.0  Intel Corporation Device [8086:3445]
 |           +-07.1  Intel Corporation Device [8086:3446]
 |           +-07.2  Intel Corporation Device [8086:3447]
 |           +-0b.0  Intel Corporation Device [8086:3448]
 |           +-0b.1  Intel Corporation Device [8086:3448]
 |           +-0b.2  Intel Corporation Device [8086:344b]
 |           +-0c.0  Intel Corporation Device [8086:344a]
 |           +-0d.0  Intel Corporation Device [8086:344a]
 |           +-0e.0  Intel Corporation Device [8086:344a]
 |           +-0f.0  Intel Corporation Device [8086:344a]
 |           +-1a.0  Intel Corporation Device [8086:2880]
 |           +-1b.0  Intel Corporation Device [8086:2880]
 |           +-1c.0  Intel Corporation Device [8086:2880]
 |           \-1d.0  Intel Corporation Device [8086:2880]
 +-[0000:e2]-+-00.0  Intel Corporation Device [8086:09a2]
 |           +-00.1  Intel Corporation Device [8086:09a4]
 |           +-00.2  Intel Corporation Device [8086:09a3]
 |           \-00.4  Intel Corporation Device [8086:0998]
 +-[0000:c9]-+-00.0  Intel Corporation Device [8086:09a2]
 |           +-00.1  Intel Corporation Device [8086:09a4]
 |           +-00.2  Intel Corporation Device [8086:09a3]
 |           +-00.4  Intel Corporation Device [8086:0998]
 |           \-02.0-[ca-cb]----00.0  NVIDIA Corporation GA100 [A100 PCIe 40GB] [10de:20f1]
 +-[0000:b0]-+-00.0  Intel Corporation Device [8086:09a2]
 |           +-00.1  Intel Corporation Device [8086:09a4]
 |           +-00.2  Intel Corporation Device [8086:09a3]
 |           +-00.4  Intel Corporation Device [8086:0998]
 |           +-02.0-[b1]--+-00.0  Intel Corporation Ethernet Controller X710 for 10GbE SFP+ [8086:1572]
 |           |            \-00.1  Intel Corporation Ethernet Controller X710 for 10GbE SFP+ [8086:1572]
 |           \-04.0-[b2]--+-00.0  Intel Corporation Ethernet Controller X710 for 10GbE SFP+ [8086:1572]
 |                        \-00.1  Intel Corporation Ethernet Controller X710 for 10GbE SFP+ [8086:1572]
 +-[0000:97]-+-00.0  Intel Corporation Device [8086:09a2]
 |           +-00.1  Intel Corporation Device [8086:09a4]
 |           +-00.2  Intel Corporation Device [8086:09a3]
 |           \-00.4  Intel Corporation Device [8086:0998]
 +-[0000:80]-+-00.0  Intel Corporation Device [8086:09a2]
 |           +-00.1  Intel Corporation Device [8086:09a4]
 |           +-00.2  Intel Corporation Device [8086:09a3]
 |           +-00.4  Intel Corporation Device [8086:0998]
 |           +-02.0  Intel Corporation Device [8086:09a6]
 |           +-02.1  Intel Corporation Device [8086:09a7]
 |           \-02.4  Intel Corporation Device [8086:3456]
 +-[0000:7f]-+-00.0  Intel Corporation Device [8086:344c]
 |           +-00.1  Intel Corporation Device [8086:344c]
 |           +-00.2  Intel Corporation Device [8086:344c]
 |           +-00.3  Intel Corporation Device [8086:344c]
 |           +-00.4  Intel Corporation Device [8086:344c]
 |           +-00.5  Intel Corporation Device [8086:344c]
 |           +-00.6  Intel Corporation Device [8086:344c]
 |           +-00.7  Intel Corporation Device [8086:344c]
 |           +-01.0  Intel Corporation Device [8086:344c]
 |           +-01.1  Intel Corporation Device [8086:344c]
 |           +-01.2  Intel Corporation Device [8086:344c]
 |           +-01.3  Intel Corporation Device [8086:344c]
 |           +-01.4  Intel Corporation Device [8086:344c]
 |           +-01.5  Intel Corporation Device [8086:344c]
 |           +-01.6  Intel Corporation Device [8086:344c]
 |           +-01.7  Intel Corporation Device [8086:344c]
 |           +-02.0  Intel Corporation Device [8086:344c]
 |           +-02.1  Intel Corporation Device [8086:344c]
 |           +-02.2  Intel Corporation Device [8086:344c]
 |           +-02.3  Intel Corporation Device [8086:344c]
 |           +-02.4  Intel Corporation Device [8086:344c]
 |           +-02.5  Intel Corporation Device [8086:344c]
 |           +-02.6  Intel Corporation Device [8086:344c]
 |           +-02.7  Intel Corporation Device [8086:344c]
 |           +-03.0  Intel Corporation Device [8086:344c]
 |           +-03.1  Intel Corporation Device [8086:344c]
 |           +-03.2  Intel Corporation Device [8086:344c]
 |           +-03.3  Intel Corporation Device [8086:344c]
 |           +-03.4  Intel Corporation Device [8086:344c]
 |           +-03.5  Intel Corporation Device [8086:344c]
 |           +-03.6  Intel Corporation Device [8086:344c]
 |           +-03.7  Intel Corporation Device [8086:344c]
 |           +-04.0  Intel Corporation Device [8086:344c]
 |           +-04.1  Intel Corporation Device [8086:344c]
 |           +-04.2  Intel Corporation Device [8086:344c]
 |           +-04.3  Intel Corporation Device [8086:344c]
 |           +-04.4  Intel Corporation Device [8086:344c]
 |           +-04.5  Intel Corporation Device [8086:344c]
 |           +-04.6  Intel Corporation Device [8086:344c]
 |           +-04.7  Intel Corporation Device [8086:344c]
 |           +-0a.0  Intel Corporation Device [8086:344d]
 |           +-0a.1  Intel Corporation Device [8086:344d]
 |           +-0a.2  Intel Corporation Device [8086:344d]
 |           +-0a.3  Intel Corporation Device [8086:344d]
 |           +-0a.4  Intel Corporation Device [8086:344d]
 |           +-0a.5  Intel Corporation Device [8086:344d]
 |           +-0a.6  Intel Corporation Device [8086:344d]
 |           +-0a.7  Intel Corporation Device [8086:344d]
 |           +-0b.0  Intel Corporation Device [8086:344d]
 |           +-0b.1  Intel Corporation Device [8086:344d]
 |           +-0b.2  Intel Corporation Device [8086:344d]
 |           +-0b.3  Intel Corporation Device [8086:344d]
 |           +-0b.4  Intel Corporation Device [8086:344d]
 |           +-0b.5  Intel Corporation Device [8086:344d]
 |           +-0b.6  Intel Corporation Device [8086:344d]
 |           +-0b.7  Intel Corporation Device [8086:344d]
 |           +-0c.0  Intel Corporation Device [8086:344d]
 |           +-0c.1  Intel Corporation Device [8086:344d]
 |           +-0c.2  Intel Corporation Device [8086:344d]
 |           +-0c.3  Intel Corporation Device [8086:344d]
 |           +-0c.4  Intel Corporation Device [8086:344d]
 |           +-0c.5  Intel Corporation Device [8086:344d]
 |           +-0c.6  Intel Corporation Device [8086:344d]
 |           +-0c.7  Intel Corporation Device [8086:344d]
 |           +-0d.0  Intel Corporation Device [8086:344d]
 |           +-0d.1  Intel Corporation Device [8086:344d]
 |           +-0d.2  Intel Corporation Device [8086:344d]
 |           +-0d.3  Intel Corporation Device [8086:344d]
 |           +-0d.4  Intel Corporation Device [8086:344d]
 |           +-0d.5  Intel Corporation Device [8086:344d]
 |           +-0d.6  Intel Corporation Device [8086:344d]
 |           +-0d.7  Intel Corporation Device [8086:344d]
 |           +-0e.0  Intel Corporation Device [8086:344d]
 |           +-0e.1  Intel Corporation Device [8086:344d]
 |           +-0e.2  Intel Corporation Device [8086:344d]
 |           +-0e.3  Intel Corporation Device [8086:344d]
 |           +-0e.4  Intel Corporation Device [8086:344d]
 |           +-0e.5  Intel Corporation Device [8086:344d]
 |           +-0e.6  Intel Corporation Device [8086:344d]
 |           +-0e.7  Intel Corporation Device [8086:344d]
 |           +-1d.0  Intel Corporation Device [8086:344f]
 |           +-1d.1  Intel Corporation Device [8086:3457]
 |           +-1e.0  Intel Corporation Device [8086:3458]
 |           +-1e.1  Intel Corporation Device [8086:3459]
 |           +-1e.2  Intel Corporation Device [8086:345a]
 |           +-1e.3  Intel Corporation Device [8086:345b]
 |           +-1e.4  Intel Corporation Device [8086:345c]
 |           +-1e.5  Intel Corporation Device [8086:345d]
 |           +-1e.6  Intel Corporation Device [8086:345e]
 |           \-1e.7  Intel Corporation Device [8086:345f]
 +-[0000:7e]-+-00.0  Intel Corporation Device [8086:3450]
 |           +-00.1  Intel Corporation Device [8086:3451]
 |           +-00.2  Intel Corporation Device [8086:3452]
 |           +-00.3  Intel Corporation Device [8086:0998]
 |           +-00.5  Intel Corporation Device [8086:3455]
 |           +-02.0  Intel Corporation Device [8086:3440]
 |           +-02.1  Intel Corporation Device [8086:3441]
 |           +-02.2  Intel Corporation Device [8086:3442]
 |           +-03.0  Intel Corporation Device [8086:3440]
 |           +-03.1  Intel Corporation Device [8086:3441]
 |           +-03.2  Intel Corporation Device [8086:3442]
 |           +-04.0  Intel Corporation Device [8086:3440]
 |           +-04.1  Intel Corporation Device [8086:3441]
 |           +-04.2  Intel Corporation Device [8086:3442]
 |           +-04.3  Intel Corporation Device [8086:3443]
 |           +-05.0  Intel Corporation Device [8086:3445]
 |           +-05.1  Intel Corporation Device [8086:3446]
 |           +-05.2  Intel Corporation Device [8086:3447]
 |           +-06.0  Intel Corporation Device [8086:3445]
 |           +-06.1  Intel Corporation Device [8086:3446]
 |           +-06.2  Intel Corporation Device [8086:3447]
 |           +-07.0  Intel Corporation Device [8086:3445]
 |           +-07.1  Intel Corporation Device [8086:3446]
 |           +-07.2  Intel Corporation Device [8086:3447]
 |           +-0b.0  Intel Corporation Device [8086:3448]
 |           +-0b.1  Intel Corporation Device [8086:3448]
 |           +-0b.2  Intel Corporation Device [8086:344b]
 |           +-0c.0  Intel Corporation Device [8086:344a]
 |           +-0d.0  Intel Corporation Device [8086:344a]
 |           +-0e.0  Intel Corporation Device [8086:344a]
 |           +-0f.0  Intel Corporation Device [8086:344a]
 |           +-1a.0  Intel Corporation Device [8086:2880]
 |           +-1b.0  Intel Corporation Device [8086:2880]
 |           +-1c.0  Intel Corporation Device [8086:2880]
 |           \-1d.0  Intel Corporation Device [8086:2880]
 +-[0000:64]-+-00.0  Intel Corporation Device [8086:09a2]
 |           +-00.1  Intel Corporation Device [8086:09a4]
 |           +-00.2  Intel Corporation Device [8086:09a3]
 |           +-00.4  Intel Corporation Device [8086:0998]
 |           \-02.0-[65-66]----00.0  NVIDIA Corporation GA100 [A100 PCIe 40GB] [10de:20f1]
 +-[0000:4a]-+-00.0  Intel Corporation Device [8086:09a2]
 |           +-00.1  Intel Corporation Device [8086:09a4]
 |           +-00.2  Intel Corporation Device [8086:09a3]
 |           \-00.4  Intel Corporation Device [8086:0998]
 +-[0000:30]-+-00.0  Intel Corporation Device [8086:09a2]
 |           +-00.1  Intel Corporation Device [8086:09a4]
 |           +-00.2  Intel Corporation Device [8086:09a3]
 |           +-00.4  Intel Corporation Device [8086:0998]
 |           +-02.0-[31]----00.0  Broadcom / LSI MegaRAID Tri-Mode SAS3516 [1000:0014]
 |           +-04.0-[32]--+-00.0  Broadcom Inc. and subsidiaries NetXtreme BCM5720 2-port Gigabit Ethernet PCIe [14e4:165f]
 |           |            \-00.1  Broadcom Inc. and subsidiaries NetXtreme BCM5720 2-port Gigabit Ethernet PCIe [14e4:165f]
 |           \-05.0-[33]--+-00.0  Broadcom Inc. and subsidiaries NetXtreme BCM5720 2-port Gigabit Ethernet PCIe [14e4:165f]
 |                        \-00.1  Broadcom Inc. and subsidiaries NetXtreme BCM5720 2-port Gigabit Ethernet PCIe [14e4:165f]
 +-[0000:16]-+-00.0  Intel Corporation Device [8086:09a2]
 |           +-00.1  Intel Corporation Device [8086:09a4]
 |           +-00.2  Intel Corporation Device [8086:09a3]
 |           \-00.4  Intel Corporation Device [8086:0998]
 \-[0000:00]-+-00.0  Intel Corporation Device [8086:09a2]
             +-00.1  Intel Corporation Device [8086:09a4]
             +-00.2  Intel Corporation Device [8086:09a3]
             +-00.4  Intel Corporation Device [8086:0998]
             +-02.0  Intel Corporation Device [8086:09a6]
             +-02.1  Intel Corporation Device [8086:09a7]
             +-02.4  Intel Corporation Device [8086:3456]
             +-11.0  Intel Corporation C620 Series Chipset Family MROM 0 [8086:a1ec]
             +-11.5  Intel Corporation C620 Series Chipset Family SSATA Controller [AHCI mode] [8086:a1d2]
             +-14.0  Intel Corporation C620 Series Chipset Family USB 3.0 xHCI Controller [8086:a1af]
             +-14.2  Intel Corporation C620 Series Chipset Family Thermal Subsystem [8086:a1b1]
             +-16.0  Intel Corporation C620 Series Chipset Family MEI Controller #1 [8086:a1ba]
             +-16.1  Intel Corporation C620 Series Chipset Family MEI Controller #2 [8086:a1bb]
             +-16.4  Intel Corporation C620 Series Chipset Family MEI Controller #3 [8086:a1be]
             +-17.0  Intel Corporation C620 Series Chipset Family SATA Controller [AHCI mode] [8086:a182]
             +-1c.0-[01]--
             +-1c.4-[02-03]----00.0-[03]----00.0  Matrox Electronics Systems Ltd. Integrated Matrox G200eW3 Graphics Controller [102b:0536]
             +-1c.5-[04]--+-00.0  Broadcom Inc. and subsidiaries NetXtreme BCM5720 2-port Gigabit Ethernet PCIe [14e4:165f]
             |            \-00.1  Broadcom Inc. and subsidiaries NetXtreme BCM5720 2-port Gigabit Ethernet PCIe [14e4:165f]
             +-1f.0  Intel Corporation Device [8086:a1cb]
             +-1f.2  Intel Corporation C620 Series Chipset Family Power Management Controller [8086:a1a1]
             +-1f.4  Intel Corporation C620 Series Chipset Family SMBus [8086:a1a3]
             \-1f.5  Intel Corporation C620 Series Chipset Family SPI Controller [8086:a1a4]
[root@ktaicc ~]#
[root@ktaicc ~]# nvidia-smi 
Thu Aug 12 14:16:31 2021       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.57.02    Driver Version: 470.57.02    CUDA Version: 11.4     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA A100-PCI...  Off  | 00000000:65:00.0 Off |                    0 |
| N/A   31C    P0    32W / 250W |    104MiB / 40536MiB |      0%      Default |
|                               |                      |             Disabled |
+-------------------------------+----------------------+----------------------+
|   1  NVIDIA A100-PCI...  Off  | 00000000:CA:00.0 Off |                    0 |
| N/A   32C    P0    36W / 250W |      0MiB / 40536MiB |      0%      Default |
|                               |                      |             Disabled |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|    0   N/A  N/A      4170      G   /usr/libexec/Xorg                  63MiB |
|    0   N/A  N/A      4559      G   /usr/bin/gnome-shell               40MiB |
+-----------------------------------------------------------------------------+
[root@ktaicc ~]# 
[root@ktaicc ~]# 
[root@ktaicc ~]# 
[root@ktaicc ~]# lspci | grep NVIDIA
65:00.0 3D controller: NVIDIA Corporation GA100 [A100 PCIe 40GB] (rev a1)
ca:00.0 3D controller: NVIDIA Corporation GA100 [A100 PCIe 40GB] (rev a1)
[root@ktaicc ~]# 
[root@ktaicc ~]# nvidia-smi topo -m
GPU0 GPU1 CPU Affinity NUMA Affinity
GPU0  X  SYS 0,2,4,6,8,10 0
GPU1 SYS  X  1,3,5,7,9,11 1

Legend:

  X    = Self
  SYS  = Connection traversing PCIe as well as the SMP interconnect between NUMA nodes (e.g., QPI/UPI)
  NODE = Connection traversing PCIe as well as the interconnect between PCIe Host Bridges within a NUMA node
  PHB  = Connection traversing PCIe as well as a PCIe Host Bridge (typically the CPU)
  PXB  = Connection traversing multiple PCIe bridges (without traversing the PCIe Host Bridge)
  PIX  = Connection traversing at most a single PCIe bridge
  NV#  = Connection traversing a bonded set of # NVLinks
[root@ktaicc ~]#

 

 

'ML,DL > Deep Learning' 카테고리의 다른 글

Machine Intelligence 3.0  (0) 2019.10.22