Перейти к основному содержанию

NVIDIA, CUDA, Ubuntu, A100

NVIDIA A100

Столкнутся с трудностями в работе видеокарт Nvidia A100 на серверах с операционной системой Ubuntu Server 22.

NVIDIA A100 80GB PCIe

Вроде всё поставил, отдал разработчикам, а оно глючит, падает, лагает, стреляет ошибками.

Установка драйверов для карт NVIDIA под Linux всегда сопровождается какими-то трудностями. К примеру, для работы новейших видеокарт A100/H100 требуется минимум шестое ядро Linux. Однако, немного погуглив, понял, что всё придумано за нас:

https://hostkey.ru/documentation/technical/gpu/nvidia_gpu_linux

https://habr.com/ru/companies/hostkey/articles/835058/

В итоге прогнал скрипт и всё взлетело. Перезагрузку закомментировал, на всякий случай. Сохраните его как nvidia_install.sh, дайте права на запуск chmod +x nvidia_install.sh и запустите sudo nvidia_install.sh.

  • #!/bin/bash
    # Update and upgrade the system using apt
    sudo apt update
    sudo apt upgrade -y
    #Check Ubuntu 22.04 and update kernel
    lsb_release=$(lsb_release -a | grep "22.04")
    if [[ -n "$lsb_release" ]]; then
       # Check if there's a video card with Nvidia (10de) H100 model (23xx)
       lspci_output=$(lspci -nnk | awk '/\[10de:23[0-9a-f]{2}\]/ {print $0}')
       if [[ -n "$lspci_output" ]]; then
           echo "A100 detected"
           # If yes install the necessary kernel package
           sudo apt install -y linux-generic-hwe-22.04
       fi
       # Check if there's a video card with Nvidia (10de) A100 model (20xx)
       lspci_output=$(lspci -nnk | awk '/\[10de:20[0-9a-f]{2}\]/ {print $0}')
       if [[ -n "$lspci_output" ]]; then
           echo "A100 detected"
           # If yes install the necessary kernel package
           sudo apt install -y linux-generic-hwe-22.04
       fi
    fi
    # Install Ubuntu drivers common package
    sudo apt install ubuntu-drivers-common -y
    recommended_driver=$(ubuntu-drivers devices | grep 'nvidia' | cut -d ',' -f 1 | grep 'recommended')
    package_name=$(echo $recommended_driver | awk '{print $3}')
    sudo apt install $package_name -y
    # Install GCC compiler for CUDA install
    sudo apt install gcc -y
    # Get the release version of Ubuntu
    RELEASE_VERSION=$(lsb_release -rs | sed 's/\([0-9]\+\)\.\([0-9]\+\)/\1\2/')
    # Download and install CUDA package for Ubuntu
    wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu${RELEASE_VERSION}/x86_64/cuda-keyring_1.1-1_all.deb
    sudo dpkg -i cuda-keyring_1.1-1_all.deb
    # Update and upgrade the system again to ensure all packages are installed correctly
    sudo apt update
    sudo apt install cuda -y
    sudo apt install nvidia-cuda-toolkit -y
    # Add PATH and LD_LIBRARY_PATH environment variables for CUDA in .bashrc file
    echo 'export PATH="/usr/bin:/bin:$PATH/usr/local/cuda/bin\${PATH:+:\${PATH}}"' >> ~/.bashrc
    echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64\${LD_LIBRARY_PATH:+:\${LD_LIBRARY_PATH}}' >> ~/.bashrc
    source ~/.bashrc
    #Installing Docker binding for Nvidia
    if command -v docker &> /dev/null; then
     echo "Docker is installed."
     sudo apt install -y nvidia-docker2
     sudo systemctl restart docker
    else
     echo "Docker is not installed."
    fi
    #Reboot the system for enable kernel modules
    #reboot

Теги

Цены

 

Похожие материалы

Установка драйверов NVIDIA в Ubuntu

Наконец-то это случилось, вы потратили все деньги на неё — на видеокарту. Или две. И вставили её в компьютер. Или в сервер. В качестве операционной системы у меня Ubuntu Desktop 20.04.2 LTS. Ставим драйвера NVIDIA для нашей видеокарты.

Теги