Intel® Data Center Diagnostic Tool для Intel® Xeon® процессоров

Документация

Обслуживание и производительность

000058107

14.03.2022

Введение

Приложение Intel® Data Center Diagnostic Tool является программным средством диагностики, которое может быть запускано на платформах вашего центра обработки данных для:

  • Проверки функциональности всех ядер в Intel® Xeon® процессора.
  • Используется в рамках обычной программы обслуживания системы.

Для высокой надежности и доступности ЦОД требуются подходящие инструменты и стремление к обслуживанию. Корпорация Intel считает оптимальным в отрасли использование таких инструментов обслуживания как для первоначального развертывания, так и для периодического тестирования, чтобы обеспечить наилучшее качество работы системы.

    Примечание
    • Современная вычислительная инфраструктура обеспечивает постоянно растущий спрос на вычислительную мощность в сочетании с ожиданиями бизнеса в области качества услуг и высокой доступности (а также гарантий по соглашениям на уровне услуг [SLA] в целом). Эти ожидания обеспечивают потребность в мощных программных инструментах, которые помогают прогнозировать, идентифицировать и свести к минимуму неожиданные неисправности системы, которые могут поставить под угрозу качество обслуживания или время простоя. Ознакомьтесь с документом IDC , в которых рассказывается о необходимости использования средств диагностики, включая Intel® Data Center Diagnostic Tool.

    Системные требования

    Приложение Intel Data Center Diagnostic Tool linux* может быть установлено и работать на многих текущих дистрибутивах Linux. Версия этого инструмента для Windows* отсутствует.

    Для получения наилучшего обслуживания запустите приложение в корневой системе сервера. Ее можно запустить внутри контейнера или виртуальной машины, но имейте в виду, что некоторые функции могут быть отключены.

    Поддерживаемые процессоры:

    • Масштабируемые Intel® Xeon® 3-го поколения (ранее Ice Lake и Cooper Lake)
    • Масштабируемые Intel® Xeon® 2-го поколения (ранее Cascade Lake)
    • Масштабируемые Intel® Xeon® 1-го поколения (прежнее название — Skylake)
    • Intel® Xeon® семейства процессоров E5 v4 (прежнее название — Broadwell)
    • Intel® Xeon® семейства процессоров E7 v4 (прежнее название — Broadwell)
    Примечание
    • Для разработчиков: Корпорация Intel начала проект Open Data Center Diagnostic Project, который открывает инфраструктуру Intel® Data Center Diagnostic Framework и предоставляет специализированные тесты. Это предлагает разработчикам согласованную структуру разработки тестов, которая приглашает творческие способности сообщества разработчиков с открытым исходным кодом для повышения качества управления парком облачных систем посредством разработки уникальных экранов для тестирования и других инновационных решений. Для получения дополнительной информации и доступа к этой платформе и тестам

    Установки

    Заметки
    • Дополнительная информация доступна в файле /usr/share/doc/dcdiag/README.rst , включенных в установку.
    • Мы рекомендуем использовать действия в следующих разделах для ссылки на репозиторий, что гарантирует, что вы получите последнюю версию Intel® Data Center Diagnostic Tool. Однако если вам требуется загружаемый двоичный файл, используйте файл RPM или файл DEB.

     

    Debian*/Ubuntu*

    Чтобы установить Intel® Data Center Diagnostic Tool пакеты программного обеспечения в дистрибутивах на базе Debian*, добавьте репозиторий Intel software пакета и установите соответствующие пакеты.

    Перед копированием +вставки на консоли вы можете запустить sudo ls и ввести пароль для предотвращения использования команд в строке пароля sudo :

    Установите ключ для проверки подписей пакета

    curl https://repositories.intel.com/dcdt/dcdiag.pub | sudo apt-key add -

    Настройка репозитория

    sudo apt-add-repository 'deb https://repositories.intel.com/dcdt/debian stable main'

    Установка пакета

    sudo apt-get update
    sudo apt-get install dcdiag

    Fedora*/CentOS*/RHEL*

    Чтобы установить Intel Data Center Diagnostic Tool пакеты программного обеспечения в дистрибутив на базе Fedora, добавьте Intel software и установите пакет.

    При первой установке YUM или DNF попросит вас принять ключ подписи. Убедитесь, что отпечаток пальца указан следующим образом, а затем примите его:
    Userid: "CN=Release Key"
    Fingerprint: 6226 CA48 AAB6 0900 2093 C7C4 0A04 4B42 CF00 5B79

    Перед копированием +вставки на консоли вы можете запустить sudo ls и ввести пароль для предотвращения использования команд в строке пароля sudo :

    Установите файл репозитория

    sudo yum install https://repositories.intel.com/dcdt/dcdiag-repo.rpm

    Установка пакета

    sudo yum install dcdiag

    OpenSUSE*/SUSE Linux Enterprise*:

    Установите файл репозитория

    sudo zypper ar https://repositories.intel.com/dcdt/dcdiag.repo

    Установка пакета

    sudo zypper install dcdiag

    Вы будете предупреждены о том, что respond.xml не подписан. Ответьте да для продолжения. Вам будет предоставлена еще одна возможность проверить подпись пакета. Убедитесь, что отпечаток пальца указан следующим образом, а затем примите его:

    Repository: dcdiag
    Key Name: CN=Release Key
    Key Fingerprint: 6226CA48 AAB60900 2093C7C4 0A044B42 CF005B79
    Key Created: Tue 24 Nov 2020 01:47:38 PM PST
    Key Expires: Sat 25 Nov 2023 01:47:38 PM PST
    Rpm Name: gpg-pubkey-cf005b79-5fbd7f7a

     

    Как протестировать Intel Xeon процессора

    После установки система будет Intel Data Center Diagnostic Tool включена для фонового исполнения. Вы можете убедиться, что это успешно со следующей командой:

    # systemctl status dcdiag
    ● dcdiag.service - Intel® Data Center Diagnostic Tool
    Loaded: loaded (/usr/lib/systemd/system/dcdiag.service; enabled; vendor preset: disabled)
    Active: active (running) since Fri 2021-02-19 11:24:17 MST; 4 days ago
    Docs: file:///usr/share/doc/dcdiag/README.rst
    Main PID: 8777 (dcdiag)
    CGroup: /system.slice/dcdiag.service
    └─8777 /usr/bin/dcdiag --service

    Примечание

    Если вы хотите выключить фоновую Intel Data Center Diagnostic Tool приложения, запустите следующее:

    systemctl disable --now dcdiag

    Для получения дополнительной информации об использовании команды systemctl(1) перейдите на страницу руководства для Linux*.

    Если какие-либо ошибки будут обнаружены во время Intel Data Center Diagnostic Tool выполнения в фоновом режиме, приложение выполнит их вход в журнал системы. Приложение также может запросить, были ли обнаружены какие-либо ошибки во время фонового сканирования с помощью аргумента --query.

    # dcdiag --query
    Intel® Data Center Diagnostic Tool Version 506
    Test completed successfully. No issues detected.

    Этот инструмент также может быть выполнен вручную на переднем плане, выполив его в командной строке Linux:

    # dcdiag

    Тестирование вручную выполняется в течение 45 минут и обеспечивает высокую загрузку центрального процессора.

    После завершения диагностики система возвращает одно из следующих сообщений:

    • Успешно выполнено тестирование. Проблем не обнаружено.
       
    • Успешно выполнено тестирование. Произошла ошибка проверки одного или нескольких машин. Проверьте журналы системы.
       
    • Эта версия данного процессора не поддерживается этой версией инструмента.

      Проверьте модель и версию процессора системы. Это сообщение отображается, если Intel Data Center Diagnostic Tool не обнаружит производственную версию поддерживаемых процессоров. Инженерные образцы не поддерживаются этим инструментом.

      Помощь в идентификации процессора.
       
    • Тестирование выполнено. Результаты не дал ожидаемых результатов из-за устаревшей версии микрокода.

      Последняя версия микрокода позволяет решить известные проблемы. Пожалуйста, обновите. Обновления микрокода обычно поставляются поставщиком дистрибутивов Linux, а также исправления безопасности и другие обновления встроенного ПО для различных компонентов. Если в вашей системе нет этих обновлений, мы рекомендуем включить их. Микрокод автоматически загружается ядром Linux во время каждой загрузки и может быть перезагружен в время выполнения со следующей командой в качестве корня:

      echo 1 > /sys/devices/system/cpu/microcode
       
    • Тестирование выполнено. Результаты не дал ожидаемых результатов в связи с превышением предельной температуры системы

      Это может быть связано с различными проблемами системы, которая не обеспечивает достаточное охлаждение процессора для работы в пределах требуемой температуры. Мы рекомендуем вам проверить вашу систему, чтобы убедиться в корректной работе системы охлаждения. Это может включать неисправные вентиляторы, неправильный поток воздуха или некоторые другие проблемы с окружающей среды.
       
    • Тестирование выполнено. Результаты не дал результатов, произошла ошибка проверки одного или нескольких машин.

      Проверьте журналы системы.
       
    • Тест не выполнен. За поддержкой обратитесь к производителю системы или поставщику процессора.

      Если результаты тестов показывают сбой, убедитесь, что на процессоры вашего серверного узла по-прежнему действует гарантия:

      • Если на процессор в Intel® Xeon® еще действует 3-летняя гарантия, обратитесь в службу поддержки Intel за помощью.
      • Если у вас процессор для оптовой продажи, обратитесь к поставщику системы или процессора или в место покупки, чтобы узнать, имеет ли процессор все еще гарантию.
        ПримечаниеПроцессоры для оптовой продажи продаются непосредственно производителям систем или авторизованных дистрибьюторам Intel. Корпорация Intel не предоставляет непосредственную гарантию конечным пользователям процессоров для оптовой продажи, если они не были предустановлены в Блоки Intel® Data Center Blocks (Блоки Intel® DCB) (Intel® DCB) серверных системах. За исключением Intel DCB, гарантия на процессор для оптовой продажи предоставляется поставщиком или продавцом процессора или системы, если процессор был предварительно установлен. Корпорация Intel рекомендует приобретать продукцию Intel у авторизованных дистрибьюторов Intel, утвержденных поставщиков Intel и реселлеров продукции Intel®.
      • Имейте в виду, что корпорация Intel не имеет программы гарантийной замены.
         
    • Тест не выполнен.

      Тестирование выполнено, и на физическом процессоре, содержаном /sys/devices/system/cpu/cpuXX, была обнаружена ошибка.

      За поддержкой обратитесь к производителю системы или поставщику процессора.

    • Тест не выполнен.

      Тест не может определить, какой физический процессор стал причиной неисправности.

      За поддержкой обратитесь к производителю системы или поставщику процессора.
       

    История версий

    ДатаВерсияОписание
    7 июля 2021 г.540Начальная версия

     

    Другие темы
    Intel® Xeon® поддержки, центральный веб-сайт
    Руководство по гарантийному обслуживанию процессоров Intel®