Суперкомпьютер Frontier столкнулся с проблемами по вине чипов AMD — специалисты обещают всё исправить

Самый мощный в мире суперкомпьютер Frontier, запуск которого состоялся в этом году, хоть и приступил к работе, но пока функционирует не на должном уровне, сообщил в интервью InsideHPC Джастин Уитт (Justin Whitt), директор программы Oak Ridge Leadership Computing Facility (OLCF).

Источник изображения: AMD

Frontier основан на 64-ядерных процессорах AMD EPYC Milan (2 ГГц) с ускорителями AMD Instinct MI250X и с использованием фирменного интерконнекта Slingshot 11-го поколения. По словам Уитта, именно с ускорителями AMD Instinct MI250X и интерконнектом Slingshot связаны проблемы оборудования Frontier.

«В основном это проблемы масштабирования в сочетании с разнообразием приложений, поэтому проблемы, с которыми мы сталкиваемся, в основном связаны с выполнением очень, очень больших заданий с использованием всей системы… и обеспечением согласованной работы всего оборудования», — утверждает Уитт. Он добавил, что проблема заключается не только в работе ускорителей, так как есть вопросы и к работе других компонентов.

Джастин Уитт считает, что подобные проблемы являются обычным делом при запуске столь сложной суперкомпьютерной системы, так что особой вины продуктов AMD в данных сбоях он не видит. По его словам, аналогичные проблемы наблюдались и при запуске других вычислительных систем.

Для работы многих приложений на оборудовании таких размеров требуется уникальная настройка. Из-за аппаратных проблем, которые возникли, в том числе, и по вине чипов AMD, сейчас наблюдается задержка с установкой операционной системы. Но специалисты Национальной лаборатории Ок-Ридж уверены, что все работы по отладке системы пройдут в намеченные сроки.

Источник

Tags

Похожие статьи

Добавить комментарий

Закрыть