Суперкомпьютеры в ракетно-космической отрасли

oby1 · 15.10.2017 19:18:31

ЦитироватьDiZed пишет:
хорошо распараллеливаемый

Вот это главное, далеко не всё распараллеливается.

ExDi · 15.10.2017 21:50:27

Цитироватьoby1 пишет:
Вот это главное, далеко не всё распараллеливается.

ну да, но вот что из реальных "тяжелых" задач - не? квантовая химия, механика сплошных сред, сопромат, криптография, работа с базами данных, обработка изображений, виртуальная реальность - это все вроде отлично параллелится..

sychbird · 15.10.2017 21:19:36

ЦитироватьDenis Voronin пишет:
у меня больше десяти лет админского стажа и я в курсе как устроена внутренняя локалка вояк.

Иначе говоря - инет читатель.

Не чайник, но и не решатель реальных задач.
Квалифицированный водопроводчик\электрик в прошлом технологическом укладе.

oby1 · 16.10.2017 00:49:12

ЦитироватьDiZed пишет:
вот что из реальных "тяжелых"

Гидродинамика, теплоперенос

Not · 16.10.2017 11:32:21

ЦитироватьDenis Voronin пишет:
Узкоспециализированные? Майнинг, криптография, нейросети - первое что пришло на ум, ничего так "узкая" специализация.

Совершенно верно, узкая, поскольку для перечисления тех задач, где используются универсальные процессоры, и где граф. платы использоваться НЕ могут, вам ума не хватит. Неудивительно, кстати, что первым вам на ум пришел майнинг - одна из величайше-бестолковых задач для компьютера. Деньги любите?

Вообще меня поражают Маско-повернутые "любители природы", которые на словах ратуют за автомобили на батарейках, дескать они вроде как атмосферу не загрязняют, а на деле строят фермы компов в гаражах и гоняют их круглосуточно, сжигая уйму ресурсов ради того чтобы больше монеток себе насчитать.

ExDi · 16.10.2017 02:14:42

Цитироватьoby1 пишет:
ЦитироватьDiZed пишет:
вот что из реальных "тяжелых"
Гидродинамика, теплоперенос

гм.. я конечно сам гидродинамику в параллель не считал, но вроде все, что считается по сетке - вполне распараллеливается по пространству, да и гугл на "больцмана навье-стокса распараллеливание" реагирует достаточно бурно

oby1 · 16.10.2017 02:35:55

Наверно на нормальные ядра, а не на "дуршлаг" GPU?

ExDi · 16.10.2017 02:39:59

я бы вообще сказал, что ситуация с CUDA выглядит так, будто под видом GPU изначально разрабатывались процессоры для Стокса-Навье и т.п. задач; примерно как под видом и под финансирование стратегческих баллистических ракет разрабатывались носители для космических полетов ; )

ExDi · 16.10.2017 02:44:20

Цитироватьoby1 пишет:
ЦитироватьНаверно на нормальные ядра, а не на "дуршлаг" GPU?

да вы что. посмотрите в google scholar
Implementation of a Lattice Boltzmann kernel using the Compute Unified Device Architecture developed by nVIDIA
In this article a very efficient implementation of a 2D-Lattice Boltzmann kernel using the Compute Unified Device
Architecture (CUDA™) interface developed by nVIDIA® is presented. By exploiting the explicit parallelism exposed in the graphics hardware we obtain more than one order in performance gain compared to standard CPUs. A non-trivial example, the flow through a generic porous medium, shows the performance of the implementation.
это 2008, цитируется раз 60, а дальше снежный ком

CUDA Implementation of a Navier-Stokes Solver on Multi-GPU Desktop Platforms for Incompressible Flows
пишут про ускорение на два порядка

я как раз могу представить, что на классическом кластере это будет так себе, из-за большого потока межпроцессорного обмена; но в GPU именно что вся память рядом, общая и быстрая

Denis Voronin · 16.10.2017 13:25:28

Цитироватьsychbird пишет:
ЦитироватьDenis Voronin пишет:
у меня больше десяти лет админского стажа и я в курсе как устроена внутренняя локалка вояк.
Иначе говоря - инет читатель.
Не чайник, но и не решатель реальных задач.
Квалифицированный водопроводчик\электрик в прошлом технологическом укладе.

Не угадал, в данном случае писатель.

Проблема в том, что вся мифическая защищённость Эльбруса от закладок это только для не очень умных генералов. Реально, чтобы активировать гипотетическую закладку в Пентиуме нужно каким-то образом передать ему код. И вот тут сразу возникает проблема, точнее две:
1. Внутренняя локалка ВС РФ в интернет не открыта вообще никак. Т.е. данные то передаются через интернет, но по туннелям с пгп шифрованием с эпической длиной ключа. Поэтому передать в туда пакет с нужным кодом просто не выйдет физически.
2. Если уж ложить вероятного противника, то ложить надо саму структуру сети. А это ВНЕЗАПНО Cisco и Juniper, в которых то закладки как раз ЕСТЬ.

Denis Voronin · 16.10.2017 13:27:05

ЦитироватьNot пишет:
Неудивительно, кстати, что первым вам на ум пришел майнинг

Совершенно неудивительно, мне на прошлой неделе проломили сервак и повесили туда софт для майнинга.

Не надоело мою личность обсуждать и строить всякие гипотезы? Ну если я тебе так интересен - вэлкам в Самару, встретимся, поболтаем за жизнь.

sychbird · 16.10.2017 13:54:20

ЦитироватьDenis Voronin пишет:
Не угадал, в данном случае писатель.

Не-не.!!
Ни у кого кроме сисадминов нет такого ресурсе времени шариться в инете в поисках около-профессиональной информации в области IT.

Но любой сосуд имеет ограниченную емкость. И инфа переливается через край и появляется писатель.

Сам имел похожий опыт несколько месяцев много-много лет назад, но вовремя соскочил с иглы
Рекомендую. Содержательные задачи интересней.

oby1 · 16.10.2017 17:40:16

ЦитироватьDiZed пишет:
пишут про ускорение на два порядка

Ну что ж это радует, хорошо если коммерческие библиотеки уже доступны.
А вот что насчёт фолдинга белков? как тут GPU?

ExDi · 16.10.2017 18:16:31

Цитироватьoby1 пишет:
ЦитироватьDiZed пишет:
пишут про ускорение на два порядка
Ну что ж это радует, хорошо если коммерческие библиотеки уже доступны.
А вот что насчёт фолдинга белков? как тут GPU?

понятия не имею, я не специалист по компьютерной биохимии; хотя буду удивлен - если там не параллелится, их же вроде и в облаке считают? там какая-то специфика по сравнению с классической молекулярной динамикой? в квантовой химии, насколько я представляю (я сам не расчетчик, коллеги считают) полезность GPU ограничивалась в основном тем, что желательно иметь очень много памяти на подзадачу, но по нынешним временам это не проблема, и появилась официальная сборка Gaussian для CUDA, ориентированная на старшие модели Nvidia. подозреваю, что с молекулярной динамикой аналогично. по крайней мере тот же google scholar на "protein folding CUDA" дает >5000 публикаций

Василий Ратников · 16.10.2017 15:14:29

oby1, сложно когда в гугле забанили )
Буквально несколько дней назад (13 января 2013 г) было объявлено о выпуске официального теста скорости видеокарт в Folding@Home.
Официальные результаты (получены непосредственно программистами F@H)
OpenCL
GTX Titan: (Explicit 26.8 ns/day | Implicit 123.9 ns/day)
GTX680: (Explicit 18.7 ns/day | Implicit 92.4 ns/day)
HD7970: (Explicit 18.1 ns/day | Implicit 101.3 ns/day)
Tesla K20: (Explicit 18.1 ns/day | Implicit 84.5 ns/day)
GTX 660Ti: (Explicit 16.1 ns/day | Implicit 77.0 ns/day)
HD4000: (Explicit 3.2 ns/day | Implicit 18.0 ns/day)
i7-3770K: (Explicit 3.1 ns/day | Implicit 3.4 ns/day)

в чем результаты выдаются.
Этот продолжительность (в наносекундах) фолдингда белка, которую успеет видеокарта с измеренной скоростью просчитать за сутки работы.
Шаг 2 фемтосекунды, т.е. 1 ns = 500 000 шагов моделирования.
Explicit/Implicit - явное или неявное моделирования растворителя/среды (обычно воды).
Implicit - неявное (где окружающая белок вода моделируется как некое обобщенное равномерное поле)
Explicit - явное (прямое моделирование взаимодествия с окрущающими молекулами воды)
Explicit понятно дело требует намного больше ресурсов для обсчета(отсюда и меньшая в разы скорость), но дает более точные результаты (а некоторые вещи без этого смоделировать вообще невозможно).
До недавнего времени GPU ядра Explicit расчеты не поддерживали и все с ними связанное могло обсчитываться только на процессорах. В последних версия GPU алгоритмов поддерживается оба режима.

2013 год и GTX680, а потом была 7 серия, а потом 8, а потом 9 и вот сейчас 10.
и на каждой итерации в отличии от царь-процессора рост производительности был весьма не хилым, ну так люди работают на себя а не на бюджет )))

oby1 · 16.10.2017 19:15:11

ЦитироватьDiZed пишет:
там какая-то специфика по сравнению с классической молекулярной динамикой?

Ну я только науч-поп читаю, вопрос не на мой уровень. Читал что там сумашедшая ёмкость расчётов. IBM под это дело специальный суперкомпьютер БлюГен проектировало, что у них вышло - как-то мимо меня прошло.

Василий Ратников · 16.10.2017 15:21:51

ну вот например
MSI GeForce GTX980@1500(1.256v)/7000 / 347.52 WHQL / Win 7 x64
Explicit: 66.4684 ns/day
Implicit: 309.972 ns/day

че там у процессора ?
i7-3770K: (Explicit 3.1 ns/day | Implicit 3.4 ns/day)
ну да ) такое себе

oby1 · 16.10.2017 19:44:02

Спасибо за инфу, оказывается игруны весьма поспособствовали, ну и майнеры своими деньгами тоже продвинут вычислители :-)

Not · 17.10.2017 06:51:08

Всем поклонникам GPU: они успешно применяются на численных хорошо распараллеливаемых задачах. На все остальных они тихо ползут, потому что
1. Тактовая частота ядра GPU порядка 700МГц, что в 4-6 раз медленнее современных CPU.
2. Никакой суперскалярности, переупорядочиванию операций, предсказания переходов, конвейеризации там нет, поскольку философия - много простых ядер, что означает предыдущее число нужно умножить на 2-10 раз. Умножили?
- Молодцы, дружно пошли брать с полки пирожок, первую четверть второго класса вы освоили.

ExDi · 16.10.2017 22:02:23

ЦитироватьNot пишет:
1. Тактовая частота ядра GPU порядка 700МГц, что в 4-6 раз медленнее современных CPU.
2. Никакой суперскалярности, переупорядочиванию операций, предсказания переходов, конвейеризации там нет

насколько я представляю, это все очень близко к тому, что говорят про эльбрусы, с которых пошел сыр-бор; ибо их архитектура - VLIM - имено что предполагает отказ от аппаратной оптимизации вычислительного потока в пользу прямого управления аппаратными блоками посредством очень длинных инструкций, представляющих собой фактически микрокод, который жестко и детально предписывает этим блокам, что и как им делать - т.е. переносящий проблемы оптимизации с времени выполнения и собственно процессора на компилятор. т.е. получается не-GPU-недо-CPU