Simultaneous multithreading ryzen что это
Что такое SMT и как оно работает в приложениях — плюсы и минусы
Пока я радую свои графоманские пристрастия написанием детальной технической статьи про «Windows Performance Station», захотелось поделиться своими мыслями о том, что хорошего и плохого приносит SMT в процессоры «AMD» и «Intel», и как тут поможет «Windows Performance Station».
Тем, кому интересна данная тема, добро пожаловать под кат…
Итак, для начала давайте определимся, что такое SMT.
Как говорит нам википедия, SMT (от англ. simultaneous multithreading) это одновременная многопоточность, т.е. несколько потоков выполняются одновременно, а не последовательно, как это происходит во «временно́й многопоточности».
Многие знают эту технологию под названием «Intel Hyper-Threading», про неё уже всё давно написано, но до сих пор я сталкиваюсь с тем что многие разработчики, и, тем более, обыватели не понимают в чём основная суть «одновременного» выполнения нескольких команд одним ядром процессора и какие проблемы это несёт.
Для начала поговорим про временну́ю многопоточность. До реализации технологии SMT в виде «Hyper-Threading» использовалась технология «временно́й многопоточности».
Тут всё просто, представим, что у нас есть один конвейер и один рабочий (Ядро ЦП), который выполняет операции над числами и записывает результат. Предположим, для этих операций ему нужна отвёртка и гаечный ключ. Операционная система (ОС) складывает нашему рабочему на конвейер по порядку одну операцию для отвёртки, а за ней одну операцию для гаечного ключа. Один рабочий в один момент времени может оперировать или только гаечным ключом или только отвёрткой. Таким образом, выкладывая разное количество разных блоков, ОС определяет приоритет выполнения тех или иных операций от разных приложений. Пропорцию одних блоков к другим мы можем указывать внутри ОС, когда указываем приоритет процесса. Именно это и делают все диспетчеры задач в т.ч. и «Windows Performance Station». Это приоритизирование распространяется далее на механизмы SMT и всю работу с конвейерами.
С появлением SMT ситуация становится чуть сложнее.
Представим конвейер и двух рабочих, у которых есть одна отвёртка и один гаечный ключ на двоих. При этом, каждый из них может оперировать либо только отвёрткой, либо только гаечным ключом. Один конвейер условно делится на две половинки вдоль. SMT позволяет сложить на такой конвейер сразу два числа, одно для работы с отвёрткой, а второе для работы с гаечным ключом, поэтому действия этих рабочих выглядят так:
— Первый рабочий получает операцию для отвёртки, а второй, стоящий напротив, в тот же момент времени, операцию для гаечного ключа, после чего оба записывают результат.
Исходя из этого, когда на конвейере находится операция (A и B) с одной стороны и (D и E) с другой стороны — всё отлично, но при распараллеливании цепочки вычислений могут получиться две проблемы:
1. С одной стороны конвейера оказалось действие (A и B) = С, а с другой (D и E) = C,
т.е. нужно записать сначала одно значение C, а потом второе значение C, но не одновременно (конфликт по управлению).
2. С одной стороны конвейера оказалось действие (A и B) = C, а с другой (A и C) = D,
т.е. нужно сначала посчитать C, а потом посчитать D, но не одновременно (конфликт по данным).
Оба конфликта вызывают задержку выполнения инструкций и решаются последовательным выполнением команд. Чтобы уменьшить такие задержки были введены элементы процессора под названием предсказатель переходов и кэш процессора.
Предсказатель переходов, как понятно из названия, осуществляет предсказание 🙂 Предсказывает он вероятность возникновения первой проблемы, когда разные преобразования должны произойти над одним числом.
В свою очередь, кэш процессора, необходим для быстрого решения второй проблемы, когда мы останавливаем решение выражения (A и C) = D и пишем в кэш результат выполнения (A и B) = C, после чего сразу вычисляем (A и C) = D.
Справедливости ради, стоит уточнить, что проблема распараллеливания конвейера появляется и у многоядерных процессоров без SMT, но у многоядерников не возникает момента простаивания процессора, когда на двоих рабочих одна отвёртка, т.к. в такой терминологии у каждого рабочего есть своя отвёртка и свой гаечный ключ.
Все эти пляски вокруг угадывания процессором того, как распараллелить текущие операции, приводят к серьёзным потерям энергии и к ощутимым фризам, когда происходит голодание разнотипных задач на ядрах с SMT.
Вообще, стоит держать в уме, что «Intel» разработала «Hyper-Threading» одновременно с созданием своих первых многоядерных процессоров «Xeon» и, по сути, эту технологию можно считать эдаким компромиссом когда ставится двойной конвейер на одно ядро.
С подачи маркетологов принято нахваливать то, как хорошо одно ядро может выполнять несколько задач одновременно и как повышается производительность «в некоторых сценариях использования», однако про проблемы, присущие концепции SMT принято умалчивать.
Примечательно, что на сайте «Intel» в рекламном ролике показывается скорее двухядерность, нежели «Hyper-Threading», тот кто дочитал до этого момента, наверняка уже догадался почему 🙂
Изображение из видео:
Более точное изображение:
Какой вывод можно здесь сделать и что улучшить?
Особенность отображения загрузки логических ядер в ОС Windows вводит путаницу об информации реальной загруженности ядер с SMT. Если Вы видите, что два соседних ядера заняты
50% это может означать две вещи:
1) оба ядра выполняют два параллельных расчёта и загружены на 50% (тут всё ок).
2) оба ядра выполняют один рассчёт попеременно (как если бы два рабочих через такт передавали друг-другу гаечный ключ).
Поэтому, если Вы видите, что все ядра Вашего процессора с SMT загружены на 50% и выше нагрузка не поднимается, скорее всего это значит, что утилизация процессора составляет 100% но он занят однотипной задачей, которую не может разделить для выполнения на SMT!
Вместе с очевидными плюсами, SMT приносит фризы в чувствительные для времени выполнения задачи (воспроизведение видео/музыки или FPS в играх). Именно поэтому, многие геймеры наблюдают падение FPS при включенном SMT/Hyper-Threading.
Как я и написал ранее, приложение «Windows Performance Station» может сортировать блоки, выкладываемые на конвейер, ещё на этапе обработки задач ядром ОС. С помощью приоритетов и разделения процессов по ядрам процессора, можно выкладывать определённые блоки на конвейер в нужном количестве и класть разнотипные блоки для разных виртуальных ядер, чтобы не наступало голодание разнотипных задач. Именно для этой задачи динамического анализа в «Windows Performance Station» мы объединили нейросеть и диспетчер задач. В итоге, нейросеть анализирует задачу и раскладывает её в зависимости от полученных данных по разным правилам, благодаря чему, каждое ядро в паре SMT выполняет разные задачи.
Благодаря такому подходу, процессоры с SMT в Windows могут более эффективно работать с многозадачностью и многопоточными процессами. И именно поэтому нас весьма порадовало появление SMT в новых процессорах «AMD Ryzen».
Приложение «Windows Performance Station» бесплатное и не содержит рекламы, его можно скачать с нашего сайта по ссылке в спойлере:
Более подробно про Windows Performance Station можно прочитать в моей предыдущей статье
Большое спасибо всем, кто дочитал до конца.
Simultaneous multithreading ryzen что это
Одной из самых главных заслуг AMD за последние годы можно назвать усиленное проталкивание процессорной многопоточности в сегмент мейнстримовых потребительских CPU. Даже самые первые процессоры серии Ryzen 1000 выгодно отличались от конкурентов наличием на борту технологии Simultaneous Multithreading, позволявшей каждому физическому ядру обрабатывать сразу два потока данных.
реклама
В рабочих задачах и синтетических бенчмарках такой подход даёт существенный буст производительности, а вот в играх серьёзных отличий обнаружено не было, ведь большинство популярных игровых API (исключая Vulcan) попросту не умеют использовать все преимущества многопоточных CPU. Хотя со временем ситуация начинает меняться и с большим распространением API DirectX 12.1 и Vulcan всё больше проектов начинают извлекать пользу из технологий Hyper-threading и SMT.
Авторы Youtube-канала Benchmark решили протестировать два процессора AMD, основанных на одной и той же архитектуре Zen2. Ryzen 3300X имеет 4 физических ядра, оснащённых SMT, в то время как у Ryzen 3500X на борту 6 ядер без многопоточности. Тесты проводились на материнской плате MSI B450 TOMAHAWK с 16GB DDR4 памяти на частоте 3200MHz. Графическим адаптером выступила карта EVGA GeForce RTX 3080 FTW3. Тесты проводились в разрешении 1080p на максимальных настройках графики.
В итоге во всех протестированных играх победу одержал именно 6-ядерник. Большее количество потоков никак не помогло Ryzen 3300X и даже по параметру 1% Low он остался далеко позади. Из этого можно сделать вывод, что именно Ryzen 3500X на данный момент является лучшим бюджетным решением от AMD.
Simultaneous Multithreading (SMT) в топовом AMD Ryzen 7 2700X: тестирование в синтетике и играх
Теперь переходим в Full HD. В бенчмарке World of Tanks Encore при ультра настройках на 11% улучшился показатель очень редких событий после выключения технологии SMT. Остальная статистика практически не изменилась.
Нестареющая GTA V слабо оптимизирована под многопоточность в целом, поэтому для нее что 8 ядер, что 16 потоков – особой роли не играет, и разница в абсолютных показателях находится в пределах 1-4 FPS в пользу отключения SMT.
Deus Ex: Mankind Divided и с увеличением разрешения показал лучшую производительность в случае использования 8 полноценных ядер вместо 16 потоков. Правда, это касается лишь показателя 1% Low, который поднялся на 21%. Разница между остальной статистикой особо не ощущается.
Похожая ситуация наблюдается в Middle-earth: Shadow of War: лишь средний фреймрейт выигрывает от отключения SMT. Прирост составляет внушительные 22%. А вот статистика редких и очень редких событий находится практически на одинаковом уровне.
Rise of the Tomb Raider – единственный бенчмарк, где для анализа мы использовали результаты встроенного счетчика. Польза от нового API ощущается лишь в последней, самой сложной сцене, и только по минимальному показателю FPS. В остальных случаях средняя скорость находится на приблизительно одинаковом уровне, а минимальная оказалась заметно выше при выключении SMT.
По всей видимости, игре Ghost Recon Wildlands при очень высоких настройках вполне хватает и 8 ядер, поэтому пользы от включения SMT нет, наоборот, результаты снижаются на 2-4 FPS, что в целом можно списать на погрешность измерения.
А вот The Division при максимальных настройках в режиме DirectX 12 по показателю очень редких событий отдает предпочтение 16-поточному процессору. Остальная статистика находится практически на одинаковом уровне.
В Far Cry 5 при максимальных настройках нелегко определить победителя. Средняя частота у обеих систем одинаковая, а разница 1% и 0,1% Low находится в районе 3-5 FPS. Без мониторинга ощутить такой разрыв будет крайне сложно.
И, наконец, в Assassin’s Creed Origins при максимальных настройках с натяжкой победу можно присудить системе с выключенной SMT. Самым значимым, как и в Far Cry 5, является перевес в 5 FPS по показателю редких событий, но ввиду невысоких абсолютных значений эти 5 FPS трансформируются в 11%, которые уже сложно списать на погрешность измерения.
Итоги
Давайте подведем итоги. Если система используется в основном для работы, SMT лучше не трогать и оставить включенной: в оптимизированных под многопоточность задачах и приложениях она действительно обеспечивает заметный бонус в производительности. Это особенно хорошо видно в архиваторах и при кодировании видео.
В играх ситуация меняется. В старых и плохо оптимизированных проектах будет больше пользы от отключения SMT. А вот в новых тяжелых играх, когда все упирается в видеокарту, разница находится в пределах погрешности или почти не ощущается. С другой стороны, все это справедливо для Ryzen 7 2700X, который даже без SMT предлагает пользователям 8 ядер. Возможно, в 4- и 6-ядерных моделях серии Ryzen 5 ситуация будет иная.
Процессору Ryzen 9 3900X отключили SMT и проверили, как это скажется на производительности
В играх это даже полезно
Линейка процессоров Ryzen 3000 сейчас насчитывает шесть моделей, одна из которых выйдет только в сентябре. Всех их объединяет одна особенность — поддержка SMT (аналог Hyper-Threading).
Появятся ли позже модели без поддержки SMT, неясно, но специалисты ресурса TechSpot решили проверить, какова будет производительность в этом случае. Для своего эксперимента они взяли CPU Ryzen 9 3900X и отключили у него поддержку SMT, сравнив при этом как с нормальной версией, так и с Core i9-9900K.
Тестировались процессоры исключительно в играх, потому что в целом сам тест был сделан с подачи читателей, которые попросили провести такое вот сравнение.
Игр было много, так что мы приведём лишь итоговые результаты.
Как можно видеть, в большинстве игр действительно отключение SMT позволяет Ryzen 9 3900X выступать лучше. Но, во-первых, не во всех, а во-вторых, зачастую разница составляет всего несколько процентов, что совершенно некритично.
Таким образом, можно предположить, что, если какие-то модели линейки Ryzen 3000 не будут иметь поддержки SMT, в играх от этого как минимум хуже не станет.
Simultaneous Multithreading (SMT) в топовом AMD Ryzen 7 2700X: тестирование в синтетике и играх
Современные процессоры столь сложны, что эффективно задействовать одновременно все их узлы довольно сложно. Именно поэтому, стремясь повысить КПД, компания Intel уже давно представила технологию Hyper-Threading. У новых процессоров AMD Ryzen тоже реализован такой подход.
Представьте, что вам нужно построить дом и у вас даже есть помощники, но каждый из них специалист в чем-то одном. Если вы будете работать строго поочередно, то процесс затянется на очень долго, поэтому лучше попробовать одновременно выполнять разные задачи, когда это возможно. Тот же принцип применим к процессорам: можно организовать параллельный поток обработки данных на простаивающих узлах.
В переводе с английского SMT (Simultaneous MultiThreading) означает «одновременная многопоточность». Ее суть в том, что операционная система представляет каждое физическое ядро процессора в виде двух логических или виртуальных ядер, и направляет им на обработку два потока данных вместо одного. Поскольку процессам приходится конкурировать за ресурсы одного ядра, то в теории его узлы полнее загружены работой и не простаивают, то есть повышается эффективность.
Наибольшая сложность состоит в том, чтобы хорошо реализовать гибкую систему доступа потоков к вычислительным ресурсам ядра, и они не тормозили друг друга. Для этого в разных блоках микроархитектуры AMD Zen применяются 4 способа. Зеленые блоки используют квантование по времени, то есть отводят одинаковое время для каждого потока. Если система на основе внутреннего анализа выделяет какой-то из двух потоков в качестве приоритетного, то он первым получает доступ к синим блокам. Но один из двух потоков может быть исходно помечен как более приоритетный, в таком случае он первым получает доступ к бирюзовым блокам. Остальные узлы, раскрашенные красным, действуют по принципу «кто первым встал, того и тапки».
Кроме того, для эффективной работы недостаточно реализовать технологию SMT на аппаратном уровне процессора. Ее также должны поддерживать операционная система, драйверы и прикладные программы. Поэтому поначалу с AMD Zen было не все гладко в этом плане. Например, система могла по максимуму загрузить два потока одного ядра или половины ядер, в то время как остальные простаивали. Само собой, вместо прироста получалось замедление работы. За прошедший год ситуация в этом плане должна была заметно улучшиться, но так ли это на самом деле? Давайте проверим.
В основе тестового стенда находится 8-ядерный флагман AMD Ryzen 7 2700X, который может работать в 16-поточном режиме. Он установлен на материнскую плату MSI X470 Gaming M7 AC и охлаждается СВО от be quiet!. Чтобы VRM материнской платы не перегревался и не снижал производительность системы, сверху мы положили вентилятор Noctua NF-A14 industrialPPC. Операционная система и требовательные к дисковой подсистеме игры были установлены на SSD серии GOODRAM Iridium PRO, остальные – на HDD от Seagate. Обработка графики была возложена на видеокарту MSI GeForce GTX 1070 Ti GAMING 8G с эффективным кулером. Все это добро было собрано на Thermaltake Core P5 TGE, а за питание отвечал блок серии Seasonic PRIME.
Сразу же отметим, что мы решили зафиксировать частоту процессора на отметке 4 ГГц, чтобы технологии динамического разгона не влияли на результаты тестирования. А для повышения стабильности тактовой частоты вручную выключили опцию Spread Spectrum. Она позволяла тактовому генератору выдавать плавающую частоту, чтобы снизить электромагнитные наводки от компьютера на окружающее оборудование. Сама же технология SMT по умолчанию активна, но в BIOS ее можно отключить.
Переходим к тестированию, и начнем его с нескольких синтетических бенчмарков. В архиваторе 7-ZIP преимущество от работы технологии SMT оценивается в 16-59%.
Активация этой опции в WinRAR позволяет поднять общую скорость на 19%.
Очень интересными получились результаты в CINEBENCH R15: производительность исключительно процессорной части повышается на 40% при использовании SMT. Зато в связке с видеокартой все наоборот – результаты улучшаются на 10% после ее деактивации.
В тесте x265 HD Benchmark после выключения многопоточности время кодирования возросло на 12%, т.е. и в этой задаче от многопоточности есть некоторый прок.
RealBench в целом положительно оценивает работу технологии SMT, но прирост зависит от конкретной задачи: при редактировании фото в GIMP, мультизадачном режиме и в тесте OpenCL бонус составил всего 2-3%. И лишь при кодировании видео показатель улучшился на 23%.
Как видим, в рабочих задачах в среднем бонус от использования SMT будет на уровне 18%, а в некоторых хорошо оптимизированных под многопоточность приложениях ускорение достигнет 40% и более. Пока все неплохо.
А какое положение дел в играх? Ведь именно тут можно годами ждать оптимизацию и не дождаться, а инертные движки до сих пор учатся работать на многоядерных процессорах.
Тест будем проводить в два этапа: сначала запустим бенчмарки в HD-разрешении, чтобы умышленно снизить нагрузку на видеокарту и лучше прочувствовать разницу; потом перейдем в Full HD, чтобы посмотреть, как это заметно при более реальных условиях.
В основном для мониторинга будем использовать утилиту FPS Monitor. Она позволяет настраивать интерфейс и выводить не только процент загрузки процессора и видеокарты, но и полезную статистику. Например, показатели 1 и 0,1% Low, они же редкие и очень редкие события, корректнее отображают уровень комфорта в игре, чем минимальный FPS. Чем меньше между ними разница и чем они ближе к среднему FPS, тем плавнее видеоряд и комфортнее геймплей. И не обращайте внимания на температуру процессора – в данном случае она отображается некорректно.
Начнем с престарелого движка Counter-Strike: Global Offensive. При автонастройках система выбрала очень высокие параметры и средний FPS был на 6% выше в системе с SMT. Видимо фоновые боты хорошо параллелятся. Зато статистика 1 и 0,1% Low была на 7-27% лучше при работе в 8-поточном режиме.
Тот факт, что старые игры больше ценят производительность ядра, чем многопоточность, хорошо видно и на примере Far Cry Primal. Здесь уже фиксируем прирост по всем показателям на уровне 12-20%.
Отключение SMT в Rainbow Six Siege также приносит позитивный эффект. И хотя мониторинг показывает неплохую балансировку задач между 16 логическими ядрами, все же в условиях отсутствия конкуренции за ресурсы бонус от производительности может достигать 35%.
В теории DirectX 12 позволяет лучше распределять задачи между ядрами и эффективнее использовать ресурсы CPU, поэтому запустив Deus Ex: Mankind Divided в этом режиме при ультра пресете, мы ожидали увидеть преимущество за SMT, но по факту его не оказалось. Наоборот, работа в 8-поточном режиме обеспечила преимущество в 10-16%.
В Hitman при том же API четкой тенденции не прослеживается: средний фреймрейт улучшается от выключения SMT на 2,5%, а показатель 1% Low на 10% ухудшается. В целом же статистика довольно похожая, поэтому в данном случае наличие или отсутствие SMT роли не играет.
Еще более равная ситуация наблюдается в Assassin’s Creed Origins при максимальных настройках: разница в показателях составляет 2-5% в пользу SMT, но на практике это 1-2 кадра/с, что вполне можно списать на погрешность измерения.
И лишь Far Cry 5 демонстрирует заметный выигрыш от включения многопоточности на Ryzen 7 2700X, правда, только в одном показателе очень редких событий – прирост составляет 53%. По остальным разница не превышает 4%, что можно списать на погрешность измерения.