Qpi speed что это
после тестирования зависимости производительности GTX285 от частоты CPU, я решил выяснить как же влияют другие параметры системы на производительность в математических задачах.
после тестирования зависимости производительности GTX285 от частоты CPU, я решил выяснить как же влияют другие параметры системы на производительность в математических задачах.
1. BCLK
На некоторое время в мой компьютер поселился Core i7 965, как известно имеющий разблокированный множитель для CPU. Так как многие не совсем верно воспринимают параметр BCLK и предполагают что разгон именно этого параметра влияет на производительность, я решил создать максимально одинаковые условия для всех параметров системы посмотреть как скажется разгон только BCLK c 134MHz до 200MHz:
Как видим, в обоих тестах я сохранил одинаковые частоты CPU, Uncore и параметры памяти. Несмотря на то что, на тестируемых значениях BCLK имеющиеся множители не позволили попасть в одинаковые частоты QPI, показатели производительности вполне сопоставимы.
от себя могу лишь добавить что при значении BCLK=200 система попросила более высоких напряжений Vcore и CPU_VTT
Прирост производительности от разгона QPI с 3240MHz до 3960MHz, % (QPI=3240MHz=100%)
3. DDR
Так как имеющаяся в наличии память позволяет разгоняться до 1800MHz CL8 при безопасном напряжении 1.65Вольта, то для тестирования я оставил все то же значение BCLK=180MHz
отправной точной для настроек памяти стали частота DDR=1440MHz с CL=8
далее я посмотрел что дает установка CL7 вместо CL8
Прирост производительности от разгона памяти, % ( DDR3 1440MHz CL8 = 100%)
Ну вот в принципе и все, что можно было протестировать. разницу при изменении Uncore я не стал тестировать, так как был откровенно разочарован результатами.
Прирост от разгона QPI выше 3240MHz дали «прирост» на грани погрешностей ПО, Такую же мизерную разницу результатов я получил от разгона памяти с 1440MHz CL8 до 1800MHz CL8
На основе приведенных результатов, я могу сделать вывод, что указанных в статье минимальных параметров QPI и DDR вполне достаточно для раскрытия потенциала системы, прирост от разгона этих параметров минимален.
Системная шина QPI для серверов на многоядерных процессорах Core iX.
Системная шина QPI для серверов на многоядерных процессорах Core iX.
Итак, кристалл процессора Core i7 (Nehalem) с другими компонентами системы пока связывают два архитектурных блока (рис. 1):
— QuickPath Interconnect (QPI) – связь с чипсетом (и другим процессором в многопроцессорных вариантах);
— Integrated Memory Controller (IMC) – связь с модулями памяти.
Рис. 1. Внешние и внутренние связи процессора Cоre iX
Таким образом, в современных системах на процессорах Intel в Core iX частота 133 МГц – это просто частота тактового генератора, формирующего все остальные частоты. Частота процессора получается как произведение этой величины на коэффициент умножения (например, частота Core i7-920 получается умножением коэффициента 20х на 133 МГц). Интерфейс QPI, связывающий процессор с северным мостом (и другими процессорами), также использует эту частоту в качестве базовой, умножая её на свой собственный коэффициент. Частота интерфейса QPI будет варьироваться на разных моделях CPU (например, в Core i7-965 Extreme Edition эта шина работает на частоте 3,2 ГГц, а на Core i7-940 и i7-920 её частота понижена до 2,4 ГГц).
Значительного повышения эффективности новой шины удалось добиться за счёт динамического управления частотой и напряжением принимающего и передающего чипов, а также некоторых других нововведений. Кроме того, компания также разработала чип-диспетчер, который позволяет аппаратно распределять потоки между ядрами процессора. Производительность симулированного 64-ядерного процессора при его помощи удалось повысить в два раза. Все эти новые разработки Intel приведут к появлению еще более эффективных и экономичных многоядерных процессоров.
В первом квартале 2012 года были представлены серверные процессоры платформы Intel Romley, (модели серий Intel Xeon E5-1600 и Intel Xeon E5-2600).
Новые технологии приёма/передачи данных, которые будут использоваться в многопроцессорных системах следующего поколения, требуют не только повышенной пропускной способности канала ввода/вывода, но и более эффективного с точки зрения потребляемой мощности интерфейса передачи информации.
Технология шины QPI от Intel превосходит все современные аналоги как минимум втрое, потребляя при этом на 75% меньше энергии. Технология в основном используется в качестве интерфейса для нескольких процессоров в многопроцессорных вычислительных системах (рис. 2). Шина QPI, является аналогом шины HyperTransport от AMD, и тоже предназначена для связи процессора с другими компонентами. Она призвана обеспечить согласованный обмен данными между небольшими группами локальных процессоров, а также взаимодействие между банками памяти (даже не обязательно одного типа) в распределенных системах, включающих не более 128 процессоров. QPI обеспечивает меньшие задержки и более высокую производительность, по сравнению с HyperTransport.
Шина QuickPath дебютировала еще в рамках серверной платформы Tylersburg, которая использовала процессоры поколения Nehalem с разделяемым кэшем третьего уровня и поддержкой «виртуальной многоядерности» (в частности, система на базе двух четырёхъядерных процессоров сможет имитировать работу шестнадцати процессорных ядер).
Рис. 2. Архитектурные особенности систем процессоров с шиной QPI
Ключевой особенностью новой архитектуры является применение концепции масштабируемой разделяемой памяти (scalable shared memory). В рамках новой архитектуры каждый CPU имеет собственную выделенную память, к которой он будет обращаться напрямую, через свой интегрированный контроллер памяти. В случае, если процессору потребуется доступ к выделенной памяти другого CPU, он сможет связаться с ней посредством одного из каналов QuickPath Interconnect. Как и шина HyperTransport, применяемая в процессорах компании AMD, QPI будет использовать последовательную связь по схеме «точка-точка» (point-to-point), что обеспечит высокую скорость при малой латентности. Итак, основными ключевыми характеристиками Intel QuickPath Architecture являются:
— производительность каналов QuickPath Interconnect до 6,4 гигатранзакций в секунду (благодаря чему общая пропускная способность может достигать 25,6 Гбайт/сек)
— QPI уменьшает количество служебной информации, необходимой для функционирования многопроцессорных систем (что, соответственно, позволяет повысить скорость передачи полезных данных);
— реализация контроля при помощи циклического избыточного кода (CRC) и повторной передачи при обнаружении ошибок на канальном уровне (что позволяет обеспечить целостность данных без ощутимого влияния на производительность);
— возможность реализации высокоуровневых функций обеспечения надежности, готовности и удобства обслуживания (RAS, Reliability, Availability and Serviceability) благодаря реконфигурации каналов в случае повреждения отдельных участков, поддержке «горячей замены». При нарушении сигнала в одной или нескольких из линий контроллер шины может автоматически перенастроить QPI на ширину 15 и даже 5 бит, не теряя работоспособности, таким образом, серверы, например, на базе мощных процессоров Xeon 5500 будут обладать повышенной устойчивостью к сбоям шины (рис. 3). При организации шины с различной шириной линий, управлением потоком данных занимается специальный агент QPI, который распределяет поток данных перед тем, как отправить его по различным физическим линиям, а при приеме аналогичный агент собирает разные потоки данных в один (рис. 3).
Рис. 3. Пример конфигурирования 20 каналов в четыре группы по 5 каналов
Максимальная производительность QPI составляет 6,4 миллиарда передач в секунду, что в случае Nehalem соответствует пропускной способности 25,6 ГБ/с (но это не является пределом для шины QPI).
Многие разработчики чипсетов уже активно работают над решениями для серверов с использованием шин QPI. В случае, если процессору потребуется доступ к выделенной памяти другого CPU, он сможет связаться с ней посредством одного из каналов QPI (рис. 2). Шина QPI использует последовательную связь по схеме «точка-точка» (point-to-point), что обеспечивает высокую скорость при малой латентности.
Рис. 4. Архитектурные особенности процессоров с шиной QPI
Серверные модели оборудованы двумя (и более) линиями QPI (рис. 4), что позволяет выделить всем критичным направлениям (например, связь двух процессоров между собой и каждого из них с северным мостом) по собственному соединению. В любом случае, производительности QuickPath Interconnect вполне достаточно, чтобы обеспечить нормальную работу платформ с несколькими CPU (рис. 4). Интерфейс QPI в 2-3 раза эффективнее и к тому же не обременен взаимодействием с оперативной памятью (этим занимается встроенный контроллер памяти DDR3).
Многопроцессорные системы, построенные на процессорах со встроенными контроллерами памяти (рис. 6), должны использовать «распределенную» модель памяти NUMA (Non-Uniform Memory Access), а, следовательно, нуждаются в прямом и высокоскоростном соединении между процессорами. Появление прямой связи между процессорами позволило Intel реализовать архитектуру доступа к памяти NUMA, столь необходимую для критичных к быстродействию ОЗУ задач в многопроцессорных средах. Теперь оптимизированные под NUMA операционные системы и приложения смогут при генерации и распределении вычислительных потоков учитывать, в каком сегменте памяти размещать данные, чтобы не обращаться за ними в удаленную и, следовательно, намного менее быструю память. Благодаря этому оптимизированные приложения, генерирующие по одному потоку на ядро CPU, получат вплоть до 5,3-кратного прироста пропускной способности по сравнению с четырехканальной общей FB-DIMM. При этом оптимизацию под NUMA можно отключить в BIOS серверной материнской платы, вновь сделав всю установленную в системе RAM общей, впрочем, вряд ли многим потребителям это понадобится, так как большинство современных операционных систем поддерживают NUMA.
Рис. 6. Использование QPI в серверных платформах
Шина QPI имеет собственную многоуровневую модель. Архитектурой QPI определены (см. рис. 7) пять уровней:
Многоуровневая архитектура обеспечивает большую гибкость выполнения обмена и учитывает дальнейшее развитие в рамках стандарта Intel® QuickPath архитектуры.
Уровень связи является следующим уровнем стека протокола. Он ответственен за надежную передачу и контроль потока. Единица передачи на уровне связи имеет размер 80 бит (кадр для блока управления потоком).
Уровень маршрутизации обеспечивает структуру для пересылки пакетов через сеть.
Транспортный уровень – архитектурно определен, но не реализован в начальном
продукте, в дальнейших реализациях будет обеспечивать более высокий уровень производительности процесса маршрутизации для надежной сквозной передачи данных.
Рис. 8. Архитектурные уровни шины Intel® QuickPath (существующая архитектура шины QPI)
Что это за параметр и как его рассчитывать? внутри.
Intel QuickPath Interconnect или просто QuickPath, сокр. QPI (ранее Common System Interface, CSI) — последовательная кэш-когерентная шина типа точка-точка для соединения процессоров между собой и с чипсетом, разработанная фирмой Intel. QPI создавался в ответ на разработанную ранее консорциумом во главе с фирмой AMD шину HyperTransport
Шина QuickPath была создана для замены применявшейся ранее шины Front Side Bus, которая осуществляла связь между центральным процессором и северным мостом материнской платы. Первые процессоры с интерфейсом QuickPath были выпущены на рынок в 2008 году. По состоянию на начало 2010 года, внешний интерфейс QuickPath используется только в сериях процессоров Xeon и Core i7 с ядром Nehalem для разъема LGA 1366, а также будет использоваться в следующем поколении Itanium (ядро Tukwila). При этом чипсеты для разъёма LGA 1366 используют шину DMI для связи между северным и южным мостом. Процессоры для разъёма LGA 1156 не имеют внешнего интерфейса QuickPath, поскольку чипсеты для данного разъёма поддерживают только однопроцессорную конфигурацию, а функциональность северного моста встроена в сам процессор (и следовательно, для связи процессора с аналогом южного моста используется шина DMI). Однако внутри процессора LGA 1156 связь между ядрами и встроенным контроллером PCIe осуществляется через встроенную шину QuickPath
Особенности системной шины QPI.
Особенности системной шины QPI.
Системная шина играет ключевую роль во взаимодействии CPU с остальными компонентами компьютера. Intel разработала для своих новых многоядерных процессоров скоростной и экономичный интерфейс QPI. Последовательная шина QPI позволила ликвидировать многие «узкие места. В случае, если процессору потребуется доступ к выделенной памяти другого CPU, он сможет связаться с ней посредством одного из каналов QPI.
Таким образом, в современных системах на процессорах Intel в Core i7 частота 133 МГц – это просто частота тактового генератора, формирующего все остальные частоты.
Аналогичным образом формируется и частота шины памяти, которая использует свой собственный набор множителей.Для частоты шины памяти процессоры Core i7 предложат несколько доступных множителей. Например, процессор Core i7-965 Extreme Edition предлагает выбор между 6x, 8x, 10x и 12x, что означает поддержку этим процессором памяти DDR3-800/1067/1333/1600 SDRAM.
Интерфейс QPI, связывающий процессор с северным мостом (и другими процессорами см. рис. 2), также использует эту частоту в качестве базовой, умножая её на свой собственный коэффициент. Частота интерфейса QPI будет варьироваться на разных моделях CPU. Так, в Core i7-965 Extreme Edition эта шина работает на частоте 3,2 ГГц, в то время как на Core i7-940 и i7-920 её частота понижена до 2,4 ГГц.
Значительного повышения эффективности новой шины удалось добиться за счёт динамического управления частотой и напряжением принимающего и передающего чипов, а также некоторых других нововведений. Кроме того, компания также разработала чип-диспетчер, который позволяет аппаратно распределять потоки между ядрами процессора. Производительность симулированного 64-ядерного процессора при его помощи удалось повысить в два раза. Все эти новые разработки Intel приведут к появлению еще более эффективных и экономичных многоядерных процессоров. Новая технологии приёма/передачи данных, которая будет использоваться в многопроцессорных системах следующего поколения, требующих не только повышенной пропускной способности канала ввода/вывода, но и более эффективного с точки зрения потребляемой мощности интерфейса передачи информации.
Шина QPI, является аналогом шины HyperTransport от AMD, и тоже предназначена для связи процессора с другими компонентами. Она призвана обеспечить согласованный обмен данными между небольшими группами локальных процессоров, а также взаимодействие между банками памяти (даже не обязательно одного типа) в распределенных системах, включающих не более 128 процессоров. QPI обеспечивает меньшие задержки и более высокую производительность, по сравнению с HyperTransport.
Шина QuickPath дебютировала в рамках серверной платформы Tylersburg, которая использует процессоры поколения Nehalem с разделяемым кэшем третьего уровня и поддержкой «виртуальной многоядерности», в частности, система на базе двух четырёхъядерных процессоров сможет имитировать работу шестнадцати процессорных ядер.
Ключевой особенностью новой архитектуры является применение концепции масштабируемой разделяемой памяти (scalable shared memory). В рамках новой архитектуры каждый CPU будет иметь собственную выделенную память, к которой он будет обращаться напрямую, через свой интегрированный контроллер памяти.
В случае, если процессору потребуется доступ к выделенной памяти другого CPU, он сможет связаться с ней посредством одного из каналов QuickPath Interconnect. Как и шина HyperTransport, применяемая в процессорах компании AMD, QPI будет использовать последовательную связь по схеме «точка-точка» (point-to-point), что обеспечит высокую скорость при малой латентности. Итак, основными ключевыми характеристиками Intel QuickPath Architecture являются:
— производительность каналов QuickPath Interconnect до 6,4 гигатранзакций в секунду (благодаря чему общая пропускная способность может достигать 25,6 Гбайт/сек)
— QPI уменьшает количество служебной информации, необходимой для функционирования многопроцессорных систем (что, соответственно, позволяет повысить скорость передачи полезных данных);
— реализация контроля при помощи циклического избыточного кода (CRC) и повторной передачи при обнаружении ошибок на канальном уровне (что позволяет обеспечить целостность данных без ощутимого влияния на производительность);
— возможность реализации высокоуровневых функций обеспечения надежности, готовности и удобства обслуживания (RAS, Reliability, Availability and Serviceability) благодаря реконфигурации каналов в случае повреждения отдельных участков, поддержке «горячей замены». При нарушении сигнала в одной или нескольких из линий контроллер шины может автоматически перенастроить QPI на ширину 15 и даже 5 бит, не теряя работоспособности, таким образом, серверы, например, на базе мощных процессоров Xeon 5500 будут обладать повышенной устойчивостью к сбоям шины (рис. 3). При организации шины с различной шириной линий, управлением потоком данных занимается специальный агент QPI, который распределяет поток данных перед тем, как отправить его по различным физическим линиям, а при приеме аналогичный агент собирает разные потоки данных в один (рис. 3).
Рис. 3. Пример конфигурирования 20 каналов в четыре группы по 5 каналов
В случае, если процессору потребуется доступ к выделенной памяти другого CPU, он сможет связаться с ней посредством одного из каналов QPI (рис. 2). Шина QPI использует последовательную связь по схеме «точка-точка» (point-to-point), что обеспечивает высокую скорость при малой латентности.
Рис. 4. Архитектурные особенности процессоров Core i7 с шиной QPI
Серверные модели оборудованы двумя (и более) линиями QPI (рис. 4), что позволяет выделить всем критичным направлениям (например, связь двух процессоров между собой и каждого из них с северным мостом) по собственному соединению. В любом случае, производительности QuickPath Interconnect вполне достаточно, чтобы обеспечить нормальную работу платформ с несколькими CPU. Интерфейс QPI в 2-3 раза эффективнее и к тому же не обременен взаимодействием с оперативной памятью (этим занимается встроенный контроллер памяти DDR3).
Рис. 5. Принципы организации шины QuickPath Interconnect (каждую отдельную дифференциальную пару называют линией. 20 линий для обмена плюс линии синхронизации в каждом направлении образуют 84-х контактный интерфейс)
Физический уровень содержит все необходимые схемы для выполнения интерфейсных операций обмена данными, включая драйвер и входные/входные буферы, параллельное-последовательное и последовательно-параллельное преобразование, схему(ы) ФАПЧ и схемs согласования импеданса. Кроме того, он включает также логические функции, связанные с инициализацией и поддержкой интерфейса.
Логическая часть физического уровня обеспечивает соединение со уровнем связи и управляет потоком информации между ними (вперед и назад). А также управляет инициализацией и конфигурированием канала связи и управляет шириной информационной магистрали в операции обмена.
Рис. 6. Общая блок-схема физического уровня
Физический интерфейс шины отличается простотой реализации, в нем используются низковольтные, дифференциальные сигналы (рис. 7). Для передачи сигналов используются две линии, по которым синхронно передается прямой и инверсный сигнал. Для мобильных систем могут использоваться сигналы снижающие энергопотребление шиной, на линиях шины обеспечивается низкий уровень перекрестных помех.
Рис. 7. Принципы физической реализации линий связи шины
Физический уровень разделен на две секции. Аналоговая (или электрическая) секция управляет передачей цифровых данных. Эта секция формирует соответствующие аналоговые уровни сигналов с надлежащим выбором времени относительно сигнала синхронизации и затем принимает сигналы данных на другом конце и преобразовывает их обратно в цифровые данные. Этот уровень ответственен за сигналы и специфические детали выполнения операции обмена между двумя агентами. Этот уровень непосредственно управляет передачей сигналов данных на проводах шины, включает электрические уровни, рассчитывая аспекты, и решает логические проблемы, возникающие при посылке и получении каждого бита информации по параллельным шинам. Передача сигналов в обе стороны выполняется на высокой скорости в дифференциальном виде по 20 отдельным парам в одном цикле шины, реализующем одну операцию обмена. Отдельная линия синхронизации сопровождает свой набор из 20 пар линий передачи данных.
Интерфейс Intel® QuickPath чтобы для обеспечения передачи всей номенклатуры сигналов одной шины QPI, работающей в ее полной ширине, на физическом уровне использует восемьдесят четыре линии и соответственно 84 контакта. В некоторых случаях, связь может осуществляться в половине или четверти ширины шины, например, чтобы уменьшить расход энергии или из-за отказов на линии. Единицу информации, переданной в каждой единице времени физическим слоем называют phit, который является акронимом для физической единицы. Например, каждый phit может содержать 20 бит информации. Типичные скорости передачи сигналов связи в текущих продуктах обеспечивают в операциях обмена в 6.4 GT/s для систем с короткими связями между компонентами, и 4.8 GT/s для более длинных связей, используемых в больших мультипроцессорных системах. Управлением потоком данных занимается специальный «агент», который распределяет поток данных перед тем, как отправить его по различным физическим линиям, а при приеме аналогичный агент собирает разные потоки данных в один.
Для обмена информацией между компонентами системы используются пакеты. Пакетная связь начинается на канальном уровне для реализации функций управления каналом. Пакеты формируются для того, чтобы надежно перенести информацию от передающего к принимающему компоненту. Поскольку пакеты передаются через соответствующие уровни, они дополняются вспомогательной информацией, необходимой для обработки пакета на соответствующем уровне. На принимающей стороне происходит обратный процесс, и пакет преобразовывается обратно, начиная с физического уровня и далее, до формата, в котором он может быть обработан принимающим устройством.
Рис. 8. Типовая обобщенная структура пакета и состав пакета для разных уровней
Физический уровень принимает с линий связи кадр проверяет его корректность и выделяет из него пакет. Физическим уровнем биты phits и биты контроля циклического избыточного кода не контролируются. Физический уровень объединяет phits в пакеты, и передает пакеты на уровень связи. Каждый пакет, состоит из 80 бит (рис. 8). Рис. 9 иллюстрирует возможности физического уровня передачи информации кадра по шине QPI.
Рис. 9. Физический уровень Intel® QPI (Phit) требует для передачи 20 физических линий передач.
Поддержка ассиметричных связей и хорошая масштабируемость по скорости, по ширине шины, частоте и направлению, позволяет разработчикам систем выбирать решение полностью соответствующее их задачам. Широкая полоса пропускания позволяет в проектируемых многопроцессорных системах легко добавлять новые высокопроизводительные компоненты. Использование шины QPI позволяет сократить время на разработку этих проектов, так как добавление в систему новых чипов не вызывает проблем.