В процессорах Penryn, первом семействе процессоров, построенных на базе новой 45 -нанометровой производственной технологии Intel с диэлектриками Hi-k, используются все преимущества дополнительных транзисторов, которые эта технология позволяет поместить в процессор. В процессорах Intel Core 2 и Intel Xeon на базе этой новой производственной технологии будут использоваться новые архитектурные инновации и усовершенствования, которые ускорят работу программного обеспечения и помогут сократить энергопотребление.
Ускорение работы программного обеспечения
В семейство Penryn входит ряд улучшений микроархитектуры, повышающих производительность разнообразных приложений.
Новые команды Intel SSE4
В процессорах семейства Penryn будет поддерживаться набор команд Intel Streaming SIMD Extensions 4 (SSE4). Набор команд Intel SSE4 представляет собой самое значительное усовершенствование архитектуры команд для мультимедийных приложений с 2001 года. Он расширяет архитектуру набора команд Intel® 64, позволяя более эффективно использовать преимущества новой 45 -нанометровой производственной технологии, повышая производительность и расширяя возможности архитектуры Intel®. Набор команд Intel SSE4 повысит производительность приложений, использующих один поток команд и несколько потоков данных (SIMD), и позволит микропроцессорам Penryn обеспечить высочайшую производительность и энергоэкономичность разнообразных 32- и 64- разрядных приложений. Увеличение производительности будут реализовано в приложениях для работы с графикой, системах кодирования и обработки видео, приложениях для работы с трехмерными изображениями и компьютерных играх. Также новый набор команд сможет эффективно использоваться в таких ресурсоемких приложениях как алгоритмы сжатия звука, изображений и данных, и для многих других приложений.
Набор команд Intel SSE4, реализованный в процессорах семейства Penryn, обеспечит повышение производительности благодаря следующим преимуществам:
- Добавление поддержки двух различных векторных операций умножения с 32- разрядными целыми числами
- Добавление 8- разрядных неподписанных операций с минимумом и максимумом, а также 16- разрядных и 32- разрядных подписанных и неподписанных версий
- Добавление функций, повышающих эффективность компиляторов при векторизации целочисленного кода и кода с одинарной точностью
- Смешение, тестирование и округление, а также расширения знаков/нулей, непосредственно заменяют существующие долгосрочные операции
- Вставки и извлечения – компоненты для сбора (просмотра), рассеяния, пошаговые нагрузки и хранилища шагов
- Добавление специальных операций, обеспечивающих значительные преимущества на прикладном уровне в следующих областях:
- Функции ускорения кодирования видео
- Операции умножения с плавающей запятой (важны для игр и создания трехмерной графики)
- Команда потоковой загрузки (важна для обработки видео и изображений, а также для приложений, распределяющих данные между графическим процессором и центральным процессором)
При этом достигается значительное увеличение производительности. Например, команда потоковой загрузки набора команд Intel SSE4 увеличивает пропускную способность для считывания данных из буфера графических кадров. Доставка полных строк кэша (64 байта за раз по сравнению с 8 байтами за раз) и их сохранение во временном буфере позволяет с помощью этой команды повысить теоретическую пропускную способность чтения до 8 раз.
Увеличенная и более функциональная кэш-память с технологией Intel® Advanced Smart Cache
В процессорах Penryn объем кэш-памяти 2 уровня увеличен на 50%. Кроме того, в кэш-память добавлены возможности 24 -стороннего ассоциирования, позволяющие увеличить процент подстановок и максимально повысить эффективность использования ресурсов. В двухъядерных процессорах Penryn будет использоваться до 6 МБ кэш-памяти 2 уровня, а в четырехъядерных процессорах – до 12 МБ кэш-памяти 2 уровня. Большая кэш-память повышает производительность и эффективность приложений, увеличивая вероятность доступа к данным в высокопроизводительной и эффективной подсистеме кэш-памяти для каждого ядра процессора.
Кэш-память процессоров семейства Penryn также имеет расширенные возможности частичной загрузки строк из кэш-памяти. Частичная загрузка производится, когда при считывании данных часть данных находится в одной строке кэш-памяти, а другая часть данных – в другой строке. Данные из двух строк кэш-памяти считываются в несколько раз медленнее, чем из одной строки, даже если данные надлежащим образом сопоставлены. Расширенные возможности частичной загрузки строк, реализованные в процессорах Penryn, значительно повышают производительность за счет спекулятивной обработки обоих частей до загрузки других данных. Благодаря этому повышается производительность некоторых приложений, выполняющих сканирование данных, например, оценку движения на видео.
Высокоскоростные ядра и системная шина
Процессоры семейства Penryn будут работать с более высокой тактовой частотой (более 3 ГГц в некоторых версиях), чем процессоры предыдущего поколения Intel Core 2. Кроме того, они будут поддерживать частоту системной шины до 1, 600 ГГц в дополнение к поддерживаемым сегодня частотам системной шины 1,066 ГГц и 1,333 ГГц. Это также обеспечит повышение общей производительности системы.
Расширенная технология Intel® Virtualization
В процессорах Penryn скорость перехода (вход / выход) виртуальных машин увеличивается на 25 - 75 %. Это достигается за счет усовершенствования микроархитектуры и не требует изменения программного обеспечения виртуальных машин. (Виртуализация разбивает компьютер на несколько разделов, на каждом из которых может работать отдельная ОС с набором приложений. Это позволяет лучше использовать возможности многоядерных процессоров, повышает эффективность работы и позволяет сократить расходы, используя один компьютер как несколько виртуальных компьютеров.)
Уникальный механизм перетасовки
Блок перетасовки шириной 128 бит в процессорах Penryn сможет выполнять операции перетасовки полной ширины за один тактовый цикл. Это позволяет удвоить скорость большинства операций перетасовки данных на уровне байт, слов или двойных слов для команд SSE и значительно снизить задержку и повысить пропускную способность для команд SSE2, SSE3 и SSE4, где используются такие сходные с перетасовкой операции как упаковка, распаковка и перемещение с широкой упаковкой. Эта функция обеспечивает общее повышение производительности разнообразных алгоритмов SSE.
Высокопроизводительный делитель Radix 16
Процессоры Penryn обеспечивают высокую производительность операций деления благодаря почти двукратному увеличению скорости делителя по сравнению с процессорами предыдущих поколений. Это обеспечивает повышение производительности научных вычислений, преобразований трехмерной графики и других функций с высокой математической нагрузкой. Использование новой высокопроизводительной методики деления Radix 16 ускоряет операции деления целых чисел и чисел с плавающих запятой. (Алгоритм radix 4 вычисляет 2 бита частного за каждый шаг. Переход на алгоритм radix 16 позволяет вычислять 4 бита за каждый шаг, что уменьшает время задержки в 2 раза).
Пересылка результата
Чтобы ускорить считывание результатов из неправильно организованного хранилища, пересекающего границу в 8 байт и находящегося в магистрали, в процессорах Penryn имеется возможность пересылки результата из хранилища непосредственно в загрузку, вместо ожидания завершения операции и записи в память.
Повышенная производительность примитивов при синхронизации ОС
Некоторые ОС временно блокируют или маскируют прерывания при запуске важных элементов кода и необходимости эксклюзивного доступа к ресурсу, например, к устройству ввода/вывода. Используя быстрые прерывания очистки и установки (CLI/STI), процессоры Penryn могут быстрее входить в этот режим и выходить из него, что обеспечивает значительное увеличение производительности. Кроме того, они могут быстрее выполнять заблокированные команды (например, XCHG, ADD/XADD/NEG/BTS/AND и CMPXCHG). В процессорах Penryn также ускорен доступ к счетчику временных меток (счетчик считывания временной метки или RDTSC). Эта функция может часто использоваться в базах данных или при обработке транзакций на сервере.
Уменьшение энергопотребления
В дополнение к преимуществам 45-нанометровой производственной технологии Intel с использованием диэлектриков Hi-k, в процессорах семейства Penryn сохраняются преимущества энергоэкономичности микроархитектуры Intel Core с двумя важными дополнениями: технологией Deep Power Down и технологией Intel® Dynamic Acceleration.
Технология Deep Power Down
Это абсолютно новое состояние управления питанием (C-state) значительно снижает энергопотребление процессора в периоды простоя, в связи с чем внутренняя утечка мощности в транзисторах перестает иметь значение. Это новейшее состояние "сна" процессора – состояние с самым низким уровнем энергопотребления. В этом состоянии значительно увеличивается время автономной работы ноутбука. Благодаря этой технологии процессоры Penryn имеют значительно более низкие показатели энергопотребления по сравнению с энергоэффективными процессорами Merom, относящимися к предыдущему поколению архитектуры Intel Core.
В состоянии Deep Power Down, процессор очищает кэш-память, сохраняет состояние микроархитектуры процессора и отключает питание ядер и кэш-памяти 2 уровня. В состоянии Deep Power Down набор микросхем продолжает обслуживать трафик памяти для операций ввода/вывода, но не переводит при этом процессор в активное состояние. Когда требуется использовать ресурсы ядра, повышается напряжение, включаются тактовые циклы, перезагружается процессор, восстанавливается состояние микроархитектуры и возобновляется выполнение команд.
Чем глубже состояние сна, тем больше тратится энергии на переход в это состояние и выход из него. Слишком частый переход в состояния глубокого сна может привести к потере энергии. Для предотвращения этого в процессорах Penryn имеется функция автоматического снижения уровня, использующая эвристические механизмы для определения того, оправдывает ли экономия энергии затраты энергии на выключение процессора и его перезапуск. Если это не так, запрос на переход в состояние Deep Power Down понижается до уровня C4, т.е. менее глубокого сна. В результате достигается экономия энергии, соответствующая вероятному периоду простоя.
Расширенная технология Intel® Dynamic Acceleration
Для дополнительного увеличения производительности однопоточных приложений, корпорация Intel расширила возможности технологии Intel Dynamic Acceleration Technology, доступной в существующих процессорах Intel Core 2 Duo. Эта функция использует энергетический потенциал, освобождающийся в момент, когда одно ядро становится неактивным, для повышения производительности другого ядра, продолжающего работать. (Представьте себе душ с двумя мощными головками. Когда одна головка отключается, давление воды во второй увеличивается). Если одно ядро находится в состоянии C3 или более глубокого сна, часть энергии, обычно используемая этим ядром, может подаваться на активное ядро без превышения при этом температурных спецификаций процессора. Это повышает скорость выполнения однопоточных приложений, увеличивая производительность.