В уходящем 2007 году, компания Intel подготовила пользователям довольно приятный сюрприз: запустила в производство новую серию процессоров выпущенных по 45 нм техпроцессу. Любая смена техпроцесса является очень удачным моментом для обновления структуры процессорного ядра. Дело в том, что любое ядро (не важно какое - это может быть видео, процессор, чипсет, звуковой процессор и пр.) не является совершенным, в нем есть ошибки, недоработки, а также нереализованные (по многочисленным соображениям) возможности. Ошибки (за исключением очень серьезных, которых уже не было года три-четыре) пользователь не видит: они обходятся на уровня чипсета и BIOS материнской платы. И как только стало известно о переходе Intel на 45нм техпроцесс, все стали ожидать обновление ядра Conroe. И Intel оправдала ожидания - представила новое семейство процессоров под названием Penryn, которое включает 4-ядерное ядро Yorkfield и 2-ядерное Wolfdale.
Ядро Conroe является на сегодняшний момент наиболее совершенным и "продвинутым", и процессоры на нем легко обходят единственных конкурентов из AMD. Поэтому вполне понятна позиция Intel, которая не стала изменять принципиальную архитектуру Core, а ограничилась только модификацией. Итак, что же изменили и добавили инженеры Intel. Во-первых серьезно ускорено выполнение операций деления (как целых, так и вещественных чисел). Модифицированный блок деления получил название Fast Radix-16 (у семейства Core аналогичный блок назывался Radix-4). Результат - за один проход новый блок обрабатывает 4 бита вместо двух. Вообще-то, программисты по традиции продолжают избегать операций деления, как относительно медленных, заменяя их умножением. То же самое делают и различные компиляторы. Но в любом случае, любое ускорение операций деления пойдет на пользу общей производительности процессора. К тому же, операции извлечения квадратного корня не так-то просто обойти, а именно тут Penryn работает гораздо быстрее Conroe.
Еще у Penryn серьезно модифицирован блок отвечающий за исполнение потоковых команд. На этот шаг инженеры Intel пошли, поскольку в новых процессорах реализован дополнительные набор инструкций SSE4.1. Наибольшие изменения коснулись блока перестановок, который осуществляет битовые перестановки в 128-битных регистрах. Теперь такие операции как упаковка, распаковка, сдвиг упакованных значений, вставка выполняются в соответствующем регистре всего за один такт. В результате блок перестановок получил название Super Shuffle Engine, а его использование дает практически двукратный рост производительности при выполнении потоковых инструкций. Сам набор потоковых команд SSE4.1 включает 47 новых инструкций, которые значительно облегчают жизнь программистам при разработке программного обеспечения связанного с обработкой потоковой информации. Это могут быть задачи видео и аудио кодирования, научные задачи и трехмерная графика.
А сейчас попытаемся разобраться, что все это дает простому пользователю. Итак, обычный домашний пользователь никакой разницы в скорости между процессорами Core и Penryn не заметит. Да, Penryn работает чуть быстрее за счет более "зрелой" архитектуры, но в обычном, неоптимизированном программном обеспечении эта разница будет составлять несколько процентов. Другое дело - оптимизированное ПО. Для начала оптимизация под многоядерность. Если она есть, то прирост производительности 4-ядерного процессора по сравнению с условным одноядерным (работающем на такой же частоте, и имеющий ту же архитектуру) может колебаться от 200% до 400%! А оптимизация под использование инструкций SSE4.1 обеспечивает преимущество Penryn над Core до 30% при одной и той же частоте.
Единственный вопрос - где все это оптимизированное ПО? Среднестатистический пользователь с таким, к сожалению, не сталкивается. Да и сами программисты не горят желанием тратить ресурсы на решение подобных задач.
Однако, на компьютере не только играют - на нем еще иногда и работают. Здесь ситуация с оптимизацией получше. Соответствующие дополнения есть в разнообразных графических редакторах (различные 3DMax, POV-ray и Photoshop CS), в программах обработки видео (DivX, Microsoft Media Encoder). Например DivX 6.7 уже сейчас поддерживает SSE4.1. Это значит, что перекодируя утром фильм для последующего просмотра его на мобильном устройстве, обычный студент сэкономит время, и таки успеет на первую пару. Еще значительный выигрыш будет заметен в программах архивирования (например WinRAR). Но кроме таких программ, большая часть другого ПО использует сжатие данных - например все последние игры на движках ID Software хранят массу файлов в виде сжатых файлов-контейнеров. Иными словами - загрузка определенных игр и переход между уровнями будет происходить заметно быстрее.
Стоит подчеркнуть еще один момент. Новые процессоры Penryn лучше всех своих предшественников не только за счет усовершенствований, но и за счет собственно 45 нм техпроцесса. Напряжение ядра стало меньше, тепловыделение меньше, а потенциал тактовой частоты - выше. Однако, Intel не спешит наращивать частоты: известно только о запланированном достижении частот 3,0 - 3,33 ГГц. А возможно при переходе на 400МГц шину, мы увидим процессор с частотой 3,6 ГГц. Но это будет к концу 2008 года. Именно до этого срока запланировано время жизни семейства Penryn, после которого на сцене появится совершенно новая архитектура Nehalem со встроенным контроллером памяти (топовые процессоры будут иметь 8 ядер и одновременно исполнять 16 потоков!). Тогда же Intel точно перейдет на 32 нм техпроцесс, а AMD, может быть, порадует сообщением о успешном освоении 65 нм техпроцесса.
Конечно же 45 нм техпроцесс порадует оверклокеров, как только они получат в руки первые такие процессоры. Потенциал ядра выше - значит можно разгонять сильнее; тепловыделение процессоров меньше - значит можно подать более высокое напряжение (на том же самом кулере), и опять же разогнать еще сильнее. Осмелюсь даже предположить, что тактовая частота = 4 ГГц уже не будет считаться "достижением", как происходит сейчас с 65 нм процессорами Core.
Однако, преимущества 45 нм техпроцесса не ограничиваются радостью оверклокеров. Он позволяет инженерам Intel уменьшить физические размеры ядра, что означает снижение его себестоимости (т.е. на одной пластине можно "вырастить" большее количество ядер). Снижение себестоимости никак не касается пользователей - они получают процессоры по стандартным, фиксированным ценам. Но! Покупая процессор семейства Penryn (Yorkfield или Wolfdale) пользователь получает не 4 мегабайта кеш-памяти второго уровня (как у Conroe), а 6 мегабайт на каждом из чипов. Т.е. у тестового процессора QX9650, который включает два Wolfdale общий объем кеша L2 = 12 Мб, и именно это значение будет указано во всех спецификациях и прайс-листах. Кстати, о цене - QX9650 будет продаваться по цене в 1000$.
И что самое интересное, даже с большим объемом кеша, физические размеры Wolfdale заметно меньше чем у Conroe: 107 кв. мм. против 143 кв. мм! Причем у Wolfdale на этой площади расположено 410 миллионов транзисторов, а у Conroe - "только" 291 миллионов.
Получается, что Yorkfield содержит почти миллиард транзисторов (820 или 2 х 410), или примерно миллион транзисторов на $1 (для QX9650)! Более терпеливые приобретут транзисторы дешевле: в через 6-8 недель выйдет процессор Q9450 (Yorkfield) с тактовой частотой 2,66 ГГц по цене ~$316.
Больший объем кеша L2 положительно повлияет на скорость работы ПО, производительность которого зависит от этого фактора. Однако кеш L2 у Penryn стал несколько медленнее, чем у Conroe. Впрочем, инженеры Intel отчасти компенсировали этот недостаток функцией Split Load Cache Enhancement.
Что касается типичного тепловыделения, то для тестового процессора QX9650 оно равно 130 Вт. Больше будет выделять только QX9770, у которого TDP будет равно 136 Вт, что вполне приемлемо для частоты 3,2 ГГц. Эта модель появится в первом квартале 2008 года по цене ~$1400.
Впрочем, до 2008 года еще полтора месяца, а сейчас первым и пока единственным представителем нового семейства Penryn является процессор Core 2 Extreme QX9650 с тактовой частотой 3 ГГц, который содержит четыре ядра и работает на частоте FSB = 333 МГц (1333 QPB).
Внешне новинка совершенно обыденная, просто еще один LGA775-процессор. Причем даже из маркировки нет возможности определить начинку под теплораспределителем (собственно как и у всех других инженерных семплов Intel):
Если крышку снять, то мы обнаружим два двухъядерных чипа Wolfdale, на каждом из которых установлено по 6 Мб кеш-памяти второго уровня (общий объем кеша L2 = 12 Мб).
На обратной стороне процессора мы можем обнаружить несколько отличную конфигурация конденсаторов.