20 ноября 2000 года мир увидел процессор Intel, честно заслуживающий гордый эпитет "новый". Имя ему - Pentium 4.
Новый флагман Intel не унаследовал от Pentium Pro/II/III заслуженное ядро P6, он разработан с нуля, поэтому от предшественников отличается радикально. Для архитектуры этих ЦП придумано свежее имя NetBurst. Рассмотрим важнейшие особенности анатомии Pentium 4.

Знакомьтесь - Pentium 4!
Pentium 4 отличается от предшественников огромным конвейером, длина которого составляет не менее 20 стадий (конвейер Pentium III насчитывает 10 стадий). Именно благодаря ему новый процессор способен работать на сверхвысоких частотах. И в самом деле: если последовательность исполнения команды разбита на более мелкие этапы, то каждый из них процессор сможет выполнять быстрее, следовательно, тактовую частоту ЦП можно повысить.
К сожалению, длинный конвейер не лишен недостатков. Основной его враг - инструкции условных переходов (проще говоря, развилки в программах). Процессор, выполняя такую команду, в зависимости от определенного условия должен либо совершить переход на новый адрес, либо продолжить обработку следующей инструкции. Все современные процессоры стараются предсказать результат каждого ветвления до того, как условие перехода будет вычислено. Если прогноз окажется верным, ЦП будет работать без простоев. Если предсказание ошибочно, процессору приходится очищать весь конвейер и запускать его заново. Чем длиннее конвейер, тем больше тактов приходится тратить на его перезапуск. Таким образом, если Pentium 4 ошибется в предсказании условного перехода, то простаивать ему придется значительно дольше, чем остальным X86-совместимым ЦП. Понимая это, инженеры Intel старались снизить процент неверных прогнозов. По их словам, Pentium 4 ошибается в предсказании ветвлений на треть реже, чем Pentium III. Однако предвидеть результаты всех условных переходов ЦП не может в принципе, поэтому за высокую тактовую частоту флагман Intel расплачивается простоями.
Pentium 4 отличается от всех X86-совместимых процессоров уникальной организацией кэша. Pentium III и Athlon используют одну половину кэша первого уровня (L1) для хранения инструкций, а в другую складывают данные. Напомним также, что все современные ЦП исполняют громоздкие инструкции X86 предварительно разбив их на простые и удобные для обработки микрооперации.
Итак, декодер Pentium III и Athlon считывает команды из кэша первого уровня и нарезает их на микрокоманды, которые отдаются на съедение исполнительному устройству. Такая схема имеет два серьезных недостатка. Во-первых, если декодеру попадается сложная инструкция, то исполнительному устройству приходится простаивать до тех пор, пока она не будет преобразована в микрооперации. Во-вторых, каждый раз при повторном исполнении команд (при обработке циклов) процессору приходится декодировать их заново.
Pentium 4 не хранит инструкции в кэше первого уровня. Вместо этого процессор складирует уже декодированный код в так называемом кэше трассировки исполнения (Execution Trace Cache). Иными словами, в новом кэше хранятся не классические инструкции X86, а готовые к исполнению микрооперации. Такой подход позволяет избежать описанных выше проблем. Во-первых, исполнительные устройства Pentium 4 не ждут декодера, а считывают микрокоманды непосредственно из кэша трассировки исполнения. Во-вторых, если цикл полностью помещается в новый кэш, процессору не приходится декодировать его многократно. Intel не публикует размеров Execution Trace Cache в килобайтах. Известно лишь, что в нем можно хранить до 12000 микрокоманд.
Объем кэша первого уровня Pentium 4 (напоминаем, что в нем хранятся только данные) составляет всего восемь килобайт. Для сравнения: L1-кэши Pentium III и Athlon могут хранить до 16 и 64 килобайт данных соответственно. Вероятно, объем принесен в жертву скорости: на ожидание данных из кэша первого уровня Pentium 4 тратит всего два такта, а его конкуренты - минимум три.
Подобно предшественнику, флагман Intel оснащен 256-килобайтным кэшем второго уровня, соединенным с ядром широченной 256-битной шиной данных (Intel называет эту конфигурацию Advanced Transfer Cache). Более того, пропускная способность этого кэша увеличена вдвое.
Все современные процессоры оснащены не одним, а несколькими АЛУ (арифметико-логическими устройствами, то есть блоками, выполняющими арифметические и логические операции над целочисленными данными). В силу чего ЦП может обрабатывать за такт сразу несколько команд. К сожалению, инструкции X86 плохо поддаются распараллеливанию. Очень часто процессор не может обработать команду до тех пор, пока не вычислит результат предшествующей ей инструкции. Такие пары команд называются зависимыми. Поскольку обрабатывать их параллельно нельзя, процессору приходится вычислять их по очереди. Чтобы максимально сократить время исполнения зависимых инструкций, Pentium 4 оснащен двумя АЛУ, работающими на удвоенной частоте процессора. Каждый из них может исполнить за такт две простых операции (сложение, вычитание и логические). Иными словами, у протестированного нами Pentium 4 1,5 ГГц пара АЛУ трудилась на нереальной частоте 3 гигагерца (!!!). Стоит отметить, что на удвоенной частоте обрабатываются не все арифметические команды, а лишь простейшие из них. Сложные операции (например умножение) Pentium 4 переваривает на своей номинальной частоте.

Кристалл Pentium 4 (увеличено).
Набор SIMD-инструкций SSE, дебютировавший пару лет назад в процессорах Pentium III, не только включен в Pentium 4, но и существенно расширен. К имевшимся 70 командам добавлено еще 144. Напомним, что SIMD-инструкции (Single Instruction Multiple Data - "одна инструкция над многими данными") производят арифметические операции над несколькими (более чем двумя) операндами. Прежние команды SSE позволяли обработать за раз четыре пары вещественных чисел одинарной точности (восемь 32-битных чисел с плавающей запятой). Другие типы данных SSE не признает. Команды, появившиеся в SSE2, могут работать с двумя парами вещественных чисел двойной точности (четырьмя 64-битными числами с плавающей запятой) и целочисленными операндами длиной от одного до 16 байт. Добавлены также новые команды, управляющие кэшированием данных.
Пожалуй, самым важным нововведением в SSE2 следует признать поддержку SIMD-операций над вещественными числами двойной точности. Напомним, что SSE и 3Dnow! работают лишь с операндами одинарной точности, недостаточной для многих инженерных приложений. Пока трудно понять, решаться ли производители "серьезного" ПО активно использовать SSE2, но главный конкурент Intel этот набор инструкций уже оценил. AMD планирует реализовать SSE2 в своих 64-разрядных процессорах Sledgehammer (их производство запланировано на 2001 года), причем о поддержке этими процессорами 3DNow! нам до сих пор ничего не известно. Все это очень похоже на смертный приговор 3DNow!. AMD едва ли сможет добавить в этот набор команд операции над вещественными числами двойной точности. Дело в том, что инструкции 3DNow! хранят операнды в 80-разрядных регистрах математического сопроцессора, и втиснуть в такой регистр два 64-битных числа в принципе невозможно.
Разработчики программ, выбирая между командами 3DNow! и SSE, скорее всего, предпочтут последние, так как с ними будут совместимы как процессоры Intel, так и ЦП AMD.
Вместе с оригинальным ядром Pentium 4 получил обновленную системную шину (FSB). От FSB процессоров Pentium III она отличается возможностью передавить данные четыре раза за такт (Intel называет этот режим "Quad Pumped"). Таким образом, даже работая на скромной частоте 100 мегагерц, эта 64-разрядная шина может передавать информацию со скоростью до 3,2 гигабайт в секунду. Напомним, что до сих пор самой быстрой шиной X86-совместимых процессоров была EV6, поставляющая данные современным процессорам AMD в два раза медленнее. Труднее всего Pentium III: по их 133 МГц FSB можно прокачать не больше 1,06 Гбайта/с. Впрочем, даже самая быстрая шина будет простаивать, если память не сможет поставлять данные с адекватной скоростью.
|
Pentium 4 1.5 ГГц |
Athlon 1100 МГц |
| CPUmark99 |
92,7 |
99 |
| FPUmark |
5160 |
6060 |
| CPU/Memory bandwidth |
1483 |
442 |
| SYSMark2000 Office Productivity |
186 |
213 |
| SYSMark2000 Internet Content Creation |
205 |
204 |
| Quake3 demo001 |
202,6 |
148,5 |
| Quake3 pumped |
138,8 |
106,5 |
| Unreal Tournament utbench.dem |
49,8 |
46,3 |
| Mercedes-Benz Truck Racing |
92,8 |
63,2 |
| NASCAR Heat |
61,5 |
61,5 |
| MDK2 Hardware T&L |
182,3 |
158,0 |
| MDK2 Software T&L |
146,2 |
142,4 |
| Expendable |
77,2 |
87,2 |
Pentium 4 подобный дисбаланс не грозит. Пока с этим процессором совместим только новейший чипсет i850, оснащенный двухканальным контроллером памяти RDRAM. Пропускная способность каждого канала при использовании модулей PC800 RDRAM составляет 1,6 гигабайта в секунду. Таким образом, суммарная полоса пропускания ОЗУ достигает внушительной цифры 3,2 Гбайта/с (для сравнения: пропускная способность популярной PC133 SDRAM составляет всего 1,06 Гбайта/с).
Подчеркнем, что современные системы с Pentium 4 не работают со SDRAM. Возможно, VIA создаст чипсет для этого процессора, совместимый со SDRAM или DDR SDRAM. Ходят также слухи, что Intel поддержит эти типы памяти в новом наборе системной логики для Pentium 4, выпуск которого запланирован на середину 2001 года. В любом случае, похоже, что еще минимум полгода Pentium 4 будет совместим только с RDRAM. Можно сколь угодно долго спорить о преимуществах и недостатках этого типа памяти. Отметим лишь два, на наш взгляд, важнейших, факта. Во-первых, на сегодня только два канала RDRAM могут обеспечить столь высокую пропускную способность. Если учесть, что Pentium 4 ориентирован на обработку в первую очередь потоковых задач, выбор этого типа памяти выглядит вполне оправданным. Во-вторых, модули RDRAM (RIMM) пока остаются чрезмерно дорогими (на момент написания этих строк RIMM стоил примерно в пять раз дороже, чем PC133 SDRAM DIMM аналогичного объема). Понимая это, Intel проставляет часть Pentium 4 с двумя 64-мегабайтными модулями RIMM. Впрочем, проблему дороговизны RDRAM этот шаг не решает.
Процессор Pentium 4 1,5 ГГц тестировался в системе с материнской платой Intel D850GB, 256 мегабайтами PC800 RDRAM (два модуля RIMM по 128 Мбайт каждый), видеоадаптером ELSA GeForce2 Ultra и жестким диском Seagate Barracuda II ATA ST330630A. Для сравнения приведены результаты Athlon 1100, протестированного на материнской плате ASUS A7V с 256 мегабайтами PC133 SDRAM, видеоадаптером ELSA GeForce2 Ultra и жестким диском Seagate Barracuda II ATA ST330630A.
Использовалась англоязычная версия операционной системы Windows 98 SE с DirectX 8.0, пропатченная для корректной работы материнской платы. Запускались следующие тесты:
ZD CPUmark 99 - тест целочисленной производительности ЦП, основанный на коде популярных офисных приложений.
ZD FPUmark - тест производительности сопроцессора, измеряющий скорость операций над числами с плавающей точкой.
При помощи пакета SiSoft Sandra 2000 Professional измерялась пропускная способность ОЗУ (тест CPU/Memory Bandwidth).
Тест SYSMark2000 Office Productivity измерял производительность всей системы при выполнении программ MS Word 2000, MS Excel 2000, MS PowerPoint 2000, Netscape Communicator 4.61, Dragon NaturallySpeaking Preffered 4.0, Corel Paradox 9.0 и Corel Draw 9.0
Тест SYSMark2000 Internet Content Creation измерял производительность всей системы при выполнении программ MetaCreations Bryce 4, Avid Elastic Reality 3.1, Adobe Premiere 5.1, Adobe Photoshop 5.5 и MS Windows Media Encoder 4.0. Производительность процессоров в играх оценивалась при помощи игр Quake 3: Arena (v1.17) и Unreal Tournament (v4.32), а также демо-версий Mercedes-Benz Truck Racing, NASCAR Heat, MDK2 и Expendable. Все игровые тесты запускались в разрешении 800X600 High Color при отключенной синхронизации с обратным ходом луча развертки (VSYNC) и кадровой частоте 60 Гц.
|
Intel Pentium 4 1.5 гигагерца |
|
Цена $1000 (ориентировочно) |
|
Тактовая частота ЦП 1,5 гигагерца |
|
Эффективная частота системной шины 400 МГц |
|
Производственный процесс 0,18 мкм |
|
Системная шина Quad Pumped AGTL+ |
|
Конструктив FC-PGA |
|
Разъем Socket 423 |
|
Кэш первого уровня (данные/инструкции) 8 Кбайт/12000 микроинструкций |
|
Кэш второго уровня 256 Кбайт |
|
Расширенные наборы инструкций MMX, SSE, SSE2 |
|
Производительность 5 |
|
Итоговый рейтинг 4 |
Перед тем как приступить к обсуждению результатов тестирования этого монстра, стоит рассказать об окружающих его "железках". Во-первых, Pentium 4 совместим далеко не с любыми старыми материнскими платами. Процессор живет в гнезде Socket 423, отличающемся от Socket 370 (обитель современных Pentium III и Celeron) как размером, так и числом контактов. Словом, полку сокетов на ПК прибыло. Теперь существует три принципиально несовместимых друг с другом процессорных гнезда: Socket A для Athlon и Duron, Socket 370 для Pentium 3 и Celeron, а также Socket 423 для Pentium 4. Более того, век Socket 423 , скорее всего, будет недолог. Насколько нам известно, всего через полгода Intel планирует выпустить обновленную версию Pentium 4, живущую в новом гнезде Socket 478.
Помимо новой материнской платы Pentium 4, как ни странно, нуждается в новом корпусе. Дело в том, что для эффективного охлаждения этого процессора необходимы очень большие радиаторы. Закреплять эти батареи по старинке (на процессорном гнезде) неудобно и опасно: тяжелый кулер может запросто разрушить пластиковый сокет. Поэтому радиаторы для Pentium 4 пристегиваются к специальным пластиковым стойкам, привинченным к корпусу через отверстия в материнской плате. В свою очередь, для крепления этих стоек нужны специальные отверстия в металлической платформе, к которой монтируется материнская плата. В старых корпусах ATX подобные отверстия не предусмотрены, хотя при необходимости их можно просверлить самостоятельно. Кроме того, новый процессор нуждается в специальном блоке питания с двумя дополнительными кабелями, подключаемыми к материнской плате. Таким образом, Pentium 4 трудно признать хорошим кандидатом для апгрейда системы, поскольку менять придется почти все: материнскую плату, память, блок питания и, возможно, даже корпус.
Результаты первых тестов Pentium 4 повергли нас в уныние. В синтетических бенчмарках флагман стабильно отставал от Athlon 1100, стоящего почти в три раза дешевле. Впрочем, обо всем по порядку!

Процессор в рабочей обстановке...
Отставание Pentium 4 от конкурента в тесте CPUmark99 трудно назвать значительным. Вызвано оно, вероятно, значительно меньшим объемом кэша данных первого уровня и плохой предсказуемостью ветвлений в бизнес-приложениях. Также Athlon подтвердил звание "лучшего процессора для офиса" в тесте SYSMark2000 Office Productivity, обогнав Pentium 4 во всех программах за исключением системы распознавания речи Dragon NaturallySpeaking Preffered 4.0.
В тесте SYSMark2000 Internet Content Creation оба процессора финишировали одновременно (минимальное преимущество Pentium 4 укладывается в погрешность измерений). Характерно, что Pentium 4 лидировал в Adobe Photoshop 5.5 и MS Windows Media Encoder 4.0, то есть в приложениях, предъявляющих серьезные требования к пропускной способности памяти. В остальных задачах, загружающих ЦП сильнее, первым пришел Athlon.
Говорят ли эти результаты о посредственной целочисленной производительности Pentium 4? На наш взгляд, нет. Очень важно понимать, что все перечисленные выше программы разработаны и скомпилированы без учета особенностей архитектуры NetBurst. По мере совершенствования компиляторов скорость работы целочисленных приложений на Pentium 4 будет расти.
С производительностью в операциях над числами с плавающей точкой (они же вещественные) у Pentium 4 тоже все не так просто. Представители Intel утверждают, что этот ЦП оснащен не менее мощным сопроцессором, чем его предшественники, однако реальные тесты пока это не подтверждают. Во всех известных нам бенчмарках, активно загружающих сопроцессор (FPU), Pentium 4 значительно отставал от работающего на меньших частотах Athlon. Возможно, эти результаты также вызваны плохой оптимизацией кода, однако доказательств высокой производительности FPU флагманского процессора Intel мы пока не нашли. Похоже, что при разработке Pentium 4 инженеры решили пожертвовать производительностью сопроцессора, сделав ставку на новые инструкции SSE2. Эти команды действительно могут значительно увеличить скорость обработки вещественных чисел. Вопрос лишь в том, когда появятся игры, активно использующие SSE2 (и появятся ли они вообще!). Напомним, что первые ЦП с поддержкой SSE (Pentium III) были выпущены два года назад, однако примеров эффективного использования этих инструкций в реальных играх мы не встречали до сих пор.

...и в семейном кругу.
Признаемся, что после невыразительного выступления Pentium 4 в "серьезных" тестах мы не ожидали от этого процессора рекордных fps в играх. С удовольствием отмечаем, что флагман развеял наш пессимизм. В Quake 3, демо-версии Mercedes-Benz Truck Racing и MDK2 лидерство Pentium 4 было неоспоримым. В Unreal Tournament этот процессор опередил Athlon незначительно, а в заездах NASCAR Heat конкуренты финишировали одновременно. Athlon лидировал лишь в демо-версии Expendable, однако эта игра оптимизирована под 3DNow! и ничего не знает об SSE. В популярном тесте 3DMark2000 первое место снова занял Pentium 4.
Современные 3D-игры оперируют значительными объемами текстур и геометрической информации, нуждаясь в высокой пропускной способности системного ОЗУ. Пока два канала RDRAM обеспечивают Pentium 4 отрыв от процессоров AMD, вынужденных довольствоваться медлительной PC133 SDRAM. В ближайшее время Athlon получит материнские платы с поддержкой DDR SDRAM, и мы станем свидетелями нового этапа битвы процессоров.
Редакция Game.EXE выражает искреннюю благодарность российскому представительству корпорации Intel (www.intel.ru) за предоставленную для тестирования систему на базе Pentium 4.
Отдельная благодарность российскому представительству AMD (www.amd.ru) и компании "Пирит" (115-7101), любезно предоставившим тестовое оборудование.