Таким образом, латентность ALU существенно снижается. В частности, на выполнение одной инструкции типа add Pentium 4 1.4 ГГц тратил всего 0.35нс, в то время как выполнение этой команды у Pentium III 1 ГГц занимает 1 нс.
SSE2.
Реализовав в своем процессоре Athlon новый конвейерный FPU (флоуд Floud), AMD очень сильно обогнала интеловский Pentium III в производительности при операциях с вещественными числами. Однако, Intel в своем Pentium 4 не стал сосредотачиваться на совершенствовании своего FPU, а просто увеличил возможности блока SSE. В результате, в Pentium 4 имеет место расширенный набор команд SSE2, в котором к имеющемуся набору из 70 инструкций было добавлено еще 144. Такое решение - результат NetBurst идеологии, основной целью которой является увеличение скорости работы с потоками данных. Инструкции SSE позволяли оперировать с восемью 128-битными регистрами XMM0..XMM7, в которых хранились по четыре вещественных числа одинарной точности. При этом все SSE операции проводились одновременно над четверками чисел, в результате чего специально оптимизированные программы, в которых производилось большое количество однотипных вычислений (а к ним, помимо обработки потоков данных в какой-то мере относятся и 3D-игры), получали существенный прирост в производительности.
SSE2 же оперирует с теми же самыми регистрами, и обратно совместим с SSE процессора Pentium III. А столь впечатляющее расширение набора команд вызвано тем, что теперь операции со 128-битными регистрами могут выполняться не только как с четверками вещественных чисел двойной точности, но и как с парами вещественных чисел двойной точности, с шестнадцатью однобайтовыми целыми, с восемью короткими двухбайтовыми целыми, с четырьмя четырехбайтовыми целыми, с двумя восьмибайтовыми целыми или с 16 байтовыми целыми. То есть, теперь SSE2 представляя собой симбиоз MMX и SSE и позволяет работать с любыми типами данных, влезающими в 128-битные регистры.
SSE2 гораздо более гибок, позволяя добиваться впечатляющего прироста в производительности. Однако, использование нового набора команд требует специальной оптимизации программ, поэтому ждать его внедрения сразу после выхода нового процессора не стоит. Со временем же,SSE2 имеет достаточно большие перспективы. Поэтому, даже AMD собирается реализовать SSE2 в своем новом семействе процессоров Hammer. Старые же программы, не использующие SSE2, а полагающиеся на обычный арифметический сопроцессор, никакого прироста в производительности при использовании Pentium 4 не получат. Более того, несмотря на то, что Intel говорит о том, что блок FPU в Pentium 4 был слегка усовершенствован, время, необходимое на выполнение обычных операций с вещественными числами возросло по сравнению с Pentium III в среднем на 2 такта.
L1 кэш
Что касается кеша первого уровня в Pentium 4, то поскольку теперь команды хранятся в Trace Cache, он предназначен только для хранения данных. Однако, его размер в Pentium 4, основанном на ядре Willamette составляет всего 8 Кбайт. Intel был вынужден сократить объем кеша первого уровня в Pentium 4, так как ядро этого процессорами без того получалось слишком большим. Тем не менее, архитектура этого процессора может поддерживать L1-кеш и большего размера, поэтому, скорее всего, при переходе на технологический процесс 0.13 мкм и новое ядро Northwood, этот кэш будет увеличен.
Однако, для увеличения производительности, Intel применил для доступа к L1-кешу новый алгоритм, чем уменьшил в Pentium 4 латентность этого кеша до двух процессорных тактов вместо трех тактов в Pentium III. Таким образом, учитывая большую тактовую частоту Pentium 4, время реакции его L1 кеша составляет всего 1.4нс для 1.4 ГГц модели против 3нс у L1 кеша Pentium III 1 ГГц. Также как и в Pentium III, L1 кэш Pentium 4 является write through и ассоциативным с 4областями ассоциативности. При этом длина одной строки L1 кеша равна 64 байтам.
L2 Advanced Transfer Cache
Процессор Pentium 4 обладает Advanced Transfer Cache второго уровня объемом 256 Кбайт. Так же, как и в Pentium III, L2-кеш имеет широкую 256-битную шину, благодаря которой процессоры от Intel имеют более высокую пропускную способность кеша, чем их конкуренты от AMD, использующие 64-битную шину кеша. Однако, в отличие от Athlon, в Pentium 4 (впрочем, также как и в Pentium III) L2 кэш не является эксклюзивным, то есть он дублирует данные, находящиеся в L1кэше.
Так как Pentium 4 рассчитан на обработку потоковых данных, скорость работы L2-кеша для него является одним из ключевых моментов. Поэтому, Intel увеличил пропускную способность кеша второго уровня в Pentium 4 в два раза. Это усовершенствование было сделано благодаря передаче данных из L2-кеша на каждый процессорный такт, в то время, как данные из L2-кеша Pentium III передаются только на каждый второй такт. Таким образом, пропускная способность L2-кеша Pentium 4, работающего, например, с частотой 1.4 ГГц имеет теперь внушительную величину 44.8 Гбайт/с. Для сравнения - пропускная способность Advanced Transfer Cache у Pentium III 1 ГГц составляет 16 Гбайт/с.
2. УСОВЕРШЕНСТВОВАНИЕ МАТЕРИНСКОЙ ПЛАТЫ
2.1 Постановка задачи
Требуется произвести усовершенствование материнской платы. Рассмотрим один из способов увеличения производительности материнской платы.
Часто при разгоне видеокарты ограничивающим фактором повышения частоты становится недостаток напряжения. Чтобы преодолеть этот барьер, прибегают к вольтмоду систем питания.
Слово "вольтмод" взято из английского (voltmodification) и означает "модификация напряжения". Это значит, что вольтмод включает в себя любую модернизацию напряжения питания памяти или ядра (не путать с изменением настроек BIOS материнской платы). В основном вольтмод применяют для модернизации системы питания видеокарт или материнских плат.
Существует два основных типа вольтмода видеокарт: программный и аппаратный. Программный вид применим к узкому кругу видеокарт. Он включает в себя поднятие напряжения через специальные утилиты (например, ATI Tool, Overclocker-x1k) или перепрошивку BIOS (например, NiBiTor, NVIDIA BIOS Modifer). Обычно изменение напряжения столь мало, что особо не отражается на разгоне, а иногда происходит занижение напряжения, что только пагубно сказывается на поднятии частоты.
Аппаратный вид вольтмода – это физическое вмешательство в питающую составляющую ядра или памяти. Всем известно, что напряжение, которое подаётся на процессор, можно изменять из BIOS материнской платы, а видеокарты (в большинстве своём) не имеют такой возможности. Если рассматривать аппаратный вид, то тут можно выявить два метода: вольтмод с помощью резистора или вольтмод с применением карандаша.
Увеличение напряжение само по себе еще не увеличивает производительность, но ускоряет переходные процессы в кристалле, за счет чего его предельная тактовая частота возрастает. А вместе с ней возрастает и тепловыделение, причем греется не только основной кристалл, но и вспомогательные элементы. Микросхемы, в штатном режиме работающие без радиатора, могут потребовать охлаждения, также возможно придется доработать схему фильтрации, добавив несколько дополнительных шунтирующих керамических конденсаторов в обвязку электролитических, а сами электрические - заменить, отобрав хорошие и качественные экземпляры с низким ESR. Пренебрежение этим правилом обычно приводит к провалу всей операции и вольмод не удается - даже при незначительном увеличении напряжения начинаются "глюки".
2.2 Метод с применением резистора
Рассмотрим один из способов вольтмонда – метод с применением резистора. Подстроечные, или переменные, резисторы выглядят так как изображено на рисунке 2.1.
Рисунок 2.1 – Подстроечные резисторы
Чтобы наиболее подробно представить переменный резистор, рассмотрим рисунок 2.2.
Рисунок 2.2 - Принцип действия переменного резистора
Выбрав резистор для вольтмода, следуйте требованиям по отбору проводов для него: они должны быть мягкими, тонкими, изолированными, не очень ломкими и небольшой длины.
Для воспроизводства вольтмонда рассмотрим схему на рисунке 2.3.
Рисунок 2.3 – Типовая схема микросхемы
На рисунке 2.3 представлена типовая схема фирмы RichTek с маркировкой RT9232A. Обычно она устанавливается на платы Sapphire x1300/1600. Чтобы провести вольтмод, надо припаять переменный резистор к FB (5-я нога, feedback) и к GND (7-я нога, земля). Нумерация ног начинается от небольшой ямочки на микросхеме и продолжается против часовой стрелки. Припаивать провода резистора к ногам надо аккуратно, иначе возможны короткое замыкание и выход микросхемы из строя.
Припаяв регулируемый резистор в нужном месте, мы с лёгкостью сможем управлять значением сопротивления в цепи и тем самым изменять напряжение. Но допустим, мы нашли нужную микросхему, а необходимый номинал резистора и выходное напряжение нам неизвестны. В этом случае пользуются несколькими расчётными формулами (Rmax – итоговое сопротивление после перепайки переменного резистора):
Rmax = 1 / ( ( 1/Rfb) + (1/Rvr) ) (2.1)
где Rfb – это уже имеющееся сопротивление между FB и GND, Rvr – сопротивление добавляемого переменного резистора, выставленное на максимум.
Приблизительная оценка уровня минимального поднятия напряжения находится так:
Vmin = Vdef * Rfb / Rmax (2.2)
Здесь значение Vdef – напряжение по умолчанию.
Таким образом, зная расчётные формулы, мы без особого труда можем определить итоговое сопротивление и выходное напряжение.
2.3 Замена системы охлаждения перед усовершенствованием
В случае разгона с применением вольтмода к системе охлаждения надо подходить особым образом. Ведь мы имеем дело с полупроводниковыми материалами, а известно, что полупроводниковые приборы весьма подвержены внешним факторам воздействия окружающей среды и при перегреве могут выйти из строя. В основном при вольтмоде видеокарт охлаждать надо GPU и память, но раз мы осуществляем вольтмод системы питания, то и силовые элементы питания тоже желательно охладить. Об охлаждении памяти и графического ядра многие производители уже позаботились, и в продаже имеется множество эффективного охлаждения, которое можно применить при разгоне.