3.2 Системная шина
Прежде чем углубляться в сам процессор, посмотрим, чем же отличается системная шина EV6, примененная AMD, от привычной интеловской GTL+. Внешнее сходство бывает обманчиво. Хотя процессорный разъем Slot A на системных платах для процессора AMD Athlon выглядит также как и Slot 1, перевернутый на 180 градусов, шинные протоколы и назначения контактов у Intel Pentium III и AMD Athlon совершенно различны. Более того, различно даже число задействованных сигналов - Athlon использует примерно половину из 242 контактов, в то время как Pentium III всего четверть. Внешняя похожесть вызвана тем, что AMD просто хотела облегчить жизнь производителям системных плат, которым не придется покупать особенные разъемы для установки на Slot A системные платы. Только и всего.
На самом же деле, хоть EV6 и работает на частоте 100 МГц, передача данных по ней, в отличие от GTL+ ведется на обоих фронтах сигнала, потому фактическая частота передачи данных составляет 200 МГц. Если учесть тот факт, что ширина шины EV6 - 72 бита, 8 из которых используется под ECC (контрольную сумму), то получаем скорость передачи данных 64бита х 200 МГц = 1,6 Гбайт/с. Напомню, что пропускная способность GTL+, работающей на 100 МГц в два раза меньше - 800 Мбайт/с. Повышение частоты GTL+ до 133 МГц дает увеличение пропускной способности при этом только до 1,06 Гбайт/с. Казалось бы, как в случае с GTL+, так и с EV6 получаются внушительные значения пропускной способности. Однако, только современная PC100 память может отожрать от нее до 800 Мбайт/с, а AGP, работающий в режиме 2x - до 528 Мбайт/с. Не говоря уже о PCI и всякой другой мелочевке. Получается, что GTL+ уже сейчас может не справляться с передаваемыми объемами данных. У EV6 же в этом случае все в порядке, потому эта шина более перспективна.
При этом, как частота GTL+ может быть увеличена со 100 до 133 МГц, планируется, что и частота EV6 также впоследствии достигнет значения 133 (266), а затем и 200 (400) МГц. Однако планы эти могут и не осуществиться - реализовать работу на материнской плате EV6, требующую большего количества контактных дорожек, несколько сложнее, особенно на больших частотах. Хотя если у AMD все получится, пропускная способность системной шины может достичь 2.1 и 3.2 Гбайта/с соответственно, что позволит беспрепятственно применять в Athlon-системах, например, высокопроизводительную 266-мегагерцовую DDR SDRAM.
Еще одна интересная особенность EV6 заключается в поддержке многопроцессорных систем, на рынок которых AMD планирует выйти в наступающем году. В отличие от GTL+, EV6 обеспечивает соединение точка-точка между процессорами и чипсетом, что позволяет выделить всю пропускную способность шины для каждого процессора. Теоретически таким образом может подключаться до 14 процессоров. Ограничения же на количество процессоров в интеловских системах обусловлено, в частности, и тем фактом, что общая пропускная способность GTL+ делится поровну между CPU. Потому, EV6 кажется перспективной и при использовании в многопроцессорных системах.
Сравнение шины EV6 (AMD) cGTL+ (Intel)
EV6 GTL+Системная шина процессора AMDAthlon (Thunderbird) - первая 266-MHz системная шина для x86-платформ. Системная шина процессора AMD Athlon (Thunderbird) разработана по предложенной компанией DEC, масштабируемой и предполагающей многопроцессорную обработку данных, технологии Alpha™ EV6, что обещает беспрецедентную производительность оснащенных этой шиной систем. Шина AMD Athlon построена на принципе "точка-точка", что так же способствует значительному росту производительности как для однопроцессорных, так и для много процессорных систем.
3.3 Блок операций с плавающей точкой
Athlon (Thunderbird) содержит 3 узла вычислений с плавающей точкой (fpu), любой из которых способен принимать на вход инструкции каждый такт работы процессора. При этом один узел предназначен исключительно для выполнения команды FSTORE! Назначение этого узла - обеспечивать обмен между регистрами и памятью в то время, как процессор выполняет другие инструкции. Такой подход, хотя и не повышает пиковую производительность, позволяет достичь более высокой средней производительности, что во многих случаях важнее. Остальные два fpu состоят из блока сложения (adder) и блока умножения (multiplier). Оба блока используют конвейеры (fully pipelined). Архитектура каждого fpu такова, что он может принимать на вход каждый такт одну инструкцию сложения и одну умножения, что дает пиковую производительность 1000MFLOPS при 500МГц. Ближайшим аналогом с точки зрения архитектуры является Pentium II, у которого также присутствуют adder и multiplier. Однако существуют два основных отличия. Во-первых, у PII только adder является полностью конвейеризованным (fully pipelined), multiplier же может принимать инструкцию на вход только каждый второй такт. Во-вторых, каждый узел fpu PII может принимать только одну инструкцию за такт, таким образом, пиковая производительность составляет 500MFLOPS при 500МГц. В результате возможности для вычислений с плавающей точкой у Athlon (Thunderbird) процессора выросли настолько, что ставят его в один ряд с RISC-процессорами, которыми оснащают мощные рабочие станции и серверы.
3.4 Расширенные возможности технологии 3DNow!™
Блока 3DNow! в AMD Athlon коснулись сильные изменения. Хотя его архитектура и осталась неизменной - два конвейера обрабатывают инструкции, работающие с 64-битными регистрами, в которых лежат пары вещественных чисел одинарной точности, в сам набор команд было добавлено 24 новинки. Новые операции должны не только позволить увеличить скорость обработки данных, но и позволить задействовать технологию 3DNow! в таких областях, как распознавание звука и видео, а также интернет :) Кроме этого, по аналогии с SSE были добавлены и инструкции для работы с данными, находящимися в кеше. Поддержка обновленного набора 3DNow! уже встроена в Windows 98 SE и в DirectX 6.2.
Таким образом, в набор 3DNow! входит теперь 45 команд, против 71 инструкции в SSE от Intel. Причем, судя по всему, использование новых команд должно дать еще больший эффект от 3DNow! В доказательство этого факта AMD распространила дополнительный DLL для известного теста 3DMark 99 MAX, задействующий новые возможности процессора.
Для того, чтобы усилить возможности процессоров AMD Athlon™ как в обработке трехмерной графики, так и в исполнении других мультимедийных задач, разработанный AMD пакет из 21 инструкции, улучшающий возможности набора команд x86 по использованию суперскалярной техники SIMD и известный как технология 3DNow!™, был значительно расширен. В 3DNow!™ было добавлено 24 новых инструкции - 19 для того, чтобы улучшить возможности процессора в целочисленных расчетах, в том числе и в технологии MMX и ускорения передачи данных для Internet-приложений использующих потоки данных, а так же 5 DSP-расширений для программных модемов, ADSL, Dolby Digital и приложений, использующих MP3.
Технология Enhanced 3DNow!™ против SSE - сравнение наборов команд
Исполняемые функции | Enhanced 3DNow! | SSE | Вывод |
Выполнение SIMD-вычислений с плавающей точкой (впервые предложено AMD) | 21 (число инструкций в первоначальном варианте технологии 3DNow!) | ~52 | Сравнение функциональности: Обе технологии поддерживают 4 операции за такт и выполняют вплоть до 2.4 Gflops на частоте 600 MHz. Но инструкции 3DNow! проще для исполнения. SSE включает в себя намного больше инструкций, поскольку архитектура Intel's требует дублирования управляющих функций MMX, для чего необходимо исполнять две инструкции, управляющие операциями с плавающей точкой - одну для SIMD-операций и другую для скалярных операций. |
MMX (целочисленные вычисления),сложение и перемещение данных | 19 (Новые инструкции) | 19 | Сравнимое функциональное назначение: обе технологии имеют инструкции для работы с кэшем и потоковыми данными. |
DSP-расширения для коммуникаций | 5 (новые инструкции) | 0 | Оригинальная методика AMD: Компания AMD приспосабливает SIMD-операции для решения задач DSP - программных модемов, программной реализации ADSL, MP3 и Dolby Digital. |
Общее число инструкций | 45 | 71 | Преимущество AMD: Расширенный набор 3DNow! имеет больше функциональных возможностей, нежели SSE. Усовершенствованная технология 3DNow! плюс превосходный блок для операций с плавающей точкой процессора AMD Athlon дают наивысшую производительность в операциях с плавающей точкой среди x86-совместимых процессоров! |
3.5 Архитектура кэша
Что касается кеша L1 в AMD Athlon, то его размер 128 Кбайт превосходит размер L1 кеша в Intel Pentium III аж в 4 раза, не только подкрепляя высокую производительность Athlon, но и обеспечивая его эффективную работу на высоких частотах. В частности, одна из проблем используемой Intel архитектуры Katmai, которая, похоже, уже не позволяет наращивать быстродействие простым увеличением тактовой частоты, как раз заключается в малом объеме L1 кеша, который начинает захлебываться при частотах, приближающихся к гигагерцу. AMD Athlon лишен этого недостатка.
Что же касается кеша L2, то и тут AMD оказалось на высоте. Во-первых, интегрированный в ядро tag для L2-кеша поддерживает его размеры от 512 Кбайт до 16 Мбайт. Pentium III, как известно, имеет внешнюю Tag-RAM, подерживающую только 512-килобайтный кеш второго уровня. К тому же, Athlon может использовать различные делители для скорости L2-кеша: 1:1, 1:2, 2:3 и 1:3. Такое разнообразие делителей позволяет AMD не зависеть от поставщиков SRAM определенной скорости, особенно при выпуске более быстрых моделей.
AMD Athlon (Thunderbird) располагает самым большим среди x86-совместимых процессоров объемом кэша первого уровня (128КB). Кроме того, AMD Athlon (Thunderbird) оснащен высокоскоростным 64-разрядным кэш-контроллером для управления кэш-памятью второго уровня, объем которой может составлять от стандартных 256KB до почти фантастических 8MB. Эта разработка позволяет эффективно управлять системной шиной, а так же позволяет обходить узкие места в полосе пропускания.