Напомним, что идея "вертушки Флинна" заключается в организации мультипроцессора как нелинейной системы, состоящей из группы процессоров команд (ПрК), каждый из которых "ведет" свой поток команд, и общего для всех ПрК набора арифметических устройств, циклически подключаемых к каждому из ПрК для выполнения их команд. Нетрудно заметить, что эффект "вертушки Флинна" состоит в сокращении объема, занимаемого арифметическими устройствами в многопроцессорной системе, поскольку на "арифметику" может приходиться до 60% аппаратных ресурсов центрального процессора.
На первый взгляд структура HEP-1 практически не отличается от классической "вертушки Флинна" - такой же циклический запуск команд, принадлежащих разным процессам, и те же общие для множества процессов арифметические устройства. Однако на входе исполнительных устройств переключаются не процессоры команд, а процессы с помощью специального механизма выборки, сохранения и восстановления слов состояния каждого исполняемого процесса. Во-вторых, в HEP-1 применяются конвейерные исполнительные устройства, что позволяет арифметическим устройствам обрабатывать существенно больше операций, чем прототипам мэйнфреймов. Казалось бы, наконец найдено решение, объединяющее достоинства MIMD- архитектуры и конвейерной обработки данных (отсюда название "MIMD-конвейеризация") и к тому же исключающее основной недостаток MIMD-структуры - наличие сетевого коммутатора процессоров. Однако после довольно успешных тестов суперЭВМ HEP-1 и одобрительных отзывов аналитиков запущенный в производство проект следующей подобной машины HEP-2 был закрыт по причине отсутствия заказов. Подобно множеству других проектов создания суперкомпьютеров с MIMD- архитектурой, программа HEP не получила одобрения пользователей из-за недостатков системного ПО. Дело в том, что в отличие от векторных суперкомпьютеров, которые успешно справляются с задачами, представленными на стандартных языках последовательного типа, для эффективного программирования MIMD-систем потребовалось введение в обиход совершенно новых языков параллельного программирования.
Если проектировщикам суперкомпьютеров класса MIMD удастся разрешить проблемы системного ПО, доступных языков параллельного программирования, а также компиляторов для этих языков, то в развитии вычислительной техники надо ожидать весьма крутого и драматического поворота событий.
После коммерческого успеха моделей CRAY X-MP фирма Cray Research выпустила модифицированное семейство суперкомпьютеров CRAY Y-MP, обладающих большим числом процессоров (до восьми) и пониженной длительностью машинного цикла (6 нс). Старшая модель этого семейства CRAY Y-MP/832 имела пиковую производительность 2666 MFLOPS и занимала двенадцатую позицию в рейтинге Дж. Донгарра по результатам тестирования на пакете LINPACK.
Первые же пять позиций принадлежали представителям CRA Y-MP C90, старшая модель которого - 16-процессорная машина CRAY Y-MP C90/16256 - имела оперативную память емкостью 2 Гбайт и могла демонстрировать производительность на уровне 16 GFLOPS. Все 16 процессоров и оперативная память этого компьютера размещались в одной стойке весьма скромных размеров: 2,95x2,57x2,17 м3. Подсистема ввода/вывода CRAY Y-MP C90 имела до 256 каналов с общей пропускной способностью 13,6 Гбайт/с, встроенный кремниевый диск емкостью 16 Гбайт и поддерживала дисковую память общей емкостью до 4 Тбайт. "Суперпараметры" модели CRAY Y-MP C90 эффектно дополняются развитым программным обеспечением, центральным ядром которого являются компиляторы CF77 Fortran, Cray Standard C Compiler, Cray ADA и Pascal.
Примерно в это время Сеймур Крей оставляет основанную им фирму Cray Research и создает новую компанию Cray Computer в целях разработки суперкомпьютеров нового поколения CRAY-3 и CRAY- 4. Причинами этого шага стали два обстоятельства: во-первых, руководство Cray Research не хотело подвергать фирму финансовому и моральному риску в случае неудачи новых проектов, а во-вторых, сам Крей предпочел заниматься пионерскими разработками, оставив для Cray Research задачу закрепления рыночного успеха уже созданных продуктов. В результате, освободившись от бремени проектирования CRAY-3 и CRAY-4, его прежнее детище сосредоточилось на "шлифовке" аппаратного и программного обеспечения семейства CRAY Y-MP, а новое занялось поиском технических решений, позволяющих кардинально повысить производительность векторно-конвейерной обработки. Дело в том, что в конце 80-х годов Крей сумел предугадать ситуацию, которая сложилась в области векторных суперкомпьютеров к середине 90-х: архитектурные и программные возможности увеличения производительности за счет многопроцессорной обработки и совершенствования операционных систем и компиляторов для суперЭВМ этого класса оказались практически исчерпаны, а их традиционная элементная база - ECL и BiCMOS БИС со степенью интеграции порядка 10 тыс. вентилей на кристалл - не позволяет преодолеть порог длительности машинного цикла в 2-3 нс. В основу проекта CRAY-3 была заложена идея перехода на принципиально новую элементную базу - БИС на основе арсенида галлия, которая теоретически позволяет обеспечить субнаносекундную продолжительность машинного цикла. Затея казалась весьма рискованной, тем более что в конце 80-х годов в мире не существовало промышленно освоенной технологии для производства подобной элементной базы. Во всяком случае проект CRAY-3 "затормозился" именно из-за неудовлетворительного состояния технологии разработки и производства GaAs-микросхем, а также сборки из них отдельных модулей. Тем не менее после примерно пяти лет работы над проектом CRAY-3 "вышел в свет" и сразу оказался в тройке рекордсменов производительности, обогнав все конкурирующие суперкомпьютеры по тактовой частоте.
Примерно в середине 90-х годов сумашедший темп развития суперкомпьютеров был потерян. В качестве основных причин следует привести следующие : огромный спад государственной поддержки программы развития суперЭВМ, как результат прекращения ‘холодной войны’, плюс отсутствия рынка сбыта супермашин, что объясняется наличием вполне подходящих мини-суперЭВМ гораздо более дешевых и доступных. Большинство производителей стараются переориентироваться на создании архитектур с массовым параллелизмом (MPP).
1994г. Компания Cray Computer сообщила о выпуске в первой половине следующего года суперкомпьютера Cray-4 в четырех- и восьмипроцессорных конфигурациях. Фирма NEC представила на американском рынке свой суперкомпьютер SX-4, поставки которого начнутся в 1995 г. Выпуск массово-параллельного компьютера NCube 3, продемонстрированного компанией NCube и ориентированного на научный рынок, намечен на II квартал будущего года.
1995г. Пожалуй, самым впечатляющим событием стал крахфирмы Cray Computer. Эти новости мало для кого оказались сюрпризом: не составляло тайны существование многочисленных долгов, накопившихся в результате того, что Cray Computer не смогла продать ни одного компьютера Cray-3 за два года, прошедших со дня представления системы.
Примерно в это же время Cray Research объявила о выпуске новой серии суперкомпьютеров CRAY T90, в которых впервые отсутствуют кабельные соединения. В этих системах, получивших на стадии разработки название Triton, количество процессоров варьировалось от 1 до 32, а максимальная производительность достигала 60 млрд. операций в секунду. По сравнению с 16-процессорными компьютерами CRAY C90, быстродействие которых достигает 16 Гфлопс, новые машины имеют в 3-5 раз лучшее соотношение производительность/стоимость.
В Японии же, Fujitsu представляет два векторных параллельных суперкомпьютера на базе КМОП-технологии : VX и VPP оснащены запатентованными БИС на КМОП-структурах, объемом памяти 8 Гбайт для модели VX и 32 Гбайт - для VPP300. При максимальной конфигурации (16 процессоров) производительность VPP300 составляет 35,2 Гфлопс, а модели VX при четырех процессорах - 8,8 Гфлопс.
Компания Parsytec Computer GmbH продемонстрировала первую систему с массовым параллелизмом GC/Power Plus на базе RISC- процессоров PowerPC 601. Количество процессорных элементов в GC/Power Plus может меняться от 32 до 1024, при этом производительность составляет от 2,5 до 80 GFLOPS
В 1996 г. Cray начинает коммерческий выпуск новой модели масштабируемых суперкомпьютеров CRAY T3E с пиковой производительностью 1,2 TFLOPS. Основная характеристика, на которой акцентировали внимание разработчики, - масштабируемость, не имеющая аналогов в истории суперкомпьютеров. Минимальная конфигурация, содержащая восемь микропроцессоров, допускает увеличение их количества в 256 раз.Увеличение производительности может быть также достигнуто кластеризацией систем.
Тем не менее, проектирование MIMD машин по-прежнему в большей степени являлось искусством, правда следует отметить явное движение в это области. Так, MIMD-суперкомпьютеру Paragon с распределенной памятью, разработанному Intel, удалось выжить и вполне успешно существовать (построен на коммерческих микропроцессорах от Intel ) : с быстродействием 140 Гфлопс установлен в лаборатории Sandia и 150 Гфлопс установлен в Oak Ridge National Lab.Еще одним примером может служить система HP Exemplar SPP1600, которая была построена на микропроцессорах RISC PA-7200 и основана на архитектурном принципе MIMD с разделением памяти.
Fujitsu выпусакет семейство суперкомпьютеров VPP700 Series. Их конфигурация может наращиваться от базовой, включающей 8 процессорных блоков, до 256- процессорной с совокупной производительностью в 500 Гфлопс. IBM продолжает развивать свое семейство RS/6000 Scalable Powerparallel (SP). Она строит свой самый мощный параллельный компьютер с 472 процессорами и максимальной производительностью в 200 Гфлопс (превоначально планировалось, что в восьми корпусах разместятся 512 узлов, а общее число процессоров достигнет 4096).