Производительность бета-версии на платформе IA64

Мы провели сравнения бета версии Автоматического Распараллеливателя с наиболее эффективным компилятором для платформы IA64 - icc 11.0.074, а также с самым распространненым компилятором gcc версии 4.3.1, который также используется Автоматическим Распараллеливателем. Сравнения производились на 6 задачах из пакета SPEC/CPU2006 и на 6 задачах из пакета NAS Parallel Benchmarks 3.3. Для замеров мы использовали машину:
4 x Intel Itanium2 1.0Ghz with 3Gb memory onboard

Флаги компиляции:

icc icc -O2 -ipo -no-prec-div
icc + parallel icc -O2 -parallel -ipo -no-prec-div
gcc gcc -O2
utl [смотри ниже]

Замеры на задачах из пакета SPEC/CPU2006

Опции utl, которые использовались для компиляции задач из пакета SPEC/CPU2006:

410.bwaves -Ws,--alias-fortran -Ws,--strict-types
436.cactusADM -Ws,--alias-fortran -Ws,--strict-types для фортрановской части
437.leslie3d -Ws,--alias-fortran -Ws,--strict-types
459.GemsFDT -Ws,--inter-module -Ws,--alias-fortran -Ws,--strict-types
462.libquantum -Ws,--inter-module -Ws,--pto-wilson
470.lbm -Ws,--inter-module -Ws,--pto-wilson

Ниже приведены результаты сравнения. Сначала в виде диаграмы, затем в виде таблицы с результатами замеров.

Performance
Performance

Замеры на задачах из пакета NAS Parallel Benchmarks

Опции utl, которые использовались для компиляции задач из пакета NAS Parallel Benchmarks:

BT -Ws,--strict-types -Ws,--alias-fortran -Ws,--opt-force -Ws,--inter-module -Ws,--inline -Ws,--localize -Ws,--lowerscope
CG -Ws,--alias-fortran -Ws,--inter-module -Ws,--inline
EP -Ws,--strict-types -Ws,--alias-fortran -Ws,--inter-module -Ws,--inline -Ws,--lowerscope
MG -Ws,--strict-types -Ws,--alias-fortran -Ws,--inter-module -Ws,--inline
SP -Ws,--strict-types -Ws,--alias-fortran -Ws,--inter-module -Ws,--inline -Ws,--localize -Ws,--lowerscope -Ws,--inline
UA -Ws,--strict-types -Ws,--alias-fortran -Ws,--inter-module -Ws,--inline

Ниже приведены результаты сравнения. Сначала в виде диаграмы, затем в виде таблицы с результатами замеров.

Performance
Performance

* - задачи MG и CG измерялись на входных данных класса B. Это было сделано, чтобы уменьшить погрешность изменения, так как на данных классе A эти задачи работают крайне бысто.
Все остальные задачи измерялись на входных данных класса A.

Результаты рамеров на большой машине

Кроме того, нам удалось осуществить замеры производительности автоматического распараллеливателя на машине Bull NovaScale 5325 со следующими характеристиками:
32 x dual-core Intel Itanium2 1.6Ghz with 256Gb memory onboard

Замеры на задачах из пакета SPEC/CPU2006

Ниже приведены результаты сравнения. Сначала в виде диаграмы, затем в виде таблицы с результатами замеров.

Performance
Performance

Замеры на задачах из пакета NAS Parallel Benchmarks

Ниже приведены результаты сравнения. Сначала в виде диаграмы, затем в виде таблицы с результатами замеров.

Performance
Performance

* - задачи MG и CG измерялись на входных данных класса B. Это было сделано, чтобы уменьшить погрешность изменения, так как на данных классе A эти задачи работают крайне бысто.
Все остальные задачи измерялись на входных данных класса A.