Гетерогенная вычислительная система

- ввод специализированного вычислительного ресурса позволяет принципиально поднять производительность системы
- поддержка стандарта OpenCL и языка программирования Си
- синтез решения на ПЛИС под задачу

В современных вычислительных приложениях для достижения максимального быстродействия различные типы задач выполняются на различных типах вычислителях. Например, задачи управления, распределения ресурсов, планирования процессов выносятся на ЦП, а ресурсоемкие задачи вычислений или алгоритмические задачи выносятся на специализированный вычислительный ресурс – ускоритель или акселератор. Такой подход, практически позволяет принципиально поднять производительность системы, без существенного увеличения стоимости, размеров и потребления вычислительной системы.

Применение ПЛИС (Перепрограммируемая интегральная схема) в ускорительной аппаратуре широкого использования является новым подходом в развитии гетерогенных вычислительных систем, благодаря развитию инструментальных средств разработки. ПЛИС или FPGA представляет собой кристалл со множеством синтезируемых или встроенных схемотехнических элементов (современная ПЛИС содержит массив миллионов логических элементов и матрицу коммутационных связей между ними, сотни встроенных блоков памяти, тысячи блоков цифровой обработки DSP, десятки трансиверных или интерфейсных блоков).

Коммутационные связи между элементами устанавливаются при помощи конфигурационного файла, записываемого в ПЛИС. Таким образом, изменение конфигурационного файла приводит к модификации цифрового устройства, реализованного на кристалле ПЛИС. В отличие от базового матричного кристалла, где соединение элементов между собой осуществляется технологически, соединения элементов в ПЛИС могут многократно перепрограммироваться, что позволяет реконфигурировать функционал устройства.

Перепрограммируемая интегральная схема имеет такую же гибкость в разработке, как и программное обеспечение, но при этом не ограничена физически преопределенной архитектурой процессора. Благодаря особенностям самой архитектуры (массивно-параллельная мелкогранулярная архитектура) обеспечивается вариативность грануляции параллелизма, что позволяет реализовать массивный параллелизм на всех уровнях включая мельчайшие операции.

Стандарт гетерогенного программирования OpenCL позволяет прикладному программисту сравнительно легко строить высокопараллельные вычислительные системы на уровне алгоритмического языка программирования и не углубляясь в особенности архитектуры. Программная модель OpenCL позволяет программисту описывать функции, которые будут параллельно выполнены на некотором акселераторе. GKBC

Отличительной особенностью реализации программы под стандартом OpenCL для ПЛИС является то, что результатом программирования становится не последовательность машинных команд, а схемотехническая реализация (синтез) специализированного процессора под заданную задачу.

ДЛЯ ВСТРАИВАЕМЫХ СИСТЕМ
Малогабаритный SoM модуль EULER EMBEDDED (микро-одноплатный компьютер) на базе Altera SOC CycloneV SE.

Altera SOC CycloneV SE - это процессорная система ARM Cortex-A9 (HPS) и массив логики FPGA CycloneV (28nm) в одном корпусе.

HPS system:
  • CPU: 800-MHz, dual-core ARM® Cortex™-A9 MPCore™ processor
  • SD/SDIO/MMC controller with DMA
  • 2x 10/100/1000 Ethernet media access control (MAC) with DMA
  • 2x USB On-The-Go (OTG) controller with DMA
  • 2x I2C controller
  • 2x UART
  • 2x serial peripheral interface (SPI)
  • Up to 134 general-purpose I/O (GPIO)
  • 7x general-purpose timers
  • 4x watchdog timers
FPGA system:
  • LEs(K): 25 - 110
  • ALMs: 9,434 - 41,509
  • M10K memory blocks: 140 - 514
  • M10K memory (Kb): 1,400 - 5,140
  • MLABs (Kb): 138 - 621
  • 18-bit x 19-bit multipliers: 72 - 224
SDRAM MEMORY:
  • DDR3-400MHz 256MB / 512MB / 1GB
FLASH:
  • NAND FLASH 128MB / 256MB / 512MB
  • QSPI FLASH 8MB / 16MB / 32MB
Размеры модуля:
  • 54 x 44мм
Базовая программная поддержка:
  • Модули поставляются с предустановленным firmware, включающим в себя U-BOOT, Linux kernel, rootfs image.
Дополнительная прогаммная поддержка:
  • Пакет пакет поддержки платы OpenCL BSB
ОБУЧАЮЩАЯ ПЛАТФОРМА OPENCL
Euler Tread в форм-факторе Full-Size PCIe с поддержкой Windows/Linux OpenCL BSP

  • Форм-фактор карта PCIe full-size
  • До 1.5 TFLOPS вычислительной мощности на ускоритель
  • Поддержка стандарта OpenCL – OC Linux и Windows, поддержка Host-channels
  • 1.115 млн. логических элементов и 42Мбит кэш памяти (на ускоритель)
  • 3300 блоков ЦОС с поддержкой FPU (IEE754) (на ускоритель)
  • Выбор памяти: DDR3 /DDR4 (2ГБ) – QDR4 (144Мбит) – RLDRAM3 (128МБ)
  • Сетевые интерфейсы Ethernet: 1GE – 10GE - 40GE
  • Интерфейс с хостом: PCIe Gen 3.0 x 8 lanes
  • Возможность расширения интерфейсов и подключения устройств через порты FMC
  • Потребление максимальное до 75 Вт на ускоритель
СЕТЕВАЯ ТЕЛЕКОМ/ДАТАЦЕНТР ПЛАТФОРМА
Euler Line NET - реконфигурируемые 1.5TFLOPS в форм-факторе Half-Size PCIe c сетевыми интерфейсами 2х10GE

  • До 1.5 TFLOPS вычислительной мощности на ускоритель
  • 1.115 млн. логических элементов и 42Мбит кэш памяти
  • 3300 блоков DSP с поддержкой FPU (IEE754)
  • Выбор памяти: DDR4 (до 16ГБ), QDR4 (до 144Мбит)
  • Интерфейсы Ethernet: 1GE, 2x10GE
  • Интерфейс с хостом: PCIe Gen 3.0 x 8 lanes
  • Потребление (типовое ) 30-40 Вт
  • OpenCL BSP (HPC)
ВЫЧИСЛИТЕЛЬНАЯ ТЕЛЕКОМ/ ДАТАЦЕНТР ПЛАТФОРМА
Euler Line HPC - реконфигурируемые 1.5TFLOPS в форм-факторе Half-Size PCIe c двумя независимыми банками (контроллерами) DDR4

  • До 1.5 TFLOPS вычислительной мощности на ускоритель
  • 1.115 млн. логических элементов и 42Мбит кэш памяти
  • 3300 блоков DSP с поддержкой FPU (IEE754)
  • Память 32ГБ: 2 независимых банка DDR4 ( каждый банк по 16ГБ)
  • Интерфейсы Ethernet: NA
  • Интерфейс с хостом: PCIe Gen 3.0 x 8 lanes
  • Потребление (типовое ) 30-40 Вт
  • OpenCL BSP (HPC)
ПЛАТФОРМА ЭМУЛЯЦИИ ASIC
EulerProject SG 280 FPGA KUB
Модуль прототипирования и эмуляции ASIC на базе IntelFPGA Stratix-10
Продукт в стадии производственного запуска.
Спецификация на страничке продукта.
ВИДЕОАНАЛИТИКА И МАШИННОЕ ЗРЕНИЕ

Euler Machine Vision Video-kit

  • INTEL CYCLONE-V SOC SOM ON-SEMI VITA 1300 Video-Sensor
  • OPEN-CL BSP VIDEO CAMERALINK
  • PREINSTALLED FIRMWARE (U-BOOT, LINUX KERNEL, ROOTFS IMAGE), OPENCL BSP SUPPORT
  • Пример работы в исходном коде: OpticalFlow OpenCL, детектирование движения методом расчета оптического потока Люкаса-Канаде, разрешение до HD SDI, скорость 50fps
  • Находится в разработке: Сверточная нейросеть CNN с адаптивными фильтрами
ПОРТАТИВНАЯ ВЫЧИСЛИТЕЛЬНАЯ СТАНЦИЯ OpenCL

  • Моноблок c сенсорным дисплеем
  • Материнская плата на базе процессора AMD
  • Ускорительный модуль EulerLine Network или EulerLine HPC
  • Программная поддержка: OpenCL BSP HPC
  • До 1.5 TFLOPS вычислительной мощности на ускоритель
  • 1.115 млн. логических элементов и 42Мбит кэш памяти (на ускоритель)
  • 3300 блоков DSP с поддержкой FPU (IEE754) (на ускоритель)
  • Выбор памяти: DDR4 (16ГБ+), QDR4 (144Мбит+), RLDRAM3
  • Интерфейсы Ethernet: 1GE, 2x10GE
  • Интерфейс с хостом: PCIe Gen 3.0 8 lanes
  • Потребление (типовое ) 30 Вт
Универсальные, реконфигурируемые ускорители на ультрасовременных ПЛИС IntelFPGA содействует развитию современной аппаратуры параллельной обработки данных, а также содействие накоплению стратегического запаса вычислительной мощности страны
Универсальные, реконфигурируемые ускорители на ультрасовременных ПЛИС IntelFPGA содействует развитию современной аппаратуры параллельной обработки данных, а также содействие накоплению стратегического запаса вычислительной мощности страны.

Сравнительные характеристики

EULER EMBEDDED SOM EULER TREAD EULER LINE NET 2x10GE EULER LINE HPC 2xDDR4E
ОС Linux Windows Linux Linux
Блоки DSP (FPU support) до 112 1518 (FPU IEE754) 1518 (FPU IEE754) 1518 (FPU IEE754)
Внутренняя память (кэш) Мбит, M2K+MLAB 5,1 54+12 54+12 54+12
Возможность расширения интерфейсов и подключения устройств через порты CameraLink, Ethernet, DVI, USB, SD/MMC, CAN, FMC, I2C, UART 2xFMC, QDR, RLDRAM QDR4 (до 144Мбит) не предусмотрено
Выбор памяти DDR3-400MHz 256МВ / 512МВ / 1GB
NAND FLASH: 128МВ / 256МВ / 512МВ QSPl
QSPI FLASH: 8МВ / 16МВ / 32МВ
DDR3 /DDR4 (2ГБ)
QDR4 (144Мбит)
RLDRAM3 (128МБ)
DDR3 SODIMM до (16ГБ)
QDR4 (144Мбит)
Два независимых банка DDR4 SODIMM по 16ГБ каждый
Вычислительная мощность TFLOPS до 1.5 до 1.5 до 1.5
Интерфейс с хостом Embedded HW dual ARM Cortex-A9 PCIe Gen 2.0, 3.0 x 8 PCIe Gen 2.0, 3.0 x 8 PCIe Gen 2.0, 3.0 x 8 Механический PCIe x 16
Интерфейсы Ethernet 1GE 1GE, 10GE, 40GE 1GE и 2x10GE не предусмотрено
Логическая емкость, Logic elemens 25, 40, 85, 115 тыс ЛЭ 1.115 тыс ЛЭ до 1.115 тыс ЛЭ до 1.115 тыс ЛЭ
Поддержка стандарта OpenCL Да Да Да Да
Потребление до Вт на ускоритель 3 до 75 до 50 TBD
EULER EMBEDDED SOM EULER TREAD EULER LINE NET 2x10GE EULER LINE NET HPC 2xDDR4
ОС
Linux Windows Linux Linux
Блоки DSP (FPU support)
до 112 1518 (FPU IEE754) 1518 (FPU IEE754) 1518 (FPU IEE754)
Внутренняя память (кэш) Мбит, M2K+MLAB
5,1 54+12 54+12 54+12
Возможность расширения интерфейсов и подключения устройств через порты
CameraLink, Ethernet, DVI, USB, SD/MMC, CAN, FMC, I2C, UART 2xFMC, QDR, RLDRAM QDR4 (до 144Мбит) не предусмотрено
Выбор памяти
DDR3-400MHz 256МВ / 512МВ / 1GB
NAND FLASH: 128МВ / 256МВ / 512МВ QSPl
QSPI FLASH: 8МВ / 16МВ / 32МВ
DDR3 /DDR4 (2ГБ)
QDR4 (144Мбит)
RLDRAM3 (128МБ)
DDR3 SODIMM до (16ГБ)
QDR4 (144Мбит)
Два независимых банка DDR4 SODIMM по 16ГБ каждый
Вычислительная мощность TFLOPS
до 1.5 до 1.5 до 1.5
Интерфейс с хостом
Embedded HW dual ARM Cortex-A9 PCIe Gen 2.0, 3.0 x 8 PCIe Gen 2.0, 3.0 x 8 PCIe Gen 2.0, 3.0 x 8 Механический PCIe x 16
Интерфейсы Ethernet
1GE 1GE, 10GE, 40GE 1GE и 2x10GE не предусмотрено
Логическая емкость, Logic elemens
25, 40, 85, 115 тыс ЛЭ 1.115 тыс ЛЭ 1.115 тыс ЛЭ 1.115 тыс ЛЭ
Поддержка стандарта OpenCL
Да Да Да Да
Потребление до Вт на ускоритель
3 до 75 до 50 TBD

Комплект поставки

  • Плата ускорителя (IntelFPGA Arria-10 GX115, 20нм) или сервер SuperMicro, Dell, HP c пре-интегрированным ускорителем (ускорителями)
  • Пакет поддержки платы под OC Windows, Linux CentOS, Redhut OS
  • Возможность использования IP блоков сетевых интерфейсов 10GE/40GE
  • Лицензия на ПО Altera Quartus Prime Pro и OpenCL SDK на 60 дней (по умолчанию)
  • Возможность бесплатного продления лицензии ПО Altera Quartus и OpenCL SDK до 180 дней
  • Возможность покупки лицензии ПО Altera Quartus и OpenCL SDK со скидкой до 50% от рекомендованной цены продажи
  • Возможность использования серверов EulerProject для компиляции проектов (не требуется закупка ПО)
  • Обучающий курс программированию OpenCL
  • Содействие в переводе проектов на платформу EulerProject
  • Бесплатное участие в технических семинарах по механизмам оптимизации (работа с памятью, конвейер, single kernel, работа с channels итд.)
  • Техническая поддержка специалистов
  • Смотрите также: Алмаз-СП

    Связь с нами

    АО «Алмаз-СП»
    127025, Москва, ул.Образцова, д.7, строение 2
    +7 (495) 221-69-21