Ускорение ресурсоемкой обработки данных
Your Algorithm In Silicon

Использование передовой реконфигурируемой аппаратуры массивно-параллельной архитектуры intelfpga для ускорения ресурсоемкой обработки данных.
Синтез собственной системы на кристалле для каждой конкретной ускорительной функции – максимальная аппаратная производительность и минимальное потребление.
Обучение

Ускорение ресурсоемкой обработки данных

Область успешных применений платформы: Облачные вычисления и разгрузка центрального процессора в центрах обработки данных, ускорение параллельных вычислений и обработки больших данных, машинное обучение и нейронные сети, системы хранения и архивации данных, системы связи и телекоммуникаций, DPI, VPN туннелирование, системы безопасности и DDoS защиты, финансовые расчеты и анализ, высокочастотный трейдинг, HFT цифровая обработка сигналов, видео и изображений итд.

Известные мировые примеры применения FPGA является ускорение облачных сервисов Azure компанией Microsoft, ускорение обработки интернет запросов компанией Bing, выполнение финансовых прогнозов компанией JP Morgan, вычислительный центр в Израиле Novo-G, вычислительный центр в Техасе TACC, облачные сервисы Amazon, Baidu и Huaiwei итд итп.

Сжатие данных GZIP (EulerLine)
GZIP-EulerLine

Сжатие и восстановление данных алгоритмом Gzip.

Использование FPGA-ускорителя для сжатия и восстановления данных значительно повышает пропускную способность и производительность системы, по сравнению с производительным процессором.

EulerProject предлагает ускоритель EulerLine c подготовленной реализацией GZIP для использования в ЦОДе, например для целей компрессии огромных log файлов.

Полностью аппаратное stand-alone решение, полная разгрузка серверного CPU.

Пропускная способность компрессии текстовой информации 1.5ГБ в сек (пиковая до 2.8ГБ в сек), что примерно в 10x раз выше мощного процессора Intel.

Встраиваемые решения (Embedded)

Наличие встроенной аппаратной двуядерной процессорной системы ARM Cortex A9 и массива ПЛИС 28нм на одном кристалле, полная поддержка средой разработки и законченный маршрут проектирования и отладки, позволяют создавать передовые гетерогенные встраиваемые вычислительные системы и удовлетворять требованиям высокопроизводительных и специализированных приложений.

Благодаря таким версиям системы на кристалле SOC FPGA (system-on-chip), на одной микросхеме можно реализовать и процессор, выполняющим команды и функции управления, и параллельную ресурсоемкую обработку данных.

Решение EulerProject Embedded SOM на SOC FPGA, пожалуй, единственное в мире, имеет поддержку стандарта OpenCL, что позволяет абстрагироваться от трудоемкого маршрута проектирования ПЛИС и специфичных языков описания аппаратуры.

Таким образом, благодаря пакету поддержки платы OpenCL BSP от EulerProject построение собственной высокопроизводительной системы-на-кристалле для встраиваемой вычислительной системы доступно любому программисту Си.

Дополнительно предлагаются, специализированные видео модули (VIP suite Altera), облегчающие конструирование передовых систем видеонаблюдения и видео-аналитики.

Один из реализованных примеров для целей встроенной видеоаналитики - детектирование движения методом оптического потока Люкаса-Канаде. Маршрут проектирования OpenCL. Производительность модуля EulerEmbeddedSOM - 50fps на видеопотоке HD разрешения.

Нейронные сети, машинное обучение и видеоаналитика

Глубокое обучение (Deep Learning), машинное обучение (Machine Learning), интенсивно использующие вычислительные ресурсы, находятся на переднем крае инженерных исследований

Российский коллектив EulerProject разработал собственную платформу "Эйлер" в форм-факторе PCIe (halfsize) ускорения нейросетевой видеоаналитики на базе современной ПЛИС IntelFPGA 20нм с поддержкой OpenVINO toolkit.

Доступна поддержка ускорения следующих видеофункций:

  • Generic Age & Gender Recognition 
  • Camera Tampering Detection 
  • Generic Face Detection 
  • Face Detection for Retail 
  • Person Detection for Retail 
  • Face Detection for Automotive
  • Person, Vehicle & Bike Detection
  • Vehicle License Plate Detection 
  • License Plate Recognition
  • Age & Gender Recognition for Retail
  • Vehicle Attributes Recognition
  • Head Pose Estimation for Automotive
  • Semantic Segmentation
  • Road Segmentation
  • Person Attributes 
  • Person Re-identification
  • Pedestrian Detection
  • Pedestrian & Vehicle Detection
  • Emotions Recognition

Подробно: Euler OpenVino

Ускорение обработки баз данных noSQL,
Low Latency Key-Value Search

Ускорение поиcка ключ-значение Low Latency Key-Value Search

  • Обработка SIM таблиц
  • Ускорение обработки адресации IPv4 и IPv6
  • NoSQL ускорение обработки БД
  • Поиск кортеджей N-Tuple lookups и Pattern matching
  • Пользовательские и прочие индитификаторы (UID, ID, SSN, logins)
  • Поиск по ключевой фразе

KVS Search Rate - до 70 MSPS (млн поисков в сек) для ускорителя EulerLine NET c 2 SFP+ портами, при параметрах:

  • Емкость записей таблицы: 48K – размещение в быстрой внутр. памяти и 12M записей в внешней DDR
  • Размер строки: 96 bits (12 Bytes) и тд
  • Latency: до 500 ns (~88x снижение по сравнению с обработкой на сокете)
  • Пропускная способность 10GE (с возможностью перехода на 40GE)
  • Потребление - 0.52 мкДж/message (~21x снижение по сравнению с сокетом)
  • Рост производительности 100x до 1000x (по сравнению с ЦП
Ускорение обработки и классификации сетевого трафика, DPI, DDOS, Smart-NIC

Плата PCI EulerLine (ссылка) устанавливается в «разрыв» и осуществляет мониторинг всех пакетов по заданному набору правил, проходящих через ускоритель без задержки трафика на потоках 10GE, 40GE, 100GE.

Потоки, которым мы доверяем, либо решение по ним уже находится в таблице по FPGA, проходят насквозь чипа с небольшой задержкой, остальные копируются на CPU и там делается обработка. FPGA может снимать часть нагрузки с CPU и искать подозрительные сигнатуры у себя, например, по заданным правилам или алгоритму. На процессоре обрабатывается только тот трафик, который интересен — FPGA отбирает по заданным критериям пакеты (например, HTTP-запросы или SIP трафик) и копирует их на CPU, всё остальное (торренты, видео и пр.) проходят через FPGA без значительной задержки. Все эти три варианта могут быть скомбинированы в различных вариациях.

Основные сферы применений для сферы телекоммуникаций, ЦОД

  • Ускорение сетевых маршрутизаторов: DPI анализ и DDOS защита (10-100Гбит), сетевая карта с аналитикой (SmartNIC, DPI): 2M правил, строка 16-640 бит.
  • Ускорение обработки данных: Анализ транзакций и данных: до одновременных 150 млн. сравнений (строка 16-640 бит) на потоке до 100Гбит сек.
  • Прочие применения: Шифрование каналов связи 10-100ГБ, Архивация данных GZIP, Поиск данных по Фильтру Блума, ускорение SQL запросов, Восстановление (подбор) пароля.
  • Аппаратная ускорительная платформа: Вычислительные и телекоммуникационные ускорители Алмаз-СП в форм-факторе PCIe (full-size, half-size).
  • Встраиваемое аппаратное ускорительные ядра Exact Match Search Engine и Access Control List Search.
  • Вычислительная система: Гетерогенная: host - x86, PCIe ускоритель. Программирование ускорителя: baremetalHDL или под стандартом OpenCL.
  • Предполагаемая бизнес-модель кооперации: EulerProject - разработка и производство ускорительной аппаратуры, написание пакетов поддержки платы BSP OpenCL и интеграция IP ядер Exact Match Search Engine и Access Control List Search.

Системы DPI

Системы DPI предназначены для глубокого анализа трафика.

Основное преимущество глубокого анализа – выявление большего числа угроз, причем не только по явным признакам (традиционный подход определения угроз по заголовкам), но так же и по сомнительному содержанию внутри пакетов.

Потенциальные потребители DPI-систем

провайдеры мобильного и фиксированного широкополосного доступа, которые при помощи данных систем решают следующие задачи:

  • анализ трафика в сети оператора на принадлежность к определенному протоколу и/или услуге;
  • учет трафика с привязкой к протоколам и услугам;
  • управление трафиком в целях оптимального использования сетевых ресурсов;
  • предоставление дополнительных услуг (VAS);
  • ограничение доступа к ресурсам по реестру Роскомнадзора, а также предоставление услуги «Чистый Интернет».

На мировом и российском рынке представлено несколько производителей данного класса систем. Основной пласт – это исключительно программные комплексы для анализа данных. Программно-аппаратные комплексы, чья аппаратная часть изначально спроектирована с учетом особенностей использования платформы и нагрузок на основные узлы, при этом показывает значительно лучшие результаты по быстродействию систем. Таким образом, для крупных и нагруженных операторов связи предпочтительно использование именно программно-аппаратных комплексов. В РФ представлено несколько разработчиков программного DPI.

Создание универсальной совместимой с ними аппаратной платформы позволит увеличить и скорость работы данных решений, и степень их доверенности. Те отечественные комплексы, которые позиционируются как российские, в качестве аппаратных платформ используют разработки иностранных компаний, с разной степенью локализации.

Внедрение ускорителя DPI EulerLine позволит в состав российского телекоммуникационного комплекса создать базовое инфраструктурное решение, которое может производиться на территории РФ. Также данное решение может быть полезно для крупных корпоративных заказчиков, имеющих свои крупные узлы сетей передачи данных в территориально распределённой структуре, особенно использующей общие каналы связи. Оптимальный путь развития: заключение партнёрских соглашений с собственниками программных решений c использованием аппаратной платформы DPI EulerProject.

Ускорение вычислений

Успешный передовой мировой опыт: Microsoft Azure, Bing, Baidu, Amazon, IBM, Intel, NYSE, NASDAQ, JP Morgan, ЦОД Huaiwei, Селектел, Яндекс.

Решения на ПЛИС IntelFPGA.

Успешные проекты FPGA

Поиск Bing оптимизировали с помощью нейросети на FPGA.

В проектировании серверной инфраструктуры для обработки поисковых запросов у каждой компании есть свои ноу-хау. Например, Microsoft в последние годы активно экспериментирует с использованием FPGA (Field-Programmable Gate Array, программируемые пользователем вентильные матрицы).

Для поисковой системы Bing инфраструктура ранжирования разделена на три части: выделение признаков (feature extraction), обработка выражений в свободной форме (free-form expressions) и вычисление результата системой машинного обучения (machine learning scoring). Если верить результатам, опубликованным в научной работе, то в стандартных тестах по классификации изображений ImageNet 1K и ImageNet 22K нейросеть от Microsoft превосходит предыдущие варианты дизайна на FPGA примерно в три раза. В этих двух тестах Catapult Server + Stratix V D5 осуществляет классификацию со скоростью 134 и 91 изображение в секунду, соответственно.

В то же время, существенно улучшены показатели в затратах джоулей на картинку, по сравнению с разными GPU, оптимизированными для этой задачи. Таким образом, серверы Microsoft смогут работать эффективнее и дешевле, чем серверы на стандартных GPU.


В течение последних нескольких лет Microsoft применяет технологии FPGA на всех серверах Azure, создавая, таким образом, реконфигуруемое облако для оптимизации разнообразного набора приложений и функций. Подобное настраиваемое облако обеспечивает более эффективное ( по сравнению с обычными процессорами) выполнение многочисленных сценариев. Сегодня Microsoft уже использует FPGA для ранжирования поиска Bing, оценки нейронной сети (DNN) и ускорения работы с сетью (SDN). Сеть на основе FPGA от Azure уменьшает задержку расчетов и передачи данных более чем в 10 раз, освобождая процессоры для других задач.

Подробно
Прототипирование

EulerProject (АО «Алмаз-СП») является официальным дистрибьютором в РФ решений proFPGA для прототипирования и эмуляции с 2019 года.

Подробно
Высокочастотный трейдинг, финансовый анализ

Высокочастотному трейдингу (HFT) уделяется большое внимание в последнее время, и он становится важнейшим игроком на финансовых рынках

Под термином HFT понимается набор техник при торговле акциями и деривативами, когда большой поток заявок отправляется на рынок с раунд-трипом меньше миллисекунды. Цель высокочастотников, это подойди к концу дня без каких-либо позиций ценных бумаг в наличии, а получать прибыль от своих стратегий покупая и продавая акции на очень высокой скорости. Исследования показывают, что HFT трейдеры держат акцию в среднем всего 22 секунды. Aite Group утверждает, что HFT оказывает существенное влияние на рынок, более чем 50% сделок по акциям в США было совершенно HFT в 2010 году, при этом рост только за 2009 год составил 70%.

HFT трейдеры используют несколько вариантов стратегий, как например — стратегия по обеспечению ликвидности, стратегия статистического арбитража и стратегия по поиску ликвидности . В стратегии по обеспечению ликвидности, высокочастотники пытаются заработать на спреде спроса-предложения(bid-ask), который отражает разницу, по которой продавцы готовы продать, а покупатели купить. Высокая волатильность и широкий bid-ask спред могут обернуться прибылью для HFT трейдера, и в то же время он становится поставщиком ликвидности и сужает bid-ask спред, как бы исполняя роль маркетмейкера. Ликвидность и маленький ask-bid спред являются важными вещами, поскольку они снижают торговые издержки и позволяют точнее определить стоимость актива. Трейдеры, которые используют арбитражные стратегии, используют корреляцию между ценами производных инструментов и их базовых активов. Стратегии по поиску ликвидности исследуют рынок в поисках крупных заявок, путем посылки небольших приказов, которые помогают обнаружить большие скрытые заявки. Все стратегии объединяет одно, для работы им требуются бескомпромиссно низкие временные задержки, поскольку только самые быстрые HFT компании в состоянии воспользоваться возникающими на рынке возможностями.

Электронная торговля акциями происходит путем посылки запросов в электронной форме на биржу. Заявки на покупку и продажу затем сопоставляются на бирже, и осуществляется сделка. Выставляемые заявки видны всем участникам торгов через так называемые фиды. Фид – это сжатый или несжатый поток данных, поставляемый в реальном времени некой независимой организацией, как например Options Price Reporting Authority (OPRA). Фид содержит финансовую информацию по акциям и передается с помощью мультикаста участникам рынка через стандартизированные протоколы, в основном через Ethernet посредством UDP. Стандартным протоколом поставки рыночных данных является Financial Information Exchange (FIX) Adapted for Streaming (FAST), который используется на большинстве бирж.

Для того чтобы добиться минимального времени задержки, HFT движок должен быть оптимизирован на всех уровнях. Для уменьшения времени задержки при передачи по сети используется collocation, когда HFT сервер устанавливается рядом со шлюзом биржи. Фид с данными должен распространятся с минимальными задержками до серверов HFT. Эффективная обработка UDP и FAST пакетов также является необходимой. И наконец, решение о создании заявки и ее передача должны осуществляется с наименьшими возможными задержками. Для достижения этих целей был разработан новый HFT движок, реализованный на плате FPGA. Благодаря использованию FPGA, появилась возможность снять нагрузку по обработке UDP и FAST с центрального процессора и перенести ее на специально оптимизированные блоки платы. В представленной системе, на аппаратном уровне реализован весь цикл обработки, за исключением принятий торговых решений, включая крайне гибкий движок с поддержкой микрокода для обработки FAST сообщений. Подход дает значительное снижение задержек более чем на 70% по сравнению с софтверными решениями и в то же время позволяет гораздо проще изменять или добавлять обработку новых протоколов, чем интегральные схемы специального назначения(Application-specific integrated circuit).

Связь с нами

АО «Алмаз-СП»
127025, Москва, ул.Образцова, д.7, строение 2
+7 (495) 221-69-21