Science & Technology - Наука и технологии :: Национальный Суперкомпьютерный Форум 2015 - дебют Больших данных

Posted: 14:38 08-12-2015
Национальный Суперкомпьютерный Форум 2015
Дебют Больших данных




В Переславле-Залесском состоялся четвертый Национальный Суперкомпьютерный Форум, организованный Институтом программных систем РАН. Это место встречи российской элиты в области новейших ИТ-технологий, есть и международное участие. Много говорилось о развитии глобальных сервисов, гридов для высокопроизводительных вычислений, ad-hoc сетей для разработчиков проектов с открытыми ресурсами и программами, о формировании университетских супекомпьютерных центров. Можно отметить оживленную дискуссию о том, что же такое искусственный интеллект и насколько мы понимаем, что такое мозг человека. Хитом стал слайд пленарного доклада профессора А.И. Галушкина (кафедра интеллектуальных информационных систем и технологий Московского физико-технического института), этот слайд приведен ниже.


Слайд доклада профессора Московского физико-технического института Галушкина А.И., Национальный Суперкомпьютерный Форум, Переславль, 2015 г.


Профессор Галушкин сказал, что все тенденции и тренды развития ИТ-технологий последовательно и все дальше уходят по основным характеристикам от мозга человека. Вопрос только в том, что это не привело к созданию реального искусственного интеллекта, равного человеку, и даже близко такого нет, и главное, нет понимания, как подходить к этой теме.

Интересная мысль прозвучала в докладе О.В. Сухорослова из ИППИ РАН, о формировании области «service oriented eScience». Как известно, eScience – это фактически новая парадигма в истории развития науки, так называемая «четвертая парадигма развития», после времен эмпирической науки, теорий обобщения и вычислительных моделей. Объединение глобального сообщества в единые сети в рамках анализа данных, Больших данных в том числе, стало обретать реальные логистические маршруты.

Впервые на Форуме была проведена отдельная секция по Большим данным. Ее вел Николай Петрович Васильев, доцент кафедры «Компьютерные системы и технологии» МИФИ. Заседание секции показало огромный интерес к Большим данным. Доклады участников Форума, приехавших из разных городов России, касались широкого круга сфер: спутники, нефтяные разработки, медицина, химия, текстовая аналитика, создание своих отечественных ИТ-инструментов для хранения и аналитики неструктурированных Больших данных. Например, одна система может хранить и управлять ЭКГ записями, отснятыми с полмиллиона пациенов. Одновременно система может писать 1 тысячу отведений ЭКГ. Эту систему представили авторы Д.В. Исакевич и В.В. Исакевич из города Владимир, работа выполнена вместе с Владимирским Государственным Университетом.

Текстовая аналитика Больших данных – это путь к постижению искусственного интеллекта. Например, сегодня Интернет описывают, как более 50 миллиардов страниц текста. Важный метод анализа - построение графов.

Особо следует отметить доклад Института математики и механики Уральского отделения РАН, город Екатеринбург. Профессор Владимир Лазаревич Авербух показал новейшие российские разработки в области визуализации данных, которые относятся к понятию, заявленному Forrester Research в качестве ключевого тренда в аналитике Больших данных – ADV (Advanced Data Visualization). Было показано, что благодаря использованию конструктора систем визуализации достигнуты существенные научные результаты в области создания новых материалов.

Был представлен доклад по многоцентровому исследованию по текстовой аналитике Больших данных «Третья волна», которое проводит Академическое Партнерство ЕМС в России и СНГ. Группа исследователей: О.Ю. Колесниченко, Г.Н. Смородин, И.В. Ильин, О.В. Журенков, Л.С. Мазелис, Д.А. Яковлева, В.Л. Дашонок. Исследование объединяет Москву, Санкт-Петербург, Барнаул и Владивосток. Исследование открыто для новых участников.

На секции также прозвучали призывы к формированию культуры аналитики Больших данных в стране. Например, свои стратегические подходы к проведению аналитики Больших данных корпорация ЕМС показала на примере проведения волонтерского исследования «Третья волна». О российских логистических подходах к внедрению аналитики Больших данных в производство рассказал представитель российской компании RedSys, эти подходы применяются, например, для интеграции аналитики Больших данных и систем искусственного интеллекта в нефтегазовый сектор экономики.

На НСКФ-2015 было представлено много работ по военно-прикладным аспектам. Помимо конкретных несекретных решений в области создания и сопровождения жизненного цикла ВВТ, были интересные доклады о концептуальных подходах и нуждах в аспекте войн нового информационного поколения.

Далее представлены выкладки некоторых докладов в режиме непрямого цитирования с аналитическим обсуждением.

Высокопроизводительные мощности

Работа Ю.И. Бродского (ВЦ РАН) посвящена созданию сложных ИТ-систем, в основе которых заложен фрактальный принцип (или, как его называет сам автор, атомистический). Части системы являются самостоятельными системами, а компоненты сложной системы сами могут быть сложными системами. Для того, чтобы понять поведение такой системы в целом, нужно проводить имитационное моделирование. Не решены вопросы единственности, устойчивости и зависимости от начальных значений, а также замкнутости характеристик для таких суперсистем.

Идеология многокомпонентных систем развивалась еще в отделе Имитационных систем ВЦ АН СССР в конце 80-х годов. Теперь эта идеология выросла до модельного синтеза, в основе которого лежит понятие модель-компонента-универсальный агент. Модели-компоненты могут быть объединены для выполнения сверхфункции: например, несколько моделей-компонент дают разные отраслевые прогнозы (курса валют, погоды, трендов рынка), и в итоге на верхнем уровне система будет строить общий прогноз на основе всех отдельных прогнозов. Это и есть фрактальная конструкция.

Ю.И. Бродский отмечает, что исторически идет смена парадигм программирования в сторону укрупнения, начиналось все с машинной команды, затем были языки, операторы языка, реализующие некое законченное действие, на смену отдельным операторам пришли стандартные конструкции типа «цикл», «ветвление», подпрограммы-функции и структуры данных. В настоящее время господствуют такие понятия, как класс, объект, типизация, наследование, инкапсуляция, и т.д. Модель – это более сложная и агрегированная конструкция, чем объект объектного анализа. Главное ее отличие от объекта – обладание собственным стандартным поведением, в том смысле, в каком обладает поведением операционная система. Модели-компоненты могут объединяться в модели-комплексы, а модель-комплекс может стать моделью-компонентой следующего уровня.

Ю.И. Бродский предлагает использовать язык ЯОКК (язык описания комплексов и компонент). К первой воплощенной идее модельно-ориентированного программирования относят систему MISS, которую совершенствуют в ВЦ РАН. На языке ЯОКК можно описать все имеющиеся знания об «атомах» сложной многокомпонентной системы и их связях между собой, и автоматически по этим описаниям построить синтез модели сложной системы. Для работы с такими суперсистемами нужны высокопроизводительные и распределенные вычисления.

Ю.И. Бродский с соавторами моделировали ранее эпизоды СОИ (Стратегическая Оборонная Инициатива) США. Данная работа, представленная на НСКФ, показала, что управление современным полем боя как единой информационной средой требует суперкомпьютерных мощностей. Ведь именно построение прогноза по каждому отдельному блоку боевых группировок и интеграция этих блоков в качестве общего прогностического видения исхода битвы – и есть главная задача информационного обеспечения ТВД.

Роботизация ТВД

Следующая работа, которую стоит отметить, касается использования сложной визуализации и жестовых интерфейсов для взаимодействия с виртуальными и реальными объектами. Авторы И.С. Стародубцев и В.Л. Авербух из ИММ УрО РАН и Уральского федерального университета (Екатеринбург) разработали программно-аппаратный комплекс для естественных (жестовых) человеко-компьютерных интерфейсов. Это нужно для навигации в средах виртуальной и расширенной реальности (о расширенной реальности /Augmented Reality/ уже открыто заявляют военные США, в частности речь идет о добавлении к спецназу особых гаджетов и даже имплантантов-чипов), для управления робототехникой на поле боя, или для осуществления действий удаленно, например, в условиях радиационного заражения какой-то области или при медицинском обеспечении в полевых условиях с целью обеспечения стерильности.



Слайд из доклада Andrew Herr, Georgetown University. «Far Future Advances in Human Performance Augmentation». U.S. Army Training and Doctrine Command's 2015 Mad scientist Conference. Oct. 27th. Future operational environment.





Классические проблемы Больших данных и Data Governance

Работа И.И. Холода посвящена вопросам защищенности боевых облачных платформ. Описана архитектура единой информационно-аналитической платформы на базе защищенных облачных технологий, с интеграцией гетерогенных информационных систем. Сегодня платформы используют разные серверы и операционные системы, различаются системы управления базами данных, протоколы взаимодействия и т.д. Информация разнородная, объем ее растет, есть проблема дублирования информации.

Среди насущных проблем И.И. Холод выделяет:
  • сложность замены (модернизации) как аппаратных, так и программных средств в связи с их разнородностью;
  • дополнительные требования к квалификации эксплуатирующего персонала, необходимость их доучивания;
  • ожидаемое быстрое устаревание технологий, сложность их замены;
  • сложность создать защищенный режим для информации;
  • неэкономичность из-за разнородности технологий;
  • невозможность получения аналитики по совокупности информации, хранящейся в разных системах.

Все это классические проблемы Больших данных. Решить эти проблемы могут облачные технологии с обеспечением доступа по требованию к общему пулу конфигурируемых вычислительных ресурсов (серверам, устройствам хранения данных, системам и сервисам).



Рисунок из доклада И.И. Холода, НСКФ-2015
 

И.И. Холод упоминает платформу Apache Hadoop и описывает основные существующие модели облачных вычислений и создания масштабируемой инфраструктуры:
  • программное обеспечение как услуга, SaaS — Software as a Service;
  • платформа как услуга, PaaS — Platform as a Service;
  • инфраструктура как услуга, IaaS — Infrastructure as a Service;
  • рабочее место как услуга, WaaS — Workplace as a Service.

В качестве американского примера упоминается система Army Private Cloud (APC2) для отслеживания оборонных контрактов. В России есть национальная облачная платформа по госданным.

В военном плане, по мнению И.И. Холода, облачные сервисы обладают двумя существенными недостатками: загрузка данных в хранилища требует дополнительного обеспечения секретности и ПО должно также быть защищенным от кибератак. Но, можно строить специальное защищенное облако для интересов Минобороны. Есть прототипы платформ IaaS на базе ОС Astra Linux Special Edition: проект «Глобус» (ОАО Северное конструкторское бюро) и проект SeaCloud (ОАО «СиПроект»). Платформы позволяют создавать в облаке виртуальные образы функционирующих рабочих мест и серверов. Но, эти прототипы полностью не решают вопроса защищенности и разграничения доступа к информации с различным уровнем защиты. Также в них нет аналитики.

Концепция разграничения доступа в таких сложных информационных пространствах, как например Data Lake, у американцев разработана. Выделяют зону ограниченного доступа Sensitive-Encrypted и еще три зоны в зависимости от функциональных задач.

 
Рисунок из монографии Alex Gorelik, The Enterprise Big Data Lake, Publishing O'Reilly, 2015


Архитектура защищенной облачной платформы

Как отмечает И.И. Холод, построение защищенной облачной платформы должно решать следующие задачи:
  • защищенная среда;
  • контроль доступа;
  • решение аналитических задач, в том числе интеллектуальный анализ;
  • разграничение доступа к информации в зависимости от грифа секретности.

Предлагается построение защищенной облачной платформы с единым информационным пространством с двумя уровнями: физическим и виртуальным. Виртуальный уровень будет включать в себя виртуальные машины, в том числе создаваемые по требованию. Предлагается также построение динамического единого информационного пространства на виртуальном уровне. Оно не будет аккумулировать всю информацию в одном месте, а будет выполнять роль посредника между серверами и аналитическими сервисами, запрашивающими необходимую информацию. Есть некоторые проблемы:
  • неоднозначность – в разных системах одни и те же сущности имеют различные способы кодирования, используют различные единицы измерений и т.д.
  • дублирование – наличие одинаковой информации в разных источниках;
  • противоречие – наличие различной информации в разных источниках об одном объекте или событии;
  • разнородность информации – информация, хранящаяся в разных источниках, имеет разные форматы, принципы представления и хранения.
Стоит отметить, что эти все проблемы решает концепция Data Lake.


При создании классических хранилищ данных для решения данных проблем используются технологии извлечения, преобразования и загрузки данных (ETL – Extract Transform Load). Стандартные ETL системы извлекают информацию из исходной базы данных, преобразуют ее в формат, поддерживаемый интегрированным хранилищем, а затем загружают в него преобразованную информацию. При этом конфигурация и настройки извлечения, преобразований и загрузки описываются заранее и хранятся в виде метаданных процесса трансформации. В отличие от концепции Data Lake, где разнородные данные хранятся в своем первичном виде, то есть сохраняют 100% своей информативности (Analytic Sandbox).









На слайдах пример конфигурации Data Lake от EMC, США


И.И. Холод описывает архитектуру облачной платформы, построенной на базе защищенных средств, что позволяет использовать ее Министерством обороны. Создан подход для виртуализации автоматизированных информационных систем и их размещения в облаке. Идет работа над созданием динамического информационного пространства, осуществляющего трансформацию запросов пользователей к нему в запросы к исходным источникам информации для выполнения аналитических задач с объединенной информацией. Нужно решить проблемы с разграничением хранения информации имеющей различные грифы секретности, а также проблемы с актуализацией доступной информации и скоростью доступа к данным.

Leave a comment
Name
Text
Enter a code from the image below
 



 
 
 

Last posts: 
Второй этап исследования "Третья волна" - открытые данные, часть 3


Второй этап исследования "Третья волна" - открытые данные, часть 2


Ясен Засурский: мировой общекультурный порядок


Quebec immigration for professionals


Второй этап исследования "Третья волна" - открытые данные, часть 1


Протоиерей Всеволод Чаплин: власть не слышит голос русских


Пушкинская площадь сказала «Хватит!»


Национальный Суперкомпьютерный Форум 2015 - дебют Больших данных


Ольга Адамишина и ее Фонд «Помощь Отечественному искусству»


Власть от народа


Джейми Ричард Робертсон: в поисках новых решений, вглядываясь в невидимое


Летящая по волнам: Жаклин Слоун Сиклос


Culture Conflict in Caucasus: Chance for Europe


Сергей Капица: "Бороться надо умом"


ДАТА-ПЛАНТАЦИИ ДЛЯ РЕТРОСПЕКТИВНОЙ И ПРОГНОСТИЧЕСКОЙ АНАЛИТИКИ В МЕДИЦИНЕ


Глобалистика-2015.
АНАЛИТИКА BIG DATA. НОВЫЕ ВОЗМОЖНОСТИ ДЛЯ ПОНИМАНИЯ ГЛОБАЛЬНЫХ ПРОЦЕССОВ



Орнитологическая безопасность полетов: проблемы и пути решения


Александр Грушко: для НАТО и России наступил момент истины


Smart-MES. Самоорганизующаяся
информационная система



Global Commons: Россия начала операцию в Сирии


Вячеслав Мальцев о 70-й Сессии Генеральной Ассамблеи ООН



 
   
   
     
 
   © SecurityAnalysisBulletin.com - 2015  feedback