Классификация атак на методики машинного обучения. Эталонный процесс обучения ИИ предполагает наличие большого набора подготовленных данных, доступ к высокопроизводительным вычислительным ресурсам. Задействованные данные не должны быть личными (приватными), они должны обрабатываться в едином централизованном хранилище. Необходима также фаза стандартного обучения и тонкой настройки гиперпараметров. Однако эти условия в полном объеме тяжело соблюдать на практике. В силу чего для смягчения таких жестких требований были разработаны и приняты в эксплуатацию методики машинного обучения, например трансферное обучение, федеративное обучение, сжатие моделей, многозадачное обучение, метаобучение и обучение на всем жизненном цикле. Они получили широкое распространение даже несмотря на наличие уязвимостей, позволяющих хакерам проводить успешные атаки на разработанные модели.
Многозадачное обучение. Оно повсеместно применяется для решения задач в области классификации изображений, обработки естественного языка и т. п. Даже когда целью обучения модели является выполнение одной задачи, модель обучают в целях выполнения связанных подзадач для улучшения качества и скорости решения главной задачи. Одна из возможных атак – «отравление» набора данных одной задачи и проверка возможности использовать ее выход (результат выполнения) для других задач. Например, жертва хочет обучить модель для определения выражения лица, но из-за нехватки данных решает вспомогательную задачу распознавания лиц при помощи общедоступных наборов данных. Злоумышленник «отравляет» общедоступный набор данных, когда занимается вспомогательной задачей, так чтобы создать «черные ходы» для всей модели. Безусловно, формирование обучающего изображения для создания бэкдора не является тривиальным вопросом и требует знаний и квалификации злоумышленника. Все атаки на однозадачные модели применимы к многозадачным моделям, однако последние могут подвергаться атакам новых типов. Пример – прогнозирование смены направления для рулевого управления в автомобиле без водителя. Разработчик атакуемой модели рассматривает классификацию характеристик дороги как вспомогательную задачу. Поскольку модель обучена для двух связанных задач, выходные данные классификации характеристик дороги имеют прямую связь с выходными данными задачи прогнозирования направления рулевого управления. Запрашивая ответ от зараженной модели характеристик дороги, злоумышленник задает взаимосвязи между этими заданиями. Хотя злоумышленник может не знать, как изменить входные данные, чтобы воздействовать на рулевое управление, но он может изменить вход – подменить определенную характеристику дороги, которая, в свою очередь, повлияет на прогнозирование рулевого управления. Другими словами, злоумышленник использует задачу A в целях создания задачи состязательного целевого ввода для задачи B. Даже если он напрямую не может атаковать B, то посредством вывода А он сделает это опосредованно.
Машинное обучение в течение жизненного цикла. С непрерывным обучением тесно связаны две концепции:
предположение о том, что все исторические знания доступны и используются для изучения новых задач;
накопление полученных новых знаний.
Первая концепция допускает потенциальное заражение данных при атаках типа Backdoor и исследовательских атаках. Согласно второй концепции, процесс может быть нарушен, поскольку атака не позволит системе сохранять получаемые знания и отработанные задачи. Это тип атаки на доступность, она не дает реализовать подход к обучению в течение жизненного цикла.
Выяснение того, как «черные ходы» и атаки «отравлением» данными могут повлиять на системы обучения, имеет первостепенное значение. Например, если решение справляется с задачей накопления знаний, может ли злоумышленник создать бэкдор для одной задачи и использовать ее для всех других новых задач? Если это возможно, то последствия для безопасности будут катастрофическими.
Также злоумышленники могут атаковать процесс накопления полученных знаний. Один из методов атаки заключается в изучении того, может ли добавление нескольких тщательно созданных обучающих образцов с правильными метками изменить структуру модели так, чтобы она плохо выполнялась в прежних задачах. Злоумышленники таким образом инициируют в модели оптимизацию ретроспективных знаний, цель которой состоит в том, чтобы изменить модель под новую, атакующую задачу, тем самым повредить результаты обучения на старых задачах. Механизмы атаки и защиты, характерные для обучения на протяжении всего жизненного цикла, требуют дополнительных исследований.
§ 2. Большие данные
Понятие. Большие данные (Big Data) – это крайне большой объем структурированных и неструктурированных данных произвольного типа, обрабатываемый в горизонтально масштабируемых информационных системах. Назначение систем Big Data – помогать в принятии решений и инициировать действия на основе анализа цифровой информации. При помощи систем Big Data принимаются решения о необходимости профилактики эпидемий, об изменении полётного графика воздушных судов, о пригодности деталей автомобиля для эксплуатации, о необходимости провести внеплановый ремонт на строительных объектах и многие другие.
История. Определение Big Data появилось в 2008 г. Безусловно, до этого времени существовали методологии анализа информации, однако стоимость хранения и обработки данных была столь велика, что ограничения в ресурсах либо сводили на нет полезность аналитических отчетов из-за низкой скорости их предоставления, либо качество отчетов было столь низким, что они не имели практического применения.
Вместе с тем, объемы данных росли лавинообразными темпами: пользователи социальных сетей генерировали огромные объемы информации, корпорации копили сведения о клиентах, индустриальные предприятия использовали датчики для контроля технологических процессов, в дополнение к ним в широкой эксплуатации появились домашние приборы и автоматизированных системы, которые без участия человека используют интернет, автоматически отсылают информацию о своем состоянии, получают и обрабатывают команды пользователей и тем самым также порождают огромные объемы данных.
Усиливалась и потребность в анализе этих данных – постоянно шел поиск ответа на бизнес-задачи: предсказание потребительского поведения с целью повысить эффективность маркетинговой активности; цифровое моделирование индустриальных объектов, с целью снизить затраты на дорогостоящие испытания; быстрый анализ данных с погодных датчиков для обеспечения безопасности полетов и др.
К 2008 г. технологический прорыв в области микропроцессорных технологий и в производстве систем хранения данных на порядки снизил стоимость хранения и обработки. Это упростило и удешевило доступ к вычислительным ресурсам до недостижимого прежде уровня, что сделало возможным дальнейший прогресс в развитии аналитических систем.
Важнейшей вехой в истории систем класса Big Data является развитие технологии кластеризации, реализующей горизонтальное масштабирование – объединение разрозненных единиц вычислительной техники в общую вычислительную систему с единым управлением.
Повысилась доступность систем Big Data для широкого круга разработчиков программного обеспечения благодаря изменению бизнес-моделей глобальных технологических компаний: появились трансконтинентальные IT-инфраструктуры, позволяющие использовать практически неограниченные вычислительные мощности и системы хранения без первичных инвестиций – на условиях оплаты аренды ресурса с почасовой тарификацией. Такого рода бизнес-модели сняли финансовые ограничения для малых технологических компаний и дали им возможность активно разрабатывать аналитические инструменты для широкого круга потребителей.
Предпосылками активного развития систем Big Data стали:
– рост объема цифровой информации и потребность коммерческих и государственных организаций в результатах ее анализа;
– технологический прорыв в области микроэлектроники;
– деятельность саморегулирующихся сообществ разработчиков программного обеспечения;
– появление новых бизнес-моделей коммерческих организаций, обеспечивающих широкий доступ к вычислительным ресурсам.
Свойства систем Больших данных. Определяющими свойствами, по которым системы анализа и сбора информации относят к классу Big Data, являются объем обрабатываемых данных, их разнородность, возможность горизонтального масштабирования. Выделяют также ряд потребительских свойств системы, такие как скорость обработки данных, потребительская ценность, достоверность и другие.
Основное свойство систем Big Data – обработка крайне больших массивов данных объем которых постоянно и с большой скоростью увеличивается. Речь идет о данных миллионов финансовых операций, десятках миллионов переходов на веб-сайтах интернет-магазинов, сотен миллионов значений датчиков погоды, снимающих показания по всему миру, миллиардов записей пользователей на персональных страничках социальных сетей, десятков миллиардов действий пользователей поисковых систем и мобильных приложений.
Разнородность данных – это возможность обработки в системе разнообразных типов данных и их структур. Это свойство характеризует возможность системы проводить анализ неструктурированных данных: «сырых» текстов, медиафайлов – аудиофайлов, видеофайлов и файлов изображений; слабоструктурированной информации: например, новостных каналов, электронных таблиц; структурированных данных реляционных СУБД и данных, полученных в виде структурированного ответа на запрос на специализированных языках работы с данными.
Скорость обработки означает возможность системы принимать и обрабатывать данные в необходимом объеме за ограниченное время. Многие системы Big Data предназначены для сбора информации из большого количества источников в режиме реального времени и их анализа также в режиме реального времени. Пример – медицинские устройства, предназначенные для сбора данных о здоровье и мониторинга состояния пациентов. Предназначение и важность этих систем требует собирать, анализировать эти данные и затем передавать результаты медицинскому персоналу за минимальное количество времени. Необходимость реализации интернета вещей медицинского оборудования создает запрос на обеспечение высокой скорости передачи и обработки данных.
Возможность горизонтального масштабирования – это возможность увеличить производительность и емкость системы путем подключения аппаратных или программных ресурсов таким образом, чтобы они работали как единое логическое целое. Этот механизм также называется кластеризацией вычислительных систем. Если кластеру требуется больше ресурсов для повышения производительности, обеспечения более высокой доступности, администратор может масштабировать вычислительный ресурс, добавляя в кластер больше серверов и/или хранилищ данных.
Поддержка горизонтальной масштабируемости подразумевает возможность увеличивать количество и заменять узлы «на лету», не значительно прерывая функционирование системы. Например, распределенная система хранения данных Cassandra, включает сотни узлов, размещенных в различных дата-центрах. Поскольку оборудование масштабируется горизонтально, Cassandra является отказоустойчивой и не имеет одной критичной точки отказа.
Еще одно преимущество заключается в том, что теоретически производительность горизонтально масштабируемых систем не ограничена. Производительность зависит только от количества узлов, подключённых к системе. Это драматически отличает системы с горизонтальным масштабированием от многих традиционных систем обработки данных в которых при увеличении вычислительного ресурса производительность системы в целом значимо не растет. Это приводит к серьезнейшим функциональным ограничениям традиционных систем.
Таким образом, поддержка горизонтального масштабирование обеспечивает возможность роста объемов данных и их анализа, при котором результат анализа не теряет своей полезности за время расчета. Например, оценка ситуации на дороге для системы автопилотирования должна быть рассчитана за доли секунды – в противном случае, такая оценка просто не нужна.
Примером технологического решения реализации горизонтального масштабирования является Hadoop – проект фонда Apache Software Foundation. Hadoop это библиотека для разработки программного обеспечения предназначенная для создания и выполнения программ, работающих на кластерах из сотен и тысяч узлов. Hadoop – библиотека с открытым т. е. бесплатно распространяемым и дающим возможность менять под свои нужды, программным кодом, практический инструмент разработчиков и архитекторов IT-инфраструктур.
Потребительская ценность системы относится к ключевым потребительским свойствам систем больших данных. Ценность системы – это ее пригодность для получения практически применимых выводов и принятия решений.
Наличие огромных объемов данных необходимо для анализа и, безусловно, существует прямая связь между данными (информации представленной в цифровом виде) и знаниями (достоверными представления о предметах и явлениях действительности), но из наличия взаимосвязи не следует означает, что в Big Data всегда есть знания и они могут быть извлечены. Если на их основании данных нельзя сделать полезных выводов, вся система не будет иметь ценности.
Технологии анализа позволяют автоматически находить в потоках данных зависимости, которые не в состоянии выявить человек, такие как, например, влияние атмосферного давления на покупку молочной продукции. Однако, если атмосферное давление за анализируемый период было приблизительно одно и тоже, собранные данные не будут содержать знания о существующей взаимосвязи и ценность системы будет нулевой.
Важной частью инициатив в области больших данных является понимание того, каковы затраты и выгоды от сбора и анализа данных. Необходим обоснованный прогноз, что в конечном счете получаемый результат анализа принесет конкретную пользу.
Качество данных и достоверность системы – свойства, которые показывают, что данные были получены из доверенных источников, в неискаженном виде, по доверенным каналам.
В случае, если анализ проводится на основе искаженных данных, выводы и решения не будут корректными. Например, сообщения в Twitter содержат хэш-теги, сокращения, опечатки, указание личных мнений и т. д. Таким образом данные не являются качественными т. к. искажение текста может привести к искажению заложенного в сообщения смысл. Впрочем, Twitter вызывает сомнения и как источник изначально достоверных данных. А если невысока исходная достоверность их сбор и анализ бесполезны.
Следующий пример относится к использованию данных систем глобальной навигации: часто GPS рассчитывает недостоверные координаты местоположения, особенно при размещении приемника в городских районах. Спутниковые сигналы теряются и искажаются, когда они отражаются от высоких зданий или других сооружений. Как единственный источник данных спутники сами по себе недостоверны. Для повышения качества данные о местоположении следует объединить со сведениями из других источников данных, например, с данными акселерометра или сигналами вышек сотовой связи.
Технологии систем Больших данных. Базовыми технологиями систем Big Data являются технологии сбора, анализа и представления данных.
Технологии сбора:
– смешение и интеграция данных (data fusion and integration) – набор техник для интеграции разнородных данных из разнообразных источников в целях анализа (например, обработка естественного языка, включая анализ настроения говорящего – тональности высказывания);
– краудсорсинг – привлечение широкого и заранее не определенного круга лиц для повышения ценности данных без вступления в трудовые отношения с этими лицами.
Технологии анализа:
– прогнозная аналитика – выявление закономерностей в имеющихся данных, помощь в оценке происходящих процессов и прогнозирование дальнейших событий;
– классификация – отнесение объекта к группе по определенному признаку;
– кластерный анализ – автоматизированное формирование сравнительно однородных групп и отнесение к ним объектов (например, по ряду поведенческих факторов можно выяснить намерение человека украсть что-либо: на основании схемы перемещения покупателя по торговому центру определить, что его поведение не является обычным и предотвратить кражу);
– регрессионный анализ – выявление вероятных последствий (например, можно смоделировать дорожные аварии как последствия сочетания скорости, дорожных условий, погоды, трафика);
– обучение ассоциативным правилам – определение непрямых зависимостей (например, рост количества покупок спичек при покупке мяса, но только в случае приобретения маринада);
– пространственный анализ (Spatial analysis) – класс методов с использованием топологической, геометрической и географической информации для обоснования градостроительных решений;
– машинное обучение – применение программ, которые независимо от человека самомодифицируются на основании обрабатываемых данных;
– классический статистический анализ;
– получение комплексных прогнозов на основе базовых моделей;
– создание самомодифицируемых систем, сходных по структуре с головным мозгом человека.
Технологии представления данных. К ним относится визуализация аналитических данных – представление информации в виде рисунков, диаграмм с использованием интерактивных возможностей и анимации как для получения результатов, так и для применения в качестве исходных данных в целях дальнейшего анализа человеком.
Конец ознакомительного фрагмента.
Текст предоставлен ООО «ЛитРес».
Прочитайте эту книгу целиком, купив полную легальную версию на ЛитРес.
Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.
Вы ознакомились с фрагментом книги.
Для бесплатного чтения открыта только часть текста.
Приобретайте полный текст книги у нашего партнера:
Полная версия книги