Цифровая трансформация для директоров и собственников. Часть 1. Погружение

В ближайшие годы в России собираются переходить на цифровые паспорта, тем самым еще сильнее упрощая работу нейросетей с документами. В данном примере это означает, что не придется тратить время даже на фотографирование и пересылку паспорта.

В итоге вместо 30 минут подписание договора занимает около 5. То есть при восьмичасовом рабочем дне 1 человек сможет заключать не 8 договоров (30 минут на оформление и 30 минут на дорогу), а 13—14. И это при консервативном подходе – без электронного подписания, доступа в квартиру через мобильное приложение и смарт-замки. Но я считаю, что сразу внедрять «навороченные» решения и не надо. Высока вероятность потратить деньги на то, что не создаёт ценности и не снижает издержек. Это будет следующий шаг, после того как клиент получит результат и компетенции.

Также приведу ещё два реальных применения нейросетей и машинного обучения:

– «МегаФон» поможет бизнесу оперативно выявлять конфликтные диалоги с клиентами;

– Яндекс. Браузер внедрил машинный перевод видеороликов в режиме реального времени.

Ограничения

Лично я вижу следующие ограничения в данном направлении.

– Качество и количество данных. Нейросети требовательны к качеству и количеству исходных данных. Но эта проблема решается. Если ранее нейросети необходимо было прослушать несколько часов аудиозаписи, чтобы синтезировать вашу речь, то сейчас достаточно нескольких минут. А для нового поколения потребуется всего несколько секунд. Но тем не менее им всё равно нужно много размеченных и структурированных данных. И любая ошибка влияет на конечное качество обученной модели.

– Качество «учителей». Нейросети обучают люди. И здесь очень много ограничений: кто и чему учит, на каких данных, для чего.

– Этическая составляющая. Я имею в виду вечный спор, кого сбить автопилоту в безвыходной ситуации: взрослого, ребёнка или пенсионера. Подобных споров бесчисленное множество. Для искусственного интеллекта нет этики, добра и зла.

Так, например, во время испытательной миссии беспилотнику под управлением ИИ поставили задачу уничтожить системы ПВО противника. В случае успеха ИИ получил бы очки за прохождение испытания. Финальное решение, будет ли цель уничтожена, должен был принимать оператор БПЛА. После этого во время одной из тренировочных миссий он приказал беспилотнику не уничтожать цель. В итоге ИИ принял решение убить оператора, потому что этот человек мешал ему выполнить свою задачу.

После инцидента ИИ обучили, что убивать оператора неправильно и за такие действия будут сниматься очки. Тогда ИИ принял решение разрушить башню связи, используемую для связи с дроном, чтобы оператор не мог ему помешать.

– Нейросети не могут оценить данные на реальность и логичность.

– Готовность людей. Нужно ожидать огромного сопротивления людей, чью работу заберут сети.

– Страх перед неизвестным. Рано или поздно нейросети станут умнее нас. И люди боятся этого, а значит, будут тормозить развитие и накладывать многочисленные ограничения.

– Непредсказуемость. Иногда все идет как задумано, а иногда (даже если нейросеть хорошо справляется со своей задачей) даже создатели изо всех сил пытаются понять, как же алгоритмы работают. Отсутствие предсказуемости делает чрезвычайно трудным устранение и исправление ошибок в алгоритмах работы нейросетей.

– Ограничение по виду деятельности. Алгоритмы ИИ хороши для выполнения целенаправленных задач, но плохо обобщают свои знания. В отличие от людей, ИИ, обученный играть в шахматы, не сможет играть в другую похожую игру, например, шашки. Кроме того, даже глубокое обучение плохо справляется с обработкой данных, которые отклоняются от его учебных примеров. Чтобы эффективно использовать тот же ChatGPT, необходимо изначально быть экспертом в отрасли и формулировать осознанный и четкий запрос, а затем проверить корректность ответа.

– Затраты на создание и эксплуатацию. Для создания нейросетей требуется много денег. Согласно отчёту Guosheng Securities, стоимость обучения модели обработки естественного языка GPT-3 составляет около 1,4 миллиона долларов. Для обучения более масштабной модели может потребоваться и вовсе от 2 миллионов долларов. Если взять для примера именно ChatGPT, то только на обработку всех запросов от пользователей необходимо более 30 000 графических процессоров NVIDIA A100. На электроэнергию будет уходить около 50 000 долларов ежедневно. Требуется команда и ресурсы (деньги, оборудование) для обеспечения их «жизнедеятельности». Также необходимо учесть затраты на инженеров для сопровождения.

P.S.

Машинное обучение движется ко всё более низкому порогу вхождения. Совсем скоро это будет как конструктор сайта, где для базового применения не нужны специальные знания и навыки.

Создание нейросетей и дата-сайнс уже сейчас развивается по модели «сервис как услуга», например, DSaaS – Data Science as a Service.

Знакомство с машинным обучением можно начинать с AUTO ML, его бесплатной версией, или DSaaS с проведением первичного аудита, консалтинга и разметкой данных. При этом даже разметку данных можно получить бесплатно. Всё это снижает порог вхождения.

Будут создаваться отраслевые нейросети и всё активнее будет развиваться направление рекомендательных сетей, так называемые цифровые советники или решения класса «системы поддержки и принятия решений (DSS) для различных бизнес-задач».

Подробно я разбирал вопрос ИИ в отдельной статье, доступной по QR и ссылке.

Искусственный интеллект: помощник или игрушка?

Большие данные (Big Data)

Большие данные (big data) – совокупное название структурированных и неструктурированных данных. Причём в таких объёмах, которые просто невозможно обработать в ручном режиме.

Часто под этим ещё понимают инструменты и подходы к работе с такими данными: как структурировать, анализировать и использовать для конкретных задач и целей.

Неструктурированные данные – это информация, которая не имеет заранее определённой структуры или не организована в определённом порядке.

Области применения

– Оптимизация процессов. Например, крупные банки используют большие данные, чтобы обучать чат-бота – программу, которая может заменить живого сотрудника на простых вопросах, а при необходимости переключит на специалиста. Или выявление потерь, генерируемых этими процессами.

– Подготовка прогнозов. Анализируя большие данные о продажах, компании могут предсказать поведение клиентов и покупательский спрос в зависимости от времени года или расположения товаров на полке. Также они используются, чтобы спрогнозировать отказы оборудования.

– Построение моделей. Анализ данных об оборудовании помогает строить модели наиболее выгодной эксплуатации или экономические модели производственной деятельности.

Источники сбора Big Data

– Социальные – все загруженные фото и отправленные сообщения, звонки, в общем всё, что делает человек в Интернете.

– Машинные – генерируются машинами, датчиками и «интернетом вещей»: смартфоны, умные колонки, лампочки и системы умного дома, видеокамеры на улицах, метеоспутники.

– Транзакционные – покупки, переводы денег, поставки товаров и операции с банкоматами.

– Корпоративные базы данных и архивы. Хотя некоторые источники не относят их к Big Data. Тут возникают споры. И основная проблема – несоответствие критериям «обновляемости» данных. Подробнее об этом чуть ниже.

Категории Big Data

– Структурированные данные. Имеют связанную с ними структуру таблиц и меток. Например, таблицы Excel, связанные между собой.

– Полуструктурированные или слабоструктурированные данные. Не соответствуют строгой структуре таблиц и отношений, но имеют «метки», которые отделяют смысловые элементы и обеспечивают иерархическую структуру записей. Например, информация в электронных письмах.

– Неструктурированные данные. Вообще не имеют никакой связанной с ними структуры, порядка, иерархии. Например, обычный текст, как в этой книге, файлы изображений, аудио и видео.

Обрабатывают такие данные на основе специальных алгоритмов: сначала данные фильтруются по условиям, которые задаёт исследователь, сортируются и распределяются между отдельными компьютерами (узлами). После этого узлы параллельно рассчитывают свои блоки данных и передают результат вычислений на следующий этап.

Характеристики больших данных

По разным источникам, большие данные характеризуются тремя, четырьмя, а по некоторым мнениям пятью, шестью и даже восемью компонентами. Но давайте остановимся на самой, как мне кажется, разумной концепции из четырех компонентов.

– Volume (объём): информации должно быть много. Обычно говорят о количестве от 2 терабайт. Компании могут собирать огромное количество информации, размер которой становится критическим фактором в аналитике.

– Velocity (скорость): данные должны обновляться, иначе они устаревают и теряют ценность. Практически всё происходящее вокруг нас (поисковые запросы, социальные сети) производит новые данные, многие из которых можно использовать для анализа.

– Variety (разнообразие): генерируемая информация неоднородна и может быть представлена в различных форматах: видео, текст, таблицы, числовые последовательности, показания датчиков.

– Veracity (достоверность): качество анализируемых данных. Они должны быть достоверными и ценными для анализа, чтобы им можно было доверять. Также данные с низкой достоверностью содержат высокий процент бессмысленной информации, которая называется шумом и не имеет ценности.

Ограничения на пути внедрения Big Data