banner banner banner
Работа с данными в любой сфере
Работа с данными в любой сфере
Оценить:
 Рейтинг: 0

Работа с данными в любой сфере


Разрекламированный как предсказатель, помогающий студиям разбогатеть, Гэллап быстро стал любимцем многих лидеров киноиндустрии США, проверяя по данным опросов и интервью отношение аудитории к персонажам различных лент, от мультиков Уолта Диснея до фильмов Орсона Уэллса[4 - Более подробно о новаторской работе Джорджа Гэллапа см. Ohmer (2012).].

Своим успехом Гэллап был обязан только данным (возможно, его можно назвать первым высокооплачиваемым аналитиком данных в мире). Его усилия в области статистики привели к тому, что этот ресурс по-прежнему имеет ценность за пределами своего первоначального замысла, обладая потенциалом охвата неструктурированных данных: записанных интервью представителей аудитории, отражающих культурные и социальные ценности того времени. Возможно, Гэллап подозревал, что потенциал анализа данных может только расти.

Данные могут генерировать контент

Итак, что если после всех умных свидетельств, основанных на данных, вы возненавидели фильм, который недавно видели в кинотеатре? Ну, данные, возможно, не могут предсказать все, но они, безусловно, заставили вас занять место перед экраном. Иногда данные могут получить тройку за достижения, но они всегда получают отлично за усилия. И над первым уже работают. Вместо того чтобы привязывать нужные демографические показатели аудитории к новому фильму или телевизионному сериалу, кинокомпании теперь находят способы использовать данные об аудитории, чтобы принимать обоснованные решения о предлагаемых публике развлечениях.

Но эта перемена влечет за собой необходимость в большем количестве данных. По этой причине сбор данных не прекращается, как только вы посмотрели выбранный для вас фильм; любые последующие комментарии, которые вы оставляете в социальных сетях или шлете по электронной почте, изменение ваших привычек просмотра фильмов в интернете генерируют о вас как о «кинозрителе» свежий массив данных, который учитывается в любых будущих рекомендациях, прежде чем наконец вы станете частью какой-либо демографической группы. Таким образом, по мере того как из подростка-эмо, интересующегося только демоническим пением, вы превращаетесь в любителя сложной сюрреалистической буффонады, которого все избегают на коктейльных вечеринках, ваши данные будут меняться вместе с вами и адаптироваться к этим колеблющимся предпочтениям.

В качестве примечания: еще более приятная новость состоит в том, что данные не отрицают ваших интересов. Если вы только прикидываетесь знатоком, но в действительности, как только опускаете шторы, до сих пор наслаждаетесь дрянными фильмами о зомби, ваши данные сохранят этот тайный вскормленный вами энтузиазм.

Конечно, оборотная сторона медали в том, что ваши данные могут выдавать секреты, касающиеся ваших предпочтений. Имейте в виду, что данные – это запись действий, они не будут лгать на ваш счет. Некоторые даже тратят недюжинные усилия, чтобы скрыть свой «фактический» след на сайтах цифровых музыкальных сервисов, теша собственное тщеславие: они запускают альбом музыки, которая, по их мнению, служит в обществе признаком хорошего вкуса, но не слушают ее, так что их накопленные данные представят искаженную версию того, что им нравится. На мой взгляд, у этих людей слишком много свободного времени, но манипулирование данными тем не менее является важной темой, и со временем мы вернемся к ней.

Кейс: Netflix

Сериал «Карточный домик», выпущенный развлекательной компанией Netflix, впервые доказал индустрии, насколько сильны могут быть данные не только в том, что касается охвата нужной аудитории определенными разновидностями контента, но и в управлении фактическим производством контента.

Сериал – политическая драма – выпуска 2013 г. был первой проверкой того, как данные могут быть применены в производстве хитов. В преддверии создания «Карточного домика» Netflix собирала данные о своих пользователях. Полученные сведения о зрительских привычках позволили Netflix группировать свой видеоконтент в разнообразные и даже удивительные категории. Интерфейс скрывал от пользователей эти категории, но тем не менее они были использованы компанией, чтобы представить нужный фильм нужной аудитории.

Когда информация об этих подкатегориях появилась в интернете несколько лет назад, люди были ошеломлены. Чтобы вы могли получить представление о том, насколько точно действовала Netflix, вот некоторые варианты подкатегорий: «Захватывающие фильмы ужасов 1980-х», «Хорошее образование и воспитание с участием героев “Маппет-шоу”», «Драмы шоу-бизнеса», «Глуповатая независимая сатира», «Откровенные фильмы о реальной жизни», «Умные фильмы о заграничных войнах», «Бросающие в дрожь триллеры» и «Признанные критиками мрачные фильмы-экранизации». Таковы весьма специфические предпочтения зрителей. Но Netflix нашла значительную аудиторию для каждой из этих категорий и для многих других.

В конце концов исследователи данных в Netflix начали видеть совпадения в зрительских моделях их аудитории. Оказалось, что существует значительное число подписчиков Netflix, которые наслаждались и работой Кевина Спейси, и серьезными политическими драмами. Остальное – перезапуск оригинального «Карточного домика» 1990-х гг. с Кевином Спейси в главной роли – это история (или это данные?).

Оседлав волну успеха

Netflix оказалась права, высоко оценив возможности данных: сериал «Карточный домик» был отмечен наградами и получил высокие оценки критиков. Поэтому неудивительно, что многие конкуренты Netflix попытались скопировать эту выигрышную модель. Хейделин де Понтевес, предприниматель в области данных и мой бизнес-партнер, работал на конкурента Netflix в целях создания подобной системы.

«Мы знали, что у Netflix уже есть мощная система рекомендаций, и поэтому от нас как разработчиков баз данных и операционных систем требовалось не создать то же самое для нашей компании, а найти, где можно добиться разницы. Мы поняли, что для разработки действительно интересной системы нам нужно сделать больше чем просто инструмент для рекомендаций фильмов, соответствующих определенным демографическим сегментам. Мы также хотели создать алгоритм, позволяющий предлагать фильмы, которые могли бы вывести пользователей из их зоны комфорта, но в то же время доставить им удовольствие. Мы действительно стремились к тому, чтобы появился некий элемент неожиданности».

    (Де Понтевес, 2017 г.)

Хейделин понимал, что для достижения этой цели потребуется сложная система, способная проникнуть в головы пользователей и понять их предпочтения лучше, чем те сами понимали это. Он достиг цели, извлекая все имевшиеся у компании данные по клиентам и применяя правильное сочетание моделей, чтобы найти связи между зрительскими привычками. Помните, что этот подход почти такой же, как был у Джорджа Гэллапа многие годы назад; благодаря доступным технологиям и воображению аналитика данных мы теперь можем получить доступ к данным гораздо более хитроумным (и автоматизированным) способом.

Использование данных

Некоторые могут посетовать, что такой подход к использованию данных для творческого контента фактически убивает творчество. На это я бы ответил им, что данные всего лишь следуют за тем, чего хотят люди. Для любой отрасли желательно показать нужной аудитории в нужное время и в нужном месте соответствующий контент, чтобы побудить клиентов покупать их услуги. Таким образом, данные сделали индустрию более демократичной, потому что, хотя машины могут начать влиять на наши предпочтения в покупках, мы по-прежнему сохраняем самую ценную информацию: человеческое желание. Машины не говорят нам, чего мы хотим; они создают для нас связи, о которых мы, возможно, не знали.

Данные не приказывают людям идти и смотреть фильмы о супергероях и не смотреть французские сюрреалистические фильмы; они прислушиваются к тому, чего люди хотят и от чего получают удовольствие[5 - Пример того, какие проблемы и возможности связаны с аналитикой данных в киноиндустрии, см. у Mishra and Sharma (2016), в докладе которых анализируется кинопроизводство и продюсирование в Индии.]. Если вы считаете, что существует проблема удушения творчества, то это не вина данных – это вина нашего общества. Я не устану подчеркивать, что данные являются прошлым. Это всего лишь запись информации. Если вы хотите видеть больше французских сюрреалистических фильмов, то просто идите и смотрите их – и убедитесь, что после просмотра вы о них говорите[6 - Естественно, на пути этого подхода есть препятствия. Вы не сможете победить миллионы поклонников супергероев в Китае, которые в значительной степени отвечают за то, что Голливуд продолжает наращивать выпуск фильмов о мужчинах (и женщинах) в колготках, спасающих мир от зла. Вопросы о том, как данные влияют на творчество, возможно, выходят за рамки этой книги, но я бы сказал, что всегда существовало и всегда будет существовать пространство для творчества, даже в мире, управляемом данными. Мы не становимся тупее; мы просто делаем промышленность более эффективной.]. Может показаться, что вы просто добавляете шума в интернете, но этот «шум» быстро обрабатывается и становится доступным для использования повсюду. Благодаря данным в нынешнюю эпоху наши голоса действительно могут быть услышаны и иметь реальную власть – так почему бы не воспользоваться этим?

Кроме того, модели для использования данных еще несовершенны. В случае с медиаиндустрией другие корпорации приняли концепцию Netflix, и некоторые могут отметить, что одни преуспели больше, а другие – меньше. Но опять же, в этом нет заслуги данных, это творческий вклад людей. В конце концов, именно здесь находится нынешний предел нашей способности использовать данные для создания контента. Наверное, мы сможем оценить вероятное число людей, заинтересованных в концепции, но на карту поставлено гораздо больше, так как конечный успех любой формы развлечений будет обусловлен талантом ее создателя. Пусть это станет предупреждением для писателей и режиссеров, которые надеются получить легкие результаты, полагаясь исключительно на данные: базы данных, которые показывают успех фильмов разных жанров, могут быть полезным руководством для последующих действий, но будут оставаться только руководством, поскольку результат работы зависит от таланта человека.

Почему данные важны сейчас

Многие уже в курсе того, что технологии в будущем могут существенно повлиять на рабочие места. Если вы чувствуете себя достаточно смелым, введите в поисковую строку Google «технологическое воздействие на рабочие места» / «technological impact on jobs» – и вы увидите, что несметное количество статей посвящено вероятности автоматизации в сфере вашей деятельности[7 - Опасения по поводу технологической безработицы не новы – Джон Мейнард Кейнс писал об этом в 1930-х гг.: «Мы страдаем от новой болезни, названия которой некоторые читатели, возможно, еще не слышали, но о которой они многое услышат в ближайшие годы, а именно – о технологической безработице» (Кейнс, 1963).]. Хотя эта информация подкреплена данными, я бы сказал, что, возможно, мнение исследователей в некоторой степени субъективно, если принять во внимание задачи, которые необходимо выполнять на конкретных рабочих местах. Так, я бы, конечно, не рекомендовал учиться на спортивного арбитра по той причине, что эта работа зависит от данных об игре, – машины неизбежно будут поставлять более точные данные, чтобы подтвердить или опровергнуть любые заявления соперников. Судья может быть данью традиции, которая делает опыт более личностным или захватывающим прямо сейчас, но, на мой взгляд, ностальгия, связанная с профессией, не означает, что она будет востребована вечно.

Даже после того, как выяснилось, насколько всепоглощающими являются данные, некоторые все еще могут надеяться на то, что наука о данных не повлияет на их бизнес в ближайшее время. В конце концов, нужно время, чтобы что-то произошло. Но думать таким образом было бы большой ошибкой, потому что это отрицало бы принцип закона Мура.

Закон Мура

Закон Мура – это закон прогнозирования. Предложенный соучредителем Intel Гордоном Муром в 1965 г., он в первую очередь касался ожидаемого со временем увеличения числа транзисторов (устройств, используемых для управления электрическим током) на квадратный дюйм в интегральных схемах (например, компьютерных микросхемах, микропроцессорах, материнских платах). Было замечено, что число этих транзисторов примерно удваивается каждые два года, и закон утверждал, что тенденция будет продолжаться. На сегодняшний день это подтвердилось[8 - Относительно транзисторной инфраструктуры у закона Мура есть ограничения. При размере около 1 нм свойства полупроводникового материала нарушаются такими квантовыми эффектами, как квантовое туннелирование. Кроме того, дальнейшее развитие инфраструктуры потребует альтернативы кремнию, который сейчас используется в качестве основного материала. – Прим. науч. ред.].

В восприятии непрофессионала это означает, что, если вы пойдете в свой местный компьютерный магазин сегодня и купите компьютер за ?1000, а через два года приобретете еще один тоже за ?1000 в том же магазине, вторая машина будет в два раза мощнее, хотя она стоит столько же.

Многие применили этот закон к растущему как грибы количеству достижений в области науки о данных. Она является одной из самых быстроразвивающихся академических дисциплин, и занимающиеся ею профессионалы используют все более изощренные способы, чтобы найти новые средства для сбора данных, построения экономичных систем их хранения и разработки алгоритмов, которые превращают все эти порции больших данных в ценные идеи. Доводилось ли вам когда-либо чувствовать, что технологии движутся вперед так быстро, что вы не успеваете идти в ногу со временем? Тогда подумайте об аналитиках данных. Они играют в салочки с технологией, которая еще даже не изобретена.

Кейс: Siri

В качестве примера рассмотрим развитие технологии распознавания речи. Создатели Siri Даг Киттлаус, Адам Чейер и Том Грубер разработали умного личного помощника задолго до того, как технология стала достаточно зрелой, чтобы можно было реализовать идеи и вывести их на рынок. Авторы Siri создали инструменты и алгоритмы для работы с имевшимися у них данными, чтобы поддерживать технологию распознавания речи, которая тогда еще не была изобретена.

Однако они знали, что, хотя было невозможно использовать программное обеспечение с имевшейся в то время технологией, в конечном итоге запуск Siri станет возможным, нужно лишь подождать, пока технология выкристаллизуется. Короче говоря, они уловили технологические тенденции.

Концепцией, которую создатели Siri использовали для своих прогнозов, служил закон Мура. И это невероятно важно для науки о данных. Закон Мура применяется к многим технологическим процессам и является необходимым правилом при рассмотрении и принятии деловых решений и реализации проектов; мы вернемся к его обсуждению в главе 3 «Мышление, необходимое для эффективного анализа данных».

Беспокойство ни к чему не приводит

Голливуд и индустрия развлечений в целом долгое время придерживались мрачной идеи, что использование данных и связанные с ними злоупотребления угрожают человечеству. Нам стоит задуматься над этой не предвещающей ничего хорошего фразой из фильма «2001: Космическая одиссея»: «Открой дверь модульного отсека, ЭАЛ», где ЭАЛ – технология искусственного интеллекта (ИИ) космического корабля – настолько усовершенствован, что решает не подчиняться команде человека и действовать согласно своим (превосходящим) суждениям. «Из машины», «Она», «Бегущий по лезвию», «Призрак в доспехах» – все эти фильмы посвящены воображаемым проблемам, с которыми могут столкнуться люди, когда технологии начнут развивать собственное сознание и предвидеть наши действия.


Вы ознакомились с фрагментом книги.
Для бесплатного чтения открыта только часть текста.
Приобретайте полный текст книги у нашего партнера:
Полная версия книги
(всего 10 форматов)