Книга Большие данные. Big Data. Учебник для вузов, Любовь Николаевна Тындыкарь — скачать онлайн в pdf, epub, fb2, txt бесплатно в электронной библиотеке Fantasy Worlds.
bannerbanner
Вы не авторизовались
Войти
Зарегистрироваться
Поиск
Найти

Любовь Николаевна Тындыкарь - Большие данные. Big Data. Учебник для вузов

Большие данные. Big Data. Учебник для вузов
Краткий пересказ
Добавить В библиотекуАвторизуйтесь, чтобы добавить
Оценить:

Рейтинг: 3

Добавить отзывДобавить цитату
Поделиться

В учебнике излагается содержание курса по дисциплине «Теория информационных процессов и систем», а также дополнительные материалы по дисциплинам «Системы поддержки принятия решений» и «Технологии интеллектуального анализа данных» по направлению «Информационные системы и технологии», в том числе профиля «Информационные технологии на транспорте» в соответствии с ФГОС 3++. Рассмотрены основные аспекты работы с большими данными, методы и технологии «Big Data» и «Data Mining», а также общие приемы интеллектуального анализа данных. В качестве инструментальной среды разработки используется интегрированный пакет MatLab версий 6.5 и выше. Учебник предназначен для формирования у студентов компетенций в соответствии с рабочей программой дисциплины «Теория информационных процессов и систем». Материалы учебника также могут быть использованы студентами, магистрантами и аспирантами других инженерно-технических специальностей, желающими самостоятельно изучить вопросы анализа больших данных.

fb2.zip
fb2.ziptxttxt.ziprtf.zipa4.pdfa6.pdfmobi.prcepubios.epubfb3
Скачать
Добавленo: Рейтинг: 3 Комментариев 0 шт.
Краткий пересказ:

Введение в концепцию больших данных

Учебник А. Е. Журавлева «Большие данные. Big Data. Учебник для вузов» открывается фундаментальным анализом эволюции понятия «большие данные». Автор подчеркивает, что переход от традиционных методов обработки информации к современным технологиям связан с экспоненциальным ростом объема, скорости и разнообразия данных. Журавлев акцентирует внимание на трех ключевых характеристиках Big Data — Volume (объем), Velocity (скорость), Variety (разнообразие), позднее расширенных до 5V с добавлением Veracity (достоверность) и Value (ценность). Эти параметры становятся основой для понимания специфики работы с большими данными, их сбора, хранения и анализа.

Технологические основы обработки Big Data

В разделе, посвященном технологиям, подробно рассматриваются архитектурные решения, такие как распределенные системы хранения и обработки данных. Автор детально анализирует Hadoop — открытую платформу, основанную на MapReduce, которая позволяет параллельно обрабатывать массивы информации на кластерах серверов. Журавлев объясняет роль HDFS (Hadoop Distributed File System) как основы для распределенного хранения, а также инструментов вроде Hive и Pig для упрощения работы с данными. Отдельная глава посвящена Apache Spark, который благодаря in-memory обработке значительно ускоряет выполнение задач по сравнению с Hadoop. Здесь же обсуждаются NoSQL-базы данных (Cassandra, MongoDB), их отличия от реляционных СУБД и применение в сценариях, требующих гибкости и масштабируемости.

Методы анализа и машинное обучение

Журавлев переходит к методологиям анализа, подчеркивая важность машинного обучения и искусственного интеллекта в контексте Big Data. Он описывает алгоритмы классификации, кластеризации и регрессии, иллюстрируя их применение на примерах из реальных кейсов — от прогнозирования спроса в ритейле до обнаружения мошенничества в банковской сфере. Особое внимание уделяется глубокому обучению: автор объясняет архитектуры нейронных сетей, их обучение на больших датасетах и применение в распознавании образов, NLP (обработка естественного языка) и генеративных моделях. При этом подчеркивается необходимость оптимизации вычислительных ресурсов и использования GPU/TPU для ускорения тренировки моделей.

Практическое применение в различных отраслях

Учебник содержит обширный раздел о применении Big Data в разных сферах. В здравоохранении анализ данных позволяет персонализировать лечение, прогнозировать эпидемии и оптимизировать работу больниц. Например, обработка данных с wearable-устройств помогает отслеживать состояние пациентов в реальном времени. В логистике Big Data используется для оптимизации маршрутов, снижения расходов на топливо и управления цепочками поставок. Журавлев приводит кейс компании UPS, которая с помощью предиктивной аналитики сократила пробег грузовиков на миллионы миль. В финансовом секторе технологии Big Data применяются для оценки кредитных рисков, алгоритмической торговли и борьбы с киберпреступлениями. Отдельно рассматривается роль данных в умных городах: от управления трафиком до энергосбережения.

Визуализация и интерпретация данных

Автор подчеркивает, что без эффективной визуализации ценность Big Data остается нераскрытой. Он описывает инструменты вроде Tableau, Power BI и Python-библиотек (Matplotlib, Seaborn), которые преобразуют сложные массивы информации в интуитивно понятные графики и дашборды. Журавлев акцентирует внимание на важности storytelling: даже самые точные модели бесполезны, если их результаты не могут быть донесены до决策者. Пример из маркетинга: визуализация паттернов поведения клиентов помогает командам принимать решения о запуске рекламных кампаний или изменении ассортимента.

Этические и правовые вызовы

Один из ключевых разделов учебника посвящен этическим дилеммам и регуляторным аспектам работы с Big Data. Журавлев обсуждает проблемы приватности: сбор персональных данных, их деанонимизацию и риск утечек. Он анализирует GDPR в ЕС и аналогичные законы в других странах, подчеркивая необходимость compliance-стратегий для компаний. Отдельно рассматривается bias в алгоритмах: как исторические данные могут воспроизводить дискриминационные паттерны (например, в кредитовании или подборе персонала). Автор призывает внедрять этические принципы на всех этапах работы с данными — от сбора до интерпретации результатов.

Безопасность данных и киберугрозы

В эпоху Big Data вопросы безопасности становятся критически важными. Журавлев описывает методы защиты информации: шифрование на уровне полей, использование блокчейна для обеспечения неизменности данных, многофакторную аутентификацию. Он анализирует уязвимости IoT-устройств, которые часто становятся точками входа для хакеров. Пример атаки на систему умного дома иллюстрирует, как утечка данных может привести к физическим рискам. Автор также рассматривает технологии обнаружения аномалий (например, с помощью ML), которые помогают выявлять кибератаки в реальном времени.

Будущее Big Data и emerging-технологии

В заключительных главах Журавлев explores тренды, которые будут определять развитие Big Data в ближайшие годы. Квантовые вычисления, способные решать задачи, непосильные для классических компьютеров, уже тестируются в оптимизации сложных систем. Edge computing, где обработка данных происходит на периферийных устройствах (например, дронах или датчиках), снижает зависимость от облачных платформ и ускоряет принятие решений. Автор также прогнозирует рост importance of synthetic data — искусственно сгенерированных датасетов, которые позволяют тренировать модели без риска нарушения приватности. Однако он предупреждает о новых вызовах: энергопотребление дата-центров, цифровое неравенство и необходимость подготовки кадров, сочетающих экспертизу в domain knowledge и data science.

Образовательные аспекты и карьерные возможности

Учебник завершается главой о роли образования в подготовке специалистов по Big Data. Журавлев выделяет ключевые компетенции: знание математической статистики, программирование (Python, R, Scala), понимание DevOps-практик для развертывания ML-моделей. Он описывает карьерные траектории — от Data Engineer, отвечающего за построение инфраструктуры, до Data Scientist, который focuses на аналитике и построении прогнозов. Автор приводит примеры учебных программ ведущих вузов и онлайн-платформ, подчеркивая важность lifelong learning в быстро меняющейся области.

Оcтавить отзыв