Вы не авторизовались

Войти

Зарегистрироваться

Главная
📚 Бетси Бейер
▶ Site Reliability Engineering. Надежность и безотказность как в Google (pdf+epub)

Поиск

По книге По автору

Найти

Бетси Бейер - Site Reliability Engineering. Надежность и безотказность как в Google (pdf+epub)

Name: Site Reliability Engineering. Надежность и безотказность как в Google (pdf+epub)
Rating: 4 (1 reviews)
Author: Бетси Бейер

Краткий пересказ

Добавить В библиотекуАвторизуйтесь, чтобы добавить

Автор: Бетси Бейер

Название: Site Reliability Engineering. Надежность и безотказность как в Google (pdf+epub)

Жанр: зарубежная компьютерная литература, ОС и сети, интернет, веб-технологии, создание сайтов, архитектура информационных систем, интернет-сервисы, Google

Переводчик: Евгений Зазноба

Оценить:

Рейтинг: 4

Литрес:4.1
Livelib:4.1

Добавить отзывДобавить цитату

Автор: Бетси Бейер

Название: Site Reliability Engineering. Надежность и безотказность как в Google (pdf+epub)

Переводчик: Евгений Зазноба

Вот уже почти 20 лет компания Google обеспечивает работу невообразимо сложных и масштабных систем, которые чутко реагируют на запросы пользователей. Поисковик Google находит ответ на любые вопросы за доли секунды, карты Google с высочайшей точностью отражают земной ландшафт, а почта Google доступна в режиме 365/24/7 и, в сущности, стала первым общедоступным облачным хранилищем. Неужели эти системы безупречны? Нет, они тоже отказывают, ломаются и устаревают, как любая техника. Просто мы этого не замечаем. Все дело в том, что уже более десяти лет Google нарабатывает уникальную технологию Site Reliability Engineering, обеспечивающую бесперебойную работу и поступательное развитие софтверных систем любой сложности. Эта книга – кладезь опыта, накопленного компанией Google за долгие годы, коллективный труд многих выдающихся специалистов и незаменимый ресурс для любого инженера, желающего разрабатывать и поддерживать любые продукты максимально качественно и эффективно.

Cерия «Бестселлеры O’Reilly (Питер)»

Искусство управления IT-проектами

Пользовательские истории. Искусство гибкой разработки ПО

Все книги серии

Читать книгу онлайн

fb2.zip

fb2.ziptxttxt.ziprtf.zipa4.pdfa6.pdfmobi.prcepubios.epubfb3

Скачать

Добавленo: 15.10.2024 19:10Рейтинг: 4 Комментариев 0 шт.

Краткий пересказ:

Введение в Site Reliability Engineering (SRE)

Книга "Site Reliability Engineering: Надежность и безотказность как в Google" представляет собой коллективный труд инженеров Google, включая Бетси Бейер, и служит руководством по внедрению практик SRE. Основная идея SRE — объединение принципов разработки программного обеспечения и операционной работы для создания масштабируемых и надёжных систем. Философия SRE зародилась в Google как ответ на вызовы управления глобальными сервисами, где даже минутный простой может привести к значительным потерям. Инженеры SRE выступают мостом между командами разработки и операционными подразделениями, фокусируясь на автоматизации, измерении метрик и балансировке между скоростью внедрения новшеств и стабильностью.

Роль и обязанности инженеров SRE

Инженеры SRE — это гибридные специалисты, сочетающие навыки программирования и системного администрирования. Их ключевая задача — обеспечение надёжности сервисов через автоматизацию рутинных операций, таких как развёртывание, мониторинг и устранение инцидентов. Например, в Google SRE тратят не более 50% времени на операционные задачи, остальное — на разработку инструментов для снижения ручного труда. Важным аспектом является концепция "Error Budget" (бюджет ошибок), который определяет допустимый уровень сбоев сервиса. Если бюджет исчерпан, команда фокусируется на повышении стабильности, а не на внедрении новых функций. Это предотвращает конфликты между разработчиками, стремящимися к инновациям, и SRE, отвечающими за надёжность.

Управление надёжностью через SLO, SLI и SLA

Основу методологии SRE составляют три взаимосвязанные метрики: Service Level Indicators (SLI), Service Level Objectives (SLO) и Service Level Agreements (SLA). SLI — количественные показатели работы сервиса, такие как время отклика или частота ошибок. SLO — целевые значения этих показателей, например, доступность 99.9%. SLA — юридически оформленные обязательства перед клиентами, нарушение которых влечёт последствия. В Google установка SLO требует глубокого понимания пользовательских ожиданий. Например, для поисковой системы высокая задержка воспринимается болезненнее, чем для облачного хранилища. Правильно определённые SLO позволяют командам принимать обоснованные решения о приоритетах, избегая как избыточной, так и недостаточной оптимизации.

Автоматизация как краеугольный камень SRE

Автоматизация — центральный элемент философии SRE. В книге подчёркивается, что ручные операции не только неэффективны, но и опасны для крупномасштабных систем. Примером служит система Borg, используемая в Google для управления кластерами: она автоматически перераспределяет нагрузки, перезапускает упавшие сервисы и масштабирует ресурсы. Инженеры SRE создают инструменты для автоматического исправления распространённых проблем, таких как "чёрные пятницы" в логистике данных. Однако автоматизация требует тщательного тестирования — ошибочный скрипт может вызвать каскадный сбой. Поэтому в Google внедрены практики канареечных развёртываний и постепенного распространения изменений.

Мониторинг и реагирование на инциденты

Эффективный мониторинг в SRE строится на принципе "измеряй то, что важно для пользователя". Вместо отслеживания тысяч метрик фокус делается на четыре ключевых типа сигналов: задержки, трафик, ошибки и насыщение ресурсов. Система Monarch, разработанная в Google, агрегирует триллионы временных рядов данных в реальном времени. При возникновении инцидента SRE следуют строгому протоколу: установление факта сбоя, оценка воздействия, стабилизация системы и постмортем-анализ. Интересен подход к ротации дежурных: чтобы избежать выгорания, ни один инженер не дежурит более двух дней подряд, а время на анализ инцидентов включается в рабочие часы.

Постмортемы и культура обучения

В SRE failures treated as learning opportunities. Каждый значительный инцидент завершается постмортемом — документом, описывающим хронологию событий, коренные причины и action items для предотвращения повторов. Ключевой принцип: "Blameless Postmortem" — анализ без поиска виноватых. Например, после сбоя Google Drive в 2013 году команда выявила ошибку в логике квотирования ресурсов, что привело к созданию новых систем проверки конфигураций. Документы публикуются внутри компании для общего доступа, fostering culture of shared responsibility.

Управление изменениями и релизами

Процесс внедрения изменений в SRE включает multiple layers защиты. Канареечные релизы позволяют тестировать нововведения на небольшом проценте трафика перед полным развёртыванием. Система "Rapid" в Google автоматически откатывает изменения при обнаружении аномалий в метриках здоровья. Для рискованных операций, like схемы баз данных, применяется концепция "коррекционных рулей" — автоматических скриптов, способных отменить изменение за секунды. Эти практики снизили количество инцидентов, связанных с deployment, на 40% за два года.

Баланс между надёжностью и инновациями

Один из сложнейших аспектов работы SRE — поиск равновесия между стабильностью и необходимостью быстрого развития продуктов. Механизм Error Budgets играет здесь ключевую роль: пока сервис соответствует SLO, команда разработки может свободно выпускать обновления. При приближении к лимиту срабатывают автоматические блокировки релизов. В Google Play это позволило сократить количество критических сбоев на 25% без замедления темпов разработки. Другой пример — система "DiRT" (Disaster Recovery Testing), где команды специально вызывают сбои в продакшене для проверки устойчивости систем.

Реальные кейсы из практики Google

Книга насыщена примерами из опыта Google. Например, инцидент 2009 года, когда неправильная настройка GSLB (Global Server Load Balancing) привела к недоступности YouTube на 74 минуты. Расследование показало, что тестовые среды не полностью имитировали продакшн-конфигурации. Это привело к созданию системы "ProdTest", проверяющей изменения на совместимость с реальной инфраструктурой. Другой кейс — разработка алгоритмов машинного обучения для предсказания перегрузок в дата-центрах, что сократило энергопотребление на 15%.

Заключительные принципы и выводы

SRE — это не набор инструментов, а mindset, требующий культурных изменений в организации. Ключевые уроки включают: приоритет автоматизации над ручным трудом, измерение того, что действительно важно для пользователей, и создание среды, где ошибки ведут к улучшениям, а не наказаниям. Внедрение SRE-практик позволило Google добиться доступности основных сервисов на уровне 99.999% при тысячах ежедневных развёртываний. Книга служит roadmap для организаций, стремящихся достичь similar уровня надёжности без sacrifice скорости разработки.