Баг CrowdStrike показал миру, что одно слабое звено в цепи может в мгновение ока привести к хаосу.

Как опытный ИТ-специалист с многолетним опытом работы за плечами, я не могу не испытывать чувство дежавю, читая о недавнем крахе Microsoft, вызванном CrowdStrike. Когда-то я был инженером в Microsoft, и позвольте мне рассказать вам истории, которые я мог рассказать о старых добрых временах!

Время от времени мероприятиям, связанным с технологиями, удается вырваться из поля зрения нашего специализированного сообщества и привлечь внимание более широкой публики. Такие инциденты, как перебои в обслуживании, сбои в программном обеспечении или нарушения кибербезопасности, часто происходят в технологическом секторе, но их влияние зачастую недостаточно значительно, чтобы поддерживать постоянный интерес за пределами нашей нишевой аудитории.

Как обеспокоенный гражданин, я никогда не сталкивался с такими сбоями, как в случае с CrowdStrike. Волновой эффект имел далеко идущие последствия, затронув здравоохранение, авиаперелеты и глобальные банковские операции. Даже культовые рекламные щиты на Таймс-сквер отображали страшные синие экраны смерти. Бесчисленные заголовки указывали на Microsoft и неисправные ПК с Windows как на основную причину этого хаоса.

Конечно, то, что вы говорите, не является в какой-то степени неправильным. Действительно, большое количество систем Microsoft Windows столкнулись с массовыми сбоями. Тем не менее, дальнейшее расследование вскоре показало, что, хотя Microsoft действительно способствовала возникновению проблемы, на самом деле основной причиной основной проблемы была другая компания, менее известная, чем Microsoft: CrowdStrike.

Первоначально CrowdStrike, менее известная компания по кибербезопасности, базирующаяся в Техасе, неожиданно оказалась втянутой в глобальную катастрофу. После того, как хаос утих, появились дополнительные подробности инцидента, проливающие свет на то, что произошло, и на его причины.

Когда мы обнаруживаем дополнительную информацию, возникают некоторые тревожные вопросы. Что этот широкомасштабный сбой говорит об устойчивости нашей взаимосвязанной глобальной сети? Как катастрофической уязвимости удалось проникнуть в несколько систем одновременно? И какие меры можно принять, чтобы избежать повторения подобных инцидентов, возможно даже в еще большем масштабе, в будущем?

Что случилось?

В пятницу, 19 июля, в 4:09 утра по всемирному координированному времени компания CrowdStrike внесла изменения в настройку контента для своего датчика Windows в системах, использующих платформу кибербезопасности Falcon. Это обновление выглядело безобидным по своей природе, поскольку CrowdStrike часто изменяет файлы конфигурации этих датчиков, которые они называют «файлами каналов». Эти корректировки являются неотъемлемой частью их механизмов безопасности, которые помогают обнаруживать потенциальные угрозы кибербезопасности.

Как опытный специалист по кибербезопасности с многолетним опытом работы за плечами, я могу с уверенностью сказать, что это конкретное обновление от компании меняет правила игры. Известные как обновления контента быстрого реагирования, они имеют решающее значение в нашей работе. Эти обновления поступают в форме «Экземпляров шаблонов», которые по сути являются проявлением типа шаблона. Эти шаблоны соответствуют определенному поведению, которое датчики должны отслеживать и обнаруживать, что делает их неотъемлемой частью надежной системы кибербезопасности Falcon. За свою карьеру я своими глазами видел, как эти экземпляры шаблонов укрепляют нашу защиту от потенциальных угроз, обеспечивая безопасность конфиденциальных данных и систем. Речь идет не только о новейших технологиях; речь идет об его эффективном использовании, и эти обновления позволяют нам сделать именно это.

Поддерживать актуальность своих знаний в темпе, соответствующем быстрому развитию кибербезопасности, может быть довольно сложной задачей, а без ошибок это становится еще сложнее. Однако эти обновления обычно проходят тщательный процесс тестирования. Завершающим этапом тестирования является проверяющий контент, отвечающий за проверку точности контента перед его публикацией.

В данном случае мы наблюдаем волновой эффект — наглядную демонстрацию того, как, казалось бы, незначительное обновление может вызвать значительные изменения в различных отраслях. В данном конкретном сценарии это затронуло даже некоторых поставщиков важной инфраструктуры.

По данным CrowdStrike, именно этот валидатор контента не справился со своими обязанностями.

Поскольку сбой в средстве проверки контента позволил ему одобрить контент с проблемами, один из двух экземпляров шаблона был проверен неправильно. Перед запуском типа шаблона 5 марта 2024 г. тестирование показало уверенность в проверках средства проверки контента и прошлых успешных развертываниях экземпляра шаблона IPC. В результате эти экземпляры были развернуты в производство.

Чтобы предоставить дополнительную информацию, CrowdStrike поделился внешним отчетом (в формате PDF), в котором подробно рассматриваются конкретные причины проблемы. По сути, в процессе тестирования случайно был обнаружен ошибочный файл, который быстро распространился на множество компьютеров одновременно.

После этого события дела пошли еще хуже. При получении данных из файла канала 291 в системе Windows это привело к превышению выделенной памяти, что привело к ошибке, известной как чтение памяти за пределами границ. Эта ошибка затем вызвала исключение, которое в конечном итоге привело к печально известному «Синему экрану смерти».

Кроме того, эти устройства оказались в ловушке непрерывного цикла перезапуска, в ходе которого они выходили из строя, перезагружались и снова выходили из строя. Для некоторых эта повторяющаяся проблема была просто неудобством, отмечая обычный рабочий день. Напротив, это создало серьезные проблемы для других.

В глобальных системах Microsoft начались сбои, что привело к множеству ситуаций, когда диспетчерам приходилось прибегать к использованию ручки и бумаги вместо своих цифровых систем. На Аляске звонки экстренных служб оставались без ответа в течение нескольких часов, в то время как многочисленные службы экстренной помощи по всему миру столкнулись с аналогичными проблемами. Приемы и процедуры к врачу были отложены из-за системных сбоев. В некоторых местах системы общественного транспорта остановились, в результате чего также прекратились полеты, банки и средства массовой информации.

Как заядлый геймер, я рад, что Microsoft и CrowdStrike приняли быстрые меры, чтобы остановить распространение недавней проблемы с обновлением, и CrowdStrike оперативно предоставил исправленный файл обновления. Однако последствия этого инцидента уже вызвали настоящий переполох в игровом сообществе, заставив многих из нас изо всех сил пытаться справиться с хаосом, который он создал.

Какое-то время предлагались временные решения, такие как перезагрузка устройств. На странице состояния Microsoft Azure пользователям предлагалось неоднократно перезапускать свои проблемные системы, намекая на то, что некоторые клиенты перезагружали свои системы до 15 раз, прежде чем система смогла установить неповрежденное обновление. Другие предложения включали запуск затронутых компьютеров в безопасном режиме и ручное удаление неисправного файла обновления или в качестве альтернативы подключение работающих виртуальных дисков для восстановления виртуальных машин.

1. Генеральный директор CrowdStrike публично извинился. ИТ-специалисты готовились к выходным, сосредоточившись на ремонте компьютеров, на которых возникли циклы загрузки. В конце концов, Microsoft представила инструмент восстановления, а также объявила, что уязвимо около 8,5 миллионов устройств Windows. Они заявили, что мобилизовали сотни инженеров и экспертов для восстановления пострадавших служб.

Таким образом, после завершения мероприятия страховая компания Parametrix подсчитала, что незастрахованные финансовые потери среди 500 крупнейших компаний США по выручке (исключая Microsoft) составили примерно 5,4 миллиарда долларов. Застрахованная часть этих убытков оценивалась в сумму от 540 до 1,08 миллиарда долларов.

Какие меры принимаются, чтобы предотвратить повторение подобного инцидента, сообщает CrowdStrike? Их внутренние процедуры тестирования в настоящее время находятся под пристальным вниманием. Компания взяла на себя обязательство улучшить тестирование контента Rapid Response Content и внедрить дополнительные проверки, чтобы предотвратить повторное распространение подобного проблемного контента в будущем.

Но здесь есть более широкая проблема, и частично она связана с Облаком.

Слабое звено в цепи

В современном глобально переплетенном обществе поставщикам обширных услуг, таким как Microsoft, стало сложно управлять критически важными аспектами, такими как кибербезопасность и обновления во всех своих сетях, из-за огромного масштаба. Следовательно, они полагаются на внешних поставщиков услуг, чьи возможности включают быстрые, одновременные и общесистемные обновления для эффективного противодействия возникающим угрозам.

По сути, это похоже на предоставление постороннему человеку доступа в ваш дом для проверки замков, пока вас нет, с пониманием того, что могут произойти несчастные случаи, которые потенциально могут повредить ваш драгоценный антиквариат. Даже при самых благих намерениях могут случиться ошибки. Если вы лично не контролируете ситуацию (в данном случае Microsoft этого не делает), третья сторона должна гарантировать, что во время процесса не будет причинен вред.

Если CrowdStrike столкнется с проблемами, в конечном итоге Microsoft может столкнуться с основной тяжестью вины из-за общественного мнения. Хотя CrowdStrike может быть в центре внимания заголовков новостей, Microsoft часто ассоциируется с ним, учитывая преобладание изображений синего экрана и нестабильности Windows в общественном сознании, что для многих людей стало символом «системной ошибки».

Многие энтузиасты Linux часто хвастались тем, что они довольны тем, что избегают широко используемой операционной системы Microsoft. Однако сбой, затронувший несколько систем на базе Linux, вызванный CrowdStrike, произошел всего за месяц до этого. Несмотря на этот инцидент, влияние на учреждения и внимание средств массовой информации было не таким значительным, как от аналогичной проблемы, связанной с Microsoft, во многом из-за обширного охвата экосистемы Windows.

Дэвид Пламмер поделился интригующим наблюдением о контрасте между текущей деятельностью и временем, проведенным в Microsoft в качестве инженера. По сути, в то время как конструкции и драйверы Windows должны пройти тестирование WHQL (Лаборатории качества оборудования Windows) и пройти строгий процесс, облачная система требует загрузки и запуска кода, который не был явно протестирован Microsoft. Если этот непроверенный код даст сбой, это потенциально может вывести из строя всю систему.

Взаимосвязь и эффект бабочки

Кроме того, существует проблема общей возможности подключения, поскольку многие важные системы теперь в значительной степени полагаются на облачные сервисы и обновления через Интернет. Даже при подготовке и тщательных проверках из-за этой взаимосвязанности мелкие ошибки могут быстро усугубляться. Фактически, он может распространиться настолько быстро, что ему удалось одновременно вывести из строя миллионы устройств, многие из которых были жизненно важны для управления большой сетью других устройств.

В условиях быстро обостряющейся ситуации, когда растет количество кибератак и многочисленные сторонние организации пытаются им противостоять, быстрые действия имеют решающее значение. Битва между киберпреступниками и поставщиками услуг кибербезопасности продолжается, и промедление с действиями означает отставание. Примечательно, что суть этого вопроса вращается вокруг быстрого реагирования.

По словам профессора Муттукришнана Раджараджана, который специализируется на инженерии безопасности и возглавляет Институт кибербезопасности Лондонского городского университета, он подчеркивает:

В игровом мире, как и в наших цифровых битвах, враги постоянно совершенствуют свои стратегии. Это создает настоящую проблему для разработчиков игр, которые находятся под огромным давлением, требующим укрепления своих систем, чтобы не отставать. Проблема заключается в том, что ресурсы для этих обновлений не безграничны. Нам нужно действовать осторожно, потому что в нашей цепочке поставок существует сложная сеть зависимостей, а это значит, что каждое наше движение может повлиять на другие аспекты игры. Это похоже на стратегическую настольную игру, где одно неверное движение может разрушить весь ваш план!

Как опытный профессионал с многолетним опытом работы в различных отраслях, я воочию стал свидетелем преобразующей силы, казалось бы, небольших изменений. Одно-единственное обновление может вызвать волновой эффект, который затронет несколько секторов и даже поставщиков критически важной инфраструктуры, в чем я неоднократно сталкивался за свою карьеру. Это научило меня всегда сохранять непредвзятость, когда дело касается инноваций и улучшений, поскольку потенциальное воздействие может быть далеко идущим и глубоким.

Важно отметить, что недавняя проблема, возникшая из-за CrowdStrike и затронувшая системы Microsoft, не обязательно исключает других крупных поставщиков облачных технологий от подобных системных сбоев. Учитывая, что Microsoft — не единственная компания, зависящая от ограниченного числа поставщиков услуг, таких как CrowdStrike, в вопросах кибербезопасности, вполне вероятно, что подобные инциденты могут произойти и с другими поставщиками технологий.

В современной цифровой среде небольшая слабость в одной системе может вызвать цепную реакцию, которая повлияет на инфраструктуру во всем мире, подобно тому, как трепет крыльев бабочки вызывает бурю на другом конце света. Считается, что в настоящее время около 15 глобальных компаний контролируют около 62% рынка услуг кибербезопасности. Это означает, что необычно большое количество обязанностей сосредоточено в пределах ограниченного числа организаций, что может быть рискованно, если что-то произойдет.

Несмотря на то, что инцидент CrowdStrike разрешен и извлечены ценные уроки, устранение его основных причин остается сложной задачей. Кибер-сфера обширна, внутренне взаимосвязана и постоянно развивается ускоренными темпами. Хотя более строгое тестирование, улучшенные процедуры и более надежные системы выпуска могут помочь свести к минимуму такие инциденты, основная проблема заключается в сложной взаимосвязанной системе, которая требует как скорости, так и широкого доступа к многочисленным машинам для эффективной работы в целом. Одна-единственная уязвимость или неправильно организованное обновление могут вызвать последствия с угрожающей скоростью.

Как геймер, я столкнулся с катастрофическим обновлением, которое пронеслось по нашей игровой сети, как лесной пожар, оставив после себя разрушенными бесчисленные системы. Фраза «двигаться быстро, ломать вещи», казалось, в этом случае обрела собственную жизнь, что привело к прискорбному обилию сломанных элементов.

Смотрите также

2024-08-08 15:03