Какие программы могут входить в поставку операционной системы для обеспечения ее отказоустойчивости

Специфика применения некоторых систем обусловливает особые требования, предъявляемые к надежности их функционирования. Отказ или сбой в их работе, повлекшие за собой неправильные результаты вычислений (или полное их отсутствие), могут привести к катастрофическим последствиям. Преимущества использования отказоустойчивых вычислительных систем непосредственно вытекают из необходимости продолжительной работы системы в условиях, когда техническое обслуживание (ремонт, замена и тд.) невозможны, труднореализуемы или сопряжены с большими экономическими затратами. Поэтому ВС и специализированные операционные системы разрабатываются таким образом, чтобы система была толерантна (терпима) к возникающим отказам. Особенно это актуально для автономных ЛА (например, космических аппаратов).

Сложность современных вычислительных средств такова, что практически невозможно проверить готовые изделия при всех предполагаемых условиях и режимах их работы. Поэтому в вычислительных системах могут быть скрытые – не проявившиеся при проверке – ошибки программного обеспечения и (или) неисправности аппаратуры, но благодаря отказоустойчивости сбой, отказ отдельного элемента как правило не приводят к искажению выходных данных.

Урок 21. Операционная система

В отличие от аппаратной части вычислительной системы появление ошибок в программе не связано с физическими процессами. Получение результатов, отличных от ожидаемых происходит в результате выполнения непроверенной части программы или в результате ошибки в программе.

Таким образом, получение ответа, отличного от ожидаемого, в некоторый момент времени есть результат выполнения непроверенной части программы, содержащей ошибку, задания входных данных, для которых поведение программы неспецифицировано, а также влияния отказов в аппаратуре на работу программы.

Предварительные исследования показали, что для элементной базы среднего качества (надежность 0.999 — “три девятки после запятой”) при оптимальном сочетании скорости получения результата на его надежность в вычислительной среде теоретически достижима достоверность получения правильных результатов машинного счета в “двести девяток после запятой” при замедлении темпа их получения в 300-400 раз [1], что эквивалентно увеличению надежности до 200 порядков величины при введении сравнительно небольшой вычислительной избыточности, приводящей к потере производительности не более чем на 2-3 порядка, что уже на современном уровне может компенсироваться подбором компьютеров требуемой производительности.

Понятие отказоустойчивости ВС.

Отказоустойчивостью будем называть свойство системы, позволяющее продолжить выполнение заданных программой действий после возникновения одного или нескольких сбоев или отказов компонентов ВС.

Отказом называется событие, заключающееся в нарушении работоспособности компонента системы. Последствия отказа могут быть различными. Отказ системы может быть вызван отказом (неверным срабатыванием) каких-то ее компонентов (процессор, память, устройства ввода/вывода, линии связи, или программное обеспечение). Отказ компонента может быть вызван ошибками при конструировании, при производстве или программировании. Он может быть также вызван физическим повреждением, изнашиванием оборудования, некорректными входными данными, и многими другими причинами.

ИНФОРМАТИКА 11 класс: Операционные системы | Видеоурок

Отказы могут быть случайными, периодическими или постоянными. Случайные отказы (сбои) при повторении операции исчезают. Причиной такого сбоя может служить, например, электромагнитная помеха. Другой пример — редкая ситуация в последовательности обращений к операционной системе от разных задач.

Периодические отказы повторяются часто в течение какого-то времени, а затем могут долго не происходить. Примеры — плохой контакт, некорректная работа ОС после обработки аварийного завершения задачи. Постоянные (устойчивые) отказы не прекращаются до устранения их причины — разрушения диска, выхода из строя микросхемы или ошибки в программе.

2.2. Причины и классификация отказов и сбоев

Отказы по характеру своего проявления подразделяются на византийские (система активна и может проявлять себя по-разному, даже злонамеренно) и пропажа признаков жизни (частичная или полная). Первые распознать гораздо сложнее, чем вторые.

Аппаратная реализация узлов (процессорных модулей) позволяет выделить основные классы отказов аппаратуры:

— отказ процессора (центральной части ПЭ);

— отказ линка — связи между ПЭ;

Идентификация отказа процессора какого-либо узла сети классифицируется, как отказ всего узла: он изолируется от остальной сети на логическом уровне и при наличии соответствующей поддержки отключается на аппаратном уровне (выключается питание).

Идентификация отказа линка (связи) приводит лишь к уменьшению степени связности узлов сети. Отказавший линк изолируется на логическом уровне путем изменения маршрутов передачи сообщений между узлами сети.

Отказ при исполнении функционального программного обеспечения может проявиться вследствие:

нарушения кодов записи программ в памяти команд;

стирания или искажения данных в оперативной или долговременной памяти;

нарушения нормального хода вычислительного процесса.

Перечисленные искажения могут действовать совместно. Отказ может проявляться в виде программного останова или зацикливания, систематического пропуска исполнения некоторой группы команд, однократного или систематического искажения данных и тд. Программные отказы приводят к прекращению выдачи абонентам информации и управляющих воздействий или к значительному искажению ее содержания и темпа выдачи, соответствующих нарушению работоспособности.

Читайте также:
Программа которая сама читает

Основная особенность (и достоинство) сетевой отказоустойчивой технологии — отсутствие какого-либо (даже самого незначительного) единственного компонента (ресурса), выход из строя которого приводит к фатальному отказу всей системы. Такая система не может содержать какого-либо «центрального» (главного) узла, размещенного в одном из процессорных элементов системы, она может состоять только из «равноправных» частей, размещенных в каждом узле сети. Таким образом можно говорить лишь о деградации качества системы при отказе одного или более ее элементов. В такой системе полный отказ наступает после выхода из строя только определенного количества ресурсов, определенного на этапе проектирования.

Методы и средства обеспечения отказоустойчивости

Для обеспечения надежного решения задач в условиях отказов системы применяются два принципиально различающихся подхода — восстановление решения после отказа системы (или ее компонента) и предотвращение отказа системы (отказоустойчивость).

Восстановление может быть прямым (без возврата к прошлому состоянию) и возвратное.

Прямое восстановление основано на своевременном обнаружении сбоя и ликвидации его последствий путем приведения некорректного состояния системы в корректное. Такое восстановление возможно только для определенного набора заранее предусмотренных сбоев.

При возвратном восстановлении происходит возврат процесса (или системы) из некорректного состояния в некоторое из предшествующих корректных состояний. При этом возникают следующие проблемы:

Потери производительности, вызванные запоминанием состояний, восстановлением запомненного состояния и повторением ранее выполненной работы, могут быть слишком высоки.

Нет гарантии, что сбой снова не повторится после восстановления.

Для некоторых компонентов системы восстановление в предшествующее состояние может быть невозможно (торговый автомат).

Для восстановления состояния в традиционных ЭВМ применяются два метода (и их комбинация), основанные на промежуточной фиксации состояния либо ведении журнала выполняемых операций. Они различаются объемом запоминаемой информацией и временем, требуемым для восстановления.

Применение подобных методов в распределенных системах наталкивается на следующие трудности:

Для распределенных систем запоминание согласованного глобального состояния является серьезной теоретической проблемой;

методы восстановления после отказов для некоторых систем непригодны из-за прерывания нормального функционирования и др;

Чтобы избежать эти неприятности, создают системы, устойчивые к отказам. Такие системы либо маскируют отказы, либо ведут себя в случае отказа заранее определенным образом.

По мере того как операционные системы реального времени и встроенные компьютеры все чаще используются в критически важных приложениях, разработчики создают новые ОС реального времени высокой готовности. Эти продукты включают в себя специальные программные компоненты, которые инициируют предупреждения, запускают системную диагностику для того, чтобы помочь выявить проблему, или автоматически переключаются на резервную систему.

Обеспечение живучести – это использование специальных средств, позволяющих системе продолжать правильное функционирование при возникновении отказов ее программных и аппаратных компонентов с возможностью деградации качества функционирования [2]. В отличие от отказоустойчивости, где с отказом не связано качество работы ВС, сравнительно сложные средства обеспечения живучести позволяют более рационально расходовать вычислительные ресурсы и увеличивать среднее время наработки до наступления фатального отказа. Обеспечение живучести обычно включает три основные функции: диагностика возникновения отказа, локализация неисправности и перестройка системы. В основе толерантности лежит избыточность как аппаратного, так и программного обеспечения. Поэтому многопроцессорные системы с присущей им аппаратной избыточностью потенциально позволяют создавать не только высокопроизводительные, но и высоконадежные системы.

Другим основополагающим требованием является наличие механизма, позволяющего агентам в каждом устройстве обмениваться топологической информацией со своими соседями посредством эффективных протоколов, не перегружающих сеть широковещательным управляющим трафиком. Каждый управляющий агент должен поддерживать таблицу с локальной топологической информацией. Кроме того, должен предоставляться механизм, практически в реальном времени модифицирующий содержимое базы данных и обеспечивающий правильное отображение топологических изменений, вызванных установкой новых устройств либо реконфигурацией или отказом существующих узлов сети.

Для обеспечения защиты вычислительного процесса программными методами используется программная, информационная и временная избыточности.

Под временной избыточностью понимается использование части производительности для получения диагностической информации о состоянии системы. Программная избыточность используется для контроля и обеспечения достоверности важных решений по управлению и обработке информации. Она заключается в применении нескольких вариантов программ в каждом узле системы (так называемое N-версионное программирование).

Сопоставление результатов независимых решений одного и того же фрагмента задачи называют элементарной проверкой, а совокупность всех проверок образует систему голосования, которое является основным источником диагностической информации о состоянии аппаратной части системы и вычислительного процесса в каждом активном узле системы. Два механизма широко используются при обеспечении отказоустойчивости — протоколы голосования и протоколы принятия коллективного решения.

Читайте также:
Что делает программа aida64

Протоколы голосования служат для маскирования отказов (выбирается правильный результат, полученный всеми исправными исполнителями).

Протоколы принятия коллективного решения подразделяются на два класса. Во-первых, протоколы принятия единого решения, в которых все исполнители являются исправными и должны либо все принять, либо все не принять заранее предусмотренное решение. Примерами такого решения являются решение о завершении итерационного цикла при достижении всеми необходимой точности, решение о реакции на отказ. Во-вторых, протоколы принятия согласованных решений на основе полученных друг от друга данных. При этом необходимо всем исправным исполнителям получить достоверные данные от остальных исправных исполнителей, а данные от неисправных исполнителей проигнорировать

Однако для систем на последней стадии их деградации (при отказе предпоследнего узла сети) на первый план в качестве диагностической информации выходят признаки исправности-неисправности, формируемые различными программно-аппаратными средствами контроля, такими как:

функциональный контроль вычислений с помощью специальных контрольных операторов и нескольких версий программ;

функциональный контроль входной и выходной информации;

контроль входной информации по специальным признакам и контрольным суммам;

контроль выходной информации по квитанции от приемника — абонента системного интерфейса;

контрольный тест аппаратуры процессора;

контрольные тесты аппаратуры внешнего и внутреннего интерфейсов.

встроенные аппаратные средства контроля процессорных элементов и контроллеров системного интерфейса.

Информационная избыточность состоит в дублировании исходных и промежуточных данных, обрабатываемых комплексом программ.

Часто для обнаружения состояния отказа используются тайм-ауты. В обычных системах исполнения предусматривается три различных вида обслуживания.

Неблокирующее обслуживание всегда возвращает управление немедленно вместе с достоверным кодом возврата (успех или неудача), однако, в случае отсутствия данного вида обслуживания, обратившаяся к нему задача может попасть в бесконечный цикл опроса. Блокирующее обслуживание избегает такого опроса путём исключения вызывающей задачи из процесса диспетчеризации до тех пор, пока данный сервис не станет доступным. Если этого не произойдет, то задача рискует навсегда остаться заблокированной. Механизм же таймаутов позволяет возвращать управление задаче, даже в случае, если указанный сервис не предоставляется ей в течение определенного периода времени.

Концепция построения и работы системы с рангом

В отказоустойчивых системах, построенных на N процессорных элементах, рангом отказоустойчивости будем называть максимальное количество отказов функциональных элементов (ПЭ), после возникновения которых система продолжает свое функционирование. Введем обозначение — N(m), которое означает, что система содержит N узлов (ПЭ) и «держит» m отказов, т.е. нормально функционируют до тех пор, пока остаются исправными (N-m) узлов. Следует заметить, что системы класса N(0) – относятся к самым быстродействующим системам, а N(N-1) – к самым отказоустойчивым.

В дальнейшем в работе будем рассматривать концепции построения и работы именно отказоустойчивых систем класса N(N-1). Данное ограничение означает, что в каждом ПЭ системы должен присутствовать весь набор функционального программного обеспечения, то есть каждый цикл ПЭ осуществляет полную обработку входных данных без участия других ПЭ.

Таким образом, специализированные операционные системы, поддерживающие свойство отказоустойчивости для данного класса ВС, должны обладать следующими свойствами:

Информация о работе «Разработка отказоустойчивой операционной системы реального времени для вычислительных систем с максимальным рангом отказоустойчивости»

Раздел: Информатика, программирование
Количество знаков с пробелами: 148576
Количество таблиц: 34
Количество изображений: 0

Источник: kazedu.com

Презентация на тему «Защищенность и отказоустойчивость ОС»

Презентация: Защищенность и отказоустойчивость ОС

Помогите другим пользователям — будьте первым, кто поделится своим мнением об этой презентации.

Добавить свой комментарий

Аннотация к презентации

Смотреть презентацию онлайн на тему «Защищенность и отказоустойчивость ОС» по информатике. Презентация состоит из 11 слайдов. Для студентов. Материал добавлен в 2016 году. Средняя оценка: 2.0 балла из 5..

Возможность скчачать презентацию powerpoint бесплатно и без регистрации. Размер файла 0.21 Мб.

Источник: pptcloud.ru

Какие программы могут входить в поставку операционной системы для обеспечения ее отказоустойчивости

Успешно изучив материал, Вы будете знать :

  • о видах сбоев в работе операционной системы;
  • о причинах возникновения сбоев;
  • о методах предотвращения сбоев.

После изучения данной темы Вы будете уметь :

  • классифицировать возникший сбой в работе системы;
  • диагностировать причины возникновения сбоя в работе системы и его последствия;
  • использовать различные методы предотвращения сбоев в работе операционной системы.

После изучения материала Вы будете обладать навыками :

  • диагностики сбоев в работе операционных систем;
  • обнаружения и устранения последствий сбоев;
  • предотвращения возникновения сбоев.

Основные понятия к теме 7
Защита ресурсов

Каждая операционная система должна обеспечивать некоторый уровень защищенности — как ресурсов, так и данных пользователей. Данные пользователей защищаются использованием механизма авторизации и разграничения прав доступа. Безопасность данных пользователей операционных систем регламентируется стандартом безопасности, рассмотренным ранее.

Читайте также:
На какой программе жарить картошку в мультиварке панасоник

Защиту ресурсов одних процессов от захвата другими процессами организовать не так сложно, как защиту данных пользователей, поскольку, хотя процессы и обладают большей свободой действий, чем большинство пользователей, в то же время процесс не обладает волей и способен выполнять только те действия, на которые запрограммирован. Поэтому вопросы защиты ресурсов от захвата решаются в рамках задачи планирования ресурсов.

Защита данных

Операционные системы включают в себя механизм авторизации доступа. Традиционно пользователь должен иметь учетную запись в операционной системе той машины, на которой работает, чтобы иметь возможность использовать машину для решения своих задач. Если машины объединены в локальную сеть, то учетная запись может храниться не на самой машине, а на сервере сети.

В случае когда профили пользователей хранятся на сервере, получить несанкционированный доступ к данным существенно сложнее, чем если бы профили хранились на конкретных машинах, поскольку серверы сети снабжены гораздо более криптостойким механизмом защиты данных , нежели рабочие станции. Проблема защиты данных пользователей от несанкционированного доступа также может решаться и самим пользователем. Существует ряд программных продуктов, позволяющих пользователям закрывать доступ к своим данным таким образом, что для чтения их на этой же машине необходимо знать пароль, а для взлома и получения доступа в обход системы защиты — принцип кодирования данных. Эти программные продукты используют такие алгоритмы кодирования данных, что попытка взлома защиты может растянуться на несколько лет.

Отказоустойчивость операционных систем

Отказоустойчивость — способность операционной системы восстанавливать свою работоспособность после сбоев как программного, так и аппаратного характера.

В идеале пользователь вообще не должен наблюдать никаких негативных последствий сбоев в работе операционной системы. Сбои программного характера могут возникать по различным причинам: например, вирусная атака, неосторожное обращение с системными файлами, конфликт драйверов устройств и многое другое. Аппаратные сбои могут возникать по причине несоблюдения условий эксплуатации оборудования, из-за некорректного монтажа плат на системную плату.

Для каждой категории причин возникновения программных сбоев существуют методы их предотвращения. Часть методов включается в руководства по операционным системам в виде обязательных рекомендаций. Например, в руководстве по любой операционной системе перечисляются файлы и папки, удаление которых приведет к серьезным нарушениям в работе операционной системы. Большая же часть методов реализуется в виде специализированных программных комплексов. Например, средства защиты от вирусных и сетевых атак, механизмы блокирования доступа к системным файлам, механизмы сохранения состояния системы.

К сожалению, не существует настолько же надежных методов предотвращения аппаратных сбоев, как в случае с программными сбоями. Если в случае вирусной атаки операционную систему можно восстановить с заранее сохраненного образа системы, то в случае замены какого-либо компонента может потребоваться переустановка операционной системы.

А если выйдет из строя носитель данных, то можно потерять важную информацию. Зачастую невозможно даже предугадать возникновение аппаратного сбоя и его последствия, в то время как программные сбои сравнительно легко прогнозируются и предотвращаются. Для того чтобы не возникали аппаратные сбои, необходимо соблюдать условия эксплуатации аппаратных компонентов компьютера. К примеру, попытка разбора жесткого диска приведет к необратимым повреждениям и гарантированной утрате информации.

Любая операционная система содержит программы, предотвращающие большинство стандартных сбоев, в том числе и средства мониторинга состояния аппаратных компонентов, но для предотвращения сбоев, возникающих по причине намеренных действий пользователей, необходимо устанавливать дополнительное программное обеспечение. Например, для отражения сетевых атак необходимо наличие в системе сетевого экрана, а для защиты от вирусных воздействий — комплекс антивирусной защиты.

  1. Операционная система должна обладать механизмами защиты ресурсов и данных пользователей.
  2. Операционная система должна обладать механизмами предотвращения программных и, по возможности, аппаратных сбоев.
  3. Для того чтобы избежать потери данных и порчи оборудования, необходимо использовать специализированное программное обеспечение и соблюдать условия эксплуатации оборудования.
  4. Защита данных может осуществляться как средствами самой операционной системы, так и с помощью специализированного программного обеспечения.
  1. Каким образом можно защитить данные от несанкционированного доступа?
  2. Какие причины возникновения программных сбоев вы знаете?
  3. Какими методами можно предотвратить программные сбои и их последствия?
  4. Почему аппаратные сбои опаснее, чем программные?
  5. Какие программы могут входить в поставку операционной системы для обеспечения ее отказоустойчивости?

Задания для самостоятельной работы

Выполните задания к теме 7 и пройдите тест в тетради-практикуме.

Источник: e-biblio.ru

Рейтинг
( Пока оценок нет )
Загрузка ...
EFT-Soft.ru