Например, Бобцов

АНАЛИЗ ВЛИЯНИЯ НАКОПЛЕНИЯ ОТКАЗОВ КОММУНИКАЦИОННЫХ СРЕДСТВ НА СНИЖЕНИЕ КОММУНИКАЦИОННЫХ ВОЗМОЖНОСТЕЙ КОМПЬЮТЕРНЫХ СИСТЕМ С РЕЗЕРВИРОВАНИЕМ

АНАЛИЗ ВЛИЯНИЯ НАКОПЛЕНИЯ ОТКАЗОВ КОММУНИКАЦИОННЫХ СРЕДСТВ …
3 КОМПЬЮТЕРНЫЕ СИСТЕМЫ И ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ
УДК 004.3
АНАЛИЗ ВЛИЯНИЯ НАКОПЛЕНИЯ ОТКАЗОВ КОММУНИКАЦИОННЫХ СРЕДСТВ НА СНИЖЕНИЕ КОММУНИКАЦИОННЫХ ВОЗМОЖНОСТЕЙ КОМПЬЮТЕРНЫХ
СИСТЕМ С РЕЗЕРВИРОВАНИЕМ
В.А. Богатырев, Е.Ю. Котельникова
Анализируется влияние накопления отказов сетевых адаптеров и магистралей (коммутаторов) на снижение коммуникационных возможностей типовых структур компьютерных систем с резервированием коммуникационных средств, оценено отрицательное влияние числа и комбинаторного расположения отказавших сетевых адаптеров на снижение производительности коммуникационной подсистемы. Ключевые слова: отказоустойчивость, деградация, коммуникационная подсистема, среднее время пребывания запросов.
Введение
Высокая отказоустойчивость и производительность распределенных компьютерных, особенно управляющих, систем обеспечивается резервированием вычислительных и телекоммуникационных средств. Интенсивность снижения эффективности коммуникационной подсистемы зависит от числа и комбинаторного расположения отказавших сетевых адаптеров, связывающих компьютерные узлы с резервированными коммуникационными средствами (коммутаторами или магистралями).
Целью статьи является анализ влияния комбинаторного расположения отказавших сетевых адаптеров, связывающих компьютеры с резервированными коммуникационными средствами, на отказоустойчивость и снижение эффективности функционирования коммуникационной подсистемы.
Типовые структуры компьютерных систем с резервированной коммуникационной подсистемой
Типовые структуры управляющих компьютерных систем предусматривают резервирование коммуникационной подсистемы, построенной на основе магистралей или коммутаторов. Структура компьютерной системы, содержащей m равноправных компьютерных узлов, объединенных через n магистралей, приведена на рис. 1, а, а через n коммутаторов – на рис. 1, б. Структура двухуровневой компьютерной системы (например, с выделением клиентских и серверных компьютеров) приведена на рис. 2. Подключение компьютерного узла к одной магистрали или порту коммутатора требует одного сетевого адаптера (СА).
Состояние рассматриваемых резервированных коммуникационных подсистем отображается матрицей sij nm , элемент которой sij=1, если j-й узел способен к взаимодействию с i-й исправной магистралью (i-м коммутатором), т.е. осуществляющий соответствующее подключение адаптер исправен, в противном случае sij=0. В исходном состоянии при полнодоступном подключении компьютерных узлов к магистралям (коммутаторам) все элементы матрицы sij=1. При неполнодоступном подключении или в результате отказов часть элементов матрицы могут быть нулевыми [1]. При отказе i-й магистрали (коммутатора) все элементы i-й строки равны нулю.
34 Научно-технический вестник Санкт-Петербургского государственного университета
информационных технологий, механики и оптики, 2010, № 1(65)

В.А. Богатырев, Е.Ю. Котельникова
аб Рис. 1. Одноуровневая организация компьютерной системы: а – с резервированием
магистралей, б – с резервированием коммутаторов

Рис. 2. Двухуровневая организация компьютерной системы
Постановка задачи
Работоспособность и эффективность состояний коммуникационной подсистемы зависят не только от числа отказавших адаптеров и магистралей, но и от их комбинаторного расположения. В статье проводится оценка влияния накопления отказов сетевых адаптеров и магистралей (коммутаторов) на снижение коммуникационных возможностей типовых структур компьютерных систем с резервированием коммуникационных средств. Ставится задача оценки отказоустойчивости и эффективности взаимосвязи компьютерных узлов через коммуникационную подсистему при возникновении
различных комбинаций отказов сетевых адаптеров, отображаемых матрицей sij . При бесприоритетной (циклической или случайной) дисциплине выбора магист-
ралей для передачи оценивается влияние размещения отказавших адаптеров на сбалансированность загруженности различных магистралей и на среднее время пребывания запросов (пакетов) в коммуникационной подсети. Предполагается идентичность параметров всех однотипных коммуникационных средств и независимость их отказов. Функционирование компьютерных и коммуникационных узлов (коммутаторов или магистралей) представляется простейшими системами массового обслуживания типа M/M/1 с бесконечной очередью.
Условия работоспособности коммуникационной подсистемы
Для одноуровневых систем будем считать, что компьютерная система работоспособна, если между любой парой из m компьютерных узлов осуществима взаимосвязь хотя бы по одной из n магистралей для систем по рис. 1, а, или хотя бы через один коммутатор для систем по рис.1, б. Для двухуровневых систем по рис. 2 условие работоспособности коммуникационной подсистемы заключается в обеспечении взаимосвязи между компьютерными узлами разных уровней (например, между рабочими станциями и серверами), причем взаимосвязь между компьютерными узлами одного уровня

Научно-технический вестник Санкт-Петербургского государственного университета информационных технологий, механики и оптики, 2010, № 1(65)

35

АНАЛИЗ ВЛИЯНИЯ НАКОПЛЕНИЯ ОТКАЗОВ КОММУНИКАЦИОННЫХ СРЕДСТВ …

не обязательна. Для одноуровневых вычислительных систем (рис. 1) взаимосвязь между a-м и b-м узлами поддерживается по i-ой магистрали, если сетевые адаптеры, связывающие с ней a-й и b-й узлы, исправны, т.е. имеется хотя бы одна строка матри-

цы

sij

, у которой в a-м и b-м столбцах находятся единичные элементы.
nm

Таким образом, для одноуровневых вычислительных систем признак отказа –

возможность выделения в матрице sij nm подматрицы из двух столбцов (a-го и b-го),
в каждой строке которой содержится не более одной единицы [9]. В этом случае отказ
коммуникационной подсистемы возможен только после отказа =n адаптеров. Максимальное число отказавших СА, при котором возможно сохранение функционирования
системы, =(n–1)m. Заметим, что при отказе (n–1)m СА система работоспособна, если все m исправных СА подключены к одной из n магистралей.
Для двухуровневых вычислительных систем (рис. 2) выделим в матрице

sij nm две подматрицы S1 и S2 ( размерности n  m1 и n  m2 , m1  m2  m ), первая
из которых отображает исправность адаптеров подключения к магистралям клиентов, а вторая – серверов.
Таким образом, для двухуровневых вычислительных систем признак отказа – воз-

можность выделения в матрице sij nm подматрицы S12 из двух столбцов (a-го и b-го), один из которых принадлежит подматрице S1, а второй подматрице – S2, причем в каждой строке S12 содержится не более одной единицы [9].

Показатели отказоустойчивости коммуникационной подсистемы

Система показателей отказоустойчивости коммуникационной подсистемы должна отражать динамику сохранения эффективности при возникновении одного, двух или большего числа отказов СА.
Отказоустойчивость коммуникационной подсистемы характеризуют [2–5] сле-
дующие параметры:  – минимальное число и распределение отказов сетевых адаптеров и магистралей (коммутаторов), которое может привести к нарушению ее связности,
т.е. к отказу коммуникационной подсистемы ( – число элементов, образующих мини-
мальное сечение);  – максимальное число отказов СА, при котором возможно сохранение работоспособности коммуникационной подсистемы.
Условная вероятность сохранения работоспособности (связанности) резервированной коммуникационной подсистемы при наличии s отказов СА и N–n отказов маги-
стралей (коммутаторов) вычисляется как sn =N s /Csmn, где Csmn и Ns – общее число и число работоспособных состояний системы при условии возникновения s отказов СА
(s≤) и целостности n магистралей (коммутаторов). Среднее число выдерживаемых коммуникационной подсистемой отказов СА s*
при условии исправности n магистралей (коммутаторов) равно

  s*= s 1 sn Cms n pnms (1 p)s , s 1
где p – надежность (вероятность работоспособности) СА. Среднее число выдерживаемых коммуникационной подсистемой отказов СА S с учетом состояний при различной кратности отказов магистралей (коммутаторов) равно
N
   S  CNn p0n (1 p0 )Nn s 1 sn Cms n pnms (1 p)s , n1 s1
где p0 – надежность (вероятность работоспособности) одного коммутатора (магистрали).

36 Научно-технический вестник Санкт-Петербургского государственного университета
информационных технологий, механики и оптики, 2010, № 1(65)

В.А. Богатырев, Е.Ю. Котельникова

Исследуемые системы относятся к категории сложных систем с множеством рабо-

тоспособных состояний, обладающих различной эффективностью взаимосвязи, поэто-

му в качестве основного показателя надежности таких систем рекомендуется [4, 5] ко-

эффициент сохранения эффективности Кэф. При расчете Кэф каждому состоянию объекта, определенному совокупностью состояний его элементов (СА), сопоставляется доля

сохраняемой номинальной эффективности от 0 до 1 [4]. Для коммуникационной под-

системы эффективность состояний определим величиной, обратной среднему времени пребывания в системе запросов на передачу кадров. В этом случае коэффициент сохра-

нения эффективности определим как

N
 Kэф  CNn p0n (1 p0 )N n EsnsnCms n pnms (1 p)s , n1 s1
где Esn=w/wsn, а w и wsn – соответственно среднее время пребывания кадров (запросов) в исходном состоянии системы (без отказов СА и магистралей) и в системе с отказом s СА и N–n магистралей.
Условную вероятность сохранения работоспособности (связанности) резервиро-

ванной коммуникационной при наличии s отказов СА и (N–n) отказов магистралей (коммутаторов) для одноуровневых компьютерных систем можно приближенно вычислить на основе комбинаторного метода включения исключения [6–9]:

βsn

 1 Cns(mn1) (m  Сm2 2n1) Cms n

.

Оценка влияния накопления отказов на снижение эффективности коммуникационной подсистемы

Снижение эффективности функционирования по мере накопления отказов, выраженное как Esn=w/wsn, во многом определяется влиянием на среднее время пребывания запросов (кадров) несбалансированности каналов взаимосвязи, возникающей при существенной разнице числа исправных СА, подключенных к разным магистралям (коммутаторам).
Каждое состояние коммуникационной подсистемы представляется матрицей

sij

, при этом среднее время пребывания запросов при распределении потока за-
nm

просов по всем исправным магистралям определяется как

Tsn



n i 1

biv 1 biv

,

где bi – вероятность передачи кадра через i-ю магистраль (коммутатор), v – среднее время передачи кадра через магистраль, λ – интенсивности входного потока запросов

на передачу кадров между компьютерами.

Зависимости доли сохранения эффективности относительно исходного состояния

(при исправности всех коммуникационных средств) вычислим как

 n b v 

Esn



 

i 1

i
1 biv

 



  

1

v  v

  

.

 n

Для одноуровневых вычислительных систем (рис. 1), содержащих m компьютеров и n магистралей (коммутаторов), вероятность передачи через i-ю магистраль составляет

b  C2

i

m  sij

j1

n

C2 m

,

i 1

 sij j1

Научно-технический вестник Санкт-Петербургского государственного университета информационных технологий, механики и оптики, 2010, № 1(65)

37

АНАЛИЗ ВЛИЯНИЯ НАКОПЛЕНИЯ ОТКАЗОВ КОММУНИКАЦИОННЫХ СРЕДСТВ …

где числитель определяет число всевозможных пар компьютеров, связь между которыми возможна по i-й магистрали.
Для двухуровневых вычислительных систем (рис. 2) с n магистралями (коммутаторами), содержащих m компьютеров, в том числе m1 клиентских и m2 серверных узлов, вероятность передачи через i-ю магистраль равна

  m1   m2



bi   sij  

sij 

 j1   jm1 1 

  n  m1   m2



 sij  

sij  ,

i1  j1   jm11 

а для двухуровневых компьютерных систем при серверах, подключенных к n магистра-

лям (коммутаторам) через все исправные СА,

m nm

  bi  sij

sij .

j1 i1 j1

В последнем случае зависимостям среднего времени пребывания кадров от интен-

сивности входного потока λ при связанности клиентских компьютеров с магистралями,

представленной матрицами S1 вида

1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 0 0 0 0 1 1 1 1 0 0 0 , 1 1 1 1 1 0 1 1 1 1 1 , 1 0 0 0 0 0 0 0 0 0 1 , 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 0
соответствуют кривые 1–3 на рис. 3 (подматрица S2 содержит все единицы). Расчеты проведены при среднем времени передачи кадра v=1 с.
Зависимости доли сохранения эффективности E после отказов СА для второй и третьей матриц S1 относительно исходного состояния при v=1 с представлены кривыми 2 и 1 на рис. 4.

Рис. 3. Среднее время пребывания кадров в коммуникационной подсистеме
Из представленных на рис. 3 и 4 графиков следует, что при равномерном распределении единиц в матрице S (характеризующем расположение исправных СА) существенно повышается эффективность конфигурации (даже при одинаковом числе сохраненных СА), следовательно, при выборе структур с неполнодоступным подключением компьютеров к коммутаторам (магистралям) следует решать оптимизационную задачу.
38 Научно-технический вестник Санкт-Петербургского государственного университета
информационных технологий, механики и оптики, 2010, № 1(65)

В.А. Богатырев, Е.Ю. Котельникова

Рис. 4. Доля сохранения эффективности при отказах адаптеров относительно исходного состояния
Выводы
Оценено отрицательное влияние накопления отказов сетевых адаптеров и магистралей (коммутаторов) на снижение коммуникационных возможностей типовых структур компьютерных систем с резервированием коммуникационных средств.
Предложена оценка отрицательного влияния отказов сетевых адаптеров на сбалансированность коммуникационной системы, снижающую ее производительность, для одноуровневых и многоуровневых вычислительных систем в зависимости от взаиморасположения отказавших сетевых адаптеров.
Рассмотренные оценки рекомендуются к использованию при выборе протоколов взаимосвязи, обеспечивающих после возникновения отказов сетевых адаптеров сбалансированность нагрузки резервированной коммуникационной подсистемы.
Литература
1. Богатырев В.А. Отказоустойчивость и сохранение эффективности функционирования многомагистральных распределенных вычислительных систем // Информационные технологии. – 1999. – № 9. – С. 44–48.
2. Волик Б.Г. О дискуссии на IV Всесоюзном совещании «Надежность, живучесть и безопасность автоматизированных комплексов» // Приборы и системы управления. – 1989. – № 11. – С. 2–3.
3. Черкесов Г.Н. Методы и модели оценки живучести сложных систем. – М.: Знание, 1987. – 56 с.
4. ГОСТ 27.003-90. Надежность в технике. Состав и общие правила задания требований по надежности. – М.: Издательство стандартов, 1991. – 27 с.
5. ГОСТ 27.301-95. Надежность в технике. Расчет надежности. Основные положения. – М.: Издательство стандартов, 1996. – 15 с.
6. Богатырев В.А. К оценке среднего времени ожидания передачи кадров через резервированный канал с ограниченными коммуникационными возможностями магистралей // Автоматика и вычислительная техника. – 1998. – № 1. – С.77–80.

Научно-технический вестник Санкт-Петербургского государственного университета информационных технологий, механики и оптики, 2010, № 1(65)

39

ЧИСЛЕННОЕ МОДЕЛИРОВАНИЕ ПЕРЕХОДНЫХ ПРОЦЕССОВ …

7. Богатырев В.А. Комбинаторный метод оценки отказоустойчивости многомагистрального канала // Методы менеджмента качества. – 2000. – № 4. – С. 30–35.
8. Богатырев В.А. Комбинаторно-вероятностная оценка надежности и отказоустойчивости кластерных систем // Приборы и системы. Управление, контроль, диагностика. – 2006. – № 6. – С.21–26.
9. Богатырев В.А. Надежность и эффективность резервированных компьютерных
сетей // Информационные технологии. – 2006. – № 9. – С. 25–30.

Богатырев Владимир Ана- – Санкт-Петербургский государственный университет информаци-

тольевич

онных технологий, механики и оптики, доктор технических наук,

профессор, Vladimir.bogatyrev@gmail.com

Котельникова Елена Юрьевна – Санкт-Петербургский государственный университет информаци-

онных технологий, механики и оптики, аспирант,

elka842@yandex.ru.

40 Научно-технический вестник Санкт-Петербургского государственного университета
информационных технологий, механики и оптики, 2010, № 1(65)