Ранговые распределение. Ранговые распределения для определения пороговых значений сетевых переменных и анализа DDoS атак Модели рангового распределения в экономике

1. Кудрин Б.И. Введение в технетику. – 2-е изд., перераб., доп. – Томск: ТГУ, 1993. – 552 с.

2. Математическое описание ценозов и закономерности технетики. Философия и становление технетики / под ред. Б.И. Кудрина // Ценологические исследования. – Вып. 1-2. – Абакан: Центр системных исследований, 1996. – 452 с.

3. Гнатюк В.И. Закон оптимального построения техноценозов: монография. – Выпуск 29. Ценологические исследования. – М.: Изд-во ТГУ – Центр системных исследований, 2005. – 452 с. (http://www.baltnet.ru/~gnatukvi/ind.html).

4. Гурина Р.В. Ранговый анализ образовательных систем (ценологический подход): методические рекомендации для работников образования. – Вып.32. «Ценологические исследования». – М.: Технетика, 2006. – 40 с. (http://www.gurinarv.ulsu.ru).

5. Гурина Р.В., Дятлова М.В., Хайбуллов Р.А. Ранговый анализ астрофизических и физических систем // Казанская наука. – 2010. – №2. – С. 8-11.

6. Гурина Р.В., Ланин А.А. Границы применимости закона рангового распределения // Техногенная самоорганизация и математический аппарат ценологических исследований. – Вып. 28. «Ценологические исследования». – М.: Центр системных исследований, 2005. –С. 429-437.

7. Хайбуллов Р.А. Ранговый анализ космических систем // Известия ГАО в Пулкове. Труды второй Пулковской молодёжной конференции. – СПб., 2009. – № 219. – Вып. 3. – С. 95-105.

8. Учайкин М.В. Применение закона рангового распределения к объектам Солнечной системы // Известия ГАО в Пулкове. Труды второй Пулковской молодёжной конференции. – СПб., 2009. – № 219. – Вып. 3. – С. 87-95.

Под ранговым распределением (РР) понимается распределение, полученное в результате процедуры ранжирования последовательности значений параметра, поставленных соответственно рангу. Ранг r - это номер особи по порядку в РР. Ранжирование - процедура упорядочения объектов по степени выраженности какого-либо качества в порядке убывания этого качества. Реальные РР могут выражаться различными математическими зависимостями и иметь соответственный графический вид, однако, наиболее важными являются гиперболические ранговые распределения (ГРР), так как они отражают признак «ценозности» - принадлежности совокупности ранжируемых объектов (элементов, особей) к ценозам. Теория ценозов применительно к техническим изделиям была разработана профессором МЭИ Б.И. Кудриным более 30 лет назад (www kudrinbi.ru) и успешно внедрена в практику . Методики построения ГРР и их последующее использование в целях оптимизации ценоза составляют основной смысл рангового анализа (РА) (ценологического подхода), содержание и технология которого представляют собой новое направление, сулящее большие практические результаты. Закон гиперболического рангового распределения особей в техноценозе (Н-распределение) имеет вид :

W = A / r β (1)

где W - ранжируемый параметр особей; r - ранговый номер особи (1,2,3….); А - максимальное значение параметра лучшей особи с рангом r =1, т.е. в первой точке; β - ранговый коэффициент, характеризующий степень крутизны кривой РР (для техноценозов 0,5 < β < 1,5 ).

Если ранжируется какой-либо параметр ценоза, то РР называется ранговым параметрическим. Подчинённость сообщества особей закону ГРР (1) - главный признак ценоза, но недостаточный. Кроме этого признака, ценозы, в отличие от других сообществ, имеют общую среду обитания, а его объекты включены в борьбу за ресурсы.

В.И. Гнатюком разработан метод РА для оптимизации технических систем-ценозов . Возможности практического использования РА в педагогике описаны Р.В. Гуриной (http://www.gurinarv.ulsu.ru), а также разработана методика его применения в этой области . Количество особей в ценозе определяет мощность популяции. Терминология пришла из биологии, из теории биоценозов. «Ценоз» - это сообщество. Термин биоценоз, введённый Мёбиусом (1877), лёг в основу экологии как науки. Б.И. Кудрин перенес понятия «ценоз», «особь», «популяция», «вид» а из биологии в технику: в технике «особи» - отдельные технические изделия, технические параметры, а многочисленную совокупность технических изделий (особей), РР которых выражается законом (1) называют техноценозом .

В социальной сфере «особи» - это люди, организованные в социальные группы (классы, учебные группы), тогда мощность популяции - это количество учащихся в группе. Школа - это тоже социоценоз, состоящий из особей - отдельных структурных единиц - классов. Здесь мощность популяции - количество классов в школе. Совокупность школ - это ценоз более крупного масштаба, где особью, структурной единицей данного ценоза является школа. В качестве ранжируемых параметров W в техноценозах выступают технические или физические параметры, характеризующие особь, например, размер, масса, мощность потребления, энергия излучения и т.д. В социоценозах, в частности педагогических ценозах, ранжируемые параметры - это успеваемость, рейтинг в баллах участников олимпиад или тестирования; число учащихся, поступивших в вузы и так далее, а ранжируемыми особями выступают сами учащиеся, классы, учебные группы, школы и так далее.

Исследования последних лет показали, что совокупности космических объектов многих систем (галактики, солнечная система, скопления галактик и т.д.) представляют собой ценозы (космоценозы, астроценозы) . Однако, астроценозы отличаются от теноценозов и социоценозов тем, что человек не может влиять на из состояние, изменять и оптимизировать их. В космосе объекты жёстко связаны между собой силами тяготения, определяющими их поведение. Специфика астроценозов до конца не выяснена, метод РА применительно к астроценозам не разработан, что определило цель настоящего исследования. Цель разделилась на ряд задач:

1. Изучение метода РА, выяснение возможности применимости метода РА к астрофизическим системам-ценозам (т.е. в какой мере РА применим к астроценозам).

2. Пошаговое описание применения метода РА для астроценозов.

После изучения методики применения РА для техноценозов , были выделены её общие (универсальные) элементы, которые распространяются на все виды ценозов. Таким образом, метод РА включает следующие универсальные этапы-процедуры.

1. Выделение ценоза - совокупности объектов изучаемого сообщества (системы).

2. Выделение параметров ранжирования. Такими параметрами могут выступать масса, размеры объектов, стоимость, энергетическая надежность, процентное содержание элемтентов в составе исследуемого объекта, баллы ЕГЭ участников тестирования и т.д.

3. Параметрическое описание ценоза. Создание электронной таблицы (базы данных), содержащей систематизированную информацию о параметрах отдельных особей ценоза.

4. Построение табулированного эмпирического РР. Табулированное РР представляет собой таблицу из двух столбцов: параметров особей W выстроенных по рангу и рангового номера особи r (r = 1,2,3…). Первый ранг имеет особь с максимальным значением параметра, второй ранг имеет особь с наибольшим значением параметра среди остальных особей и т.д.

5. Построение графического эмпирического РР. График эмпирической ранговой кривой имеет вид гиперболы: по оси абсцисс откладывается ранговый номер r , по оси ординат - исследуемый параметр W, рис.1, а. Все данные берутся из табулированного РР.

Рис. 1. Гипербола (а) и «спрямленная» гиперболическая зависимость в двойном логарифмическом масштабе (б); В = lnА

6. Аппроксимация эмпирических РР. Аппроксимация и определение параметров РР, как правило, проводится с помощью компьютерных программ, с их помощью задается доверительный интервал, находятся параметры кривой распределения А, В, также определяется коэффициент регрессии Rе (или Rе2), показывающий степень приближения эмпирической гиперболы к теоретической. При этом прорисовывается аппроксимационная идеальная кривая (а в случае необходимости - по обе стороны от нее - линии доверительного интервала).

7. Линеаризация ГРР: построение эмпирического РР в логарифмических координатах. Поясним процесс линеаризации зависимости (1). Прологарифмировав зависимость (1) W = А / r β , получаем:

lnW = lnА - β ln r (2)

Обозначив:

lnW = у; lnА = В = const; ln r = х, (3)

получаем (2) в виде:

у = В - β х. (4)

Уравнение (4) - это убывающая линейная функция (рис.1,б). Только по оси ординат откладывается lnW, а по оси абсцисс - lnr. Для построения линейного графика составляется таблица эмпирических значений lnW и lnr, по значениям которой строится график зависимости lnW(lnr) с использованием компьютерных программ.

Вручную коэффициент β определяется по формуле:

β = tg α = lnA: ln r ,

коэффициент А определяется из условия: r = 1, W1= А.

8. Аппроксимация эмпирической зависимости ln W (lnr) к линейной У = В - β х.

Эта процедура производится также с использованием компьютерных программ; далее следует нахождение параметров β, А, определение доверительного интервала, определение коэффициента регрессии Rе (или Rе 2), выражающего степень приближения эмпирического графика ln W (ln r) к линейному виду. При этом вырисовывается апроксимационная прямая.

9. Оптимизация ценоза (для био, - техно, - социоценозов).

Процедура оптимизации системы (ценоза) состоит в совместной работе с табулированным и графическим распределениями и сравнении идеальной кривой с реальной, после чего делают вывод: что практически нужно сделать в ценозе, чтобы точки реальной кривой стремились лечь на идеальную кривую. Чем ближе эмпиричекая кривая распределения приближается к идеальной кривой вида (1), тем устойчивее система. Этап оптимизации включает следующие процедуры (действия) .

Теоретическая часть: совместная работа с табулированным и графическим РР:

Нахождение аномальных точек и искажений по графику;

Определение их координат и их идентификация с реальными особями по табулированному распределению;

Практическая часть: работа с реальными объектами ценоза по его улучшению:

Анализ причин аномалий и поиск способов их устранения (управленческих, экономических, производственных и т.д.);

Устранение аномалий в реальном ценозе.

Оптимизация техноценозов по В.И. Гнатюку осуществляется двумя путями :

1. Номенклатурная оптимизация - целенаправленное изменение численности ценоза, устремляющее реальное РР по форме к идеальному (1). В биоценозе-стае это изгнание или уничтожение слабых особей, в учебной группе это отсев неуспевающих, в техноценозе - избавление от хлама, перевод отработанной техники в разряд металлолома.

2. Параметрическая оптимизация - целенаправленное улучшение параметров отдельных особей, приводящее ценоз к более устойчивому, эффективному состоянию. В педагогическом ценозе - учебной группе (классе) - это работа с неуспевающими - улучшение их показателей успеваемости, в техноценозе - замена старой техники улучшенными образцами.

Как указывалось выше, процедура оптимизации 9 неприменима к астроценозам. Изучая их ГРР, можно лишь извлечь ту или иную полезную научную информацию о состоянии астроценоза, тем самым расширив представления об астрономической картине Мира. Каков характер отклонений в реальных ГРР объектов астрофизических ценозов от идеального Н-распределения и на что они указывают? На графиках ГРР объектов систем-астроценозов обнаружены 2 вида искажений:

I. Несколько точек выпадают из доверительного интервала ГРР или гипербола искажена (наличие «горбов», «впадин», «хвостов» (рис. 2, а).

II. Резкий излом логарифмической прямой lnW (lnr), разделяющий её на 2 отрезка (под углом друг к другу или со смещением по оси у).

На рис 2, а, б - графики РР спутников Сатупа с искажениями первого вида.

В силу несовершенства измерительной техники или методов астрономических измерений из всех 62 спутников Сатурна есть сведения о массах 19 спутников и о диаметрах 45 спутников. Из графиков хорошо видно, что в системе с большим количеством особей (рис.2,б) эмпирические точки, отражающие размеры спутников лучше ложатся на логарифмическую прямую., что указывает на более адекватную информацию о полноте системы. Сказанное позволяет утверждать, что применение РА дает возможность прогнозировать наличие недостающих объектов в космических системах.

Рис. 2. Ранговое распределение спутников Сатурна в двойном логарифмическом масштабе ln W = f(ln r); r -ранговый номер спутника; а) РР 19 спутников по известным массам; б) РР спутников в той же системе с большим количеством особей - 45 спутников по известным диаметрам

При изучении графических РР астроценозов выяснено, что первый вид искажений может свидетельствовать о том, что:

Некоторые объекты не принадлежат данному астроценозу (системе, классу);

Измерения параметров объектов астроценоза не точны;

Недостаточно сведений о полноте астрофизической системы-ценоза. При этом, чем полнее система, тем больше коэффициент регрессии.

Второй вид искажений свидетельствует о следующем.

Если наблюдается резкий излом на графике спрямления, это означает, что система состоит из двух подсистем. Подобный случай представлен графиками рис. 3, 4. При этом, на графике W (r) острый излом образуется двумя «наползающими друг на друга» гиперболами (рис. 3, а), при этом этот излом не всегда так ярко выражен, как на графике в двойном логарифмическом масштабе (рис.3 б, 4, б). Чем меньше угол между линеаризованными отрезками на графике ln W (ln r), тем более выражен излом гиперболы на графике W (r).

На рис. 3, а, б изображены графики ГРР известных галактик по расстоянию от нашей Солнечной системы (всего 40 объектов).

Если наблюдается резкий излом на графике спрямления, это означает, что система состоит из двух подсистем. РА позволяет теоретически разделить систему галактик на два класса: периферийную (удалённую) группу -1 и местную (близлежащую) группу галактик - 2 , что соответствует астрономическим классификационным данным.

Рис. 3. Ранговое распределение галактик по расстоянию от Солнечной системы, где 1 - периферийная группа галактик, при этом Re=0,97; 2 - местная группа галактик, Re=0,86 ; W - расстояние Галактики, кпк; r - ранговый номер галактики. Всего 40 объектов. а) График W(r), Re=0,97; б) График ln W= f(ln r), Re=0,86

Рис. 4. РР масс планет Солнечной системы (в земных массах), где группа 1 - планеты гиганты (Юпитер, Сатурн, Уран, Нептун); 2 - планеты земной группы; W - масса планеты, М; r - ранговый номер планеты. Всего 8 объектов; а) График W(r), Re= 0,99; б) График ln W= f(ln r), для 1 - (планеты гиганты) Re = 0,86, для 2 также - Re = 0,86

Как известно из курса астрономии в нашей планетной системе выделяется 2 подсистемы: планеты-гиганты и планеты Земной группы. На рис. 4, а, б представлены ГРР планет Солнечной системы по массам. Заметим, что непосредственно на гиперболических РР изломы могут недостаточно явно просматриваться, и на них невозможно выделить подсистемы (рис.4, а), поэтому необходимо обязательное построение РР в двойном логарифмическом масштабе, на которых изломы ярко выражены (рис.4,б).

Используя справочники физических величин и Интернет-ресурс, были выполнены построения ГРР других астроценозов, подтверждающие вышесказанное. Аппроксимация проводилась с помощью программы QtiPlot.

Таким образом:

Рассмотрен и расписан пошагово метод РА для систем-ценозов по аналогии с техноценозами;

Определена специфика применения РА к астроценозам;

Определена возможность применения РА к исследованию астрофизических систем- ценозов в планах:

Идентификации подсистем в космических системах-ценозах; метод заключается в фиксации и изучении изломов линейных графиков ГРР в двойном логарифмическом масштабе;

Прогнозирования полноты астрофизических систем-ценозов;

Требуются дальнейшие исследования в данном направлении, подтверждающие сделанные выводы.

Библиографическая ссылка

Устинова К.А., Козырев Д.А., Гурина Р.В. РАНГОВЫЙ АНАЛИЗ КАК МЕТОД ИССЛЕДОВАНИЯ И ВОЗМОЖНОСТЬ ЕГО ПРИМЕНЕНИЯ К АСТРОФИЗИЧЕСКИМ СИСТЕМАМ // Международный студенческий научный вестник. – 2015. – № 3-4.;
URL: http://eduherald.ru/ru/article/view?id=14114 (дата обращения: 26.12.2019). Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»

Первое, что обращает на себя внимание в царстве документов, – это чрезвычайно быстрый рост его населения.

Этот общеизвестный факт заставляет всерьез задуматься о том, к чему может привести такой рост. Но, может быть, наши опасения напрасны, и в дальнейшем темпы прироста числа документов замедлятся? Пока что статистика утверждает обратное.

Вот как, например, изменялись документальные информационные потоки по химии. В 1732 г все наследие химии было обобщено и опубликовано голландским профессором в книге объемом 1433 страницы. В 1825 г шведский ученый Берцелиус опубликовал все, что было известно по химии, в 8 томах общим объемом 4150 страниц. В настоящее время американский реферативный журнал «Chemical Abstracts», издаваемый с 1907 г, публикует почти всю информацию по химии, при этом первый миллион рефератов был опубликован спустя 31 год с момента основания, второй – спустя 18 лет, третий – через 7 лет, а четвертый – через 4 года!

Примерно такой же характер роста количества документов можно проследить и в других областях науки. Было замечено, что рост документов носит экспоненциальный характер. При этом ежегодный прирост потоков научно-технической информации составляет 7...10%. В настоящее время каждые 10...15 лет происходит удвоение объемов научно-технической информации (НТИ) Кривая роста числа документов, таким образом, может быть описана экспонентой вида

y = Ae kt

где y – сумма знаний, унаследованных от предыдущих поколений, е – основание натуральных логарифмов (е = 2,718...), t – индекс времени (г); A – сумма знаний в начале отсчета (при t = 0), K – коэффициент, характеризующий скорость знаний, эквивалентом которых принимаются потоки научно-технической информации. При t ≈ 10...15 лет у = 2A .

Легко представить себе, что такой характер роста числа научных документов не предвещает нам в будущем, даже ближайшем будущем, ничего хорошего. Леса, превращенные в горы бумаги, в которых тонет беспомощный исследователь...

Однако, как показывает история науки и техники, условия, в которых они развиваются, не являются постоянными, а поэтому механизм экспоненциального роста потоков НТИ часто нарушается. Это нарушение объясняется рядом сдерживающих факторов, в частности войнами, нехваткой материальных и человеческих ресурсов и т.д. В действительности рост числа документов не подчиняется поэтому экспоненциальной зависимости, хотя в определенные периоды развития науки и техники в отдельных областях знаний она проявляется достаточно четко. В чем же причина такого стремительного нарастания потоков документальной информации?

В предыдущих разделах мы обращали внимание на то, что информация играет огромную роль в развитии человеческого общества, поэтому оно сопровождается опережающим по темпам ростом объемов информации. Рост документальных потоков научной информации можно связывать с ростом числа создателей научной информации. Темпы этого роста описываются показательной функцией. Например, в течение последних 50 лет число научных работников в СССР удваивалось каждые 7 лет, в США – каждые 10 лет, в европейских странах – каждые 10...15 лет.

Конечно, темпы роста числа научных работников должны подвергнуться замедлению и достигнуть какой-то более или менее постоянной величины по отношению ко всему количеству работающего населения. В противном случае все население через какое-то время будет занято исследовательскими и опытно-конструкторскими работами, что нереально. Поэтому в будущем следует ожидать замедления темпов роста числа научных документов. В настоящее время эти темпы все еще высоки и внушают потребителям информации тревогу: как хранить и обрабатывать документы, как найти среди них тот, который нужен?

Положение кажется безвыходным: действующий пока в царстве документов закон экспоненциального роста документов резко обострил в нем как «жилищную», так и «транспортную» проблемы.

Однако, как оказывается, здесь существует закон, несколько смягчающий создавшееся положение...

В конце 40-х годов нашего столетия Дж. Ципф, собрав огромный статистический материал, попытался показать, что распределение слов естественного языка подчиняется одному простому закону, который можно сформулировать следующим образом. Если к какому-либо достаточно большому тексту составить список всех встретившихся в нем слов, затем расположить эти слова в порядке убывания частоты их встречаемости в данном тексте и пронумеровать в порядке от 1 (порядковый номер наиболее часто встречающегося слова) до R , то для любого слова произведение его порядкового номера (ранга) / в таком списке и частоты его встречаемости в тексте будет величиной постоянной, имеющей примерно одинаковое значение для любого слова из этого списка. Аналитически закон Ципфа может быть выражен в виде

fr = c ,

где f – частота встречаемости слова в тексте;
r – ранг (порядковый номер) слова в списке;
с – эмпирическая постоянная величина.

Полученная зависимость графически выражается гиперболой. Исследовав таким образом самые разнообразные тексты и языки,

в том числе языки тысячелетней давности, Дж. Ципф для каждого из них построил указанные зависимости, при этом все кривые имели одинаковую форму – форму «гиперболической лестницы», т.е. при замене одного текста другим общий характер распределения не изменялся.

Закон Ципфа был открыт экспериментально. Позднее Б. Мандельброт предложил его теоретическое обоснование. Он полагал, что можно сравнивать письменный язык с кодированием, причем все знаки должны иметь определенную «стоимость». Исходя из требований минимальной стоимости сообщений, Б. Мандельброт математическим путем пришел к аналогичной закону Ципфа зависимости

fr γ = c ,

где γ – величина (близкая к единице), которая может изменяться в зависимости от свойств текста.

Дж. Ципфом и другими исследователями было установлено, что такому распределению подчиняются не только все естественные языки мира, но и другие явления социального и биологического характера: распределения ученых по числу опубликованных ими статей (А. Лотка, 1926 г.), городов США по численности населения (Дж. Ципф, 1949 г.), населения по размерам дохода в капиталистических странах (В. Парето, 1897 г.), биологических родов по численности видов (Дж. Уиллис, 1922 г.) и др.

Самым важным для рассматриваемой нами проблемы является тот факт, что и документы внутри какой-либо отрасли знаний могут распределяться согласно этому закону. Частным случаем его является закон Брэдфорда, непосредственно связанный уже не с распределением слов в тексте, а с распределением документов внутри какой-либо тематической области.

Английский химик и библиограф С. Брэдфорд, исследуя статьи по прикладной геофизике и смазке, заметил, что распределения научных журналов, содержащих статьи по смазке, и журналов, содержащих статьи по прикладной геофизике, имеют общий вид. На основании установленного факта С. Брэдфорд сформулировал закономерность распределения публикаций по изданиям.

Основной смысл закономерности состоит в следующем: если научные журналы расположить в порядке убывания числа статей по конкретному вопросу, то журналы в полученном списке можно разбить на три зоны таким образом, чтобы количество статей в каждой зоне по заданному предмету было одинаковым. При этом в первую зону, так называемую зону ядра, входят профильные журналы, непосредственно посвященные рассматриваемой тематике. Количество профильных журналов в зоне ядра невелико. Вторую зону образуют журналы, частично посвященные заданной области, причем число их существенно возрастает по сравнению с числом журналов в ядре. Третья зона, самая большая по количеству изданий, объединяет журналы, тематика которых весьма далека от рассматриваемого предмета.

Таким образом, при равном числе публикаций по определенной тематике в каждой зоне число наименований журналов резко возрастает при переходе от одной зоны к другой. С. Брэдфорд установил, что количество журналов в третьей зоне будет примерно во столько раз больше, чем во второй зоне, во сколько раз число наименований во второй зоне больше, чем в первой. Обозначим р 1 – число журналов в 1-й зоне, р 2 – во 2-й, р 3 – число журналов в 3-й зоне.

Если a – отношение количества журналов 2-й зоны к числу журналов 1-й зоны, то закономерность, вскрытая С. Брэдфордом, может быть записана так:

P 1: P 2: P 3 = 1: a : a 2

P 3: P 2 = P 2: P 1 = a .

Эту зависимость называют законом Брэдфорда.

Б. Викери уточнил модель С. Брэдфорда. Он выяснил, что журналы, проранжированные (выстроенные) в порядке уменьшения в них статей по конкретному вопросу, можно разбить не на три зоны, а на любое нужное число зон. Если периодические издания расположить в порядке уменьшения в них количества статей по конкретному вопросу, то в полученном списке можно выделить ряд зон, каждая из которых содержит одинаковое количество статей. Примем следующие обозначения х – количество статей в каждой зоне. Т x – количество журналов, содержащих х статей, Т 2x – количество журналов, содержащих 2х статей, т.е. сумма наименований журналов в 1-й и во 2-й зонах, Т 3x – количество журналов, содержащих 3х статей, т.е. сумма наименований журналов в 1-й, 2-й и в 3-й зонах, Т 4x – количество журналов, содержащих 4х статей.

Тогда эта закономерность будет иметь вид

T x : T 2x : T 3x : T 4x : ... = 1: a : a 2: a 3: ...

Данное выражение называют законом Брэдфорда в толковании Б. Викери.

Если закон Ципфа характеризует многие явления социального и биологического характера, то закон Брэдфорда – это специфический случай распределения Ципфа для системы периодических изданий по науке и технике.

Из этих закономерностей можно извлечь выводы огромной практической пользы.

Так, если расположить какие-либо периодические издания в порядке убывания количества статей по определенному профилю, то, согласно Брэдфорду, их можно разбить на три группы, содержащие равное количество статей. Пусть мы отобрали группу из 8 наименований журналов, занимающих первые 8 мест в полученном списке. Тогда для того, чтобы удвоить количество статей по интересующему нас профилю, нам придется добавить к имеющимся 8 еще 8 · a наименований журналов. Если a = 5 (это значение найдено экспериментальным путем для некоторых тематических областей), то число этих наименований равно 40. Тогда общее число наименований периодических изданий составит 48, что, конечно, значительно больше, чем 8. При попытке же получить втрое большее количество статей нам придется охватить уже 8 + 5 · 8 + 5 2 · 8 = 256 наименований! Из них треть интересующих нас статей сосредоточена всего в 8 журналах, т.е. статьи распределяются по наименованиям журналов неравномерно. С одной стороны наблюдается концентрация значительного количества статей по определенной тематике в нескольких профильных журналах, с другой – рассеяние этих статей в огромном количестве изданий по смежной или далекой от рассматриваемой тематике, в то время как на практике необходимо выявить основные источники по интересующей нас области научно-технических знаний, а не случайные издания.

Закономерности концентрации и рассеяния научно-технической информации в царстве документов позволяют выбирать именно те издания, которые с наибольшей вероятностью содержат публикации, соответствующие определенному профилю знаний. В массовом процессе информационного обеспечения в масштабах страны использование этих закономерностей позволяет сократить для народного хозяйства огромные расходы.

Существующее рассеяние публикаций нельзя оценивать только как вредное явление. В условиях рассеяния улучшаются возможности для межотраслевого обмена информацией.

Попытка сконцентрировать все публикации одного профиля в нескольких журналах, т.е. не допустить их рассеяния, будет иметь отрицательные последствия, не говоря уж о том, что точное отнесение документа к тому или иному профилю не всегда представляется возможным.

Результаты проверок закона рассеяния Брэдфорда, как показал С. Брукс, имеют различные степени соответствия. Несмотря на внесенные поправки, модель Брэдфорда не отражает разнообразия реальных распределений. Это несоответствие можно объяснить тем, что Брэдфорд сделал свои выводы, основываясь на выборе массивов, относящихся только к узким тематическим областям.

Огромная заслуга Дж. Ципфа и С. Брэдфорда состоит в том, что они положили начало строгому исследованию документальных информационных потоков (ДИП), которые представляют собой совокупности научных документов-публикаций и неопубликованных материалов (например, отчетов по научно-исследовательским и опытно-конструкторским работам). Дальнейшие исследования, среди которых видное место занимают работы советского специалиста в области информатики В.И. Горьковой, показали, что можно определять не только количественные параметры совокупностей научных документов, но и совокупностей элементов признаков научных документов: авторов, терминов, индексов классификационных систем, наименований изданий, т.е. наименований элементов, характеризующих содержание научных документов. Например, можно расположить журналы в порядке убывания числа печатающихся в них авторов, в порядке убывания средней величины публикующихся в них статей или упорядочить совокупность документов по любому ее элементу.

Упорядоченность задается ранжированием (порядком размещения) наименований элементов по частоте их появления в порядке ее убывания. Такая упорядоченная совокупность наименований элементов называется ранговым распределением. Распределения, которые в свое время изучал Ципф, – это типичные примеры ранговых распределений. Оказалось, что вид рангового распределения, его строение характеризуют ту совокупность документов, к которой относится данное ранговое распределение. Выяснилось, что при построении ранговые распределения в большинстве случаев имеют форму закономерности Ципфа с поправкой Мандельброта:

fr γ = c .

При этом коэффициент γ – величина переменная. Постоянство коэффициента γ сохраняется только на среднем участке графика распределения. Этот участок принимает форму прямой, если график вышеприведенной закономерности построить в логарифмических координатах. Участок распределения с γ = const называется центральной зоной рангового распределения (значение аргумента на этом участке изменяется от Inr 1 , до Inr 2). Значениям аргумента от 0 до Inr 1 соответствует зона ядра рангового распределения, а значениям аргумента от Inr 2 до Inr 3 – так называемая зона усечения.

Какой же смысл заложен в существовании трех явно различаемых зон ранговых распределений? Если последнее относится к терминам, составляющим какую-либо область знании, то ядерная зона, или зона ядра рангового распределения, содержит наиболее общеупотребительные, общенаучные термины. Центральная зона содержит термины, наиболее характерные для данной области знаний, которые в совокупности выражают ее специфичность, отличие от других наук, «охватывают ее основное содержание». В зоне усечения же сосредоточены термины, сравнительно редко употребляющиеся в данной области знаний.

Таким образом, основа лексики какой-либо области знаний сосредоточена в центральной зоне рангового распределения. При помощи терминов ядерной зоны эта область знаний «стыкуется с более общими областями знаний», а зона усечения играет роль авангарда, как бы «нащупывающего» связи с другими отраслями науки. Так, если несколько лет назад в ранговом распределении терминов тематической области «Обработка металлов» встретился бы термин «лазеры», то ввиду его низкой встречаемости он, наверняка, попал бы именно в зону усечения: связи между лазерной техникой и обработкой металлов еще только «нащупывались». Однако сегодня этот термин, без сомнения, попал бы в центральную зону, что отразило бы уже его достаточно высокую встречаемость и, следовательно, устойчивую связь лазерной техники с обработкой металлов.

График рангового распределения наполнен глубоким смыслом: ведь по относительной величине той или иной зоны на графике можно судить о характеристиках всей области знаний. График с обширной ядерной зоной и малой зоной усечения относится к достаточно широкой и скорее всего консервативной области знаний. Для динамичных отраслей науки характерна увеличенная зона усечения. Малая величина ядерной зоны может говорить об оригинальности области знаний, к которой относится построенное ранговое распределение и т.д. Так, на основании анализа рангового распределения оказалось возможным дать качественные оценки документальным информационным потокам в соответствии с теми отраслями, науки, где они формировались. Царство документов приобретает очертания системы, в которой элементы взаимосвязаны, а закономерности, управляющие этими связями, могут быть изучены!

Как информация стареет...

Старение... Смысл этого понятия, не требует объяснений, оно хорошо знакомо каждому. Стареет наша планета, стареют деревья. Стареют вещи и люди, которым они принадлежат. Стареют и документы. Желтеют листы книг, выцветают буквы, разрушаются обложки. Но что это? Студент, отмахиваясь в библиотеке от предлагаемой ему книги, пренебрежительно замечает: «Она уже устарела!», хотя книга с виду еще совершенно новая! Никакого секрета здесь, конечно, нет. Книга нова, однако информация, которая в ней содержится, могла устареть. Применительно к документам старение понимается не как физическое старение носителя информации, а как довольно сложный процесс старения содержащейся в нем информации. Внешне этот процесс проявляется в утрате учеными и специалистами интереса к публикациям с увеличением времени, прошедшего со дня их издания. Как показало обследование 17 библиотек, проведенное одним из отраслевых органов информации, 62% обращений приходится на журналы, возраст которых не превышает 1,5 года; 31% обращений – на журналы возрастом 1,5...5 лет; 6% – на журналы возрастом от 6 до 10 лет; 7% – на журналы более чем 10-летнего возраста. К вышедшим сравнительно давно публикациям обращаются гораздо реже, что дает повод для утверждения об их старении. Какие же механизмы управляют процессом старения документов?

Один из них непосредственно связан с кумуляцией, агрегированием научной информации. Часто материал, на изложение которого сто лет назад требовался целый курс лекций, теперь можно объяснить за несколько минут с помощью двух-трех формул. Соответствующие курсы лекций безнадежно стареют: ими никто уже не пользуется.

После получения более точных стареют приблизительные данные, а следовательно, и документы, в которых они опубликованы. Поэтому, когда говорят о старении научной информации, чаще всего имеют в виду именно ее уточнение, более строгое, сжатое и обобщенное изложение в процессе создания новой научной информации. Это возможно благодаря тому, что научная информация обладает свойством кумулятивности, т.е. допускает более краткое, обобщенное изложение.

Иногда старение документальной информации имеет другой механизм: объект, описанием которого мы располагаем, с течением времени изменяется настолько, что информация о нем становится неточной. Так стареют географические карты: на смену пустыням приходят пастбища, возникают новые города и моря.

Процесс старения можно рассматривать и как утрату информацией практической полезности для потребителя. Это означает, что он уже не может пользоваться ею для достижения стоящих перед ним целей.

И, наконец, этот процесс может быть рассмотрен с позиций изменения тезауруса человека. С этих позиций одна и та же информация может быть «устаревшей» для одного человека и «неустаревшей» для другого.

Степень старения документальной информации неодинакова для разных видов документов. На скорость ее старения влияют в разной степени очень много факторов. Особенности старения информации в каждой области науки и техники не могут быть выведены на основе абстрактных соображений или усредненных данных статистики – они органически связаны с тенденциями развития каждой отдельной отрасли науки и техники.

Для того чтобы как-то количественно оценить скорость старения информации, библиотекарь Р. Бартон и физик Р. Кеблер из США по аналогии с периодом полураспада радиоактивных веществ ввели «полупериоды жизни» научных статей. Полупериод жизни – это время, в течение которого была опубликована половина всей используемой в настоящее время литературы по какой-либо отрасли или предмету. Если полупериод жизни публикаций по физике равен 4,6 года, то это означает, что 50% всех ныне используемых (цитируемых) публикаций по этой отрасли имеют возраст не более 4,6 года. Вот какие результаты получили Бартон и Кеблер: для публикаций по физике – 4,6 лет, физиологии – 7,2, химии – 8,1, ботанике – 10,0, математике – 10,5, геологии – 11,8 лет. Однако, хотя свойство старения информации и носит объективный характер, но оно не раскрывает внутреннего процесса развития данной области знания и имеет скорее описательный характер. Поэтому к выводам о старении информации следует относиться очень осторожно.

Тем не менее, даже приблизительная оценка скорости старения информации и документов, ее содержащих, имеет огромную практическую ценность: она помогает держать в поле зрения только ту часть царства документов, в которой, вероятнее всего, находятся документы, несущие основную информацию о данной науке. Это важно не только для работников научно-технических библиотек и органов научно-технической информации, но и для самих потребителей НТИ.

Выход в автоматизации?

1 По методике измерение и распределение типов стихийных бедствий выполняется на основе данных об ущербе, количестве пострадавших и погибших по типам стихийных бедствий. Затем проектируются меры по предупреждению возможных в будущем стихийных бедствий. Известно, что научным прогнозом и своевременным предупреждения можно снизить экологический ущерб от возможных стихийных бедствий.

До проектирования мер предлагается определять моделированием закономерности распределения по убыванию числа катастроф. Для этого значениям каждого показателя присваивают целочисленные ранги, начиная от нуля. В дальнейшем по значениям показателей с целочисленными рангами получают закономерности их рангового распределения.

Распределения по убыванию числа катастроф значений ущерба, количества пострадавших и погибших определяется по общей для многих процессов формуле

где Y - показатель; r - целочисленный ранг, принимаемый из ряда 0, 1, 2, 3, ...;a 1 ...a 7 - параметры статистической модели, получающие числовые значения для конкретного распределения ущерба, количества пострадавших и погибших.

При этом активности влияния естественно-природного α 1 и техногенного α 2 вмешательства в распределение значений показателя Y = Y 1 +Y 2 вычисляются по формулам α 1 =Y 1 /Y и α 2 = Y 2 /Y. Приспособляемость k человека своим техногенным вмешательством, в том числе и мерами по предупреждению стихийных бедствий, определяется отношением техногенной составляющей общей закономерности ко второй составляющей, то есть по математическому выражению k = Y 2 /Y 1 .

Примеры . По данным идентификацией (1) получены закономерности.

1. Число различных типов стихийных бедствий, происходивших в мире за 30 лет (1962-1992), изменялась по материальному ущербу (табл. 1) по закономерности

Таблица 1. Число катастроф в мире за 30 лет (1962-1992) по материальному ущербу

	катастрофы		Расчетные значения (2)

В табл. 1 и других были приняты следующие типы катастроф: ГЛ - голод; ЗМ - заморозки; ЗС - засуха; ЗТ - землетрясения; ИВ - извержения; НД - наводнения; НН - нашествие насекомых; ОП - оползни; ПЖ - пожары; СЛ - снежная лавина; СХ - суховеи; ТШ - тропические штормы; ЦН - цунами; ШТ - штормы; ЭД - эпидемии.

Первая составляющая (2) показывает естественный процесс рангового распределения типов стихийных бедствий, а вторая - стрессовое возбуждение человечества по материальному ущербу, как негативный (знак « + ») отклик на недостаточные действия по предупреждению чрезвычайных ситуаций и устранению последствий прошлых катастроф.

Показатели адекватности модели (2) и других определялись следующим образом. По разности между фактическими и расчетными значениями показателя вычисляется абсолютная погрешность ε по выражению . Относительная погрешность Δ (%) определится из выражения . Из этих остатков выбирается максимальное значение Δ max (по модулю), которое в табл. 1 подчеркнуто. Тогда доверительная вероятность D найденной статистической закономерности будет равна . Из данных табл. 1 видно, что максимальная относительная погрешность формулы (1) равна 52,0 %. При этом известно, что распределения по убыванию значений показателя имеют значительные погрешности в конце ряда. Поэтому последними значениями ряда можно пренебречь, при рангах 7, 8 и 9 число катастроф равно единице. Они составляют 3 х 100 / 241 = 1,24 %. Если их исключить, то максимальная погрешность формулы (2) будет 20,75 %. Доверие к (2) будет не ниже 100 - 20,75 = 79,25 %. Такое доверие позволит применять формулу (2) в ориентировочных расчетах материального ущерба от ожидаемых в будущем катастроф.

Таблица 2. Анализ статистической модели (2)

В табл. 2 приведены результаты расчета обеих составляющих N 1 и N 2 формулы (2), а также значений коэффициентов значимости α 1 и α 2 этих составляющих материального ущерба и коэффициента приспособляемости k человечества (на момент регистрации динамики числа катастроф) к распределению числа катастроф.

Из данных табл. 2 видно, что на рангах 6-9 коэффициент приспособляемости человечества к извержениям, оползням, цунами и заморозкам по показателю материального ущерба стремится к бесконечности.

Человек не может пока преодолеть и пожары при k = 15,00.

2. Число типов стихийных бедствий в мире за 30 лет (1962-1992 гг.), выделяемых по количеству пострадавших, изменяется по статистической закономерности (табл. 3, табл. 4)

Из табл. 4 видно, что стрессовое возбуждение максимальное на голод (4-й ранг).

3. Число типов стихийных бедствий в мире по количеству погибших людей получает закономерность (табл. 5 и табл. 6) по формуле

Таблица 3. Число катастроф в мире за 30 лет (1962-1992) по количеству пострадавших

	катастрофы		Расчетные значения (3)

Таблица 4. Анализ статистической модели (3)

Таблица 5. Число катастроф в мире за 30 лет (1962-1992) по количеству погибших

	катастрофы		Расчетные значения (4)

Таблица 6. Анализ модели (6) числа катастроф

Из данных табл. 6 видно, что стрессовое возбуждение человечества максимальное на штормы, которые имеют по количеству погибших пятый ранг.

Для доказательства того, что модель типа (1) является устойчивым законом, необходимо, чтобы принятые коэффициенты активности и приспособляемости также изменялись по устойчивым закономерностям.

По данным табл. 6 были получены модели для данных по численности погибших:

коэффициент значимости первой составляющей модели (4) равен

коэффициент значимости второй составляющей ;

коэффициент приспособляемости человечества к стихийным бедствиям по числу погибших людей за 30 лет (1962-1992 гг.) изменялся по формуле

По трем показателям, а их множество может быть большим, можно определить рейтинговое место m r (в данных примерах без учета весовых коэффициентов показателей) каждого типа стихийных (а в будущем и не стихийных) катастроф (табл. 7).

Тип стихийной катастрофы	Материальный ущерб	Количество пострадавших	Количество погибших
Тип стихийной катастрофы
ГЛ - голод
ЗМ - заморозки
ЗС - засуха
ЗТ - землетрясения
ИВ - извержения
НД - наводнения
НН - нашествие насекомых
ОП - оползни
ПЖ - пожары
СЛ - снежная лавина
СХ - суховеи
ТШ - тропические штормы
ЦН - цунами
ШТ - штормы
ЭД - эпидемии

Примечание: наиболее опасны наводнения, а безопасны заморозки.

Применение способа рангового анализа у распределений стихийных бедствий по типам позволит расширить классификацию катастроф, в частности, с включением новых типов стихийных бедствий, а в будущем и классов любых типов антропогенных воздействий.

СПИСОК ЛИТЕРАТУРЫ:

Коробкин, В.И. Экология: учебник для вузов / В.И. Коробкин, Л.В. Передельский. - Ростов на Дону: Изд-во «Феникс», 2001.- 576 с.
Мазуркин, П.М. Статистическая экология / П.М. Мазуркин: Учебное пособие. - Йошкар-Ола: МарГТУ, 2004. - 308 с.
Мазуркин, П.М. Геоэкология: Закономерности современного естествознания: Научное изд. / П.М. Мазуркин. - Йошкар-Ола: МарГТУ, 2006. - 336 с.
Мазуркин, П.М. Статистическое моделирование. Эвристико-математический подход / П.М. Мазуркин. - Научное издание. - Йошкар-Ола: МарГТУ, 2001. - 100 с.
Мазуркин, П.М. Математическое моделирование. Идентификация однофакторных статистических закономерностей: Учебное пособие / П.М. Мазуркин, А.С. Филонов. - Йошкар-Ола: МарГТУ, 2006. - 292 с.

Библиографическая ссылка

Мазуркин П.М., Михайлова С.И. РАНГОВОЕ РАСПРЕДЕЛЕНИЕ ТИПОВ СТИХИЙНЫХ БЕДСТВИЙ // Современные наукоемкие технологии. – 2008. – № 9. – С. 50-53;
URL: http://top-technologies.ru/ru/article/view?id=24197 (дата обращения: 26.12.2019). Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»

Планировение и проведение экспериментов по определению параметров сетевых атак

На следующем этапе по проверке модели трафика необходимо выяснить, можно ли применить данную модель для задач сетевой безопасности, в частности, - для обнаружения сетевых атак.

Для того чтобы выяснить детали несанкционированного вторжения было решено провести эксперименты, имитирующие попытки атак. Они проводились на сети Самарского государственного аэрокосмического университета (СГАУ).

В качестве источника атаки использовались удаленные персональные компьютеры, подключенные к сети Интернет, находящиеся во внешней сети по отношению к исследуемой. Целью атаки являлся один из внутренних серверов сети СГАУ. В качестве NetFlow-сенсора был выбран пограничный маршрутизатор сети СГАУ Cisco 6509, NetFlow-коллектор - тот же сервер, который подвергался атаке.

При проведении сканирования был задействован только один компьютер, поскоольку атака сканирования портов производится с одиночных источников. Для сканирования применялась программа Nmap , которой было предписано провести полное сканирование всех портов атакуемого сервера.

Nmap - свободная утилита, предназначенная для разнообразного настраиваемого сканирования IP-сетей с любым количеством объектов, определения состояния объектов сканируемой сети (портов и соответствующих им служб). Nmap использует множество различных методов сканирования, таких как UDP, TCP (connect), TCP SYN (полуоткрытое), FTP proxy (прорыв через ftp), Reverse-ident, ICMP (ping), FIN, ACK, Xmas tree, SYN- и NULL-сканирование.

При осуществлении DDoS-атаки в качестве атакуемой цели был выбран тот же веб-сервер, что и при сканировании. Источниками атаки служили несколько компьютеров, находящихся во внешней сети. В первой части эксперимента атакующие компьютеры одновременно отправляли в течение получаса ping-запросы, осуществляя атаку ICMP-flood. Во второй части эксперимента атакующие компьютеры проводили DDoS-атаку при помощи специализированной программы LOIC. В течение часа веб-сервер подвергался атаке с применением различных типов трафика: HTTP, UDP, TCP. В ходе всех экспериментов производился сбор данных, которые впоследствии анализировались для выявления закономерностей разных типов атак.

Рисунок 1.16 – Схема эксперимента

Данные о потоках, которые служат основой для анализа, собирались с пограничного маршрутизатора сети Cisco 6509. Для сбора данных с маршрутизатора использовался NetFlow-коллектор nfdump . Экспорт NetFlow данных для анализа проводится с периодичностью пять минут. Каждые пять минут формируется файл с указанием параметров всех потоков, зафиксированных на маршрутизаторе в это время. Эти параметры перечислены во введении и включают в себя: время начала потока, длительность потока, протокол передачи данных, адрес и порт источника, адрес и порт назначения, число переданных пакетов, число переданных данных в байтах.

В результате анализа данных, собранных во время сканирования сети, было выявлено резкое увеличение числа активных потоков при практически неизменном количестве переданного трафика (см. Рис.1.16). Каждый сканирующий компьютер генерировал в течении 5 минут порядка 10-20 тысяч очень коротких потоков (размером до 50 байт). При этом суммарное число активных потоков на маршрутизаторе, генерируемое всеми пользователями, составляло порядка 50-60 тысяч.

На рисунке 1.17 изображен график состояния сети, по оси абсцисс откладывается число завершившихся потоков N, по оси ординат - суммарная нагрузка канала в Мегабит в секунду (Мбит/с). Каждая точка на графике отражает состояние исследуемой сети за предшествующий пятиминутный интервал, показывая зависимость средней нагрузки канала от числа активных потоков. Точки соответствуют нормальным состояниям сети, а треугольники - состояниям сети, зафиксированным во время сканирования портов. Отрезки, изображенные на графике и параллельные оси ординат, показывают доверительные интервалы для средней нагрузки, рассчитанные для пяти промежутков потоков (20000-30000, 30000-40000, 40000-50000, 50000-60000, 60000-70000).

Рисунок 1.17 – Сканирование портов

По итогам эксперимента с ping-запросами было выяснено, что на каждый атакующий компьютер приходился всего один очень длинный поток ICMP трафика, если посылать запросы по единственному порту. Поскольку данные об одном потоке записываются только по его завершению, то необходимые данные были записаны в файл nfdump уже по завершению атаки. Было обнаружен один аномально длинный поток трафика по протоколу ICMP, источником являлся атакующий компьютер. Таким образом, в результате анализа экспериментальных данных удалось определить атаку типа ICMP-flood. Следует отметить, что для достижения результата – сбоев в работе информационной системы одного активного потока ICMP-трафика явно недостаточно, счет должен идти на десятки тысяч запросов.

Анализ эксперимента по моделированию DDoS атаки утилитой LOIC также показал резкое увеличение числа активных потоков наряду с увеличением передаваемого трафика. Утилита параллельно отсылает данные на разные порты цели, создавая тем самым большое количество коротких потоков длительностью до минуты (см. Рис.1.18). Треугольниками изображены состояния сети, зафиксированные во время атаки.

Рисунок 1.18 – DDoS-атака

Таким образом, стало очевидным, что при помощи протокола NetFlow возможно выявить не только момент начала атаки, но и определить ее тип. Подробное описание алгоритмов обнаружения атак и работ по созданию защищенного хостинга можно найти в следующих разделах.

Литература

1. Bolla R., Bruschi R. RFC 2544 performance evaluation and internal measurements for a Linux based open router //High Performance Switching and Routing, 2006 Workshop on. – IEEE, 2006. – С. 6 pp.

2. Fraleigh C. et al. Packet-level traffic measurements from the Sprint IP backbone //IEEE network. – 2003. – Т. 17. – №. 6. – С. 6-16.

3. Park K., Kim G., Crovella M. On the relationship between file sizes, transport protocols, and self-similar network traffic //Network Protocols, 1996. Proceedings., 1996 International Conference on. – IEEE, 1996. – С. 171-180.

4. Fred S. B. et al. Statistical bandwidth sharing: a study of congestion at flow level //ACM SIGCOMM Computer Communication Review. – ACM, 2001. – Т. 31. – №. 4. – С. 111-122.

5. Barakat C. et al. A flow-based model for internet backbone traffic //Proceedings of the 2nd ACM SIGCOMM Workshop on Internet measurment. – ACM, 2002. – С. 35-47.

6. Sukhov A. M. et al. Active flows in diagnostic of troubleshooting on backbone links //Journal of High Speed Networks. – 2011. – Т. 18. – №. 1. – С. 69-81.

7. Lyon G. F. Nmap network scanning: The official Nmap project guide to network discovery and security scanning. – Insecure, 2009.

8. Haag P. Watch your Flows with NfSen and NFDUMP //50th RIPE Meeting. – 2005.

Ранговые распределения для определения пороговых значений сетевых переменных и анализа DDoS атак

Введение

Экспоненциальный рост интернет трафика и числа информационных источников сопровождается быстрым увеличением числа аномальных состояний сети. Аномальные состояния сети объясняются как причинами техногенного характера, так и человеческим фактором. Распознание аномальных состояний, созданных злоумышленниками достаточно тяжело из-за того, что они имитируют действия обычных пользователей . Поэтому такие аномальные состояния крайне сложно выявить и заблокировать. Задачи обеспечения надёжности и безопасности Интернет сервисов требуют изучения поведения пользователей на конкретном ресурсе.

В данной статье пойдёт речь о выявлении аномальных сетевых состояний и методах противодействия DDoS атакам . (Distributed Denial of Service, распределённая атака типа «отказ в обслуживании») – это такой тип атак, при котором некоторое множество компьютеров в сети Интернет, называемых «зомби», «ботами» или бот сетью (ботнет), по команде злоумышленника начинают отправлять запросы на сервис жертвы. Когда число запросов превышает возможности серверов жертвы, новые запросы от настоящих пользователей перестают обслуживаться и становится недоступным. При этом жертва несёт финансовые убытки.

Исследования, которые описаны в данной главе учебного пособия, используют унифицированный математический подход. Был выделен ряд важнейших сетевых переменных, которые генерирует внешний единичный IP адрес при обращении к заданному серверу или локальной сети. К таким переменным относятся: частота обращения к веб серверу (по заданному порту), число активных потоков, величина входящего TCP, UDP и ICMP трафика и т.д. Построенная инфраструктура позволила измерять величины для вышеперечисленных сетевых переменных.

После нахождения данных величин для анализируемых переменных в произвольный момент времени необходимо построить ранговое распределение. Для этого найденные значения располагаются в порядке убывания. Анализ сетевых состояний будет производиться путем сравнения соответствующих распределений. Особенно наглядно это сравнение, когда распределения для аномального и обычного состояния сети построены на одном графике. Подобный подход позволяет легко определить границу между обычным и аномальным состоянием сети.

Эксперименты по DDoS атаке на сервис можно провести с помощью эмуляции в лабораторных условиях. При этом ценность полученных результатов значительно меньше, чем при DDoS атаке на введённый в эксплуатацию коммерческий сервис, так как эмулятор не может полностью воспроизвести реальную компьютерную сеть. Кроме того, для полноценного понимания принципов и методов DDoS атаки необходим опыт работы с ней. Поэтому авторы анонимно договорились о проведении реальной DDoS атаки на специально подготовленный веб сервис. В процессе атаки был записан сетевой трафик, собрана статистика NetFlow. Изучение ранговых распределений для числа потоков и различных типов входящего трафика, генерируемых единичным внешним IP адресом, что позволило определить пороговые значения. Превышение пороговых значений можно классифицировать как признак атакующего узла, что позволяет сделать выводы об эффективности способов обнаружения и методов противодействия.

Для моделирования структуры электропотребления предприятия используются ранговые распределения, а для моделирования структуры установленного и ремонтируемого электрооборудования - видовые распределения.

Ранговые распределения. К ранговым относятся такие распределения, в которых основным признаком является электроемкость всех видов выпускаемой продукции .

Распределение электроемкостей всех видов продукции, выпускаемых на одном конкретном предприятии, относится к ранговому распределению. Параметром рангового распределения является ранговый коэффициент. Можно получить кривые рангового распределения и определить ранговые коэффициенты за периоды отчетного времени (по кварталам, полугодиям или по годам). Если с течением времени ранговый коэффициент остается постоянным, то это означает, что структура выпускаемой продукции и структура электропотребления с течением времени не изменяются. Возрастание рангового коэффициента показывает, что на предприятии с годами увеличивается разнообразие выпускаемой продукции и разница в расходах электроэнергии на выпуск различных видов.

Если для каждого вида продукции многономенклатурного производства рассчитать электроемкость как отношение годового электропотребления к объему выпуска этого вида, то в целом по предприятию эти величины подчиняются ранговому распределению. Полученные параметры рангового распределения по годам имеют достаточно стабильную тенденцию к увеличению. Возрастание рангового коэффициента показывает, что на предприятии с годами увеличиваются разнообразие выпускаемой продукции и разница в расходах электроэнергии на выпуск различных видов.

Совокупность кривых рангового распределения представляет собой поверхность. Анализ структурно -топологической динамики (траектории движения особи по кривой рангового распределения) на этой поверхности дает временной ряд электроемкости каждого исследуемого вида продукции, что представляет интерес с точки зрения возможности прогноза параметров электропотребления. Можно сделать вывод о наличии жесткой корреляционной связи между годовым электропотреблением многономенклатурного производства, структурой выпускаемых изделий и видовым разнообразием выпускаемой продукции .

Структура установленного и ремонтируемого оборудования. Ранговые и видовые распределения

Какие распределения относятся к ранговым

Вариант 2 (при числе вариантов более 20). На первом этапе респондент раскладывает предложенные варианты на две-три группы 1 - подходят, 2 - не подходят, третью группу могут составлять варианты, которые респондент затрудняется отнести к другим группам. Если при первом распределении в группе подходят остается больше 10-12 позиций, то эту группу респонденту предлагается разделить еще раз по принципу точно подходят - возможно подходят. После выделения подходящих вариантов респондент должен провести прямое ранжирование, отсортировав варианты от лучшего к худшему. В соответствии с результатами выбора присваиваются ранговые значения по каждому респонденту, предпочтительно в обратном порядке (лучшее значение - 10, следующее - 9, худшее - 1 при более чем 10 выборах последним выборам всем присваивается значение 1 .

Как уже говорилось, для характеристики формы распределения вариационного ряда применяют ранговые показатели. Под этим понимают такие единицы исследуемого массива, которые занимают определенное место в вариационном ряду (например, десятое, двадцатое и т.д.). Они получили название квантилей или градиентов. Квантили в свою очередь подразделя-

Почему ранговая статистика Данн (dt) для проверки контрастов (см. уравнение (41)) требует таблиц нормального распределения , а не -критерия

Непараметрические методы. Непараметрические методы статистики , в отличие от параметрических, не базируются на каких-либо предположениях о законах распределения данных3. В качестве непараметрических критериев связи переменных часто используют коэффициент ранговой корреляции Спирмена и коэффициент ранговой корреляции Кендалла.

Гистограмма - графическое изображение статистических распределений какой-либо величины по количественному признаку . Гистограмму (гр. histos - ткань) удобно строить сверху, откладывая по оси абсцисс соответствующие факторы, а по оси ординат - их ранговые суммы. Гистограмма может показать спады, по которым целесообразно сгруппировать факторы по степени их влияния на изучаемый показатель.

Изложенные ценологические представления могут быть положены в основу изменения организации системы 111 IF на промышленном предприятии (в цехе). В этом случае применяется не видовое распределение установленного электрооборудования, а представление всего перечня, например, электрических машин в ранговой по параметру форме Н-распределения. Осуществляется это следующим образом. Все множество установленных машин ранжируется по их значимости (важности) в техническом или ином процессе. Каждой машине присваивается свой ранг (номер). Первый ранг присваивается машине, которая в наибольшей степени определяет производственный процесс . Второй - следующей по важности машине и т.д., так что последние ранги достанутся машинам, отказ которых не влияет, точнее, влияет крайне незначительно, на производственную и иные виды деятельности предприятия. Операция присвоения ранга не требует особой точности, так что данная машина может в данном ранговом списке попасть в несколько иное место.

Воспользуемся фактом х2 (12)-распределенности случайной величины т (п - 1) W (т), который имеет место приближенно) в случае, если в исследуемой генеральной совокупности множественная ранговая связь отсутствует. Тогда критерий сводится к проверке неравенства (2.18). Задавшись уровнем значимости критерия а = 0,05, находим из табл. П.4 значение 5%-ной точки х2-распределения с 12 степенями свободы Х ОБ (12) = 21,026. В то же время т (п - I) W (т) = - 28-12-0,08 - 27.

Прежде всего обратите еще раз внимание, что распределение частот всегда симметрично. Данные табл. 6.9 показывают, что соответственно симметричность частот отражает симметричность количественной определенности коэффициента ранговой корреляции по инверсиям Кинв. коэффициентов корреляции Спирмена (р) и Кендэлла (Т). Эти методы применимы не только для качественных, но и для количественных показателей , особенно при малом объеме совокупности, так как непараметрические методы ранговой корреляции не связаны ни с какими ограничениями относительно характера распределения признака.

После получения последовательности распределений ft(P) возникает задача изучения процесса перехода между ними, т.е. мобильности регионов по ценам. Как отмечено в обзоре Fields, Ok (2001), само понятие мобильности чётко не определено, посвящённая мобильности литература не даёт унифицированного описания анализа (как нет и сложившейся терминологии). Тем не менее, в экономической и социологической литературе есть согласие относительно двух основных концепций мобильности. Первая - относительная (или ранговая) мобильность, связанная с изменениями упорядоченности, в нашем случае, регионов по уровню цен. Вторая концепция - абсолютная (или количественная) мобильность, связанная с изменением самих уровней цен в регионах. В дальнейшем анализе использованы обе эти концепции.

Другие процедуры. В рассматривается процедура, основанная на ранговой статистике Стила для сравнений экспериментальной и контрольной средних, обсуждавшихся "ранее. Эта альтернативная процедура также предполагает стохастически упорядоченные распределения. Для этого класса распределений про-цедура менее эффективна она более эффективна для частного случая- для распределений, отличающихся только сдвигом (см.

Последовательный ранговый метод Хоула с исключением для стохастически упорядоченных распределений. Стохастически упорядоченные распределения охватывают распределения, различающиеся только сдвигом, но не нормальные распределения с различными дисперсиями. Мы не знаем, чувствителен ли метод к отклонениям от предположения о стохастической упорядоченности.