<<
>>

Методы обработки и анализа временных рядов

Для оценки возможности применения существующих на настоящий мо­мент методов обработки временных рядов для решения задачи качественного мониторинга производственного процесса животноводческого предприятия был проведен соответствующий анализ.

В настоящий момент область обработки временных рядов активно раз­вивается, а сфера применения методов становится с каждым годом все об­ширнее. Результаты анализа работ по данному направлению сведены в таб­лицу 1.3.

Таблица 1.3. Методы обработки временных рядов

Группа методов обра­ботки временных ря­дов Область применения Ограничения

1 2 3
Методы нормирования временных рядов.

Min-max нормализация [200].

Взвешенная z- нормализация [69]. Масштабирование.

Обрабатываются чис­ленные ряды любой природы с целью преда­ния исследуемым при­знакам одинакового ве­са. Временные ряды, сфор­мированные при считы­вании данных с датчи­ков животноводческого предприятия, имеют разные единицы изме­рения и нуждаются в нормализации.
Очистка временных рядов
Обработка неполных временных рядов:

Метод заполнения сред­ним.

Метод интерполяции соседних точек. Среднее значение Nсо­седних точек.

Медиана Nсоседних то­чек.

Заполнение прогнозиру­емыми значениями ли­нейной регрессии трен­да.

Методы, основанные на моделировании и слож­ной интерполяции.

Экология, данные при­родного происхождения. Данные с датчиков, по­ступившие с временной задержкой. Случайная функция, по­лученная с датчиков жи­вотноводческого хозяй­ства, не имеет пропу­щенных значений.
При­менение методов обра­ботки отсутствующих значений не требуется.
Фильтрация шума во временных рядах Фильтр Баттерворта. Фильтр Чебышева (I и II порядка).

Фильтр Бесселя. Эллиптический фильтр.

Фильтр Лежандра.

Фильтр Г аусса.

Фильтр с характеристи­кой типа «приподнятый косинус».

Винеровское оценива-

Применяются при отде­лении полезной состав­ляющей от шумовой при анализе одномерных и многомерных сигналов. Обработка изображений, радиотехнических сиг­налов, данных экономи­ческого характера. Данные методы приме­няются для обработки случайных функций, со­держащих сложный по­лезный сигнал. Число­вые ряды с датчиков животноводческого предприятия содержат полезный сигнал, не имеющий сложной структуры. Поэтому в случае решения задачи обработки данных жи-

1 2 3
ние.

Фильтр Калмана.

вотноводческого ком­плекса применять при­веденные методы филь­трации нецелесообразно.
Прогнозирование во временных рядах
Модели авторегрессии и скользящего средне­го:

"Наивные" модели про­гнозирования.

Метод ARMA (авторе­грессии — скользящего среднего)

Метод ARIMA (метод Бокса — Дженкинса).

Метод Винтерса.

Метод GARCH (метод авторегрессионной условной гетеро- скедастичности).

Другие методы:

Адаптивные методы краткосрочного прогно­зирования.

Фильтр Калмана.

Универсальные методы для анализа временных рядов любой природы. Наиболее часто исполь­зуются в прогнозирова­нии финансовых рынков и продаж. Могут быть применены для анализа временных рядов, полученных с датчиков животноводче­ского предприятия для краткосрочного прогно­зирования.
Нейросетевые модели.
Прогнозирование на ос­нове преобразования Фурье.
Могут быть применены для анализа временных рядов, полученных с датчиков животноводче­ского предприятия для краткосрочного и долго­срочного прогнозирова­ния.
Редукция временных рядов
Факторный анализ временных рядов:

Метод главных компо-

Сокращение размерно­сти временного ряда при сохранении большей ча- В случае анализа вре­менных рядов данных животноводческого

1 2 3
нент.

Метод независимых компонент

Анализ сингулярного спектра (SSA)

Метод максимального правдоподобия(для оценки факторных нагрузок)

Альфа-факторный ана­лиз

сти полезной информа­ции. Необходим при наличии большого числа признаков, чтобы ис­ключить мультиколли­неарность данных. предприятия использо­вание факторного ана­лиза не требуется, так как количество призна­ков невелико и сокра­щать их размерность, теряя полезную инфор­мацию нецелесообразно.
Нахождение зависимости исследуемых временных рядов
Корреляционный анализ числовых рядов Дисперсионный анализ числовых рядов. Регрессионный анализ. Статистические методы, необходимые для уста­новления степени зави­симости между число­выми рядами. Методы корреляционно­го анализа позволят оценить степень взаим­ного влияния числовых рядов, полученных с датчиков животноводче­ского предприятия. По­лученные оценки помо­гут составить более де­тальную структуру входных параметров и избавиться от избыточ­ного дублирования ин­формации.
Методы слияния временных рядов
Фильтр Калмана, Байесовская сеть дове­рия,

Теория Демпстера — Шафера

Методы, предназначен­ные для слияния данных и знаний, характеризу­ющих один и тот же объект.
Комбинирование сенсорных данных поз­воляет уменьшить не­определенность, которая присутствовала в ин­формации полученной от каждого датчика по отдельности.

Нормализация данных. Преобразование диапазона изменения значе­ний временного ряда к стандартным интервалам [-1; 1], [0, 1] позволяет устранить зависимость выбора единиц измерений.

Min-max нормализация применяется в [200]для предобработки данных, поступающих на вход нейросетевого алгоритма. Недостатком данного под­хода является чрезмерное сжатие основной массы данных, включающей по­лезный сигнал, при наличии доминирующих аномалий (аутлаеров), которые увеличивают дисперсию временного ряда. Аналогичный недостаток был вы­явлен при применении метода масштабирования данных, где временной ряд умножается на некоторую константу.

В работе [69]применяется z-нормализация для последующей пороговой сегментации данных. В ситуации, когда максимум и минимум временного ряда неизвестны, метод показывает хорошие результаты нормализации даже при наличии ярко выраженных аутлаеров.

Обработка отсутствующих данных. При использовании метода запол­нения средним пропущенные значения заменяются среднеарифметическим временного ряда [138, 149, 194]. Данный метод не пригоден для анализа вре­менных рядов с большими интервалами системных колебаний и большим значением дисперсии. Тем не менее, из-за своей простоты является одним из самых распространенных и применяется для восстановления данных в любых областях применения.

Методы: интерполяция соседних точек; среднее значение Л-соседних точек; медиана Л-соседних точек подробно рассмотрены в [161]. Геометри­ческий смысл интерполяции соседних точек заключается в замене пропу­щенных значений временного ряда прямым отрезком. Применение метода среднего значения Л соседних точек предполагает вычисление отсутствую­щих величин, исходя из среднего значений Л ближайших точек по обе сторо­ны от интервала пропуска. При использовании медианы пропущенные значе­ния временного ряда вычисляются с помощью медианы для интервального 43

вариационного ряда.

У всех трех подходов имеется существенный недоста­ток: использование рассмотренных методов возможно только в случае, когда значение соседних точек близки друг к другу. Если на интервале пропуска имеется максимум или минимум ряда, то применение метода становится не­возможным.

Метод заполнения прогнозируемыми значениями на основе линейной регрессии предполагает расчет коэффициентов линии регрессии с помощью метода наименьших квадратов [161]. Зная параметры линии тренда, можно рассчитать предполагаемые значения в интервале пропуска. Недостаток ме­тода заключается в возможности его использования только к данным, где присутствует трендовая составляющая. Метод дает слабый результат, в том случае, когда в исследуемом временном ряде отсутствует тренд и присут­ствует сезонная составляющая.

Данные методы широко используются в любых областях, где присут­ствует неполнота данных в результате отказа датчиков, трудностей измере­ний, связанных с погодными или другими условиями и т.д. В работе [164]обрабатываются данные об экологии окружающей среды и информация с датчиков, поступившая с задержкой. В случае обработки данных временных рядов животноводческого предприятия необходимости в применении этих методов нет, так как данные обладают необходимой полнотой и не имеют пропусков значений.

Фильтрация данных. Существует множество методов фильтрации и сглаживания изображений. Основная задача методов фильтрации - подавле­ние шумовой составляющей сигнала. Задача выделения полезных сигналов актуальна при обработке любого вида данных. Достаточно распространено применение фильтрации и сглаживания данных в области обработки изобра­жений и анализе радиотехнических сигналов. В работах [1, 2, 60, 62, 72, 87,96, 116, 117, 119, 129, 136, 172, 187, 181, 182, 201] рассматриваются примеры применения различных методов фильтрации и их настройки для обработки различного рода данных. Естественно, существует большое количество ме­

тодов, позволяющих отделить полезную составляющую от шумовой, в рабо­тах [1, 2, 60, 62, 72, 87, 96, 116, 117, 119, 129, 136, 172, 187, 181, 182, 201]рас­смотрены самые широко распространенные подходы.

Приведенные методы применяются для анализа данных с полезным сигналом сложной структуры. В случае решения задачи анализа временных рядов животноводческого предприятия фильтрацию данных можно не использовать, так как полезная составляющая сложной структуры не имеет.

Прогнозирование во временных рядах. Задача прогнозирования за­ключается в оценке будущих неизвестных значений временного ряда на краткосрочный или долгосрочный период.

Модели авторегрессии и скользящего среднего основаны на совмещении двух более простых моделей временных рядов: модель авторегрессии и скользящего среднего. Применяя данную группу методов можно построить довольно точную и адекватную модель, описывающую динамику поведения временного ряда и позволяющую выполнить прогноз последующих неиз­вестных значений временного ряда [44, 110, 128, 179, 197, 203]. Тем не менее, данная группа методов обладает рядом недостатков. Используя модели авто­регрессии и скользящего среднего, случайные флуктуации сглаживаются, что является недопустимым по отношению к временным рядам, полученным с сенсоров животноводческого предприятия, так как случайные колебания мо­гут быть частью полезного сигнала. Также стоит отметить, что довольно ча­сто во временных рядах биологического происхождения приходится делать среднесрочный или долгосрочный прогноз. Модели авторегрессии и сколь­зящего среднего достаточно точно прогнозируют будущие значения ряда в краткосрочной перспективе, имея при этом достаточно большую ошибку при прогнозировании значений через большой промежуток времени. Тот же не­достаток имеет и фильтр Калмана, предоставляющий довольно точную про­гнозную оценку для краткосрочного периода, рассчитывая коэффициенты взаимосвязи предыдущего и последующего значения во временном ряде.

Отдельно стоит отметить прогнозирование во временных рядах на осно­ве нейросетей. Используя ряд выбранных признаков и ретроспективные зна­чения временных рядов для обучения нейронной сети, можно получить до­статочно точный прогноз значений временного ряда как в краткосрочной, так и в долгосрочной перспективе. Тем не менее, существует недетерминирован­ность: после обучения невозможно понять, каким образом принимается то или иное решение и по каким правилам оно сформулировано. Еще одним существенным недостатком применения нейросетей для прогнозирования является изменения нормативов, по которым показатель считается нормой или выпадом, например, при смене породы или вводе нового стада в эксплуа­тацию изменяются нормы: потребления корма, молокоотдачи, жирности мо­лочного продукта и т.д. Таким образом, необходимо изменять базу прецеден­тов и переобучать нейронную сеть.

Прогнозирование на основе применения преобразования Фурье является универсальным методом и обеспечивает точный прогноз во временных рядах как в краткосрочный, так и долгосрочный период. Такой результат достига­ется с помощью сохранения всей полезной информации о процессе в ходе преобразования временного ряда. Используя механизм тонкой настройки, можно заранее проанализировать сигнал и решить, какие гармоники в спек­тре, в зависимости от величины амплитуды, являются шумом и случайными флуктуациями, а какие относятся к полезному сигналу и периодически по­вторяются.

Факторный анализ. Главная цель факторного анализа - решение про­блемы мультиколлинеарности временных рядов с помощью сокращения ко­личества измерений данных исходных признаков при минимальной потере полезной информации. В работах [55, 118, 132, 170, 171, 191, 193, 202]по­дробно описаны методы факторного анализа для обработки данных в области энергетики, экологии, экономики, обработки изображений и энергетики. Ме­тоды факторного анализа универсальны и могут применяться к данным лю­бых областей. При обработке временных рядов, полученных с датчиков жи­

вотноводческого комплекса, необходимости применять факторный анализ нет, так как имеется ограниченный набор признаков и сокращать их размер­ность, теряя пласт полезной информации нецелесообразно.

Методы нахождения зависимости между исследуемыми численными рядами. В работах [133, 139, 140, 142, 143, 157, 158, 185, 192, 205]применя­ются методы анализа временных рядов, позволяющие оценить степень влия­ния исследуемых признаков друг на друга или на выходные качественные и количественные показатели. Как видно из проанализированных источников, подходы к исследованию взаимосвязи данных имеют широкую область при­менения. Математический аппарат рассмотренных подходов различен, тем не менее, все представленные методы широко распространены и дают хороший результат при обработке данных, на основе которых принимаются управлен­ческие решения. Оценка взаимного влияния временных рядов, полученных с датчиков животноводческого предприятия, является важной задачей, так как с одной стороны позволит более детально проанализировать структуру вход­ных данных и избавиться от дублирования информации, с другой стороны выявить скрытые зависимости признаков, которые можно будет использовать при принятии решений в условиях животноводческого производства.

Методы слияния временных рядов. Существует ряд методов алгорит­мов, необходимых для непосредственного слияния данных сенсоров. Про­блема интеграции данных изначально приобрела актуальность в области об­работки изображений и теории оценивания [145]. Первые работы в этой об­ласти были направлены на дифференциальное комбинирование геометриче­ских данных со снимков авиационного датчика. Большой вклад в развитие внесли Брукс [13], Чатила [16], Дюрант-Вайт [28], Калман [56], Демпстер [23], Шафер [86]и др.

В работах [4, 13, 16, 19, 23, 28, 43, 56, 74, 86, 90, 91, 145, 163, 183]рас­сматривается проблема агрегирования признаков и слияния данных с сенсо­ров. Выбор конкретных методов обработки зависит от вида выходных дан­ных. Фильтр Калмана принимает на вход один или несколько временных ря­

дов и позволяет оценить состояние системы в следующий момент времени. Использование метода Калмана дает оптимальный результат, так как данные, принимаемые им на вход являются однородными: снимаются с датчиков одинакового типа и, в большинстве случаев, измеряются в одних и тех же единицах. В этом случае фильтр Калмана является механизмом для получе­ния сглаженного вектора показателей однородной информации. В случае анализа временных рядов животноводческого хозяйства данные являются неоднородными, снимаются с датчиков разных типов, поэтому фильтр Кал- мана не позволит построить адекватную математическую модель агрегирова­ния исследуемых признаков.

Байесовские сети и теория Демпстнера-Шафнера позволяют строить направленные ациклические графы показаний сенсорных датчиков разного типа. Дуги графа содержат информацию отношения правдоподобия между вершинами. Значение величины отношения правдоподобия находится с по­мощью специальной функции преобразования, которая выбирается по отно­шению к степени зависимости выходных временных рядов. Применение дан­ных методов по отношению к данным, полученным с датчиков животновод­ческого предприятия осложнено тем, что невозможно заранее оценить струк­туру входных данных, определить точную для разных предприятий, степень зависимости входных признаков, поэтому получить верную оценку отноше­ния правдоподобия между вершинами.

В отдельный класс можно выделить методы анализа временного ряда на предмет выявления аномальных значений, что является важной задачей для обеспечения качественного мониторинга. Как говорилось ранее, основной задачей мониторинга является выявление критических значений производ­ственных параметров, а также их прогнозирование. Приведенные в таблице

1.3 методы обработки временных рядов решают широкий спектр задач обра­ботки, но не решают комплексную задачу мониторинга и выявления откло­нений во временных рядах.

Методы поиска аномалий во временных рядах

Мониторинговый процесс на животноводческом предприятии позволяет с помощью анализа данных с датчиков выполнять поиск критических и ава­рийных ситуаций, возникающих в процессе производства. Процесс выявле­ния подобных ситуаций организован на основе анализа временных рядов, по­лученных с мониторинговых датчиков, установленных на животных пред­приятия. Для обнаружения потенциально опасной ситуации производствен­ного процесса используются специальные методы анализа временных рядов для проверки текущего значения ряда на аномальность. В работах [3, 10, 37,38, 61, 64, 70, 77 -79, 94, 109, 125, 134, 137, 146, 148, 166, 198, 207 -210], по­священных решению задачи поиска аномальных значений во временных ря­дах, под термином “аномалия” понимается отклонение от нормы или общей тенденции (закономерности). В биотехнических системах крупных предпри­ятий, где с большого числа датчиков поступает множество потоков данных, проследить появление аномального значения практически невозможно, по­этому данный процесс нуждается в компьютеризации.

Выделяют несколько видов задач обнаружения отклонившихся от нор­мы значений: поиск аномалий, представляющих собой некоторую часть по­лезной составляющей сигнала; идентификация аномалий или аномальных участков временного ряда с целью подавления шумовой составляющей; вы­явление аномалий путем сопоставления временного ряда, представляющего собой эталон, и временного ряда реальных производственных данных. Задача поиска аномалий актуальна практически для любой сферы деятельности. В работе [134]проанализирован ряд областей, где применяются методы поиска аномалий временных рядов. Так часто идентифицировать отклонения значе­ний от нормы требуется в сфере безопасности, защиты информации, меди­цине, экономике, промышленности, экологии, робототехнике, телекоммуни­кациях, а также в области научных исследований при обработке и распозна­вании изображений, текста и речи. Выделяют ряд методов поиска аномалий во временных рядах, представленных в таблице 1.4.

Таблица 1.4. Методы выявления аномалий во временных рядах.

Название метода по­иска аномалии во временном ряде Область применения Ограничения
1 2 3
Методы скользящего окна Применяются: для об­наружения аномальной активности трафика; в области обработки изображений. В случае применения класса методов ко вре­менным рядам живот­новодческого предпри­ятия возникает необхо­димость анализа ретро­спективных данных и накопленной статисти­ки. Сложный механизм выбора границ окна и порогового значения.
Методы кластеризации данных Универсальные мето­ды, применяемые при обработке экономиче­ских, химических, гео­логических и других данных. Для обнаружения ано­мальные значения должны образовывать отдельный четко сфор­мированный класс. В случае анализа времен­ных рядов животновод­ческого комплекса, аномалии не являются четко выраженным кла­стером и представляют из себя единичные от­клонения, которые ме­тоды кластеризации не выделяют в отдельный класс.
Статистические методы Универсальные методы поиска аномалий, при­меняемые для анализа экономических, геоло­гических, атмосфер- Применение метода обусловлено расчетом некоторых эталонных показателей или крите­риев сравнения с ре-

1 2 3
ных, астрономических данных, результатов физико-химических экспериментов и т.д. альными производ­ственными данными. Применение данной группы методов по от­ношению к временным рядам животноводче­ского предприятия воз­можно, если эталонные показатели, пороговые значения или другие параметры сравнения (в зависимости от задачи) будут рассчитаны зара­нее и не требуют пере­расчета в момент при­нятия решения.
Цепи Маркова Применяются в обла­стях, где в основе ис­следуемого процесса или явления лежит гра­фовая Марковская мо­дель. Широко исполь­зуется в метеорологии, экономике, при анализе данных сетевого тра­фика и т.д. Не могут быть приме­нены по отношению к временным рядам, по­лученным с датчиков животноводческого комплекса, так как в основе модели исход­ных данных нет Мар­ковской цепи.
Нечеткие методы Применяются в услови­ях возникновения не­определенности, разной степени принадлежно­сти одного объекта к нескольким классам. Применяются при ре­шении задач построе­ния сложных тензомет­рических систем, поис­ка отклонений в базах Использование данной группы методов по от­ношению к данным жи­вотноводческого пред­приятия нецелесооб­разно, так как данные, поступающие на выход сенсорного датчика и образующие временные ряды, являются четки­ми множествами. Ана-

1 2 3
данных временных ря­дов, а также в геоин­форматике. лизировать их на пред­мет аномалий можно использовав обычные статистические методы.

Методы скользящего окна имеют различные модификации, в зависимо­сти от вида и сложности решаемой задачи. В работах [3, 10, 61, 79, 166, 208 - 210,] рассматриваются методы обнаружения аномальной сетевой активности на основе анализа трафика с помощью комбинации методов вейвлет- преобразований и байесовской модели классификации. Существенными не­достатками данного класса методов является то, что они имеют высокую вы­числительную сложность, ограниченность масштаба разложения временного ряда. Также в работах [3, 10, 61, 79, 166, 208 - 210,] четко не обозначен кри­терий выбора пороговых значений для скользящих окон. Также существен­ным недостатком методов является необходимость анализа всего временного скользящим окном для поиска аномального значения. В случае анализа дан­ных, полученных с датчиков животноводческого предприятия решение о том, является ли текущее полученное значение аномальным, должно приниматься моментально без анализа ретроспективных данных.

Следующий тип методов, предназначенных для выявления аномальных значений основан на использовании кластеризации данных. В работах [38,64, 70, 109] показано, что разделение значений наблюдений, содержащихся во временных рядах, на кластеры позволяет отделить аномальные значения от тех, которые подчиняются общей тенденции. Но недостаток данного под­хода заключается в том, что невозможно выделить в отдельный класс незна­чительные отклонения параметра от нормы. В условиях обработки данных, характеризующих состояние животного или показатель качества молочной продукции, задача идентификации незначительных отклонений параметра от нормы является актуальной.

Поиск аномальных значений с помощью статистических методов осно­ван на принципе сравнения двух временных рядов. Это могут быть пары сравнения идеального и реального временного ряда или рассчитанные значе­ния краткосрочного и долгосрочного поведения параметра [134, 198]. Суще­ствуют разные подходы к сравнению временных рядов. Например, используя простое вычисление евклидова расстояния между эталонным вектором и ре­альным, можно найти значение, характеризующее отклонение одной выбор­ки от другой. Существуют более сложные способы, которые основаны на расчете значений некоторых параметров исследуемых временных рядов, например, категориальный или числовые параметры, величины интенсивно­сти распределения событий [137, 198], например, метод Хотеллинга (или тест Хотеллинга), использование которого показано в [94]. Статистические мето­ды (пороговый, метод среднего значения, метод среднеквадратического от­клонения или его расширенная многовариационная версия) лежат в основе поведенческих методов идентификации аномалий, основанных на выявлении несоответствия между текущим режимом работы исследуемой системы и ре­жимом, отвечающим штатной модели данного метода. Недостатком такого подхода является сложность построения модели штатного режима функцио­нирования исследуемой системы [198]. Статистические методы обрабатыва­ют и анализируют набор ретроспективных данных, производя накопление статистических показателей или сравнивают некоторый рассчитанный эталон с текущим значением. В рамках решения задачи поиска аномалии во времен­ных рядах, полученных с датчиков животноводческого хозяйства, принятие решения о том, является ли значение датчика в текущий момент аномальным или нет должно приниматься сразу после его снятия, поэтому невозможно быстро рассчитать необходимые для анализа параметры. Что касается поро­говых методов, то они могут быть применены, если существует возможность получения порогового значения заранее и не требуется его перерасчет во время анализа свежих данных с датчика в момент принятия решения.

Обнаружение аномалий с помощью цепи Маркова заключается в по­строении графовой модели, осуществляющей описание процесса перехода объекта системы из одного состояния в другое. В работах [37, 78, 77, 148] приведено описание применения Марковских сетей для обнаружения ано­мальной активности в сетевом трафике. Недостатком описанного подхода является предположение о том, что исходные временные ряды формируются с помощью скрытого Марковского процесса. Если же подобный процесс от­сутствует, то метод не позволит отследить наличие аномалии во временном ряду [134]. Очевидно, что если бы подобный подход был применен для ана­лиза данных на животноводческом комплексе, то для четкого определения состояния животного или продукции необходимо было бы построить графо­вую модель, описывающую ординарный, стационарный поток событий, то есть модель, где объект может находиться только в одном состоянии и веро­ятность перехода из одного состояния в другое была бы постоянна. На осно­ве знания вероятности перехода удалось бы обнаружить ряд отклонений от нормы. Формирование исходного временного ряда, получаемого с сенсора на животноводческом предприятии, происходит под влиянием большого числа случайных воздействий, начиная с погодных условий, длины светового дня и заканчивая условиями содержания, которые варьируются на разных пред­приятиях. Поэтому невозможно определить точную вероятность перехода объекта из одного состояния в другое, что делает метод цепей Маркова не­применимым для решения задачи поиска отклонений временных рядов на животноводческом предприятии.

Детальный анализ методов поиска отклонений во временных рядах, вы­полненный в работе [134], выделяет нечеткие методы поиска в отдельный класс. Действительно, оценивать процессы, которые протекают в условиях неопределенности, целесообразно с помощью нечетких методов обнаруже­ния аномалий, так как они помогают выявить отклонения среди следующих параметров временного ряда: уровни нечеткого временного ряда; нечеткие элементарные и локальные тенденции и другие [134]. В работах [125, 134,

207]показано применение нечетких методов поиска аномалий в нечетких временных рядах при решении задач построения сложных тензометрических систем, поиска отклонений в базах данных временных рядов, а также исполь­зование методов в геоинформатике. Несмотря на перспективность и активное развитие данного подхода, использование его для анализа временного ряда животноводческого предприятия не даст оптимального результата, так как все данные, поступающие на выход сенсорного датчика и образующие вре­менные ряды, являются четкими множествами и анализировать их на пред­мет аномалий можно, использовав обычные статистические методы.

Проанализировав классы методов поиска аномалий во временных рядах, отдельно стоит рассмотреть подмножество статистических методов выявле­ния выбросов и флуктуаций во временных рядах.

Методы поиска выбросов, грубых ошибок и погрешностей во временных рядах

Таблица 1.5. Методы поиска выбросов во временных рядах.

Название метода поис­ка выбросов во вре­менных рядах Область применения Ограничение исполь­зования
1 2 3
Правило трех сигм Универсальный стати­стический метод. При­меняется в экономике, медицине, химии, геоло­гии, материаловедении, метеорологии и других областях, где требуется обработка эксперимен­тальных данных. Может быть применен к временным рядам, полу­ченным с датчиков жи­вотноводческого ком­плекса, если закон рас­пределения данных яв­ляется нормальным, а количество выбросов не­велико и не имеет силь­ного влияния на общую дисперсию временного ряда.
Критерий Ирвина Универсальный стати­стический метод. При­меняется для анализа данных, описывающих экономические, электро­технические, геологиче­ские и другие процессы. Может быть применен для анализа временных рядов животноводческо­го комплекса, в случае, если предшествующий аномальному элемент не является выбросом. Кри­терий желательно при­менять к данным нор­мального закона распре­деления. Значение ошибки при использова­нии критерия в условиях отсутствия информации о законе распределения данных неизвестно и не описано.

1 2 3
Критерий Шовене, Критерий Граббса,

Критерий Романовского.

Универсальные стати­стические критерии оценки выбросов. При­меняются для идентифи­кации выбросов в экспе­риментальных данных из областей геоинформати­ки, металловедения, ме­теорологии и т.д. Могут быть применены для оценки выбросов временных рядов живот­новодческого предприя­тия. Закон распределе­ния данных временных рядов должен быть нор­мальным, влияние вы­бросов на общую дис­персию временного ряда не должна быть боль­шой.
Критерий Диксона Универсальный стати­стический критерий оценки выбросов, при­меняемый в условиях незнаний закона распре­деления исходных дан­ных. Применяется при анализе эксперимен­тальных данных в элек­тротехнике, авиации и других областях. Может быть применен для анализа временных рядов животноводческо­го комплекса, в случае, если первое и последнее значение, построенного на основе временного, вариационного ряда не будет являться выбро­сом.
Методы поиска порога бинаризации при обра­ботке изображений: Метод Отсу, Алгоритм сбалансиро­ванного порогового от­сечения гистограммы, Метод итеративного по­иска порога Применяются для выбо­ра оптимального порого­вого значения бинариза­ции обрабатываемого изображения, на основе анализа гистограммы яркости. Применение данных ме­тодов по отношению к задаче поиска выбросов данных, полученных на животноводческих пред­приятиях не даст каче­ственного результата, так как гистограмма рас­пределения плотности вероятностей элементов временного ряда будет иметь одну моду, что противоречит условиям использования рассмат-

1 2 3
риваемых методов.

Проведенный анализ методов поиска аномалий во ременных рядах пока­зал существование большого числа подходов к решению данной проблемы. В зависимости от конкретных условий и поставленных задач выбираются под­ходы, которые, в конечном итоге дают приемлемый результат [3, 10, 37, 38,61, 64, 70, 77 -79, 94, 109, 125, 134, 137, 146, 148, 166, 198, 207 -210]. Тем не менее, большинство методов нецелесообразно применять для решения задачи анализа временных рядов, получаемых с датчиков на животноводческом предприятии. Одними из наиболее универсальных и подходящих методов для анализа потоков данных с животноводческого комплекса являются ста­тистические методы. Но при анализе этих методов выявлено, что ни в одной работе четко не сформулирован алгоритм для нахождения границы или поро­га, по которому можно считать значение временного ряда аномальным, вме­сто этого даны весьма расплывчатые формулировки, что именно считать от­клонением от нормы. Методы, позволяющие оценить значение границы от­сечения элемента, подозреваемого на отклонение во временном ряду, выде­лены в отдельную группу статистических методов обработки эксперимен­тальных данных. Основной вклад в развитие данного научного направления внесли Новицкий и Зограф, которые в [175]описали основные способы оценки погрешностей результатов измерений и их математический аппарат. Основной задачей данных методов является поиск и подавление выбросов, грубых ошибок и погрешностей среди данных, полученных опытным путем в результате физических, химических, экономических измерений и т.д.

Наиболее распространенным и общепризнанным методом является кри­терий (правило) трех сигм. Подход используется для анализа данных любой природы [48, 59, 114, 130, 186, 206]. Данный метод идентифицирует значения временного ряда как выбросы, если они выходят за пределы, трехкратно пре­вышающие среднеквадратическое отклонение относительно математического

ожидания временного ряда. Однако, применение данного правила зависит от закона распределения исходных данных. Данное правило применяется толь­ко к данным, распределенным по нормальному закону. Также данный метод может давать некорректный результат в случае малого объема выборки, при большом числе отклонений, которые увеличивают значение общей диспер­сии.

Критерий Ирвина помогает идентифицировать грубые ошибки и выбро­сы во временным ряду, распределение данных которого в большинстве слу­чаев подчиняется нормальному закону распределения [49]. Однако, нередко используют данный метод оценки и при других законах распределения, при этом существует вероятность неверной оценки значения и возникновения ошибки второго рода, когда нормальное значение временного ряда будет оценено как выброс [151]. Принцип оценки значения временного ряда за­ключается в нахождении частного от деления разности подозрительного и предшествующего подозрительному значений временного ряда на средне­квадратическое отклонение. Полученное значение сравнивается с табличным и принимается решение об исключении элемента из временного ряда при за­данном уровне значимости. Критерий Ирвина общепринят и распространен. Применение данного метода приведено в работах [36, 131, 168], где осу­ществляется поиск аномальных значений в данных, описывающих экономи­ческие, электротехнические, геологические и другие процессы.

Для обнаружения выбросов и аномалий нередко используют критерий Шовене. Метод основан на нахождении числа среднеквадратических откло­нений, на которое значение, подозрительное на выброс, отличается от сред­него значения временного ряда. Далее в соответствии с табличными значени­ями находится вероятность этого отклонения. На основании полученных ве­личин принимается решение, считать ли данный элемент временного ряда промахом. По такому же принципу применяется критерий Граббса и подоб­ный ему критерий Романовского [41, 42]. Использование перечисленных ме­тодов для выявления выбросов значений во временных рядах показано в ра­

ботах [11, 85, 174], где анализируются данные, полученные с космических спутников, экспериментальных измерений в металлографии и металловеде­нии и информация об изучении в атмосфере. Использование приведенных критериев подразумевает подчинение исследуемых данных нормальному за­кону распределения. В [189]проведено исследование, показывающее, что, если применять критерии Романовского и Граббса по отношению к данным, распределенным по закону Лапласа, экспоненциальному закону или данным, закон распределения которых неизвестен, то результаты оценки выбросов могут нести ошибочный характер.

В случае, когда закон распределения исходных данных заранее не изве­стен, принято использовать критерий Диксона [22, 25, 26, 84, 152, 180]. Дан­ный поход основан на расчете частного от деления разности подозрительного значения с предшествующим ему в вариационном ряду и разности первого и последнего (минимального и максимального) элементов вариационного ряда. Далее полученное значение сравнивается с табличным и принимается реше­ние является подозрительный элемент временного ряда выбросом или нет. Существует множество других методов оценки выбросов данных, например, критерий Шарлье [111, 147], критерий Пирса [18, 50, 76], критерий Смирнова [159] и другие.

Все рассмотренные выше подходы являются универсальными статисти­ческими методами и дают хороший результат оценки в зависимости от реша­емой задачи, что показано в работах [5, 11, 18, 22, 25, 36, 41, 42, 48, 49, 50,59, 73, 76, 81, 84, 85, 111, 114, 130, 131, 147, 151, 152, 159, 168, 174, 175, 180,186, 189, 206,]. Основное отличие методов заключается в возможности их применения к данным, распределенным не по нормальному закону распреде­ления. Если данные подчинены нормальному закону, то теоретически воз­можно применение любого из предложенных методов.

Отдельно стоит обратить внимание на методы поиска порогового значе­ния, применяемые в области обработки изображений для бинаризации и сег­ментации. Наиболее распространенными методами являются: метод Отсу

[73], алгоритм сбалансированного порогового отсечения гистограммы, пред­ложенный в [5], метод итеративного выбора порога, предложенный Ридлером в [81]и другие. Данные методы, основываясь на собственном математиче­ском аппарате, осуществляют поиск значения, разделяющего гистограмму плотности распределения яркости изображения на два класса. В основе при­менения данных подходов лежит предположение, что существует как мини­мум два класса объектов, обладающие хорошо выраженными центрами рас­пределения и модами. Таким образом, речь идет о двух разных классах точек на изображении или, применительно к решаемой задаче, объектах временно­го ряда. Основная сложность заключается в том, что те отклонения и анома­лии, которые необходимо будет выявлять во временных рядах, полученных с датчиков животноводческого предприятия, не формируют отдельный класс значений, они равномерно распределены относительно одной моды. Поэто­му, методы поиска порогового значения, применяемые при бинаризации изображений, использовать для идентификации аномальных значений вре­менных рядов с датчиков животноводческих хозяйств невозможно из-за от­сутствия как минимум двух ярко выраженных классов.

Таким образом, в данном разделе проведен: анализ существующих методов обработки и анализа временных рядов, методов агрегирования данных; анализ существующих методов поиска аномалий во временных рядах; анализ статических методов поиска выбросов и грубых ошибок во временных рядах, а также методов поиска порога бинаризации. Анализ показал, что проанализированные современные методы обработки и ана­лиза временных рядов после модернизации и адаптации могут быть ис­пользованы для временных рядов животноводческого предприятия в рам­ках решения задачи обеспечения качественного мониторинга.

<< | >>
Источник: АНТОНОВ ЛЕВ ВАСИЛЬЕВИЧ. МЕТОДЫ И АЛГОРИТМЫ ДИАГНОСТИКИ И ПРОГНОЗИРОВАНИЯ ФУНКЦИОНАЛЬНОГО СОСТОЯНИЯ ЖИВОТНЫХ В ДОЙНОМ СТАДЕ НА ОСНОВЕ АНАЛИЗА ВРЕМЕННЫХ РЯДОВ ПОКАЗАТЕЛЕЙ ИХ ЖИЗНЕДЕЯТЕЛЬНОСТИ. ДИССЕРТАЦИЯ на соискание ученой степени кандидата технических наук. Муром - 2017. 2017

Скачать оригинал источника

Еще по теме Методы обработки и анализа временных рядов:

  1. 48.Понятие общественности, общественного мнения. Методы изучения общественного мнения.
  2. 6.3 Функции Банка России. Денежно-кредитная политика
  3. Тема 18 Политический дискурс
  4. ОСНОВНЫЕ ЗАДАЧИ НАУКИ СОВЕТСКОГО СОЦИАЛИСТИЧЕСКОГО ПРАВА1
  5. 1.1 Учет и контроль как функции управления
  6. Предоставление информации акционерам в индивидуальном порядке.