Методы обработки и анализа временных рядов
Для оценки возможности применения существующих на настоящий момент методов обработки временных рядов для решения задачи качественного мониторинга производственного процесса животноводческого предприятия был проведен соответствующий анализ.
В настоящий момент область обработки временных рядов активно развивается, а сфера применения методов становится с каждым годом все обширнее. Результаты анализа работ по данному направлению сведены в таблицу 1.3.
Таблица 1.3. Методы обработки временных рядов
Группа методов обработки временных рядов | Область применения | Ограничения |
1 | 2 | 3 |
Методы нормирования временных рядов. Min-max нормализация [200]. Взвешенная z- нормализация [69]. Масштабирование. | Обрабатываются численные ряды любой природы с целью предания исследуемым признакам одинакового веса. | Временные ряды, сформированные при считывании данных с датчиков животноводческого предприятия, имеют разные единицы измерения и нуждаются в нормализации. |
Очистка временных рядов | ||
Обработка неполных временных рядов: Метод заполнения средним. Метод интерполяции соседних точек. Среднее значение Nсоседних точек. Медиана Nсоседних точек. Заполнение прогнозируемыми значениями линейной регрессии тренда. Методы, основанные на моделировании и сложной интерполяции. | Экология, данные природного происхождения. Данные с датчиков, поступившие с временной задержкой. | Случайная функция, полученная с датчиков животноводческого хозяйства, не имеет пропущенных значений. Применение методов обработки отсутствующих значений не требуется. |
Фильтрация шума во временных рядах Фильтр Баттерворта. Фильтр Чебышева (I и II порядка). Фильтр Бесселя. Эллиптический фильтр. Фильтр Лежандра. Фильтр Г аусса. Фильтр с характеристикой типа «приподнятый косинус». Винеровское оценива- | Применяются при отделении полезной составляющей от шумовой при анализе одномерных и многомерных сигналов. Обработка изображений, радиотехнических сигналов, данных экономического характера. | Данные методы применяются для обработки случайных функций, содержащих сложный полезный сигнал. Числовые ряды с датчиков животноводческого предприятия содержат полезный сигнал, не имеющий сложной структуры. Поэтому в случае решения задачи обработки данных жи- |
1 | 2 | 3 |
ние. Фильтр Калмана. | вотноводческого комплекса применять приведенные методы фильтрации нецелесообразно. | |
Прогнозирование во временных рядах | ||
Модели авторегрессии и скользящего среднего: "Наивные" модели прогнозирования. Метод ARMA (авторегрессии — скользящего среднего) Метод ARIMA (метод Бокса — Дженкинса). Метод Винтерса. Метод GARCH (метод авторегрессионной условной гетеро- скедастичности). Другие методы: Адаптивные методы краткосрочного прогнозирования. Фильтр Калмана. | Универсальные методы для анализа временных рядов любой природы. Наиболее часто используются в прогнозировании финансовых рынков и продаж. | Могут быть применены для анализа временных рядов, полученных с датчиков животноводческого предприятия для краткосрочного прогнозирования. |
Нейросетевые модели. Прогнозирование на основе преобразования Фурье. | Могут быть применены для анализа временных рядов, полученных с датчиков животноводческого предприятия для краткосрочного и долгосрочного прогнозирования. | |
Редукция временных рядов | ||
Факторный анализ временных рядов: Метод главных компо- | Сокращение размерности временного ряда при сохранении большей ча- | В случае анализа временных рядов данных животноводческого |
1 | 2 | 3 |
нент. Метод независимых компонент Анализ сингулярного спектра (SSA) Метод максимального правдоподобия(для оценки факторных нагрузок) Альфа-факторный анализ | сти полезной информации. Необходим при наличии большого числа признаков, чтобы исключить мультиколлинеарность данных. | предприятия использование факторного анализа не требуется, так как количество признаков невелико и сокращать их размерность, теряя полезную информацию нецелесообразно. |
Нахождение зависимости исследуемых временных рядов | ||
Корреляционный анализ числовых рядов Дисперсионный анализ числовых рядов. Регрессионный анализ. | Статистические методы, необходимые для установления степени зависимости между числовыми рядами. | Методы корреляционного анализа позволят оценить степень взаимного влияния числовых рядов, полученных с датчиков животноводческого предприятия. Полученные оценки помогут составить более детальную структуру входных параметров и избавиться от избыточного дублирования информации. |
Методы слияния временных рядов | ||
Фильтр Калмана, Байесовская сеть доверия, Теория Демпстера — Шафера | Методы, предназначенные для слияния данных и знаний, характеризующих один и тот же объект. Комбинирование сенсорных данных позволяет уменьшить неопределенность, которая присутствовала в информации полученной от каждого датчика по отдельности. |
Нормализация данных. Преобразование диапазона изменения значений временного ряда к стандартным интервалам [-1; 1], [0, 1] позволяет устранить зависимость выбора единиц измерений.
Min-max нормализация применяется в [200]для предобработки данных, поступающих на вход нейросетевого алгоритма. Недостатком данного подхода является чрезмерное сжатие основной массы данных, включающей полезный сигнал, при наличии доминирующих аномалий (аутлаеров), которые увеличивают дисперсию временного ряда. Аналогичный недостаток был выявлен при применении метода масштабирования данных, где временной ряд умножается на некоторую константу.
В работе [69]применяется z-нормализация для последующей пороговой сегментации данных. В ситуации, когда максимум и минимум временного ряда неизвестны, метод показывает хорошие результаты нормализации даже при наличии ярко выраженных аутлаеров.
Обработка отсутствующих данных. При использовании метода заполнения средним пропущенные значения заменяются среднеарифметическим временного ряда [138, 149, 194]. Данный метод не пригоден для анализа временных рядов с большими интервалами системных колебаний и большим значением дисперсии. Тем не менее, из-за своей простоты является одним из самых распространенных и применяется для восстановления данных в любых областях применения.
Методы: интерполяция соседних точек; среднее значение Л-соседних точек; медиана Л-соседних точек подробно рассмотрены в [161]. Геометрический смысл интерполяции соседних точек заключается в замене пропущенных значений временного ряда прямым отрезком. Применение метода среднего значения Л соседних точек предполагает вычисление отсутствующих величин, исходя из среднего значений Л ближайших точек по обе стороны от интервала пропуска. При использовании медианы пропущенные значения временного ряда вычисляются с помощью медианы для интервального 43
вариационного ряда.
У всех трех подходов имеется существенный недостаток: использование рассмотренных методов возможно только в случае, когда значение соседних точек близки друг к другу. Если на интервале пропуска имеется максимум или минимум ряда, то применение метода становится невозможным.Метод заполнения прогнозируемыми значениями на основе линейной регрессии предполагает расчет коэффициентов линии регрессии с помощью метода наименьших квадратов [161]. Зная параметры линии тренда, можно рассчитать предполагаемые значения в интервале пропуска. Недостаток метода заключается в возможности его использования только к данным, где присутствует трендовая составляющая. Метод дает слабый результат, в том случае, когда в исследуемом временном ряде отсутствует тренд и присутствует сезонная составляющая.
Данные методы широко используются в любых областях, где присутствует неполнота данных в результате отказа датчиков, трудностей измерений, связанных с погодными или другими условиями и т.д. В работе [164]обрабатываются данные об экологии окружающей среды и информация с датчиков, поступившая с задержкой. В случае обработки данных временных рядов животноводческого предприятия необходимости в применении этих методов нет, так как данные обладают необходимой полнотой и не имеют пропусков значений.
Фильтрация данных. Существует множество методов фильтрации и сглаживания изображений. Основная задача методов фильтрации - подавление шумовой составляющей сигнала. Задача выделения полезных сигналов актуальна при обработке любого вида данных. Достаточно распространено применение фильтрации и сглаживания данных в области обработки изображений и анализе радиотехнических сигналов. В работах [1, 2, 60, 62, 72, 87,96, 116, 117, 119, 129, 136, 172, 187, 181, 182, 201] рассматриваются примеры применения различных методов фильтрации и их настройки для обработки различного рода данных. Естественно, существует большое количество ме
тодов, позволяющих отделить полезную составляющую от шумовой, в работах [1, 2, 60, 62, 72, 87, 96, 116, 117, 119, 129, 136, 172, 187, 181, 182, 201]рассмотрены самые широко распространенные подходы.
Приведенные методы применяются для анализа данных с полезным сигналом сложной структуры. В случае решения задачи анализа временных рядов животноводческого предприятия фильтрацию данных можно не использовать, так как полезная составляющая сложной структуры не имеет.Прогнозирование во временных рядах. Задача прогнозирования заключается в оценке будущих неизвестных значений временного ряда на краткосрочный или долгосрочный период.
Модели авторегрессии и скользящего среднего основаны на совмещении двух более простых моделей временных рядов: модель авторегрессии и скользящего среднего. Применяя данную группу методов можно построить довольно точную и адекватную модель, описывающую динамику поведения временного ряда и позволяющую выполнить прогноз последующих неизвестных значений временного ряда [44, 110, 128, 179, 197, 203]. Тем не менее, данная группа методов обладает рядом недостатков. Используя модели авторегрессии и скользящего среднего, случайные флуктуации сглаживаются, что является недопустимым по отношению к временным рядам, полученным с сенсоров животноводческого предприятия, так как случайные колебания могут быть частью полезного сигнала. Также стоит отметить, что довольно часто во временных рядах биологического происхождения приходится делать среднесрочный или долгосрочный прогноз. Модели авторегрессии и скользящего среднего достаточно точно прогнозируют будущие значения ряда в краткосрочной перспективе, имея при этом достаточно большую ошибку при прогнозировании значений через большой промежуток времени. Тот же недостаток имеет и фильтр Калмана, предоставляющий довольно точную прогнозную оценку для краткосрочного периода, рассчитывая коэффициенты взаимосвязи предыдущего и последующего значения во временном ряде.
Отдельно стоит отметить прогнозирование во временных рядах на основе нейросетей. Используя ряд выбранных признаков и ретроспективные значения временных рядов для обучения нейронной сети, можно получить достаточно точный прогноз значений временного ряда как в краткосрочной, так и в долгосрочной перспективе. Тем не менее, существует недетерминированность: после обучения невозможно понять, каким образом принимается то или иное решение и по каким правилам оно сформулировано. Еще одним существенным недостатком применения нейросетей для прогнозирования является изменения нормативов, по которым показатель считается нормой или выпадом, например, при смене породы или вводе нового стада в эксплуатацию изменяются нормы: потребления корма, молокоотдачи, жирности молочного продукта и т.д. Таким образом, необходимо изменять базу прецедентов и переобучать нейронную сеть.
Прогнозирование на основе применения преобразования Фурье является универсальным методом и обеспечивает точный прогноз во временных рядах как в краткосрочный, так и долгосрочный период. Такой результат достигается с помощью сохранения всей полезной информации о процессе в ходе преобразования временного ряда. Используя механизм тонкой настройки, можно заранее проанализировать сигнал и решить, какие гармоники в спектре, в зависимости от величины амплитуды, являются шумом и случайными флуктуациями, а какие относятся к полезному сигналу и периодически повторяются.
Факторный анализ. Главная цель факторного анализа - решение проблемы мультиколлинеарности временных рядов с помощью сокращения количества измерений данных исходных признаков при минимальной потере полезной информации. В работах [55, 118, 132, 170, 171, 191, 193, 202]подробно описаны методы факторного анализа для обработки данных в области энергетики, экологии, экономики, обработки изображений и энергетики. Методы факторного анализа универсальны и могут применяться к данным любых областей. При обработке временных рядов, полученных с датчиков жи
вотноводческого комплекса, необходимости применять факторный анализ нет, так как имеется ограниченный набор признаков и сокращать их размерность, теряя пласт полезной информации нецелесообразно.
Методы нахождения зависимости между исследуемыми численными рядами. В работах [133, 139, 140, 142, 143, 157, 158, 185, 192, 205]применяются методы анализа временных рядов, позволяющие оценить степень влияния исследуемых признаков друг на друга или на выходные качественные и количественные показатели. Как видно из проанализированных источников, подходы к исследованию взаимосвязи данных имеют широкую область применения. Математический аппарат рассмотренных подходов различен, тем не менее, все представленные методы широко распространены и дают хороший результат при обработке данных, на основе которых принимаются управленческие решения. Оценка взаимного влияния временных рядов, полученных с датчиков животноводческого предприятия, является важной задачей, так как с одной стороны позволит более детально проанализировать структуру входных данных и избавиться от дублирования информации, с другой стороны выявить скрытые зависимости признаков, которые можно будет использовать при принятии решений в условиях животноводческого производства.
Методы слияния временных рядов. Существует ряд методов алгоритмов, необходимых для непосредственного слияния данных сенсоров. Проблема интеграции данных изначально приобрела актуальность в области обработки изображений и теории оценивания [145]. Первые работы в этой области были направлены на дифференциальное комбинирование геометрических данных со снимков авиационного датчика. Большой вклад в развитие внесли Брукс [13], Чатила [16], Дюрант-Вайт [28], Калман [56], Демпстер [23], Шафер [86]и др.
В работах [4, 13, 16, 19, 23, 28, 43, 56, 74, 86, 90, 91, 145, 163, 183]рассматривается проблема агрегирования признаков и слияния данных с сенсоров. Выбор конкретных методов обработки зависит от вида выходных данных. Фильтр Калмана принимает на вход один или несколько временных ря
дов и позволяет оценить состояние системы в следующий момент времени. Использование метода Калмана дает оптимальный результат, так как данные, принимаемые им на вход являются однородными: снимаются с датчиков одинакового типа и, в большинстве случаев, измеряются в одних и тех же единицах. В этом случае фильтр Калмана является механизмом для получения сглаженного вектора показателей однородной информации. В случае анализа временных рядов животноводческого хозяйства данные являются неоднородными, снимаются с датчиков разных типов, поэтому фильтр Кал- мана не позволит построить адекватную математическую модель агрегирования исследуемых признаков.
Байесовские сети и теория Демпстнера-Шафнера позволяют строить направленные ациклические графы показаний сенсорных датчиков разного типа. Дуги графа содержат информацию отношения правдоподобия между вершинами. Значение величины отношения правдоподобия находится с помощью специальной функции преобразования, которая выбирается по отношению к степени зависимости выходных временных рядов. Применение данных методов по отношению к данным, полученным с датчиков животноводческого предприятия осложнено тем, что невозможно заранее оценить структуру входных данных, определить точную для разных предприятий, степень зависимости входных признаков, поэтому получить верную оценку отношения правдоподобия между вершинами.
В отдельный класс можно выделить методы анализа временного ряда на предмет выявления аномальных значений, что является важной задачей для обеспечения качественного мониторинга. Как говорилось ранее, основной задачей мониторинга является выявление критических значений производственных параметров, а также их прогнозирование. Приведенные в таблице
1.3 методы обработки временных рядов решают широкий спектр задач обработки, но не решают комплексную задачу мониторинга и выявления отклонений во временных рядах.
Методы поиска аномалий во временных рядах
Мониторинговый процесс на животноводческом предприятии позволяет с помощью анализа данных с датчиков выполнять поиск критических и аварийных ситуаций, возникающих в процессе производства. Процесс выявления подобных ситуаций организован на основе анализа временных рядов, полученных с мониторинговых датчиков, установленных на животных предприятия. Для обнаружения потенциально опасной ситуации производственного процесса используются специальные методы анализа временных рядов для проверки текущего значения ряда на аномальность. В работах [3, 10, 37,38, 61, 64, 70, 77 -79, 94, 109, 125, 134, 137, 146, 148, 166, 198, 207 -210], посвященных решению задачи поиска аномальных значений во временных рядах, под термином “аномалия” понимается отклонение от нормы или общей тенденции (закономерности). В биотехнических системах крупных предприятий, где с большого числа датчиков поступает множество потоков данных, проследить появление аномального значения практически невозможно, поэтому данный процесс нуждается в компьютеризации.
Выделяют несколько видов задач обнаружения отклонившихся от нормы значений: поиск аномалий, представляющих собой некоторую часть полезной составляющей сигнала; идентификация аномалий или аномальных участков временного ряда с целью подавления шумовой составляющей; выявление аномалий путем сопоставления временного ряда, представляющего собой эталон, и временного ряда реальных производственных данных. Задача поиска аномалий актуальна практически для любой сферы деятельности. В работе [134]проанализирован ряд областей, где применяются методы поиска аномалий временных рядов. Так часто идентифицировать отклонения значений от нормы требуется в сфере безопасности, защиты информации, медицине, экономике, промышленности, экологии, робототехнике, телекоммуникациях, а также в области научных исследований при обработке и распознавании изображений, текста и речи. Выделяют ряд методов поиска аномалий во временных рядах, представленных в таблице 1.4.
Таблица 1.4. Методы выявления аномалий во временных рядах.
Название метода поиска аномалии во временном ряде | Область применения | Ограничения |
1 | 2 | 3 |
Методы скользящего окна | Применяются: для обнаружения аномальной активности трафика; в области обработки изображений. | В случае применения класса методов ко временным рядам животноводческого предприятия возникает необходимость анализа ретроспективных данных и накопленной статистики. Сложный механизм выбора границ окна и порогового значения. |
Методы кластеризации данных | Универсальные методы, применяемые при обработке экономических, химических, геологических и других данных. | Для обнаружения аномальные значения должны образовывать отдельный четко сформированный класс. В случае анализа временных рядов животноводческого комплекса, аномалии не являются четко выраженным кластером и представляют из себя единичные отклонения, которые методы кластеризации не выделяют в отдельный класс. |
Статистические методы | Универсальные методы поиска аномалий, применяемые для анализа экономических, геологических, атмосфер- | Применение метода обусловлено расчетом некоторых эталонных показателей или критериев сравнения с ре- |
1 | 2 | 3 |
ных, астрономических данных, результатов физико-химических экспериментов и т.д. | альными производственными данными. Применение данной группы методов по отношению к временным рядам животноводческого предприятия возможно, если эталонные показатели, пороговые значения или другие параметры сравнения (в зависимости от задачи) будут рассчитаны заранее и не требуют перерасчета в момент принятия решения. | |
Цепи Маркова | Применяются в областях, где в основе исследуемого процесса или явления лежит графовая Марковская модель. Широко используется в метеорологии, экономике, при анализе данных сетевого трафика и т.д. | Не могут быть применены по отношению к временным рядам, полученным с датчиков животноводческого комплекса, так как в основе модели исходных данных нет Марковской цепи. |
Нечеткие методы | Применяются в условиях возникновения неопределенности, разной степени принадлежности одного объекта к нескольким классам. Применяются при решении задач построения сложных тензометрических систем, поиска отклонений в базах | Использование данной группы методов по отношению к данным животноводческого предприятия нецелесообразно, так как данные, поступающие на выход сенсорного датчика и образующие временные ряды, являются четкими множествами. Ана- |
1 | 2 | 3 |
данных временных рядов, а также в геоинформатике. | лизировать их на предмет аномалий можно использовав обычные статистические методы. |
Методы скользящего окна имеют различные модификации, в зависимости от вида и сложности решаемой задачи. В работах [3, 10, 61, 79, 166, 208 - 210,] рассматриваются методы обнаружения аномальной сетевой активности на основе анализа трафика с помощью комбинации методов вейвлет- преобразований и байесовской модели классификации. Существенными недостатками данного класса методов является то, что они имеют высокую вычислительную сложность, ограниченность масштаба разложения временного ряда. Также в работах [3, 10, 61, 79, 166, 208 - 210,] четко не обозначен критерий выбора пороговых значений для скользящих окон. Также существенным недостатком методов является необходимость анализа всего временного скользящим окном для поиска аномального значения. В случае анализа данных, полученных с датчиков животноводческого предприятия решение о том, является ли текущее полученное значение аномальным, должно приниматься моментально без анализа ретроспективных данных.
Следующий тип методов, предназначенных для выявления аномальных значений основан на использовании кластеризации данных. В работах [38,64, 70, 109] показано, что разделение значений наблюдений, содержащихся во временных рядах, на кластеры позволяет отделить аномальные значения от тех, которые подчиняются общей тенденции. Но недостаток данного подхода заключается в том, что невозможно выделить в отдельный класс незначительные отклонения параметра от нормы. В условиях обработки данных, характеризующих состояние животного или показатель качества молочной продукции, задача идентификации незначительных отклонений параметра от нормы является актуальной.
Поиск аномальных значений с помощью статистических методов основан на принципе сравнения двух временных рядов. Это могут быть пары сравнения идеального и реального временного ряда или рассчитанные значения краткосрочного и долгосрочного поведения параметра [134, 198]. Существуют разные подходы к сравнению временных рядов. Например, используя простое вычисление евклидова расстояния между эталонным вектором и реальным, можно найти значение, характеризующее отклонение одной выборки от другой. Существуют более сложные способы, которые основаны на расчете значений некоторых параметров исследуемых временных рядов, например, категориальный или числовые параметры, величины интенсивности распределения событий [137, 198], например, метод Хотеллинга (или тест Хотеллинга), использование которого показано в [94]. Статистические методы (пороговый, метод среднего значения, метод среднеквадратического отклонения или его расширенная многовариационная версия) лежат в основе поведенческих методов идентификации аномалий, основанных на выявлении несоответствия между текущим режимом работы исследуемой системы и режимом, отвечающим штатной модели данного метода. Недостатком такого подхода является сложность построения модели штатного режима функционирования исследуемой системы [198]. Статистические методы обрабатывают и анализируют набор ретроспективных данных, производя накопление статистических показателей или сравнивают некоторый рассчитанный эталон с текущим значением. В рамках решения задачи поиска аномалии во временных рядах, полученных с датчиков животноводческого хозяйства, принятие решения о том, является ли значение датчика в текущий момент аномальным или нет должно приниматься сразу после его снятия, поэтому невозможно быстро рассчитать необходимые для анализа параметры. Что касается пороговых методов, то они могут быть применены, если существует возможность получения порогового значения заранее и не требуется его перерасчет во время анализа свежих данных с датчика в момент принятия решения.
Обнаружение аномалий с помощью цепи Маркова заключается в построении графовой модели, осуществляющей описание процесса перехода объекта системы из одного состояния в другое. В работах [37, 78, 77, 148] приведено описание применения Марковских сетей для обнаружения аномальной активности в сетевом трафике. Недостатком описанного подхода является предположение о том, что исходные временные ряды формируются с помощью скрытого Марковского процесса. Если же подобный процесс отсутствует, то метод не позволит отследить наличие аномалии во временном ряду [134]. Очевидно, что если бы подобный подход был применен для анализа данных на животноводческом комплексе, то для четкого определения состояния животного или продукции необходимо было бы построить графовую модель, описывающую ординарный, стационарный поток событий, то есть модель, где объект может находиться только в одном состоянии и вероятность перехода из одного состояния в другое была бы постоянна. На основе знания вероятности перехода удалось бы обнаружить ряд отклонений от нормы. Формирование исходного временного ряда, получаемого с сенсора на животноводческом предприятии, происходит под влиянием большого числа случайных воздействий, начиная с погодных условий, длины светового дня и заканчивая условиями содержания, которые варьируются на разных предприятиях. Поэтому невозможно определить точную вероятность перехода объекта из одного состояния в другое, что делает метод цепей Маркова неприменимым для решения задачи поиска отклонений временных рядов на животноводческом предприятии.
Детальный анализ методов поиска отклонений во временных рядах, выполненный в работе [134], выделяет нечеткие методы поиска в отдельный класс. Действительно, оценивать процессы, которые протекают в условиях неопределенности, целесообразно с помощью нечетких методов обнаружения аномалий, так как они помогают выявить отклонения среди следующих параметров временного ряда: уровни нечеткого временного ряда; нечеткие элементарные и локальные тенденции и другие [134]. В работах [125, 134,
207]показано применение нечетких методов поиска аномалий в нечетких временных рядах при решении задач построения сложных тензометрических систем, поиска отклонений в базах данных временных рядов, а также использование методов в геоинформатике. Несмотря на перспективность и активное развитие данного подхода, использование его для анализа временного ряда животноводческого предприятия не даст оптимального результата, так как все данные, поступающие на выход сенсорного датчика и образующие временные ряды, являются четкими множествами и анализировать их на предмет аномалий можно, использовав обычные статистические методы.
Проанализировав классы методов поиска аномалий во временных рядах, отдельно стоит рассмотреть подмножество статистических методов выявления выбросов и флуктуаций во временных рядах.
Методы поиска выбросов, грубых ошибок и погрешностей во временных рядах
Таблица 1.5. Методы поиска выбросов во временных рядах.
Название метода поиска выбросов во временных рядах | Область применения | Ограничение использования |
1 | 2 | 3 |
Правило трех сигм | Универсальный статистический метод. Применяется в экономике, медицине, химии, геологии, материаловедении, метеорологии и других областях, где требуется обработка экспериментальных данных. | Может быть применен к временным рядам, полученным с датчиков животноводческого комплекса, если закон распределения данных является нормальным, а количество выбросов невелико и не имеет сильного влияния на общую дисперсию временного ряда. |
Критерий Ирвина | Универсальный статистический метод. Применяется для анализа данных, описывающих экономические, электротехнические, геологические и другие процессы. | Может быть применен для анализа временных рядов животноводческого комплекса, в случае, если предшествующий аномальному элемент не является выбросом. Критерий желательно применять к данным нормального закона распределения. Значение ошибки при использовании критерия в условиях отсутствия информации о законе распределения данных неизвестно и не описано. |
1 | 2 | 3 |
Критерий Шовене, Критерий Граббса, Критерий Романовского. | Универсальные статистические критерии оценки выбросов. Применяются для идентификации выбросов в экспериментальных данных из областей геоинформатики, металловедения, метеорологии и т.д. | Могут быть применены для оценки выбросов временных рядов животноводческого предприятия. Закон распределения данных временных рядов должен быть нормальным, влияние выбросов на общую дисперсию временного ряда не должна быть большой. |
Критерий Диксона | Универсальный статистический критерий оценки выбросов, применяемый в условиях незнаний закона распределения исходных данных. Применяется при анализе экспериментальных данных в электротехнике, авиации и других областях. | Может быть применен для анализа временных рядов животноводческого комплекса, в случае, если первое и последнее значение, построенного на основе временного, вариационного ряда не будет являться выбросом. |
Методы поиска порога бинаризации при обработке изображений: Метод Отсу, Алгоритм сбалансированного порогового отсечения гистограммы, Метод итеративного поиска порога | Применяются для выбора оптимального порогового значения бинаризации обрабатываемого изображения, на основе анализа гистограммы яркости. | Применение данных методов по отношению к задаче поиска выбросов данных, полученных на животноводческих предприятиях не даст качественного результата, так как гистограмма распределения плотности вероятностей элементов временного ряда будет иметь одну моду, что противоречит условиям использования рассмат- |
1 | 2 | 3 |
риваемых методов. |
Проведенный анализ методов поиска аномалий во ременных рядах показал существование большого числа подходов к решению данной проблемы. В зависимости от конкретных условий и поставленных задач выбираются подходы, которые, в конечном итоге дают приемлемый результат [3, 10, 37, 38,61, 64, 70, 77 -79, 94, 109, 125, 134, 137, 146, 148, 166, 198, 207 -210]. Тем не менее, большинство методов нецелесообразно применять для решения задачи анализа временных рядов, получаемых с датчиков на животноводческом предприятии. Одними из наиболее универсальных и подходящих методов для анализа потоков данных с животноводческого комплекса являются статистические методы. Но при анализе этих методов выявлено, что ни в одной работе четко не сформулирован алгоритм для нахождения границы или порога, по которому можно считать значение временного ряда аномальным, вместо этого даны весьма расплывчатые формулировки, что именно считать отклонением от нормы. Методы, позволяющие оценить значение границы отсечения элемента, подозреваемого на отклонение во временном ряду, выделены в отдельную группу статистических методов обработки экспериментальных данных. Основной вклад в развитие данного научного направления внесли Новицкий и Зограф, которые в [175]описали основные способы оценки погрешностей результатов измерений и их математический аппарат. Основной задачей данных методов является поиск и подавление выбросов, грубых ошибок и погрешностей среди данных, полученных опытным путем в результате физических, химических, экономических измерений и т.д.
Наиболее распространенным и общепризнанным методом является критерий (правило) трех сигм. Подход используется для анализа данных любой природы [48, 59, 114, 130, 186, 206]. Данный метод идентифицирует значения временного ряда как выбросы, если они выходят за пределы, трехкратно превышающие среднеквадратическое отклонение относительно математического
ожидания временного ряда. Однако, применение данного правила зависит от закона распределения исходных данных. Данное правило применяется только к данным, распределенным по нормальному закону. Также данный метод может давать некорректный результат в случае малого объема выборки, при большом числе отклонений, которые увеличивают значение общей дисперсии.
Критерий Ирвина помогает идентифицировать грубые ошибки и выбросы во временным ряду, распределение данных которого в большинстве случаев подчиняется нормальному закону распределения [49]. Однако, нередко используют данный метод оценки и при других законах распределения, при этом существует вероятность неверной оценки значения и возникновения ошибки второго рода, когда нормальное значение временного ряда будет оценено как выброс [151]. Принцип оценки значения временного ряда заключается в нахождении частного от деления разности подозрительного и предшествующего подозрительному значений временного ряда на среднеквадратическое отклонение. Полученное значение сравнивается с табличным и принимается решение об исключении элемента из временного ряда при заданном уровне значимости. Критерий Ирвина общепринят и распространен. Применение данного метода приведено в работах [36, 131, 168], где осуществляется поиск аномальных значений в данных, описывающих экономические, электротехнические, геологические и другие процессы.
Для обнаружения выбросов и аномалий нередко используют критерий Шовене. Метод основан на нахождении числа среднеквадратических отклонений, на которое значение, подозрительное на выброс, отличается от среднего значения временного ряда. Далее в соответствии с табличными значениями находится вероятность этого отклонения. На основании полученных величин принимается решение, считать ли данный элемент временного ряда промахом. По такому же принципу применяется критерий Граббса и подобный ему критерий Романовского [41, 42]. Использование перечисленных методов для выявления выбросов значений во временных рядах показано в ра
ботах [11, 85, 174], где анализируются данные, полученные с космических спутников, экспериментальных измерений в металлографии и металловедении и информация об изучении в атмосфере. Использование приведенных критериев подразумевает подчинение исследуемых данных нормальному закону распределения. В [189]проведено исследование, показывающее, что, если применять критерии Романовского и Граббса по отношению к данным, распределенным по закону Лапласа, экспоненциальному закону или данным, закон распределения которых неизвестен, то результаты оценки выбросов могут нести ошибочный характер.
В случае, когда закон распределения исходных данных заранее не известен, принято использовать критерий Диксона [22, 25, 26, 84, 152, 180]. Данный поход основан на расчете частного от деления разности подозрительного значения с предшествующим ему в вариационном ряду и разности первого и последнего (минимального и максимального) элементов вариационного ряда. Далее полученное значение сравнивается с табличным и принимается решение является подозрительный элемент временного ряда выбросом или нет. Существует множество других методов оценки выбросов данных, например, критерий Шарлье [111, 147], критерий Пирса [18, 50, 76], критерий Смирнова [159] и другие.
Все рассмотренные выше подходы являются универсальными статистическими методами и дают хороший результат оценки в зависимости от решаемой задачи, что показано в работах [5, 11, 18, 22, 25, 36, 41, 42, 48, 49, 50,59, 73, 76, 81, 84, 85, 111, 114, 130, 131, 147, 151, 152, 159, 168, 174, 175, 180,186, 189, 206,]. Основное отличие методов заключается в возможности их применения к данным, распределенным не по нормальному закону распределения. Если данные подчинены нормальному закону, то теоретически возможно применение любого из предложенных методов.
Отдельно стоит обратить внимание на методы поиска порогового значения, применяемые в области обработки изображений для бинаризации и сегментации. Наиболее распространенными методами являются: метод Отсу
[73], алгоритм сбалансированного порогового отсечения гистограммы, предложенный в [5], метод итеративного выбора порога, предложенный Ридлером в [81]и другие. Данные методы, основываясь на собственном математическом аппарате, осуществляют поиск значения, разделяющего гистограмму плотности распределения яркости изображения на два класса. В основе применения данных подходов лежит предположение, что существует как минимум два класса объектов, обладающие хорошо выраженными центрами распределения и модами. Таким образом, речь идет о двух разных классах точек на изображении или, применительно к решаемой задаче, объектах временного ряда. Основная сложность заключается в том, что те отклонения и аномалии, которые необходимо будет выявлять во временных рядах, полученных с датчиков животноводческого предприятия, не формируют отдельный класс значений, они равномерно распределены относительно одной моды. Поэтому, методы поиска порогового значения, применяемые при бинаризации изображений, использовать для идентификации аномальных значений временных рядов с датчиков животноводческих хозяйств невозможно из-за отсутствия как минимум двух ярко выраженных классов.
Таким образом, в данном разделе проведен: анализ существующих методов обработки и анализа временных рядов, методов агрегирования данных; анализ существующих методов поиска аномалий во временных рядах; анализ статических методов поиска выбросов и грубых ошибок во временных рядах, а также методов поиска порога бинаризации. Анализ показал, что проанализированные современные методы обработки и анализа временных рядов после модернизации и адаптации могут быть использованы для временных рядов животноводческого предприятия в рамках решения задачи обеспечения качественного мониторинга.
Еще по теме Методы обработки и анализа временных рядов:
- 48.Понятие общественности, общественного мнения. Методы изучения общественного мнения.
- 6.3 Функции Банка России. Денежно-кредитная политика
- Тема 18 Политический дискурс
- ОСНОВНЫЕ ЗАДАЧИ НАУКИ СОВЕТСКОГО СОЦИАЛИСТИЧЕСКОГО ПРАВА1
- 1.1 Учет и контроль как функции управления
- Предоставление информации акционерам в индивидуальном порядке.