Понедельник, 2024-06-24
Файлы для студентов
Меню сайта
Главная » 2014 » Август » 6 » Скачать Разработка методов оперативного обнаружения устоявшихся ассоциаций в данных и их использование при сопровождении баз данных бесплатно
9:35 PM
Скачать Разработка методов оперативного обнаружения устоявшихся ассоциаций в данных и их использование при сопровождении баз данных бесплатно
Разработка методов оперативного обнаружения устоявшихся ассоциаций в данных и их использование при сопровождении баз данных корпоративного уровня

Диссертация

Автор: Платонов, Сергей Валерьевич

Название: Разработка методов оперативного обнаружения устоявшихся ассоциаций в данных и их использование при сопровождении баз данных корпоративного уровня

Справка: Платонов, Сергей Валерьевич. Разработка методов оперативного обнаружения устоявшихся ассоциаций в данных и их использование при сопровождении баз данных корпоративного уровня : диссертация кандидата технических наук : 05.13.06 Москва, 2003 137 c. : 61 04-5/2630

Объем: 137 стр.

Информация: Москва, 2003


Содержание:

1 СОПРОВОЖДЕНИЕ БАЗ ДАННЫХ КОРПОРАТИВНОГО УРОВНЯ И СОВРЕМЕННЫЕ МЕТОДЫ АНАЛИТИЧЕСКОЙ ОБРАБОТКИ ДАННЫХ
11 Обзор особенностей сопровождения баз данных корпоративного уровня
12 Анализ современных методов аналитической обработки данных
13 Обзор сфер применения технологии интеллектуального анализа данных
Выводы по главе
2 АНАЛИЗ МЕТОДОВ ОБНАРУЖЕНИЯ УСТОЯВШИХСЯ АССОЦИАЦИЙ В ДАННЫХ, РАЗРАБОТКА МЕТОДОВ РЕАЛИЗАЦИИ И СТРУКТУР ДАННЫХ
21 Алгоритмы поиска устоявшихся ассоциаций в данных
211 Алгоритм Apriori
212 Методы оптимизации алгоритма Apriori
2121 Алгоритм «Разбиение»
2122 Алгоритм «Выборочный анализ»
2123 Алгоритм «Динамический подсчет наборов»
22 Разработка методов реализации алгоритмов в реляционных СУБД
221 Проблемы реализации алгоритмов поиска устоявшихся ассоциаций в данных
222 Структура исходных данных
223 Разработка структур рабочих и результирующих данных
224 Реализация алгоритмов и служебных функций
23 Сравнительный анализ алгоритмов
231 Условия и методы сравнительного анализа
232 Анализ сравнительных характеристик работы алгоритмов
Выводы по главе
3 ОПЕРАТИВНОЕ ОБНАРУЖЕНИЕ УСТОЯВШИХСЯ АССОЦИАЦИЙ В ДАННЫХ
31 Задача оперативного обнаружения устоявшихся ассоциаций в данных
32 Разработка методов реализации оперативной обработки данных
33 Параметры обработки и оценка результатов
Выводы по главе
4 РАЗРАБОТКА РЕАЛИЗАЦИИ ОПЕРАТИВНОГО ОБНАРУЖЕНИЯ УСТОЯВШИХСЯ АССОЦИАЦИЙ В ДАННЫХ ДЛЯ СОПРОВОЖДЕНР1Я РБД АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ ОПЕРАТИВНОГО ДИСПЕТЧЕРСКОГО УПРАВЛЕНИЯ ООО «ПЕРМТРАНСГАЗ»
41 Особенности реализации базы данных системы оперативного диспетчерского управления
42 Сбор исходных статистических данных использования БД
43 Обработка статистических данных использования БД
44 Анализ результатов обработки данных
Выводы по главе

Введение:

Совремет1ый уровень развития аппаратных и профаммных средств с некоторых пор сделал возможным повсеместное ведение баз данных оперативной информации на всех уровнях управления. В процессе своей деятельности промышленные предприятия, корпорации, ведомственные структуры, органы государственной власти и управления, их подразделения технического и программного обеспечения накопили большие объемы данных. Они хранят в себе большие потенциальные возможности по извлечению полезной аналитической информации, на основе которой можно выявлять скрытые тенденции, строить стратегию развития, находить новые решения.Большие объемы и сложность потоков оперативной и статистической информации предполагают использование мощных систем управления базами данных (СУБД) [7], а также мощных серверов или их групп. На современном этапе развития, наиболее распространенные реляционные СУБД [7,15,22,51,52] позволяют хранить и обрабатывать миллиарды записей, выполнять параллельные вычисления, работать с распределенными базами даршых (БД), предоставляют мощный инструментарий обработки данных, умелое использование которого может обеспечить значительное повышение производительности выполняемых задач. Но простое накопление и хранение данных, реализуемое в первую очередь, далеко не исчерпывает возможностей технологии баз данных.Получив в конце 20-го века мощный инструментарий множество орга!шзаций, фирм и частных лиц накопили огромные объемы данных и возник логичный вопрос, что с ними делать и как с ними работать.Наиболее естественным и перспективным решением является аналитическая обработка накопленных данных, т.к. накопленные данные могут скрывать в себе множество ранее не выявленных знаний, которые могут оказаться чрезвычайно полезны в самых различных областях деятельности, а так же позволить проверить существующие знания. При этом объемы данных так велики, а зависимости так сложны, что их ручная обработка практически стала невозможна (человеческий разум сам по себе не приспособлен для восприятия больших массивов разнородной информации и не способен улавливать более двух-трех взаимосвязей даже в небольших выборках данных).Автоматизация аналитической обработки данных имеет огромное значение для всех областей жизнедеятельности человека (стратегическое и бизнес планирование, исходная информация для систем принятия решений и управления, накопление информации для экспертных систем, основа самообучающихся систем, моделирование и проектирование, диагностика, мониторинг и многое другое). Автоматизация может снизить стоимость данных операций в тысячи раз, сократив труд экспертов, а также значительно повысить ценность получаемых данных за счет оперативности и достоверности. По оценкам экспертов и имеющимся примерам внедрения подобных технологий отдача может достигать 1000% [17].В последние годы в мире оформился ряд взаимодополняющих концепций хранения и анализа данных. Наиболее эффективными и распространенными являются: оперативная аналитическая обработка (online analytical processing, OLAP) [29,43,53], хранилища данных (data warehouse) [19,28,65,23,51], интеллектуальный анализ данных (НАД) [14] или добыча данных (data mining) [24,57,67,77,80,92]. Все они занимают некоторую нишу на рынке информационных технологий и, в силу своих функциональных различий, и взаимодополнения по сферам применения, вероятнее всего, продолжат параллельно существовать и в дальнейшем.Тем не менее, стремительно развивающийся сектор аналитической обработки данных, растущие объемы потоков данных и их интенсивность, объемы накопленных данных и сложность их структуры предъявляет все новые требования к методам анализа. В первую очередь, требования связаны с полнотой получаемой информации и снижением затрат на ее получения. Необходимо наиболее оперативно получать максимум информации, пригодной для аналитической обработки и принятия решений, как на основе накопленных данных, так и поступающих, своевременно реагировать на изменение тенденций и правил, В связи с этим возникает необходимость и в оперативном выявлении изменений в закономерностях, информация о которых может использоваться как в явном виде, так и для задания правил для прочих аналитических систем (например, OLAP - ОпLine Transaction Processing). Как только на основе поступающих данных становится возможно говорить об изменениях в закономерностях и правилах, необходимо, чтобы эта информация становилась доступна, при этом выявление подобных изменений должно быть оптимизировано по затрачиваемым ресурсам. Растущие требования к масштабируемости аналитической обработки, полноте информации и оперативности извлечения новых знаний о закономерностях обосновывают выбор темы диссертации и ее актуальность.Расширение области применения методов ИАД [8] в сторону оперативности кроет в себе огромный потенциал. Как правило, обработку данных с целью выявления правил выполняют с достаточно большой периодичностью, что связано с трудоемкостью и необходимостью обеспечения репрезентативности обрабатываемых данных. Методы же OLTP предусматривают обработку на основе заданных закономерностей и отношений, а не их выявление. Тем не менее, промежуточная информация об изменениях в выявленных ранее правилах, отклонениях и о появлении новых и краткосрочных (периодичных или апериодичных) закономерностях может быть также полезной. Она позволит реализовать большую гибкость и адекватность реальности информационно зависимых процессов. В частности, данные методы, в условиях эксплуатации развивающейся большой промышленной базы данных, позволят выявлять изменения в особешюстях использования ресурсов и объектов БД и СУБД, трендах поведения пользователей и требований, структуре информационных потоков, выявлять закономерности в структуре транзакций, позволяющие анализировать особенности функционирования систем и т.п. по мере обретения ими значимости.Предметом исследования являются методы автоматизации аналитической обработки [14,53] оперативных данных в промышленных реляционных БД фактографического типа [7,27,32]. В частности, решение задачи выявления устоявшихся ассоциаций в данных [8], которое позволит оперативно выявлять текущие изменения, обладает значительным потенциалом в области поддержки принятия решения и стратегического планирования.Основным препятствием для реализации автоматизированного оперативного анализа данных являются затраты на обработку больших объемов данных сложной структуры, характерных для данного типа БД, с целью выявления закономерностей, что влечет за собой как снижение оперативности, так и отрицательное влияние на выполнение параллельных оперативных процессов. Следовательно, необходимы методы, позволяющие снизить объем вычислений и затраты ресурсов на обработку данных.Целью исследования является повышение эффективности автоматизации обнаружения устоявшихся ассоциаций в данных [36,49,91] за счет обеспечения возможности обработки и учета поступающих оперативных данных в реляционных СУБД. Исходя из этого, основными задачами исследования являются: 1. Анализ существующих средств аналитической обработки данных и, в частгюсти, методов ИАД и задач обнаружения устоявшихся ассоциаций в данных и проблем их реализации.2. Анализ специфики оператив1юй обработки данных с целью выявления устоявшихся ассоциаций в данных, области ее применения и основных требований к реализации.3. Разработка методов реализации алгоритмов поиска устоявшихся ассоциаций в данных в рамках реляционных баз данных, включая разработку структуры рабочих данных и методов их обработки, выбор и обоснование формата входных данных, средств преобразования к требуемому формату.4. Сравнительный анализ наиболее эффективных существующих алгоритмов поиска устоявшихся ассоциаций в данных, определение их достоинств и недостатков, выявление возможных путей оптимизации их выполнения.5. Разработка методов, основанных на модификации и синтезе существующих алгоритмов, обеспечивающих возможности оперативного выявления изменений закономерностей в оперативных данных (в множестве устоявшихся ассоциаций).Обработка должна выполняться параллельно остальным процессам оперативной обработки данных, что накладывает дополнительные требования по минимизации затрат ресурсов вычислительной системы.6. Разработка методов параметризации обработки данных и расширения атрибутики рабочих и результирующих данных, обеспечивающих возможность учета особешюстей обработки данных и трактовку семантики получаемых данных.7. Реализация программных модулей оперативного обнаружения ассоциаций для анализа данных аудита использования объектов промышленной БД пользователями и процессами.Теоретическая значимость диссертации заключается в выполнении синтеза результатов современных исследований и разработок в области аналитической обработки данных, в части задач интеллектуалыюго анализа данных [8], связанных с обнаружением устоявшихся ассоциаций в данных [40]. Существующие подходы к решению задач выявления закономерностей в данных [4], в частности, устоявшихся ассоциаций в данных, связаны с обработкой больших объемов ранее накоплегшых данных и требуют значительных затрат ресурсов на выполнение обработки, в следствие чего практически не пригодны для обработки поступающих в реальном времени данных с целью оперативного выявления происходящих изменений в закономерностях. В данной работе осуществляется попытка разработки методов, позволяющих осуществлять оперативное обнаружение изменений в тенденциях формирования наборов в данных при решении задач сопровождения промышленных БД корпоративного уровня.Научная новизна работы заключается в: • выполнении сравнительного анализа ряда современных, масштабируемых алгоритмов поиска устоявшихся ассоциаций в данных, определение их достоинств и недостатков, выявлении возможности оптимизации выполнения алгоритмов; • разработке алгоритма оперативного обнаружения устоявшихся ассоциаций в данных, позволяющего выявлять значимые изменения в тенденциях формирования наборов по мере их появления; • разработке методов параметризации обработки данных, позволяющих учитывать широкий спектр особенностей реализации и использования, и расширения возможностей толкования семантического значения получаемых данных за счет расширения спектра атрибутов рабочих и результирующих данных; • разработке методов использования предложенных алгоритмов и методов для автоматизации аналитической обработки данных аудита использования объектов БД в рамках выполнения задач сопровождения БД корпоративного уровня, разработке и апробации элементов ИС. Разработанные алгоритмы и методы расширяют возможности выявления и анализа тенденций и закономерностей [40], в частности, анализа физической реализации базы данных и информационных систем [18], с точки зрения выполняемых задач обработки данных, сокращают затраты ресурсов на выполнение анализа, автоматизируют процесс мониторинга использования базы данных, повышают качество информационного обслуживания администраторов.В практическом плане ценность диссертации заключается в разработке и апробации методик реализации оперативного обнаружения устоявшихся ассоциаций в данных аудита [23] использования объектов БД для осуществления анализа релевантности физической структуры данных, выявления трендов поведения пользователей и прикладных систем и отклонений от них. Результаты, полученные в диссертации, доведены до практического использования в предприятиях нефтегазовой промышленности. Разработан программный комплекс, позволяющий в интерактивном режиме получать оперативные данные об использовании объектов базы данных для принятия решений по перепроектированию и модификации физической структуры БД, настроек СУБД, профаммных комплексов и обеспечению безопасности и сохранности данных.Разработанные методы и алгоритмы прошли апробацию и внедрены для практического применения в ЗАО«АтлантикТрансгазСистема», 000«Пермтрансгаз», а также используются в учебном процессе в МАДИ(ГТУ).Диссертационная работа состоит из введения, 4-х глав основного текста, заключения, списка литературы, состоящего из 91-го наименования и приложения.Во ввелении подчеркивается актуальность проведенных исследований, поставлена цель, сформулированы решаемые задачи и приводится краткое содержание глав диссертации.В первой главе рассмотрены основные аспекты и особенности сопровождения промышленных БД корпоративного уровня, необходимость и перспективы автоматизации аналитической обработки данных при выполнении ряда задач сопровождения. Представлены основные концепции хранения и анализа корпоративных данных. Проанализированы современные тенденции и основные направления в области автоматизации аналитической обработки данных, представлены три базовые сферы анализа данных. Особое внимание уделено, в частности, интеллектуальному анализу данных (ИАД) (сфера закономерностей).Представлена классификация задач по типам извлекаемой информации, классификация стадий и технологических методов ИАД. Рассмотрены основные сферы применения ИАД. Во второй главе приводится формализация задачи обнаружения устоявшихся ассоциаций в данных, детально рассматриваются наиболее эффективные, с точки зрения обработки больших объемов данных, масштабируемые алгоритмы, выделяются их основные особенности с точки зрения обработки данных. Выделяются основные проблемы реализации и предлагаются методы реализации структур рабочих данных и их обработки с учетом реализации в рамках реляционной СУБД. Рассматриваются варианты представления исходных данных и способы их обработки.Предлагается вариант реализации предложенных методов в рамках реляционных СУБД корпоративного уровня [26] с использованием имеющихся в них средств оптимизации обработки данных. Приводятся результаты сравнительного анализа реализаций алгоритмов посредством предложенных методов в рамках СУБД Oracle. По результатам анализа алгоритмов и реализаций выделяется этап подсчета обеспечений наборов связанный со сканированием исходного множества данных, как основное препятствие для повышения оперативности обработки данных ввиду значительных затрат на его выполнения. Также отмечается то, что незначительное увеличение множества подсчитываемых наборов не оказывает критичного влияния на быстродействие обработки.В третьей главе сформулирована задача оперативного обнаружения устоявшихся ассоциаций в данных, область ее применения и место среди существующих методов автоматизации аналитической обработки данных.Разрабатывается алгоритм решения данной задачи, невысокие требования к ресурсам вычислительной системы которого, позволяют использовать его параллельно с задачами оперативной обработки транзакций (системами класса OLTP, OLAP). В основе алгоритма лежит синтез современных разработок в данной сфере, а также предлагаемый метод расширения рабочего множества и его атрибутики, позволяющий осуществлять пересчет обеспечений наиболее интересных наборов по мере поступления новых данных и значительно снизить частоту и сложность обработки большого объема ранее накопленных данных. Сформулирована и решена задача по параметризации выполнения обработки и расширению возможности трактовки семантики результатов обработки за счет введения дополнительных справочных атрибутов в рабочем множестве. Решение задачи позволило расширить возможности учета особенностей предметной области и реализации обработки данных, а также трактовки семантики результатов обработки.В четвертой главе приведено описание программного комплекса, реализующего предложенный алгоритм обработки данных с целью автоматизации сопровождения корпоративной БД предприятий нефтегазовой промышленности в части выявления трендов использования объектов БД. Приведено описание основных особенностей физической реализации и использования целевой БД, описание методики сбора и обработки данных аудита в рамках СУБД Oracle, под управлением которой реализуются да}шые БД. Приводится описание основных моментов реализации профаммного комплекса, осуществляющего обработку данных посредством предложенного алгоритма, и результаты его использования, полученные в начальный период использования. Также приводится описание отдельных фактов применения полученных данных при выполнении анализа релевантности физической структуры БД и эффективности реализации обработки данных в рамках компонентов ИС, а также эффекта от принятия соответствз^ющих решений и выполнения изменений в структуре БД и методах обработки данных в профаммных модулях.По результатам использования сделаны выводы об эффективности использования данного метода и профаммного комплекса, в частности, в рамках автоматизации обработки данных аудита при выполнении их анализа.В заключении представлены основные результаты работы.Основные положения и результаты диссертации докладывались и обсуждались на заседаниях кафедры «Автоматизированные системы управления» МАДИ (ГТУ) в 2001-2003 годах, на республиканских межрегиональных и международных научно-технических конференциях, симпозиумах и семинарах (2000-2003 гг.).1. СОПРОВОЖДЕНИЕ БАЗ ДАННЫХ КОРПОРАТИВНОГО УРОВНЯ И СОВРЕМЕННЫЕ МЕТОДЫ АНАЛИТИЧЕСКОЙ ОБРАБОТКИ ДАННЫХ

Скачивание файла!Для скачивания файла вам нужно ввести
E-Mail: 4142
Пароль: 4142
Скачать файл.
Просмотров: 83 | Добавил: Анна44 | Рейтинг: 0.0/0
Форма входа
Поиск
Календарь
«  Август 2014  »
ПнВтСрЧтПтСбВс
    123
45678910
11121314151617
18192021222324
25262728293031
Архив записей
Друзья сайта
  • Официальный блог
  • Сообщество uCoz
  • FAQ по системе
  • Инструкции для uCoz
  • Copyright MyCorp © 2024
    Конструктор сайтов - uCoz