Finkurier.ru

Журнал про Деньги
0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Математические методы анализа данных

Использование методов математической статистики для анализа данных

В учебном издании по медицинской информатике было бы из­лишне приводить подробные описания методов математической статистики, тем более что в последние годы вышло достаточно большое количество специальной литературы, рассчитанной на практикующего врача, с описанием как наиболее часто использу­ющихся методов, так и работы со статистическими пакетами. По­этому здесь мы ограничимся лишь краткими сведениями, полез­ными для клинициста, но не достаточными для приобретения реальных знаний по математической статистике.

Сравнение двух независимых групп по одному параметру. t-Кри­терий Стьюдента для независимых выборок (групп) является наи­более популярным методом решения этой задачи, суть которой сводится к проверке того, различаются ли средние значения па­раметра в сравниваемых группах. Критерий корректно использо­вать только при условии нормального распределения параметров в каждой группе и равенства дисперсий распределений парамет­ров в группах.

Суть применения t-критерия Стьюдента для независимых вы­борок заключается в проверке нулевой гипотезы о том, что сред­ние значения параметра в группах не различаются. Если нулевая гипотеза по результатам анализа отклоняется

Правомочно использовать t-критерий Стьюдента для незави­симых выборок лишь при достаточно большом объеме выборок, что в клинической медицине бывает редко.

Кроме «классического» t-критерия Стьюдента существует его модификация, не требующая равенства дисперсий распределений параметров в группах.

В настоящее время, когда врачи становятся более сведущими в математической статистике, критерий Манна-Уитни (Мапп — Whitney U-test) используют почти так же часто, как t-критерий. Его применяют для сравнения выборок по количественным пара­метрам в случаях, когда хотя бы одна из сопоставляемых выборок имеет распределение, отличное от нормального, или если харак­тер распределения параметра неизвестен (проверка на нормаль­ность не проводилась).

Суть метода заключается в проверке нулевой гипотезы о равен­стве средних рангов в группах, т.е. до проверки гипотезы осуще­ствляется ранжирование значений параметра в каждой группе. Если нулевая гипотеза отклоняется, принимается альтернативная ги­потеза о том, что между рангами групп есть различия.

Сравнение двух зависимых групп по одному параметру. t-Крите­рий Стьюдента для зависимых выборок, так же как и t-критерий Стьюдента для независимых выборок, можно применять только при условии нормального распределения параметров в каждой группе и равенства дисперсий распределений параметров в груп­пах. В большинстве случаев на реальных клинических данных эти условия не выполняются, поэтому применение метода не право­мочно.

Критерий Вилкоксона (Wilcoxon matched pairs test) — один из самых мощных непараметрических критериев. Его используют для парного сравнения выборок количественных (или качественных порядковых) параметров в тех случаях, когда хотя бы в одной из анализируемых выборок распределение величин параметра не яв­ляется нормальным.

При применении критерия Вилкоксона проверяется нулевая гипотеза об отсутствии различий выборок. Если она отклоняется (р

Основные математические методы обработки и анализа данных, используемые при типовых медицинских исследованиях

Регрессия — линейный регрессионный анализ заключается в подборе графика и соответствующего уравнения для набора наблюдений. Регрессия используется для анализа воздействия на отделенную зависимую переменную значений одной или более независимых переменных. Например, на степень заболеваемости человека влияют несколько факторов, включая возраст, вес и иммунный статус. Регрессия пропорционально распределяет меру заболеваемости по этим трем факторам на основе данных наблюдаемой заболеваемости. Результаты регрессии впоследствии могут быть использованы для предсказания уровня заболеваемости новой, неисследованной группы людей.

Дисперсионный анализ – предназначен для исследования задачи о действии на измеряемую величину (отклик) одного или нескольких факторов. Причем в однофакторном, двухфакторном и т.д. анализе влияющие на результат факторы считаются известными, и речь идет только о выяснении существенности или оценке этого влияния ( например, исследуется степень влияния тяжести специального браслета, и одеваемого на запястье, на частоту самопроизвольного дрожания мышц рук – тремора).

Арсенал методов анализа данных, предлагаемых современной статистикой, значительно превосходит элементарные методы , рассматриваемые в настоящей главе. Так за рамками рассмотрения остались широко используемые на практике методы анализа временных рядов и многомерного статистического анализа ( т.е анализов многомерных статистических данных). Поэтому для общего представления о возможностях анализа данных дадим краткий обзор наиболее широко используемых методов.

Временной ряд – это совокупность последовательных измерений значений переменной ( процесса) , произведенных через определенные чаще всего равные, интервалы времени.

Для анализа временных рядов используется следующие методы:

Корреляционный анализ – позволяет выявить наиболее существенные периодические зависимости их задержки в одном процессе ( автокорреляция ) или между несколькими процессами ( кросскорреляция) ( например, между отведениями в энцефалографии) ;

Спектральный анализ – позволяет находить периодические и квазипериодические зависимости в данных ( например, анализ ритмов в энцефалографии);

Сглаживание и фильтрация – предназначены для преобразования временных рядов с целью удаления из них высокочастотных или сезонных(низкочастотных) колебаний ( например, фильтрация электрокардиограммы с целью удаления артефактов и помех) ;

Авторегрессия и скользящее среднее – используется для описания и прогнозирования процессов, проявляющих однородные колебания вокруг среднего значения (например, прогнозирование сроков менструального цикла)

Многомерный статистический анализ – предназначен для анализа исследований, в которых каждое наблюдение представляется не единым числом, а некоторым набором чисел, в котором в заданном порядке записаны все измененные характеристики объекта.

Из методов многомерного статистического анализа наиболее широко используются следующие:

— факторный анализ – при большом количестве измеряемых показателей используется для обнаружения влияющих на зависимые переменные нескольких основных комплексных факторов ( например, при изучении свойств личности с помощью психологических тестов для объяснения результатов проведенных исследований их результаты подвергаются факторному анализу, который и позволяет выявить те личностные свойства, которые оказывали влияние на поведение испытуемых в проведенных исследованиях);

Читать еще:  Анализ безубыточности деятельности

— дискриминальный анализ – позволяет по имеющимся количественным характеристикам объекта отнести его к одной из нескольких выделенных групп ( например, определение вида патологии по результатам объективных исследований больного);

— кластерный анализ – позволяет разбить изучаемую совокупность объектов на группы «схожих» объектов, называемых кластерами (например, выделение особых патологических состояний, отличающихся определенной спецификой, таких как стадии гипертонической болезни).

Полезные статьи → Статистические методы анализа данных для решения практических задач (часть вторая)

Опрос сотрудников, клиентов, потребителей – не просто сбор информации, это полноценное исследование. А целью всякого исследования является научно- обоснованная интерпретация изученных фактов. Первичный материал необходимо обработать, а именно упорядочить и проанализировать.

Анализ данных исследования – ключевой этап. Он представляет собой совокупность приемов и методов, направленных на то, чтобы проверить, насколько были верны предположения и гипотезы, а также ответить на заданные вопросы. Данный этап является, пожалуй, наиболее сложным с точки зрения интеллектуальных усилий и профессиональной квалификации, однако позволяет получить максимум полезной информации из собранных данных.

Методы анализа данных многообразны. Выбор конкретного метода анализа данных зависит, в первую очередь, от того, на какие вопросы мы хотим получить ответ.

Можно выделить два класса процедур анализа данных:

  • одномерные (дескриптивные) и
  • многомерные.

Многомерные типы анализа данных

Многомерный анализ данных позволяет одновременно исследовать взаимоотношения двух и более переменных и проверять гипотезы о причинных связях между ними.

Техники многомерного анализа разнообразны. Мы рассмотрим следующие:

  1. Факторный анализ
  2. Кластерный анализ

Факторный анализ

Суть факторного анализа, состоит в том, чтобы имея большое число параметров, выделить малое число макропараметров, которыми и будут определяться различия между измеряемыми параметрами. Это позволит оптимизировать структуру анализируемых данных.

Применение факторного анализа преследует две цели:

  • сокращение числа переменных;
  • классификация данных.

Факторный анализ довольно полезен на практике. Приведем несколько примеров.

Перед вами стоит задача исследовать имидж компании. Клиенту предлагается оценить данную компанию по целому ряду критериев, общее число которых может превышать несколько десятков. Применение факторного анализа в данном случае позволяет снизить общее количество переменных путем распределения их в обобщенные пучки факторов, например, «материальные условия компании», «взаимодействие с персоналом», «удобство обслуживания».

Еще одним случаем применения данного метода может служить составление социально-психологических портретов потребителей. Респонденту необходимо выразить степень своего согласия/несогласия с перечнем высказываний о стиле жизни. В итоге, можно выделить, например, целевые группы потребителей: «новаторы», «прогрессисты» и «консерваторы».

Актуальным примером исследования в сфере банковского дела, может послужить, изучение уровня доверия клиента к банку, которое можно описать следующими факторами:

— надежность сделок (включающий такие параметры, как сохранность средств, возможность беспрепятственного их перевода);

— обслуживание клиентов (профессионализм сотрудников, их благожелательность) и

— качество обслуживания (точность выполнение операций, отсутствие ошибок) и др.

Кластерный анализ

Кластерный анализ (от англ. сluster – сгусток, пучок, гроздь) – это один из способов классификации объектов. Он позволяет рассматривать достаточно большой объем информации, сжимая его и делая компактными и наглядными.

Термин «кластерный анализ» был введен в 1939 году английским ученым Р. Трионом, предложившим соответствующий метод, который сводился к поиску групп с тесно коррелирующим признаком в каждой из них.

Целью кластерного анализа является выделение сравнительно небольшого числа групп объектов, как можно более схожих между собой внутри группы, и как можно более отличающихся в разных группах. В настоящее время разработано достаточно большое число алгоритмов кластерного анализа. Однако, попробуем объяснить его суть, не прибегая к строгому теоретизированию.

Допустим, вы планируете провести опрос потребителей, (а все потребители разные), и вам, соответственно, необходимы различные стратегии для их привлечения. Для решения данной задачи мы предлагаем сегментировать клиентов, прибегнув к методу кластеризации. Для этого выполняем следующие шаги:

  1. формируем выборку и проводим опрос клиентов,
  2. определяем переменные (характеристики), по которым будем оценивать респондентов в выборке,
  3. вычисляем значения меры сходства и различия между ответами респондентов,
  4. выбираем метод кластеризации (т.е. правила объединения респондентов в группы),
  5. определяем оптимальное число кластеров (групп).

В результате получаем таблицу следующего содержания:

Информация, представленная в таблице, позволяет нам составить портрет клиентов каждого кластера, которые впоследствии необходимо учитывать при составлении стратегии успешного продвижения продукта на рынке.

Кластерный анализ хорошо зарекомендовал себя, и на сегодняшний день применяется в различных прикладных областях:

  • В социологии: разделение респондентов на различные социально-демографические группы.
  • В маркетинге: сегментация рынка по группам потребителей, группировка конкурентов по факторам конкурентоспособности.
  • В менеджменте: выделение групп сотрудников с разным уровнем мотивации, выявление мотивирующих/демотивирующих факторов в организации, классификация конкурентоспособных отраслей и поставщиков, и др.
  • В медицине — классификация симптомов, признаков заболеваний, пациентов, препаратов для успешной терапии.
  • А также психиатрии, биологии, экологии, информатике и т.д.

Рассмотренные методики относятся к анализу данных, полученных в ходе проведения количественных исследований.

По вопросам расчета индексов:

Телефон: +7 (383) 203-49-99

Начало (часть первая) и продолжение (часть третья) статьи «Статистические методы анализа данных для решения практических задач».

Методика анализа данных на службе у бизнеса

Методика анализа данных в бизнес-сферу пришла из высшей математики. Но распространившийсь в массы, анализ данных перешел на уровень автоматизации, а зачаровывающий мир цифр, закономерностей и формул был отдан на откуп мощным программным инструментам визуализации.

Читать еще:  Анализ деловой активности организации

Бизнес никогда еще не был так силен до того момента, как в его распоряжении оказалась методика анализа данных Data Mining. Другое дело, что силой далеко не каждая компания в состоянии распоряжаться умело. Более того, даже не каждая имеет к ней доступ, потому что просто боится подступиться. А ведь анализ данных — уже далеко не только прерогатива крупных компаний. Благодаря визуализации и автоматизации методику анализа данных может использовать даже небольшое предприятие. Зачем организациям и малого, и среднего бизнеса нужен анализ данных:

  • для создания стратегии развития,
  • для анализа деятельности конкурентов,
  • для контроля работы отделов компании.

Как используют Data Mining в компании Mail.ru?

Методы анализа данных в бизнесе

Можно выделить несколько основных методов анализа данных, которые можно использовать как самостоятельно, так и группируя их между собой. Это:

  • кластеризация — это группировка фактов по определенному признаку (бывают большие кластеры, внутри них можно создавать подкластеры, подподкластеры и так далее), аудиторию можно разбить, например, на состоявшихся покупателей и несостоявшихся, на группы по возрасту;
  • классификация — это способ анализа данных, предполагающий разделение событий или явлений на группы по единому признаку. В отличие от кластеров, у групп классификации есть что-то общее ;
  • регрессия — методика анализа данных, выявляющая зависимости с последующим прогнозированием событий на основе полученной информации ,
  • выявление закономерностей — анализ данных, выявляющий порядок действий, их алгоритмичность ,
  • выявление последовательностей — следующий шаг после определения регрессий и выявления закономерностей; этот метод анализа данных предполагает прогнозирование во времени (например, если клиент купил 10 килограммов корма для своей собаки, то, возможно, он может купить столько же через определенное время), этот метод можно применять для транзакционных автоматических почтовых рассылок);
  • выявление отклонений — наиболее тонкий метод, позволяющий находить новые неочевидные последовательности, помогает точечно персонализировать предложения для клиентов.

Инструменты анализа данных в бизнесе

Методика анализа данных работает даже с большими объемами информации — даже с информацией, которая хранится в библиотеках:

Ранее для глубокого анализа данных по методикам были необходимы серьезные математические знания, даже если это касалось бизнес-процессов. Однако сейчас описанные способы анализа благодаря автоматизации и визуализации доступны большинству компаний. Методика анализа данных хорошо работает у следующих программ:

  • Alteryx, позволяющем собирать данные из разных источников, обрабатывать их и приводить к единому стандарту, в том числе группировать информацию, выявлять закономерности, строить математические гипотезы и так далее;
  • Tableau позволяет визуализировать любую информацию big data для анализа больших данных и таким образом все данные становятся наглядными и понятными широкому кругу пользователей; руководству компании останется лишь правильно сформулировать вопросы.

Цифры о нас

Мы, компания АНАЛИТИКА ПЛЮС, с 2012 года помогаем нашим клиентам работать с данными – находить полезные инсайты и использовать эту информацию для увеличения прибыли компании.

За это время мы разработали и внедрили решения для различных отраслей и направлений бизнеса:

  • анализ продаж,
  • прогнозирование эффективности промо-акций,
  • отслеживание воронки продаж по конкретной кампании с показателями конверсии на каждом этапе,
  • сегментация по различным методам: ABC, RFM и т.д.,
  • ключевые показатели интернет-маркетинга,
  • анализ товара на складах,
  • аналитика для отдела кадров (карточки сотрудников, обучение, анализ KPI и т.д.),
  • анализ финансовых показателей
  • и многое другое.

Хотите узнать, как провести анализ и сделать отчеты быстро?

МАТЕМАТИЧЕСКИЙ АНАЛИЗ ОПЫТНЫХ ДАННЫХ;

За последние годы биологические науки, включая и зоотехнические, достигли значительных успехов. И немалая заслуга в том принадлежит математике. Немецкий философ Иммануил Кант писал: «Я утверждаю, что во всяком естественнонаучном знании можно найти лишь столько действительной науки, сколько в ней можно найти математики».

Широкое внедрение математических методов в биологию началось с конца 19-го века, когда английский ученый Фрэнсис Гальтон в 1899 году разработал основы новой науки, названной им биометрией (от греч. bios – жизнь, metreo – измеряю) – науки об использовании математических методов для изучения живых существ.

Задача биометрии – планирование биологических экспериментов и обработка результатов методами математической статистики. Необходимость использования математического анализа в биологии была связана с переходом от описательных методов к экспериментальным. А эксперимент (опыт) требует количественной оценки результатов, доказательства их достоверности.

Основные цели математического анализа опытных данных: выразить в сжатой, лаконичной форме накопленный цифровой материал, провести оценку достоверности полученных результатов исследований, сделать объективные выводы из проделанной работы.

Объектом математического анализа является изменяющийся (варьирующий) признак, то есть тот показатель, который изменяется под действием изучаемого в опыте фактора. Самым главным из этих признаков является продуктивность животных.

С помощью математического анализа в опытной работе решают следующие основные задачи:

1. определяют объем опыта, то есть устанавливают оптимальную численность животных в подопытных группах.

2. определяют средние значения изучаемых признаков с помощью средней арифметической, средней взвешенной, средней гармонической и др.

3. устанавливают степень изменчивости изучаемых признаков с помощью лимитов, среднего квадратического отклонения, коэффициента вариации, нормированного отклонения.

4. определяют достоверность полученных данных с помощью критерия достоверности.

Читать еще:  Сравнительный анализ предприятия пример

5. определяют долю влияния изучаемых факторов на изменчивость признака путем дисперсионного анализа.

6. устанавливают направления и степень связи между признаками с помощью коэффициентов корреляции и регрессии.

Однако надо иметь в виду, что математические методы имеют в опытной работе вспомогательное значение. Они лишь помогают выявить то, что содержится в эксперименте. Никакая математическая обработка не поможет, если допущены методические просчеты в постановке опытов. Главными для исследователя являются биологические методы, вскрывающие суть жизненных процессов. Не случайно Д.И. Менделеев весьма скептически относился к так называемым математическим методам исследования, когда математикам кажется, что они способны решить любые задачи, тогда как на деле они не могут поставить эксперимент в подтверждение или опровержение своей теории.

Определение средних значений изучаемого признака. Как уже отмечалось, зоотехнические опыты являются сравнительными. В них сравнивают между собой группы и периоды, то есть средние величины изучаемых признаков. В зависимости от цели исследования определяют несколько средних величин: среднюю арифметическую, взвешенную среднюю арифметическую, среднюю гармоническую и др.

Средняя арифметическая – наиболее характерное значение признака для данной совокупности (группы), ее математический центр тяжести.

Среднюю арифметическую определяют по формуле:

где – средняя арифметическая, ранее обозначали буквой М;

– значения признака для каждого члена совокупности (варианты), ранее обозначали буквой V;

n – общее число членов совокупности (группы)

(сигма – греческая прописная буква) – знак суммирования.

Например, в группе из 5 коров среднесуточный удой отдельных животных составил, кг: 10,5; 9,7; 13,5; 14,0; 12,3.

Чтобы вычислить среднюю арифметическую для этой группы, подставим данные в вышеприведенную формулу:

Для больших выборок, когда число особей более 30, раньше применяли непрямой способ вычисления средней арифметической. Для этого предварительно строили вариационные ряды. При использовании компьютеров необходимость в этом отпала.

Основные свойства средней арифметической:

· она характеризует совокупность (группу) в целом, а не отдельных ее членов;

· средняя арифметическая величина абстрактная, то есть может не совпадать ни с одной вариантой и иметь дробную величину. Например, в группе на свиноматку за год получено 1,7 опороса. Но ведь от каждой свиноматки можно получить или один, или два опороса за год;

· среднюю арифметическую применяют для характеристики однородной совокупности. Например, среднюю живую массу определяют по отдельным половозрастным группам.

Взвешенная средняя арифметическаяопределяется, когда разный математический вес признака. Например, требуется определить среднее содержание переваримого протеина в 1 кг смеси, состоящей из 70 кг ячменя и 30 кг гороха, если в 1 кг ячменя содержится 75 г переваримого протеина, а в 1 кг гороха – 210 г.

Взвешенную среднюю рассчитывают по формуле:

где – значение признака (варианта);

– математический вес признака.

Чтобы рассчитать взвешенную среднюю арифметическую, каждое значение признака умножают на его вес, все эти произведения суммируют и полученный результат делят на сумму весов.

Взвешенную среднюю применяют в зоотехнии часто, например, при определении процента жира молока за лактацию.

Средняя гармоническая (Н) – применяется для вычисления среднего уровня признака, характеризующего скорость какого-либо процесса (средняя скорость молокоотдачи, скорость бега, скорость яйцеобразования). Например, требуется определить среднюю скорость молокоотдачи у коровы, если за 4 минуты выдоено 8 кг молока, в том числе: за первую минуту – 2 кг, за вторую – 3, за третью – 2 и за четвертую – 1 кг. Для вычисления используют формулу:

При вычислении обычной средней арифметической скорость молокоотдачи составит = (2+3+2+1):4 = 2 кг. Как видим, фактический показатель меньше.

Показатели изменчивости. Средняя арифметическая – основной математический показатель, по которому судят о полученных результатах исследований. Однако средняя арифметическая не отражает изменчивость признаков, тогда как животные – объект зоотехнических исследований обладают большой изменчивостью признаков, особенно количественных. Это связано с многообразием внешних факторов, действующих на организм, а также с генетической особенностью каждой особи.

Основными показателями изменчивости (вариации) являются лимиты, среднее квадратическое отклонение, коэффициент вариации, нормированное отклонение.

Лимит(lim = хmax – хmin) – это разница между максимальным и минимальным значением признака в выборочной совокупности. Это наиболее простой показатель изменчивости признака. Чем больше величина лимита, тем значительнее изменчивость признака.

Среднее квадратическое отклонение(δ – сигма) основной показатель изменчивости. Его определяют по формуле:

В знаменателе данной формулы разница n-1 – это число степеней свободы, или число элементов свободного разнообразия. Так, если потребуется составить сумму из трех чисел, равную 100, то первые два числа могут быть любыми. Например, 50 и 30 или 500 и 300, а третье число должно быть одно: в первом случае – 20; (50 + 30 + 20 = 100), во втором – минус 700; (500 + 300 + (-700) = 100. При вычислении сигмы имеется одно ограничение. Оно определяется для группы, имеющей определенную среднюю арифметическую. Наличие в формуле знаков «+» и «-» указывает на то, что этот показатель характеризует изменчивость признака как в сторону увеличения от средней арифметической, так и в сторону уменьшения. Приведем пример расчета по количеству поросят в помете 5 свиноматок. Для этого удобнее пользоваться таблицей. В первую графу таблицы записывают варианты (в данном примере численность пометов), во вторую – отклонение каждой варианты от средней арифметической , в третью – квадраты отклонений .

Ссылка на основную публикацию
ВсеИнструменты
Adblock
detector
×
×