Обзор методов статистического анализа данных. Реферат: Статистические методы исследования

1. Определение термина "статистика" и история ее возникновения


Статистика - это точная наука, изучающая методы сбора, анализа и обработки данных, которые описывают массовые действия, явления и процессы. Данные, изучаемые в статистике, затрагивают не отдельные объекты, а их совокупности. Главным методом сбора данных для статистики является полное обследование объектов, имеющих отношение к изучаемой проблеме.

Статистика - отрасль знаний, в которой излагаются общие вопросы сбора, измерения и анализа массовых статистических (количественных или качественных) данных.

Слово «статистика» происходит от латинского status - состояние дел. В науку термин «статистика» ввел немецкий ученый Готфрид Ахенваль в 1746 году, предложив заменить название курса «Государствоведение», преподававшегося в университетах Германии, на «Статистику», положив тем самым начало развитию статистики как науки и учебной дисциплины. Несмотря на это, статистический учет вёлся намного раньше: проводились переписи населения в Древнем Китае, осуществлялось сравнение военного потенциала государств, велся учет имущества граждан в Древнем Риме и т. п.

Статистика разрабатывает специальную методологию исследования и обработки материалов: массовые статистические наблюдения, метод группировок, средних величин, индексов, балансовый метод, метод графических изображений и другие методы анализа статистических данных.

Начало статистической практики относится примерно ко времени возникновения государства. Первой опубликованной статистической информацией можно считать глиняные таблички Шумерского царства (III - II тысячелетия до н. э.).

Вначале под статистикой понимали описание экономического и политического состояния государства или его части. Например, к 1792 г. относится определение: «статистика описывает состояние государства в настоящее время или в некоторый известный момент в прошлом». И в настоящее время деятельность государственных статистических служб вполне укладывается в это определение.

Постепенно термин «статистика» стал использоваться более широко. В XX веке статистику часто рассматривают прежде всего как самостоятельную научную дисциплину. Статистика есть совокупность методов и принципов, согласно которым проводится сбор, анализ, сравнение, представление и интерпретация числовых данных. В 1954 г. академик АН УССР Б. В. Гнеденко дал следующее определение: «Статистика состоит из трёх разделов:

Сбор статистических сведений, то есть сведений, характеризующих отдельные единицы каких-либо массовых совокупностей;

Статистическое исследование полученных данных, заключающееся в выяснении тех закономерностей, которые могут быть установлены на основе данных массового наблюдения;

Разработка приёмов статистического наблюдения и анализа статистических данных. Последний раздел, собственно, и составляет содержание математической статистики».

Термин «статистика» употребляют ещё в двух смыслах. Во-первых, в обиходе под «статистикой» часто понимают набор количественных данных о каком-либо явлении или процессе. Во-вторых, статистикой называют функцию от результатов наблюдений, используемую для оценки характеристик и параметров распределений и проверки гипотез.

Типовые примеры раннего этапа применения статистических методов описаны в Библии, в Ветхом Завете. Там, в частности, приводится число воинов в различных племенах. С математической точки зрения дело сводилось к подсчёту числа попаданий значений наблюдаемых признаков в определённые градации.

Сразу после возникновения теории вероятностей (Паскаль, Ферма, XVII век) вероятностные модели стали использоваться при обработке статистических данных. Например, изучалась частота рождения мальчиков и девочек, было установлено отличие вероятности рождения мальчика от 0.5, анализировались причины того, что в парижских приютах эта вероятность не та, что в самом Париже, и т. д.

В 1794 г. (по другим данным - в 1795 г.) немецкий математик Карл Гаусс формализовал один из методов современной математической статистики - метод наименьших квадратов. В XIX веке заметный вклад в развитие практической статистики внёс бельгиец Кетле, на основе анализа большого числа реальных данных показавший устойчивость относительных статистических показателей, таких, как доля самоубийств среди всех смертей.

Первая треть ХХ века прошла под знаком параметрической статистики. Изучались методы, основанные на анализе данных из параметрических семейств распределений, описываемых кривыми семейства Пирсона. Наиболее популярным было нормальное распределение. Для проверки гипотез использовались критерии Пирсона, Стьюдента, Фишера. Были предложены метод максимального правдоподобия, дисперсионный анализ, сформулированы основные идеи планирования эксперимента.

Разработанную в первой трети ХХ века теорию анализа данных называют параметрической статистикой, поскольку её основной объект изучения - это выборки из распределений, описываемых одним или небольшим числом параметров. Наиболее общим является семейство кривых Пирсона, задаваемых четырьмя параметрами. Как правило, нельзя указать каких-либо веских причин, по которым распределение результатов конкретных наблюдений должно входить в то или иное параметрическое семейство. Исключения хорошо известны: если вероятностная модель предусматривает суммирование независимых случайных величин, то сумму естественно описывать нормальным распределением; если же в модели рассматривается произведение таких величин, то итог, видимо, приближается логарифмически нормальным распределением и так далее.

В настоящее время термин статистика употребляется в 4 значениях:

Наука, изучающая количественную сторону массовых явлений и процессов в неразрывной связи с их качественным содержанием - учебный предмет в высших и средних специальных учебных заведений;

Совокупность цифровых сведений, характеризующих состояние массовых явлений и процессов общественной жизни; статистические данные, представляемые в отчетности предприятий, организаций, отраслей экономики, а также публикуемых в сборниках, справочниках, периодической печати и в сети Интернет, которые являются результатом статистической работы;

Отрасль практической деятельности («статистический учет») по сбору, обработке, анализу и публикации массовых цифровых данных о самых различных явлениях и процессах общественной жизни;

Некий параметр ряда случайных величин, получаемый по определенному алгоритму из результатов наблюдений, например, статистические критерии (критические статистики), применяющиеся при проверке различных гипотез (предположительных утверждений) относительно природы или значений отдельных показателей исследуемых данных, особенностей их распределения и пр.


2. Описание научных подходов и методов статистики


Как и любая другая наука, статистика имеет свой предмет и метод исследования. Статистика изучает количественную сторону массовых общественных явлений в неразрывной связи с их качественной стороной или содержанием, а также исследует количественное выражение закономерностей общественного развития в конкретных условиях места и времени. Такое изучение основывается на системе категорий (понятий), отражающих наиболее общие и существенные свойства, признаки, связи и отношения предметов и явлений объективного мира.

Статистическая совокупность - множество социально-экономических объектов или явлений общественной жизни, объединенных качественной основой, но отличающихся друг от друга отдельными признаками, т.е. однородных в одном отношении, но разнородных в другом. Таковы, например, совокупность домохозяйств, семей, предприятий, фирм и т.п.

Единица совокупности - первичный элемент статистической совокупности, являющийся носителем признаков и основой ведущегося при обследовании счета.

Признак единицы совокупности - свойства единицы совокупности, которые различаются способами их измерения и другими особенностями

Статистический показатель - понятие, отображающее количественные характеристики (размеры) или соотношения признаков общественных явлений. Статистические показатели можно подразделить на первичные (объемные) - характеризуют либо общее число единиц совокупности (объем совокупности), либо сумму значений какого-либо признака (объем признака) и выражаются абсолютными величинами и вторичные (расчетные) - задаются на единицу первичного показателя и выражаются относительными и средними величинами. Статистические показатели могут быть плановыми, отчетными и прогнозными.

Система статистических показателей - совокупность статистических показателей, отражающая взаимосвязи, которые объективно существуют между явлениями. Она охватывает все стороны общественной жизни как на макро-, так и на микроуровне. С изменением условий жизни общества меняются и системы статистических показателей, совершенствуется методология их расчета.

Совокупность приемов, пользуясь которыми статистика исследует свой предмет, составляет метод статистики. Можно выделить 3 группы статистических методов (3 этапа статистического исследования):

Cтатистическое наблюдение - научно организованный сбор сведений, заключающийся в регистрации тех или иных фактов, признаков, относящихся к каждой единице изучаемой совокупности;

Сводка и группировка - обработка собранных первичных данных, включающая их группировку, обобщение и оформление в таблицах;

Статистический анализ - на основе итоговых данных сводки рассчитываются различные обобщающие показатели в виде средних и относительных величин, выявляются определенные закономерности в распределениях, динамике показателей и т.п.

Таким образом, любое законченное статистическое исследование проходит в 3 этапа, между которыми, разумеется, могут быть перерывы во времени.

Статистические методы - методы анализа статистических данных. Выделяют методы прикладной статистики, которые могут применяться во всех областях научных исследований и любых отраслях народного хозяйства, и другие статистические методы, применимость которых ограничена той или иной сферой. Имеются в виду такие методы, как статистический приемочный контроль, статистическое регулирование технологических процессов, надежность и испытания, планирование экспериментов.

Классификация статистических методов. Статистические методы анализа данных применяются практически во всех областях деятельности человека. Их используют всегда, когда необходимо получить и обосновать какие-либо суждения о группе (объектов или субъектов) с некоторой внутренней неоднородностью.

Целесообразно выделить три вида научной и прикладной деятельности в области статистических методов анализа данных (по степени специфичности методов, сопряженной с погруженностью в конкретные проблемы):

а) разработка и исследование методов общего назначения, без учета специфики области применения;

б) разработка и исследование статистических моделей реальных явлений и процессов в соответствии с потребностями той или иной области деятельности;

в) применение статистических методов и моделей для статистического анализа конкретных данных.

Прикладная статистика - это наука о том, как обрабатывать данные произвольной природы. Математической основой прикладной статистики и статистических методов анализа является теория вероятностей и математическая статистика.

Описание вида данных и механизма их порождения - начало любого статистического исследования. Для описания данных применяют как детерминированные, так и вероятностные методы. С помощью детерминированных методов можно проанализировать только те данные, которые имеются в распоряжении исследователя. Например, с их помощью получены таблицы, рассчитанные органами официальной государственной статистики на основе представленных предприятиями и организациями статистических отчетов. Перенести полученные результаты на более широкую совокупность, использовать их для предсказания и управления можно лишь на основе вероятностно-статистического моделирования. Поэтому в математическую статистику часто включают лишь методы, опирающиеся на теорию вероятностей.

Статистические методы - научные методы описания и изучения массовых явлений, допускающих количественное (численное) выражение. Слово статистика (от игал. stato - государство) имеет общий корень со словом государство. Первоначально оно относилось к науке управления и означало сбор данных о некоторых параметрах жизнедеятельности государства. Со временем статистика стала охватывать сбор, обработку и анализ данных о массовых явлениях вообще; ныне статистические методы охватывают собою практически все области знаний и жизнедеятельности общества.

Статистические методы включают в себя и экспериментальное, и теоретическое начала. Статистика исходит, прежде всего, из опыта; недаром ее зачастую определяют как науку об общих способах обработки результатов эксперимента. Обработка массовых опытных данных представляет самостоятельную задачу. Иногда простая регистрация некоторых рядов наблюдений приводит к тому или иному значимому выводу. Так, если в некоторой стране из года в год растет объем валового внутреннего продукта, то это говорит об ее устойчивом развитии. Однако в большинстве случаев для обработки опытного статистического материала используются математические модели исследуемого явления, основу которых составляют идеи и методы теории вероятностей.

Теория вероятностей есть наука о массовых случайных явлениях. Массовость означает, что исследуются огромные количества однородных явлений (объектов, процессов). Случайность же означает, что значение рассматриваемого параметра отдельного явления (объекта) в своей основе не зависит и не определяется значениями этого параметра у других явлений, входящих в ту же совокупность. Основной характеристикой массового случайного явления является распределение вероятностей. Теорию вероятностей можно определить как науку о вероятностных распределениях их свойствах, видах, законах взаимосвязей, распределении величин, характеризующих исследуемый объект, и законах изменения распределений во времени. Так, говорят о распределении молекул газа по скоростям, о распределениях доходов граждан в некотором обществе и т. д.

Эмпирически задаваемые распределения соотносятся с т. н. генеральной совокупностью, т. е. с наиболее полным теоретическим описанием распределений соответствующих массовых явлений. При этом во.многих случаях бывает нецелесообразно перебирать все элементы рассматриваемых совокупностей либо в силу чрезвычайно большого их числа, либо в силу того, что при наличии некоторого числа перебранных элементов учет новых не внесет существенных изменений в общие результаты. Для этих случаев разработан специальный выборочный метод исследования общих свойств статистических систем на основе изучения лишь части соответствующих элементов, взятых на выборку. Так, при оценке политических симпатий граждан некоторого региона или страны перед предстоящими выборами невозможно проводить сплошной опрос граждан. В этих случаях и прибегают к выборочному методу Чтобы выборочное распределение достаточно надежно характеризовало исследуемую систему, оно должно удовлетворять специальным условиям репрезентативности. Репрезентативность требует случайного выбора элементов и учета макроструктуры всего массового явления.

Распределения представляют наиболее общую характеристику массовых случайных явлений. Задание исходного распределения нередко предполагает построение математической модели соответствующих областей действительности. Построение и анализ таких моделей и составляет основную направленность статистических методов. Построенная математическая модель, в свою очередь, указывает, какие переменные следует измерять и какие из них имеют основное значение. Но главное в построении математической модели состоит в объяснении исследуемых явлений и процессов. Если модель достаточно полна, то она описывает зависимости между основными параметрами этих явлений.

Статистические методы в естествознании породили многие научные теории, привели к разработке важнейших фундаментальных направлений исследования - классической статистической физики, генетики, квантовой теории, теории цепных химических реакций и др. Следует, однако, отметить, что во многих случаях исходные вероятностные распределения задаются не путем непосредственной обработки массового материала. Вероятностная гипотеза чаще всего вводится гипотетически, косвенно, на основе теоретических предпосылок. Так, в учение о газах предположение о существовании вероятностных распределений было введено как гипотеза, на основе допущений о молекулярном беспорядке. Возможность подобного задания вероятностных распределений и проверки их справедливости обусловлена характером и природой самих распределений, математическое выражение которых обладает самостоятельными характеристиками, достаточно независимыми от конкретных значений элементов.

Особые сложности возникают при применении статистических методов в изучении социальных явлений. Анализ общих направлений социальных процессов и внутренних механизмов, вызывающих конкретные статистические результаты, необычайно трудоемок. Так, благосостояние людей характеризуется весьма многими параметрами и соответствующими распределениями - уровнем доходов, участием в общественно-полезном труде, уровнем образования и здравоохранения и др. показателями жизнедеятельности человека. Выявление взаимосвязи этих распределений и тенденций их изменения требует решения многих сложных задач. Состояние общества можно определить через такие параметры, как внутренний валовый продукт, потребление энергии на душу населения, расслоение общества по доходам и т. п. Вместе с тем общество представляет собой необычайно сложную систему, а познание сложных систем основывается на разработке многих моделей, выражающих различные аспекты их структуры и функционирования. Соответственно, для более полной характеристики состояния общества требуется оперировать весьма многими параметрами и их распределениями. Так, говорят об экономической, производственной, сельскохозяйственной, социальной и многих других статистиках. Для объединения данных этих статистик в единую целостную картину необходимо выявление субординации, иерархии параметров, характеризующих состояние общества.


3. Взаимосвязь статистики с другими науками


Статистика является мультидисциплиной, так как она использует методы и принципы, заимствованные из других дисциплин. Так, в качестве теоретической базы для формирования статистической науки служат знания в области социологии и экономической теории. В рамках этих дисциплин происходит изучение законов общественных явлений. Статистика помогает произвести оценку масштаба того или иного явления, а также разработать систему методов для анализа и изучения. Статистика, несомненно, связана с математикой, так как для выявления закономерностей, оценки и анализа объекта исследования требуется ряд математических операций, методов и законов, а систематизация результатов находит отражения в виде графиков и таблиц.


4. Виды статистических исследований


Наблюдение как начальный этап исследования связано со сбором исходных данных об изучаемом вопросе. Оно свойственно многим наукам. Однако каждая наука имеет свою специфику, отличаясь по своим наблюдениям. Поэтому не всякое наблюдение - статистическое.

Статистическое исследование - это научно организованный по единой программе сбор, сводка и анализ данных (фактов) о социально-экономических, демографических и других явлениях и процессах общественной жизни в государстве с регистрацией их наиболее существенных признаков в учетной документации.

Отличительными чертами (спецификой) статистического исследования являются: целенаправленность, организованность, массовость, системность (комплексность), сопоставимость, документированность, контролируемость, практичность.

В целом статистическое исследование должно:

Иметь общественно-полезную цель и всеобщую (государственную) значимость;

Относиться к предмету статистики в конкретных условиях его места и времени;

Выражать статистический вид учета (а не бухгалтерский и не оперативный);

Проводиться по заранее разработанной программе с ее научно обоснованным методологическим и другим обеспечением;

Осуществлять сбор массовых данных (фактов), в которых отражается вся совокупность причинно-следственных и других факторов, разносторонне характеризующих явление;

Регистрироваться в виде учетных документов установленного образца;

Гарантировать отсутствие ошибок наблюдения или же сводить их к возможному минимуму;

Предусматривать определенные критерии качества и способы контроля собранных данных, обеспечивая их достоверность, полноту и содержательность;

Ориентироваться на экономически эффективную технологию сбора и обработки данных;

Быть надежной информационной базой для всех последующих этапов статистического исследования и всех пользователей статистической информацией.

Исследования, не удовлетворяющие этим требованиям, статистическими не являются. Не являются статистическими исследования, например, наблюдения и исследования: матери за играющим ребенком (личный вопрос); зрителей за театральной постановкой (нет учетной документации по зрелищу); научного работника за физико-химическими опытами с их измерениями, расчетами и документальной регистрацией (не массово-общественные данные); врача за больными с ведением медицинских карточек (оперативный учет); бухгалтера за движением денежных средств на банковском счете предприятия (бухгалтерский учет); журналистов за общественной и личной жизнедеятельностью государственных лиц или иных знаменитостей (не предмет статистики).

Статистическая совокупность - множество единиц, обладающих массовостью, типичностью, качественной однородностью и наличием вариации.

Статистическая совокупность состоит из материально существующих объектов (Работники, предприятия, страны, регионы), является объектом статистического исследования.

Статистическое наблюдение является первой стадией статистического исследования, представляющий собой научно организованный сбор данных об изучаемых явлениях и процессах общественной жизни.


5. Предназначение выборочного метода


Множество всех единиц совокупности, обладающих определенным признаком и подлежащих изучению, носит в статистике название генеральной совокупности.

На практике по тем или иным причинам не всегда возможно или же нецелесообразно рассматривать всю генеральную совокупность. Тогда ограничиваются изучением лишь некоторой части ее, конечной целью которого является распространение полученных результатов на всю генеральную совокупность, т. е. применяют выборочный метод.

Для этого из генеральной совокупности особым образом отбирается часть элементов, так называемая выборка, и результаты обработки выборочных данных (например, средние арифметические значения) обобщаются на всю совокупность.

Теоретической основой выборочного метода является закон больших чисел. В силу этого закона при ограниченном рассеивании признака в генеральной совокупности и достаточно большой выборке с вероятностью, близкой к полной достоверности, выборочная средняя может быть сколь угодно близка к генеральной средней. Закон этот, включающий в себя группу теорем, доказан строго математически. Таким образом, средняя арифметическая, рассчитанная по выборке, может с достаточным основанием рассматриваться как показатель, характеризующий генеральную совокупность в целом.

Разумеется, не всякая выборка может быть основой для характеристики всей совокупности, к которой она принадлежит. Таким свойством обладают лишь репрезентативные (представительные) выборки, т. е. выборки, которые правильно отражают свойства генеральной совокупности. Существуют способы, позволяющие гарантировать достаточную репрезентативность выборки. Как доказано в ряде теорем математической статистики, таким способом при условии достаточно большой выборки является метод случайного отбора элементов генеральной совокупности, такого отбора, когда каждый элемент генеральной совокупности имеет равный с другими элементами шанс попасть в выборку. Выборки, полученные таким способом, называются случайными выборками. Случайность выборки является, таким образом, существенным условием применения выборочного метода.

Области применения выборочного метода в исторических исследованиях. Сфера приложения этого метода в изучении истории обширна. Во-первых, историки могут применять выборочный метод при проведении всякого рода обследований с целью изучения различных явлений и процессов современности. Правда, сейчас такими исследованиями больше занимаются социологи, чем историки, хотя именно историки могут проводить конкретно-социологические обследования, опираясь на исторические данные, и добиваться наибольшего эффекта таких исследований.

Во-вторых, историки нередко имеют дело с сохранившимися данными ранее проведенных собственно выборочных обследований. Такие обследования стали все более широко применяться с конца XIX в. Так, при проведении ряда сплошных обследований и переписей выборочно собирались и собираются сведения по более широкой программе. Многие данные собирались только выборочно. Наиболее интересными среди них для историков являются описания разного рода хозяйственных комплексов (крестьянских хозяйств, промышленных предприятий, колхозов, совхозов и т. д.), а также бюджетные и другого рода обследования различных слоев населения.

В-третьих, в распоряжении историков имеется значительное число разнообразных первичных сплошных массовых данных, полная обработка которых весьма затруднительна даже при применении современной вычислительной техники. При изучении их может быть применен выборочный метод. Такие материалы имеются по всем периодам истории, но особенно много их по истории XIX-XX вв.

Наконец, историкам очень часто приходится иметь дело с частичными данными, так называемыми естественными выборками. При обработке этих данных также может быть применен выборочный метод. Характер естественных выборок бывает различным. Прежде всего они могут представлять собой сохранившийся остаток некогда существовавшей более или менее полной совокупности данных. Так, многие актовые материалы, документы текущего делопроизводства и отчетности представляют остатки в прошлом обширных и систематических массивов данных. Далее, при систематическом сборе тех или иных сведений отдельные показатели могли учитываться лишь частично (именно частично, а не выборочно). Так, при составлении «Экономических примечаний» к Генеральному межеванию второй половины XVIII в., которое охватило большую часть территории страны, ряд показателей (количество населения, площадь земельных угодий и др.) учитывался повсеместно, а некоторые важные данные (о величине барских запашек, размерах оброка) были собраны в силу целого ряда причин лишь частично. Многие сведения вообще собирались только частично. Это, прежде всего, относится к тем из них, которые не являлись нормативными и сбором которых занимались различные местные органы, научные и общественные организации и отдельные лица.

Итак, области выборочного метода в исторических исследованиях весьма обширны, а задачи, которые следует при этом решать, различны.

Так, при организации выборочного обследования и формировании выборки из имеющихся сплошных данных исследователь располагает определенной свободой маневра для обеспечения репрезентативности выборок. При этом он может опираться на хорошо разработанную в математической статистике теорию, методику и технику получения таких выборок.

При оперировании же данными ранее проведенных выборочных обследований следует проверить, в какой мере они были выполнены в соответствии с требованиями, предъявляемыми к выборочному методу. Для этого надо знать, как было проведено это обследование. Чаще всего это вполне можно сделать.

И совсем иное дело - естественные выборки данных, с которыми очень часто имеет дело историк. Прежде всего необходимо доказать их репрезентативность. Без этого экстраполяция показателей выборок на всю изучаемую совокупность будет необоснованной. Поскольку пока еще нет достаточно надежных методов математической проверки репрезентативности естественных выборок, то решающую роль здесь играет выяснение истории их возникновения и содержательный анализ имеющихся данных.


6. Предназначение корреляционно-регрессионного анализа

сезонный регрессионный статистический выборочный

Экономические данные почти всегда представлены в виде таблиц. Числовые данные, содержащиеся в таблицах, обычно имеют между собой явные (известные) или неявные (скрытые) связи.

Явно связанные показатели получены методами прямого счета, т. е. вычислены по заранее известным формулам. Например, вычисляются проценты выполнения плана, темпы роста, индексы и т. д.

Связи же второго типа заранее неизвестны. Однако люди должны уметь объяснять и предсказывать (прогнозировать) сложные явления для того, чтобы управлять ими. Поэтому специалисты с помощью наблюдений стремятся выявить скрытые зависимости и выразить их в виде формул, т. е. математически смоделировать явления или процессы. Одну из таких возможностей предоставляет корреляционно-регрессионный анализ.

Обратим внимание на то, что специалисты строят и используют математические модели для трех обобщенных целей - объяснения, предсказания и управления.

Представление экономических и других данных в электронных таблицах в наши дни стало простым и естественным. Оснащение же электронных таблиц средствами корреляционно-регрессионного анализа способствует тому, что из группы сложных, глубоко научных и потому редко используемых, почти экзотических методов, корреляционно-регрессионный анализ превращается для специалиста в повседневный, эффективный и оперативный аналитический инструмент.

Пользуясь методами корреляционно-регрессионного анализа, аналитики измеряют тесноту связей показателей с помощью коэффициента корреляции. При этом обнаруживаются связи, различные по силе (сильные, слабые, умеренные и др.) и различные по направлению (прямые, обратные). Если связи окажутся существенными, то целесообразно будет найти их математическое выражение в виде регрессионной модели и оценить статистическую значимость модели. В экономике значимое уравнение регрессии используется, как правило, для прогнозирования изучаемого явления или показателя.

Поэтому регрессионный анализ называют основным методом современной математической статистики для выявления неявных и завуалированных связей между данными наблюдений. Электронные же таблицы делают такой анализ легко доступным.


7. Предназначение и методика проведения анализа сезонных колебаний


При анализе многих рядов динамики можно заметить определённую повторяемость (цикличность, закономерность в колебаниях), изменениях их уровней. Например, в большинстве отраслей экономики это проявляется в виде внутритрудовых чередований, подъёмов и спадов выпуска продукции, неодинаковым потреблением сырья и энергии, колебания уровней себестоимости, прибыли и других показателей. Ярко выраженный сезонный характер имеет сельское хозяйство, рыболовство, лесозаготовка, охота, туризм и так далее. Значительной колеблемости во внутренней динамике подвержены денежные обращения и товарооборот. Наибольшие денежные доходы образуются у населения в III и IV кварталах, особенно у селян. Максимальный объём товарооборота (различного) приходится на конец каждого года. Продажа молочных продуктов увеличивается обычно во II и III кварталах, а фруктов и овощей - во втором полугодии. Потребление пищи связано со временем суток, днями недели, временами года. Также закономерности в изменении уровней ряда динамики принято называть сезонными колебаниями.

Под сезонными колебаниями понимается более или менее устойчивые внутригодовые колебания уровней динамического рода, обусловленные спецификами развития данного явления.

Цель изучения сезонных колебаний состоит как в разработке мер его ликвидации или смягчению сезонных колебаний (нередко этим и ограничивается статистическое исследование), так и для оптимального исследования условий, благоприятствующих развитию массовых явлений и процессов.

При статистическом исследовании в рядах динамики сезонных колебаний решаются следующие две взаимосвязанные задачи: 1) выявление специфики развития изучаемого явления во внутренне годовой динамике; 2) измерение сезонных колебаний изучаемого явления с построением модели сезонной волны.

Особое внимание отражается на обеспечение сопоставимости уровней ряда. При наличии в исходном материале разновесных по продолжительности периодов времени объёмные величины пересчитываются в средние величины, характеризующие интенсивность развития изучаемого явления в единицу времени.

Для выявления сезонных колебаний обычно берутся данные за несколько последних лет, распределённые по определённым внутригодовым периодам.

Для измерения сезонных колебаний исчисляются специальные статистические показатели, которые называются индексами сезонности (Is) и совокупность которых отражает сезонную волну.

Для вычисления индексов сезонности применяются различные методы.

В общем виде индексы сезонности определяются отношением исходных (фактических) уровней первоначального ряда (y) к расчётным (теоретическим) уровням, выступающим в качестве базы сравнения.

Тем самым ликвидируется (устраняется) влияние основной тенденции (тренда). Затем усреднением индивидуальных индексов сезонных одноимённых внутригодовых периодов анализируемого ряда динамики устраняется влияние на сезонные колебания случайных отклонений. Поэтому для каждого периода сумма определяется обобщением показателей в виде средних индексов сезонности

В зависимости от характера тренда последняя формула может быть записана по разному:

Например, коэффициенты месячной непрерывности определяются в этом случае как отношения уровня каждого месяца к среднемесячному за год. Для большей надёжности индексы сезонности обычно рассчитываются по данным за 3-5 лет. При этом для каждого месяца рассчитывается средняя величина уровня за эти 3-5 дет, которая сопоставляется с общим ежемесячным уровнем за 3-5 лет. Можно, таким образом, сначала для каждого из этих 3-5 лет рассчитать ежемесячный индекс сезонности, из которых рассчитывается затем средний индекс сезонности для каждого месяца. Результаты будут совпадать.

Поэтому для всех фактических уровней анализируемого ряда динамики общий средний уровень является постоянной величиной, то этот подход называется способом постоянной средней. В этом случае сначала выполняется предварительное аналитическое выравнивание фактических уровней и после этого исчисляется сезонная величина, но не от постоянной средней (как в предыдущем случае), а от выровненных данных.

Измерение сезонных колебаний на базе переменных уровней тренда (расчётных уровней ряда) в статистике получило название способы переменной средней. Есть и другие, более сложные методы расчета индексов сезонности. Например, если все колебания членов первоначального ряда объясняются только (или в основном) сезонными причинами, то уравнение тренда выражает только сезонные колебания. Следовательно, изучение сезонного колебания сводится к проблеме выбора адекватной математической функции. Однако наилучшее с точки зрения отражения сезонных колебаний нагрузки уравнения выбирают по минимуму среднего квадратичного индексов сезонности 100 %.


Список литературы


1.Гусаров В.М. Теория статистики: М.: «Аудит», издательское объединение «ЮНИТИ», 2010.

2.Лапунина Л., Четверина Т. Напряженность на Российском рынке и механизмы ее преодоления: Вопросы экономики, N 2, 2008.

.Общая теория статистики: статистическая методология в изучении коммерческой деятельности, Учебник / под редакцией А.А. Спирина, О.Э. Башиной: М.: «Финансы и статистика», 2009.

.Сабирьянова К. Микроэкономический анализ динамических изменений на Российском рынке труда. Вопросы экономики, N 1, 2012.

.Социальная статистика: Учебник/ Под ред. чл.-кор. РАН И.И. Елисеевой.- 3-е изд., перераб. и доп.- М.: Финансы и статистика, 2011.- 480 с.


Репетиторство

Нужна помощь по изучению какой-либы темы?

Наши специалисты проконсультируют или окажут репетиторские услуги по интересующей вас тематике.
Отправь заявку с указанием темы прямо сейчас, чтобы узнать о возможности получения консультации.

Исходная научная база для вероятностно-статистических моделей — прикладная статистика. Она включает в себя прикладную математическую статистику, ее программное обеспечение и методы сбора статистических данных и интерпретации результатов расчетов.


Как известно, эконометрика (или эконометрия) — это статистические методы анализа эмпирических экономических данных.

Наиболее популярные методы статистического анализа

Наибольшее применение в задачах принятия решений получили следующие методы:

  • регрессионный анализ (методы восстановления зависимости и построения моделей, прежде всего линейных);
  • планирование эксперимента;
  • методы классификации (дискриминантный анализ, кластерный анализ, распознавание образов, систематика и типология, теория группировок);
  • многомерный статистический анализ экономической информации (анализ главных компонент и факторный анализ);
  • методы анализа и прогнозирования временных рядов;
  • теория робастности, т.е. устойчивости статистических процедур к допустимым отклонениям исходных данных и предпосылок модели;
  • теория индексов, в частности, индекса инфляции.

Наиболее популярны регрессионные уравнения и их системы. Обычно используют уравнения не выше второго порядка, линейные по параметрам:

  • Yi — переменная отклика;
  • xij — факторы, от которых зависит;
  • Bi — коэффициенты, которые характеризуют взаимодействие между и;
  • Bif — отражают взаимодействие между и;
  • ei- ошибка модели;
  • i – номер наблюдения (измерения, опыта, анализа, испытания), i= 1, 2, n;
  • j – номер фактора (независимой переменной), j = 1,2,…, k.
  • Коэффициенты Bi, Bif находятся методом наименьших квадратов.

Применение вероятностно-статистического описания

Традиционное вероятностно-статистическое описание с интуитивной точки зрения применимо лишь к массовым событиям. Для единичных событий целесообразно применять теорию субъективных вероятностей и теорию нечетких множеств (fuzzy sets). которая развивалась ее основателем Л.Заде для описания суждений человека, для которого переход от «принадлежности» к множеству к «непринадлежности» не скачкообразен, а непрерывен.

В последнее время можно заметить, что область статистических методов приобретает всё больший вес в системном анализе. Эта область посвящена анализу статистических данных нечисловой природы (её ещё называют статистикой нечисловых данных, или нечисловой статистикой). Выборка — это исходный объект в прикладной статистике, который означает совокупность одинаково распределенных случайных элементов, которые также являются независимыми между собой.

Необходимо различать выборку в математической статистике (выборка — это числа) и многомерном статистическом анализе (выборка — это вектора). Также стоит отметить, что в нечисловой статистике элементы выборки — это объекты нечисловой природы (нельзя складывать и умножать на числа). То есть, объекты нечисловой природы лежат в пространствах, которые не имеют векторную структуру.

Примеры объектов нечисловой природы являются:

  • значения качественных признаков, т.е. результаты кодировки объектов с помощью заданного перечня категорий (градаций);
  • упорядочения (ранжировки) экспертами образцов продукции (при оценке её технического уровня и конкурентоспособности) или заявок на проведение научных работ (при проведении конкурсов на выделение грантов);
  • классификации, т.е. разбиения объектов на группы сходных между собой (кластеры);
  • толерантности, т.е. бинарные отношения, описывающие сходство объектов между собой, например, сходства тематики научных работ, оцениваемого экспертами с целью рационального формирования экспертных советов внутри определенной области науки;
  • результаты парных сравнений или контроля качества продукции по альтернативному признаку («годен» — «брак»), т.е. последовательности из 0 и 1;
  • множества (обычные или нечеткие), например, зоны, пораженные коррозией, или перечни возможных причин аварии, составленные экспертами независимо друг от друга;
  • слова, предложения, тексты;
  • вектора, координаты которых — совокупность значений разнотипных признаков, например, результат составления статистического отчета о научно-технической деятельности организации или анкета эксперта, в которой ответы на часть вопросов носят качественный характер, а на часть — количественный;
  • ответы на вопросы экспертной, маркетинговой или социологической анкеты, часть из которых носит количественный характер (возможно, интервальный), часть сводится к выбору одной из нескольких подсказок, а часть представляет собой тексты; и т.д.

Одно из основных применений статистики объектов нечисловой природы — теория и практика экспертных оценок, связанные с теорией статистических решений и проблемами голосования.

Интервальная статистика

Интервальная статистика

В 1980-е годы стала развиваться интервальная статистика — часть статистики нечетких данных, в которой функция принадлежности, описывающая размытость, принимает значение 1 на некотором интервале, а вне его — значение 0. Другими словами, исходные данные, в том числе элементы выборки — не числа, а интервалы.

Интервальная статистика тем самым связана с интервальной математикой, в частности, с интервальной оптимизацией. Интервальная статистика — это анализ интервальных статистических данных. В ней предполагается, что исходные данные — это не числа, а интервалы. Интервальную статистику можно рассматривать как часть интервальной математики.

Позволяет делать статистические выводы, оценивать характеристики распределения, проверять статистические гипотезы без слабо обоснованных предположений о том, что функция распределения элементов выборки входит в то или иное параметрическое семейство. Например, широко распространена вера в то, что статистические данные часто подчиняются нормальному распределению.

Математики думают, что это — экспериментальный факт, установленный в прикладных исследованиях. Прикладники уверены, что математики доказали нормальность результатов наблюдений. Между тем анализ конкретных результатов наблюдений, в частности, погрешностей измерений, приводит всегда к одному и тому же выводу — в подавляющем большинстве случаев реальные распределения существенно отличаются от нормальных.

Некритическое использование гипотезы нормальности часто приводит к значительным ошибкам, например, при отбраковке резко выделяющихся результатов наблюдений (выбросов), при статистическом контроле качества и в других случаях. Поэтому целесообразно использовать непараметрические методы, в которых на функции распределения результатов наблюдений наложены лишь весьма слабые требования. Обычно предполагается лишь их непрерывность. К настоящему времени с помощью непараметрических методов можно решать практически тот же круг задач, что ранее решался параметрическими методами.

Основная идея работ по робастности, или устойчивости, состоит в том, что выводы, полученные на основе математических методов исследования, должны мало меняться при небольших изменениях исходных данных и отклонениях от предпосылок модели. Здесь есть два круга задач. Один — это изучение устойчивости распространенных алгоритмов анализа данных. Второй — поиск робастных алгоритмов для решения тех или иных задач.

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

  • 3. Ряды динамики
  • Литература

1. Абсолютные и относительные величины

В результате сводки и группировки статистического материала в руках исследователя оказывается самая разнообразная информация об изучаемых явлениях и процессах. Однако, останавливаться на полученных результатах было бы большой ошибкой, потому что, даже сгруппированные по заданным признакам и отраженные в табличной или графической форме, эти данные пока являются только своего рода иллюстрацией, промежуточным результатом, который должен быть подвергнут анализу - в данном случае, статистическому. Статистический анализ - это представление изучаемого объекта в качестве расчлененной системы, т.е. комплекса элементов и связей, образующих в своем взаимодействии органическое целое .

В результате такого анализа должна быть построена модель изучаемого объекта, причем, поскольку речь идет о статистике, при построении модели должны быть использованы статистические значимые элементы и связи.

Собственно, на выявление таких значимых элементов и связей и направлен статистический анализ.

Абсолютные показатели (величины) - величины суммарные, подсчитанные или взятые из сводных статистических отчетов без всяких преобразований. Абсолютные показатели всегда именные и отражаются в тех единицах измерения, которые были заданы при составлении программы статистического наблюдения (количество возбужденных уголовных дел, количество совершенных преступлений, количество разводов и т.д.).

Абсолютные показатели являются базовыми для любых дальнейших статистических операций, однако сами они для анализа малопригодны. По абсолютным показателям, например, трудно судить об уровне преступности в разных городах или регионах и практически нельзя ответить на вопрос, где преступность выше, а где ниже, так как города или регионы могут существенно различаться численности населения, территории и другим важным параметрам.

Относительные величины в статистике представляют собой обобщающие показатели, которые раскрывают числовую форму соотношения двух сопоставляемых статистических величин. При исчислении относительных величин наиболее часто сравнивают две абсолютные, но можно сопоставлять и средние, и относительные величины, получая новые относительные показатели. Самый простой пример вычисления относительной величины - ответ на вопрос: во сколько раз одно число больше другого?

Приступая к рассмотрению относительных величин, необходимо учитывать следующее. В принципе, сравнивать можно все, что угодно, даже линейные размеры листа бумаги А4 с количеством продукции, выпускаемой Ломоносовским фарфоровым заводом. Однако, такое сравнение ничего нам не даст. Важнейшее условие для плодотворного вычисления относительных величин можно сформулировать следующим образом:

1. единицы измерения сравниваемых величин должны быть одними и теми же или вполне сопоставимыми. Числа преступлений, уголовных дел и осужденных - показатели коррелируемые, т.е. взаимосвязанные, но не сопоставимые по единицам измерения. В одном уголовном деле может быть рассмотрено несколько преступлений и осуждена группа лиц; несколько осужденных могут совершить одно преступление и, наоборот, один осужденный - множество деяний. Числа преступлений, дел и осужденных сопоставимы с численностью населения, количеством персонала системы уголовной юстиции, уровнем жизни народа и другими данными одного и того же года. Более того, в течение одного года рассматриваемые показатели вполне сопоставимы и между собой.

2. Сопоставляемые данные обязательно должны соответствовать друг другу по времени или территории их получения либо по тому и другому параметрам вместе.

Абсолютная величина, с которой сравниваются другие в е личины, называется основанием или базой сравнения, а сравн и ваемый показатель - величиной сравнения . Например, при расчете отношения динамики преступности в России в 2000-2010 гг. данные 2000 г. будут базовыми. Они могут приниматься за единицу (тогда относительная величина будет выражена в форме коэффициента), за 100 (в процентах). В зависимости от размерности сравниваемых величин выбирают наиболее удобную, показательную и наглядную форму выражения относительной величины.

Если сравниваемая величина намного превосходит основание, получаемое отношение лучше выразить в коэффициентах. Например, преступность за определённый период (в годах) увеличилась в 2,6 раза. Выражение в разах в данном случае будет показательнее, чем в процентах. В процентах относительные величины выражаются тогда, когда величина сравнения не сильно отличается от базы.

Относительные величины, применяемые в статистике, в том числе и правовой, бывают разных видов. В правовой статистике применяются следующие виды относительных величин:

1. отношения, характеризующие структуру совокупности, или отношения распределения;

2. отношения части к целому, или отношения интенсивности;

3. отношения, характеризующие динамику;

4. отношения степени и сравнения.

Относительная величина распределения - это относительная величина, выражаемая в процентах отдельных частей совокупности изученных явлений (преступлений, преступников, гражданских дел, исков, причин, мер предупреждения и т.д.) к их общему итогу, принимаемому за 100% . Это - самый распространенный (и простой) вид относительных данных, применяемых в статистике. Это, например, структура преступности (по видам преступлений), структура судимости (по видам преступлений, по возрасту осужденных) и т.д.

статистический анализ абсолютная величина

Отношение интенсивности (отношение части к целому) - обобщающая относительная величина, которая отражает распространенность определенного признака в наблюдаемой совокупности.

Самый распространенный показатель интенсивности, применяемый в правовой статистике - интенсивности преступности. Интенсивность преступности обычно отражается посредством коэффициента преступности, т.е. числа преступлений на 100 или 10 тыс. жителей.

КП= (П*100000)/Н

где П - абсолютное число учтенных преступлений, Н - абсолютная численность населения.

Обязательное условие, определяющее саму возможность вычисления таких показателей, как было сказано выше - все используемые абсолютные показатели берутся на одной территории и за один промежуток времени.

Отношения, характеризующие динамику , представляют собой обобщающие относительные величины, показывающие изменение во времени тех или иных показателей правовой статистики . За временной интервал обычно принимается год.

За основание (базу), равное 1, или 100%, принимаются сведения об изучаемом признаке определенного года, который был чем-то характерен для изучаемого явления. Данные базового года выполняют роль неподвижной базы, к которой процентируются показатели последующих лет.

Задачи статистического анализа часто требуют ежегодных (или по иным периодам) сопоставлений, когда за базу принимаются данные каждого предыдущего года (месяца или другого периода). Подобная база называется подвижной . Обычно это используется при анализе временных рядов (рядов динамики).

Отношения степени и сравнения позволяют сопоставлять различные показатели в целях выявления, какая величина насколько больше другой, в какой мере одно явление отличается от другого или схоже с ним, что имеется общего и отличительно в наблюдаемых статистических процессах и т.д.

Индекс - это специально созданный относительный показатель сравнения (во времени, пространстве, при сравнении с прогнозом и т.д.), показывающий, во сколько раз уровень изучаемого явления в одних условиях отличается от уровня того же явления в других условиях. Наиболее распространены индексы в экономической статистике, хотя они играют определенную роль и при анализе правовых явлений.

Без индексов не обойтись в случаях, когда необходимо сопоставить несоизмеримые показатели, простое суммирование которых невозможно. Поэтому обычно индексы определяют как числа-показатели для измерения средней динамики совокупности разнородных элементов .

В статистике индексы обычно обозначают буквой I (i). Прописная буква или заглавная - зависит от того, идет ли речь об индивидуальном (частном) индексе или он общем.

Индивидуальные индексы (i) отражают отношение показателя текущего периода к соответствующему показателю сравниваемого периода.

Сводные индексы используются при анализе соотношения сложных социально-экономических явлений и состоят из двух частей: собственно индексируемой величины и соизмерителя ("веса").

2. Средние величины и их применение в правовой статистике

Результатом обработки абсолютных и относительных показателей является построение рядов распределения. Ряд распределения - это упорядоченные по качественным или количественным признакам распределения единиц совокупности . Анализ этих рядов лежит в основе любого статистического анализа, каким бы сложным в дальнейшем он не оказался.

Ряд распределения может быть построен на основании качественных или количественных признаков. В первом случае он называется атрибутивным , во втором - вариационным . При этом различия количественного признака называется вариацией , а сам этот признак - вариантой . Именно с вариационными рядами чаще всего приходится иметь дело правовой статистике.

Вариационный ряд всегда состоит из двух колонок (граф). В одной указывается значение количественного признака в порядке возрастания, которые, собственно, и называют вариантами, которые обозначаются x . В другой колонке (графе) указывается число единиц, которые свойственны той или иной варианте. Они называются частотами и обозначаются латинской буквой f .

Таблица 2.1

Варианта x

Частота f

Частота проявления того или иного признака очень важна при вычислении других значимых статистических показателей, а именно - средних и показателей вариации.

Вариационные ряды, в свою очередь, могут быть дискретными или интервальными . Дискретные ряды, как следует из названия, построены на основании дискретно варьирующих признаков, а интервальными - на основании непрерывных вариаций. Так, например, распределение правонарушителей по возрасту может быть как дискретным (18, 19,20 лет и т.д.), так и непрерывным (до 18 лет, 18-25 лет, 25-30 лет и т.д.). Причем сами интервальные ряды могут строиться как по дискретному, так и по непрерывному принципу. В первом случае границы смежных интервалов не повторяются; в нашем примере интервалы будут выглядеть так: до 18 лет, 18-25, 26-30, 31-35 и т.д. Такой ряд называется непрерывный дискретный ряд . Интервальный ряд с непрерывной вариацией предполагает совпадение верхней границы предыдущего интервала с нижней границей последующей.

Самый первый показатель, описывающий вариационные ряды - это средние величины . Они играют важную роль в правовой статистике, поскольку только с их помощью можно охарактеризовать совокупности по количественному варьирующему признаку, по которому можно их сравнивать. С помощью средних величин можно сравнивать интересующие нас совокупности юридически значимых явлений по тем или иным количественным признакам и делать из этих сравнений необходимые выводы.

Средние величины отражают самую общую тенденцию (закономерность ), присущую всей массе изучаемых явлений. Она проявляется в типичной количественной характеристике, т.е. в средней величине всех имеющихся (варьирующих) показателей.

Статистикой разработано много видов средних величин: средняя арифметическая, геометрическая, кубическая, гармоническая и т.д. Однако в правовой статистике они практически не применяются, поэтому мы будем рассматривать только два вида средние - среднюю арифметическую и среднюю геометрическую.

Самая распространенная и хорошо известная средняя - это средняя арифметическая . Для ее расчета высчитывается сумма показателей и делится на общее число показателей. Например, семья из 4-х человек состоит из родителей возрастом 38 и 40 лет и двоих детей возрастом 7год и 10 лет. Мы суммируем возраст: 38+40+7+10 и полученную сумму 95 делим на 4. Полученный средний возраст семьи - 23,75 года. Или рассчитаем среднемесячную нагрузку следователей, если в отделе из 8 человек за месяц раскрыто 25 дел. Делим 25 на 8 и получаем 3,125 дела в месяц на следователя.

В правовой статистике средняя арифметическая используется при расчете нагрузки сотрудников (следователей, прокуроров, судей и т.д.), расчете абсолютного прироста преступности, расчете выборки и т.д.

Однако в приведенным примере среднемесячная нагрузка на следователя рассчитана неверно. Дело в том, что простая средняя арифметическая не учитывает частоту изучаемого признака. В нашем примере среднемесячная нагрузка на следователя столь же корректна и информативна, как "средняя температура по больнице" из известного анекдота, которая, как известно, комнатная. Для того, чтобы при расчете средней арифметической учитывать частоту проявлений изучаемого признака, используется так средняя арифметическая взвешенная илисредняя для дискретных вариационных рядов. (Дискретный вариационный ряд - последовательность изменения признака по дискретным (прерывистым) показателям).

Средняя арифметическая взвешенная (средняя взвешенная) не имеет принципиальных отличий от простой средней арифметической. В ней суммирование одного и того же значения заменено умножением этого значения на его частоту, т.е. в этом случае каждое значение (варианта) взвешивается по частоте встречаемости.

Так, вычисляя по среднюю нагрузку следователей, мы должны умножим число дел на число следователей, который расследовали именно такое количество дел. Обычно такие расчеты удобно представлять в виде таблиц:

Таблица 2.2

Число дел

(варианта х )

Число следователей (частота f )

Произведение вариант

на частоты (х f )

2. Вычислим собственно среднюю взвешенную по формуле:

где x - число уголовных дел, а f - число следователей.

Таким образом, средняя взвешенная равна не 3,125, а 4,375. Если вдуматься, то так и должно быть: нагрузка на каждого отдельного следователя возрастает за счет того, что один следователь в нашем гипотетическом отделе оказался бездельником - или, наоборот, расследовал особо важное и сложное дело. Но вопрос интерпретации результатов статистического исследования будет рассматриваться в следующей теме. В некоторых случаях, а именно - в случаях сгруппированных частот дискретного распределения - вычисление средней, на первый взгляд, неочевидно. Предположим, нам необходимо вычислить среднюю арифметическую для распределения лиц, осужденных за хулиганство, по возрасту. Распределение выглядит следующим образом:

Таблица 2.3

(варианта х )

Число осужденных (частота f )

Середина интервала

Произведение вариант

на частоты (х f )

(21-18) /2+18=19,5

Далее средняя высчитывается по общему правилу и составляет для данного дискретного ряда 23,6 года. В случае т. н. открытых рядов, то есть в ситуациях, когда крайние интервалы определяются "менее x " или "больше x ", величина крайних интервалов задается аналогично другим интервалам.

3. Ряды динамики

Общественные явления, изучаемые статистикой, находятся в постоянном развитии и изменении. Социально-правовые показатели могут быть представлены не только в статической форме, отражающей определенное явление, но и как процесс, происходящий во времени и пространстве, а также в виде взаимодействия исследуемых признаков. Иными словами, динамические ряды показывают развитие признака, т.е. его изменение во времени, пространстве или в зависимости от условий среды.

Данный ряд представляет собой последовательность средних величин в указанные периоды времени (за каждый календарный год).

Для более глубокого изучения общественных явлений и их анализа простого сопоставления уровней ряда динамики недостаточно, необходимо исчислять производные показатели ряда динамики: абсолютный прирост, темп роста, темп прироста, средние темпы роста и прироста, абсолютное содержание одного процента прироста.

Расчет показателей рядов динамики осуществляется на основе сравнения их уровней. При этом возможны два способа сопоставления уровней динамического ряда:

базисные показатели, когда все последующие уровни сравнивают с некоторым начальным, принятым за базу;

цепные показатели, когда каждый последующий уровень ряда динамики сопоставляют с предыдущим.

Абсолютный прирост показывает, на сколько единиц уровень текущего периода больше или меньше уровня базисного или предыдущего периода за конкретный промежуток времени.

Абсолютный прирост (П) исчисляется как разность между сравниваемыми уровнями.

Базисный абсолютный прирост:

П б = y i - y баз . (ф.1).

Цепной абсолютный прирост:

П ц = y i - y i -1 (ф.2).

Темп роста (Тр) показывает, во сколько раз (на сколько процентов) уровень текущего периода больше или меньше уровня базисного или предыдущего периода:

Базисный темп роста:

(ф.3)

Цепной темп роста:

(ф.4)

Темп прироста (Тпр) показывает, на сколько процентов уровень текущего периода больше или меньше уровня базисного или предыдущего периода, принятого за базу сравнения, и вычисляется как отношение абсолютного прироста к абсолютному уровню, принятому за базу.

Темп прироста можно также рассчитать путем вычитания из темпа роста 100%.

Базисный темп прироста:

или (ф.5)

Цепной темп прироста:

или (ф.6)

Средний темп роста исчисляется по формуле средней геометрической из темпов роста ряда динамики:

(ф.7)

где - средний темп роста;

- темпы роста для отдельных периодов;

n - число темпов роста.

Подобные задачи с показателем корня больше трех, как правило, решаются при помощи логарифмирования. Из алгебры известно, что логарифм корня равен логарифму подкоренной величины, деленной на показатель корня, и что логарифм произведения нескольких сомножителей равен сумме логарифмов этих сомножителей.

Таким образом, средние темпы роста исчисляются путем извлечения корня n степени из произведений индивидуальных n - цепных темпов роста. Средние темпы прироста представляют собой разность между средним темпом роста и единицей (), или 100%, когда темп роста выражен в процентах:

или

При отсутствии в динамическом ряду промежуточных уровней средние темпы роста и прироста определяются по следующей формуле:

(ф.8)

где - конечный уровень динамического ряда;

- начальный уровень динамического ряда;

n - число уровней (дат).

Очевидно, что показатели средних темпов роста и прироста, исчисленные по формулам (ф.7 и ф.8), имеют одинаковые числовые значения.

Абсолютное содержание 1% прироста показывает, какое абсолютное значение содержит 1% прироста и исчисляется как отношение абсолютного прироста к темпу прироста.

Абсолютное содержание 1% прироста:

базисные: (ф.9)

цепные: (ф.10)

Вычисление и анализ абсолютного значения каждого процента прироста способствуют более глубокому пониманию характера развития исследуемого явления. Данные нашего примера показывают, что, несмотря на колебания темпов роста и прироста за отдельные годы, базисные показатели абсолютного содержания 1% прироста остаются неизменными, в то время как цепные показатели, характеризующие изменения абсолютного значения одного процента прироста в каждом последующем году по сравнению с предыдущим, непрерывно возрастают.

При построении, обработке и анализе рядов динамики часто возникает потребность в определении средних уровней изучаемых явлений за определенные промежутки времени. Средняя хронологическая интервального ряда исчисляется при равных интервалах по формуле средней арифметической простой, при неравных интервалах - по средней арифметической взвешенной:

где - средний уровень интервального ряда;

- исходные уровни ряда;

n - число уровней.

Для моментного ряда динамики при условии равенства промежутков времени между датами исчисление среднего уровня производится по формуле средней хронологической:

(ф.11)

где - средняя хронологическая величина;

y 1 ,., y n - абсолютный уровень ряда;

n - число абсолютных уровней ряда динамики.

Средняя хронологическая из уровней моментного ряда динамики равняется сумме показателей этого ряда, деленной на число показателей без одного; при этом начальный и конечный уровни должны быть взяты в половинном размере, так как число дат (моментов) обычно бывает наединицу больше, чем число периодов.

В зависимости от содержания и формы представления исходных данных (интервальные или моментные ряды динамики, равные или нет временные интервалы) для вычисления различных социальных показателей, например, среднегодовое количество преступлений и правонарушений (по видам), среднего размера остатков оборотных средств, среднесписочного числа правонарушителей и т.п., используют соответствующие аналитические выражения.

4. Статистические методы изучения взаимосвязей

В предыдущих вопросах мы рассматривали, если можно так сказать, анализ "одномерных" распределений - вариационных рядов. Это очень важный, но далеко не единственный вид статистического анализа. Анализ вариационных рядов является основанием для более "продвинутых" видов статистического анализа, в первую очередь - для изучения взаимосвязей . В результате такого исследования вскрываются причинно-следственные отношения между явлениями, что позволяет определить, изменении каких признаков влияет на вариации изучаемых явлений и процессов. При этом признаки, обуславливающие изменение других, называются факторными (факторами), а признаки, изменяющиеся под их воздействием - результативными.

В статистической науке различают два вида связей между различными признаками и их сведениями - функциональную связь (жестко-детерминированную) и статистическую (стохастическую).

Для функциональных связей характерно полное соответствие между изменением факторного признака и изменением результативной величины. Эта взаимосвязь одинаково проявляется у всех единиц любой совокупности. Самый простой пример: повышение температуры отражается на объеме ртути в градуснике. При этом температура окружающей среды выступает в качестве фактора, а объем ртути - в качестве результативного признака.

Функциональные взаимосвязи характерны для явлений, изучаемых такими науками, как химия, физика, механика, в которых есть возможность ставить "чистые" эксперименты, при которых устраняется влияние посторонних факторов. Дело в том, что функциональная связь между двумя возможна только в том случае, если вторая величина (результативный признак) зависит только и исключительно от первой. В общественных явлениях такое наблюдается крайне редко.

Социально-правовые процессы, представляющие собой результат одновременного воздействия большого количества факторов, описываются посредством статистических связей, то есть связей стохастически (случайно ) детерминированных , когда разным значениям одной переменной соответствуют разные значения другой переменной.

Наиболее важный (и распространенный) случай стохастической зависимости - корреляционная зависимость . При такой зависимости причина определяет следствие не однозначно, а лишь с определенной долей вероятности. Выявлению таких связей посвящен отдельный вид статистического анализа - корреляционный анализ.

Основная задача корреляционного анализа - на основе строго математических приемов установить количественное выражение зависимости, существующей между исследуемыми признаками. Существует несколько подходов к тому, как именно вычисляется корреляция и, соответственно, несколько видов коэффициентов корреляции: коэффициент сопряженности А.А. Чупрова (для измерения связи между качественнымипризнаками), коэффициент ассоциации К. Пирсона, а также коэффициенты ранговой корреляции Спирмена и Кендалла. В общем случае такие коэффициенты показывают, с какой вероятностью проявляются изучаемые взаимосвязи. Соответственно, чем коэффициент выше, тем более выраженной является связь между признаками.

Между изучаемыми факторами может существовать как прямая, так и обратная корреляционная зависимость. Прямая корреляционная зависимость наблюдается в случаях, когда изменению значений фактора соответствуют такие же изменения значения результативного признака, то есть, когда увеличивается значение факторного признака, увеличивается и значение результативного, и наоборот. Например, между криминогенными факторами и преступностью существует прямая корреляционная зависимость (со знаком "+"). Если же увеличение значений одного признака вызывает обратные изменения значений другого, то такая связь называется обратной . Например, чем выше социальный контроль в обществе, тем ниже преступность (связь со знаком "-").

И прямые, и обратные связи могут быть прямолинейными и криволинейными.

Прямолинейные (линейные) связи проявляются тогда, когда с увеличением значений признака-фактора происходит возрастание (прямая) или уменьшение (обратная) величины признака-следствия. Математически такая связь выражается уравнением регрессии: у = а + b х, где у - признак-следствие; а и b - соответствующие коэффициенты связи; х - признак-фактор.

Криволинейные связи носят иной характер. Возрастание величины факторного признака оказывает неравномерное влияние на величину результирующего признака. Вначале эта связь может быть прямой, а затем - обратной. Известный пример - связь преступлений с возрастом правонарушителей. Сначала криминальная активность лиц растет прямо пропорционально увеличению возраста правонарушителей (приблизительно до 30 лет), а затем с увеличением возраста преступная активность снижается. Причем вершина кривой распределения правонарушителей по возрасту сдвинута от средней влево (к более молодому возрасту) и является асимметричной.

Корреляционные прямолинейные связи могут быть одн о факторными , когда исследуется связь между одним признаком-фактором и одним признаком-следствием (парная корреляция). Они могут быть и многофакторными, когда исследуется влияние многих взаимодействующих между собой признаков-факторов на признак-следствие (множественная корреляция).

Но, какой бы из коэффициентов корреляции не использовался, какая бы корреляция не исследовалась, установить связь между признаками, исходя только из статистических показателей, невозможно. Первоначальный анализ показателей - это всегда анализ качественный , в ходе которого изучается и уясняется социально-правовая природа явления. При этом используются те научные методы и подходы, которые характерны для отрасли науки, изучающей данное явление (социологии, права, психологии и т.д.). Затем анализ группировок и средних величин позволяет выдвинуть гипотезы, построить модели, определить тип связи и зависимости. Только после этого определяется количественная характеристика зависимости - собственно, коэффициент корреляции.

Литература

1. Аванесов Г.А. Основы криминологического прогнозирования. Учебное пособие. М.: ВШ МВД СССР, 1970.

2. Аврутин К.Е., Гилинский Я.И. Криминологический анализ преступности в регионе: методология, методика, техника. Л., 1991.

3. Адамов Е. и др. Экономика и статистика фирм: Учебник / Под ред. С.Д. Ильенковой. М.: Финансы и статистика, 2008.

4. Балакина Н.Н. Статистика: Учеб. - метод. комплекс. Хабаровск: ИВЭСЭП, филиал в г. Хабаровске, 2008.

5. Блувштейн Ю.Д., Волков Г.И. Динамические ряды преступности: Учебное пособие. Минск, 1984.

6. Боровиков В.П., Боровиков И.П. STATISTICA - Статистический анализ и обработка данных в среде Windows. М.: Информационно-издательский дом "Филинъ”, 1997.

7. Бородин С.В. Борьба с преступностью: теоретическая модель комплексной программы. М.: Наука, 1990.

8. Вопросы статистики // Ежемесячный научно-информационный журнал Госкомстата РФ.М., 2002-2009 гг.

9. Гусаров В.М. Статистика: Учеб. пособие для вузов. М.: ЮНИТИ-ДАНА, 2009.

10. Добрынина Н.В., Нименья И.Н. Статистика: Учеб. - метод. пособие. СПб.: СПбГИЭУ, 2009.

11. Елисеева И.И., Юзбашев М.М. Общая теория статистики: Учебник для вузов / Под ред.И. И. Елисеевой.4-е изд. М.: Финансы и статистика, 1999.

12. Елисеева И.И., Юзбашев М.М. Общая теория статистики: Учебник. - М.: Финансы и статистика, 1995.

13. Еремина Т., Матятина В., Плущевская Ю. Проблемы развития секторов российской экономики // Вопросы экономики. 2009. № 7.

14. Ефимова М.Р., Ганченко О.И., Петрова Е.В. Практикум по общей теории статистики: Учеб. пособие.2-е изд., перераб. и доп. М.: Финансы и статистика, 2009.

15. Ефимова М.Р., Петрова Е.В., Румянцев В.Н. Общая теория статистики: Учебник. - М.: ИНФРА-М, 1998.

16. Кириллов Л.А. Криминологическое изучение и предупреждение преступности органами внутренних дел М., 1992.

17. Косоплечев Н.П., Методы криминологического исследования. М., 1984.

18. Ли Д.А. Преступность в России: системный анализ. М., 1997.

19. Ли Д.А. Уголовно-статистический учет: структурно-функциональные закономерности. М.: Информационно-издательское агентство "Русский мир”, 1998.

20. Макарова Н.В., Трофимец В.Я. Статистика в Excel: Учеб. пособие. М.: Финансы и статистика, 2009.

21. Нестеров Л.И. Новые веяния в статистике национального богатства // Вопросы статистики. 2008. № 11.

22. Петрова Е.В. и др. Практикум по статистике транспорта: Учеб. пособие. М.: Финансы и статистика, 2008.

23. Преступность в России в девяностых годах и некоторые аспект законности и борьбы с нею. М., 1995.

24. Преступность, статистика, закон // Под ред. проф. А.И. Долговой. М.: Криминологическая ассоциация, 1997.

25. Ростов К.Т. Преступность в регионах России (социально-криминологический анализ). СПб.: СПб академия МВД России, 1998.

26. Руководство для переписчика о порядке проведения Всероссийской переписи населения 2002 года и заполнения переписных документов. М.: ПИК "Офсет", 2003.

27. Савюк Л.К. Правовая статистика: Учебник. М.: Юристъ, 1999.

28. Салин В.Н., Шпаковская Е.П. Социально-экономическая статистика: Учебник для вузов. М.: Гарданика Юрист, 2008.

29. Сиденко А.В., Попов Г.Ю., Матвеева В.М. Статистика: Учебник. М.: Дело и Сервис, 2008.

30. Социальная профилактика правонарушений: советы, рекомендации // Под ред. Д.А. Керимова. М., 1989.

31. Социальная статистика: Учебник для вузов // Под ред. И.И. Елисеевой. 3-е изд. М.: Финансы и статистика, 2009.

Размещено на Allbest.ru

Подобные документы

    Рассмотрение основных методов статистического анализа. Исследование Кунгурского муниципального района. Проведение расчетов по показателям ежегодника. Анализ демографии и социально-экономического развития данного района по результатам применения.

    курсовая работа , добавлен 24.06.2015

    Средняя величина – свободная характеристика закономерностей процесса в тех условиях, в которых он протекает. Формы и методы расчета средних величин. Применение средних величин на практике: расчет дифференциации заработной платы по отраслям экономики.

    курсовая работа , добавлен 04.12.2007

    Статистические методы анализа разводов. Статистический анализ разводов в Амурской области. Анализ динамики и структуры разводов. Группировка городов и районов Амурской области по количеству разводов за год. Расчет средних величин и показателей вариации.

    курсовая работа , добавлен 12.04.2014

    Аспекты статистического анализа обеспеченности жильем. Применение статистических методов для анализа обеспеченности жильем населения. Анализ однородности совокупности районов по коэффициенту демографической нагрузки. Корреляционно-регрессионный анализ.

    курсовая работа , добавлен 18.01.2009

    Организация государственной статистики в России. Требования, предъявляемые к собираемым данным. Формы, виды и способы статистического наблюдения. Подготовка статистического наблюдения. Ошибки статистического наблюдения. Методы контроля за статистикой.

    реферат , добавлен 02.12.2007

    Разработка программы наблюдения уголовно-правовой статистики, ее основные этапы и предъявляемые требования, методы и порядок реализации. Определение состояния преступности в исследуемом районе. Правила оформления результатов статистического наблюдения.

    контрольная работа , добавлен 18.05.2010

    Классификация статистической документации. Виды документов: письменные, иконографические, статистические и фонетические. Методы и способы анализа материалов: неформализованные (традиционные) и формализованные. Порядок осуществления контент-анализа.

    презентация , добавлен 16.02.2014

    Понятие средней величины. Метод средних величин в изучении общественных явлений. Актуальность применения метода средних величин в изучении общественных явлений обеспечивается возможностью перехода от единичного к общему, от случайного к закономерному.

    курсовая работа , добавлен 13.01.2009

    Понятие статистического наблюдения. Анализ прямолинейных и криволинейных корреляционных связей. Знакомство с формулами и величинами статистического наблюдения. Анализ расчетов взаимосвязи индексов, построение гистограммы, элементы ряда распределения.

    контрольная работа , добавлен 27.03.2012

    Характеристика основных показателей статистического анализа социальной обусловленности общественного здоровья в Российской Федерации. Уровни оценки здоровья с точки зрения социальной медицины. Классификация детской части населения по группам здоровья.

Объектом исследования в прикладной статистике являются статистические данные, полученные в результате наблюдений или экспериментов. Статистические данные - это совокупность объектов (наблюдений, случаев) и признаков (переменных), их характеризующих. Статистические методы анализа данных применяются практически во всех областях деятельности человека. Их используют всегда, когда необходимо получить и обосновать какие-либо суждения о группе (объектов или субъектов) с некоторой внутренней неоднородностью.

Статистические методы анализа данных, относящиеся к группе а), обычно называют методами прикладной статистики.

Числовые статистические данные - это числа, вектора, функции. Их можно складывать, умножать на коэффициенты. Поэтому в числовой статистике большое значение имеют разнообразные суммы. Математический аппарат анализа сумм случайных элементов выборки - это (классические) законы больших чисел и центральные предельные теоремы.

Нечисловые статистические данные - это категоризованные данные, вектора разнотипных признаков, бинарные отношения, множества, нечеткие множества и др. Их нельзя складывать и умножать на коэффициенты.

Статистический анализ данных, как правило, включает в себя целый ряд процедур и алгоритмов, выполняемых последовательно, параллельно или по более сложной схеме. В частности, можно выделить следующие этапы:

планирование статистического исследования;

организация сбора необходимых статистических данных по оптимальной или рациональной программе (планирование выборки, создание организационной структуры и подбор команды статистиков, подготовка кадров, которые будут заниматься сбором данных, а также контролеров данных и т.п.);

непосредственный сбор данных и их фиксация на тех или иных носителях (с контролем качества сбора и отбраковкой ошибочных данных по соображениям предметной области);

первичное описание данных (расчет различных выборочных характеристик, функций распределения, непараметрических оценок плотности, построение гистограмм, корреляционных полей, различных таблиц и диаграмм и т.д.),

оценивание тех или иных числовых или нечисловых характеристик и параметров распределений (например, непараметрическое интервальное оценивание коэффициента вариации или восстановление зависимости между откликом и факторами, т.е. оценивание функции),

проверка статистических гипотез (иногда их цепочек - после проверки предыдущей гипотезы принимается решение о проверке той или иной последующей гипотезы),

более углубленное изучение, т.е. применение различных алгоритмов многомерного статистического анализа, алгоритмов диагностики и построения классификации, статистики нечисловых и интервальных данных, анализа временных рядов и др.;

проверка устойчивости полученных оценок и выводов относительно допустимых отклонений исходных данных и предпосылок используемых вероятностно-статистических моделей, в частности, изучение свойств оценок методом размножения выборок;

применение полученных статистических результатов в прикладных целях (например, для диагностики конкретных материалов, построения прогнозов, выбора инвестиционного проекта из предложенных вариантов, нахождения оптимальных режима осуществления технологического процесса, подведения итогов испытаний образцов технических устройств и др.),

составление итоговых отчетов, в частности, предназначенных для тех, кто не является специалистами в статистических методах анализа данных, в том числе для руководства - "лиц, принимающих решения".

К методам относят:

Корреляционный анализ. Между переменными (случайными величинами) может существовать функциональная связь, проявляющаяся в том, что одна из них определяется как функция от другой. Но между переменными может существовать и связь другого рода, проявляющаяся в том, что одна из них реагирует на изменение другой изменением своего закона распределения. Такую связь называют стохастической. В качестве меры зависимости между переменными используется коэффициент корреляции (r), который изменяется в пределах от - 1 до +1. Если коэффициент корреляции отрицательный, это означает, что с увеличением значений одной переменной значения другой убывают. Если переменные независимы, то коэффициент корреляции равен 0 (обратное утверждение верно только для переменных, имеющих нормальное распределение). Но если коэффициент корреляции не равен 0 (переменные называются некоррелированными), то это значит, что между переменными существует зависимость. Чем ближе значение r к 1, тем зависимость сильнее. Коэффициент корреляции достигает своих предельных значений +1 или - 1, тогда и только тогда, когда зависимость между переменными линейная. Корреляционный анализ позволяет установить силу и направление стохастической взаимосвязи между переменными (случайными величинами).

Регрессионный анализ. В регрессионном анализе моделируется взаимосвязь одной случайной переменной от одной или нескольких других случайных переменных. При этом, первая переменная называется зависимой, а остальные - независимыми. Выбор или назначение зависимой и независимых переменных является произвольным (условным) и осуществляется исследователем в зависимости от решаемой им задачи. Независимые переменные называются факторами, регрессорами или предикторами, а зависимая переменная - результативным признаком, или откликом.

Если число предикторов равно 1, регрессию называют простой, или однофакторной, если число предикторов больше 1 - множественной или многофакторной. В общем случае регрессионную модель можно записать следующим образом:

y = f (x 1 , x 2 , …, x n),

где y - зависимая переменная (отклик), x i (i = 1,…, n) - предикторы (факторы), n - число предикторов.

Канонический анализ. Канонический анализ предназначен для анализа зависимостей между двумя списками признаков (независимых переменных), характеризующих объекты. Например, можно изучить зависимость между различными неблагоприятными факторами и появлением определенной группы симптомов заболевания, или взаимосвязь между двумя группами клинико-лабораторных показателей (синдромов) больного. Канонический анализ является обобщением множественной корреляции как меры связи между одной переменной и множеством других переменных.

Методы сравнения средних. В прикладных исследованиях часто встречаются случаи, когда средний результат некоторого признака одной серии экспериментов отличается от среднего результата другой серии. Так как средние это результаты измерений, то, как правило, они всегда различаются, вопрос в том, можно ли объяснить обнаруженное расхождение средних неизбежными случайными ошибками эксперимента или оно вызвано определенными причинами. Сравнение средних результата один из способов выявления зависимостей между переменными признаками, характеризующими исследуемую совокупность объектов (наблюдений). Если при разбиении объектов исследования на подгруппы при помощи категориальной независимой переменной (предиктора) верна гипотеза о неравенстве средних некоторой зависимой переменной в подгруппах, то это означает, что существует стохастическая взаимосвязь между этой зависимой переменной и категориальным предиктором.

Частотный анализ. Таблицы частот, или как еще их называют одновходовые таблицы, представляют собой простейший метод анализа категориальных переменных. Данный вид статистического исследования часто используют как одну из процедур разведочного анализа, чтобы посмотреть, каким образом различные группы наблюдений распределены в выборке, или как распределено значение признака на интервале от минимального до максимального значения. Кросстабуляция (сопряжение) - процесс объединения двух (или нескольких) таблиц частот так, что каждая ячейка в построенной таблице представляется единственной комбинацией значений или уровней табулированных переменных. Кросстабуляция позволяет совместить частоты появления наблюдений на разных уровнях рассматриваемых факторов.

Анализ соответствий. Анализ соответствий по сравнению с частотным анализом содержит более мощные описательные и разведочные методы анализа двухвходовых и многовходовых таблиц. Метод, так же, как и таблицы сопряженности, позволяет исследовать структуру и взаимосвязь группирующих переменных, включенных в таблицу.

Кластерный анализ. Кластерный анализ - это метод классификационного анализа; его основное назначение - разбиение множества исследуемых объектов и признаков на однородные в некотором смысле группы, или кластеры. Это многомерный статистический метод, поэтому предполагается, что исходные данные могут быть значительного объема, т.е. существенно большим может быть как количество объектов исследования (наблюдений), так и признаков, характеризующих эти объекты. Большое достоинство кластерного анализа в том, что он дает возможность производить разбиение объектов не по одному признаку, а по ряду признаков. Кроме того, кластерный анализ в отличие от большинства математико-статистических методов не накладывает никаких ограничений на вид рассматриваемых объектов и позволяет исследовать множество исходных данных практически произвольной природы.

Дискриминантный анализ. Дискриминантный анализ включает статистические методы классификации многомерных наблюдений в ситуации, когда исследователь обладает так называемыми обучающими выборками. Этот вид анализа является многомерным, так как использует несколько признаков объекта, число которых может быть сколь угодно большим. Цель дискриминантного анализ состоит в том, чтобы на основе измерения различных характеристик (признаков) объекта классифицировать его, т.е. отнести к одной из нескольких заданных групп (классов) некоторым оптимальным способом. При этом предполагается, что исходные данные наряду с признаками объектов содержат категориальную (группирующую) переменную, которая определяет принадлежность объекта к той или иной группе. Факторный анализ. Факторный анализ - один из наиболее популярных многомерных статистических методов. Если кластерный и дискриминантный методы классифицируют наблюдения, разделяя их на группы однородности, то факторный анализ классифицирует признаки (переменные), описывающие наблюдения. Поэтому главная цель факторного анализа - сокращение числа переменных на основе классификация переменных и определения структуры взаимосвязей между ними.

Деревья классификации. Деревья классификации - это метод классификационного анализа, позволяющий предсказывать принадлежность объектов к тому или иному классу в зависимости от соответствующих значений признаков, характеризующих объекты. Признаки называются независимыми переменными, а переменная, указывающая на принадлежность объектов к классам, называется зависимой. В отличие от классического дискриминантного анализа, деревья классификации способны выполнять одномерное ветвление по переменными различных типов категориальным, порядковым, интервальным. Не накладываются какие-либо ограничения на закон распределения количественных переменных. По аналогии с дискриминантным анализом метод дает возможность анализировать вклады отдельных переменных в процедуру классификации.

Анализ главных компонент и классификация. Метод анализ главных компонент и классификация позволяет решить эту задачу и служит для достижения двух целей:

уменьшение общего числа переменных (редукция данных) для того, чтобы получить "главные" и "некоррелирующие" переменные;

классификация переменных и наблюдений, при помощи строящегося факторного пространства.

Решение основной задачи метода достигается созданием векторного пространства латентных (скрытых) переменных (факторов) с размерностью меньше исходной. Исходная размерность определяется числом переменных для анализа в исходных данных.

Многомерное шкалирование. Метод можно рассматривать как альтернативу факторному анализу, в котором достигается сокращение числа переменных, путем выделения латентных (непосредственно не наблюдаемых) факторов, объясняющих связи между наблюдаемыми переменными. Цель многомерного шкалирования - поиск и интерпретация латентных переменных, дающих возможность пользователю объяснить сходства между объектами, заданными точками в исходном пространстве признаков. Показателями сходства объектов на практике могут быть расстояния или степени связи между ними. В факторном анализе сходства между переменными выражаются с помощью матрицы коэффициентов корреляций. В многомерном шкалировании в качестве исходных данных можно использовать произвольный тип матрицы сходства объектов: расстояния, корреляции и т.д.

Моделирование структурными уравнениями (причинное моделирование). Объектом моделирования структурными уравнениями являются сложные системы, внутренняя структура которых не известна ("черный ящик"). Основная идея моделирования структурными уравнениями состоит в том, что можно проверить, связаны ли переменные Y и X линейной зависимостью Y = aX, анализируя их дисперсии и ковариации. Эта идея основана на простом свойстве среднего и дисперсии: если умножить каждое число на некоторую константу k, среднее значение также умножится на k, при этом стандартное отклонение умножится на модуль k.

Временные ряды. Временные ряды - это наиболее интенсивно развивающееся, перспективное направление математической статистики. Под временным (динамическим) рядом подразумевается последовательность наблюдений некоторого признака Х (случайной величины) в последовательные равноотстоящие моменты t. Отдельные наблюдения называются уровнями ряда и обозначаются хt, t = 1, …, n. При исследовании временного ряда выделяются несколько составляющих:

x t =u t +y t +c t +e t , t = 1, …, n,

где u t - тренд, плавно меняющаяся компонента, описывающая чистое влияние долговременных факторов (убыль населения, уменьшение доходов и т.д.); - сезонная компонента, отражающая повторяемость процессов в течение не очень длительного периода (дня, недели, месяца и т.д.); сt - циклическая компонента, отражающая повторяемость процессов в течение длительных периодов времени свыше одного года; t - случайная компонента, отражающая влияние не поддающихся учету и регистрации случайных факторов. Первые три компоненты представляют собой детерминированные составляющие.

Нейронные сети. Нейронные сети представляют собой вычислительную систему, архитектура которой имеет аналогию с построением нервной ткани из нейронов. На нейроны самого нижнего слоя подаются значения входных параметров, на основании которых нужно принимать определенные решения.

Планирование экспериментов. Искусство располагать наблюдения в определенном порядке или проводить специально спланированные проверки с целью полного использования возможностей этих методов и составляет содержание предмета "планирование эксперимента".

Карты контроля качества. Качество продукции и услуг формируется в процессе научных исследований, конструкторских и технологических разработок, обеспечивается хорошей организацией производства и услуг. Но изготовление продукции и оказание услуг независимо от их вида всегда связано с определенным непостоянством условий производства и предоставления. Это приводит к некоторой вариабельности признаков их качества. Поэтому, актуальными являются вопросы разработки методов контроля качества, которые позволят своевременно выявить признаки нарушения технологического процесса или оказания услуг.

Различные единицы статистической совокупности, имеющие определенное сходство межу собой по достаточно важным признакам, объединяются в группы при помощи метода группировки. Такой прием позволяет "сжать" информацию, полученную в ходе наблюдения, и на этой основе установить закономерности, присущие изучаемому явлению.

Метод группировок применяется для решения различных задач, важнейшими из которых являются:

1. выделение социально-экономических типов

2. определение структуры однотипных совокупностей

3. вскрытие связей и закономерностей между отдельными признаками общественных явлений

В связи с этим существуют 3 вида группировок: типологические, структурные и аналитические. Группировки различают по форме проведения.

Типологическая группировка представляет собой разделение исследуемой качественно разнородной статистической совокупности на классы, социально-экономические типы, однородные группы единиц.

Структурные группировки разделяют однородную в качественном отношении совокупность единиц по определенным, существенным признакам на группы, характеризующие ее состав и внутреннюю структуру.

Аналитические группировки обеспечивают установление взаимосвязи и взаимозависимости между исследуемыми социально-экономическими явлениями и признаками, их характеризующими. Посредством этого вида группировок устанавливаются и изучаются причинно-следственные связи между признаками однородных явлений, определяются факторы развития статистической совокупности.

Достаточно подробно изложены в отечественной литературе. В практике российских предприятий, между тем, используются только некоторые из них. Рассмотрим далее некоторые методы статистической обработки.

Общие сведения

В практике отечественных предприятий распространены преимущественно статистические методы контроля . Если говорить о регулировании технологического процесса, то оно отмечается крайне редко. Применение статистических методов предусматривает, что на предприятии формируется группа из специалистов, которые имеют соответствующую квалификацию.

Значение

Согласно требованиям ИСО сер. 9000, поставщику необходимо определить необходимость в статистических методах, которые применяются в процессе разработки, регулирования и проверки возможностей производственного процесса и характеристики изделий. Используемые приемы базируются на теории вероятностей и математических расчетах. Статистические методы анализа данных могут внедряться на любом этапе жизненного цикла изделия. Они обеспечивают оценку и учет степени неоднородности продукции либо вариабельности ее свойств относительно установленных номиналов или требуемых значений, а также изменчивости процесса ее создания. Статистические методы - это приемы, посредством которых можно с заданной точностью и достоверностью судить о состоянии явлений, которые исследуются. Они позволяют спрогнозировать те или иные проблемы, выработать оптимальные решения на основе изученной фактической информации, тенденциях и закономерностях.

Направления использования

Основные области, в которых широко распространены статистические методы, - это :


Практика развитых стран

Статистические методы - это база, обеспечивающая создание продукции с высокими потребительскими характеристиками. Эти приемы широко используются в промышленно развитых государствах. Статистические методы - это, по сути, гаранты получения потребителями продукции, соответствующей установленным требованиям. Эффект их использования доказан практикой промышленных предприятий Японии. Именно они способствовали достижению высочайшего производственного уровня в этой стране. Многолетний опыт зарубежных стран показывает, насколько эффективны эти приемы. В частности, известно, что компания Hewlelt Packard, применяя статистические методы, смогла снизить в одном из случаев количество брака за месяц с 9 000 до 45 ед.

Сложности внедрения

В отечественной практике существует ряд препятствий, не позволяющих использовать статистические методы изучения показателей. Сложности возникают вследствие:


Разработка программы

Необходимо сказать, что определение потребности в тех или иных статистических методах в сфере качества, выбор, освоение конкретных приемов является довольно сложной и длительной работой для любого отечественного предприятия. Для эффективного ее осуществления целесообразно разработать специальную долговременную программу. В ней следует предусмотреть формирование службы, в задачи которой будет входить организация и методическое руководство применения статистических методов. В рамках программы нужно предусмотреть оснащение соответствующими техническими средствами, обучение специалистов, определить состав производственных задач, которые должны решаться с помощью выбранных приемов. Освоение рекомендуется начать с использования самых простых подходов. К примеру, можно использовать известные элементарные производством. Впоследствии целесообразно перейти к другим приемам. Например, это может быть анализ дисперсии, выборочная обработка информации, регулирование процессов, планирование факторного исследования и экспериментов и пр.

Классификация

К статистическим методам экономического анализа относятся разные приемы. Стоит сказать, их насчитывается довольно много. Однако ведущий специалист в сфере менеджмента качества в Японии К. Исикава рекомендует использовать семь основных методов:

  1. Диаграммы Парето.
  2. Группировка сведений по общим признакам.
  3. Контрольные карты.
  4. Причинно-следственные диаграммы.
  5. Гистограммы.
  6. Контрольные листки.
  7. Диаграммы разброса.

Руководствуясь собственным опытом в сфере менеджмента, Исикава утверждает, что 95% всех вопросов и проблем на предприятии можно решить, используя эти семь подходов.

Диаграмма Парето

Этот базируется на определенном соотношении. Оно было названо "принципом Парето". В соответствии с ним, из 20% причин появляется 80% следствий. в наглядной и понятной форме показывает относительное влияние каждого обстоятельства на общую проблему в убывающем порядке. Это воздействие можно исследовать на количестве потерь, дефектов, спровоцированных каждой причиной. Относительное влияние иллюстрируется с помощью столбиков, накопленное воздействие факторов посредством кумулятивной прямой.

Причинно-следственная диаграмма

На ней исследуемую проблему условно изображают в форме горизонтальной прямой стрелки, а условия и факторы, косвенно либо прямо влияющие на нее, - в виде наклонных. При построении следует учитывать даже незначительные на первый взгляд обстоятельства. Это обуславливается тем, что на практике достаточно часто бывают случаи, в которых решение задачи обеспечивается исключением нескольких, кажущихся несущественными, факторов. Причины, которые влияют на основные обстоятельства (первого и следующих порядков) изображают на диаграмме горизонтальными короткими стрелками. Детализированная схема будет иметь форму скелета рыбы.

Группировка сведений

Этот экономико-статистический метод используется для упорядочения множества показателей, которые были получены при оценке и измерении одного или нескольких параметров объекта. Как правило, такая информация представлена в форме неупорядоченной последовательности значений. Это могут быть линейные размеры заготовки, температура плавления, твердость материала, количество дефектов и так далее. На основе такой системы сложно делать выводы о свойствах изделия либо процессах его создания. Упорядочивание осуществляется с помощью линейных графиков. Они наглядно показывают изменения наблюдаемых параметров в течение определенного периода.

Контрольный листок

Как правило, он представлен в виде таблицы распределения частот вхождения измеряемых величин параметров объекта в соответствующие промежутки. Контрольные листки составляются в зависимости от поставленной цели исследования. Диапазон значений показателей разделяется на одинаковые интервалы. Их число выбирают обычно равное квадратному корню из количества выполненных измерений. Бланк должен быть простым, чтобы исключить проблемы при заполнении, прочтении, проверке.

Гистограмма

Она представлена в форме ступенчатого многоугольника. Он наглядно иллюстрирует распределение показателей измерений. Диапазон установленных величин разбивается на равные промежутки, которые откладывают по оси абсцисс. К каждому интервалу строится прямоугольник. Его высота равна частоте вхождения величины в данный промежуток.

Диаграммы разброса

Они используются при проверке гипотезы о взаимосвязи двух переменных величин. Модель строится следующим образом. На оси абсцисс откладывают величину одного параметра, ординат - другого показателя. В результате на графике появляется точка. Данные действия повторяются для всех значений переменных. При наличии взаимосвязи поле корреляции вытянуто, и направление не будет совпадать с направленностью оси ординат. Если зависимость отсутствует, оно параллельно одной из осей или будет иметь форму круга.

Контрольные карты

Они используются при оценке процесса в течение конкретного периода. Формирование контрольных карт базируется на следующих положениях:

  1. Все процессы отклоняются от заданных параметров с течением времени.
  2. Нестабильный ход явления не изменяются случайно. Неслучайными выступают отклонения, выходящие за границы предполагаемых пределов.
  3. Отдельные изменения могут быть спрогнозированы.
  4. Стабильный процесс может случайно отклоняться и в предполагаемых границах.

Использование в практике российских предприятий

Следует сказать, что отечественный и зарубежный опыт показывает, что наиболее эффективным статистическим методом оценки стабильности и точности оборудования и технологических процессов выступает составление контрольных карт. Этот способ используется также при регулировании производственных потенциальных мощностей. При построении карт необходимо правильно выбрать исследуемый параметр. Рекомендуется отдавать предпочтение тем показателям, которые непосредственно относятся к назначению изделия, могут быть легко измерены и на которые можно оказать воздействие посредством регулирования процесса. Если такой выбор затруднителен или не оправдан, можно выполнить оценку величин, коррелированных (взаимосвязанных) с контролируемым параметром.

Нюансы

Если измерение показателей с точностью, требуемой для составления карт по количественному критерию, экономически или технически невозможно, используют альтернативный признак. С ним связаны такие термины, как "брак" и "дефект". Под последним понимают каждое обособленное несоответствие изделия установленным требованиям. Браком называют продукцию, предоставление которой не допускается потребителям, в связи с наличием в ней дефектов.

Особенности

У каждого типа карт есть своя специфика. Ее необходимо принимать во внимание при их выборе для конкретного случая. Карты по количественному критерию считаются более чувствительными к изменениям процесса, чем те, в которых используется альтернативный признак. Однако при этом первые более трудоемки. Их используют для:

  1. Отладки процесса.
  2. Оценки возможностей внедрения технологии.
  3. Проверки точности работы оборудования.
  4. Определения допусков.
  5. Сопоставления нескольких допустимых способов создания продукта.

Дополнительно

Если разладка процесса отличается смещением контролируемого параметра, необходимо использовать Х-карты. Если имеет место увеличение рассеяния значений, выбирать нужно R или S-модели. Необходимо, однако, учитывать ряд особенностей. В частности, использование S-карт позволит точнее и быстрее установить разладку процесса, чем R-модели при одинаковых Вместе с тем, построение последних не требует выполнения сложных расчетов.

Заключение

В экономике позволяют исследовать факторы, которые обнаруживаются в ходе качественной оценки, в пространстве и динамике. С их помощью можно выполнять прогнозные расчеты. К статистическим методам экономическая анализа не относят способы оценки причинно-следственных связей хозяйственных процессов и событий, выявления перспективных и неиспользованных резервов повышения результативности деятельности. Другими словами, в число рассмотренных подходов не включаются факторные приемы.