Поле не заполнено.
'%1' не похож на адрес электронной почты.
Пожалуйста, заполните это поле.
Значение поля должно содержать как минимум %1 символов.
Значение не должно быть длиннее %1 символов.
Значение поля не совпадает с полем '%1'
Введен неверный символ. Допустимые символы:'%1'.
Ожидается число.
Ожидается положительное число.
Ожидается целое число.
Ожидается положительное целое число.
Значение должно быть в диапазоне [%1 .. %2]
Символ '%1' уже присутствует в наборе допустимых символов.
Значение поля должно быть меньше %1.
Первым символом должна быть буква латинского алфавита.
Вс
Пн
Вт
Ср
Чт
Пт
Сб
Январь
Февраль
Март
Апрель
Май
Июнь
Июль
Август
Сентябрь
Октябрь
Ноябрь
Декабрь
век
до Н.Э.
Возникла ошибка при импорте данных в строке:%1. Значение: '%2'. Ошибка: %3
Невозможно определить разделитель полей. Для разделения полей можно использовать следующие символы: Tab, точку с запятой (;) или запятую (,).
%3.%2.%1%4
%3.%2.%1%4 %6:%7
с.ш.
ю.ш.
в.д.
з.д.
да
нет
минут
минут
минута
минуты
минуты
минуты
минут
минут
минут
минут
минут
минут
минут
час
часа
часа
часа
часов
часов
часов
часов
часов
часов
часов
дней
день
дня
дня
дня
дней
дней
дней
дней
дней
дней
дней
месяц
месяца
месяца
месяца
месяцев
месяцев
месяцев
месяцев
месяцев
месяцев
месяцев
год
года
года
года
лет
лет
лет
лет
лет
лет
лет
назад
HTML код со ссылки на эту страницу
  1. Внешний вид
    1. Пример
  2. Закрыть
Калькуляторы
  1. Формула Стерджесса и другие способы определения числа групп при построении гистограммы
  2. Сохранить в Мои калькуляторы
Получить код ссылкиДобавить на мой сайтДобавить закладку
  1. delicious
  2. google
  3. bobrdobr
  4. memori
  5. mrwong
  6. yandex
  7. myscoop
Отправить
  1. Создан 2009-09-06 20:07:51
  2. пользователем Timur

Онлайн калькулятор: Определение числа групп при построении гистограммы

Рейтинг:ПлоховатоНичего особенногоВполне приличноДовольно хорошоОтлично!Голосов:
histogram.JPG

Сегодня, говоря о статистике, я буду обсуждать гистограммы. Вообще говоря, гистограмма является наглядным отображением метода группировки, то есть распределения множества результатов измерений какой-либо величины по группам, в соответствии с существенным для данной группы признаком. Методы группировки широко применяются для обработки первичных данных.

Под первичными данными в статистике мы понимаем статистические ряды, которые называют рядами динамики, если речь идет об изменении явления во времени, либо рядами распределения, если речь идет о составе или структуре исследуемого явления.

Если речь идет о рядах, построенных на основе качественных признаков (например, предприятия по формам собственности), то такие ряды называются атрибутивными, если ряды построены по количественным признакам (например, предприятия по объему товарооборота), то они называются вариационными.

В зависимости от прерывности вариации признака различают дискретные и интервальные вариационные ряды.

Гистограмма представляет собой столбчатый график, построенный по полученным данным, которые разбиваются на несколько групп. Число данных, попавших в каждую группу (частота), выражается высотой столбика, соответствующего данной группе.

Гистограмму можно строить для любых рядов, при этом, если это атрибутивный либо дискретный вариационный ряд (например, число рабочих в каждом тарифном разряде), то число выделяемых групп равно числу вариантов значений признака. В случае же интервального вариационного ряда число групп будет зависеть от величины интервала, используемого для группировки данных.

Интервал - разница между максимальным и минимальным значениями признака в каждой группе. Понятно, что чем больше групп, тем меньше интервал и наоборот. Группы в таком случае иногда называют также классами интервалов.

Например, можно разбить полученные данные о численности рабочих на предприятиях на следующие группы:
до 25 человек,
25-50 человек,
50-100 человек,
свыше 100 человек.

Тогда гистограмма будет содержать 4 столбика, высота которых будет соответствовать числу предприятий попавших в данную группу.
Заметим, кстати, что вышеприведенное распределение является примером использования неравных интервалов, выделенных, что называется, программой исследования, т.е. нами самими.

Вопрос выбора величины интервала (числа групп), используемого для группировки элементов интервального вариационного ряда, далеко не праздный. Помимо того, что гистограмма является отличным средством визуализации данных, она также является ни чем иным, как приближением функции распределения вероятности (см. картинку). Т.е. величина столбика каждой группы показывает вероятность того, что следующее значение измеряемой величины попадет в данную группу.

Слишком большое число групп может дать слишком "скачущий" график, слишком малое - слишком "сглаженный". В идеале, очевидно, хотелось бы иметь число групп, дающее наименьшее отклонение от функции распределения вероятности, т.е. позволяющее дать наиболее точную оценку настоящей функции распределения вероятности изучаемого явления.

В-общем, математики этим занялись.

Первым, по всей видимости, был Стерджесc (Sturges, 1926). Он рассмотрел идеализированную частотную гистограмму из k классов, где i-ое значение было равно биномиальному коэффициенту \left( \begin{matrix} k-1 \\ i \end{matrix} \right). При достаточно больших k форма гистограммы приближалась к форме нормального распределения. Сумма всех значений была равна
n = \sum_1^{k-1} \left( \begin{matrix} k-1 \\ i \end{matrix} \right) = 2^{k-1}.

Таким образом, для n результатов измерений величины, подчиняющейся нормальному распределению, число классов, используемых при построении гистограммы следует брать как k = 1 + log_2n и форма полученной гистограммы будет приближаться к форме нормального распределения для достаточно большого k. Это и есть формула Стерджесса. В этом виде она попала практически во все учебники по статистике.

Формула эта в настоящее время подвергается критике как раз за то, что она явным образом использует биномиальное распределение для аппроксимации нормального распределения, что не всегда применимо. Считается, что эта формула позволяет строить удовлетворительные гистограммы при числе измерений менее 200.

Существует целый ряд альтернативных формул, некоторые из которых вычисляют длину интервала, после чего определяется число требуемых классов (см. здесь).

Рассмотрим пару таких формул:

Формула Скотта (Scott, 1979)
h=3.5sn^{-1/3}, где h - длина интервала, s - стандартное отклонение значений ряда измерений

Формула Фридмана Диакониса (Freedman and Diaconis, 1981)
h=2(IQ)n^{-1/3}, где h - длина интервала, (IQ) - разница между верхним и нижним квартилем.

Эти формулы довольно просты и обоснованы статистической теорией, и считаются предпочтительнее формулы Стерджесса.

Калькулятор ниже использует в качестве результатов измерений результаты генератора случайных чисел, встроенного в Javascript.
Поскольку функция распределения генератора практически постоянная, случайное число, полученное от генератора, можно дополнительно модифицировать, выбрав в поле "Функция ..." что-нибудь интересное. Собственно, это позволит наблюдать более веселые графики, вместо практически прямой линии.

Помимо построения гистограммы с использованием числа классов, полученных по формуле Стерджесса, строятся гистограммы с числом классов по Скотту и Фридману/Диаконису, а также с числом классов, произвольно заданных пользователем.

Конечно, практического применения в этом калькуляторе никакого, но зато можно посмотреть на разницу в числе классов и внешний вид гистограммы.

 Формула Стерджесса и другие способы определения числа групп при построении гистограммы
  1.  0.12345678901234567890 
  2. Рассчитать
    1. Число классов по Стерджессу: 
    2. Группировка с использованием формулы Стерджесса:
    3. Среднее: 
    4. Стандартное отклонение: 
    5. Число классов по Скотту: 
    6. Скотт:
    7. Первая квартиль: 
    8. Третья квартиль: 
    9. Число классов по Фридману/Диаконису: 
    10. Фридман/Диаконис:
    11. Свое число классов: 
    12. Группировка с использованием своего числа классов:



Материал доступен на условиях Creative Commons Attribution/Share-Alike License 3.0 (Unported) Creative Commons Attribution/Share-Alike License 3.0 (Unported)
 

Комментарии

  1. Защита от спама
  2. Отправить комментарий
  1. Калькуляторы на эту тему
  2. Аналитические показатели динамики
  3. Коэффициент корреляции Пирсона
  4. Гистограмма
  5. Частотный анализ текста. Пример написания калькулятора
  6. Изменение цен по субъектам РФ с 2000 по 2007 годы
  1. Реклама