Гистограмма—ArcGIS Pro | Документация
Гистограмма визуально представляет распределение непрерывной числовой переменной, при котором измеряется частота появления в наборе данных сходных значений. По оси х откладываются числовые значения, которые разбиты на диапазоны или интервалы. Каждому диапазону соответствует столбец гистограммы; ширина столбца соответствует величине интервала, а высота представляет собой количество элементов в наборе данных, значения которых попадают в этот интервал. Понимание распределения данных – это важный момент в процессе их изучения.
Переменная
Для построения гистограммы необходима одна непрерывная Числовая переменная по оси x.
Преобразование
Некоторые аналитические методы интерполяции требуют нормального распределения данных. Если данные сдвинуты (распределение несимметрично), то может понадобиться преобразовать данные к нормальному распределению. Гистограммы позволяют вам оценить эффект логарифмического преобразования и преобразования по методу квадратного корня на распределение данных. Для информации вы можете добавить график нормального распределения поверх вашей гистограммы, щелкнув отметку Показать нормальное распределение на панели Свойства диаграммы.
Логарифмическое преобразование
Логарифмическое преобразование часто используется, когда данные смещены в положительном направлении и присутствует мало очень больших значений. Если эти большие значения есть в вашем наборе данных, логарифмическое преобразование поможет сделать дисперсию более постоянной и приблизить распределение данных к нормальному.
Например, распределение со смещением в положительную сторону на диаграмме слева трансформировано в нормальное распределение с использованием логарифмического преобразования на диаграмме справа:
Логарифмическое преобразование можно применять только к значениям больше нуля.
Преобразование по методу квадратного корня
Преобразование по методу квадратного корня похоже на логарифмическое тем, что уменьшает правое смещение набора данных.. В отличие от логарифмических преобразований, преобразования по методу квадратного корня могут применяться к нулевым значениям.
Преобразование преобразование по методу квадратного корня можно применять только к значениям больше или равно нулю.
Количество бинов
Количество диапазонов по умолчанию соответствует квадратному корню из общего количества записей в наборе данных. Это можно настроить, изменив значение параметра Бины на вкладке Данные панели Свойства диаграммы. Изменение количества столбцов позволяют увидеть более или менее детальную структуру ваших данных.
Статистика
Несколько описательных статистических данных вычисляются и отображаются в виде вертикальных линий на гистограммах. Среднее и медиана отображаются каждое одной линией, по одному стандартному отклонению от среднего (выше и ниже) отображается двумя линиями. Вы можете щелкнуть эти элементы в легенде диаграммы для включения или выключения их.
Таблица Статистика, которая отображается на вкладке Данные панели Свойства диаграммы, содержит следующую статистику для выбранного числового поля:
- Среднее
- Медиана
- Среднеквадратическое отклонение
- Число
- Минимум
- Максимум
- Сумма
- Значения NULL
- Асимметрия
- Эксцесс
Если исходный слой диаграммы содержит набор элементов, то в таблице статистики будет один столбец, отображающий статистику для всего набора данных, и один столбец со статистикой только для набора элементов.
Таблица статистики также содержит элементы управления для включения и выключения линий среднего, медианы и стандартного отклонения гистограмм и изменения их цвета.
Щелкните правой кнопкой мыши таблицу статистики и выберите команду, чтобы Копировать таблицу, Копировать строку или Копировать значение в буфер обмена. Это позволит копировать и вставлять статистику из панели Свойства диаграммы в другие окна или приложения.
Оси
Границы по оси Y
Границы по оси Y устанавливаются в соответствии с диапазоном данных по оси Y. Эти значения можно изменить, вручную введя нужные граничные значения по оси. Настройки границ оси можно использовать для сохранения масштаба согласованности диаграммы для сравнения. Щелчок на значке сброса вернет граничные значения оси к установке по умолчанию.
Числовой формат
Вы можете отформатировать способ отображения числовых значений оси, указав категорию форматирования или задав пользовательский формат. Например, $#,### можно использовать как строку пользовательского формата для отображения денежных значений.
Оформление
Заголовки и описание
Диаграммам и осям присваиваются названия по умолчанию на основе имен переменных и типа диаграммы. Эти значения можно редактировать на вкладке Общие панели Свойства диаграммы. Также для диаграммы можно ввести Описание, которое представляет из себя текстовый блок, появляющийся в нижней части окна диаграммы.
Цвет
Цвет бинов гистограммы можно изменить с помощью палитры цветов в разделе Бины во вкладке Данные панели Свойства диаграммы.
Руководства
Направляющие или диапазоны могут быть добавлены на диаграммы для ориентировки или как способ выделить важнейшие значения. Чтобы добавить новые направляющие, на вкладке Направляющие панели Свойства диаграммы и щелкните Добавить направляющую. Чтобы нарисовать линию, введите Значение, где вы хотите ее отобразить. Для создания диапазона введите значение до. Дополнительно можно добавить текст к направляющей, указав Подпись.
Пример
Создайте гистограммы для отображения распределения плотности населения по группам населения г. Вашингтон (США).
- Число – плотность населения
Отзыв по этому разделу?
Представление данных в виде гистограммы
Чтобы создать гистограмму, сделайте следующее:
-
Введите данные в электронную таблицу.
-
Выделите данные.
-
В зависимости от используемой версии Excel выполните одно из указанных ниже действий.
-
Excel 2016: на вкладке Вставка щелкните значок Вставить гистограмму или линейчатую диаграмму, а затем выберите нужный тип гистограммы.
Excel 2013: на вкладке Вставка щелкните значок Вставить гистограмму, а затем выберите нужный тип гистограммы.
-
Excel 2010 и Excel 2007: на вкладке Вставка щелкните значок Гистограмма, а затем выберите нужный тип гистограммы.
Вы можете при необходимости отформатировать диаграмму. Ниже описаны некоторые варианты.
Примечание: Перед применением форматирования нужно щелкнуть диаграмму.
-
Чтобы изменить макет диаграммы, щелкните Конструктор > Макет диаграммы и выберите макет.
-
Чтобы изменить стиль диаграммы, щелкните Конструктор > Стили диаграмм и выберите стиль.
-
Чтобы применить другой стиль фигуры, щелкните Формат > Стили фигур и выберите стиль.
Примечание: Стили фигур отличаются от стилей диаграмм. Стиль фигуры — это форматирование, применяемое к границе диаграммы, а стиль диаграммы — это форматирование, которое применяется ко всей диаграмме.
-
Чтобы применить различные эффекты, выберите Формат > Эффекты фигуры и выберите нужный вариант, например Рельеф или Свечение, и его параметры.
-
Чтобы применить тему, щелкните Разметка страницы > Темы и выберите тему.
Чтобы изменить форматирование определенного компонента диаграммы (например, вертикальной оси (значений), горизонтальной оси (категорий) или области диаграммы), щелкните Формат, выберите компонент в раскрывающемся списке Элементы диаграммы, щелкните Формат выделенного фрагментаи внесите необходимые изменения. Повторите это действие для каждого компонента, который вы хотите изменить.
Примечание: Если вы хорошо знакомы с диаграммами, вы также можете щелкнуть правой кнопкой мыши определенную область на диаграмме и выбрать параметр форматирования.
-
Чтобы создать гистограмму, сделайте следующее:
-
В окне сообщения выберите Вставка > Диаграмма.
-
В диалоговом окне Вставка диаграммы щелкните Гистограмма, выберите нужный тип гистограммы и нажмите кнопку ОК.
В разделенном окне откроется лист Excel с примером данных.
-
Замените их собственными данными.
Примечание: Если на диаграмме не отображаются данные листа, перетащите вертикальные линии вниз до последней строки таблицы. -
При необходимости вы можете сохранить лист:
-
Щелкните значок Измените данные Microsoft Excel на панели быстрого доступа.
Лист откроется в Excel.
-
Сохраните лист.
Совет:
Вы можете при необходимости отформатировать диаграмму. Ниже описаны некоторые варианты.
Примечание: Перед применением форматирования нужно щелкнуть диаграмму.
-
Чтобы изменить макет диаграммы, щелкните Конструктор > Макет диаграммы и выберите макет.
-
-
Чтобы применить другой стиль фигуры, щелкните Формат > Стили фигур и выберите стиль.
Примечание: Стили фигур отличаются от стилей диаграмм. Стиль фигуры — это форматирование, применяемое к границе диаграммы, а стиль диаграммы — это форматирование, которое применяется ко всей диаграмме.
-
Чтобы применить различные эффекты, выберите
-
Чтобы изменить форматирование определенного компонента диаграммы (например, вертикальной оси (значений), горизонтальной оси (категорий) или области диаграммы), щелкните Формат, выберите компонент в раскрывающемся списке Элементы диаграммы, щелкните Формат выделенного фрагментаи внесите необходимые изменения. Повторите это действие для каждого компонента, который вы хотите изменить.
-
Гистограмма
Гистограмма отображает данные, собранные объектом Данные гистограммы (на одной гистограмме могут одновременно отображаться данные сразу нескольких таких объектов). Ось X всегда масштабируется таким образом, чтобы вместить все данные. Масштаб по оси Y также выбирается автоматически, таким образом, чтобы высота самого высокого столбца была равна высоте области диаграммы.
При необходимости на гистограмме могут быть отображены функция плотности вероятности, функция распределения и линия среднего значения.
Функция плотности вероятности отображается в виде набора вертикальных столбцов, каждый из которых соответствует определенному интервалу. Высота столбца пропорциональна плотности (или количеству) значений, попавших в этот интервал.
Если объектом сбора данных гистограммы вычисляются процентили, и заданы значения как нижнего, так и верхнего доверительного интервалов, то столбцы, содержащие “рисковые значения” (значения, удовлетворяющие уравнению Интегральная функция распределения(значение) 100 – верхний процентиль) будут отрисовываться заданными цветами.
Имя – Имя гистограммы. По этому имени гистограмма будет доступна из кода.
Исключить – Если опция выбрана, то гистограмма будет исключена из модели.
Отображается на верхнем агенте – Если опция выбрана, то гистограмма будет видна на презентации типа агента, в который будет вложен данный агент.
Отображать плотность вер-ти – Если опция выбрана, то на гистограмме будет отображаться плотность вероятности.
Отображать ф-ю распределения – Если опция выбрана, то на гистограмме будет отображаться функция распределения.
Отображать среднее – Если опция выбрана, то на гистограмме будет нарисована вертикальная линия, соответствующая среднему значению.
– С помощью этой кнопки вы можете добавить новый объект данных гистограммы на гистограмму. Щелкнув по ней, вы откроете новую секцию свойств, в которой вы должны будете задать свойства нового объекта данных:
Заголовок – Заголовок этого объекта данных, который будет отображаться в легенде гистограммы.
Данные – Имя этого объекта данных гистограммы.
Цвет плотности вер-ти – [Виден, если установлен флажок Отображать плотность вер-ти] Цвет, которым на гистограмме будет отображаться плотность вероятности.
Цвет линии ф. распред. – [Виден, если установлен флажок Отображать ф-ю распределения] Цвет, которым на гистограмме будет отображаться интегральная функция распределения.
Цвет линии среднего – [Виден, если установлен флажок Отображать среднее] Цвет, которым на гистограмме будет отображаться линия среднего значения.
Толщина линии ф-ии распред. и среднего – [Виден, если установлен флажок Отображать ф-ю распределения или Отображать среднее] Толщина линии интегральной функции распределения и линии среднего значения.
Цвет нижнего % – Цвет, которым будет отображаться плотность вероятности слева от нижнего процентиля.
Цвет верхнего % – Цвет, которым будет отображаться плотность вероятности справа от верхнего процентиля.
Чтобы удалить объект данных с гистограммы, щелкните мышью по кнопке внизу этой секции свойств. Используйте кнопки и , чтобы изменять порядок расположения элементов данных.
Обновлять данные автоматически — Если опция выбрана, то гистограмма будет производить обновление значений отображаемых на ней объектов данных с периодичностью, указанной в поле Период. Так же здесь вы можете выбрать, хотите ли вы Использовать модельное время, чтобы задать Время первого обновления, или вы хотите Использовать календарные даты, чтобы задать Дату обновления.
Не обновлять данные автоматически — Если опция выбрана, то гистограмма не будет самостоятельно производить обновление значений отображаемых на ней объектов данных.
Относительная ширина столбцов – С помощью данного бегунка вы можете задавать суммарную ширину оснований столбцов (в процентах, относительно соответствующей размерности гистограммы, 100% — максимум, 50% — половина и т.д.).
Метки по оси Y – С помощью данного выпадающего списка вы можете задать расположение меток, отображаемых для оси Y, относительно области гистограммы (Слева или Справа). Если вы не хотите, чтобы у оси Y отображались метки, выберите из списка Нет.
Цвет фона – Фоновый цвет диаграммы.
Цвет границы – Цвет, которым будет отображаться граница диаграммы.
Цвет меток – Цвет, которым будут отображаться метки по оси Y. Если вы не хотите, чтобы метки были видны, выберите Нет цвета.
Цвет сетки – Цвет, которым будет отображаться сетка гистограммы. Если вы не хотите, чтобы сетка была видна, выберите Нет заливки.
Уровень – Уровень, на котором расположена эта гистограмма.
X – X-координата верхнего левого угла диаграммы.
Y – Y-координата верхнего левого угла диаграммы.
Ширина – Ширина диаграммы (в пикселах).
Высота – Высота диаграммы (в пикселах).
Легенда – Если опция выбрана, то у данной гистограммы будет отображаться легенда. Вы можете управлять местоположением легенды относительно области диаграммы с помощью группы кнопок Расположение. Размер области, выделенной под легенду, задается с помощью элемента управления Ширина (или Высота, в зависимости от того, какое задано Расположение легенды). Также вы можете изменить Цвет текста легенды.
Свойства, расположенные в секции Область диаграммы, задают визуальные свойства области диаграммы:
Смещение по оси X – Смещение области диаграммы по оси X относительно левой границы всей области, выделенной в графическом редакторе под диаграмму.
Смещение по оси Y – Смещение области диаграммы по оси Y относительно верхней границы всей области, выделенной в графическом редакторе под диаграмму.
Ширина – Ширина области диаграммы (в пикселах).
Высота – Высота области диаграммы (в пикселах).
Цвет фона – Фоновый цвет области диаграммы.
Цвет границы – Цвет, которым будет отображаться граница области диаграммы.
Видимость – Видимость диаграммы. Диаграмма будет видна, если заданное здесь выражение будет истинно (true), в противном случае диаграмма отображаться не будет.
Количество – Количество экземпляров данной диаграммы. Если вы оставите это поле пустым, то будет создана только одна такая диаграмма.
Действие при изменении выделения
– Код, который будет выполняться, когда пользователь выделит на диаграмме какой-то один (или несколько) элемент(ов) данных. Код будет вызываться как в том случае, если пользователь выделит элементы, щелкнув мышью по их заголовкам в легенде, так и в
том случае, если он выделит их программно путем вызова метода
selectItem().
Вы можете использовать в этом коде две переменные:
int[] selectedIndices
— номера выделенных в текущий момент элементов данных.
boolean programmatically
— определяет, были ли элементы выделены программно (true) или нет (false).
Отображать имя – Если опция выбрана, то имя фигуры будет отображаться в графическом редакторе.
Данные гистограммы
Данные гистограммыОбъект
Данные гистограммы:
- Выполняет обычный статистический анализ добавляемых значений (вычисляет среднее значение, минимум, максимум, дисперсию, средний доверительный интервал, и т.д.).
- Производит построение функции плотности распределения вероятности и интегральной функции распределения на фиксированном или автоматически выбирающемся наборе интервалов.
- Вычисляет верхний и нижний процентили (или рисковые значения с заданным процентом) с отклонением, равным ширине интервала.
Процентили
В том случае, если вычисляется функция распределения, вы можете также задать процентили. Вы можете задавать любые значения нижнего и верхнего процентилей, например, 25 и 75, что будет соответствовать нижней и верхней квартилям. В этом случае будут вычисляться значения, ниже которых лежат 25 % и 75 % значений соответственно.Собранная статистика может быть отображена с помощью Гистограммы.
Чтобы создать объект сбора данных гистограммы- Перетащите элемент Данные гистограммы с палитры Статистика на диаграмму типа агентов (или эксперимента).
- Перейдите в панель Свойства.
- В поле Значение введите выражение, которое будет динамически вычисляться во время выполнения модели, чтобы получить новое измерение, которое будет добавлено в объект сбора данных.
- Если вы хотите, чтобы вычислялась интегральная функция распределения, установите флажок Считать CDF.
- Если вы хотите, чтобы считались процентили, установите флажок Вычислять процентили и задайте значения нижнего и верхнего доверительных интервалов в полях Нижний и Верхний соответственно.
- Теперь нужно задать интервалы гистограммы. Укажите, хотите ли вы явно задать интервалы, либо использовать возможность автоматического формирования интервалов самой гистограммой, в секции свойств Диапазон значений.
- Если вы знаете предполагаемые минимальное и максимальное значения измеряемых данных, то выберите в секции Диапазон значений опцию Фиксированный и задайте интервалы гистограммы, статически задав границы диапазона значений гистограммы в полях Минимум и Максимум, а количество интервалов в поле Кол-во интервалов.
- Если же вы не знаете точный диапазон значений, которые будут добавляться на гистограмму, то вам нужно будет использовать не фиксированные, а адаптивные интервалы. В этом случае гистограмма не будет требовать от вас задания диапазона значений (вам нужно будет только задать количество интервалов и начальную ширину интервала). Вместо этого, она автоматически будет изменять интервалы в соответствии с добавляемыми значениями (удваивать их до тех пор, пока все значения не попадут в новый диапазон). Для этого выберите опцию Выбирается автоматически и задайте Начальный размер интервала.
Свойства
- Основные свойства
-
Имя – Имя объекта сбора данных. По этому имени объект будет доступен из кода.
Отображать имя – Если опция выбрана, то имя объекта сбора данных будет отображаться в графическом редакторе.
Исключить – Если опция выбрана, то объект сбора данных будет исключен из модели.
Видимость – Если опция выбрана, то объект сбора данных будет отображаться на презентации во время выполнения модели.
Значение – Выражение, которое будет динамически вычисляться во время выполнения модели, чтобы получить новое измерение, которое будет добавлено в объект сбора данных.
Кол-во интервалов – Количество интервалов этой гистограммы.
Считать CDF – Если опция выбрана, то для этой гистограммы будет вычисляться интегральная функция распределения.
Вычислять процентили – Если опция выбрана, то будут вычисляться процентили. В этом случае вам нужно будет задать значения нижнего и верхнего доверительных интервалов в полях Нижний и Верхний соответственно.
Вести журнал в базе данных – Если опция выбрана, то данные, собранные этим элементом, будут добавлены в журнал выполнения модели histograms_log (если в свойствах базы данных выбрана опция вести журналы).
- Диапазон значений
-
Здесь вы можете выбрать, как будут формироваться интервалы этой гистограммы. Если вы знаете предполагаемые минимальное и максимальное значения измеряемых данных, то вы можете выбрать опцию Фиксированный и задать границы диапазона значений гистограммы в полях Минимум и Максимум. Если нет, то мы рекомендуем выбрать опцию Выбирается автоматически — в этом случае от вас не требуется задавать диапазон значений — гистограмма будет автоматически изменять интервалы при выходе добавляемых значений за пределы изначально выбранного диапазона значений.
- Обновление данных
-
Обновлять данные автоматически — Если опция выбрана, то новые значения будут добавляться в набор данных автоматически с периодичностью, указанной в поле Период. Так же здесь вы можете выбрать, хотите ли вы Использовать модельное время, чтобы задать Время первого обновления, или вы хотите Использовать календарные даты, чтобы задать Дату обновления.
Не обновлять данные автоматически — Если опция выбрана, то набор данных не будет обновляться автоматически. В этом случае вам нужно будет самостоятельно добавлять новые значения в набор данных, как это описано здесь.
Методы для работы с собранными данными
Собираемая объектом статистика доступна с помощью следующих методов. Объект Данные гистограммы представлен в AnyLogic экземпляром одного из следующих классов:
HistogramSimpleData — Данные гистограммы с фиксированным минимумом, максимумом и количеством интервалов. Выходящие за пределы заданного диапазона значения регистрируются в специальных интервалах «ниже нижней границы» и «выше верхней». Этот класс предоставляет следующие методы:
double getPDFOutsideHigh() — Возвращает процент значений (значение, лежащее в пределах 0..1) , которые попали выше заданного максимума.
double getPDFOutsideLow() — Возвращает процент значений (значение, лежащее в пределах 0..1), которые попали ниже заданного минимума.
void setMinMax(double min, double max) — Полностью удаляет хранящиеся данные гистограммы и заново устанавливает диапазон интервалов.
HistogramSmartData — Данные гистограммы с фиксированным количеством интервалов, но с адаптивно настраиваемым диапазоном значений. Все значения всегда попадают в выбираемый для гистограммы диапазон значений. Этот класс предоставляет следующие методы:
double getIntervalWidth() — Возвращает текущую ширину интервала, т.e. диапазон значений, соответствующий одному интервалу (разницу минимального и максимального значений из интервала).
double getLowerBound() — Возвращает нижнюю границу покрытого интервалами диапазона значений.
Оба класса наследуют от базового класса HistogramData следующие методы, которые применимы к обоим типам гистограмм:
void add(double val)
— Добавляет в объект новое значение
val.
int count() — Возвращает количество значений, хранимых в объекте.
void reset() — Полностью удаляет данные, удаляет значения плотности вероятности, функции распределения и статистику.
double max() — Возвращает максимальное значение, или Double.NEGATIVE_INFINITY, если объект не хранит ни одного значения.
double mean() — Возвращает среднее значение гистограммы.
double meanConfidence() — Возвращает средний доверительный интервал для хранящихся значений. Средний доверительный интервал вычисляется исходя из предположения, что доверительная вероятность равна 95%.
double min() — Возвращает минимальное значение, или Double.POSITIVE_INFINITY, если объект не хранит ни одного значения.
double deviation() — Возвращает среднеквадратичное (стандартное) отклонение для хранящихся значений.
int getNumberOfIntervals() — Возвращает количество интервалов.
StatisticsDiscrete getStatistics() — Возвращает объект Статистика, встроенный в этот объект Данные гистограммы.
double getXMax() — Возвращает верхнюю границу диапазона значений.
double getXMin() — Возвращает нижнюю границу диапазона значений.
Плотность вероятности
double getPDF(int index) — Возвращает плотность вероятности для интервала с заданным индексом index.
double getMaxPDF() — Возвращает максимальное значение плотности вероятности по всем интервалам, т.e. максимальное количество попаданий значений в интервал, поделенное на общее количество значений.
Функция распределения
double getCDF(int index) — Возвращает функцию распределения для интервала с заданным индексом index.
void setCDFEnabled(boolean yes) — Разрешает (если в качестве аргумента передать true) или запрещает (если передать false) вычисление функции распределения.
boolean isCDFEnabled() — Проверяет, разрешено ли вычисление функции распределения. Возвращает true, если да, false — если нет.
Процентили
boolean arePercentilesEnabled() — Проверяет, разрешено ли вычисление процентилей. Возвращает true, если да, false — если нет.
void setPercentilesEnabled(boolean yes) — Разрешает (если в качестве аргумента передать true) или запрещает (если передать false) вычисление процентилей (значений данных, соответствующих заданным нижней и верхней процентным границам).
void setPercents(double low, double high)
— Задает процентные границы для вычисления процентилей.
double getPercentHigh() — Возвращает верхнее процентное значение, используемое для вычисления процентилей (1 соответствует 100%).
double getPercentLow() — Возвращает нижнее процентное значение, используемое для вычисления процентилей (1 соответствует 100%).
См. также
Обновление наборов данных
Справочник классов: Класс HistogramData
это… Что такое гистограмма: гистограмма в статистике, использование гистограмм
Добавлено в закладки: 0
Что такое гистограмма? Описание и определение понятия
Гистограмма – это один из видов диаграмм, представляющий собой графическое изображение определенных статистических показателей и величин в виде столбиков. Основанием для составления диаграммы служит количественный признак. В общем виде, Гистограмма – это ряд смежных прямоугольников, выстраивающихся в ряд на прямой линии. При этом, площадь каждого из них является пропорциональной частоте, данной величине представленной в данной совокупности.
Гистограмм (от др.-греч. черта, буква, написание) — способ графического представления табличных данных.
Гистограмма в статистике
Рассмотрим более детально термин гистограмма
В большинстве статистических расчетов имеем дело либо со случайными данными, которые получены в ходе какого-либо эксперимента (выводящиеся из файла или печатаются непосредственно в документе), либо с результатами генерации случайных чисел, которые рассмотрены в предыдущих разделах встроенными функциями, которые моделируют то или иное явление методом Монте-Карло.
Гистограммой называется график, который аппроксимирует по случайным данным плотность их распределения. При построении гистограммы область значений случайной величины (а,b> разбивают на некоторое количество bin сегментов, а затем подсчитывают процент попадания данных в каждый сегмент.
Гистограмма представляет собой столбчатой график, который построен по полученным за определенный период (к примеру, за неделю или за месяц) данным, разбиваемые на несколько интервалов; число данных, которые попадают в каждый из интервалов (частота), должно выражаться высотой столбика.
Данные для построения гистограммы собирают в течение длительного периода – недели, месяца, года и т. д.
Гистограмма – это серия столбиков одинаковой ширина, но разной высота, которая показывает рассеяние и распределения данных. Ширина столбика – это интервал в диапазоне наблюдений, высотой – количество данных, которая приходится на ту или иную часть интервала, т.е. част ость. По существу, гистограмма может отображать распределение исследуемого показателя. Гистограмме позволено оценить характер рассеивания показателя и разобираться в там, на чём следует сосредотачивать усилия пo улучшению.
- Симметричная
Большинство значений располагаются по обе стороны от центра распределение (центральной тенденции) с отклонением, которое сбалансировано по обе стороны от центра. - С наклоном
Большинство значений располагаются слева от центральная тенденции. Такому типу распределения данных может произойти, в случае когда есть естественное препятствие, или в случае сортировки данных (товары, не соответствующие определенному стандарту, должны удалятся из набора данных). - Асимметричная
На таком графике присутствует длинный “хвост” по одну сторону от центральная тенденция. По одну сторону наблюдается больше отклонений, чем по другую, указывается тем самым на то, что в течение процесса происходит сдвиг определённых переменных значений. - Двухмодальная
В двух модальном типе присутствует две вершины. Это обычно происходит,если происходит смешение двух различных групп данных (категорию невысоких людей смешивают с категорией очень высоких людей). По факту, у нас есть две гистограммы, которые объединены вместе.
Как построить гистограмму?
Чтобы построить гистограмму, нарисуйте горизонтальную и вертикальную оси. Горизонтальная ось (Х) будет отображать интервалы; вертикальная ось (Y), будет отображать частоты. Нарисуйте полоску, которая представляет собой частотность данных в каждом классе. Полоски должны соприкасаться друг с другом.
Использование гистограмм
Гистограмму используют для изображения только интервальных рядов.
Количественные соотношения некоторого показателя представлены в виде прямоугольников, площади которых пропорциональны. Чаще всего для удобства восприятия ширину прямоугольников берут одинаковую, при этом их высота определяет соотношения отображаемого параметра.
В статистике гистограмма — геометрическое изображение эмпирической функции плотности вероятности некоторой случайной величины, которое построено по выборке.
В фотографии гистограммой называют графическое представление распределения яр костей фотоснимка.
Гистограмма – это один из тех немногих способов графического представления данных, доступность и легкость восприятия которого не вызывает сомнения. Она прекрасно подходит для описания больших массивов данных, равнин как и для характеристики небольшого числового ряда.
Гистограмм называют двухмерный график, по горизонтальная ось который откладываются переменные или числовых интервалов, а по вертикальность – частота возникновения переменная (в заданном интервале). Чаще всего гистограмма составляют из прямоугольников с шириной, равной величине интервала и площадью, которая пропорциональна соответствующая частоте возникновения переменная. Другими сливами, площадь прямоугольнику соответствует количеству значения, попадающих в определенный интервал: чем большее значение, тем больше площадь – при равных значениях интервала, больший столбик будет соответствовать большему количеству значений
Мы коротко рассмотрели определение термина гистограмма, гистограмма в статистике, использование гистограмм. Оставляйте свои комментарии или дополнения к материалу.
Создание гистограмм, графиков и диаграмм с областями в PowerPoint :: think-cell
- 7.1
- Гистограмма и гистограмма с накоплением
- 7.2
- Диаграмма с группировкой
- 7.3
- 100%–диаграмма
- 7.4
- График
- 7.5
- Пределы погрешностей
- 7.6
- Диаграмма с областями 100%-диаграмма с областями
- 7.7
- Смешанная диаграмма
7.1 Гистограмма и гистограмма с накоплением
Значок в меню «Элементы»: |
В think-cell нет отличия между простыми гистограммами и гистограммами с накоплением. Если вы хотите создать простую гистограмму, введите только один ряд (одну строку) данных в таблице. Чтобы быстро ознакомиться с гистограммами, изучите пример в главе Введение в создание диаграмм.
Линейчатые диаграммы в think-cell — это просто повернутые гистограммы, которые можно использовать точно так же. Кроме того, вы можете создавать диаграммы-бабочки, размещая две линейчатые диаграммы рядом друг с другом. Для это примените функции поворота (см. раздел Поворот и переворот элементов) и масштаба (см. раздел Такой же масштаб). Затем удалите метки категории для одной из диаграмм.
Инструкции по созданию диаграммы с накоплением и группировкой см. в разделе Диаграмма с группировкой.
Чтобы изменить ширину столбца, выберите сегмент и перетащите один из маркеров к половине высоты столбца.
В подсказке отображается полученный во время перетаскивания промежуток. Чем шире столбец, тем меньше промежуток и наоборот, так как ширина диаграммы не меняется при изменении ширины столбцов. Ширина промежутка отображается как процент от ширины столбца, то есть 50 % означает, что ширина каждого промежутка равна половине ширине столбца.
Изменение ширины одного столбца приведет к изменению ширины всех других столбцов. Ширина всех столбцов всегда одинакова. Сведения о диаграмме с различной шириной столбцов, которая зависит от данных, см. в разделе Диаграмма Mekko. Сведения о том, как сделать отдельные промежутки шире, см. в разделе Промежуток между категориями.
7.2 Диаграмма с группировкой
Значок в меню «Элементы»: |
Диаграмма с группировкой — это вариант гистограммы с накоплением, в которой сегменты расположены рядом друг с другом.
Диаграмму с группировкой можно объединить с графиком, выбрав сегмент с рядом и выбрав параметр График в элементе управления типом диаграммы этого ряда.
Чтобы разместить группы сегментов рядом, можно создать диаграмму с накоплением и группировкой.
Чтобы создать диаграмму с накоплением и группировкой, выполните следующие действия.
- Вставьте диаграмму с накоплением.
- Выберите сегмент и перетащите маркер ширины столбца на половину высоты столбца, пока в подсказке не появится строка «Промежуток 0 %».
- Нажмите на базовую линию, где требуется вставить промежуток, и перетащите стрелку вправо, пока в подсказке не появится строка «Промежуток категории 1». Эти действия необходимо повторить для всех кластеров.
Если число столбиков в кластере четное, метку нельзя выровнять по центру для всего кластера. В этом случае используйте текстовое поле PowerPoint в качестве метки.
7.3 100%–диаграмма
Значок в меню «Элементы»: |
100%-диаграмма — это вариант гистограммы с накоплением, в которой все столбцы обычно дополняются до одинаковой высоты (например, до 100 %). Метки 100%-диаграммы поддерживают свойство содержимого метки, которое позволяет выбрать, будут ли отображаться абсолютные значения, проценты или и то, и другое (Содержимое меток).
С помощью think-cell можно создавать 100%-диаграммы, значения столбцов которой необязательно равно 100 %. Если итоговое значение столбца не равно 100 %, он отображается соответствующим образом. Дополнительные сведения о заполнении таблицы см. в разделе Абсолютные и относительные значения.
7.4 График
Значок в меню «Элементы»: |
График использует линии для соединения точек данных, которые относятся к одному ряду данных. Внешний вид графика определяют элементы управления схемой линий, типом линии и фигурой маркера на перемещаемой панели инструментов. Дополнительные сведения об этих элементах управления см. в разделе Форматирование и стили. Метки для точек данных по умолчанию не отображаются, но их можно включить с помощью кнопки Добавить метку точки в контекстном меню графика.
Если значения категории графика — это строго увеличивающиеся числа или даты и их можно интерпретировать таким образом в соответствии с форматом числа метки оси, тогда ось X автоматически изменится на ось значений (см. раздел Ось значений). Если используются даты, формат даты можно изменить, выбрав все метки категорий (см. раздел Множественный выбор) и введя формат в элементе управления (см. раздел Коды форматов дат). Чтобы отобразить больше меток, чем помещается по горизонтали, можно использовать поворот меток (см. раздел Поворот метки).
Горизонтальная ось может переключиться с режима категории на режим значений, только если выполняются следующие условия.
- Все ячейки категорий в таблице содержат числа, а в качестве формата ячеек Excel выбрано значение Общий или Число либо все ячейки категорий в таблице содержат даты, а в качестве формата ячеек Excel выбрано значение Дата.
- Числа или даты в ячейках категорий строго увеличиваются слева направо.
- Для оси Y не включен параметр Клетки между категориями (см. раздел Размещение оси значений). Если только это требование мешает перейти в режим оси значений, вы можете использовать параметр Сделать осью значений в контекстном меню оси, чтобы включить параметр Клетки на категориях и тем самым включить режим оси значений.
На графике также может отображаться вторая вертикальная ось значений. Дополнительные сведения см. в разделе Вторая ось.
Если выбран параметр Использовать функцию «Заполнять сверху» Excel (см. раздел Цветовая схема), цвет заливки в параметрах форматирования Excel используется следующим образом.
- Цвет заливки ячейки, содержащей имя ряда, определяет цвет линии.
- Цвет заливки ячейки каждой точки данных определяет цвет этой точки данных.
7.4.1 Сглаженные линии
Если вы хотите, чтобы линии на графике были сглажены, включите этот параметр. Сначала нажмите правой кнопкой мыши на нужную линию, а затем нажмите кнопку Преобразовать в гладкий график.
7.4.2 Интерполяция
На графиках, диаграммах с областями и 100%-диаграммах кнопку Интерполировать можно использовать для отображения диаграммы с линейной интерполяцией всех отсутствующих в ряду данных значений. На графиках интерполяцию можно включить и отключить для отдельных рядов на диаграмме. На диаграммах с областями ее можно использовать только для всей диаграммы, так как ряды расположены друг над другом.
7.5 Пределы погрешностей
Пределы погрешностей можно использовать для обозначения отклонений на графиках и диаграммах с накоплением. С помощью пределов погрешностей можно создать следующую диаграмму.
- Создайте график с тремя рядами данных. Первый ряд обозначает верхнее отклонение, второй ряд — среднее отклонение, а третий ряд — нижнее отклонение.
- Щелкните правой кнопкой мыши центральную линию и выберите Добавить пределы погрешностей в контекстном меню.
- Удалите метки для верхнего и нижнего ряда.
Выберите один из пределов погрешностей, чтобы изменить фигуру и цвет маркера для верхнего и нижнего отклонения, а также тип линии для всех пределов погрешностей. Вы также можете выбрать отдельный маркер предела погрешностей, чтобы изменить только его свойства.
При выборе предела погрешностей на каждом его конце появляется маркер. Их можно перетащить, чтобы выбрать, какие линии должны охватывать пределы погрешностей. Вы также можете отобразить интервалы вместо отклонений вокруг центрального значения, если предел погрешностей будет охватывать только две смежные линии.
7.6 Диаграмма с областями 100%-диаграмма с областями
7.6.1 Диаграмма с областями
Значок в меню «Элементы»: |
Диаграмма с областями можно представить графиком с накоплением, в котором точки данных представляют сумму значений категорий, а не отдельные значения. Внешний вид диаграмм с областями настраивается с помощью элемента управления цветовой схемой. Метки для точек данных по умолчанию не отображаются, но их можно включить с помощью кнопки Добавить метку точки в контекстном меню диаграммы с областями. Кнопку Добавить итоги в контекстном меню диаграммы с областями можно использовать для отображения меток с итоговыми значениями. Вы можете включить линейную интерполяцию, нажав кнопку Интерполировать (см. раздел Интерполяция).
Если выбран параметр Использовать функцию «Заполнять сверху» Excel (см. раздел Цветовая схема), цвет заливки Excel для ячейки метки ряда определяет цвет заливки области этого ряда.
7.6.2 100%-диаграмма с областями
Значок в меню «Элементы»: |
100%-диаграмма с областями — это вариант диаграммы с областями, в которой сумма всех значений в категории обычно представляет 100 %. Если сумма значений в категории отличается от 100 %, то диаграмма будет отображаться соответствующим образом. Дополнительные сведения об указании значении данных см. в разделе Абсолютные и относительные значения. В метках 100%-диаграммы с областями могут отображаться абсолютные значения, проценты или и то, и другое (Содержимое меток). Вы можете включить линейную интерполяцию, нажав кнопку Интерполировать (см. раздел Интерполяция).
7.7 Смешанная диаграмма
Значок в меню «Элементы»: |
Смешанная диаграмма объединяет сегменты графика и гистограммы на одной диаграмме. В разделах График и Гистограмма и гистограмма с накоплением подробно описывается использование таких сегментов.
Чтобы преобразовать ряд сегментов, просто выделите линию и выберите параметр Сегменты стека в элементе управления типом диаграммы (см. раздел Тип диаграммы). Чтобы преобразовать сегменты в линию, просто выделите сегмент ряда и выберите параметр Линия в элементе управления типом диаграммы. У источников данных графиков, диаграмм с накоплением и смешанных диаграмм одинаковый формат.
Эту функцию можно использовать в гистограммах с накоплением и группировкой, а также в графиках.
гистограмма
Алгоритм раскладывания в виде одного из значений в этой таблице.
Значение | Описание |
---|---|
|
|
| Правило Скотта оптимально, если данные близко к тому, чтобы быть нормально распределенным.(-1/3), где |
| Целочисленное правило полезно с целочисленными данными, когда это создает интервал для каждого целого числа. Это использует ширину интервала 1 и помещает границы интервала на полпути между целыми числами. Чтобы постараться не случайно создавать слишком много интервалов, можно использовать это правило, чтобы создать предел 65 536 интервалов (216). Если область значений данных больше 65536, то целочисленное правило использует более широкие интервалы вместо этого. Примечание
|
| Правило Стерджеса популярно из-за его простоты. Это выбирает количество интервалов, чтобы быть |
| Правило Квадратного корня широко использовано в других пакетах программного обеспечения. Это выбирает количество интервалов, чтобы быть |
histogram
не всегда выбирает количество интервалов с помощью этих точных формул. Иногда количество интервалов настроено немного так, чтобы границы интервала упали на «хорошие» числа.
Для данных о datetime метод интервала может быть одним из этих модулей времени:
'second' | 'month' |
'minute' | 'quarter' |
'hour' | 'year' |
'day' | 'decade' |
'week' | 'century' |
Для данных о длительности метод интервала может быть одним из этих модулей времени:
'second' | 'day' |
'minute' | 'year' |
'hour' |
Если вы задаете BinMethod
с datetime или данными о длительности, затем histogram
может использовать максимум 65 536 интервалов (или 216). Если заданная длительность интервала требует большего количества интервалов, то histogram
использует большую ширину интервала, соответствующую максимальному количеству интервалов.
Эта опция не применяется к гистограммам категориальных данных.
Примечание
Если вы устанавливаете BinLimits
NumBins
BinEdges
, или BinWidth
свойство, затем BinMethod
свойство установлено в 'manual'
.
Пример: histogram(X,'BinMethod','integers')
создает гистограмму с интервалами, сосредоточенными на целых числах.
Определение гистограммы
Что такое гистограмма?
Гистограмма — это графическое представление, которое упорядочивает группу точек данных в определенные пользователем диапазоны. По внешнему виду похожая на гистограмму, гистограмма уплотняет ряд данных в легко интерпретируемый визуальный элемент, беря множество точек данных и группируя их в логические диапазоны или интервалы.
Ключевые выводы
- Гистограмма — это представление данных в виде гистограммы, которое объединяет диапазон результатов в столбцы по оси x.
- Ось Y представляет количество или процент вхождений в данные для каждого столбца и может использоваться для визуализации распределения данных.
- В торговле гистограмма MACD используется техническими аналитиками для обозначения изменений импульса.
Как работают гистограммы
Гистограммы обычно используются в статистике, чтобы продемонстрировать, сколько переменных определенного типа встречается в определенном диапазоне. Например, перепись населения, ориентированная на демографию страны, может использовать гистограмму, чтобы показать, сколько людей находится в возрасте от 0 до 10 лет, от 11 до 20 лет, от 21 до 30 лет, от 31 до 40 лет, от 41 до 50 лет и т. Д.Эта гистограмма будет похожа на приведенный ниже пример.
Аналитик может настраивать гистограммы несколькими способами. Первый — изменить интервал между ведрами. В приведенном выше примере есть 5 сегментов с интервалом в десять. Это можно было бы изменить, например, на 10 сегментов с интервалом 5.
Другое соображение — как определить ось y. Самая простая метка — использовать частоту встречаемости, наблюдаемую в данных, но вместо этого можно также использовать процент от общего количества или плотность.
Изображение Джули Банг © Investopedia 2019Гистограммы и столбчатые диаграммы
И гистограммы, и гистограммы обеспечивают визуальное отображение с использованием столбцов, и люди часто используют эти термины как синонимы. С технической точки зрения гистограмма представляет собой частотное распределение переменных в наборе данных. С другой стороны, гистограмма обычно представляет собой графическое сравнение дискретных или категориальных переменных.
Пример: гистограмма MACD
Технические трейдеры могут быть знакомы с гистограммой расхождения конвергенции скользящих средних (MACD), популярным техническим индикатором, который показывает разницу между линией MACD и сигнальной линией.
Например, если разница между двумя линиями составляет 5 долларов, гистограмма MACD графически представляет эту разницу. Гистограмма MACD нанесена на график, чтобы трейдеру было легко определить импульс конкретной ценной бумаги.
Полоса гистограммы является положительной, когда линия MACD находится выше сигнальной линии, и отрицательной, когда линия MACD находится ниже сигнальной линии. Возрастающая гистограмма MACD указывает на увеличение восходящего импульса, в то время как убывающая гистограмма используется для сигнала нисходящего импульса.
Торговля с гистограммой MACD
Трейдеры часто упускают из виду гистограмму MACD при использовании этого индикатора для принятия торговых решений. Слабость использования индикатора MACD в его традиционном понимании, когда линия MACD пересекает сигнальную линию, заключается в том, что торговый сигнал отстает от цены. Поскольку две линии являются скользящими средними, они не пересекаются до тех пор, пока не произойдет движение цены. Это означает, что трейдеры отказываются от части этого начального движения.
Гистограмма MACD помогает решить эту проблему, генерируя более ранние сигналы входа.Трейдеры могут отслеживать длину столбцов гистограммы по мере их удаления от нулевой линии. Индикатор генерирует торговый сигнал, когда столбец гистограммы короче предыдущего бара. После того, как меньшая полоса гистограммы завершится, трейдеры открывают позицию в направлении снижения гистограммы.
Другие технические индикаторы следует использовать вместе с гистограммой MACD, чтобы повысить надежность сигнала. Более того, трейдеры должны разместить стоп-лосс, чтобы закрыть сделку, если цена ценной бумаги не изменится, как ожидалось.
Гистограмм
Гистограмма : графическое отображение данных с использованием полос разной высоты.
Это похоже на гистограмму, но гистограмма группирует числа в диапазоны .
Высота каждой полосы показывает, сколько человек попадает в каждый диапазон.
А какие диапазоны использовать — решать вам!
Пример: высота апельсиновых деревьев
Вы измеряете высоту каждого дерева в саду в сантиметрах (см)
Высота от 100 см до 340 см
Вы решаете разделить результаты на группы по 50 см:
- От 100 до чуть менее 150 см Диапазон ,
- 150 до чуть менее 200 см Диапазон ,
- и др…
Итак, дерево высотой 260 см добавляется к диапазону «250-300».
А вот результат:
Вы можете видеть (например), что существует 30 деревьев от 150 см до чуть менее 200 см высотой
(PS: вы можете создавать подобные графики, используя Make your own Histogram)
Обратите внимание, что горизонтальная ось непрерывна, как числовая линия:
Пример: Сколько растет этот щенок?
Каждый месяц вы измеряете, сколько веса набрал ваш щенок, и получаете следующие результаты:
0.5, 0,5, 0,3, -0,2, 1,6, 0, 0,1, 0,1, 0,6, 0,4
Они варьируются от -0,2 (щенок похудел в этом месяце) до 1,6
Упорядочить от наименьшего к наибольшему приросту веса:
−0,2, 0, 0,1, 0,1, 0,3, 0,4, 0,5, 0,5, 0,6, 1,6
Вы решаете разделить результаты на группы по 0,5:
- Диапазон от −0,5 до чуть ниже 0 ,
- Диапазон от 0 до чуть ниже 0,5 ,
- и др…
А вот результат:
(Нет значений от 1 до чуть ниже 1,5, но мы все равно показываем пространство.)
Диапазон каждой полосы также называется интервалом классов
В приведенном выше примере интервал каждого класса равен 0,5
Гистограммы— отличный способ показать результаты непрерывных данных, например:
- вес
- высота
- сколько времени
- и др.
Но когда данные находятся в категориях (таких как Страна или Любимый фильм), мы должны использовать гистограмму.
Гистограмма частот
Гистограмма частот — это специальный график, который использует вертикальные столбцы для отображения частот (сколько раз встречается каждый балл):
Здесь я сложил, как часто встречается 1 (2 раза), , как часто встречается 2 (5 раз) и т. Д., и показал их в виде гистограммы. |
гистограмм — понимание свойств гистограмм, что они показывают, а также когда и как их использовать
гистограммы — понимание свойств гистограмм, что они показывают, а также когда и как их использовать | Статистика ЛаэрдЧто такое гистограмма?
Гистограмма — это график, который позволяет обнаружить и показать основное частотное распределение (форму) набора непрерывных данных.Это позволяет проверять данные на предмет их основного распределения (например, нормального распределения), выбросов, асимметрии и т. Д. Пример гистограммы и необработанных данных, из которых она была построена, показаны ниже:
36 | 25 | 38 | 46 | 55 | 68 | 72 | 55 | 36 | 38 |
67 | 45 | 22 | 48 | 91 | 46 | 52 | 61 | 58 | 55 |
Как построить гистограмму из непрерывной переменной?
Чтобы построить гистограмму из непрерывной переменной, вам сначала нужно разбить данные на интервалы, называемые интервалами .В приведенном выше примере возраст , возраст разделен на интервалы, причем каждый интервал представляет собой 10-летний период, начинающийся с 20 лет. Каждая ячейка содержит количество вхождений оценок в наборе данных, содержащихся в этой ячейке. Для указанного выше набора данных частоты в каждом интервале сведены в таблицу вместе с оценками, которые способствовали увеличению частоты в каждом интервале (см. Ниже):
Бункер | Частота | Оценки включены в корзину |
20-30 | 2 | 25,22 |
30-40 | 4 | 36,38,36,38 |
40-50 | 4 | 46,45,48,46 |
50-60 | 5 | 55,55,52,58,55 |
60-70 | 3 | 68,67,61 |
70-80 | 1 | 72 |
80-90 | 0 | — |
90-100 | 1 | 91 |
Обратите внимание, что, в отличие от столбчатой диаграммы, между столбцами нет «промежутков» (хотя некоторые столбцы могут «отсутствовать», что не отражает частоты).Это связано с тем, что гистограмма представляет собой непрерывный набор данных, и поэтому в данных нет пробелов (хотя вам придется решить, округлять ли вы оценки в большую или меньшую сторону на границах бинов).
Выбор правильной ширины бункера
Нет правильного или неправильного ответа на вопрос, какой ширины должна быть корзина, но есть практические правила. Вы должны убедиться, что мусорные ведра не слишком маленькие или не слишком большие. Рассмотрим гистограмму, которую мы создали ранее (см. Выше): следующие гистограммы используют те же данные, но имеют либо гораздо меньшие, либо большие интервалы, как показано ниже:
Из гистограммы слева видно, что ширина бина слишком мала, потому что она показывает слишком много отдельных данных и не позволяет легко увидеть базовый шаблон (частотное распределение) данных.На другом конце шкалы находится диаграмма справа, где интервалы слишком велики, и мы снова не можем найти основную тенденцию в данных.
Гистограммы основаны на площади, а не высоте столбцов
На гистограмме это область полосы, которая указывает частоту появления для каждого интервала. Это означает, что высота полосы не обязательно указывает, сколько вхождений оценок было в каждой отдельной ячейке. Это произведение высоты, умноженное на ширину бункера, указывает на частоту появления в этом бункере.Одна из причин того, что высота столбцов часто неправильно оценивается как показывающая частоту, а не площадь столбца, связана с тем, что многие гистограммы часто имеют одинаково расположенные столбцы (ячейки), и в этих обстоятельствах высота бина отражает частоту.
В чем разница между столбчатой диаграммой и гистограммой?
Основное отличие состоит в том, что гистограмма используется только для отображения частоты появления оценок в непрерывном наборе данных, который был разделен на классы, называемые ячейками.С другой стороны, гистограммы могут использоваться для множества других типов переменных, включая порядковые и номинальные наборы данных.
Главная О нас Связаться с нами Положения и условия Конфиденциальность и файлы cookie © Lund Research Ltd, 2018Что такое гистограммы? Анализ и распределение частот
Ищете более качественные инструменты?
Попробуйте «Планируй-Выполняй-Учеба-Действуй» (PDSA) Plus QTools ™ Training:
Глоссарий качества Определение: гистограмма
Частотное распределение показывает, как часто встречается каждое отдельное значение в наборе данных.Гистограмма — это наиболее часто используемый график для отображения частотного распределения. Это очень похоже на гистограмму, но между ними есть важные различия. Этот полезный инструмент сбора и анализа данных считается одним из семи основных инструментов качества.
Когда использовать гистограмму
Используйте гистограмму, когда:
- Данные числовые
- Вы хотите увидеть форму распределения данных, особенно когда определяете, примерно нормально ли распределяются выходные данные процесса.
- Анализ соответствия процесса требованиям заказчика
- Анализируя, как выглядит результат процесса поставщика
- Проверка того, произошло ли изменение процесса от одного периода времени к другому
- Определение того, являются ли выходные данные двух или более процессов разными
- Вы хотите быстро и легко сообщить другим о распределении данных
Пример гистограммы
Как создать гистограмму
- Соберите не менее 50 последовательных точек данных из процесса.
- Используйте рабочий лист гистограммы для настройки гистограммы. Это поможет вам определить количество полосок, диапазон чисел, которые входят в каждую полосу, и метки для краев полос. После расчета Вт на шаге 2 рабочей таблицы, используйте свое суждение, чтобы отрегулировать его до удобного числа. Например, вы можете округлить 0,9 до 1,0. Значение W не должно иметь больше десятичных знаков, чем числа, которые вы будете отображать на графике.
- Нарисуйте оси X и Y на миллиметровой бумаге.Отметьте и подпишите ось Y для подсчета значений данных. Отметьте и пометьте ось x значениями L из рабочего листа. Пробелы между этими числами будут столбиками гистограммы. Не допускайте промежутков между стержнями.
- Для каждой точки данных отметьте один отсчет над соответствующей полосой знаком X или заштриховав эту часть полосы.
Анализ гистограмм
- Прежде чем делать какие-либо выводы из вашей гистограммы, убедитесь, что процесс работал нормально в течение исследуемого периода времени.Если какие-либо необычные события повлияли на процесс в течение периода времени гистограммы, ваш анализ формы гистограммы, вероятно, не может быть обобщен на все периоды времени.
- Проанализируйте значение формы вашей гистограммы. Ниже описаны типичные формы гистограмм и их значение.
Инструменты и шаблоны гистограмм
Шаблон гистограммы (Excel) Анализируйте частотное распределение до 200 точек данных, используя этот простой, но мощный инструмент для создания гистограмм.
Шаблон контрольного листа (Excel) Анализируйте количество дефектов на каждый день недели. Начните с отслеживания дефектов на контрольном листе. Инструмент создаст гистограмму, используя введенные вами данные.
Нормальное распределение
Распространенным паттерном является колоколообразная кривая, известная как «нормальное распределение». При нормальном или «типичном» распределении точки могут встречаться как на одной стороне среднего, так и на другой. Обратите внимание, что другие распределения похожи на нормальное распределение.Для доказательства нормального распределения необходимо использовать статистические расчеты.
Важно отметить, что «нормальный» относится к типичному дистрибутиву для конкретного процесса. Например, у многих процессов есть естественный предел с одной стороны, и они будут давать искаженные распределения. Это нормально — то есть типично — для этих процессов, даже если распределение не считается «нормальным».
Асимметричное распределение
Асимметричное распределение асимметрично, потому что естественный предел предотвращает результаты с одной стороны.Пик распределения смещен от центра к пределу, а хвост тянется от него. Например, распределение анализов очень чистого продукта будет искажено, потому что продукт не может быть чистым более чем на 100 процентов. Другими примерами естественных ограничений являются отверстия, размер которых не может быть меньше диаметра бурового долота, или время обработки вызовов, которое не может быть меньше нуля. Эти распределения называются скошенными вправо или влево в зависимости от направления хвоста.
Двухконечная или бимодальная
Бимодальное распределение похоже на спину двугорбого верблюда.Результаты двух процессов с разными распределениями объединяются в один набор данных. Например, распределение производственных данных при работе в две смены может быть двухрежимным, если каждая смена дает различное распределение результатов. Стратификация часто выявляет эту проблему.
Плато или мультимодальное распределение
Плато можно назвать «мультимодальным распределением». Объединены несколько процессов с нормальным распределением. Поскольку имеется много пиков, расположенных близко друг к другу, вершина распределения напоминает плато.
Распределение пограничных пиков
Распределение краевых пиков похоже на нормальное распределение, за исключением того, что оно имеет большой пик на одном конце. Обычно это вызвано неправильным построением гистограммы, когда данные сгруппированы в группу с пометкой «больше чем».
Расческа
При гребенчатом распределении стержни бывают попеременно высокими и короткими. Такое распределение часто является результатом округленных данных и / или неправильно построенной гистограммы.Например, данные о температуре, округленные до ближайших 0,2 градуса, будут отображать форму гребня, если ширина полосы для гистограммы составляет 0,1 градуса.
Усеченное или частичное распределение
Усеченное распределение выглядит как нормальное распределение с обрезанными хвостами. Поставщик может производить нормальное распределение материала, а затем полагаться на инспекцию, чтобы отделить то, что находится в пределах спецификации, от того, что не соответствует спецификации. Полученные в результате поставки клиенту изнутри спецификации — это сердце.
Раздача кормов для собак
В раздаче корма для собак чего-то не хватает — результаты близки к средним. Если покупатель получает такое распределение, то кому-то другому достается сердце, а покупателю остается «собачий корм» — мелочи, оставшиеся после трапезы хозяина. Несмотря на то, что то, что получает заказчик, соответствует спецификациям, продукт делится на два кластера: один находится рядом с верхним пределом спецификации, а другой — рядом с нижним пределом спецификации.Этот вариант часто вызывает проблемы в работе клиента.
Адаптировано из The Quality Toolbox, Second Edition , ASQ Quality Press.
Полное руководство по гистограммам
Что такое гистограмма?
Гистограмма — это диаграмма, на которой показано распределение значений числовой переменной в виде серии столбцов. Каждая полоса обычно охватывает диапазон числовых значений, называемых ячейкой или классом; высота столбца указывает частоту точек данных со значением в соответствующем интервале.
Гистограмма выше показывает частотное распределение времени до ответа на билеты, отправленные в вымышленную систему поддержки. Каждая полоса охватывает один час времени, а высота указывает количество билетов в каждом временном диапазоне. Мы видим, что наибольшая частота ответов была в диапазоне 2-3 часов, с более длинным хвостом справа, чем слева. Есть также холм поменьше, пик (режим) которого находится в диапазоне 13-14 часов. Если бы мы смотрели только на числовую статистику, такую как среднее значение и стандартное отклонение, мы могли бы упустить тот факт, что эти два пика способствовали общей статистике.
Когда следует использовать гистограмму
Гистограммы хороши для демонстрации общих особенностей распределения переменных набора данных. Вы можете примерно увидеть, где находятся пики распределения, является ли распределение асимметричным или симметричным, и есть ли какие-либо выбросы.
Чтобы использовать гистограмму, нам просто нужна переменная, которая принимает непрерывные числовые значения. Это означает, что различия между значениями постоянны независимо от их абсолютных значений.Например, даже если оценка за тест может принимать только целые числа от 0 до 100, пробел одинакового размера имеет одинаковое значение независимо от того, где мы находимся на шкале: разница между 60 и 65 — это те же 5 баллов. размер как разница между 90 и 95.
Информация о количестве бинов и их границах для подсчета точек данных не присуща самим данным. Вместо этого настройка интервалов — это отдельное решение, которое мы должны принять при построении гистограммы.Как будет показано ниже, способ, которым мы укажем интервалы, будет иметь большое влияние на то, как можно интерпретировать гистограмму.
Когда значение находится на границе ячейки, оно будет последовательно назначаться ячейке справа или слева (или конечным ячейкам, если оно находится в конечных точках). Какая сторона будет выбрана, зависит от инструмента визуализации; у некоторых инструментов есть возможность переопределить их настройки по умолчанию. В этой статье предполагается, что значения на границе ячейки будут присвоены ячейке справа.
Пример структуры данных
Один из способов работы инструментов визуализации с данными, которые должны быть визуализированы в виде гистограммы, — это использование обобщенной формы, подобной приведенной выше. Здесь первый столбец указывает границы интервала, а второй — количество наблюдений в каждом интервале. В качестве альтернативы некоторые инструменты могут просто работать с исходным неагрегированным столбцом данных, а затем применять к данным указанные параметры разделения при создании гистограммы.
Рекомендации по использованию гистограммы
Используйте нулевой базовый показатель
Важным аспектом гистограмм является то, что они должны быть построены с нулевым значением базовой линии.Поскольку частота данных в каждой ячейке подразумевается высотой каждой полосы, изменение базовой линии или введение разрыва в шкале исказит восприятие распределения данных.
Если отсечь 80 баллов от вертикальной оси, распределение оценок производительности будет выглядеть намного лучше, чем есть на самом деле.Выберите подходящее количество ящиков
Хотя инструменты, которые могут генерировать гистограммы, обычно имеют некоторые алгоритмы по умолчанию для выбора границ интервалов, вы, вероятно, захотите поиграть с параметрами интервалов, чтобы выбрать что-то, что является репрезентативным для ваших данных.В Википедии есть обширный раздел, посвященный практическим правилам выбора подходящего количества ящиков и их размеров, но в конечном итоге стоит использовать знания предметной области, а также изрядно поиграть с различными вариантами, чтобы узнать, что лучше всего подойдет для ваших целей.
Выбор размера ящика имеет обратную зависимость от количества ячеек. Чем больше размер ячеек, тем меньше ячеек будет для охвата всего диапазона данных. Чем меньше размер ящика, тем больше ящиков потребуется.Стоит потратить некоторое время на то, чтобы протестировать различные размеры бункеров, чтобы увидеть, как распределение выглядит в каждом из них, а затем выбрать график, который лучше всего представляет данные. Если у вас слишком много бинов, тогда распределение данных будет выглядеть грубым, и будет сложно отличить сигнал от шума. С другой стороны, при слишком малом количестве интервалов гистограмме будет не хватать деталей, необходимых для различения любого полезного паттерна из данных.
Бункеры на левой панели слишком малы, что подразумевает множество ложных пиков и впадин.Бункеры на правой панели слишком велики, что скрывает любые признаки второго пика.Выбрать интерпретируемые границы ячеек
Деления и метки обычно должны попадать на границы ячейки, чтобы лучше информировать, где находятся пределы каждой полосы. Ярлыки не нужно устанавливать для каждой полосы, но их размещение между каждыми несколькими полосами помогает читателю отслеживать ценность. Кроме того, полезно, если метки представляют собой значения с небольшим количеством значащих цифр, чтобы их было удобно читать.
Это говорит о том, что ячейки размером 1, 2, 2.5, 4 или 5 (которые делят 5, 10 и 20 равномерно) или их степени десяти — хорошие размеры для начала, как правило. Это также означает, что ячейки размером 3, 7 или 9, вероятно, будет труднее читать, и их не следует использовать, если контекст не имеет для них смысла.
Вверху: небрежное разделение данных на десять ячеек от минимального до максимального может закончиться очень странным разделением ячеек. Внизу: требуется меньше делений, если размер корзины легко проследить.Небольшое предостережение: убедитесь, что вы учитываете типы значений, которые принимает интересующая вас переменная.В случае дробного размера ячейки, например 2,5, это может быть проблемой, если ваша переменная принимает только целые значения. Бин от 0 до 2,5 имеет возможность собирать три разных значения (0, 1, 2), но следующий интервал от 2,5 до 5 может собирать только два разных значения (3, 4-5 попадут в следующий интервал). Это означает, что ваша гистограмма может выглядеть неестественно «неровной» просто из-за количества значений, которые может принимать каждая ячейка.
На рисунке выше показано распределение результатов при суммировании результата пяти бросков кубика, повторенных 20 000 раз.Ожидаемая форма колокольчика выглядит остроконечной или однобокой, когда выбираются размеры бункера, которые отражают разное количество целочисленных результатов.Распространенные ошибки
Измеряемая переменная не является непрерывной числовой
Как отмечалось в начальных разделах, гистограмма предназначена для изображения частотного распределения непрерывной числовой переменной. Когда интересующая нас переменная не соответствует этому свойству, нам нужно вместо этого использовать другой тип диаграммы: гистограмму. Переменная, которая принимает категориальные значения, например тип пользователя (например,грамм. guest, user) или location явно не являются числовыми, поэтому следует использовать гистограмму. Однако есть определенные типы переменных, которые может быть сложнее классифицировать: те, которые принимают дискретные числовые значения, и те, которые принимают значения, основанные на времени.
Переменные, которые принимают дискретные числовые значения (например, целые числа 1, 2, 3 и т. Д.), Могут быть нанесены на график с помощью гистограммы или гистограммы, в зависимости от контекста. Использование гистограммы будет более вероятно, когда есть много разных значений для построения. Когда диапазон числовых значений велик, тот факт, что значения являются дискретными, обычно не имеет значения, и непрерывное группирование будет хорошей идеей.
Одна важная вещь, о которой следует помнить, — это то, что числа являются репрезентативными для реальной стоимости. Если числа на самом деле являются кодами для категориальной или слабо упорядоченной переменной, то это признак того, что следует использовать гистограмму. Например, если у вас есть ответы на опрос по шкале от 1 до 5, значения кодировки от «категорически не согласен» до «полностью согласен», тогда частотное распределение должно быть визуализировано в виде гистограммы. Причина в том, что различия между отдельными ценностями могут быть непоследовательными: мы действительно не знаем, что значимая разница между 1 и 2 («категорически не согласен» — «не согласен») такая же, как разница между 2 и 3. («Не согласен» — «ни согласен, ни не согласен»).
Более сложный случай — это когда интересующая нас переменная зависит от времени. Когда значения соответствуют относительным периодам времени (например, 30 секунд, 20 минут), тогда имеет смысл разбиение по периодам времени для гистограммы. Однако, когда значения соответствуют абсолютному времени (например, 10 января, 12:15), различие становится размытым. Когда записываются новые точки данных, значения обычно попадают во вновь созданные ячейки, а не в существующий диапазон ячеек. Кроме того, некоторые варианты естественной группировки, например, по месяцам или кварталам, приводят к несколько неравным размерам ячеек.По этим причинам нет ничего необычного в использовании другого типа диаграммы, например гистограммы или линейной диаграммы.
Использование бункеров разного размера
Хотя до сих пор во всех примерах гистограммы были показаны с использованием интервалов одинакового размера, на самом деле это не является техническим требованием. Когда данных мало, например, когда есть длинный хвост данных, может возникнуть идея использовать бункеры большей ширины, чтобы покрыть это пространство. Однако создание гистограммы с ячейками неравного размера не является ошибкой, но для этого требуются некоторые серьезные изменения в том, как создается гистограмма, и это может вызвать множество трудностей при интерпретации.
Техническая особенность гистограмм заключается в том, что общая площадь полосок представляет собой целое, а площадь, занимаемая каждой полосой, представляет собой долю целого, содержащегося в каждой ячейке. Когда размеры бункера совпадают, это делает измерение площади стержня и высоты эквивалентным. Однако в гистограмме с переменными размерами ячеек высота больше не может соответствовать общей частоте появления. Это исказит представление о том, сколько точек находится в каждой ячейке, поскольку увеличение размера ячейки только увеличивает ее размер.На центральном графике рисунка ниже интервалы 5-6, 6-7 и 7-10 в конечном итоге выглядят так, как будто они содержат больше точек, чем на самом деле.
Слева: гистограмма с ячейками одинакового размера; В центре: гистограмма с неравными интервалами, но неправильными единицами измерения по вертикальной оси; Справа: гистограмма с неравными ячейками с высотой плотностиВместо этого по вертикальной оси необходимо кодировать частоту , плотность на единицу размера ячейки. Например, на правой панели рисунка выше корзина 2–2,5 имеет высоту около 0.32. Умножьте на ширину бина 0,5, и мы сможем оценить около 16% данных в этом бункере. Высота более широких интервалов была уменьшена по сравнению с центральной панелью: обратите внимание, как общая форма выглядит похожей на исходную гистограмму с одинаковыми размерами интервалов. Плотность — нелегкая концепция для понимания, и такой сюжет, представленный другим, незнакомым с концепцией, будет трудно интерпретировать его.
Из-за всего этого лучший совет — попробовать и просто придерживаться полностью одинаковых размеров бункеров.Наличие пустых интервалов и некоторого повышенного шума в диапазонах с разреженными данными обычно стоит повышения интерпретируемости вашей гистограммы. С другой стороны, если есть неотъемлемые аспекты переменной, которые должны быть нанесены на график, которые предполагают неравные размеры ячеек, то вместо использования гистограммы с неравномерными ячейками вам может быть лучше использовать гистограмму.
Общие параметры гистограммы
Абсолютная частота в зависимости от относительной частоты
В зависимости от целей вашей визуализации вы можете захотеть изменить единицы на вертикальной оси графика как абсолютную частоту или относительную частоту.Абсолютная частота — это просто естественное количество появлений в каждом интервале, тогда как относительная частота — это пропорция появлений в каждом интервале. Выбор единиц оси будет зависеть от того, какие виды сравнений вы хотите выделить при распределении данных.
Преобразуя первый пример в относительную частоту, гораздо проще сложить первые пять полосок и обнаружить, что примерно на половину заявок отвечает в течение пяти часов.Отображение неизвестных или отсутствующих данных
На самом деле это , а не , но его стоит рассмотреть, когда дело доходит до настройки ваших графиков.Если в строке данных отсутствует значение интересующей переменной, оно часто пропускается в подсчете для каждой ячейки. Если важно показать количество пропущенных или неизвестных значений, вы можете объединить гистограмму с дополнительной полосой, которая отображает частоту этих неизвестных. При построении этого столбца рекомендуется разместить его на оси, параллельной основной гистограмме, и другим нейтральным цветом, чтобы точки, собранные на этом столбце, не были перепутаны с числовым значением.
Сюжеты по теме
Гистограмма
Как отмечалось выше, если интересующая нас переменная не является непрерывной и числовой, а дискретна или категориальна, то вместо этого нам понадобится гистограмма. В отличие от гистограммы, столбцы на гистограмме обычно имеют небольшой промежуток между собой: это подчеркивает дискретный характер отображаемой переменной.
Линейный график
Если у вас есть групповые числовые данные, но вы хотите, чтобы вертикальная ось вашего графика передавала что-то, кроме частотной информации, вам следует обратить внимание на использование линейной диаграммы.Вертикальное положение точек на линейной диаграмме может отображать значения или статистические сводки второй переменной. Когда линейная диаграмма используется для изображения частотных распределений, таких как гистограмма, она называется частотным многоугольником .
Кривая плотности
Кривая плотности или оценка плотности ядра (KDE) — это альтернатива гистограмме, которая дает каждой точке данных непрерывный вклад в распределение. На гистограмме вы можете представить себе каждую точку данных как переливание жидкости из ее значения в ряд цилиндров ниже (бункеры).В KDE каждая точка данных добавляет небольшой кусок объема вокруг своего истинного значения, который складывается по точкам данных для создания окончательной кривой. Форма объема — это «ядро», и существует безграничный выбор. Из-за огромного количества опций при выборе ядра и его параметров кривые плотности обычно являются областью программных средств визуализации.
Толстыми черными штрихами обозначены точки данных, которые влияют на гистограмму (слева) и кривую плотности (справа).Обратите внимание, как каждая точка вносит небольшую колоколообразную кривую в общую форму.Коробчатый сюжет и сюжет для скрипки
Гистограммы хорошо показывают распределение одной переменной, но довольно сложно провести сравнение между гистограммами, если мы хотим сравнить эту переменную между разными группами. Одним из возможных решений для двух групп является построение гистограмм двух групп подряд. Специфической для домена версией этого типа графика является пирамида населения , которая отображает возрастное распределение страны или другого региона для мужчин и женщин в виде последовательных вертикальных гистограмм.
Однако, если у нас есть три или более групп, последовательное решение не сработает. Одним из решений может быть создание фасетных гистограмм, построение по одной для каждой группы в строке или столбце. Другой альтернативой является использование другого типа сюжета, такого как коробчатый сюжет или сюжет для скрипки. Оба этих типа графиков обычно используются, когда мы хотим сравнить распределение числовой переменной по уровням категориальной переменной. По сравнению с фасетными гистограммами эти графики торгуют точным отображением абсолютной частоты для более компактного относительного сравнения распределений.
Как довольно распространенный тип визуализации, большинство инструментов, способных создавать визуализации, имеют гистограмму в качестве опции. Если гистограмма недоступна, гистограмма должна быть доступна в качестве близкого заменителя. Создание гистограммы может потребовать немного больше работы, чем другие базовые типы диаграмм, из-за необходимости тестирования различных вариантов разбиения, чтобы найти лучший вариант. Однако эти усилия часто того стоят, поскольку хорошая гистограмма может быть очень быстрым способом точной передачи общей формы и распределения переменной данных.
Гистограмма — это один из множества различных типов диаграмм, которые можно использовать для визуализации данных. Узнайте больше из наших статей об основных типах диаграмм, о том, как выбрать тип визуализации данных, или просмотрев полную коллекцию статей в категории диаграмм.
Статистика: Сила из данных! Типы графиков: гистограммы и гистограммы
Архивный контент
Информация, помеченная как архивная, предназначена для справочных, исследовательских или учетных целей.Он не подпадает под действие веб-стандартов правительства Канады и не изменялся и не обновлялся с момента его архивирования. Свяжитесь с нами, чтобы запросить формат, отличный от доступных.
Гистограмма — популярный инструмент построения графиков. Он используется для суммирования дискретных или непрерывных данных, измеренных в интервальной шкале. Его часто используют для иллюстрации основных особенностей распределения данных в удобной форме. Гистограмма делит диапазон возможных значений в наборе данных на классы или группы.Для каждой группы строится прямоугольник с базовой длиной, равной диапазону значений в этой конкретной группе, и площадью, пропорциональной количеству наблюдений, попадающих в эту группу. Это означает, что прямоугольники будут нарисованы неодинаковой высоты. Гистограмма выглядит как вертикальная гистограмма, но когда переменные непрерывны, между столбцами нет промежутков. Однако, когда переменные дискретны, между полосами следует оставлять промежутки. Рисунок 1 — хороший пример гистограммы.
Вертикальная гистограмма и гистограмма различаются следующим образом:
- На гистограмме частота измеряется областью столбца.
- На вертикальной гистограмме частота измеряется высотой полосы.
Характеристики гистограммы
Обычно гистограмма имеет столбцы одинаковой ширины, хотя это не тот случай, когда интервалы классов различаются по размеру. Выбор подходящей ширины полосок для гистограммы очень важен.Как вы можете видеть в приведенном выше примере, гистограмма состоит просто из набора вертикальных полос. Значения изучаемой переменной измеряются в арифметической шкале по горизонтальной оси абсцисс. Полосы имеют одинаковую ширину и соответствуют равным интервалам классов, а высота каждой полоски соответствует частоте класса, который она представляет.
Гистограмма используется для переменных, значения которых являются числовыми и измеряются в интервальной шкале. Обычно он используется при работе с большими наборами данных (более 100 наблюдений).Гистограмма также может помочь обнаружить любые необычные наблюдения (выбросы) или любые пробелы в данных.
Гистограммы
Гистограмма или многоугольник частот — это граф, образованный соединением средних точек вершин столбцов гистограммы. Эти графики используются только при отображении данных из непрерывных переменных, показанных на гистограмме.
Гистограмма сглаживает резкие изменения, которые могут появиться на гистограмме, и полезна для демонстрации непрерывности изучаемой переменной.Рисунки 2 и 3 являются хорошими примерами гистограмм.
В отличие от рисунка 2, на этой гистограмме есть промежутки между полосами. Просто взглянув на эту иллюстрацию, читатель может сразу сказать, что пробелы означают, что переменные дискретны. Таким образом, гистограммы помогают читателям определить, какой тип переменных использовался.
Гистограмма | Введение в статистику
Что такое гистограмма?
Гистограмма показывает форму значений или распределение непрерывной переменной.
Как используются гистограммы?
Гистограммы помогают увидеть центр, разброс и форму набора данных. Вы также можете использовать их как визуальный инструмент для проверки нормальности. Гистограммы — один из семи основных инструментов статистического контроля качества.
О чем следует подумать?
Гистограммы — отличный способ оценки данных. Их можно использовать для проверки данных на наличие экстремальных значений или выбросов, а также для понимания распределения ваших данных. Распределение переменной важно понимать при выборе подходящих инструментов статистического анализа.
Гистограммы показывают форму данных
Гистограммы показывают форму ваших данных. Горизонтальная ось показывает ваши значения данных, где каждая полоса включает диапазон значений. Вертикальная ось показывает, сколько точек в ваших данных имеют значения в указанном диапазоне для полосы. На гистограмме на рисунке 1 столбцы показывают количество значений в каждом диапазоне. Например, первая полоса показывает количество значений от 30 до 35.
Гистограмма показывает, что центр данных находится где-то около 45, а разброс данных составляет примерно от 30 до 65.Он также показывает форму данных в виде насыпи. Эта форма является визуальным признаком того, что данные, скорее всего, относятся к нормальному распределению.
В чем разница между гистограммами и гистограммами?
Ключевое различие между гистограммами и столбчатыми диаграммами — это тип данных, которые отображаются на графике. Гистограммы используются с непрерывными данными, а гистограммы — с категориальными или номинальными данными.
Гистограммы не имеют промежутков между столбиками. Полосы представляют количество значений, встречающихся в диапазоне, указанном на горизонтальной оси.На гистограммах могут быть промежутки между столбцами. Полоски представляют измеренные значения для каждой категории.
Как создать гистограмму?
Для создания гистограммы необходимо определить диапазон значений данных для каждого столбца. Диапазоны столбцов называются интервалами. В большинстве случаев бункеры имеют одинаковый размер. При равных ячейках высота полос показывает частоту значений данных в каждой ячейке. Например, чтобы создать гистограмму возраста в годах, вы можете выбрать интервалы по десятилетиям (0–10, 11–20 и т. Д.).Высота столбца показывает количество людей в каждом десятилетии.
При использовании программного обеспечения бункеры определяются программой. Однако некоторые программные инструменты позволяют изменять количество ячеек и начальных точек ячеек, что позволяет исследовать и лучше понимать свои данные.
На рисунке 2 показаны те же данные, что и на рисунке 1, но с большим количеством полосок. Вы по-прежнему можете видеть центр, разворот и форму данных. Однако общую форму увидеть сложнее, чем на первом рисунке.
На рисунке 3 показаны те же данные, что и на рисунке 1, но только с тремя полосами или ячейками. Намного труднее увидеть центр, форму и разброс данных.
Анимация ниже показывает, как использовать JMP и его инструмент захвата для изучения изменяющихся границ бункера для данных, показанных на рисунках 1-3.
Вы можете изменить значения осей и приращения осей, чтобы исследовать данные, даже если ваше программное обеспечение не позволяет вам исследовать в интерактивном режиме.
Каким образом наблюдаются экстремальные значения данных на гистограммах
На гистограммы влияют экстремальные значения или выбросы.На рисунках 5 и 6 показан набор данных с исключенным и включенным выбросом.
На рисунках выше обе гистограммы имеют масштаб по горизонтальной оси от 20 до 90. Большинство программ будет отображать гистограмму без выброса в меньшем масштабе. На рисунке 6 используется та же шкала, чтобы показать, как выбросы появляются на гистограмме, которая выше остальных значений данных. У вас также могут быть выбросы ниже остальных значений данных или выбросы на обоих концах ваших данных.
Как наблюдается асимметрия гистограмм
Не все гистограммы симметричны.Гистограммы отображают распределение ваших данных, и существует много распространенных типов распределений. Например, данные часто несимметричны. В статистике это называется искаженными данными. Например, время автономной работы телефона часто искажается, при этом у некоторых телефонов время автономной работы намного больше, чем у большинства.
На рисунке 7 показаны почти симметричные данные. Если подумать, как сложить участок пополам посередине, две стороны будут примерно одинаковыми.
Гистограмма на рисунке 8 показывает несимметричные данные.Он смещен влево, с более длинным левым хвостом значений, уходящим влево. Статистика асимметрии отрицательная.
Гистограмма на рисунке 9 также показывает несимметричные данные. Он смещен вправо с более длинным правым хвостом значений, уходящим вправо. Статистика асимметрии положительная.
Как группы данных отображаются на гистограммах?
Если вы знаете, что в ваших данных есть группы, то построение гистограмм для каждой группы может быть более значимым, чем построение одной гистограммы.Однако, если вы не уверены или не знаете, существуют ли группы, гистограмма может выявить закономерность, которая приведет вас к обнаружению групп в ваших данных
Например, график на Рисунке 10 содержит данные для мужчин и женщин. Мы думаем, что данные для мужчин и женщин могут отличаться.
На этом графике, имеющем форму холма, показаны данные с центром около 22 и разбросом от примерно 7 до примерно 32.
На рисунке 11 показаны данные для мужчин, выделенные полосатой частью каждой полосы.Данные для мужчин выглядят примерно в форме кургана.
График на Рисунке 12 показывает данные для женщин, выделенных полосатыми столбиками. Эти данные также выглядят примерно в форме кургана.
На графиках выше показаны примеры, когда разница между группами имеет значение, но общий разброс значений одинаков для двух групп. Когда вы сравниваете выделенные гистограммы для мужчин и женщин, вы видите, что у мужчин более низкие значения, чем у женщин. Существует много совпадений, но гистограммы подтверждают идею о различии между мужчинами и женщинами.
На рисунке 13 показаны данные, в которых эти две группы сильно различаются. Если вы посмотрите на общую гистограмму, данные не имеют формы холма. На графике показаны данные для одной группы, выделенные полосатыми столбиками. Эта группа имеет примерно форму холма, имеет разброс от 5 до 15 и центр около 9. На графике данные для второй группы показаны сплошными полосами. Он не имеет грубой формы кургана, имеет ширину от 20 до 32 и центр около 23.
Эти графики помогают определить важное соображение: всякий раз, когда вы создаете гистограмму, подумайте о том, есть ли группы в ваших данных.Если есть возможность группировки, вы, вероятно, узнаете больше о данных, создав отдельные гистограммы для каждой группы. С помощью некоторого программного обеспечения вы можете исследовать групповые различия на одной гистограмме, как показано на рисунках выше.
Гистограммы и типы данных
Непрерывные данные: подходят для гистограмм
Гистограммы имеют смысл для непрерывных данных, поскольку они измеряются по шкале со многими возможными значениями. Некоторые примеры непрерывных данных:
- Возраст
- Артериальное давление
- Вес
- Температура
- Скорость
Для всех этих примеров гистограмма является подходящим графическим инструментом для изучения распределения данных.
Категориальные или номинальные данные: используйте гистограммы
Гистограммы не имеют смысла для категориальных или номинальных данных, поскольку они измеряются по шкале только с несколькими возможными значениями. Используйте гистограммы вместо гистограмм.
При использовании категориальных данных выборка часто делится на группы, а ответы имеют определенный порядок. Например, в опросе, где вас просят высказать свое мнение по шкале от «Совершенно не согласен» до «Совершенно согласен», ваши ответы категоричны.
При номинальных данных образец также делится на группы, но без особого упорядочивания. Страна проживания является примером номинальной переменной. Вы можете использовать аббревиатуру страны или цифры для кодирования названия страны. В любом случае вы просто называете разные группы данных.
.
Станьте первым комментатором