рекомендации

понедельник, 6 июля 2020 г.

Шесть вероятностных распределений, которые должен знать каждый специалист в области data science


Введение

Добро пожаловать в мир вероятностей в науке о данных! Позвольте мне начать с интуитивного примера.

Предположим, вы преподаватель в университете. После проверки заданий вы оценили всех учеников. Вы дали эти проверенные работы парню из университета, занимающемуся вводом данных, и сказали ему создать электронную таблицу, содержащую оценки всех студентов. Но парень хранит только оценки, а не соответствующие имена студентов.




Он совершил еще одну ошибку, он в спешке пропустил пару записей, и мы понятия не имеем, чьи оценки отсутствуют. Давайте найдем способ решить эту проблему.

Один из способов заключается в том, что вы визуализируете оценки и смотрите, можете ли вы найти тенденцию в данных.


График, который у вас есть, называется частотным распределением данных. Вы видите, что есть гладкая кривая, похожая на структуру, которая определяет наши данные, но замечаете ли вы аномалию? У нас аномально низкая частота в определенном диапазоне баллов. Таким образом, лучшим предположением будет отсутствие значений, которые устраняют вмятину в распределении.

Вот так вы пытаетесь решить реальную проблему, используя анализ данных. Для любого Data Scientist, студента или специалиста распределение должно быть обязательным понятием. Оно обеспечивает основу для аналитики и индуктивной статистики.

В то время как понятие вероятности дает нам математические вычисления, распределения помогают нам фактически визуализировать то, что происходит внутри.

В этой статье я рассмотрел некоторые важные распределения вероятностей, которые объясняются простым языком.

Примечание. В этой статье предполагается, что у вас есть базовые знания о вероятности. 

Распространенные типы данных

Прежде чем перейти к объяснению распределений, давайте посмотрим, с какими данными мы можем столкнуться. Данные могут быть дискретными или непрерывными.

Дискретные данные, как следует из названия, могут принимать только определенные значения. Например, когда вы бросаете кубик, возможны следующие результаты: 1, 2, 3, 4, 5 или 6, а не 1,5 или 2,45.

Непрерывные данные могут принимать любое значение в заданном диапазоне. Диапазон может быть конечным или бесконечным. Например, вес девушки или рост, длина дороги. Вес девушки может быть любым значением: 54 кг, или 54,5 кг, или 54,5436 кг.

Теперь давайте начнем с типов распределений.

Распределение Бернулли

Начнем с самого простого распределения - Бернулли. Его на самом деле легче понять, чем кажется!

Вы там все фанаты крикета! В начале любого матча по крикету, как вы решаете, кто будет бить первый? Монета! Все зависит от того, выиграл ты или проиграл, верно? В результате броска вы выиграете или проиграете. Там нет промежуточных результатов.

Распределение Бернулли имеет только два возможных исхода, а именно 1 (успех) и 0 (неудача), и одно испытание. Таким образом, случайная величина X, которая имеет распределение Бернулли, может принимать значение 1 с вероятностью успеха, скажем, p, и значение 0 с вероятностью отказа, скажем, q или 1-p.

Здесь появление головы означает успех, а появление хвоста означает неудачу.
Вероятность получить голову = 0,5 = вероятность получить хвост, так как есть только два возможных исхода.

Функция вероятности определяется как: px (1-p) 1-x, где x € (0, 1).
Ее также можно записать как:


Вероятности успеха и неудачи не обязательно должны быть одинаковыми, как результат борьбы между мной и гробовщиком. Он почти наверняка победит. Так что в этом случае вероятность моего успеха равна 0,15, а неудачи - 0,85

Здесь вероятность успеха (p) не равна вероятности неудачи. Итак, диаграмма ниже показывает распределение Бернулли нашей битвы.


Здесь вероятность успеха = 0,15, а вероятность неудачи = 0,85. Ожидаемое значение означает именно это. Если я ударю тебя, я могу ожидать, что ты ударишь меня в ответ. В основном ожидаемое значение любого распределения является средним значением распределения. Ожидаемое значение случайной величины X из распределения Бернулли находится следующим образом:

E(X) = 1*p + 0*(1-p) = p

Дисперсия случайной величины из распределения Бернулли:

V(X) = E(X²) – [E(X)]² = p – p² = p(1-p)

Существует много примеров распределения Бернулли, например, будет ли завтра дождь или нет, где дождь означает успех, а его отсутствие означает неудачу и победу (успех) или проигрыш (неудачу) в игре.

Равномерное распределение

Когда вы бросаете честный кубик, вы получаете результаты с 1 по 6. Вероятность получения этих результатов одинаково вероятна, и это является основой равномерного распределения. В отличие от распределения Бернулли, все n возможных исходов равномерного распределения одинаково вероятны.

Переменная X называется равномерно распределенной, если функция плотности имеет вид:


График равномерной кривой распределения выглядит как:


Вы можете видеть, что форма кривой равномерного распределения является прямоугольной, поэтому равномерное распределение называется прямоугольным распределением.

Параметрами равномерного распределения являются a и b. 

Количество букетов, продаваемых ежедневно в цветочном магазине, распределяется равномерно - с максимумом 40 и минимумом 10.

Давайте попробуем вычислить вероятность того, что ежедневные продажи упадут до диапазона между 15 и 30.

Вероятность того, что ежедневные продажи упадут до диапазона между 15 и 30, составляет (30-15)*(1 / (40-10)) = 0,5

Аналогично, вероятность того, что ежедневные продажи превышают 20, составляет = 0,667.

Среднее значение и дисперсия X равномерного распределения:

Mean -> E(X) = (a+b)/2

Variance -> V(X) =  (b-a)²/12

Стандартная плотность вероятности для равномерного распределения имеет параметры a = 0 и b = 1, поэтому функция плотности вероятности (PDF) для стандартной равномерной плотности определяется как:


Биномиальное распределение

Давай вернемся к крикету. Предположим, что сегодня вы выиграли жеребьевку, и это указывает на успешное событие. Вы снова бросаете, но в этот раз вы проигрываете. Если вы сегодня выиграли жеребьевку, это не обязательно означает, что вы выиграете жеребьевку завтра. Давайте зададим в качестве случайной переменной, скажем, X, количество раз, когда вы выиграли жеребьевку. Какое может быть возможное значение Х? Это может быть любое число в зависимости от того, сколько раз вы подбрасывали монету.

Есть только два возможных результата. Решка обозначает успех, а орел обозначает неудачу. Следовательно, вероятность получения решки = 0,5, а вероятность неудачи может быть легко вычислена как: q = 1- p = 0,5.

Распределение, где возможны только два результата, успех или неудача, выигрыш или проигрыш, и где вероятность успеха и неудачи одинакова для всех испытаний, называется биномиальным распределением.

Результаты не должны быть одинаково вероятными. Помните пример борьбы между мной и Гробовщиком? Таким образом, если вероятность успеха в эксперименте равна 0,2, тогда вероятность неудачи может быть легко вычислена как q = 1 - 0,2 = 0,8.

Каждое испытание является независимым, так как результат предыдущего броска не определяет и не влияет на результат текущего броска. Эксперимент с двумя возможными результатами, повторяемыми n раз, называется биномиальным. Параметрами биномиального распределения являются n и p, где n - общее количество испытаний, а p - вероятность успеха в каждом испытании.

На основе приведенного выше объяснения свойства биномиального распределения:
  • Каждое испытание является независимым.
  • В испытании есть только два возможных результата: успех или неудача.
  • Всего проведено n идентичных испытаний.
  • Вероятность успеха и неудачи одинакова для всех испытаний (испытания идентичны).

Математическое представление биномиального распределения определяется следующим выражением:


График биномиального распределения, где вероятность успеха не равна вероятности неудачи, имеет вид:



Когда вероятность успеха = вероятность неудача, в такой ситуации график биномиального распределения выглядит следующим образом:



Среднее значение и дисперсия биномиального распределения определяются как:

Mean -> µ = n*p

Variance -> Var(X) = n*p*q

Нормальное распределение

Нормальное распределение представляет собой поведение большинства процессов во вселенной (именно поэтому оно называется «нормальным» распределением). Большая сумма (малых) случайных величин часто оказывается нормально распределенной, что способствует его широкому применению. Любое распределение называется нормальным распределением, если оно имеет следующие характеристики:
  • Среднее значение, медиана и мода совпадают.
  • Кривая распределения имеет форму колокола и симметрична относительно линии x = μ.
  • Общая площадь под кривой равна 1.
  • Ровно половина значений находится слева от центра, а другая половина - справа.

Нормальное распределение сильно отличается от биномиального распределения. Однако, если количество испытаний приближается к бесконечности, то формы будут очень похожи.

Функция плотности вероятности (PDF) нормально распределенной случайной величины X определяется как:


Среднее значение и дисперсия случайной величины X, которая является нормально распределенной, определяется как:

Mean -> E(X) = µ

Variance -> Var(X) = σ^2

Здесь параметрами являются µ (среднее значение) и σ (стандартное отклонение).

График случайной величины X ~ N (µ, σ) показан ниже.

Стандартное нормальное распределение определяется как распределение со нулевым средним значением и стандартным отклонением, равным 1. Для такого случая функция плотности вероятности (PDF):





Распределение Пуассона

Предположим, вы работаете в колл-центре, сколько примерно звонков вы получаете в день? Это может быть любое число. Все количество звонков в колл-центр за день моделируется распределением Пуассона. Еще несколько примеров:
  • Количество экстренных вызовов, записанных в больнице за день.
  • Количество краж в районе за день.
  • Количество клиентов, посещающих салон за час.
  • Количество самоубийств в конкретном городе.
  • Количество ошибок печати на каждой странице книги.

Теперь вы можете вспомнить множество примеров, следующих по тому же курсу. Распределение Пуассона применимо в ситуациях, когда события происходят в случайные моменты времени и пространства, и наш интерес заключается только в количестве случаев возникновения события.

Распределение называется распределением Пуассона, когда справедливы следующие допущения:

1. Любое успешное событие не должно влиять на результат другого успешного события.
2. Вероятность успеха в течение короткого интервала должна равняться вероятности успеха в течение более длительного интервала.
3. Вероятность успеха приближается к нулю, когда интервал становится меньше.

Теперь, если какое-либо распределение подтверждает вышеприведенные предположения, то это распределение Пуассона. Некоторые обозначения, используемые в распределении Пуассона:

λ - скорость, с которой происходит событие;
t - длина интервала времени;
X - количество событий в этом временном интервале.

Здесь X называется пуассоновской случайной величиной, а распределение вероятностей X называется пуассоновским распределением.

Обозначим через µ среднее число событий на отрезке длины t. Тогда µ = λ * t.

Функция вероятности X распределения Пуассона определяется как:


Среднее значение µ является параметром этого распределения. µ также определяется как λ-кратная длина этого интервала. График распределения Пуассона показан ниже:



График, показанный ниже, иллюстрирует сдвиг кривой из-за увеличения среднего значения.



Видно, что по мере увеличения среднего значения кривая смещается вправо.

Среднее значение и дисперсия X для распределения Пуассона:

Mean -> E(X) = µ
Variance -> Var(X) = µ

Экспоненциальное распределение

Давайте еще раз рассмотрим пример колл-центра. А как насчет интервала времени между звонками? Здесь нам на помощь приходит экспоненциальное распределение. Оно моделирует интервал времени между вызовами.

Другие примеры:

1. Продолжительность времени прибытия поезда метро.
2. Продолжительность времени между посещениями заправк.
3. Срок жизни кондиционера.

Экспоненциальное распределение широко используется для анализа выживаемости. От ожидаемого срока службы машины до ожидаемого срока службы человека, экспоненциальное распределение успешно дает результат.

Говорят, что случайная величина X имеет экспоненциальное распределение при следующей функции плотности вероятности:

f(x) = { λe-λx,  x ≥ 0

и параметр λ> 0, который также называется скоростью.

Для анализа выживаемости λ называют частотой отказов устройства в любое время t, учитывая, что оно дожило до t.

Среднее значение и дисперсия случайной величины X для экспоненциального распределения:

Mean -> E(X) = 1/λ
Variance -> Var(X) = (1/λ)²

Кроме того, чем выше скорость, тем быстрее падает кривая и чем ниже скорость, тем кривая более плоская. Это объясняется лучше на графике, показанным ниже.



Чтобы упростить вычисления, ниже приведены некоторые формулы.

P {X≤x} = 1 - e-λx, соответствует площади под кривой плотности слева от x.

P {X> x} = e-λx, соответствует площади под кривой плотности справа от x.

P {x1

Отношения между распределениями

Связь между распределением Бернулли и биномиальным распределением

1. Распределение Бернулли является частным случаем биномиального распределения с одним испытанием.
2. Есть только два возможных исхода распределения Бернулли и биномиального распределения, а именно успех и неудача.
3. И распределение Бернулли, и биномиальное распределение описывают независимые события.

Связь между пуассоновским и биномиальным распределением

Распределение Пуассона является предельным случаем биномиального распределения при следующих условиях:

1. Количество испытаний бесконечно велико или n → ∞.
2. Вероятность успеха для каждого испытания одинакова и бесконечно мала или p → 0.
3. np = λ, конечно.

Соотношение между нормальным и биномиальным распределением & нормальным и пуассоновским распределением:

Нормальное распределение - это еще одна частная форма биномиального распределения при следующих условиях:

1. Количество испытаний бесконечно велико, n → ∞.
2. Оба p и q не являются бесконечно малыми.

Нормальное распределение также является предельным случаем распределения Пуассона с параметром λ → ∞.

Соотношение между экспоненциальным и пуассоновским распределением:

Если времена между случайными событиями следуют экспоненциальному распределению со скоростью λ, то общее число событий за период времени t следует распределению Пуассона с параметром λt.

Заключение

Распределения вероятностей преобладают во многих секторах науки и индустрии, а именно в страховании, физике, технике, компьютерных науках и даже в социальных науках, где студенты, изучающие психологию и медицину, широко используют распределения вероятностей. В этой статье освещены шесть важных распределений, которые наблюдаются в повседневной жизни, и объясняется их применение. Теперь вы сможете определять, связывать и различать эти распределения.

Комментариев нет:

Отправить комментарий