Top.Mail.Ru
Истории

Что такое корреляция: разбираемся и объясняем

Истории
Иван Козлов
Иван Козлов

Журналист RB.RU

Григорий Щеглов

Корреляция – один из тех терминов, который вышел из узконаправленной среды и плотно обосновался в повседневной речи. При этом, имея в целом похожий смысл, обрел и упрощенные, а от того неверные интерпретации. В этом материале разбираемся в понятии корреляции, как она есть.

Что такое корреляция: разбираемся и объясняем

Содержание:

Что такое корреляция

Для начала разберемся, что означает корреляция как термин. Происходит это слово от латинского correlatio, что переводится как «соотношение». Используется этот термин для подсчета изменений одного значения по отношению к другому. Тут стоит выделить две важные детали:

Во-первых, корреляция в отрыве от понимания показателей может давать не просто ошибочную. а совершенно ничем не подкрепленную картину. При этом, статистически она будет абсолютно незыблемой. Например, статистически было выявлено, что в момент гнездования аистов в определенной местности, там рождалось больше младенцев. Это мило и может стать поводом для суеверий, но не смотря на значения корреляции, остается простым совпадением.

Во-вторых, нужно понимать, что суть корреляции не в поиске зависимостей. То есть высокая парная корреляция между двумя показателями еще не значит, что здесь есть причинно-следственная связь.

Корреляция простыми словами

Если сократить все вышеописанное до короткого, а главное доступного для понимания определения, мы получим следующее:

Корреляция – это статистическая мера описывающее взаимосвязь между переменными. Она выражается в виде числа и характеризует направление и размер этой взаимосвязи.

Что показывает корреляция

Если у вас создалось ощущение, что суть корреляции в поиске забавных математических совпадений, то вы… правы. Но лишь отчасти. На самом деле, она используется для глубокого анализа переменных, но только не в отрыве от других данных.

Элементарный пример – когда в корреляции все-таки присутствует причинно-следственная связь. Например, снижение температуры воздуха замечательно коррелирует с продажами пуховиков. Логично и взаимосвязано.

Другой случай, когда прямой связи не видно, но за счет корреляции мы можем обнаружить третью переменную. Например, у большинства социальных учреждений значения корреляции  отрицательных мнений и оценок растут вместе с количеством публичных отзывов. Почему? Дело в том, что в этой сфере отзывы используются как инструмент давления. И в общепите, бьюти-индустрии и тд. такой корреляции нет. Третьей переменной здесь выступает именно специфика сферы.

Для чего нужна корреляция

Корреляцию используют представители самых разных профессий, а ее применение очень широко. Например, математики и айтишники при помощи графиков корреляции обучают нейросети отделять взаимосвязанные явления от случайностей. А аналитики данных определяют связь корреляции, что помогает им быстрее работать с данными. 

Работают с корреляцией и в более «творческих» сферах. Маркетологам она помогает выяснить, на какой показатель сделать упор, а какой лучше отложить. А журналисты-расследователи или даже частные детективы могут провести корреляцию между двумя явлениями и найти неожиданное сходство.

Положительная и отрицательная корреляция

Выделяется два вида корреляции: положительная и отрицательная. В первом случае значение корреляции всех величин растет. Как в нашем примере с холодной погодой и продажей теплой одежды.

Другой тип – отрицательная корреляция. В этом случае значения у измеряемых значений противоположны. Например, чем меньше в отдельно взятом районе мусорных ведер, тем больше мусора можно встретить брошенным на тротуары. В этом случае один график идет вниз, а другой – вверх. Корреляция отрицательная.

Виды коэффициентов корреляции

Коэффициентами измеряется только линейная корреляция. Если один график прямой, а другой изгибается – коэффициенты корреляции бессильны. И все-таки, когда они используются – выбирают чаще всего между основной тройкой:

  • Пирсона. Описывается как r и показывает прямую связь. Здесь считаются значения от -1 до 1.
  • Кендалла. Коэффициент под буквой t. Для показателей тут присваиваются ранги. Однако, в целом измеряемая область тоже от -1 до 1.
  • Спирмена или p. Использует непараметрические методы, а значит может работать с данным низкого качества и погрешностями.

Чем и с помощью чего считают корреляцию

Для крупных компаний алгоритмы корреляции пишутся специально под запрос, чаще всего на языке программирования Python. Но на самом деле, некоторые инструменты для подсчета корреляции есть под рукой у большинства.

И это обычные онлайн-таблицы. И в Exel, и в Google Таблицах, и в Numbers уже вшиты формулы, которые посчитают корреляцию показателей за пользователя. Ими и пользуется подавляющее большинство специалистов.

Кстати, а еще корреляцию можно посчитать вручную, на обычном листе бумаги.

Фото на обложке: Jason Coudriet / Unsplash

Подписывайтесь на наш Telegram-канал, чтобы быть в курсе последних новостей и событий!

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

  1. 1 Рекордное число кредитов на ИСЖ и возможность использовать поправку о продаже ипотечных квартир: главное 1 июня
  2. 2 Bloomberg: G7 может наложить санкции на банки, использующие аналог SWIFT в России
  3. 3 Табачная отрасль перейдет на «цифровой акциз», продавцы отчитаются за каждую банку пива: что нового с июня
  4. 4 Минфин назвал число плательщиков НДФЛ с самыми высокими доходами
  5. 5 Шампанерия в Краснодарском крае, аэропорт Пулково тестирует систему безбилетного проезда: главное 31 мая