«Средние» значения — ваш враг. Как не попасться на удочку усреднения

Никита Стаценко
Никита Стаценко

Внештатный автор

Расскажите друзьям
Светлана Зыкова

СМИ, политика и бизнес часто оперируют данными о среднем: средний доход, средняя продолжительность жизни, средний потребитель. Иногда эти цифры полезны, но часто — бессмысленны и даже обманчивы. Автор книги «Путеводитель по лжи» Дэниел Левитин рассказывает, как не попасться на удочку усреднения.

Среднее арифметическое, медиана и мода

Есть три вида средних, и они могут выражаться разными числами. Поэтому те, кто всерьез занимается статистикой, избегают слова «среднее», отдавая предпочтение более точным терминам: среднее арифметическое, медиана или мода. Иногда все эти величины совпадают, но чаще они различаются.

Чаще других встречается среднее арифметическое; оно равно сумме всех данных, поделенной на их количество. Медиана — это число в середине упорядоченного набора чисел (статистики называют его выборкой): половина данных находится ниже этого значения, а половина выше. Моде — цифра, которая встречается чаще других.

Представим себе комнату, в которой находятся девять человек; состояние восьмерых из них равно примерно $100 тысяч, а один находится на грани банкротства, его долг равен $500 тысячам. Вот что у нас получится:

  • Человек 1: –500 тыс. долл.
  • Человек 2: 96 тыс. долл.
  • Человек 3: 97 тыс. долл.
  • Человек 4: 99 тыс. долл.
  • Человек 5: 100 тыс. долл.
  • Человек 6: 101 тыс. долл.
  • Человек 7: 101 тыс. долл.
  • Человек 8: 101 тыс. долл.
  • Человек 9: 104 тыс. долл.

Теперь складываем все показатели и получаем общую сумму в $299 тысяч. Среднее арифметическое равно $33 222. Как видим, это не лучший способ охарактеризовать данные о присутствующих.

И медиана, и мода в этом примере оказываются гораздо показательнее. Медиана равна $100 тысячам: четверо зарабатывают меньше этой суммы, а четверо — больше. Мода равна $101 тысяче — это та цифра, которая появляется чаще других.

Бимодальное распределение

Если вы работаете со средними, остерегайтесь бимодального распределения. Во многих наборах данных — биологических, физических, социальных — у распределения может быть два или больше пиков.

Например, подобный график может отображать сумму, потраченную на обеды в неделю (ось X), и количество людей, потративших такую сумму (ось Y). Представьте, что вы изучали две группы людей: детей (левый горб) — они покупают школьные обеды — и руководителей компаний (правый горб) — они ходят в дорогие рестораны.

Среднее арифметическое и медиана в данном случае — это числа где-то между этими двумя горбами, и они ничего не скажут о том, что происходит на самом деле, — ведь во многих случаях среднее арифметическое и медиана отражают ту сумму, которую никто не тратит. Подобный график говорит лишь о том, что в вашем примере имеет место неоднородность — вы сравниваете яблоки с апельсинами. В таком случае лучше сразу сказать, что вы имеете дело с бимодальным распределением, и сообщить о двух модах. А еще лучше разделить группу на две подгруппы и собрать статистические данные для каждой.

Экологическая ошибка

Будьте осторожны, когда будете делать выводы об отдельных людях и о группах, основываясь на средних данных. Тут легко наткнуться на экологическую ошибку.

Экологическая ошибка возникает, если мы делаем выводы об отдельном элементе, основываясь на совокупных данных. Представьте себе два маленьких городка, в каждом из которых живет всего по сотне человек. Девяносто девять жителей города А зарабатывают по $80 тысяч в год, а на земле одной женщины было найдено месторождение нефти, и теперь она получает $5 миллионов в год. В городе Б живут 50 человек, которые зарабатывают по $100 тысяч в год, а также 50 человек, которые получают по $140 тысяч. Средний арифметический доход в городе А составляет $129 тысяч, а в городе Б — $120 тысяч. И хотя средняя величина доходов города А больше, в 99 случаях из 100 доход любого жителя города Б, которого вы выберете наугад, будет выше дохода любого случайно выбранного жителя города А.

Экологическую ошибку совершают те, кто считает, что если выбрать наугад человека из группы с более высоким средним доходом, то и у него доход будет выше.

Средний инвестор не получает средний доход

Посещает ли средний студент колледжа колледж среднего размера, растет ли среднее дерево в среднем лесу и получает ли средний инвестор средний доход? Нет.

В одном исследовании средний доход от инвестиции 100 долларов на срок 30 лет составил 760 долларов, или 7% в год. Звучит неплохо. Но эта статистика не показывает, что 9% инвесторов потеряли деньги, а огромному числу инвесторов, 69%, не удалось достигнуть показателя среднего дохода. Так случилось потому, что среднее арифметическое было смещено из-за нескольких человек, заработавших больше среднего.

Будьте осторожны со средними, а также с тем, как их интерпретируют. Усредняя данные по выборкам из несопоставимых совокупностей, игнорируя разброс значений, допуская экологические ошибки мы видим мир искаженным и принимаем неверные решения.

На нашу полку попадают книги, которые рекомендуют герои наших интервью и колумнисты. Получите месяц на Bookmate бесплатно: введите промокод RUSBASE.

Материалы по теме:

Любимые книги Андрея Себранта, директора по маркетингу сервисов «Яндекса»

Как принимать решения в неопределенности: 3 кейса по теории игр

Как заставить мозг запоминать прочитанное

«Выборы на блокчейне»: как это работает и что дает избирателям

Фото на обложке: Unsplash.


Самые актуальные новости - в Telegram-канале Rusbase


Комментарии

Комментарии могут оставлять только авторизованные пользователи.


Telegram канал @rusbase