Почему - Саманта Клейнберг (2017)

Почему
Книга Почему полная версия читать онлайн бесплатно и без регистрации

Автор показывает, что такое причинно-следственная связь, поясняет, почему в ее определении мы часто ошибаемся, как можно принимать верные решения. Благодаря этой книге вы научитесь анализировать информацию, выявлять причинно-следственные связи, объединять прошлое, предсказывать будущее.
Книга будет интересна философам, аналитикам, экономистам, медикам, юристам, начинающим ученым.

Почему - Саманта Клейнберг читать онлайн бесплатно полную версию книги

Для целей этой книги важнее всего следующее: беседы с победителями бесполезны, поскольку можно сделать то же самое, но не преуспеть. Возможно, все кандидаты оформляют заявки на грант шрифтом Times New Roman (а значит, те, кто не получил гранты, порекомендуют использовать другой шрифт), а может, успешные кандидаты получили грант, несмотря на избыточное количество иллюстраций в документах. Не зная совокупности положительных и отрицательных примеров, мы не сможем даже предположить наличие корреляции.

Корреляции: измерение и интерпретация

Скажем, мы исследуем студенческий пул, чтобы выяснить, сколько чашек кофе молодые люди выпивают перед финальным экзаменом, а потом регистрируем полученные баллы. Гипотетические данные этого примера представлены на рис. 3.3 (а). Корреляция очень сильна и равна почти 1 (0,963, если быть точными), поэтому точки на графике тесно окружают некую невидимую линию. Если взять обратное отношение (0 чашек кофе соответствуют 92 экзаменационным баллам, а 10 чашек – 10 баллам), чтобы сформировать отрицательную ассоциацию, абсолютное значение окажется тем же, а единственное, что изменится, – знак коэффициента корреляции. Тогда показатель измерения будет равен почти –1 (–0,963), а кривая станет отраженным по горизонтали вариантом положительно коррелирующих данных, как показано на рис. 3.3 (б).

Рис. 3.3. Корреляции между потреблением кофе и экзаменационными баллами

С другой стороны, если бы каждое из этих отношений стало слабее и имела место повышенная вариация результатов экзамена для каждого уровня потребления кофе, наблюдалась бы дисперсия точек, и корреляция была бы слабее. Это продемонстрировано на рис. 3.3 (в), где точки на графике по-прежнему имеют в основном линейную форму, но отклоняются от центра гораздо дальше.

Как и ранее, инверсия отношения (потребление кофе коррелирует с худшими оценками) формирует кривую на рис. 3.3 (г), где единственным отличием оказывается нисходящий уклон.

Заметим, что, если отношение слабое, гораздо труднее перейти от значения потребления кофе до экзаменационных баллов и обратно. Это четко видно, если в первых примерах выбор значения одной из переменных сильно ограничивает вероятные значения другой. Но если мы попытаемся предсказать экзаменационные баллы для 4 чашек кофе с более слабой корреляцией, прогноз будет гораздо менее точен, поскольку мы наблюдали более широкий диапазон баллов для такого уровня потребления кофе. Предел для этой возрастающей вариации – пара переменных, которые абсолютно не соотносятся (имеют нулевой коэффициент корреляции), как показано на рис. 3.3 (д), при этом нельзя вообще ничего сказать о результатах экзаменов на основе выпитого кофе.

Или мы захотели узнать, насколько сильна корреляция между тем, где человек живет, и его умением водить машину. Мера, о которой мы говорили до сих пор, применяется для неквантованных[116] данных, таких как цены на акции, а не дискретных, таких как местонахождение или киножанр. Если у нас всего две переменные, каждая из которых принимает только два значения, лучше взять упрощенный вариант коэффициента корреляции Пирсона – так называемый фи-коэффициент[117].

Например, можно проверить соотношение между местом, где люди живут, и их умением водить машину. Местом жительства может быть либо город, либо пригород / сельская местность, а факт вождения может либо иметь место (да), либо нет. Как и ранее, проверяем, как эти условия варьируются. Здесь вариация означает частоту, с которой они наблюдаются совместно (а не то, как значения увеличиваются или уменьшаются).

В табл. 3.1 показано, какой вид могут принимать данные. Фи-коэффициент для них составляет 0,81. Мы изначально смотрим, сосредоточено ли большинство измерений вдоль диагональной линии на таблице. Если значения в основном находятся в группах вождение/не-город и не-вождение/город, можно говорить о положительной корреляции.

Перейти
Наш сайт автоматически запоминает страницу, где вы остановились, вы можете продолжить чтение в любой момент
Оставить комментарий