Почему - Саманта Клейнберг (2017)

Почему
Книга Почему полная версия читать онлайн бесплатно и без регистрации

Автор показывает, что такое причинно-следственная связь, поясняет, почему в ее определении мы часто ошибаемся, как можно принимать верные решения. Благодаря этой книге вы научитесь анализировать информацию, выявлять причинно-следственные связи, объединять прошлое, предсказывать будущее.
Книга будет интересна философам, аналитикам, экономистам, медикам, юристам, начинающим ученым.

Почему - Саманта Клейнберг читать онлайн бесплатно полную версию книги

Еще один вариант нерепрезентативности распределения, касающегося истинного набора зависимостей, – смещение выборки. Скажем, есть данные из больницы, куда включены диагнозы и результаты лабораторных испытаний. Однако один из тестов крайне дорогой, поэтому врачи просят сделать его только в том случае, если у пациента необычная картина болезни и другим способом диагноз поставить нельзя. В большинстве случаев тест дает положительный результат. Из этих наблюдений, однако, нельзя узнать истинную вероятность такого исхода, потому что тест заказывают только при высоких шансах на положительный ответ. По результатам медицинских проверок мы, как правило, видим лишь ограниченный диапазон данных – например, когда измерения делаются только у самых больных пациентов (как инвазивный мониторинг в отделении интенсивной терапии). Диапазон наблюдаемых значений включает заболевших, состояние которых достаточно плохое для проведения подобного мониторинга. Ситуация проблематичная, поскольку это значит, что, если мы выявим причинную зависимость для такой ограниченной группы, она может не быть истинной для населения в целом. Аналогично можно не распознать истинную зависимость из-за отсутствия в выборке вариации.

Это называется проблемой упущенных данных. К искажению могут приводить упущенные переменные, но и упущенные измерения действуют аналогично, формируя нерепрезентативные распределения относительно истинного базового распределения. Упущенные значения, как правило, не результат случайного их удаления из набора данных, скорее, они зависят от других измеренных и неизмеренных переменных.

К примеру, в больнице для проведения медицинской процедуры у пациента нужно отключить несколько мониторов (что приведет к пробелу в регистрации сведений), или данные не зафиксируются из-за сбоя аппаратуры. Возможно, сахар в крови будет замеряться с меньшими интервалами, если этот показатель выходит за пределы нормы, поэтому большие пробелы в измерениях не окажутся независимыми от фактических значений, а существующие значения могут отклоняться вплоть до экстремумов. Данные, упущенные из-за скрытой причины, способны вести к искажениям, в то время как сбой аппаратуры может означать, что и другие близкие измерения также ложны (и могут искажать результаты).

В действительности мы только допускаем, что распределения отражают истинную структуру, поскольку размер выборки становится достаточно большим. Если я звоню другу и в этот момент раздается звонок в дверь, трудно сказать, повторится ли снова эта ситуация. Но что если это случается 5 или 15 раз? В общем, мы допускаем, что по мере увеличения массива данных мы все ближе подходим к наблюдению истинного распределения событий. Если бросить монетку всего несколько раз, можно не увидеть равного распределения орлов и решек; но по мере того, как число бросков будет стремиться к бесконечности, распределение приблизится к соотношению 50/50. Здесь увеличение массива данных означает снижение вероятности необычной цепочки событий, которая не будет отражать истинные базовые вероятности (такие как последовательность бросков игральных костей, когда выпадают одни шестерки).

Мы делаем аналогичное допущение для причинного осмысления: у нас достаточно данных, и мы можем усмотреть реальную вероятность (а не аномалию) того, что следствие наступает после причины. Нетрудно возразить, что для некоторых систем, например нестационарных, даже бесконечно большой набор данных может не удовлетворять этому допущению, и стоит исходить из предположения, что со временем отношения останутся стабильными. Вспомним: термин «нестационарные» означает, что свойства (например, средняя дневная прибыль от ценной бумаги) со временем меняются. На рис. 6.3 скидки (временные ряды обозначены пунктиром) и покупки горячего шоколада (сплошные линии) фактически не коррелируют по составным временным рядам, однако сильно взаимосвязаны в период, показанный серым цветом (который обозначает зимний сезон).

Перейти
Наш сайт автоматически запоминает страницу, где вы остановились, вы можете продолжить чтение в любой момент
Оставить комментарий