Фрікономіка. Зворотний бік усього на світі - Стівен Девід Левітт
Кореляція — це ніщо інше, як статистичний термін, що вказує, чи рухаються дві змінні величини в одному напрямку. Зазвичай коли падає сніг, на вулиці холодно; ці два чинники мають позитивну кореляцію. А сонце та дощ корелюють між собою негативно. Все дуже легко, просто треба мати дві змінні величини. Та коли таких величин є не дві, а дві сотні, то ситуація вельми ускладнюється. Тож регресійний аналіз є саме тим інструментом, що дає економістові змогу розсортувати всі ці величезні купи даних. Досягає він цього у такий спосіб: штучно усталює і зупиняє всі змінні, за винятком тих двох, на яких зосереджується увага, а потім демонструє, яким чином ці дві величини змінюються одна щодо іншої.
В ідеальному світі економіст міг би провести експеримент так само, як фізик або біолог: брав би два зразки, здійснював би довільні маніпуляції з одним із них, і вимірював би отримуваний ефект. Але такий експеримент є радше розкішшю, аніж звичною практикою. (Саме тому чиказька лотерея з вибору школи і виявилася такою рідкісною щасливою знахідкою). Зазвичай економіст має у своєму розпорядженні масив даних з великою кількістю змінних величин; жодна з них не генерується довільно, одні пов’язані взаємозв’язком, а інші — ні. І у всій цій плутанині він має визначити ті чинники, які корелюють, і ті, які не корелюють.
У випадку з даними «Багаторічного дослідження раннього дитинства» було б корисно уявити, що регресійний аналіз виконує наступне завдання: він перетворює кожного з двадцяти тисяч дітей на таку собі мікросхему з однаковим числом перемикачів. Кожен перемикач являє собою одну конкретну категорію відомостей про дитину: її оцінки з математики за перший клас, її оцінки з математики за третій клас, її оцінки з читання за перший клас, її оцінки з читання за третій клас, рівень освіти матері цієї дитини, дохід її батька, кількість книжок у її домівці, відносний рівень добробуту її сусідів тощо.
Отже, тепер дослідник матиме змогу вивудити з цього складного набору даних певні перспективні результати. Він зможе поєднати всіх дітей з численними однаковими характеристиками — тобто об’єднати всі мікросхеми, чиї перемикачі увімкнені в одному напрямку — а потім точно визначити ту єдину характеристику, яка не є для цих дітей спільною. Так він і виокремлює реальний вплив конкретного перемикача на велику мікросхему. Таким чином і стає очевидним ефект, який справляє конкретний перемикач, — і, зрештою, той ефект, який справляє кожен перемикач.
Припустімо, що ми хочемо дізнатися з даних «Багаторічного дослідження» відповідь на фундаментальне запитання про виховання й освіту: чи є велика кількість книжок у вашому домі причиною того, що ваша дитина добре вчиться у школі? Регресійний аналіз не зможе відповісти на це запитання, але він зможе відповісти на запитання, поставлене дещо інакше: чи існує тенденція, що дитина, яка має вдома багацько книжок, навчається у школі краще, ніж дитина, яка не має вдома книжок? Різниця між першим і другим запитаннями — це різниця між причинно-наслідковим зв’язком (запитання 1) та кореляцією (запитання 2). Регресійний аналіз здатен продемонструвати кореляцію, але він не визначає причинно-наслідкового зв’язку. Зрештою, дві змінні величини можуть корелювати у різні способи. Х може спричиняти Y; Y може спричиняти X; а може бути й так, що появу як X, так і Y спричиняє якийсь третій чинник. Сама лише регресія нездатна засвідчити, чи падає сніг тому, що надворі холодно, чи обидва ці явища просто трапляються одночасно.
Наприклад, дані «Багаторічного дослідження» справді свідчать, що дитина, яка має вдома велику кількість книжок, зазвичай отримує кращі оцінки, ніж дитина без книжок. Отже, ці два факти корелюють між собою, і про це нам приємно дізнатись. Але вищі оцінки корелюють також і з багатьма іншими чинниками. Якщо ви просто порівнюватимете дитину з багатьма книжками з дитиною без книжок, то відповідь може й не бути достатньо інформативною. Можливо, кількість книжок у дитини вдома просто є показником кількості грошей, які заробляють її батьки. А нам треба порівняти двох дітей, які є схожими в усіх аспектах, окрім одного, у цьому випадку — кількості книжок у їхніх домівках, і побачити, чи є ця обставина тим чинником, що впливає на їхню успішність у школі.
Слід зазначити, що регресійний аналіз є радше мистецтвом, ніж наукою. (З огляду на це він має багато спільного з вихованням). Але досвідчений практик знає, як з його допомогою визначити інформативність кореляції і, можливо, навіть визначити, чи є ця кореляція показником наявності причино-наслідкового зв’язку.
Отже, що ж каже нам аналіз відомостей «Багаторічного дослідження» про академічну успішність учнів? Він каже нам про кілька речей. І перша з них стосується розриву між екзаменаційними балами білих та чорних120.
Уже давно було зауважено, що чорні діти поступаються своїм білим одноліткам навіть іще до того, як увійдуть до шкільного класу. Ба більше, чорні діти відстають навіть за умови врахування великої кількості змінних величин. (Врахувати змінну величину означає нейтралізувати її вплив, приблизно так само, як один гравець у гольф використовує гандикап проти іншого гравця. А у випадку з «Багаторічним дослідженням» науковець може враховувати будь-яку кількість негативних чинників, що можуть впливати на одного учня у порівнянні з іншим). Але новий масив даних свідчить зовсім не про це. Якщо врахувати буквально кілька змінних, включно з рівнем доходів та рівнем освіти батьків конкретної дитини, а також із віком її матері, коли вона народила свою першу дитину, то розрив між чорними та білими дітьми практично зникає до того часу, коли ці діти вперше переступають поріг школи.
Цей висновок є оптимістичним у двох аспектах. Він означає, що чорні дітлахи і далі прогресували щодо своїх білих однолітків. Він означає також, що той розрив, який усе ж таки залишається, можна пов’язати з невеликою кількістю швидко й легко визначуваних чинників. Вищезгадані відомості свідчать, що чорні діти, котрі погано навчаються у школі, демонструють незадовільні результати не тому, що вони чорні, а тому, що чорна дитина має більше шансів походити з родини із низькими доходами та низьким рівнем освіти. Проте типова чорна й типова біла дитина з однакового соціально-економічного середовища демонструють однакові здібності до математики й читання, коли їх уперше приводять до дитсадка.
Цікава й вельми несподівана новина, еге ж?