Tương quan và nhân quả

Có lẽ một trong những nguyên tắc trong thống kê được nhiều người biết tới nhất, và cũng có lẽ bị vi phạm nhiều nhất đó là: Correlation does not imply causation (tạm dịch: Tương quan không đi kèm nhân quả) Nói nôm na ra, nguyên tắc này có thể hiều là: 2 sự việc xảy ra đồng thời (tương quan) với nhau, không có nghĩa một cái là kết quả của cái kia. Tuy vậy, để thực sự hiểu đúng nguyên tắc này, 3 câu hỏi quan trọng cần được làm rõ:

1.Tại sao tương quan không đi kèm nhân quả?

Có thể bắt đầu bằng một ví dụ đơn giản: Ở trong một lớp, ở cuối năm, giáo viên nhìn vào bảng điểm và thấy các bạn được điểm cao nhất cũng là các bạn sinh nhật vào tháng 9. Rõ ràng ở đây, có một sự tương quan giữa điểm và thời gian sinh nhật. Tuy vậy, sẽ khá chắc rằng không ai nói: điểm cao là do sinh nhật vào tháng 9, và càng không thể nói là sinh vào tháng 9 là do được điểm cao! Cái kết luận nhân quả ở trên không diễn ra, vì sao? Vì quan hệ tương quan không loại bỏ được các yếu tố gây nhiễu (confounding factors). Trong ví dụ ở trên, có vô vàn yếu tố có thể gây nhiễu: chẳng hạn như, thời gian đi học thêm, thời gian học ở nhà, điều kiện kinh tế, v.v. Bạn không thể biết được điểm cao là do bạn ấy sinh vào tháng 9, hay do bạn ấy đi học thêm nhiều, hay do học ở nhà nhiều, hay do nhà giàu, nếu chỉ nhìn vào bảng điểm của lớp.

2. Quan hệ nhân quả được thiết lập khi nào?

Một trong những nguyên tắc cơ bản cho quan hệ nhân quả được thiết lập, đó là cần phải tìm cách loại trừ những yếu tố có khả năng gây nhiễu. Dù có thể không thể biết được hết, nhưng ít nhất, luôn cần có những nỗ lực để loại trừ. Tưởng chừng như rất đơn giản, nhưng có thể nói, rất nhiều những cuộc tranh luận lớn rồi các vụ án đều xoay quanh các yếu tố gây nhiễu tiềm năng (potential confounding factors) này. Bất bình đẳng về lương trong doanh nghiệp giữa nam và nữ là một trường hợp. Việc nam giới thường có lương cao hơn nữ giới thường được cho là xuất phát từ việc phân biệt giới (gender discrimination) từ đội ngũ lãnh đạo. Nhưng các yếu tố gây nhiễu như việc nam giới thường có học vấn cao hơn nữ giới, nam giới làm những nhiệm vụ nhiều áp lực hơn nữ giới, v.v, không hề dễ được loại bỏ.

Vấn đề biến đổi khí hậu cũng vậy. Ở đây sự tương quan là giữa việc nhiệt độ Trái đất nóng lên và việc con người thả nhiều chất thải ra môi trường. Nhưng, những yếu tố gây nhiễu trong mối tương quan này, là các hiện tượng tự nhiên của Trái đất: như chu kì hoạt động của núi lửa, sóng thần, etc. Mất 40 năm đề thế giới mới tự tin loại bỏ được những yếu tố gây nhiễu này, với rất, rất nhiều những công trình khoa học để chứng minh.

Trong thống kê, các yếu tố gây nhiễu chỉ được loại trừ thông qua các thí nghiệm (experiment), và design of experiment thực tế là một mảng rất lớn của statistics. Lấy một ví dụ gần đây hơn, giả sử, hàm lượng cao của các chất kim loại nặng đang được cho là nguyên nhân gây cá chết trong nước biển, và một yếu tố gây nhiễu ở đây được nghi ngờ là do đặc điểm sinh học của loại cá. Một thí nghiệm tốt để kiểm chứng nguyên nhân này cần có ít nhất 3 yếu tố sau:

  1. Phải có ít nhất 2 nhóm: 1 control group và 1 treatment group. Control group ở đây là mẫu nước biển với hàm lượng kim loại nặng ở mức bình thường, tạo ra một cơ sở để so sánh, và treatment group là mẫu nước biển với hàm lượng kim loại nặng cao.
  2. Phải có sự ngẫu nhiên hoá (randomization): Đây được coi là tiêu chuẩn vàng của bất cứ thí nghiệm nào. Các cá thể cả giống nhau được ngẫu nhiên phân bố vào trong 2 nhóm và được theo dõi độc lập, ghi lại tỉ lệ sống/chết. Ngẫu nhiên hoá được thực hiện khá dễ dàng bằng máy tính (mặc dù chỉ là giả ngẫu nhiên), nhưng một lỗi rất hay gặp là ngẫu nhiên hoá thường được thực hiện chủ quan của người làm thí nghiệm!
  3. Thí nghiệm phải được lặp lại với số lượng đủ lớn: Quá trình 1 và 2 cần được lặp lại nhiều lần, chứ không phải chỉ 1 lần.

Tại sao với thí nghiệm này, nếu tỉ lệ cá chết trong treatment group lớn hơn trong control group ở một mức độ nhất định (trong statistics, thuật ngữ được dùng là significantly bigger), thì ta có thể kết luận được hàm lượng kim loại nặng là nguyên nhân gây cá chết? Vì quá trình ngẫu nhiên hoá đã làm tất cả làm cho yếu tố gây nhiễu phân bố đều ở cả 2 groups, nên sự khác biệt còn lại có thể được quy về sự khác biệt ở trong yếu tố đang được tìm hiểu (hàm lượng kim loại nặng).

Tuy vậy, vì nhiều lí do, không phải thí nghiệm nào cũng có thể thực hiện được. Ví dụ ở tình huống trên, bạn không thể ngẫu nhiên hoá tháng sinh của sinh viên trong lớp. Nếu bạn từng nghe nói hút thuốc lá gây ung thư phổi, thì thực ra, từ trên góc độ thống kê, câu kết luận này chưa bao giờ được kiểm chứng. Thí nghiệm cần làm sẽ cần ngẫu nhiên hoá người hút thuốc, người không hút thuốc, và xem xem có bao nhiêu người bị ung thư phổi sau một giai đoạn nhất định. Đó sẽ là một thí nghiệm phi đạo đức và gần như sẽ không bao giờ được thực hiện! Thực ra, câu kết luận chính xác cao nhất chỉ có thể là: Khả năng (odds) bị ung thư phổi của một người hút thuốc lá cao hơn rất nhiều lần so với khả năng bị ung thư phổi của một người không hut thuốc lá. Tất nhiên, trong sinh học hay y học, có thể thí nghiệm được làm trên động vật để rút ra cho con người, nhưng giả định về sự tương tự giữa động vật và con người không phải lúc nào cũng được chấp nhận.

3. Quan hệ tương quan có ý nghĩa gì? Tuy không gắn liền với quan hệ nhân quả, quan hệ tương quan có rất nhiều ý nghĩa. Đó là điểm khởi đầu cho việc xây dựng các mô hình hồi quy (regression models) cho tới các phân tích dự báo hay data mining. Đồng thời, tương quan cũng là điểm dự báo đầu tiên cho việc thiết kế các thí nghiệm để kiểm định các quan hệ nhân quả. Nhân quả và tương quan là 2 mối quan hệ cơ bản không chỉ trong thống kê, mà còn trong logic của cuộc sống. Chú ý nhiều hơn về nhân quả, và hiểu nhiều hơn về tương quan, sẽ giúp hiểu sâu và đúng hơn những gì xảy ra hàng ngày, tránh những kết luận vội vàng và thiếu khoa học.