Tư duy thống kê

Hàng ngày trên những tờ báo, hay các phương tiện thông tin đại chúng khác, những con số , những kết quả thống kê ngày càng được sử dụng nhiều để mô tả sự kiện, để xếp hạng, để so sánh, và kết luận. Không giống như những tin tức, những con số thường gây được tin tưởng nhanh và cao hơn, đặc biệt khi nó được đưa ra bởi những tổ chức mà trong cái tên có cái gì đó mang tính chất “quốc tế” hay “quốc gia.” Dù mình vẫn tin đại đa số những người làm việc với những con số ấy không có ý định dùng chúng để đánh lừa mọi người, trên thực tế có rất nhiều cách dễ dàng để “điều khiển”, “biến dạng” những con số để phù hợp với ý định của người tạo ra nó hoặc sử dụng nó.    

Tư duy thống kê, hay đơn giản hơn là hiểu về những con số và dữ liệu, thực tế bắt nguồn từ một vài nguyên tắc cơ bản và khá hiển nhiên. Nếu các bạn đã từng học qua bất kì lớp thống kê (statistics) nào, thì chắc các bạn đều được hướng dẫn một vài cách để mô tả những dữ liệu như vậy (descriptive statistics) hay một vài phương pháp suy luận (inference statistics). Tuy vậy, ẩn sau những phương pháp như thế, cái quan trọng hơn, theo mình, là những tư duy thống kê (statistical thinking). Nhiều khi những sự phức tạp của các công thức toán có thể đã làm lu mờ đi bản chất của tư duy thống kê.  

1. Câu hỏi cơ bản nhất là vì sao chúng ta cần có những con số hay những dữ liệu (data)? Bởi vì, chúng ta muốn hiểu những sự biến thiên (variability/variation) trong tất cả các quá trình, các hiện tượng của đời sống. Sự biến thiên này luôn luôn tồn tại – đó là cơ sở cơ bản của thống kê nói chung. Ví dụ, thời gian bạn đi học/đi làm mỗi ngày, thời gian mặt trời mọc và lặn, thời gian bạn đi ngủ, nhiệt độ mỗi ngày, chất lượng của một sản phẩm, giá cả các loại thực phẩm, huyết áp/nhịp tim của bệnh nhân vào các thời điểm khác nhau, etc. Không cần toán học gì cả, bản chất của tư duy thống kê là việc nhận thức được sự tồn tại của các biến thiên, kiểm soát các biến thiên đó thông qua việc tìm hiểu nguyên nhân, phỏng đoán và đề xuất các phương pháp để giảm bớt nó.    

2. Biến thiên luôn tồn tại, và để kiểm soát nó thì ta cần phải đo lường nó. Bất cứ con số/dữ liệu nào cũng là kết quả của một quá trình đo lường hay lượng hoá nào đó, vì thế 1 con số nói lên điều gì hoàn toàn phụ thuộc vào việc những con số được tạo ra thế nào. Nói cách khác, để hiểu đúng 1 con số (và dùng nó), thì cũng cần hiểu việc nó ở đâu ra, và khi đồng ý sử dụng một con số (1 cách tự nguyện), bạn chấp nhận cách nó được tạo ra. Khi bạn nghe tới chỉ số hạnh phúc hay Việt Nam là nước hạnh phúc nhất thứ hai thế giới, liệu chắc bạn có chấp nhận việc chỉ số hạnh phúc được đo lường riêng biệt bởi 3 yếu tố: “cognitive evaluations of one’s life, positive emotions (joy, pride), and negative ones (pain, anger, worry)” (theo World Happiness Report 2015 – Chapter 2) cũng như cách đo lường từng yếu tố đó hay không? Đơn giản hơn, bạn có ngạc nhiên khi một câu hỏi như là “Có bao nhiêu quốc gia trên thế giới?” có thể có các câu trả lời từ 189,191, 192,193, 194, 195, 196… tuỳ thuộc vào định nghĩa “quốc gia” như thế nào. Như trong bài báo này, nếu bạn chấp nhận theo tiêu chuẩn của Bộ Ngoại giao Mỹ, bạn sẽ dùng 194, nhưng nếu theo World Almanacs, nó là 193.  

Việc suy luận được gì từ những con số cũng tương tự như vậy. Rất nhiều những cuộc thăm dò trên báo điện tử hoặc Internet hỏi về phỏng đoán ai sẽ dành chiến thắng, bạn yêu thích ai hơn. Rất bình thường khi kết quả của những cuộc thăm dò này không đúng với kết quả chung cuộc, vì những con số từ đây chỉ dựa trên những người vào báo điện tử hoặc webpage này (theo ngôn ngữ thống kê, thì dữ liệu mẫu này không có tính đại diện). Cũng không hiếm khi, và nguy hiểm hơn những kết luận cho cả quốc gia được suy ra từ những con số của một địa phương hay một tầng lớp nhỏ trong xã hội.   Hiểu các con số được tạo ra thế nào cũng giúp hiểu các giới hạn của nó. Nếu bạn hiểu giá trị trung bình được tạo ra chỉ là tổng giá trị dữ liệu chia cho số các dữ liệu, thì bạn cũng thấy hiển nhiên khi giá trị trung bình không nói lên gì về độ phân tán của dữ liệu.   Các con số chỉ có thể so sánh với nhau khi nó có cùng đơn vị và/hoặc được tạo ra một cách tương đối giống nhau. Tất nhiên, so sánh 2 con gà < 4 con vịt chả có ý nghĩa rồi, nhưng hồi trước mình thi đại học, nói 1 đứa thi được 27 điểm khối A giỏi hơn 1 đứa thi 23 điểm khối C cũng vậy, sự so sánh này là vô nghĩa. Hay trên thị trường tài chính, nếu bạn sử dụng những thông tin do chính các công ty đưa lên hay trên các trang tìm kiếm như Google, Yahoo, rất nhiều tỉ số như ROE hay về lợi nhuận cũng không có giá trị so sánh, khi các công ty có thể sử dụng các phương pháp kế toán khác nhau để tính những tỉ số đó.  

3. Tư duy thống kê hướng đến một trong những cách tiếp cận cho việc tìm hiểu nguyên nhân của các biến thiên trong cuộc sống và khoa học, đó là chia các biến thiên theo nguồn gốc và vai trò của nó: Common cause variation – những biến thiên mang tính chất lịch sử, có quy luật, thường gặp trong tất cả các mẫu – thường liên quan tới những đặc điểm quan trọng cả quá trình, và special cause variation – những biến thiên đặc biệt, chỉ gặp trong một hoặc một vài mẫu cụ thể – chỉ là những hiện tượng “bất thường” hay cá biệt. Thực tế, hầu như tất cả các biến thiên của 1 quá trình được gây ra chủ yếu bởi một vài common causes; nghĩa là, các nguyên nhân gây ra sự biến thiên có trọng lượng khác nhau, và tư duy thống kê trang bị những công cụ để tìm ra nguyên nhân quan trọng nhất.  

Tư duy thống kê thực tế không có gì cao siêu, nó rất gần gũi và hoàn toàn logic, thậm chí là những trực giác của cuộc sống hàng ngày. Tư duy thống kê, tư duy về những con số và dữ liệu quan trọng hơn nhiều bản thân những con số và dữ liệu đó; thậm chí, bạn không cần hiểu thống kê là gì để có được tư duy thống kê.