Cuộc chiến Frequentist vs. Bayesian

 

Trong phân tích dữ liệu, Frequentist và Bayesian có thể từng được xem như 2 trường phái “đối thủ” không đội trời chung của nhau. Sự khác nhau trong triết lí phân tích dẫn tới sự khác biệt trong cách phân tích và kết quả thu được của cùng một dữ liệu. Tuy vậy, cả 2 trường phái vẫn song song tồn tại, và có những ưu thế cũng như hạn chế nhất định so với trường phái còn lại. Trong bài viết này, mình sẽ minh hoạ những sự khác biệt quan trọng nhất thông qua các ví dụ đơn giản về việc tung đồng xu.

1. Nguồn gốc quan trọng nhất của sự khác biệt Bayesian và frequentist là cách hiểu về xác suất. Giả sử bây giờ có một đồng xu và chúng ta thường hay nói về xác suất mặt sấp/mặt ngửa khi tung lên là một con số nào đó. Ví dụ, xác suất mặt sấp là 0.5. Trường phái frequentist cho rằng, điều đó có nghĩa là nếu đồng xu được tung rất rất nhiều lần, khoảng 50% đồng xu sẽ rơi mặt sấp. Tuy vậy, trường phái Bayesian cho rằng, con số 0.5 chỉ là một sự đo lường về độ không chắc chắn (measure of uncertainty). Tức là, với Bayesian, xác suất là một ý kiếnchủ quan (opinion), một niềm tin (belief), phụ thuộc vào niềm tin của người phân tích, còn với frequentist, xác suất là một con số khách quan, một fact, hoàn toàn độc lập với niềm tin của người phân tích.

2. Sự khác biệt về cách hiểu xác suất ở trên dẫn tới những sự khác biệt quan trọng trong việc mô hình dữ liệu. Thứ nhất, giả sử chúng ta cần ước lượng xác suất mặt sấp của một đồng xu. Với frequentist, vì xác suất này là khách quan, nó là một tham số cố định – giá trị của nó là một fact. Trong khi đó, với Bayesian, vì xác suất là chủ quan, nó biến động tuỳ theo người phân tích, nên nó sẽ là một biến ngẫu nhiên – nó thể hiện niềm tin. Trước khi thu thập dữ liệu, bạn cũng đã có một niềm tin nhất định, thể hiện qua một phân phối tiền nghiệm (prior distribution). Chẳng hạn, nếu trước khi tung, phân phối tiền nghiệm của bạn là 20% xác suất mặt sấp là 0.5, còn 80% xác suất mặt sấp không phải là 0.5.Hệ quả là, trường phái frequentist xây dựng mô hình tìm giá trị của tham số hợp lí nhất với những gì quan sát được, còn trường phái Bayesian xây dựng mô hình để cập nhật niềm tin về biến ngẫu nhiên. Ví dụ, nếu chúng ta quan sát thấy 302 lần sấp trong 600 lần tung, frequentist đơn giản sẽ nói 302/600 là một giá trị hợp lí của xác suất mặt sấp. Còn với trường phái Bayesian, bạn sẽ cập nhật “niềm tin” của mình, để có một phân phối hậu nghiệm (posterior distribution), và từ đó rút ra các kết luận cần thiết. Trong trường hợp này, tuỳ theo mô hình của bạn, phân phối hậu nghiệm của bạn có thể như sau: 68% xác suất mặt sấp là 0.5, còn xác suất 32% xác suất mặt sấp không phải là 0.5, tức là đồng xu khả năng cao là cân bằng. Quay lại với xác suất chủ quan với xác suất khách quan, hệ quả tiếp theo là, các phương pháp frequentist thường yêu cầu số lượng quan sát lớn, còn phương pháp của trường phái Bayesian có thể áp dụng với tất cả số lượng quan sát. Đây là một ưu điểm cực lớn của trường phái Bayesian. Điều này hoàn toàn hợp lí, vì giả sử giờ bạn chỉ tung đồng xu 2 lần, và 0 có lần nào sấp. Với trường hợp frequentist, rất khó để bạn có thể kết luận được 1 giá trị hợp lí của xác suất mặt sấp. Nhưng trường phái Bayesian thì vẫn có kết luận: phân phối hậu nghiệm sẽ gần như giống hệt phân phối tiền nghiệm, niềm tin của bạn không có gì thay đổi!

3. Điều thú vị tiếp theo về sự khác biệt giữa frequentist và Bayesian có thể được thấy khi bây giờ, chúng ta làm 2 thí nghiệm riêng biệt cũng với 1 đồng xu như trên cùng để ước lượng xác suất mặt sấp. Ở thí nghiệm 1, bạn tung đồng xu 600 lần, và quan sát thấy 302 lần đồng xu rơi xuống mặt sấp. Ở thí nghiệm 2, bạn tung đồng xu liên tục và đếm số lần tung cho tới khi có 302 mặt sấp, bạn đã thấy đồng xu đã được tung đúng 600 lần. Bạn có tin rằng kết luận của bạn về xác suất mặt sấp của đồng xu là giống nhau trong 2 thí nghiệm? Nếu bạn tin, bạn là Bayesian, còn nếu không, bạn là frequentist. Đây là ví dụ để minh hoạ nguyên tắc hợp lí (likelihood principle), và trong khi frequentist không tuân theo nguyên tắc này, Bayesian luôn tuân theo nguyên tắc trên. Bayesian chỉ trích frequentist rất nhiều ở điểm này, vì tại sao 2 thí nghiệm xảy ra hoàn toàn như nhau về mặt quan sát nhưng có thể cho ra 2 kết luận khác nhau?

4. Bạn có thể đang băn khoăn phân tích Bayesian thế khác gì đoán mò, vì mỗi người có một niềm tin khác nhau, hay làm gì khi không có cơ sở gì để có phân phối tiên nghiệm? Yeah, đây cũng thường là nội dung bị chỉ trích nhiều nhất về trường phái Bayesian. Nhưng ngược lại, Bayesian cũng chỉ trích frequentist về những con số hoàn toàn arbitrary như độ tin cậy 95%, significant level 5%. Đồng thời, các phương pháp và mô hình Bayesian cũng cố gắng (1) thể hiện sự chi phối của dữ liệu so với phân phối tiên nghiệm, tức là phân phối hậu nghiệm chịu ảnh hưởng của data mạnh hơn so với ảnh hưởng của phân phối tiên nghiệm, và (2) sử dụng phân phối tiên nghiệm không có thông tin (ví dụ trong ví dụ kể trên, một phân phối tiên nghiệm không có thông tin là bạn tin rằng xác suất mặt sấp có thể là bất cứ giá trị nào từ 0 đến 1).


5. Cuối cùng, với tất cả các mô hình cổ điển theo trường phái frequentist, từ các mô hình đơn giản như hồi quy tuyến tính cho tới mô hình phức tạp như các mô hình phi tham số, đều có một “version” song song của Bayesian. Ví dụ, trong mô hình hồi quy tuyến tính đơn giản, $$, nếu $$ và $$ là các tham số cố định trong frequentist, chúng là các biến ngẫu nhiên trong Bayesian, nên chúng cũng có các phân phối tiền nghiệm và dựa trên data để tìm phân phối hậu nghiệm. Việc “fitting” mô hình trên, cũng như các mô hình Bayesian nói chung, không sử dụng các phương pháp bình phương nhỏ nhất thông thường như trong frequentist, mà sử dụng các định lí về xác suất và các giả lập (simulation) extensively. Đặc biệt các mô hình Bayesian đòi hỏi các kĩ thuật tính toán tương đối cao cấp và công suất tính toán (computing power) nhiều hơn rất nhiều so với frequentist, nên vì thế không phát triển mạnh cho tới những năm cuối thế kỉ 20.

KẾT LUẬN

Các mô hình Bayesian đã tăng tính linh hoạt và tăng sự lựa chọn cho việc phân tích dữ liệu hơn rất nhiều cho khoa học dữ liệu nói chung, còn trường phái frequentist thể hiện điểm mạnh về tính hiệu quả trong việc tính toán và tính giải thích (interpretation). Ngày nay, sự phát triển và nhu cầu cao của việc phân tích dữ liệu làm cho sự phân chia trường phái ít quan trọng hơn; thay vào đó, người phân tích dữ liệu cần sử dụng linh hoạt cả 2 trường phái để phân tích dữ liệu một cách hiệu quả nhất.

Appendix

Một số cuốn sách hay về Bayesian dành cho các bạn quan tâm:

– Bayesian Data Analysis – Andrew German: https://www.amazon.com/Bayesian-Analysis-Chapman-Statistical-Science/dp/1439840954

– Doing Bayesian Data Analysis – John Kruschke: https://www.amazon.com/Doing-Bayesian-Data-Analysis-Second/dp/0124058884/ref=sr_1_1?s=books&ie=UTF8&qid=1482824245&sr=1-1&keywords=doing+bayesian+data+analysis

2 quyển này mình đều có PDF, các bạn có thể tìm trên mạng, nếu ngại thì có thể PM mình.

———————–

Nguồn ảnh: – https://sofile.wordpress.com/tag/bayesian/ – https://twitter.com/revbayes/status/506577193804111872