Trong statistics/machine learning (ML) /data science, có 1 nguyên tắc được gọi là bias-variance tradeoff, thường được dịch ra tiếng Việt là đánh đổi giữa phương sai và thiên vị (hay độ lệch). Nguyên tắc này thường được giải thích một cách toán học qua các lí thuyết xác suất rồi hình vẽ, nên tưởng chừng như nó rất trừu tượng. Tuy vậy, nguyên tắc này thực ra gần gũi trong cuộc sống.
Ví dụ đầu tiên đó là việc bạn muốn tìm hiểu người Việt Nam nghĩ gì về tổng thống Trump của Mỹ. Nếu bạn hỏi quá ít người, chẳng hạn chỉ 5 người Việt và tổng quát ý kiến của họ thành ý kiến của toàn bộ người Việt, bạn sẽ bị thiên vị rất nhiều. Vậy nếu bạn hỏi tới 100 người thì sao? Bằng việc hỏi nhiều hơn, bạn hi vọng sẽ có một bức tranh không thiên vị, nhưng ngược lại bạn sẽ có thể gặp khó khăn trong việc tổng hợp ý kiến của 100 người đó, vì ý kiến của họ có thể khác nhau rất nhiều (phương sai lớn). Đây chính là bản chất của nguyên tắc bias-variance tradeoff. Nếu bạn muốn ko thiên vị, bạn thường cần chấp nhận rủi ro của việc phương sai lớn, và ngược lại, nếu bạn muốn phương sai nhỏ, bạn có thể sẽ thiên vị rất nhiều. Trong ví dụ kể trên, thường là chúng ta sẽ ưu tiên sự không thiên vị (unbiasedness), và chấp nhận phương sai tương đối lớn – nghĩa là bạn ưu tiên giảm bias lớn hơn variance.
Tuy vậy, không phải lúc nào việc ưu tiên giảm bias cũng là một chiến thuật tốt. Một ví dụ khác đó là nếu bạn đã viết xong một bài luận và cần nhờ một vài người nhận xét đánh giá. Nếu bạn muốn giảm sự thiên vị, bạn có thể nhờ rất nhiều người xem và đánh giá – nhưng ngược lại, bạn sẽ ở vào một trạng thá tiến thoái lưỡng nan khi nhận được những ý kiến rất khác nhau, từ chê thậm tệ cho tới khen hết lời 🙂 Lời khuyên thường được đưa ra là đưa bài luận cho một số ít người (ví dụ 2-3 người) thuộc các background khác nhau – dù bạn chọn rất cẩn thận, bạn đang luôn luôn chấp nhận việc thiên lệch có thể rất lớn, để đổi lại phương sai nhỏ.
Chuyển sang một ví dụ ngay từ các lớp học introductory statistics là về giá trị trung bình (mean) và giá trị trung vị (median). Trong nhiều trường hợp, sử dụng giá trị trung bình dẫn tới ước lượng không lệch, tức là bias = 0, vì giá trị trung bình được tính từ giá trị của tất cả các quan sát trên dữ liệu. Ngược lại, giá trị trung vị (median) trong đại đa số các trường hợp chỉ được tính từ giá trị của 1 hoặc 2 quan sát (dữ liệu còn lại chỉ được dùng để xếp hạng), nên giá trị thiên vị thường bị lệch. Nhưng nhìn ở góc độ bias-variance tradeoff, vì sử dụng giá trị của tất cả dữ liệu, phương sai của giá trị trung bình sẽ lớn hơn phương sai của giá trị trung vị rất nhiều. Bằng chứng là nếu trong dữ liệu có các điểm ngoại lệ (outlier), giá trị trung bình sẽ không còn đáng tin cậy, và giá trị trung vị sẽ được khuyên dùng.
Trong statistics và ML, tất cả những khái niệm về thiên lệch và phương sai được lượng hoá, nên một giải pháp thường được dùng để lượng hoá sự đánh đổi nói trên là dùng các metric như mean square error (MSE). Về mặt trực quan, mô hình với MSE nhỏ nhất không có quá nhiều thiên lệch và cũng không có phương sai quá lớn, nên tương đối tối ưu. Một quá trình để tìm tới điểm đó thường được gọi là hiêu chỉnh (regularization), thông thường bắt đầu với một mô hình không thiên vị, sau đó tìm cách thay đổi để giảm phương sai. Trong ví dụ đầu tiên, quá trình này tương đương với việc bạn hỏi một số lượng lớn người về ý kiến của họ về Trump trước, sau đó loại bỏ dần một vài ý kiến cho đến khi bạn có thể tổng hợp được toàn diện và trọn vẹn (tất nhiên việc loại bỏ như thế nào là một câu chuyện hoàn toàn khác).
Dù nặng về toán, lập trình, tính toán, mình tin rằng một phần quan trọng của statistics/machine learning/data science là về các khái niệm và tư duy không chỉ áp dụng trong việc phân tích dữ liệu mà còn ở nhiều nơi khác trong cuộc sống. Sự đánh đổi giữa thiên vị và phương sai là một trường hợp như vậy: kiểm soát thiên vị và phương sai luôn nên được tính đến trong nhiều tình huống.