Các loại dữ liệu

Một trong những điều thú vị nhất khi làm việc cùng với dữ liệu là tính muôn hình vạn trạng của nó. Mặc dù thống kê và học máy là 2 chuyên ngành chính nghiên cứu về dữ liệu, có rất nhiều phương pháp phân tích dữ liệu được ra đời từ những nhu cầu phân tích của các ngành khác – nhất là từ tính đặc thù trong dữ liệu của ngành đó. Ví dụ điển hình là kinh tế lượng (econometrics), gần như một ngành học ra đời để phân tích các dữ liệu trong kinh tế, khi dữ liệu phần lớn được thu thập dưới dạng bảng (panel data). Bài viết sau đây của mình sẽ giới thiệu với các bạn những kiểu biến số, tính chất dữ liệu phổ biến, từ đơn giản đến phức tạp và các dạng mô hình tương ứng với những kiểu dạng và tính chất đó.

Trong bài này, dữ liệu được hiểu là processed data, tức là những gì bạn có trong tay trước khi xây dựng mô hình. Khi đó các biến (cả features và response) đều ở dưới dạng các con số (numeric); ví dụ, dữ liệu thô có thể là một bức ảnh 800*600, thì processed data bao gồm các numeric features của 480,000 điểm ảnh. Hay nếu một feature dưới dạng binary (như Yes/No), nó được chuyển về dạng 0-1. Hay nếu bạn phân tích text data, “dữ liệu” trong bài này được hiểu là các term frequency. Trong bài này, các mô hình mình đề cập tới thường là các supervised model, với các features (X) và biến response (y).

A. Phân loại theo giá trị mà biến được nhận

Continuous/Interval Variable – Biến liên tục

Đây là kiểu dữ liệu phổ biến và đơn giản nhất, khi biến số có thể nhận dữ liệu tại bất cứ điểm nào trên trục số, hoặc bất cứ điểm nào trong một khoảng. Ví dụ, chiều cao và cân nặng của một người bất kì có thể nhận bất cứ giá trị lớn hơn 0 nào, doanh thu của một doanh nghiệp trong một năm cũng như vậy. Tất nhiên trên thực tế, bạn luôn luôn có một niềm tin về ngưỡng tối đa hoặc tối thiểu của giá trị, nhưng đặc điểm đặc trưng nhất của loại biến này là nó có thể nhận bất cứ giá trị nào trong ngưỡng đó. Đồng thời, các giá trị của nó có tính thứ tự (ordered), ví dụ bạn có thể so sánh cân nặng 160 kg nhỏ hơn 170 kg. Dữ liệu liên tục kiểu này cho phép bạn mô hình bằng những phân phối liên tục rất quen thuộc, như phân phối chuẩn, phân phối đều, etc. Hay như khi bạn sử dụng các mô hình hồi quy tuyến tính, một điều kiện tiên quyết là biến response y là một biến liên tục. Tuy vậy, kiểu biến liên tục này có nhiều tình huống đặc biệt, dưới đây là một số kiểu như thế:

Các biến về tỉ lệ (Rate/ratio): các biến này luôn luôn ở trong khoảng từ 0 đến 1, từ conversion rate trong marketing cho tới tỉ lệ tử vong trong một dịch bệnh. Rất nhiều nghiên cứu vẫn sử dụng các biến này như các biến liên tục với phân phối chuẩn, nhưng nếu muốn kiểm soát điều kiện từ 0 đến 1 ở trên, một mô hình phổ biến là hồi quy beta (beta regression).
Circular/Directional variable: các biến về giá trị góc trên một đường tròn. Trong các ngành như địa chất học, sinh học, nhiều khi hướng (directional) là một mối quan tâm; ví dụ, tìm hiểu về điều hướng (navigation) của các loài chim, hay sử dụng hướng gió để dự đoán nồng độ ozone trong không khí. Circular variable ghi dưới dạng các góc của một cung tròn, từ 0 độ đến 360 độ, nên rất nhiều các phép tính thông thường như trong biến liên tục có thể không có ý nghĩa; ví dụ, quan sát thứ nhất là 10 độ, và quan sát thứ hai là 350 độ – 2 góc nằm ở góc phần tư thứ nhất và thứ 4 của đường tròn. Tuy vậy nếu bạn lấy trung bình 2 góc là 180 độ, nó gần như nằm ở một vị trí rất khác. Vì thế, điểm mấu chốt khi làm việc với circular variable là việc sử dụng các toạ độ cực (polar coordinates).

2. Binary variable – Các biến nhị phân

Biến nhị phân là biến mà chỉ có thể nhận 2 giá trị là 0 và 1 – tương ứng với những đo lường trong một phân loại (category) chỉ có 2 giá trị (levels) cho phép, như Có/Không, Đúng/Sai, etc. Khi các biến này xuất hiện trong mô hình dưới dạng là biến response, bài toán trở thành bài toán phân lớp (classification) với rất nhiều thuật toán phổ biến như logistic regression, SVM, etc. Khác với biến liên tục, biến nhị phân không có tính thứ tự. Ở đây 0 và 1 chỉ đại diện cho 2 nhóm, chứ KHÔNG có tính so sánh như là 0<1.

Khi các biến này xuất hiện trong mô hình dưới dạng các features, về bản chất dữ liệu được chia ra thành các nhóm khác nhau, tuỳ theo số lượng của các biến nhị phân. Ví dụ đơn giản nhất là giả sử ta đang muốn mô hình thu nhập theo giới tính (Nam/Nữ). Ta có thể xem như dữ liệu được tách ra làm 2 nhóm, nhóm nam và nhóm nữ. Nếu chúng ta có thêm một biến số nhị phân như Lớn hơn 30 tuổi/Nhỏ hơn 30 tuổi, dữ liệu được tách ra làm 4 nhóm: Nam >30, Nữ >30, Nam <30, Nữ <30. Các mô hình cổ điển kiểu này được gọi chung là phân tích phương sai (analysis of variance – ANOVA). Nếu có thêm các biến khác, không phải biến nhị phân, chẳng hạn như số năm đi học, các mô hình này được gọi là phân tích hiệp phương sai (analysis of covariance – ANCOVA). Về bản chất, những mô hình ANOVA hay ANCOVA này không khác gì các mô hình hồi quy bội (multiple linear regression), tuy vậy sự tập trung của các mô hình là khác nhau. Trong khi mô hình hồi quy bội tập trung vào sự ảnh hưởng của các biến liên tục sau khi điều chỉnh các biến nhị phân, ANOVA/ANCOVA tập trung nhiều hơn vào sự khác biệt giữa các nhóm trên biến response.

3. Multinomial variable

Các biến multinomial variable là một sự mở rộng của các biến nhị phân, khi phân loại (category) có nhiều hơn 2 phân lớp (levels). Ví dụ một phân loại về xu hướng chính trị ở Mỹ có thể có Democrats/Republican/Neutral, etc. Khi được code vào trong máy tính, các levels cũng hay được đánh số như 1, 2, 3. Tuy vậy, điều nhấn mạnh quan trọng ở đây là các levels này không có tính thứ tự (unordered), tức là bạn không thể lấy tổng hay hiệu của các con số này, và đừng bao giờ quên đọc mô tả về ý nghĩa của các biến trước khi phân tích.

Khi các biến multinomial variable xuất hiện là các biến response, bài toán thường trở thành bài toán phân lớp nhiều tầng (multilevel classification). Khi các biến này xuất hiện dưới dạng các features, chúng thường được represented bởi một vài biến nhị phân; ví dụ, trong ví dụ về xu hướng chính trị ở trên, với 3 lớp Democrats/Republican/Neutral, thay vì được represented là 1,2,hay 3, nó có thể được represented bởi 2 biến nhị phân X1 = Democrats/Not Democrats và X2 = Republican/Not Republican. Theo cách này, một người Democrats sẽ được code là (1,0), một người Republican được code là (0,1), và một người Neutral được code là (0,0). Vì thế, các phân tích như trong biến binary variable (ANOVA/ANCOVA) có thể được áp dụng.

Một tình huống hay gặp khi làm việc với các biến nhị phân và multinomial variable là việc extremely unbalanced data giữa các phân lớp, tức là số lượng dữ liệu ở các level rất khác nhau. Ví dụ, khi muốn xây dựng mô hình dự đoán liệu một người có ý định mua ô tô trong 3 tháng sắp tới, số lượng biến response nhận giá trị No (không mua) chiếm đại đa số (một dataset mình đã nhìn thấy tỉ lệ này khoảng 95%). Nếu một mô hình phân lớp được xây dựng với toàn bộ dataset này, nếu bạn không để ý hiện tượng này, bạn sẽ thấy độ chính xác (accuracy rate) rất cao, nhưng thực ra lại không có nhiều ý nghĩa. Bởi vì, kể cả chẳng làm mô hình gì, chỉ từ việc quan sát dữ liệu, nếu một người dự đoán tất cả đều là No, độ chính xác đã lên tới 95%. Điều quan trọng trong các mô hình này không phải là độ chính xác, mà là false negative rate – tỉ lệ số người bạn dự đoán không mua xe mà họ đã mua xe thực sự. Một kĩ thuật phổ biến với các extremely unbalanced data là việc sử dụng undersampling và oversampling để làm cho data set trở nên balanced. Ví dụ bạn có 1000 quan sát với 950 No và 50 Yes, undersampling chọn ra ngẫu nhiên 50 quan sát No, và ghép lại với 50 Yes để tạo ra một balance dataset với 50 quan sát ở mỗi phân lớp. Ngược lại oversampling thì replicate mỗi 50 quan sát Yes 19 lần, tạo ra một balance với 950 quan sát ở mỗi phân lớp. Các mô hình phân lớp trên các oversampled/undersampled dataset cho ta một bức tranh tốt hơn về khả năng dự đoán của các mô hình.

Tuy vậy, những cách under/over sampling này cũng có nhiều điểm yếu, như làm thay đổi phân phối của dữ liệu và chi phí cho việc làm này đặc biệt lớn trong big data; một số cách làm khác, như theo comment của bạn Nguyễn Tiến Đức, mang tính kĩ thuật hơn, đó là việc thay đổi các tham số của hàm mất mát (loss function), hay sử dụng area under the curve (AUC) của ROC để điều chỉnh precision/recall của classification. Hoặc một cách khác, đó là việc sử dụng các algorithm mà work well với unbalanced data – như support vector machine (SVM). Tóm lại, bạn sẽ luôn cần cẩn thận với việc chọn algorithm và criteria để đánh giá các algorithm khi có unbalanced data.

4. Count variable (Biến đếm)

Một tình huống phổ biến khác là chúng ta có dữ liệu về số lần/số lượng một sự kiện xảy ra trong một khoảng thời gian nhất định, ví dụ số lượng tai nạn giao thông trong một năm, số lượng ca mắc bệnh mới, etc. Đó là ví dụ về count data (biến đếm).

Khi biến đếm xuất hiện dưới dạng các features, thông thường nó được sử dụng như một biến liên tục. Bởi vì mặc dù các giá trị của nó luôn là số nguyên, nó luôn có tính thứ tự và có tính so sánh (một sự kiện xảy ra 2 lần thì ít hơn 3 lần). Trong các mô hình đơn giản như mô hình hồi quy tuyến tính, ý nghĩa của hệ số với các biến count có thể được diễn giải như với các biến liên tục hoàn toàn hợp lí. Ví dụ, khi bạn muốn hồi quy về nồng độ CO2 trong không khí và số lượng cây xanh trong vùng, bạn hoàn toàn có thể nói cứ thêm một cây xanh nồng độ CO2 tăng/giảm một lượng nhất định.

Tuy nhiên, khi biến đếm xuất hiện là một response variable, điều kiện biến đếm phải là số nguyên không âm là một điều kiện ràng buộc. Ví dụ, trong lĩnh vực bảo hiểm, bạn muốn mô hình số lượng tai nạn giao thông của một người dựa trên các yếu tố như thu nhập, nghề nghiệp, tuổi tác, giới tính, etc. Nếu bạn sử dụng những mô hình cho biến liên tục như mô hình hồi quy tuyến tính, dự đoán của bạn có thể dự đoán số lượng tai nạn giao thông là số âm. Hơn nữa các biến count data thường bị lệch rất nhiều – tức là số lượng các giá trị thấp như 0,1,2 chiếm phần lớn, nhưng cũng có 1 ít các giá trị cao (như 15,16,…) – trong khi mô hình hồi quy tuyến tính thông thường với phân phối chuẩn giả định các response khá đối xứng.

Mô hình phổ biến cho các biến count data ở response variable là Poisson regression (mô hình hồi quy Poisson), negative binomial regression, và các phiên bản của 2 mô hình này để điều chỉnh cho overdispersion. Một trường hợp cũng hay gặp là mô hình của các sự kiện hiếm hoặc rất hiếm (rare event – extremely rare event) – những sự kiện này thường được quan tâm lớn vì tuy nó ít khi xảy ra, nhưng khi xảy ra, chi phí hoặc loss thường rất cao, vì thế đòi hỏi mô hình có độ chính xác lớn. Ví dụ nếu bạn muốn mô hình số lượng tai nạn máy bay nghiêm trọng xảy ra trong 1 năm, bạn sẽ cần sử dụng các rare event models.

5. Ordinal variable

Trường hợp phổ biến của biến kiểu này là các likert scale, khi dữ liệu thu được theo kiểu các câu hỏi “Đánh giá mức độ hài lòng với sản phẩm trên thang điểm từ 1 đến 10”. Nếu các biến này xuất hiên dưới dạng các features, thông thường có thể sử dụng nó như một biến liên tục.Tuy vậy, nếu các biến này là các response, các biến này có thể xem như một sự lai tạp giữa các biến multinomial và biến liên tục. Nhìn qua, các biến này có vẻ gần giống với biến multinomial ở chỗ, các bạn có thể xem như mỗi mức thang (từ 1 đến 10) như 1 level; tuy vậy, không giống như các biến multinomial, các levels này có tính thứ tự. Ngược lại, nó không hoàn toàn như biến liên tục, vì các giá trị của nó luôn là số nguyên, và các scale của nó có thể hơi tuỳ tiện (lúc thì thang điểm từ 1 đến 5, lúc thang điểm lại từ 5 đến 10, v.v). Kiểu dữ liệu này đem tới những mô hình trung gian giữa hồi quy (regression) và phân lớp (classification).

Một mô hình phổ biến của trường hợp này là các mô hình với biến ẩn (latent variable model). Quay lại với ví dụ ở trên về mức độ hài lòng. Mô hình biến ẩn này cho rằng, mức độ hài lòng thật là một biến liên tục từ 0 đến 10, và các giá trị số nguyên trong likert scale sẽ tương ứng với một khoảng của biến liên tục này. Ví dụ, nếu biến liên tục có giá trị từ 0 đến 1.8, trên likert scale sẽ là 1, từ 1.8 đến 2.9, trên likert scale sẽ là 2. Bài toán trở thành tìm các điểm giới hạn cho mỗi likert score trên các biến liên tục (như các số 1.8 hay 2.9 trong ví dụ ở trên). Rõ ràng, biến liên tục này không quan sát được, nên được gọi là biến ẩn.

Phần ở trên mình nói về các kiểu dữ liệu thường gặp phân loại theo các giá trị nó có thể nhận, tiếp sau đây sẽ là các tính chất dữ liệu thông qua tính chất của quá trình thu thập.

B. Phân loại theo tính chất của quá trình thu thập

Cross-sectional data (Dữ liệu cắt ngang)

Cross-sectional data là kiểu dữ liệu đơn giản nhất, khi các biến số chỉ được thu thập tại một thời điểm nhất định, hoặc giá trị của các biến số gần như không thay đổi theo thời gian hay không gian trong phạm vi của nghiên cứu. Mục đích chính của việc sử dụng cross-sectional data là khi bạn quan tâm nhiều hơn tới các biến số và mối quan hệ giữa chúng dựa trên bản chất của nó, chứ không quan tâm tới liệu các biến số và các mối quan hệ thay đổi theo thời gian/không gian như thế nào. Ví dụ, bạn sẽ sử dụng một cross-sectional data nếu muốn tìm hiểu mối quan hệ giữa thu nhập và trình độ học vấn nói chung, không kể tơi việc thu nhập và học vấn thay đổi theo thời gian như thế nào.

Đặc điểm quan trọng nhất của các quan sát trong cross-sectional data là có thể coi nó độc lập (independent), và vì thế các quan sát có thể exchangable (trong ví dụ kể trên, bạn thu thập thu nhập và học vấn của người 1 hay người thứ 1000 trước không quan trọng, và định danh của người 1 hay người thứ 1000 is indistinguishable). Nhận dạng cross-sectional data tương đối đơn giản bằng việc bạn không thấy yếu tố thời gian được cung cấp trong các biến số. Các mô hình cho cross-sectional data là các mô hình cơ bản nhất.

2. Time series data và Panel data: (Dữ liệu theo chuỗi thời gian và dữ liệu mảng)

Ngược với cross-sectional data, time series data là dữ liệu mà các biến số thường được thu thập theo thời gian cố định (ví dụ, GDP theo năm, doanh thu theo ngày), và thông thường các dữ liệu này thường thể hiện một sự ‘tổng kết’ của period giữa các điểm đo lường chứ không phải giá trị tức thời. Lấy ví dụ về GDP, giả sử số liệu này được tổng kết vào ngày 31-12 hàng năm, thế thì khi nói tới GDP của năm 2017, đó là một đo lường của nền kinh tế từ ngày 1/1/2017 cho tới ngày 31/12/2017, chứ không phải là giá trị tức thời của nền kinh tế vào ngày 31/12/2017.

Điều quan tâm đặc biệt trong các dữ liệu theo thời gian đó là các biến số được thay đổi theo thời gian như thế nào, vì thế nó không thể exchangable (ví dụ GDP từ 2015-2016-2017 luôn theo thứ tự đó, chứ ko thể 2015-2017-2016). Vì có tính thứ tự như vậy, các dữ liệu theo thời gian không còn độc lập. Hệ quả là, bạn luôn luôn phải để ý tới mối tương quan autocorrelation của các biến số theo thời gian, và cũng chính vì thế, bạn có thể forecast (dự báo) giá trị của biến số trong tương lai từ những gì quan sát được ngày hôm nay và trong quá khứ. Đó là lí do tại sao, trong financial data hay econometrics, người ta vẫn dự báo được GDP, giá chứng khoán và khối lượng giao dịch (technical analysis), tốc độ tăng trưởng, etc. Để dự đoán, rất nhiều những effect theo thời gian cần được điều chỉnh, như từ tính stationary (ổn định), seasonal (tính mùa vụ), v.v

Panel data (longitudinal data) kết hợp cả cross-sectional và time series, tức là bao gồm nhiều biến số được thu thập theo thời gian, trong đó có cả biến số thay đổi theo thời gian (time-variant) và các biến số không thay đổi theo thời gian (time-invariant). Trong panel data, khi xem xét các mối quan hệ giữa các biến số, luôn luôn cần cân nhắc tới việc các biến số thay đổi/evolve như thế nào theo thời gian, để xác định những fixed effects time-invariant (fixed effect) và những random effect that involves time. Panel data thường được sử dụng rất nhiều trong kinh tế lượng (econometrics).

3. Functional data

Functional data nhìn qua sẽ khá giống như time series data, khi các biến số cũng được thu thập theo thời gian. Tuy vậy, điểm khác biệt của các dữ liệu kiểu functional là các điểm thời gian trở nên liên tục và giá trị của các biến số theo thời gian là các giá trị tức thời. Ví dụ, khi nói về chỉ số ô nhiễm đo được ở một trạm quan trắc lúc 10h, đó là giá trị tức thời tại thời điểm đo lường. Thông thường, functional data thường có tốc độ cao (high velocity), tức là giá trị của biến số được đo lường với tần suất cao. Khi đó, sự thay đổi theo thời gian của các biến số thường smooth, tức là ít khi có những điểm nhảy trong dữ liệu. Dưới đây là hình ảnh minh hoạ về dữ liệu handwriting (chữ viết tay) của nhiều người khác nhau của cùng một chữ fda. Vị trí của cây bút theo thời gian được track một cách liên tục, và bạn có thể thấy chúng tạo nên một đường liên tục rất smooth. Functional data analysis vì thế còn được gọi là sự phân tích các đường (curves) và bề mặt (surfaces) theo thời gian.

Cũng giống như time series data, các dữ liệu theo thời gian không thể exchangable, và các dữ liệu theo thời gian không còn độc lập. Tuy vậy, một đặc điểm quan trọng trong phân tích functional data là các điểm thời gian là hoàn toàn ngẫu nhiên (random time), chứ không cố định như trong time series (ví dụ khi nói về chỉ số ô nhiễm lúc 10h, thời gian lúc 10h là một thời điểm ngẫu nhiên); khi đó, tính ngẫu nhiên của các điểm thời gian cần được xem xét khi phân tích sự biến động của dữ liệu.

4. Spatial data và spatial-temporal data: (dữ liệu không gian và dữ liệu không gian – thời gian)

Tương tự như thời gian, các quan sát có thể tương quan theo không gian, như theo khoảng cách hay theo vùng, gọi là spatial data. Ví dụ như khi phân tích bất động sản, giá đất tại các huyện ở khu vực ngoại thành Hà Nội có thể tương quan lớn với giá đất ở khu vực trung tâm, còn giá đất tại các tỉnh lân cận có thể ít tương quan hơn; độ mạnh của các mối tương quan trong trường hợp này phụ thuộc vào khoảng cách giữa các khu vực. Hay khi muốn ước lượng thu nhập của một vùng cũng vậy; bạn luôn cần xem xét tới thu nhập của các vùng phụ cận với nó. Khi phân tích hoạt động của bộ não con người, sự tương tác giữa các vùng chức năng theo không gian cũng là một yếu tố quan trọng. Spatial analysis đặc biệt phổ biến trong các ngành khoa học về môi trường.Các dữ liệu theo không gian có thể theo toạ độ địa lí, hoặc theo những vị trí tương đối giữa các khu vực (ví dụ tiếp giáp/không tiếp giáp). Khác với dữ liệu thời gian luôn chỉ có 1 chiều, không gian có thể có nhiều chiều, khiến các mô hình phân tích dữ liệu trở nên linh hoạt hơn.

Ngày nay, rất nhiều dữ liệu lớn là các dữ liệu spatial-temporal, tức là luôn luôn có cả yếu tố không gian và thời gian của các biến số. Trong các dữ liệu không gian/thời gian, ngoài những mô hình xây dựng các biến số để dự báo, còn có một loại mô hình rất hấp dẫn nữa là các mô hình stochastic point process, nghĩa là các bài toán liên quan tới việc dự đoán những điểm đặc biệt trong không gian/thời gian, ví dụ như các điểm changepoints (điểm bước ngoặt).

5. Censored data (dữ liệu không đầy đủ) và missing data (dữ liệu bị khuyết)

Censored data là trường hợp các đo lường đưa ra các giá trị không đầy đủ. Điển hình cho các dữ liệu loại này là các dữ liệu trong theo dõi thời gian cho tới khi một sự việc nào đó xảy ra (time-to-event analysis). Ví dụ, trong y tế, sau khi đièu trị bằng một treatment, một câu hỏi hay được đặt ra là liệu treatment này có kéo dài thời gian sống của bệnh nhân hay không, tức là sau bao lâu bệnh nhân tử vong. Thông thường các theo dõi chỉ có thể tiến hành trong một khoảng thời gian nhất định, như 20 tuần, 1-2 tháng. Khi đó, ở cuối kì theo dõi, kết quả của mỗi bệnh nhânđược diễn tả bằng 2 biến: 1 biến nhị phân ghi lại việc bệnh nhân đã tử vong hay chưa, và 1 biến ghi lại thời gian từ lúc treatment đến lúc tử vong. Hiển nhiên là, nếu bệnh nhân chưa tử vong, dữ liệu về thời gian này không có, nhưng chúng ta vẫn biết được thời gian này ít nhất là 20 tuần.

Ngoài ra cũng có rất nhiều trường hợp đo lường luôn có giới hạn ở một scale nhất định, ví dụ như khi đo nồng độ của một chất trong nước, nhiều lúc có những kết quả ghi dạng <0.001 hoặc >100. Những kiểu data không đầy đủ này khi muốn được sử dụng trong mô hình đòi hỏi những mô hình riêng – nếu những quan sát này bị bỏ qua, các mô hình này có thể rất sai lệch so với mô hình đúng.

Censored data là một trường hợp đặc biệt của missing data (dữ liệu bị khuyết). Việc một data bị missing như thế nào ảnh hưởng lớn tới quyết định làm gì vơi nó. Có 3 ‘cơ chế’ chính của việc missing, phụ thuộc vào việc liệu giá trị missing được giả định liên quan tới các dữ liệu còn lại và các ẩn số đang đi tìm hay không. Thứ nhất, nếu giả định data missing completely at random, tức là các dữ liệu bị mất độc lập hoàn toàn với những dữ liệu còn lại, những quan sát chứa các dữ liệu bị mất này có thể được bỏ qua. Tuy vậy, các missing data hiếm khi thuộc loại này. Giả đinh phổ biến nhất là data missing at random, nghĩa là tuy các dữ liệu bị mất không độc lập với những dữ liệu còn lại, các giá trị missing có thể được suy ra từ những giá trị không bị mất. Khi đó, các phương pháp thay thế (imputation) thường được sử dụng để thay thế những giá trị bị mất này. Loại cuối cùng là loại phức tạp nhất, gọi là missing not at random, nghĩa là việc một giá trị bị mất phụ thuộc cả vào những phần dữ liệu quan sát được và cả chính giá trị bị khuyết của nó. Với loại này, thường nhiều cơ chế cụ thể cho việc missing được giả định và sử dụng các sensitivity analysis để thay thế các giá trị missing và chạy các mô hình.

6. Data from complex sample designs và meta-data

Một trường hợp phổ biến khác là các dữ liệu được lấy từ các cuộc điều tra/khảo sát có thiết kế mẫu phức tạp. Thông thường các dữ liệu có thể được coi là các mẫu đơn giản (simple random sample) từ tổng thể, nhưng không thiếu những cuộc điều tra quy mô lớn (như census) có những cách lấy mẫu phực tạp, như lấy mẫu phân tầng (stratified sampling), lấy mẫu theo cụm (cluster sampling), lấy mẫu nhiều giai đoạn (multistage sampling). Với mỗi kiểu lấy mẫu, các dữ liệu thu được đại diện cho những phần tương ứng của tổng thể với trọng lượng khác nhau, và các mô hình cần cân nhắc những trọng lượng này khi phân tích.

Repeated Measurements (Các đo lường được lặp lại): Trong y học và nhiều ngành khoa học thực nghiệm, rất nhiều các thông số như huyết áp, chiều cao cân nặng cho tới các đo lường trong gene được thực hiện nhiều lần tại một thời điểm nhất định. Điều này giúp cho việc đánh giá ảnh hưởng của các lỗi đo lường (measurement error) trong mô hình. Thực tế, nếu bạn chỉ đơn giản lấy giá trị trung bình của các đo lường và bỏ qua giá trị quan sát thật của các đo lường, các mô hình thường không còn đúng nữa (theo nghĩa là các estimate sẽ không còn consistent, variable selection có thể bị sai rất nhiều, v.v). Các mô hình có điều chỉnh tới các lỗi đo lường được gọi là measurement error models, nổi tiếng nhất là error-in-variable regression.

Meta-data là trường hợp dữ liệu được ghép lại từ nhiều nghiên cứu/điều tra/thí nghiệm khác nhau. Ví dụ, khi điều tra về mối quan hệ giữa hút thuốc và ung thư phổi, có hàng trăm các cuộc điều tra lấy dữ liệu trên thế giới. Điều phổ biến là việc các điều tra/nghiên cứu này nhiều lúc cho ra những kết quả trái ngược nhau, nên khi muốn tổng hợp các kết quả lại để suy rộng ra tổng thể lớn hơn, các phân tích luôn luôn cần xem xét việc dữ liệu được thu thập ở các thời điểm, không gian khác nhau, có những thiết kế lấy mẫu khác nhau.

Kết luận: Với mỗi kiểu biến và tính chất dữ liệu như ở phía trên, có rất nhiều vấn đề và bài toán liên quan, và tương ứng với mỗi kiểu vấn đề đó, lại có rất nhiều mô hình, phương pháp, cách tiếp cận khác nhau nhằm giúp khai thác những thông tin hiệu quả hơn từ dữ liệu thu được. Điều này đem lại thế giới rộng lớn của việc phân tích dữ liệu, đặc biệt là các dữ liệu lớn, đem lại rất nhiều chỗ cho sự sáng tạo của người làm, người học. Tuy vậy, sự đa dạng này cũng đòi hỏi người làm người làm, người học có những kiến thức, nguyên lí vững chắc và khả năng tự học để có thể thích nghi và trở nên linh hoạt khi gặp những tình huống dữ liệu mới.

Nguồn ảnh cover: https://nccwsc.usgs.gov/data-policies-and-guidance

Linh Nghiem

Statistics and Machine Learning

Các loại dữ liệu