Data Visualization: Các biểu đồ cơ bản

Một trong những công việc khá thường xuyên của những người làm việc với dữ liệu là việc phải sử dụng các đồ thị (graphs) để diễn tả và trình bày dữ liệu và các kết quả phân tích từ dữ liệu. Nếu được sử dụng hợp lí, các đồ thị có thể truyền đạt được những thông điệp từ dữ liệu một cách nhanh gọn, cô đọng và thuyết phục. Tuy vậy, khi bị sử dụng một cách tuỳ tiện, bảng biểu và hình vẽ có thể phản tác dụng, làm cho việc truyền đạt trở nên sai lệch hoặc rất khó hiểu. Trong bài này, mình sẽ điểm qua một vài recommendations được chấp thuận rộng rãi trong professional statistician và data scientist cho các biểu đồ cơ bản và được dùng phổ biến.

Nhìn chung, nguyên tắc cơ bản để đánh giádata visualization = hiệu quả + tiết kiệm. Đừng cho người đọc cần làm toán hay suy nghĩ để hiểu thông điệp chính đưa ra từ graphs.

1. Tránh sử dụng biểu đồ tròn (pie chart) và các version như 3D pie chart, dough nut, etc.; sử dụng bảng (table)Biểu đồ tròn (pie chart) được coi như “evil” trong data visualization, vì lượng thông tin nó cung cấp rất rất ít và dễ gây nhầm lẫn. Ví dụ dưới đây, biểu đồ dùng để diễn tả phần trăm giá trị thị trường của 7 công ty trong 1 industry, có 3 “versions” của biểu đồ tròn thường gặp như sau:

3 biểu đồ này có vẻ trông rất đẹp, nhưng không có giá trị nhiều về thông tin vì những lí do chính như sau:

  • Với biểu đồ 1, rất khó để ước lượng độ lớn thực sự của các phần trong biểu đồ tròn cho mục đích so sánh các công ty một cách chính xác. Mắt người ước lượng diện tích kém chính xác hơn rất nhiều so với ước lượng đường thẳng.
  • Với biểu đồ 2, sử dụng chú thích (legend) để đánh dấu các công ty làm chọ người đọc mất công đối chiếu từ biểu đồ và chú thích.
  • Với biểu đồ 3, thực sự hoàn toàn đọc các label trên biểu đồ đã hoàn toàn đủ thông tin chứ không cần sử dụng màu sắc cũng như việc chia các phần trên biểu đồ.

Toàn bộ thông tin trên biểu đồ tròn phía trên có thể hoàn toàn được diễn đạt bằng một bảng ngắn gọn và hiệu quả sau.

Bảng ở trên là cách được strongly recommended để diễn tả các categorical data, đặc biệt với nhiều hơn 3 categories. Trong trường hợp này, các biểu đồ tròn ở trên không những không truyền đạt bất cứ thông tin gì thêm so với bảng ở trên; quá nhiều màu sắc thường có thể gây phân tán cho người đọc, và không kể đó là một sự lãng phí về không gian, mực, và có thể tốn sức (nếu bạn phải vẽ bằng tay :)) Nếu biểu đồ tròn được dùng, hãy chỉ dùng nó khi có không nhiều hơn 3 categories.

Đọc thêm về việc tránh sử dụng pie chart ở đây: https://www.quora.com/How-and-why-are-pie-charts-considered-evil-by-data-visualization-experts

2. Hạn chế sử dụng biểu đồ cột/thanh (column/bar graphs), sử dụng dot chart Vấn đề chủ yếu của biểu đồ cột/thanh nói chung và đặc biệt là biểu đồ cột/thanh nhóm nói nôm na là “tốn mực.” Vì trong khi bạn phải vẽ cả cột/ rất dài, giá trị thông tin duy nhất của các cột/thanh đó là chiều cao/chiều dài của nó. Điều này có thể được diễn tả gọn hơn nhờ dot-chart. Trong 2 ví dụ dưới đây, dot chart thể hiện cùng một thông tin so với bar graphs, nhưng gọn và hiệu quả hơn .

3. Tránh sử dụng các biểu đồ chồng (stacked graphs) hoặc biểu đồ miền (area chart), sử dụng các biểu đồ đường (line plots)Personally, các biểu đồ chồng và biểu đồ miền là loại confusing nhất với mình, vì thực sự rất khó để so sánh được dữ liệu từ đó. Sử dụng các biểu đồ đường hiệu quả và dễ nhìn thông tin hơn rất nhiều.

4. Đừng bao giờ sử dụng biểu đồ dưới dạng 3D nếu có thể sử dụng 2D

Thông thường đọc biểu đồ 3D khó hơn rất nhiều so với đọc biểu đồ 2D, vì thế đừng làm mọi thứ trở nên phức tạp không cần thiết.

5. Với sự trợ giúp của máy tính và các phần mềm, các lỗi sau mình thấy ít gặp hơn, nhưng không bao giờ thừa để check:

  • Luôn để ý tới scale trên cả trục tung và trục hoành. Trục tung phần lớn bắt đầu từ 0, và trục hoành thường chia đều theo đơn vị, không nhảy cóc. Trong website này, most misleading and graphs phần lớn là do các scale trên các trục bị thay đổi, làm biến dạng các graphs. http://www.statisticshowto.com/misleading-graphs/
  • Luôn luôn sort data trên bar graph/column graph bằng cách sử dụng Pareto charts; tránh sử dụng “Alabama first” – sort data theo bảng chữ cái.
  • Không sử dụng legend nếu chỉ có 1 category.
  • Đừng dùng quá 6 màu trong một graphs.

Cuối cùng, nếu các bạn cần sử dụng những dạng visualization cao cấp hơn (histogram, boxplot, face plot, star plot, autocorrelation plot, etc.) luôn luôn cố gắng hiểu các ý nghĩa thực sự của chúng trước khi sử dụng. Hãy luôn cố gắng HIỆU QUẢ + TIẾT KIỆM để truyền đạt thông tin. Đừng quá sáng tạo để tạo ra những “tuyệt tác” như trong bài dưới đây: http://www.businessinsider.com/the-27-worst-charts-of-all-time-2013-6