Tại sao các tổ chức nhỏ cũng nên xây dựng kho dữ liệu Data warehouse càng sớm càng tốt?


      Đầu tiên, kho dữ liệu có thể hiểu một cách đơn giản nhất là nơi để lưu trữ tất cả các dữ liệu mà một tổ chức có. Dữ liệu của một tổ chức có thể xuất phát từ hoạt động kinh doanh, hay từ các nguồn thông tin khác như đi thu thập từ bên ngoài, đi mua từ các tổ chức khác…
(https://vi.wikipedia.org/wiki/Kho_d%E1%BB%AF_li%E1%BB%87u).

Vậy Kho dữ liệu (Data Warehouse) giải quyết vấn đề gì?

        Các tổ chức nhỏ hoặc một số các tổ chức trung bình nhưng chưa chú trọng vào vấn đề lưu trữ dữ liệu, những tổ chức này thường lưu trữ dưới các file/ folder riêng lẻ bằng các định dạng như Excel, Csv, word, pdf hay các định dạng khác. Điều này dẫn tới việc các file dữ liệu khó trong việc tái sử dụng hoặc khó kết hợp với nhau khi sử dụng. Việc lưu trữ cũng không được quan tâm đúng mức, có thể bị xóa mất hoặc lưu trữ đè lên dẫn tới mất vết các file cũ mà không phục hồi được. Sau một thời gian dài hoạt động việc lấy lại các thông tin, dữ liệu từ cũ là vô cùng khó khăn. Có thể hiểu việc này dẫn tới sự lãng phí cả về tài sản lẫn công sức vô cùng lớn.
      Thêm nữa, một số tổ chức quy mô nhỏ hoặc trung bình nhưng dữ liệu sử dụng hoặc sinh ra trong quá trình hoạt động lại vô cùng lớn. Những tổ chức này thường hoạt động trong lĩnh vực kho trạm hoặc sử dụng dữ liệu của các tổ chức/ đơn vị khác. Nếu việc lưu trữ không khoa học, phân tán thì việc sử dụng đã là một khó khăn và việc lưu trữ theo thời gian là một khó khăn với mức độ lớn hơn nhiều lần.
       Một ví dụ rất thực tiễn, tôi từng làm Nghiên cứu khoa học từ khi còn là sinh viên. Việc nghiên cứu bằng Phương pháp định lượng cần thu thập rất nhiều thông tin khác nhau để có thể sử dụng cho bài nghiên cứu. Các dữ liệu đó tôi phải đi lấy từ các báo cáo tài chính, báo cáo thống kê và các cuộc khảo sát nữa. Nhưng khi nhìn rộng ra, các dữ liệu này không chỉ một mình tôi có thể sử dụng mà những người khác nghiên cứu tới cũng sẽ cần khai thác. Vậy giả sử việc hai người ở hai thời điểm khác nhau cùng thu thập một loại dữ liệu thì sẽ mất hai lần công sức. Đó là khi bỏ qua các yếu tố việc thu thập từ các nguồn khác nhau, nguồn được trích dẫn khác nhau dẫn tới số liệu có thể khác nhau và ảnh hưởng tới kết quả của toàn bộ bài nghiên cứu. Mà biết đâu, cùng là một file dữ liệu nhưng trong một lần sử dụng tôi đã lưu đè các thông tin phái sinh lên đó dẫn tới lần sau chẳng còn được dùng lại nữa.
       Qua ý kiến và dẫn chứng cụ thể những gì tôi đã trải qua có thể thấy ngay một điều: Dữ liệu đã lấy đi quá nhiều thời gian và công sức của người sử dụng nếu vẫn tiếp tục lưu trữ, khai thác theo cách thủ công như hiện tại. Hơn nữa lãng phí tài nguyên dữ liệu mới là điều đáng kể nhất. Việc tìm kiếm các dữ liệu lịch sử càng xa càng khó khăn không chỉ vì chất lượng dữ liệu kém, mà còn  do việc lưu trữ không khoa học và tập trung.

        Hy vọng sau bài viết này sẽ làm cho người đọc cảm thấy có điều gì đó cần thay đổi ở tổ chức, hay ở chính bản thân mình về tầm quan trọng của dữ liệu mà mình đang sử dụng. Trong bài viết sau tôi sẽ hướng dẫn cụ thể hơn để có thể bắt đầu lưu trữ, xây dựng kho dữ liệu tại tổ chức nhỏ. Với ví dụ thực tiễn tại một tổ chức chuyên về nghiên cứu khoa học. Hi vọng thông qua đó người đọc có thể tự thực hiện được tại tổ chức của mình.

Nhận xét