NGÀNH KHOA HỌC DỮ LIỆU (DATA SIENCE) 

MỚI MẺ, ĐẦY HẤP DẪN VÀ TRIỂN VỌNG

 

                                             Nguyễn Đăng Khoa 

 

Abstract: The article deals with data science. Data Science (KHDL) is the science of data management and analysis to find insights, knowledge of action, and decisions that lead action. Business plan consists of three main parts: Creating and managing data, analyzing data, and converting the analysis results into the value of action, including two steps: The first step is about digitizing and the second is about using data. The analysis and use of data is based on the harmonious cohesion of three main components: three sources of knowledge: mathematics (mathematical statistics), information technology (machine learning) and knowledge of the respective field. specific tools. Recently, the Data Sience industry has been voted as the "most attractive industry in the 21st century" - the leading industry in the world with huge income. The new fuel for 21st century industries is data. Industries need data to improve their performance, make their businesses grow and deliver better products to customers.

 

1.GIỚI THIỆU CHUNG

Mỗi ngày, các cá nhân và tổ chức tạo ra khoảng 2,5 tỷ gigabyte dữ liệu; trung bình có 5 tỷ video được đăng tải lên Youtube mỗi ngày, mỗi giây có khoảng 40.000 lượt tìm kiếm google .... nhưng chỉ hơn 1% trong số dữ liệu khổng lồ đó được phân tích. Ai khai thác và tận dụng được kho thông tin quý giá này người đó sẽ thành công. Tuy nhiên, để phát huy tối đa sức mạnh của nguồn dữ liệu này cần sự góp sức lớn của các nhà khoa học dữ liệu, những người sẽ chuyển nguồn dữ liệu thô thành thông tin có giá trị.

Gần đây, ngành Data Sience đã được bình chọn trở thành một ngành có “độ hấp dẫn cao nhất thế kỷ 21” – đứng đầu trong những ngành có thu nhập khủng trên toàn cầu. Nhiên liệu mới của các ngành công nghiệp thế kỷ 21 chính là dữ liệu. Các ngành công nghiệp cần dữ liệu để cải thiện hiệu suất của họ, làm cho doanh nghiệp của họ phát triển và cung cấp sản phẩm tốt hơn cho khách hàng

Khoa học dữ liệu (KHDL) là khoa học về việc quản trị và phân tích dữ liệu để tìm ra các hiểu biết, các tri thức hành động, các quyết định dẫn dắt hành động. KHDL gồm ba phần chính: Tạo ra và quản trị dữ liệu, phân tích dữ liệu, và chuyển kết quả phân tích thành giá trị của hành động, gồm hai bước: Bước thứ nhất là về số hóa và bước thứ hai là về dùng dữ liệu. Việc phân tích và dùng dữ liệu lại dựa vào sự gắn kết hài hoà của ba thành phần chính: ba nguồn tri thức: toán học (thống kê toán học), công nghệ thông tin (máy học) và tri thức của lĩnh vực ứng dụng cụ thể.

Thật vậy, khoa học dữ liệu là khoa học về việc tạo ra và dùng dữ liệu. Điểm mới trong thời đại chuyển đổi số hiện nay là sự kết hợp hài hoà của toán học và CNTT, ngành CNTT phải đào tạo thêm về kiến thức toán học, còn ngành toán học cần đào tạo thêm về tính toán với máy tính. Khoa học dữ liệu cần quan hệ hài hoà của hai lĩnh vực này để phân tích và xử lý được các nguồn dữ liệu rất phức tạp và rất lớn. Các phương pháp và công cụ của KHDL có thể ứng dụng vào mọi lĩnh vực, và tri thức của lĩnh vực ứng dụng là cần thiết để dùng chúng hiệu quả. KHDL trở nên vô cùng quan trọng vì các nguồn dữ liệu ngày càng nhiều và được xem là tài nguyên chủ yếu cho sự phát triển của xã hội loài người.

Khoa học dữ liệu (data science) ở cấp độ cơ bản nhất được định nghĩa là sử dụng dữ liệu để có được thông tin chuyên sâu và có giá trị. Ở mức cao hơn, khoa học dữ liệu là sự kết hợp phức tạp của các kỹ năng như lập trình, trực quan hóa dữ liệu, công cụ dòng lệnh, cơ sở dữ liệu, thống kê, học máy và nhiều hơn nữa để phân tích dữ liệu và thu thập thông tin giá trị từ số lượng lớn dữ liệu.

 

2. ỨNG DỤNG CỦA KHOA HỌC DỮ LIỆU

Khoa học dữ liệu sẽ giúp doanh nghiệp giải quyết các vấn đề đang tồn đọng và phức tạp, giảm thiểu việc không hiệu quả, nâng cao dịch vụ khách hàng và tạo ra cơ hội mới.Khoa học dữ liệu là một lĩnh vực liên ngành liên quan đến việc nghiên cứu, tìm hiểu và trích rút thông tin/tri thức từ các tập (rất lớn) dữ liệu tồn tại dưới nhiều các định dạng khác nhau. Khoa học dữ liệu có ảnh hưởng rộng lớn và trực tiếp đến nhiều lĩnh vực nghiên cứu ứng dụng khác nhau: từ dịch máy, nhận dạng tiếng nói, robot, công cụ tìm kiếm, cho đến các ngành khoa học sinh học, y sinh, chăm sóc sức khỏe, khoa học xã hội và nhân văn.

Nếu phân tích dữ liệu về nhu cầu điện, ta có thể quyết định cần xây bao nhiêu công trình thủy điện, turbin gió. Nếu có và phân tích được dữ liệu mô phỏng các phương án xả lũ vào mùa mưa ta có thể chọn được cách xả lũ ít thiệt hại nhất. Nếu có và phân tích được các bệnh án điện tử của người bệnh ta có thể tìm ra được phác đồ thích hợp hơn cả cho người bệnh. Amazon đã phân tích các lần mua hàng trước của bạn để dự đoán những món đồ bạn có thể sẽ thích mua và gửi quảng cáo tới, v.v. Khi nghe nói về các thành tựu đột phá gần đây của Trí tuệ nhân tạo người nghe có thể cũng chưa biết rằng phần lớn chúng đều dựa vào các phương pháp và đột phá của KHDL. 

Một trong những ứng dụng nổi tiếng của khoa học dữ liệu là Facebook, mạng xã hội lớn nhất hành tinh, một trong những cái tên được nhắc tới nhiều nhất trong giới trẻ hiện nay. 

Tại hội nghị các nhà phát triển F8 đầu năm 2016, CEO Mark Zurkerberg cũng đã thông báo về một lộ trình mười năm tới. Trong đó, sẽ tạo ra một hệ sinh thái với những sản phẩm và công nghệ tiên tiến như trí tuệ nhân tạo (Artificial Intelligence). Tất cả đều dựa trên toàn bộ nguồn dữ liệu từ người dùng và các thuật toán máy học (Machine Learning Algorithms).

Tính tới tháng 8 năm 2016, tổng số lượng người dùng trên trang Facebook cán đến mốc 1,750,000 người, gấp 5 lần dân số nước Mỹ, tương đương với 1/3 dân số thế giới và lớn hơn tổng số dân của châu Âu, châu Úc và Nam Mỹ cộng lại.

Nghề mới trong CNTT: những nhà khoa học phân tích dữ liệu …

Theo thống kê của Glassdoor, một trong những trang web việc làm lớn nhất thế giới, ngành khoa học dữ liệu đứng đầu trong số 25 nghề nghiệp tốt nhất, đứng thứ 16 về mức lương với trung bình hơn $116,000 và có nhiều vị trí được tìm kiếm tuyển dụng nhất trong năm 2015 ở Hoa Kỳ

Trong một nghiên cứu của O'Reilly, một trong những nhà phát hành chuyên về mảng công nghệ và khoa học máy tính, có 4 dạng nhà khoa học dữ liệu tiêu biểu.

a.Doanh nhân (Data Businesspeople)

Quan tâm vào sản phẩm và phát triển lợi nhuận, họ là các nhà lãnh đạo, nhà quản lý và doanh nhân có sự am hiểu về mặt kỹ thuật. Đa phần đều có nền tảng giáo dục xuất phát bằng kỹ sư kết hợp với một MBA.

b. Nhà sáng tạo (Data Creatives)

Có nhiều biệt tài và kinh nghiệm với nhiều dạng dữ liệu và công cụ, những nhà sáng tạo thường ví von mình như là một nghệ sĩ hoặc tin tặc. Điểm nhấn thường thấy là sự xuất sắc sử dụng các công nghệ minh họa (Visualization Techonology) và mã nguồn mở.

c. Nhà phát triển (Data Developers)

Nhà phát triển dữ liệu thường tập trung vào việc viết phần mềm để làm phân tích, thống kê, và nhiệm vụ học máy, thường xuyên trong môi trường sản xuất. Họ thường có trình độ khoa học máy tính, và thường xuyên làm việc với cái gọi là "dữ liệu lớn" (Big Data).

d. Nhà nghiên cứu (Data Researchers)

Đó là những người áp dụng những kỹ năng được đào tạo trong khoa học cùng với các công cụ và kỹ thuật, số liệu. Một số có bằng tiến sĩ, và các ứng dụng sáng tạo các công cụ toán học mang lại những hiểu biết và sản phẩm có giá trị.

 

3. CÁC CHƯƠNG TRÌNH ĐÀO TẠO CỬ NHÂN VỀ KHOA HỌC DỮ LIỆU TẠI VIỆT NAM HIỆN NAY VÀ TRIỂN VỌNG NGHỀ NGHIỆP

 

Ở nước ta vài năm trở lại đây, một số trường đại học đã bắt đầu mở ngành khoa học dữ liệu với các chương trình đào tạo thiết thực. Hầu hết các trường trên thế giới đều bắt đầu với chương trình thạc sỹ KHDL, sau đó là chương trình cử nhân. Một người đã được đào tạo ngành nghề về kinh doanh, về y tế hay CNTT, nay học thêm về KHDL trong vòng hai năm sẽ trở thành chuyên viên phân tích dữ liệu trong ngành của họ, một vị trí công việc mới xã hội đang rất cần.

Ở Việt Nam, Viện John von Neumann của ĐHQG TPHCM đào tạo thạc sĩ về KHDL từ năm 2014. Năm 2018, chương trình cử nhân về KHDL của Trường Đại học CNTT – ĐHQG TPHCM và chương trình thạc sĩ của Trường Đại học Khoa học Tự nhiên – ĐHQGHN bắt đầu khởi động. Đến năm 2019, đã có thêm một số trường triển khai đào tạo về KHDL.

KHDL là ngành rộng nên mỗi trường có đặc trưng đào tạo riêng của mình. Chẳng hạn ngành KHDL tại các trường kỹ thuật như Đại học Bách khoa hay Trường Đại học Công nghệ Thông tin - ĐHQG TP HCM nhằm đào tạo ra những người phát triển phương pháp và công cụ của khoa học dữ liệu. Trong khi đó, các cơ sở giáo dục như Khoa Quốc tế - Đại học Quốc gia Hà Nội nhắm tới đào tạo những chuyên viên phân tích dữ liệu trong kinh tế hoặc kinh doanh, tức đào tạo người có kiến thức về kinh tế hoặc kinh doanh và biết cách dùng các phương pháp, công cụ của khoa học dữ liệu trong các lĩnh vực đó. 

Ngành đào tạo cử nhân phân tích dữ liệu trong kinh doanh nói chung và trong phân tích dữ liệu trong kiến trúc xây dựng nói riêng đang được nhiều người quan tâm và sinh viên ngành Phân tích dữ liệu sẽ rất có triển vọng nghề nghiệp

Đây là nghề nghiệp rất quan trọng trong tương lai, chiếm đại đa số trong số lượng nhân sự tham gia vào lĩnh vực KHDL. Trong kinh doanh có các “bài toán” đặc thù cần giải đáp về từng vấn đề như quản trị sản xuất, marketing, bán hàng, tài chính, quan hệ khách hàng, nhân sự… thông qua thu thập, phân tích dữ liệu. Lấy ví dụ: bộ phận marketing nếu gửi quá nhiều thông tin quảng cáo đến khách hàng sẽ làm họ không thích. Tuy nhiên, nếu có dữ liệu về khách hàng, có thể phân tích xem họ có nhu cầu như thế nào, khả năng mua bao nhiêu và quảng cáo đúng cái họ cần thì chương trình marketing sẽ rất hiệu quả, đồng thời giảm lượng “thư rác” gửi tới khách hàng.

Hiện nay trên thế giới đang rất thiếu nhân sự trong ngành này. Trong những năm vừa qua, rất nhiều nước công bố chiến lược về trí tuệ nhân tạo và xem trí tuệ nhân tạo là nhân tố cơ bản của sự phát triển. Bản chất của trí tuệ nhân tạo là dùng dữ liệu một cách thông minh và hiệu quả. Người nào nhanh chóng nắm được kiến thức trong lĩnh vực này và có được kỹ năng thì sẽ có tương lai công việc tốt. Đặc biệt là nếu người học dùng tốt tiếng Anh thì càng tiềm năng hơn.

 

4. LỘ TRÌNH HỌC HOÀN CHỈNH CHO NGÀNH DATA SCIENCE

Để trở thành một nhà khoa học ở bất kỳ lĩnh vực nào cũng tốn của bạn rất nhiều thời gian và công sức. Nếu có đam mê với các con số và ngôn ngữ lập trình, bạn nên bắt đầu ngay hôm nay với Data science. Lộ trình này sẽ KHÔNG cho bạn biết rằng bạn mất bao lâu để làm được công việc này mà sẽ nói cho bạn biết con đường sắp tới bạn sẽ cần chuẩn bị những gì.Tham khảo sơ đồ dưới đây:

Data science là sự tổng hòa của 3 khía cạnh: toán học và thống kêkhoa học máy tính và hiểu biết về kinh doanh

https://nordiccoder.com/app/uploads/2020/06/data-science-skill-300x277.jpg

1. Toán cơ bản

Toán học chính là xương sống của Khoa học dữ liệu. Bạn có thể nghe thấy ở đâu đó người ta nói rằng các mô hình ML/DL nào đó giống như hộp đen đối với môn Khoa học dữ liệu. Thực ra không phải vậy. Người ta không cần phải trở thành bậc thầy về toán học để bắt đầu sự nghiệp trong Khoa học dữ liệu, nhưng nếu bạn giỏi toán thì bạn sẽ trở làm chủ được cuộc chơi khi tham gia vào ngành này.

Thống kê, mô hình hồi quy, mô hình đồ họa, hình học 2d và 3d cơ bản, ma trận, mô hình phân phối, vân vân được sử dụng mỗi ngày trong khoa học dữ liệu. Nếu không có khả năng xử lý tốt với môn toán, bạn sẽ rất khó để trở thành một nhà khoa học dữ liệu. Mình khuyên bạn nên đọc các bài viết liên quan đến khoa học dữ liệu và lĩnh vực bạn chọn để biết chính xác những gì bạn cần học rồi dành thời gian mỗi ngày nghiêm túc nghiên cứu về các chủ đề cần thiết để nâng cao trình độ của bản thân và tiến gần hơn đến ngành khoa học dữ liệu.

Các chủ đề cần được chú ý:

  • Đại số tuyến tính – Vector, Phép toán ma trận, Các loại ma trận, Giá trị Eigen và Vectơ Eigen, Lý thuyết tập hợp, Hàm số, Hàm số logarit, Hàm số mũ.
  • Phép tính vi phân
  • Hoán vị và kết hợp
  • Kỹ thuật tối ưu hóa: Lập trình tuyến tính, Maxima / Minima

2. Ngôn ngữ lập trình:Về ngôn ngữ lập trình phục vụ cho Data science nói chung, những người đam mê dữ liệu dễ bị nhầm lẫn giữa R và Python. Để quyết định ngôn ngữ nào là cần thiết, hãy xem xét khảo sát do Analytics India Magazine thực hiện năm 2019 cho biết ngôn ngữ lập trình ưa thích của các nhà tuyển dụng:

Nhu cầu về các chuyên gia Python là cao nhất khi phân tích nhu cầu của các nhà tuyển dụng. Gần 17% trong số tất cả các công việc phân tích được quảng cáo ở Ấn Độ đòi hỏi Python như một kỹ năng cốt lõi trong khi 16% yêu cầu Java. 8/10 nhà khoa học dữ liệu muốn giới thiệu Python là ngôn ngữ chính. Python rất dễ học và ngôn ngữ lập trình được chấp nhận rộng rãi.

 

https://nordiccoder.com/app/uploads/2020/06/17do3IX7i1MHeOxpmV5kFqg.png

 

Để trở thành một nhà khoa học dữ liệu, chúng ta phải phân phối các dự án từ đầu đến cuối, bắt đầu từ việc xác định vấn đề, thu thập dữ liệu liên quan đến vấn đề, thực hiện việc làm sạch dữ liệu và phân tích dữ liệu khám phá, sau đó xây dựng mô hình và cuối cùng là xử lý. Python có thể hỗ trợ bạn làm được điều này.

3. Xác suất và Thống kê

Tại sao Khoa học dữ liệu lại cần đến phân tích thông kê? Câu trả lời đơn giản thôi, chúng ta cần nó để tồn tại. Có 4 loại phân tích thống kê cần thiết cho ngành này:

https://nordiccoder.com/app/uploads/2020/06/1_p7ZMYBKsnXU4VhpwNIF5Q-1024x635.png

 

  • Thống kê mô tả (Descriptive Statistics )
  • Đo lường trung tâm – Mean, Median, Mode
  • Đo lường mức độ lây lan – Phạm vi, Độ lệch chuẩn, biến số, Phạm vi giữa các nhóm
  • Đo hình dạng – Skewness và Kurtosis.
  • Suy luận thống kê (Statistical Inference) 
  • Ước tính tham số (Parameter Estimation)
  • Kiểm định giả thuyết (Hypothesis Testing: z-test, t-test, chi-square test và f-test)
  • Thống kê chênh lệch (Differential Statistics) — 2 sample Hypothesis testing, ANOVA, MANOVA, ANCOVA và MANCOVA.
  • Thống kê liên kết (Associative Statistics) — Tìm mối quan hệ giữa 2 biến. Correlation — Pearson, Spearman và Kendall.

4. Thu thập, sắp xếp và trực quan hóa dữ liệu

Sắp xếp dữ liệu là quá trình chuyển đổi và ánh xạ dữ liệu từ một dạng dữ liệu thô sang định dạng khác với mục đích làm cho nó phù hợp và có giá trị hơn cho mục đích phân tích. Để có thể có một dự án Khoa học dữ liệu thành công cần nâng cao các kiến thức về Data Mining như: 

  • Data Cleaning (Làm tinh dữ liệu): Missing Value Treatment, Outlier Treatment, Data Validation
  • Data Manipulation (Thao tác dữ liệu) : Subsetting, Indexing, Groupby, Aggregation, Pivot tables, Data Merge, Reshaping, Creating new variables, Sorting.

Trong Khoa học dữ liệu, kỹ năng trình bày dữ liệu trực quan là một điều vô cùng cần thiết. Không ai có thể gọi mình là một nhà khoa học dữ liệu nếu người đó không giỏi ở việc trực quan hoá. Trực quan hóa dữ liệu và thiết kế biểu đồ là cả một môn nghệ thuật và khoa học. Các nhà khoa học dữ liệu phải biết về các công cụ và cách để thể hiện dữ liệu theo dạng trực quan. Rất nhiều tổ chức đã tạo ra hàng tỷ đô bằng cách gây ấn tượng với khách hàng chỉ bằng cách thuyết trình với các dữ liệu trực quan.

Các chủ đề cần quan tâm:

  • Kỹ thuật trực quan hóa dữ liệu và cách sử dụng
  • Line chart, Boxplot, Histogram, Scatter plot
  • Bubble chart, bar chart, Heatmap, world map

 

5. Machine Learning/Deep Learning

https://nordiccoder.com/app/uploads/2020/06/1Z4suIxll8gd0KofJB4f1Cw.png