Tài Lê
Active member
Data (data scientist vs data analyst) đang ngày càng trở nên quan trọng hơn bao giờ hết đối với các doanh nghiệp và tổ chức trên toàn thế giới. Song song đó, các ông lớn đang tìm cách khai thác tiềm năng của dữ liệu để tăng doanh thu và lợi nhuận, cải thiện năng suất hoạt động và nâng cao sự hài lòng của khách hàng.
Vậy, ai sẽ làm tất cả những điều này? Tất nhiên là các nhà Data scientists và analysts. Trong bài viết này, tôi sẽ cung cấp cho bạn một cái nhìn tổng quan ngắn gọn về sự khác biệt của hai vai trò này và một số điều bạn cần biết cho công việc.
Data scientist
Trước khi trả lời câu hỏi data scientist là gì? Trước hết hãy trả lời data science là gì?
Data science là một quá trình phân tích dữ liệu bằng cách sử dụng các cách sáng tạo (như data inference) và sử dụng công nghệ phát triển thuật toán để tìm giải pháp cho các vấn đề phức tạp.
Chúng liên quan đến việc tách rời và tập hợp các tập dữ liệu để tìm ra các thông tin như thói quen và sở thích của người tiêu dùng. Nó cũng có thể chỉ đơn giản là tìm ra xu hướng bán hàng của một dòng sản phẩm cụ thể.
Ví dụ, Amazon khai thác các mẫu dữ liệu người dùng để xác định các sản phẩm được đề xuất cho từng người dùng. Việc làm này đòi hỏi sự kết hợp giữa chuyên môn thống kê, lập trình và kiến thức kinh doanh.
Thống kê chính là trái tim của data science. Do đó mà lĩnh vực này yêu cầu một người có khả năng tìm ra các xu hướng phức tạp trong một tập dữ liệu có thể bao gồm hơn 1 triệu hàng.
Kỹ năng lập trình, mặt khác, cần phải liên quan tới số liệu thống kê. Để phân tích thống kê xảy ra, bạn cần một người thông thạo ngôn ngữ lập trình (như Java, SQL và Python) để chia nhỏ tập dữ liệu ở các định dạng dễ đọc hơn.
Cuối cùng, kiến thức kinh doanh cũng cần thiết để đảm bảo rằng bạn đang giải quyết các vấn đề phù hợp với mục tiêu của tổ chức.
Cuối cùng, bạn sẽ có khả năng để tạo ra một “data product” như hệ thống đề xuất của Amazon.
Data analyst
Vai trò của một nhà data analyst tương tự như một nhà data scientist theo nhiều phương diện. Họ cũng phân tích dữ liệu và thu được những hiểu biết từ chúng. Điểm khác biệt chính là các nhà data scientist tỏa sáng khi khối lượng dữ liệu của tổ chức vượt quá một quy mô nhất định, dẫn đến nhu cầu tạo ra các sản phẩm dữ liệu để giúp phân tích nó.
Vì vậy, trong khi điều này có nghĩa rằng các nhà data analysts cũng làm công việc của data science nhưng họ không bắt buộc phải biết nhiều về lập trình. Nhưng các data analyst vẫn phải có kiến thức về thống kê và hoạt động kinh doanh.
Mặt khác, một nhà data analyst cần phải có khả năng đưa ra kết quả của mình dưới dạng báo cáo hoặc một bài thuyết trình.
So sánh
Dưới đây là những khác biệt lớn giữa các nhà data scientist và data analyst:
Yêu cầu công việc
Như đã đề cập ở trên, để trở thành nhà data scientist hoặc data analyst, bạn sẽ cần phải có kỹ năng thống kê, lập trình và sự nhạy bén trong kinh doanh. Như vậy, bắt đầu với các điểm dưới đây sẽ là một khởi đầu tốt:
Vậy, ai sẽ làm tất cả những điều này? Tất nhiên là các nhà Data scientists và analysts. Trong bài viết này, tôi sẽ cung cấp cho bạn một cái nhìn tổng quan ngắn gọn về sự khác biệt của hai vai trò này và một số điều bạn cần biết cho công việc.
Data scientist
Trước khi trả lời câu hỏi data scientist là gì? Trước hết hãy trả lời data science là gì?
Data science là một quá trình phân tích dữ liệu bằng cách sử dụng các cách sáng tạo (như data inference) và sử dụng công nghệ phát triển thuật toán để tìm giải pháp cho các vấn đề phức tạp.
Chúng liên quan đến việc tách rời và tập hợp các tập dữ liệu để tìm ra các thông tin như thói quen và sở thích của người tiêu dùng. Nó cũng có thể chỉ đơn giản là tìm ra xu hướng bán hàng của một dòng sản phẩm cụ thể.
Ví dụ, Amazon khai thác các mẫu dữ liệu người dùng để xác định các sản phẩm được đề xuất cho từng người dùng. Việc làm này đòi hỏi sự kết hợp giữa chuyên môn thống kê, lập trình và kiến thức kinh doanh.
Thống kê chính là trái tim của data science. Do đó mà lĩnh vực này yêu cầu một người có khả năng tìm ra các xu hướng phức tạp trong một tập dữ liệu có thể bao gồm hơn 1 triệu hàng.
Kỹ năng lập trình, mặt khác, cần phải liên quan tới số liệu thống kê. Để phân tích thống kê xảy ra, bạn cần một người thông thạo ngôn ngữ lập trình (như Java, SQL và Python) để chia nhỏ tập dữ liệu ở các định dạng dễ đọc hơn.
Cuối cùng, kiến thức kinh doanh cũng cần thiết để đảm bảo rằng bạn đang giải quyết các vấn đề phù hợp với mục tiêu của tổ chức.
Cuối cùng, bạn sẽ có khả năng để tạo ra một “data product” như hệ thống đề xuất của Amazon.
Data analyst
Vai trò của một nhà data analyst tương tự như một nhà data scientist theo nhiều phương diện. Họ cũng phân tích dữ liệu và thu được những hiểu biết từ chúng. Điểm khác biệt chính là các nhà data scientist tỏa sáng khi khối lượng dữ liệu của tổ chức vượt quá một quy mô nhất định, dẫn đến nhu cầu tạo ra các sản phẩm dữ liệu để giúp phân tích nó.
Vì vậy, trong khi điều này có nghĩa rằng các nhà data analysts cũng làm công việc của data science nhưng họ không bắt buộc phải biết nhiều về lập trình. Nhưng các data analyst vẫn phải có kiến thức về thống kê và hoạt động kinh doanh.
Mặt khác, một nhà data analyst cần phải có khả năng đưa ra kết quả của mình dưới dạng báo cáo hoặc một bài thuyết trình.
So sánh
Dưới đây là những khác biệt lớn giữa các nhà data scientist và data analyst:
Data scientist | Data analyst |
Yêu cầu tạo ra prototype và phát triển “data product” để đưa ra các quyết định thông minh thúc đẩy hướng đi của doanh nghiệp. Yêu cầu phải biết một số lượng lớn các ngôn ngữ lập trình Chỉ có trong các tổ chức yêu cần giải quyết những tập dữ liệu lớn (big data) | Có thể hoặc không bắt buộc phải phát triển “data product”. Có thể không bắt buộc phải biết một số lượng lớn các ngôn ngữ lập trình. Trên thực tế, nhiều tổ chức chỉ dựa vào các bảng tính excel để chạy các hoạt động phân tích dữ liệu của họ. Tồn tại trong hầu hết các tổ chức, |
Như đã đề cập ở trên, để trở thành nhà data scientist hoặc data analyst, bạn sẽ cần phải có kỹ năng thống kê, lập trình và sự nhạy bén trong kinh doanh. Như vậy, bắt đầu với các điểm dưới đây sẽ là một khởi đầu tốt:
- Thống kê và áp dụng toán học
- Làm quen với cơ sở dữ liệu và các công cụ dữ liệu lớn
- Phát triển khả năng viết code
- Có được kinh nghiệm kinh doanh và trình bày dữ liệu chính