Bài viết được chia sẻ bới một nhà khoa học dữ liệu tại Texas.

Sự bùng nổ của dữ liệu – Big Data trong thời đại kỹ thuật số là nền tảng cho sự phát triển của ngành khoa học dữ liệu (data science) - ngành “sexy” nhất thế kỉ 21 (theo tạp chí Havard Business Review). Khác với quan niệm thông thường: Data Scientist chỉ làm nghiên cứu dữ liệu, trong thực tế, vị trí này thực hiện nhiều hơn vậy. Hãy cùng nhau tìm hiểu công việc thường ngày của một Data Scientist trong bài viết này nhé!

Khởi động

Một ngày mới bắt đầu bằng một cuộc họp ngắn với các thành viên trong nhóm giúp việc trao đổi và làm việc trở nên hiệu quả hơn. Mỗi thành viên sẽ tóm tắt những gì đã làm hôm trước, những gì sẽ thực hiện hôm nay, và những trở ngại tồn tại. Việc chia sẻ những cập nhật trong công việc đảm bảo mọi người đang cùng nhìn về một hướng, cùng giải quyết một vấn đề chung. Đây cũng là cơ hội tận dụng những chia sẻ, kinh nghiệm của những thành viên khác để giải quyết vấn đề nhanh hơn.

Làm việc với Jira – Sprint

Có rất nhiều phần mềm được dùng để quản lý, kiểm soát, theo dõi dự án và các vấn đề, lỗi liên quan đến dự án, và Jira là một trong những phần mềm quản lý dự án được sử dụng phổ biến nhất. Trong đó, Sprint - một thuật ngữ trong Jira - là một vòng lặp ngắn hạn (từ 2-4 tuần) bao gồm đầy đủ các công việc cần thiết như lập kế hoạch, phân tích yêu cầu, thiết kế, triển khai các phần nhỏ của dự án.Công việc của Data Scientist trong bước này là cập nhật thông tin trong quá trình nghiên cứu dữ liệu lên Jira, bao gồm mô tả về lỗi, vẫn đề, yêu cầu để giải quyết vấn đề, và thời gian dự kiến hoàn tất. Những trạng thái của một spint bao gồm:

  • Lập kế hoạch (Planning / Available)
  • Đang tiến hành (In progress)
  • Thử nghiệm (Testing)
  • Đánh giá, xem xét (Review)
  • Hoàn thành (Done)

Việc sử dụng Jira – Sprint có vẻ phức tạp lúc ban đầu nhưng mang lại lợi ích lâu dài, đặc biệt là mang lại hiệu quả trong việc quản lý công việc, quá trình xử lý dữ liệu.

Đánh giá mã (Code Review)

Code Review là quá trình xem xét và đánh giá code của các thành viên trong team. Có nhiều hình thức thảo luận như thông qua Github, các công cụ gọi video nhóm hoặc gặp trực tiếp. Đây được đánh giá là quá trình quan trọng dẫn đến thành công cho một data science team. Việc thảo luận với nhau về các dòng code giúp giảm thiểu tối đa lỗi phát sinh, tăng chất lượng code, và quan trọng hơn hết là các thành viên có dịp nắm bắt tiến độ, thay đổi và tìm hiểu công việc của các thành viên khác trong nhóm.

Xử lí mô hình dữ liệu phân tích (Model Process)

Model process là toàn bộ quá trình từ khi xác định vấn đề, thu thập dữ liệu cho đến khi trình bày kết quả cuối cùng. Toàn bộ quá trình có thể kéo dài hàng tuần hoặc hàng tháng nhưng cần có kế hoạch thực hiện theo từng ngày. Sau đây là những bước chính trong một Model process:

  • Nhận định vấn đề (Business Problem Statement) – Xác định vấn đề cần xử lí là gì? Việc phân tích dữ liệu có thể giúp giải quyết vấn đề như thế nào? Liệu có thể tự động hóa bất kỳ các bước thủ công nào trong quá trình xử lý?
  • Thu thập yêu cầu (Requirements Gathering) – Dự án mất bao lâu để hoàn thành? Bao gồm những ai? Sản phầm bàn giao dự án (deliverables) là gì? Kết quả cần được cập nhật theo ngày, theo tuần, hay theo tháng?
  • Định vị dữ liệu (Data Location) – Dữ liệu thu thập từ những nguồn nào? Có cần quyền truy cập API để có thêm nhiều dữ liệu?
  • Phân tích dữ liệu thăm dò – (Exploratory Data Analysis) – Đây là bước khám phá cấu trúc dữ liệu bao gồm phân bố dữ liệu nguyên bản. Kiểm tra, xử lý những giá trị dữ liệu bị thiếu (missing data) và trả lời câu hỏi: liệu đã đủ hay cần thêm dữ liệu cho mô hình (model)?
  • Chuyển đổi dữ liệu (Feature Engineering) – Quá trình chuyển đổi dữ liệu ban đầu thành tập các thuộc tính (features) và tìm ra những thuộc tính quan trọng, tương thích với từng mô hình dự đoán cụ thể.
  • Thiết kế mô hình (Base Model) - Đây là bước lên ý tưởng và thiết kế mô hình dữ liệu. Mục đích của bước này là tìm ra đáp án cho câu hỏi: liệu nên lựa chọn xây dựng thuật toán tổng quát hay thực hiện mô hình phân loại (classification)?
  • Lựa chọn mô hình (Final Model) - Lựa chọn mô hình phù hợp với dữ liệu. Có thể thực hiện nhiều hơn một mô hình để so sánh kết quả.
  • Thử nghiệm mô hình (Model Interations) - Thử nghiệm mô hình bằng cách điều chỉnh các thông số, đào tạo (training) để mô hình trở nên nhanh hơn và tiết kiệm chi phí hơn.
  • Dữ liệu đầu ra (Result Output) - Thông tin sau khi xử lí có thể được xuất ra tệp (file) để gửi cho những bên cần thiết, hoặc có thể được chèn trực tiếp vào cơ sở dữ liệu (database).
  • Giải thích kết quả (Explaination of the Results) - Bước cuối cùng là truyền đạt mô hình, kết quả cho những bên liên quan. Tableau là một trong những công cụ phổ biến để trình bày và chia sẻ kết quả.Mỗi bước có thể kéo dài trong khoảng thời gian khác nhau. Tuy nhiên, cần có kế hoạch, thời gian dự kiến hoàn thành cho từng bước và từng ngày. Bên cạnh đó, đảm bảo các bước thực hiện đều nhắm tới mục tiêu đã đặt ra trước đó.

Kết

Một ngày làm việc của một nhà khoa học máy tính thuộc các lĩnh vực và công ty khác nhau có thể có một lịch làm việc khác nhau. Tuy nhiên, việc tương tác với nhóm và việc quản lý, theo dõi tiến độ công việc là hai bước không thể thiếu của một data scientist. Hy vọng bài viết mang lại cho bạn một cái nhìn tổng quát về công việc Data Scientist.

Nguồn: Towards Data Science