Big Data là gì? Data Scientist là gì? Hãy để “Tiến sĩ Cambridge” trả lời | Vieclam116.vn

Kiến Thức 0 lượt xem

Dữ liệu lớn là gì? Dữ liệu lớn (Big Data) là một lượng dữ liệu lớn (được sắp xếp và tổ chức), đa dạng, thay đổi nhanh và phức tạp đến mức các công nghệ hoặc ứng dụng truyền thống có thể được khai thác trong một khoảng thời gian nhất định.

Kích thước chính xác của Dữ liệu lớn không quan trọng (có thể là vài petabyte hoặc exabyte), cái chính là nó sẽ được sử dụng đúng hướng, Dữ liệu lớn sẽ mang lại sức mạnh cạnh tranh cho doanh nghiệp.

Để hiểu rõ hơn về Dữ liệu lớn là gì, ITviec đã trao đổi với anh Đặng Hoàng Vũ – Nhà khoa học cấp cao của Tập đoàn FPT và đã “sử dụng” nhiều thông tin hữu ích.

Xem thêm các công việc về Dữ liệu lớn trên trang web ITviec

Dữ liệu lớn là gì?

Dữ liệu lớn là gì?

Ông cho biết. Vũ, Big Data là dữ liệu lớn, thay đổi nhanh và phức tạp. Tuy nhiên, không có định nghĩa duy nhất cho ý nghĩa của Dữ liệu lớn. Ví dụ: theo định nghĩa của Dữ liệu lớn của IBM là 4V, nó bao gồm:

  • Âm lượng: Nhiều dữ liệu
  • Tốc độ, vận tốc: Tốc độ của dữ liệu
  • Eseesega: Sự thay đổi dữ liệu
  • Trung thực: Hồ sơ trung thực

Trên thực tế, thuật ngữ Dữ liệu lớn cũng giống như vậy. Điều này có nghĩa là đôi khi mọi người vẫn sử dụng tên Big Data trong các cơ sở dữ liệu thông thường, nhưng không phải lúc nào trong các cơ sở dữ liệu lớn.

Ông khẳng định. Dữ liệu lớn của Vu không chỉ cần thiết mà còn là “xương sống” của nhiều công nghệ.

Ví dụ, tất cả các sản phẩm hiện có trên các website thương mại điện tử như Tiki, Lazada, Sendo… đều là Big Data.

Các công ty truyền thống cũng đang sử dụng Big Data để thỏa mãn nhu cầu kinh doanh, giữ khách hàng, phục vụ thị trường …

Xem thêm: Sức mạnh mà Dữ liệu lớn mang lại cho doanh nghiệp

Các vấn đề khi làm việc với Dữ liệu lớn là gì?

Khi làm việc với Big Data, sẽ gặp rất nhiều khó khăn như đã đề cập dưới đây:

  • Chất lượng của dữ liệu không được đảm bảo
READ  Giáo trình Lịch sử văn minh thế giới PDF | Vieclam116.vn

Trong quá trình làm việc với Big Data, Mr. Vũ là khâu thu thập và xử lý dữ liệu là khâu tốn rất nhiều thời gian và công sức. Khi đó, anh phải làm việc với nhiều bộ phận khác nhau để giải quyết tình trạng thu thập dữ liệu và chất lượng dữ liệu không thống nhất.

  • Kết quả hoạt động không đạt yêu cầu

Với kinh nghiệm của mình trong lĩnh vực này, ông tin rằng sai lầm phổ biến nhất của việc đánh giá và đối chiếu kết quả là dựa trên dữ liệu được thu thập và xử lý. Trong hầu hết các trường hợp, các chuyên gia thường đặt ra các tiêu chuẩn dựa trên trình độ học vấn hoặc nghiên cứu sẵn có, nhưng nó không phù hợp với các chuyên gia kinh doanh.

Trước đây, anh ấy đã làm việc với một khách hàng nổi tiếng trong lĩnh vực thương mại điện tử (anh ấy không thể nêu tên). Mục tiêu của họ là tăng số lượng sản phẩm được bán trên trang web.

Sau khi nghiên cứu và phân tích dựa trên dữ liệu thu thập được, nhóm của ông quyết định để người tiêu dùng xem các dòng sản phẩm có thể kích thích hành vi mua hàng.

Do đó, khách hàng ở lại trang web lâu hơn và xem nhiều sản phẩm hơn thực tế, nhưng điều đó không cải thiện hoạt động kinh doanh. Nguyên nhân là do họ cảm thấy “choáng ngợp”, không biết phải ra quyết định như thế nào nên không mua nữa.

Rõ ràng, mặc dù việc tự phân loại về hành vi kích thích xem sản phẩm đã được thực hiện nhưng nó không mang lại lợi ích thực sự nào cho doanh nghiệp.

Theo ông, các công ty làm Dữ liệu lớn không quan tâm lắm đến định nghĩa chính xác của Dữ liệu lớn. Họ chỉ quan tâm đến hậu quả mà việc sử dụng dữ liệu mang lại, vì vậy những người làm việc với Dữ liệu lớn cần hiểu đầy đủ mục tiêu cuối cùng là gì.

Công việc “tạo ra” Dữ liệu lớn là gì? Trở thành một nhà khoa học thông tin!

Công việc hàng ngày của một nhà khoa học thông tin

Anh Vũ chia sẻ về những “bước” trong công việc hàng ngày của Nhà khoa học Ghi chú:

  • Đánh giá vấn đề cần giải quyết, mục tiêu công việc, nền tảng thành công …
  • Thu thập và xử lý dữ liệu
  • Xây dựng mô hình và thuật toán để cung cấp kết quả
  • Kiểm tra, đánh giá kết quả
  • Thực tiễn
READ  Giá trị cốt lõi là gì? Bí quyết xây dựng giá trị cốt lõi thành công! | Vieclam116.vn

Trong quá trình thực hiện, công ty sẽ sử dụng các kết quả, dự đoán, tư vấn … thu được từ dữ liệu để đưa vào hoạt động kinh doanh và thị trường như Mr. Vũ trong phần chia sẻ trên.

Các kỹ năng cần thiết để trở thành Nhà khoa học thông tin

Để trở thành Nhà khoa học thông tin, bạn cần học nhiều kỹ năng và công cụ:

  • Kỹ năng đầu tiên bạn cần thực sự là lập trình. Bạn phải học ngôn ngữ lập trình Python
  • Ngoài Python, còn có SQL, Spark, R hoặc các công cụ nâng cao như H2O, tableau
  • Công cụ Khoa học Thông tin: Numpy, Pandas, Matplotlib, Scikit-teacher
  • Công cụ đào tạo: Tensorflow, Keras, Pytorch
  • Hiểu biết cá nhân về Dữ liệu lớn, dựa trên Hadoop hoặc Scala
  • Thống kê cơ bản

Ngoài kỹ năng kỹ thuật, bạn cũng cần có kỹ năng yếu. Công việc này đòi hỏi tư duy logic và rõ ràng và bạn cần biết cách làm việc của một Kỹ sư dữ liệu.

Data Engineer là người xử lý và chuẩn bị dữ liệu cho Data Science để thực hiện phân tích. Khi làm việc cùng nhau, các cá nhân sẽ giúp đỡ một phần công việc của người kia, nhưng vai trò chính là như nhau.

Có rất nhiều kỹ năng và kiến ​​thức bạn cần cải thiện, tất nhiên có thể hơi khó lúc đầu, nhưng bạn có thể làm được và học cùng lúc.

Xem thêm: 20 bài học lập trình Python

Cơ hội việc làm và Dữ liệu lớn

Tiết lộ của Mr. Vũ cơ hội việc làm cho những ai muốn làm việc với Big Data là rất rộng mở. So với sự phát triển chung của các công việc, tất nhiên, số lượng công việc gắn với Big Data sẽ ít hơn rất nhiều. Tuy nhiên, vì là hàng hiếm nên mức thu nhập cũng khá. Công việc cũng cho bạn cái nhìn tổng quan về hiệu quả hoạt động của sản phẩm mà bạn đang làm.

Xem ngay: Các nhà khoa học thông tin làm việc tại ITviec

Trên cương vị của mình, anh cũng tham gia nghiên cứu Nhà khoa học dữ liệu. Kể từ đó, Mr. Dưới đây là một số nguyên tắc mà anh ấy đã thiết lập để tuyển dụng đồng nghiệp:

  • Điểm mạnh được ghi rõ ràng, mạch lạc.
  • Hiểu biết cơ bản về Python. Nếu bạn biết về Học máy, Dữ liệu hoặc toán học thì đó là một lựa chọn tuyệt vời.
  • Chiến thắng tâm hồn. Đặc biệt là không được cứng đầu vì mắc lỗi và được nhắc nhở là chuyện bình thường.
  • Khả năng giao tiếp, giải thích và lắng nghe người khác. Hãy nhớ rằng, nó không phải là một tình huống độc lập.
READ  Kỹ sư kết cấu là gì? Công việc ngành xây dựng cần chuẩn xác | Vieclam116.vn

Tài nguyên tham khảo dữ liệu lớn

  • Lập kế hoạch Dữ liệu: Cuốn sách này, được viết vào năm 2017 bởi Martin Kleppmann, vẽ nên một bức tranh lớn về Dữ liệu lớn và tập trung vào các lĩnh vực tiếp thị truyền thông xã hội.
  • Dữ liệu lớn: Kiến thức cơ bản và phương pháp hay nhất về hệ thống dữ liệu có thể bị trừng phạt: Trả lời câu hỏi Dữ liệu lớn là gì và tất cả về hệ thống, bao gồm các công cụ như Hadoop, Cassandra và Storm.
  • Hadoop: Hướng dẫn hiệu đính: được viết bởi Tom White – một thành viên của cộng đồng kỹ thuật Apache. Cuốn sách là tất cả những gì bạn cần biết + các ví dụ kỹ thuật khi làm việc với Hadoop.
  • Hiệu suất cao Spark: Một cuốn sách cần thiết cho bất kỳ ai muốn tìm hiểu về Apache Spark và nhiều ví dụ hữu ích của nó.

Ngoài ra, khóa đào tạo về mạng Dữ liệu lớn trên Coursera cũng rất đáng được quan tâm.

Các nhà khoa học dữ liệu nói gì trong kinh doanh?

Anh chia sẻ. Vũ về một quan niệm sai lầm, một sự hiểu lầm mà anh đã nghe kể lại trong quá trình làm việc với Big Data nói chung, một Nhà khoa học thông tin nói riêng.

Có một số người nghĩ rằng Nhà khoa học dữ liệu là một nhà khoa học hoặc làm Nhà khoa học dữ liệu cần rất nhiều con số nhưng không phải vậy. Nếu bạn giỏi toán thì không sao, nhưng viết mã quan trọng hơn.

Nhà khoa học dữ liệu là người giải quyết các vấn đề kinh doanh bằng cách phân tích dữ liệu, không phải là nhà khoa học khám phá sự đổi mới.

Có lẽ là do từ Các nhà khoa học Đây là một công việc được nhiều người đánh giá là mạo hiểm và phải đánh đổi. Dĩ nhiên là không. Data Scientist không mạo hiểm, chỉ cần có đầu óc và tinh thần học hỏi tốt là đủ.

Dữ liệu lớn là gì?

Anh Vũ (2 từ trái qua) cùng những người bạn của mình.

Ghi chú: Sau khi tốt nghiệp Tiến sĩ Toán học, Đại học Cambridge, Mr. Vũ là Kỹ sư phần mềm của HP Corporation (Hewlett-Packard) tại Vương quốc Anh. Ở đây, anh trai mình làm về Machine Learning, thiết kế đồ họa nên khi về Việt Nam cũng quyết định làm đồ án Khoa học thông tin.

Năm 2014, anh trở về Việt Nam và gia nhập FPT of Data Scientist. Hiện tại, anh là Nhà khoa học chính trong Ban Công nghệ của Tập đoàn FPT.

Robby2

Bạn có nghĩ rằng những tuyên bố về Dữ liệu lớn này có liên quan không? Bài viết này có thể giúp ích cho các Phát triển khác không? Chia sẻ ngay để cùng nhau phát triển.

Và đừng quên tham khảo các công việc về Dữ liệu lớn tại ITviec!

Bài viết liên quan

Trả lời

Email của bạn sẽ không được hiển thị công khai.

Protected with IP Blacklist CloudIP Blacklist Cloud