Skip to main content
Admin

Admin

Hunter

🐍 7 Thư Viện Python Thiết Yếu cho Data Scientist và AI Engineer

· 5 min read
Nguồn: Bình dân học AI

-Tác giả: Viet Nguyen - Senior AI Engineer

-Facebook: "https://www.facebook.com/vietnh1009"

Hi các bạn,

Nói về ngôn ngữ lập trình được sử dụng trong lĩnh vực AI, Data Science và Machine Learning thì Python là ông vua, nhờ vào cú pháp đơn giản và đặc biệt là hệ sinh thái vô cùng đa dạng, phong phú và mạnh mẽ, với rất nhiều các thư viện và framework hỗ trợ. Với những ai học và làm về AI, Data Science, Machine Learning, với mỗi một tác vụ, như xử lý dữ liệu, trực quan hóa, xây dựng mô hình, … chúng ta đều có rất nhiều sự lựa chọn đa dạng. Tuy nhiên 1 vài trong số chúng sẽ phổ biến và được sử dụng nhiều hơn những lựa chọn khác. Trong video này mình xin tổng hợp 7 thư viện Python quan trọng nhất mà gần như mọi Data Scientist hay AI engineer đều phải biết và sử dụng. Mình sẽ mô tả chi tiết, công dụng, sự phổ biến, và ưu nhược điểm của từng thư viện.

Đây cũng là những thư viện đã đồng hành cùng mình trong suốt gần 10 năm học và làm việc trong lĩnh vực AI 😎

7 thư viện Python thiết yếu cho Data Scientist/AI Engineer

1. Numpy

Thư viện toán học nền tảng, tập trung vào xử lý các mảng đa chiều cũng như các tính toán số học. Rất nhiều phép toán trong các thư viện về Machine Learning hay Deep Learning được xây dựng dựa trên các phép toán trong Numpy. Đây là thư viện BẮT BUỘC phải thành thạo cho bất kỳ ai học về AI.

2. Pandas

Được thiết kế để thao tác và phân tích dữ liệu, đặc biệt là dữ liệu có cấu trúc (như bảng dữ liệu hoặc chuỗi thời gian). Pandas thường được coi là công cụ không thể thiếu trong AI, Data Science và Machine Learning nhờ khả năng dễ dàng xử lý dữ liệu lớn và phức tạp. Đối với các bạn có ý định sau này trở thành Data Scientist thì đây là thư viện đặc biệt quan trọng.

3. Matplotlib

Thư viện trực quan hóa dữ liệu quan trọng nhất trong Python. Matplotlib hỗ trợ đa dạng các loại biểu đồ, từ biểu đồ cơ bản như line chart, bar chart, scatter plot đến các biểu đồ phức tạp như 3D plots, heatmaps, và contour plots. Rất nhiều các thư viện trực quan hóa khác trong Python (Seaborn, Plotly) được xây dựng dựa trên Matplotlib.

4. Scikit-learn

Thư viện số 1 về Machine Learning. Không 1 Data scientist hay ML/AI engineer nào không biết đến thư viện quốc dân này. Scikit-learn cung cấp các công cụ mạnh mẽ để xây dựng, huấn luyện, và đánh giá mô hình Machine Learning. Được xây dựng trên các thư viện cốt lõi như NumPy, SciPy, và matplotlib, Scikit-learn hỗ trợ cả các thuật toán học có giám sát (Supervised learning) và học không giám sát (Unsupervised learning). Tuy nhiên Scikit-learn không hỗ trợ các mô hình Deep Learning, và cũng không tận dụng được sức mạnh tính toán từ các GPU.

5. Pytorch

Nếu Scikit-learn là ông vua trong Machine Learning, thì đối với Deep Learning, chúng ta có 3 cái tên phổ biến ngang ngửa nhau, bao gồm Keras, Tensorflow và Pytorch. Nếu chỉ có thời gian làm quen và sử dụng 1 thư viện, thì Pytorch là sự lựa chọn tốt nhất. PyTorch là một thư viện mã nguồn mở mạnh mẽ dành cho Machine Learning và Deep Learning, được phát triển bởi Facebook's AI Research Lab (FAIR). Ra đời vào năm 2016, PyTorch nhanh chóng trở thành một trong những thư viện phổ biến nhất trong cộng đồng AI nhờ khả năng dễ sử dụng, linh hoạt, và hiệu suất cao. Pytorch kết hợp được sự đơn giản của Keras cùng với sự linh động và khả năng tùy chỉnh của Tensorflow.

6. OpenCV

Thư viện số 1 về Computer Vision (Thị giác máy tính). OpenCV hỗ trợ hơn 2.500 thuật toán cho xử lý ảnh và video, bao gồm các tính năng từ cơ bản đến nâng cao như nhận diện đối tượng, biến đổi hình học, và phân tích dữ liệu hình ảnh. Được viết bằng C++, OpenCV tối ưu hóa hiệu suất cho cả CPU và GPU. Với module CUDA, thư viện có thể khai thác sức mạnh của GPU để xử lý dữ liệu nhanh hơn. Với những bạn đi theo định hướng Computer Vision như mình, đây cũng là 1 trong số các thư viện các bạn bắt buộc phải thành thạo.

7. NLTK

Thư viện quen thuộc cho những ai học, nghiên cứu và làm việc trong lĩnh vực NLP (Xử lý ngôn ngữ tự nhiên). NLTK cung cấp một bộ công cụ toàn diện cho các tác vụ xử lý văn bản, bao gồm phân tích cú pháp, tokenization, stemming, lemmatization, trích xuất thông tin, và Machine Learning trên văn bản. Ngoài ra, nó còn cung cấp các bộ dữ liệu và tài liệu học thuật phong phú, giúp người mới bắt đầu dễ dàng tiếp cận lĩnh vực NLP.

Nếu các bạn là những người sắp hoặc đang học, tìm hiểu về AI, Data Science, Machine Learning, các thư viện trên các bạn sẽ dần được làm quen và tìm hiểu trong quá trình học. Còn nếu các bạn là những người đi làm rồi, thì chắc chắn 7 thư viện trên là những người bạn đồng hành trong công việc hàng ngày của các bạn.

Mình mong những chia sẻ của mình trong video này hữu ích với các bạn.