Skip to main content
Admin

Admin

Hunter

🖼️ Tổng Hợp 13 Bài Toán Phổ Biến trong Deep Learning for Computer Vision

· 7 min read
Nguồn: Bình dân học AI

-Tác giả: Viet Nguyen - Senior AI Engineer

-Facebook: "https://www.facebook.com/vietnh1009"

Hi các bạn,

Đầu tiên mình xin được gửi lời chúc năm mới đến tất cả mọi người. Chúc các bạn và gia đình luôn khỏe mạnh, gặp nhiều may mắn và thành công trong năm mới 🎇🎇🎇

Như là bài viết cuối cùng của năm 2024, mình xin chia sẻ với các bạn 1 video tổng hợp về chủ đề AI học thuật. Tuy độ dài video chỉ hơn 20 phút nhưng để hoàn thành mình đã phải mất hơn 1 tháng, từ lên nội dung, tổng hợp tài liệu, record cho đến edit. Đây là 1 video mình đã muốn làm từ rất lâu nhưng đến giờ mới có thể hoàn thiện. Mình cũng đã cố gắng để có thể giới thiệu và giải thích tất cả các khái niệm cũng như thuật ngữ theo cách đơn giản nhất có thể để các bạn ngoài ngành cũng có thể hiểu.

Trong thời buổi mà AI len lỏi vào mọi ngóc ngách của cuộc sống như ngày nay, thì Deep Learning (hay tiếng Việt gọi là Học sâu) - mảng con mạnh mẽ và nổi bật nhất của AI, nền tảng cốt lõi đứng sau thành công của những ứng dụng AI nổi bật như ChatGPT hay MidJourney đã không còn xa lạ với chúng ta nữa. Không có Deep Learning, 90% những ứng dụng hay thành tựu của AI xung quanh chúng ta sẽ bốc hơi không còn dấu vết.

Với những bạn đang học hay tìm hiểu về Deep Learning, các bạn sẽ biết được rằng Deep Learning được ứng dụng vào 2 mảng chính: Computer Vision (Thị giác máy tính) và NLP (Xử lý ngôn ngữ tự nhiên). Tùy vào sở thích cũng như nhu cầu của thị trường mà phần lớn người học sẽ chọn đi theo 1 trong 2 hướng này. Cũng có những người sẽ theo cả 2 hướng (Mình cũng là 1 trong số đó).

Với mỗi hướng, chúng ta lại có rất nhiều các bài toán cũng như ứng dụng khác nhau mà Deep Learning có thể được áp dụng. Video này sẽ được dành để nói về hướng thứ nhất. Nếu các bạn đi theo hướng này, các bạn thường sẽ được làm quen với 3 bài toán cơ bản và phổ biến nhất, bao gồm Image Classification, Object Detection và Image Segmentation. Tuy nhiên trong Computer Vision, còn rất nhiều bài toán khác thú vị và có tính ứng dụng cao trong thực tiễn. Trong video này, mình đã tổng hợp toàn bộ 13 bài toán phổ biến nhất của Deep Learning trong Computer Vision, bao gồm:

  1. Image Classification (Phân loại hình ảnh): Đây là bài toán nhận diện nội dung của hình ảnh và gán hình ảnh đó vào một trong các lớp đã được định sẵn. Ví dụ, một mô hình phân loại ảnh có thể xác định, phân loại hình ảnh là chó, mèo, xe hơi, hoặc cây. Đây là bài toán cơ bản và nền tảng trong Computer Vision, vì nó giúp tạo tiền đề cho các bài toán phức tạp hơn như Object Detection và Image Segmentation.
Ví dụ phân loại hình ảnh
  1. Object Detection (Phát hiện đối tượng): Đây là bài toán xác định sự hiện diện, vị trí và loại đối tượng trong ảnh. Khác với Image Classification, bài toán này không chỉ phân loại mà còn cung cấp tọa độ của bounding box bao quanh các đối tượng. Ví dụ, phát hiện và xác định vị trí của người hay của ô tô trong ảnh.
Ví dụ phân loại hình ảnh
  1. Image Segmentation (Phân đoạn hình ảnh): Đây là bài toán phân chia ảnh thành các vùng khác nhau, mỗi vùng ứng với một đối tượng hoặc loại đối tượng cụ thể. Kết quả của bài toán là một mặt nạ (mask) cho mỗi đối tượng trong ảnh, giúp phân biệt rõ ràng các đối tượng và nền (background).
Ví dụ phân loại hình ảnh
  1. Pose Estimation (Ước tính tư thế): Đây là bài toán xác định các keypoints trên cơ thể người hoặc động vật trong ảnh, từ đó suy ra tư thế của họ. Ví dụ, xác định vị trí của khớp đầu gối, khuỷu tay, mắt, và các phần khác của cơ thể.
Ví dụ phân loại hình ảnh
  1. Object Tracking (Theo dõi đối tượng): Đây là bài toán theo dõi vị trí của một hoặc nhiều đối tượng qua các khung hình liên tiếp trong video. Khác với Object Detection, Object Tracking không chỉ nhận diện đối tượng mà còn theo dõi chuyển động của chúng. Mục tiêu là duy trì một ID nhất quán cho mỗi đối tượng qua các khung hình, ngay cả khi đối tượng bị che khuất hoặc thay đổi góc nhìn.
Ví dụ phân loại hình ảnh
  1. Optical Character Recognition (Nhận dạng ký tự quang học): Đây là bài toán nhận diện và chuyển đổi văn bản trong hình ảnh thành văn bản kỹ thuật số.
Ví dụ phân loại hình ảnh
  1. Image Retrieval (Truy vấn hình ảnh): Đây là bài toán tìm kiếm các hình ảnh tương tự trong cơ sở dữ liệu dựa trên một hình ảnh đầu vào. Hệ thống sẽ trích xuất đặc trưng của hình ảnh đầu vào, so sánh với các hình ảnh trong cơ sở dữ liệu, và trả về những hình ảnh giống nhất, tương đồng nhất. Ngoài lề 1 chút thì đây cũng là đề tài đồ án tốt nghiệp thạc sỹ của mình 😁
Ví dụ phân loại hình ảnh
  1. 3D Object Reconstruction (Tái tạo cấu trúc đối tượng 3D): Đây là bài toán tạo mô hình 3D của đối tượng từ ảnh 2D. Đây là bài toán phức tạp đòi hỏi mô hình phải hiểu về hình dạng và kết cấu của đối tượng từ các góc độ khác nhau.

  2. Image Generation (Tạo hình ảnh): Đây là bài toán tạo ra hình ảnh mới từ dữ liệu hình ảnh đã huấn luyện, thường sử dụng các mô hình Generative Adversarial Networks (GANs) hoặc Variational Autoencoders (VAEs). Đây là bài toán tạo hình ảnh giả dựa trên các đặc trưng được học từ dữ liệu, như tạo ảnh chân dung, phong cảnh, hoặc tạo hình ảnh từ ảnh phác thảo.

Ví dụ phân loại hình ảnh
  1. Image Super-Resolution (Siêu phân giải): Đây là bài toán tăng độ phân giải của ảnh để có được hình ảnh sắc nét hơn từ ảnh gốc có độ phân giải thấp.
Ví dụ phân loại hình ảnh
  1. Image inpainting (Phục hồi hình ảnh): Đây là bài toán khôi phục hoặc điền vào các vùng bị mất hoặc hư hỏng trong ảnh, giúp phục hồi các hình ảnh bị thiếu dữ liệu hoặc phục chế ảnh cũ.

  2. Image Colorization (Tô màu hình ảnh): Đây là bài toán chuyển ảnh đen trắng thành ảnh màu bằng cách dự đoán màu sắc phù hợp cho từng vùng trong ảnh.

Ví dụ phân loại hình ảnh
  1. Image-to-Image Translation (Dịch chuyển hình ảnh): Đây là bài toán chuyển đổi hình ảnh từ một miền sang một miền khác, như từ ảnh vệ tinh thành bản đồ hoặc từ ảnh đêm thành ảnh ngày.
Ví dụ phân loại hình ảnh

Với mỗi bài toán mình sẽ tóm tắt mô tả bài toán, kiến trúc tổng quát, các mô hình nổi tiếng cũng như những ứng dụng trong thực tế. Mình hy vọng video tổng hợp này của mình có ích cho các bạn đang học về AI nói chung, và đặc biệt là những bạn đi theo định hướng chuyên về Computer Vision giống như mình nói riêng.

Mục lục