Skip to main content
Admin

Admin

Hunter

🤖 Những Thuật Ngữ AI Dễ Bị Nhầm Lẫn Khi Học Bằng Tiếng Việt

· 10 min read
Nguồn: Bình dân học AI

-Tác giả: Viet Nguyen - Senior AI Engineer

-Facebook: "https://www.facebook.com/vietnh1009"

Hi các bạn,

AI vốn là 1 lĩnh vực có tính hàn lâm cao. Do đó trong quá trình học AI, người học sẽ phải làm quen và tiếp xúc với rất nhiều các thuật ngữ. Với các bạn học AI hoàn toàn bằng tiếng Anh thì không có vấn đề gì. Tuy nhiên với những bạn học bằng tiếng Việt, hoặc tiếng Anh song song với tiếng Việt, có 1 vài thuật ngữ sẽ khiến cho nhiều bạn, đặc biệt là những bạn mới, cảm thấy khó hiểu hoặc dễ bị nhầm lẫn. Trong video/bài viết này mình xin tổng hợp những thuật ngữ như vậy:

1. Hồi quy

Đây là thuật ngữ dễ gây lú bậc nhất trong AI khi được dịch sang tiếng Việt. Đối với cá nhân mình, mình rất ghét thuật ngữ này. Có 2 lý do chính, và cả 2 lý do đều có liên quan tới dịch thuật:

Lý do 1: Dịch thuật từ tiếng Anh sang tiếng Việt

Những thuật ngữ dễ bị nhầm lẫn khi học AI bằng tiếng Việt

Vì 1 lý do nào đó mà trong quá trình dịch các thuật ngữ từ tiếng Anh sang tiếng Việt, có 2 từ trong AI có ý nghĩa hoàn toàn khác biệt nhau, không hề liên quan với nhau 1 chút nào, nhưng lại được dịch sang cùng 1 từ tiếng Việt, đó là Regression và Recurrent.

  • Từ đầu tiên - Regression - thường xuất hiện trong thuật ngữ Linear Regression - hay tiếng Việt được gọi là Hồi quy tuyến tính. Đây là 1 trong số các thuật toán Machine Learning vô cùng cơ bản, mà gần như ai học về AI cũng biết đến.
  • Từ thứ hai - Recurrent - xuất hiện trong thuật ngữ Recurrent Neural Network - hay tiếng Việt được dịch là Mạng Nơ-ron hồi quy. Đây là kiến trúc nổi tiếng trong Deep Learning thường được sử dụng để giải quyết các bài toán trong mảng NLP (Xử lý ngôn ngữ tự nhiên).

2 từ khác nhau, nằm trong 2 thuật ngữ khác nhau. 1 thuật ngữ là về 1 thuật toán cụ thể trong Machine Learning, còn thuật ngữ còn lại là về 1 kiến trúc tổng quát trong Deep Learning. Nhưng khi cập bến Việt Nam, chúng lại có chung 1 cái tên. Trong quá trình dạy các lớp học online về AI, mình luôn phải nhấn mạnh với các bạn học viên là nếu có đọc các tài liệu tiếng Việt mà nhìn thấy từ Hồi quy thì phải xem ngữ cảnh hoặc đơn giản hơn là nhìn các từ xung quanh để biết đây là Hồi quy nào, là Regression hay Recurrent.

Lý do 2: Từ này sau khi được dịch sang tiếng Việt có ý nghĩa không thật sự rõ ràng (Đây là ý kiến của cá nhân mình)

Regression ngoài việc được ghép vào tên các thuật toán, thì bản thân nó khi đứng 1 mình cũng là tên của 1 bài toán vô cùng phổ biến trong Machine Learning nói riêng cũng như trong AI nói chung. Trong AI, nhìn chung các bài toán đều có tên khá rõ ràng. Ví dụ: Classification là phân loại, Object Detection là phát hiện đối tượng hay Object Tracking là theo dõi đối tượng. Tuy nhiên đối với bài toán Regression (Hồi quy) thì mọi thứ sẽ hơi phức tạp hơn 1 chút.

Regression là bài toán mà mô hình sẽ phải dự đoán 1 giá trị liên tục (e.g. dự đoán giá nhà, dự đoán điểm). Trong tiếng Việt, từ Hồi quy được mượn từ lĩnh vực thống kê, ám chỉ việc Quay lại (regress) để tìm mối quan hệ trong dữ liệu. Tuy nhiên, nếu lần đầu nghe tới từ Hồi quy, kể cả có sự trợ giúp của từ điển tiếng Việt, rất khó để chúng ta có thể tìm được sự liên quan nào giữa từ này với mục đích của bài toán như mình vừa đề cập. Mình không muốn nói đây là 1 bản dịch lỗi, vì trong từ điển Anh-Việt thực sự người ta cũng dịch Regression là Hồi Quy. Chỉ là khi nhìn vào nó ta không luận ra được (hoặc là khó mà luận ra được) ý nghĩa của bài toán mà thôi.

Thế còn với từ Hồi Quy thứ 2 - Recurrent - Từ Hồi trong Hồi Quy ám chỉ sự quay lại, lặp lại. Khi dịch Recurrent sang tiếng Việt, có thể người ta muốn nhấn mạnh tính chất lặp đi lặp lại (recurrent) và sự hồi tiếp (feedback) của mô hình. Tuy nhiên, Hồi Quy trong ngữ cảnh này không chính xác về mặt ý nghĩa, mà chỉ là một cách dịch gần âm.

Gần đây, trong 1 vài tài liệu tiếng Việt, mình thấy từ Recurrent đã được dịch thành Hồi Tiếp hoặc Tuần Hoàn. Cá nhân mình thấy 2 từ này phản ánh bản chất xử lý lặp lại của Recurrent tốt hơn so với từ Hồi Quy.

2. Bias

Đây là thuật ngữ được sử dụng trong AI, Machine Learning và Deep Learning ở trong nhiều tình huống khác nhau. Và ở mỗi 1 tình huống, mỗi 1 ngữ cảnh cụ thể thì nó lại mang 1 ý nghĩa khác nhau. Thậm chí có 1 vài trường hợp mà thuật ngữ này được sử dụng theo cách không liên quan gì đến các ý nghĩa được định nghĩa trong từ điển tiếng Anh. Cụ thể, bias có ít nhất 4 cách sử dụng khác nhau như sau:

Bias trong Machine Learning

  • Ý nghĩa: Bias đề cập đến lỗi hoặc sự sai lệch trong dự đoán của mô hình.
  • Ngữ cảnh sử dụng: Xuất hiện trong bias-variance tradeoff, nơi bias đại diện cho sự khác biệt giữa dự đoán của mô hình và giá trị thực. Bias cao thường xuất hiện khi mô hình bị Underfitting (không đủ phức tạp để nắm bắt quy luật dữ liệu). Ví dụ: Một mô hình tuyến tính đơn giản có thể không phù hợp để mô tả dữ liệu phức tạp, dẫn đến bias cao.
  • Tóm lại: Bias cao -> Mô hình quá đơn giản, không thể học tốt từ dữ liệu. Bias thấp -> Mô hình có khả năng nắm bắt các mối quan hệ giữa input đầu vào và output đầu ra.

Bias trong Deep Learning

  • Ý nghĩa: Bias là một thành phần cố định được cộng vào mỗi nơ-ron trong mạng nơ-ron nhân tạo.
  • Vai trò: Bias giúp tăng độ linh hoạt của mạng, đảm bảo rằng mô hình không bị giới hạn ở những đường tuyến tính đi qua gốc tọa độ.

Bias trong dữ liệu

  • Ý nghĩa: Bias xuất hiện trong dữ liệu khi tập dữ liệu không đại diện đầy đủ cho tổng thể hoặc chứa thông tin bị thiên lệch.
  • Ngữ cảnh sử dụng: Khi dữ liệu huấn luyện bị mất cân bằng (ví dụ: dữ liệu chỉ chứa phần lớn nam giới và rất ít nữ giới), mô hình sẽ có xu hướng học theo sự thiên lệch đó. Bias dữ liệu có thể dẫn đến sự thiên lệch trong quyết định của mô hình, gây ra hậu quả nghiêm trọng trong các ứng dụng như tuyển dụng, tài chính, hoặc pháp lý.
  • Ví dụ: Mô hình nhận diện khuôn mặt hoạt động tốt trên người da trắng nhưng kém chính xác với người da màu.

Bias trong kỹ thuật (Technical Bias)

  • Ý nghĩa: Bias có thể là sự thiên lệch do lựa chọn kỹ thuật, ví dụ: Chọn mô hình, thuật toán, hyperparameter không phù hợp. Hoặc là do thu thập dữ liệu từ một nguồn cụ thể thay vì từ nhiều nguồn đa dạng.
  • Ngữ cảnh sử dụng: Bias này thường là do lỗi của con người trong thiết kế hoặc triển khai hệ thống AI.

Từ bias trong AI mang nhiều ý nghĩa tùy thuộc vào bối cảnh. Để hiểu rõ, cần xác định ngữ cảnh sử dụng, chẳng hạn như trong thuật toán, dữ liệu hay về kỹ thuật nói chung.

3. Accuracy vs Precision

Đây là 2 metrics vô cùng phổ biến được sử dụng để đánh giá các mô hình Classification (Phân loại) trong Machine Learning. Tuy nhiên 2 từ này nếu dịch sang tiếng Việt thì đều có nghĩa là Độ chính xác. Trong nhiều tài liệu về Machine Learning bằng tiếng Việt, khi 2 từ này đứng riêng với nhau thì chúng cũng thường đều được dịch là Độ chính xác. Chỉ khi nào chúng cùng được đề cập đến trong 1 văn cảnh thì người ta mới dịch chúng khác nhau đi đôi chút.

Để giải thích sự khác biệt giữa 2 metrics này dựa vào công thức cho các bạn chưa từng tiếp xúc hay tìm hiểu về AI thì sẽ hơi dài dòng 1 chút, nhưng mình sẽ lấy cho các bạn 1 ví dụ như thế này. Giả sử chúng ta đang muốn đánh giá xem 1 mô hình phân loại/dự đoán bệnh nhân ung thư. Nếu Accuracy cho chúng ta biết tỷ lệ dự đoán chính xác của mô hình (tổng số lượng dự đoán đúng trên tổng số dự đoán) thì Precision cho chúng ta biết rằng trong số những bệnh nhân mà mô hình dự đoán là bị ung thư, thì tỉ lệ họ bị ung thư thật là bao nhiêu phần trăm.

Mình thấy có 1 vài tài liệu có cách dịch 2 metrics này rất hay, vừa tránh nhầm lẫn vừa toát lên ý nghĩa thực sự của từng metrics:

  • Accuracy có thể được dịch là Độ chính xác tổng thể/tổng quát.
  • Precision có thể được dịch là Độ chính xác trong dự đoán dương.

Giải thích thêm 1 chút thì Precision thường được dùng để đánh giá các mô hình Binary Classification (Phân loại nhị phân) - tức là mô hình chỉ dự đoán được 1 trong 2 nhóm (e.g. Nam hoặc Nữ, email spam hoặc không, người bị bệnh hoặc khỏe), thì nhóm mà chúng ta quan tâm đến hơn (e.g. Nữ, email spam, người bị bệnh) sẽ được gọi là nhóm dương (Positive Class). Thường thường nhóm này là nhóm thiểu số, có ít phần tử hơn nhóm còn lại.

Mình hy vọng những chia sẻ của mình sẽ giúp ích cho các bạn trong quá trình học AI, đặc biệt là với những bạn vẫn đang phần nào đó sử dụng các tài liệu viết bằng tiếng Việt 😎