Tổng quan chi tiết về các Large Language Models (LLMs) 🤖
Facebook: "https://www.facebook.com/frank.t96/"
Bài viết là bản tóm tắt từ video "How I use LLMs" của Andrej Karpathy. Transcript được extract bằng Gemini 2.0 Flash trên Google AI Studio (temperature=0) để đảm bảo độ chính xác cao nhất. Mình dùng Claude 3.7 Sonnet (Exteneded Thinking) để tóm tắt.

Giới thiệu về Hệ sinh thái LLMs 🌐
Bài thuyết trình này tập trung vào các ứng dụng thực tế của Large Language Models (LLMs) như ChatGPT. Năm 2022, ChatGPT do OpenAI phát triển đã tạo ra bước đột phá bằng cách cho phép người dùng tương tác với LLMs thông qua giao diện văn bản. Đến năm 2025, hệ sinh thái đã phát triển đáng kể với nhiều nền tảng tương tự:
- Big Tech: Gemini (Google), Meta AI (Meta), Copilot (Microsoft)
- Startup: Claude (Anthropic), Grok (XAI của Elon Musk), DeepSeek (Trung Quốc), LaChatAI (Mistral - Pháp)
Người dùng có thể theo dõi hiệu suất của các model này thông qua các bảng xếp hạng như Chatbot Arena hoặc SEAL Leaderboard.
Hiểu biết kỹ thuật về LLMs 🧠
Tương tác cơ bản
Khi tương tác với LLMs, người dùng nhập văn bản và nhận lại văn bản phản hồi. Dưới góc nhìn kỹ thuật, văn bản được chia thành các "token" - đơn vị văn bản nhỏ mà model xử lý. Mỗi hội thoại tạo ra một chuỗi token một chiều. Người dùng và model luân phiên đóng góp vào chuỗi token này.
Cấu trúc của LLMs
LLMs có thể coi như một "zip file" - một mạng neural với hàng nghìn tỷ tham số:
- Pre-training 📚: Model được huấn luyện trên toàn bộ internet, nén kiến thức vào các tham số. Giai đoạn này tốn kém (hàng chục triệu đô), diễn ra không thường xuyên, dẫn đến "knowledge cutoff" - model không biết về các sự kiện sau thời điểm huấn luyện.
- Post-training 🎭: Biến model từ trình tạo văn bản internet thành trợ lý hội thoại, áp dụng tính cách và phong cách phù hợp.
Điều quan trọng cần hiểu là model LLM mặc định là thực thể khép kín - không có máy tính, trình duyệt web hay tool bên ngoài.
Loại model và giá cả 💰
Các nhà cung cấp LLMs thường có nhiều mức giá với các model khác nhau:
- ChatGPT:
- Free: GPT-4 Mini (nhỏ hơn, kém sáng tạo hơn)
- Plus ($20/tháng): 80 tin nhắn GPT-4 mỗi 3 giờ
- Pro ($200/tháng): GPT-4 không giới hạn và nhiều tính năng nâng cao
Điều quan trọng là biết mình đang sử dụng model nào, vì model lớn hơn thường thông minh hơn nhưng đắt hơn.
Thinking Models 🤔
Thinking Models là thế hệ LLMs mới được huấn luyện bằng reinforcement learning để phát triển chiến lược suy nghĩ. Những model này:
- Thể hiện "suy nghĩ nội tâm" như con người
- Có độ chính xác cao hơn với các vấn đề toán học, lập trình, hoặc bài toán phức tạp
- Mất thời gian hơn (đôi khi vài phút) để xử lý câu hỏi
Các thinking models của OpenAI bao gồm O1, O3 Mini, và O1 Pro Mode. Claude 3.7 đã thêm "extended thinking mode" và Grok có tùy chọn "think".
Người trình bày so sánh việc giải quyết một vấn đề lập trình cụ thể với nhiều model khác nhau, chứng minh thinking models cung cấp giải pháp tốt hơn.
Tích hợp tool 🛠️
Tìm kiếm Internet 🔍
Các LLMs có thể được tích hợp với các tool bên ngoài, đặc biệt là tìm kiếm internet. Khi model không biết câu trả lời (thường là thông tin gần đây), nó có thể:
- Tạo truy vấn tìm kiếm
- Truy cập trang web
- Đưa nội dung vào context window
- Trả lời dựa trên thông tin thu thập được
Ví dụ sử dụng: "Khi nào tập mới của White Lotus phát sóng?", "Tại sao cổ phiếu Palantir tăng?", "Có an toàn khi đi du lịch Việt Nam không?".
Các ứng dụng khác nhau có mức độ tích hợp tìm kiếm khác nhau; Perplexity.ai là một trong những ứng dụng đầu tiên thực hiện tính năng này tốt.
Deep Research 🔬
Deep Research kết hợp tìm kiếm internet với khả năng tư duy và thời gian xử lý dài (10-30 phút). Nó:
- Thực hiện nhiều tìm kiếm và phân tích
- Đọc các bài nghiên cứu và tài liệu
- Tạo báo cáo chi tiết với trích dẫn
Hiện tại có trong ChatGPT Pro, Claude, và Grok (Deep Search). Ví dụ sử dụng: nghiên cứu chất hoạt tính sức khỏe, so sánh trình duyệt web (Brave vs Arc), hoặc tóm tắt nghiên cứu khoa học.
Tải file và hiểu tài liệu 📄
LLMs có thể phân tích tài liệu được tải lên (PDF, văn bản) bằng cách:
- Tải nội dung vào context window
- Cho phép người dùng đặt câu hỏi về tài liệu
Điều này đặc biệt hữu ích khi:
- Đọc bài nghiên cứu khoa học
- Đọc sách cổ điển (như "Wealth of Nations" từ 1776)
- Tìm hiểu tài liệu từ các lĩnh vực không quen thuộc
Người dùng có thể đọc cùng với LLMs, đặt câu hỏi làm rõ, và tăng khả năng hiểu và ghi nhớ.
Python Interpreter 💻
LLMs có thể viết và chạy code, đặc biệt là Python, để giải quyết vấn đề:
- Tự động chuyển sang sử dụng tool cho các phép tính phức tạp
- Tạo biểu đồ và phân tích dữ liệu (Advanced Data Analysis trong ChatGPT)
- Lưu ý rằng không phải tất cả các model đều có quyền truy cập vào tool này
Code được tạo cần được kiểm tra cẩn thận vì có thể chứa lỗi hoặc giả định ẩn.
Claude Artifacts 🎨
Claude cung cấp "Artifacts" - khả năng tạo ứng dụng tùy chỉnh hoạt động trong trình duyệt:
- Viết code hoàn chỉnh cho ứng dụng (thường là React)
- Triển khai trực tiếp trong cửa sổ hội thoại
- Cho phép tạo ứng dụng đơn giản như flashcards, biểu đồ, và trò chơi
- Tạo sơ đồ khái niệm hữu ích (sử dụng thư viện Mermaid)
Công cụ lập trình chuyên dụng 👨💻
Đối với lập trình chuyên nghiệp, các ứng dụng chuyên dụng như Cursor cung cấp:
- Tích hợp với các file cục bộ
- Sửa đổi code trong nhiều file
- Thực hiện lệnh và giải thích code
- "Vibe coding" - cho phép LLMs tự động viết và thay đổi code với hướng dẫn tối thiểu
Multimodality 📱
Âm thanh 🔊
LLM có thể tương tác bằng âm thanh theo hai cách:
- Âm thanh "giả":
- Chuyển đổi giọng nói thành văn bản (Speech-to-Text)
- Chuyển đổi văn bản thành giọng nói (Text-to-Speech)
- Sử dụng các ứng dụng như Super Whisper trên desktop
- Âm thanh "thật":
- Xử lý âm thanh trực tiếp trong model
- Chat GPT Advanced Voice Mode: model hiểu và tạo âm thanh
- Hỗ trợ nhiều "modes" khác nhau (lãng mạn, hài hước, nghiêm túc)
Google Notebook LLMs cung cấp "Deep Dive podcast" - khả năng tạo podcast tùy chỉnh từ tài liệu được tải lên.
Hình ảnh 🖼️
LLM có thể xử lý hình ảnh bằng cách:
- Input hình ảnh:
- Phân tích nhãn dinh dưỡng
- Đọc kết quả xét nghiệm máu
- Giải thích công thức toán học
- Nhận dạng thành phần sản phẩm
- Giải thích meme
- Output hình ảnh:
- Tạo hình ảnh từ mô tả văn bản (DALL-E)
- Tạo biểu tượng, ảnh bìa, hoặc minh họa
- Tùy chỉnh phong cách và chủ đề
Video 📹
Tính năng video bao gồm:
- Phân tích video (trong ChatGPT Advanced Voice Mode trên mobile):
- Xem và bình luận về đối tượng trong thời gian thực
- Nhận dạng sách, thiết bị, bản đồ, v.v.
- Tạo video:
- Nhiều model như Sora (OpenAI), Gen-2 (Runway), Pika, V2 Video đang phát triển nhanh chóng
- Tạo video ngắn từ mô tả văn bản
Tính năng nâng cao chất lượng trải nghiệm ✨
ChatGPT Memory 🧠
ChatGPT có thể ghi nhớ thông tin giữa các cuộc trò chuyện:
- Lưu trữ sở thích, ý kiến, và thông tin cá nhân
- Tự động cập nhật hoặc yêu cầu người dùng xác nhận
- Cải thiện các đề xuất và phản hồi theo thời gian
- Người dùng có thể quản lý, chỉnh sửa hoặc xóa memory
Custom Instructions ⚙️
Người dùng có thể điều chỉnh cách LLMs tương tác:
- Xác định các đặc điểm ưa thích (formal, informal, educational, v.v.)
- Cung cấp thông tin về danh tính và ưu tiên
- Thiết lập tùy chọn ngôn ngữ và giọng điệu
Custom GPTs 🧩
ChatGPT cho phép tạo phiên bản đặc biệt cho các tác vụ cụ thể:
- Trích xuất từ vựng tiếng Hàn
- Phiên dịch chi tiết (hiển thị cấu trúc câu)
- OCR và phiên dịch phụ đề phim
- Sử dụng lời nhắc "few-shot" (với các ví dụ) để tăng độ chính xác
Kết luận 📝
Hệ sinh thái LLMs đang phát triển nhanh chóng với nhiều tính năng và khả năng:
- Các model khác nhau 🏆: Từ nhỏ và miễn phí đến lớn và cao cấp
- Thinking models 🧠: Tăng độ chính xác cho các vấn đề phức tạp
- Tích hợp tool 🛠️: Tìm kiếm web, lập trình, Deep Research
- Multimodality 📱: Xử lý âm thanh, hình ảnh và video
- Tính năng chất lượng cuộc sống ✨: Memory, custom instructions, custom GPTs
Mỗi nền tảng có điểm mạnh và điểm yếu riêng, nhưng ChatGPT vẫn là lựa chọn mặc định phong phú nhất về tính năng, mặc dù các đối thủ cạnh tranh đang phát triển nhanh chóng.