Skip to main content
Dung Nguyen

Dung Nguyen

Admin group Bình dân học AI

MinerU: Công cụ trích xuất tài liệu miễn phí tuyệt vời cho kỷ nguyên AI

· 5 min read

Mình vừa được trải nghiệm một công cụ miễn phí tuyệt vời, hiện đang đứng top 1 trên GitHub, đó chính là MinerU. Về cơ bản, MinerU là một công cụ trích xuất và chuyển đổi tài liệu thông minh, kết quả sẽ ở dạng markdown, JSON,... đặc biệt hữu ích để làm đầu vào huấn luyện AI thay vì ném cả 1 file PDF không có động tác nào khác để xử lý.

MinerU là gì?

MinerU là một công cụ giúp chuyển đổi các tài liệu PDF, Word, PPT,... sang các định dạng máy có thể đọc được (ví dụ: Markdown, JSON), cho phép dễ dàng trích xuất thông tin sang bất kỳ định dạng nào. MinerU ra đời trong quá trình tiền huấn luyện của InternLM, tập trung giải quyết các vấn đề chuyển đổi ký hiệu trong các tài liệu khoa học, với mong muốn đóng góp vào sự phát triển công nghệ trong kỷ nguyên mô hình lớn.

Trải nghiệm của mình với MinerU:

Mình đã thử nghiệm MinerU với một số tài liệu PDF, bao gồm cả tài liệu khoa học và tài liệu thông thường. Kết quả thật sự ấn tượng! MinerU đã xử lý rất tốt các tài liệu, kể cả những tài liệu có bố cục phức tạp như trong video demo của mình. Các văn bản, hình ảnh, bảng biểu, công thức đều được trích xuất chính xác và giữ nguyên cấu trúc ban đầu. Đặc biệt, khả năng nhận dạng và chuyển đổi công thức sang định dạng LaTeX rất hữu ích cho mình trong việc nghiên cứu khoa học.

Mình có thử test với 1 bài báo nghiên cứu tiếng anh có nhiều công thức toán học và hình ảnh thì công cụ nhận diện được hình ảnh và công thức toán rất tốt, gần như không có lỗi lầm gì.

Ảnh minh hoạ thử nghiệm trích xuất thông tin từ 1 bài báo khoa học

Tuy nhiên khi mình thử với tài liệu tiếng Việt thì kết quả không được tốt lắm, nó nhận diện ảnh vẫn rất tốt nhưng với chữ thì không. Mặc dù trong phần giới thiệu, nhà phát triển MinerU có liệt kê phần hỗ trợ tiếng Việt (vi)). Rất đáng tiếc, nếu họ có thể hỗ trợ xử lý tiếng Việt tốt hơn thì sẽ càng tuyệt vời.

Điểm nổi bật của MinerU:

So với các sản phẩm thương mại nổi tiếng, MinerU tuy còn non trẻ nhưng sở hữu rất nhiều tính năng vượt trội, hoàn toàn miễn phímã nguồn mở:

  • Loại bỏ nhiễu: Xóa bỏ các phần không cần thiết như tiêu đề đầu trang, chân trang, chú thích, số trang,... đảm bảo tính mạch lạc về mặt ngữ nghĩa.
  • Đọc theo thứ tự: Xuất văn bản theo thứ tự con người có thể đọc được, phù hợp với bố cục đơn cột, đa cột và phức tạp.
  • Giữ nguyên cấu trúc: Bảo toàn cấu trúc ban đầu của tài liệu, bao gồm tiêu đề, đoạn văn, danh sách,...
  • Trích xuất đa dạng: Trích xuất hình ảnh, mô tả hình ảnh, bảng biểu, tiêu đề bảng, chú thích.
  • Chuyển đổi công thức: Tự động nhận dạng và chuyển đổi công thức trong tài liệu sang định dạng LaTeX.
  • Chuyển đổi bảng biểu: Tự động nhận dạng và chuyển đổi bảng biểu trong tài liệu sang định dạng HTML.
  • Hỗ trợ OCR mạnh mẽ: Tự động phát hiện PDF scan, PDF bị lỗi và kích hoạt chức năng OCR. OCR hỗ trợ phát hiện và nhận dạng 84 ngôn ngữ.
  • Đa dạng định dạng đầu ra: Hỗ trợ nhiều định dạng đầu ra như Markdown đa phương thức và NLP, JSON được sắp xếp theo thứ tự đọc và các định dạng trung gian phong phú.
  • Trực quan hóa kết quả: Hỗ trợ nhiều kết quả trực quan hóa, bao gồm trực quan hóa bố cục và trực quan hóa khoảng, để xác nhận hiệu quả chất lượng đầu ra.
  • Linh hoạt trên nhiều nền tảng: Hỗ trợ chạy trong môi trường CPU thuần túy, cũng như hỗ trợ tăng tốc GPU(CUDA)/NPU(CANN)/MPS. Tương thích với Windows, Linux và Mac.

MinerU phù hợp với ai?

MinerU là công cụ lý tưởng cho:

  • Các nhà nghiên cứu: Trích xuất dữ liệu từ các bài báo khoa học, sách, báo cáo,...
  • Nhà phát triển: Xây dựng kho ngữ liệu cho các mô hình học máy, mô hình ngôn ngữ lớn, RAG,...
  • Bất kỳ ai: Cần trích xuất thông tin từ các tài liệu PDF, Word, PPT,... một cách nhanh chóng và chính xác.

Nói chung là:

MinerU là một công cụ mạnh mẽ, linh hoạt và hoàn toàn miễn phí, giúp bạn tiết kiệm thời gian và công sức trong việc trích xuất thông tin từ tài liệu. Mình highly recommend các bạn hãy thử trải nghiệm MinerU và khám phá tiềm năng to lớn của nó trong kỷ nguyên AI! Hơi đáng tiếc trong vấn đề xử lý tiếng Việt nhưng cũng rất đáng để thử nghiệm. Bạn có thể thử trực tiếp bản demo trên Huggingface như video mình làm dưới đây, ngoài ra truy cập GitHub của MinerU để tải về và sử dụng, có cả API nữa nhé và bản cài trên máy Window, Mac, Linux luôn nhé.