Skip to content

Nôm 喃AI tiếng Việt — chạy trên máy của bạn

Hỏi đáp tài liệu, đọc PDF / Word / Excel / PowerPoint, khôi phục dấu, sửa chính tả, OCR. Mọi thứ chạy nội bộ qua Ollama hoặc CPU. Dữ liệu của bạn không rời máy.

Nôm — chữ 喃

§ 02 · Dùng được vào việc gì

Mười hai tác vụ đã ship — mỗi tác vụ có trang riêng kèm số đo trên dữ liệu thật và lệnh tái lập từ một bản clone sạch.

01 · RAG

Hỏi đáp trên kho tài liệu

Tải PDF / DOCX / XLSX / PPTX / ảnh — Nôm cắt đoạn, sinh vector, tra cứu, xếp hạng lại, trả lời kèm trích dẫn. R@1 86,3 % trên Zalo Legal.

Xem tài liệu RAG →
02 · dịch thuật

Dịch Việt ↔ Anh giữ nguyên định dạng

Dịch .docx / .xlsx / .pptx / .txt — giữ nguyên tiêu đề, bảng, cấu trúc. Chạy nội bộ qua Ollama hoặc gọi Claude / GPT cho tác vụ không nhạy cảm.

Xem dịch thuật →
03 · chuyển định dạng

PDF / ảnh → DOCX chỉnh sửa được

OCR (Tesseract vie cho dòng in, Vintern cho viết tay), bóc bố cục, dựng lại DOCX với đoạn văn, bảng, đầu trang chân trang. Đầu vào để dịch, biên tập, hoặc lưu trữ.

Xem chuyển định dạng →
04 · sửa văn bản

Khôi phục dấu + sửa chính tả

Một mô hình ViT5 220 M xử lý gọn lỗi gõ Telex, mất dấu, lỗi OCR trong một lượt. 98,32 % tổng hợp light · 79,62 % OOD ngoài phân phối — vượt Toshiiiii1.

Xem sửa chính tả →
05 · OCR (chữ in)

Đọc ảnh / PDF scan tiếng Việt

Tesseract vie cho dòng in (CER 0,00 % sạch · 0,70 % nhiễu nhẹ), VietOCR cho chữ viết tay (CER 31,82 %) — vượt Tesseract 37,5 pp ở dòng viết tay.

Xem OCR →
06 · OCR chữ viết tay

Đọc biểu mẫu / ghi chú / CMND viết tay

Vintern-1B-v3_5 (MIT, safetensors) qua VLM cấp trang. CER 0,47 % sạch / 0,37 % nhiễu trên 20 ảnh chữ in tổng hợp; cảnh báo: VLM ảo trên line crop hẹp, phải truyền cả trang.

Xem OCR chữ viết tay →
07 · giọng nói → văn bản

Chuyển ghi âm tiếng Việt thành văn bản

PhoWhisper-large (BSD-3, VinAI tinh chỉnh Whisper trên 844 giờ tiếng Việt) hoặc Whisper-large-v3 (đa ngôn ngữ, ghi âm lai EN/VN). Đo nội bộ n=3: WER 15,2 %; cần đo thêm trên ViMD 3 vùng.

Xem STT →
08 · tóm tắt

Tóm tắt báo / hợp đồng / hội thoại

VietAI ViT5-large-vietnews (MIT, 866 M) với prefix theo văn phong. Upstream ROUGE-1 63,4 vietnews. Cảnh báo: mô hình có thể bịa số liệu cụ thể — đừng dùng cho pháp lý / tài chính nếu không kiểm chứng số.

Xem tóm tắt →
09 · phân loại văn phong

Định tuyến văn bản theo thể loại

PhoBERT-base 4 lớp (trang trọng / kinh doanh / hội thoại / văn học) — macro F1 0,900 trên test n=1234 (trang trọng 0,91 / kinh doanh 0,91 / hội thoại 0,92 / văn học 0,87). Bản quy tắc dự phòng (~1 ms, không cần GPU) cũng ship trong OSS.

Xem phân loại văn phong →
10 · tác tử

Tác tử AI gọi công cụ và MCP

6 mẫu Anthropic (Single / Chain / Route / Parallel / Voting / Orchestrator-Evaluator) + cầu nối MCP để mở hoặc dùng công cụ ngoài. Streaming bằng SSE, có audit log.

Xem tác tử →
11 · trích xuất thực thể

NER chuẩn + bộ pháp lý VN

Trích PER / ORG / LOC / DATE / MONEY (chuẩn) và LAW_REF (luật, điều, khoản) / ID_VN (CMND/CCCD) / PHONE_VN (bộ pháp lý) cho hợp đồng VN. Quy tắc, không cần GPU.

Xem trích xuất thực thể →
12 · tuân thủ

Phân loại rủi ro AI · Luật 134/2025

Phân loại theo 3 mức (cao / trung / thấp) đối chiếu Điều 8–15. Mỗi quyết định kèm điều luật áp dụng và lý do — đầu vào dạng tự nhiên, không cần nhãn thủ công.

Xem tuân thủ →

§ 03 · Sản phẩm thấy được

Một lệnh nom serve là có giao diện web đầy đủ chạy ngay trên máy của bạn — không phải chỉ một thư viện trong terminal.

Giao diện hỏi đáp với câu trả lời và trích dẫn
Hỏi đáp trên không gian "Hợp đồng & Báo cáo". Câu trả lời kèm trích dẫn được liên kết về tài liệu nguồn — bạn click vào để xem đoạn gốc.
Bóc tách nội dung từ DOCX
Bóc tách DOCX / XLSX / PPTX. Giữ nguyên đầu trang, bảng và cấu trúc. Xem được cả văn bản gốc và phần đã trích.
Khôi phục dấu cho hợp đồng tiếng Việt không dấu
Khôi phục dấu trực tiếp. Dán văn bản không dấu, chọn văn phong (kinh doanh, hội thoại, văn học...), chọn cách chạy (quy tắc / mô hình HF / LLM) — chạy thẳng trên máy.
Dịch thuật giữ nguyên định dạng .docx, .xlsx, .pptx, .txt
Dịch thuật giữ nguyên định dạng. Việt ↔ Anh cho .docx / .xlsx / .pptx / .txt — giữ nguyên tiêu đề, bảng, cấu trúc. Chuyển đổi PDF / ảnh sang DOCX qua OCR rồi dịch tiếp.
Tài liệu API và ví dụ cURL
API và ví dụ tích hợp. Mọi tác vụ có sẵn endpoint REST. Dán cURL hoặc dùng thư viện Python để ghép vào hệ thống của bạn.

Xem dịch thuật · Xem chuyển định dạng · Cài và mở thử trong 2 phút →

§ 04 · Pipeline RAG

Sáu bước, mỗi bước là một module thay thế được qua Protocol — không khoá vào nhà cung cấp nào.

§ 05 · Triết lý vận hành

Bốn nguyên tắc bất di bất dịch — đã thấm vào mọi commit và mọi con số trên trang này.

P · 01
Đo trước, công bố sau
Mọi con số xuất hiện trong tài liệu hay model card đều có script benchmarks/… chạy được từ một bản clone sạch và file kết quả JSON commit trong repo. Khi chưa đo, chúng tôi để trống thay vì viết "TBD" — minh bạch là điều kiện tiên quyết.
P · 02
Riêng tư mặc định
Không gọi đám mây thuê bao mặc định; mọi mô hình chạy nội bộ qua Ollama hoặc trên CPU/GPU của bạn. Dữ liệu nhạy cảm — hợp đồng, hồ sơ y tế, tài liệu nội bộ — không rời máy người dùng.
P · 03
Bảo mật nguồn gốc phần mềm
Loại bỏ phụ thuộc kèm tệp pickle (.pkl); ưu tiên safetensors. Mỗi mô hình bên thứ ba có bản băm SHA256 được audit, được pin theo phiên bản, và được giải thích lý do trong tài liệu của lớp bao bọc.
P · 04
Đa văn phong
Mọi mô hình được đo trên ít nhất hai văn phong khác nhau (kinh doanh + văn học, hoặc trong-miền + ngoài-miền). Khoảng cách >10 pp giữa các văn phong là dấu hiệu lệch văn phong và sẽ được ghi rõ trong model card thay vì bị che giấu.

§ 06 · Đi đâu tiếp

Tuỳ bạn đang ở vai gì — học hỏi, tự cài, hay đánh giá cho doanh nghiệp.

Cộng đồng