VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh”

Sau nhiều lần nâng cấp, phiên bản mới của VietOCR đã có thêm nhiều tính năng đáng giá như: hỗ trợ chế độ quét tích hợp, nhận dạng ký tự tiếng Việt trên nhiều dạng ảnh (bmp, jpg, tiff, png), hỗ trợ các tài liệu ảnh nhiều trang và cơ chế xử lý hậu kỳ, giúp khắc phục một số lỗi về ngữ nghĩa, chính tả sau khi xử lý. Đặc biệt chương trình hoàn toàn miễn phí.

Dung lượng: 4,2MB.
Tải tại: http://websitetinhoc.com (miễn phí).

Mô tả ảnh.
Nguồn: Diendantinhoc
So với một số phần mềm nhận dạng văn bản tiếng Việt như: VnDOCR, VietOCR thuộc vào hàng “ngon, bổ” và miễn phí. Tốc độ biên dịch nội dung nhanh, giao diện đơn giản, dễ sử dụng và mức độ chính xác có thể đạt hơn 80%.

VietOCR bao gồm hai phiên bản: phiên bản GUI Form chạy trên Windows (hỗ trợ cả 32/64bit) và phiên bản Swing GUI (sử dụng Java) có thể hoạt động trên nhiều hệ điều hành khác nhau như: Windows, Linux,…

VietOCR có thể sử dụng như một trình nhận dạng ký tự quang học độc lập (xử lý các file ảnh, dữ liệu sẵn có) hoặc kết hợp với chức năng quét để xử lý các tài liệu được nạp từ bên ngoài.

Thao tác xử lý văn bản được chia thành các loại:

1. Nhận dạng tài liệu ảnh:

Thông thường khi quét xong một tài liệu văn bản, file thu được sẽ được lưu dưới dạng một tài liệu ảnh và không thể xử lý (xoá text, nhập liệu, chỉnh sửa nội dung,…) như ban đầu. VietOCR sẽ có nhiệm vụ chuyển đổi các tài liệu này sang văn bản để bạn có thể xử lý dễ dàng. VietOCR hỗ trợ khá nhiều định dạng ảnh như: jpg, bmp, png, tiff, tuy nhiên không hỗ trợ định dạng gif.

Để sử dụng chương trình, bạn cần cài đặt thêm gói Visual C++ 2008 SP1 (nếu gói này chưa được cài đặt vào hệ thống), sau đó truy cập menu File > Open, trong phần File of types bạn chọn là All Image Files và nạp vào file văn bản cần xử lý. Xong, nhấn nút Open.

Tiếp đến, trên giao diện chính, bạn sẽ nhìn thấy hai khu vực: khu vực nằm bên trái chứa nội dung của file tài liệu vừa mới thêm vào, khung bên phải sẽ là tài liệu sau khi trích xuất từ file ảnh. Khi phần nội dung đã được nạp xong, bạn nhấn đề mục OCR Language (góc trên bên phải màn hình) và chọn Vietnamese. Sau đó, nhấn nút OCR để bắt đầu quá trình biên dịch nội dung, tốc độ nhanh hay chậm còn tùy thuộc vào độ dài, ngắn của văn bản và tốc độ xử lý của máy tính.

Sau khi biên dịch xong, bạn sẽ có ngay phần dữ liệu dạng text, có thể xoá hay thay đổi một cách dễ dàng. Một điểm hay của VietOCR, đó là khả năng tích hợp bộ gõ tiếng Việt (hoạt động dựa trên bộ gõ Unikey), cho phép bạn dễ dàng thay đổi nội dung văn bản có dấu mà không cần bộ gõ Unikey thường trực nơi khay hệ thống. Để định bộ gõ trong VietOCR, bạn truy cập menu Settings > Viet Input Method và chọn một trong các kiểu gõ: VNI, Telex, VIQR với Font mặc định là Unicode được tích hợp sẵn.

Trường hợp chỉ muốn nhận dạng riêng một khu vực nào đó, bạn giữ trái chuột và rê vào vùng văn bản mà bạn muốn trích xuất. Khi đó, chỉ nội dung của vùng này sẽ được hiển thị bên khung phải màn hình. Nếu muốn biên dịch tài liệu nhiều trang, bạn truy cập menu Command > OCR All Pages.

Để “thử” kiểm tra khả năng nhận diện văn bản của chương trình trên các định dạng khác nhau, người viết đã sử dụng thư viện mẫu văn bản có sẵn (C:Program FilesVietUnicodeVietOCR.NETsamples) và dùng chương trình MS Paint của Windows để lưu lại thành các định dạng khác nhau như: PNG, JPG và BMP (256 bit) từ file gốc có định dạng .TIFF

Kết quả, cả ba trường hợp đều nhận dạng được văn bản khá chuẩn xác. Tuy nhiên một số dấu câu chưa đúng và một vài từ vẫn còn sai chính tả, không rõ nghĩa nhưng mức độ biên dịch so với bản gốc là khá chuẩn.

2. Cài đặt máy quét:

Nếu nhu cầu của bạn là xử lý các tài liệu bên ngoài thông qua hệ thống quét của chương trình, nhất thiết bạn phải cài đặt thêm máy quét. Để làm việc này, bạn truy cập vào thư mục cài đặt của VietOCR, tìm và sao chép file WIAAut.dll (C:Program FilesVietUnicodeVietOCR.NET) vào thư mục C:WindowsSystem32.

Sau đó, bạn vào Start > Run, gõ lệnh regsvr32 C:WindowsSystem32WIAAut.dll để đăng ký thư viện này với Windows. Khi đăng ký xong, bạn cài driver cho máy quét và bắt đầu tiến trình xử lý văn bản như trên.

Lưu ý:

Trong quá trình biên dịch, đôi lúc bạn sẽ gặp phải thông báo lỗi Attemp to read or write protected memory, một trong những nguyên nhân gây ra lỗi này là do văn bản đã định sai hướng (lệch hướng đi, thay vì nằm ngang, văn bản đã chuyển sang hướng đứng), bạn chỉ việc nhấn nút Rotate vài lần cho đúng hướng là xong.

Nếu không có máy quét và bạn vẫn muốn “trải nghiệm” tính năng của phần mềm, bạn có thể tải tiện ích ImagePrinter, giúp bạn chuyển đổi bất kỳ tài liệu nào sang bốn định dạng hỗ trợ sẵn của chương trình (bmp, png, tiff, jpg). Trường hợp nếu muốn chuyển giao diện chương trình sang tiếng Việt, bạn truy cập menu Settings > User Interface Language, chọn Vietnamese.

Cũng tương tự quá trình nhận dạng tài liệu ảnh ở trên, trong trường hợp này tài liệu quét sẽ được chia thành hai dạng để kiểm tra: dạng văn bản thuần (text) và văn bản kèm hình ảnh. Quá trình xử lý và biên dịch được thực hiện như bước 1. Kết quả chương trình nhận dạng tốt với các văn bản thuần và gặp phải tình trạng lỗi OCR Operation với các tài liệu có kèm hình ảnh. Việc thực hiện này cũng xảy ra với các định dạng khác.

Một điều lưu ý với các bạn, để quá trình nhận dạng ảnh được chính xác, độ phân giải của bản quét phải đạt chuẩn 300dpi, không mờ, càng sạch và rõ càng tốt.

3. Xử lý tài liệu PDF:

Ngoài khả năng nhận dạng các tài liệu ảnh, VietOCR còn có khả năng xử lý các tài liệu PDF. Để có thể sử dụng được tính năng này trong VietOCR, bạn cần cài đặt thêm gói GPL GhostScript 8.7. Sau khi cài xong, bạn thực hiện việc xử lý tương tự các bước trên (với các tài liệu PDF có chứa hình ảnh, kết quả vẫn bị lỗi như trường hợp hai).

Nhìn chung, VietOCR có khả năng xử lý văn bản tiếng Việt tốt, độ chính xác khá cao và tương thích với nhiều định dạng ảnh khác nhau trong điều kiện văn bản thuần (không chứa hình ảnh), bạn có thể dùng văn bản sau khi xử lý để phục vụ cho công việc mà không phải tốn thời gian chỉnh sửa nhiều.

Theo Huy Trần/Echíp

Việt Báo

Video nổi bật

Giải mã "vòng tròn kỳ lạ" phát hiện dưới đáy biển Nhật Bản
00:00 / --:--

TIN Công Nghệ NỔI BẬT

Ba thủ thuật truy cập vào Android bị khóa

Để ngăn chặn các truy cập trái phép vào điện thoại, nhiều người thường sử dụng các biện pháp bảo mật có sẵn trên thiết bị đơn cử như Pattern (mô hình khóa) hoặc PIN (mã số nhận dạng cá nhân).

Nhận xét tin VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh”

Ý kiến bạn đọc

Viết phản hồi

Bạn có thể gửi nhận xét, góp ý hay liên hệ về bài viết VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh” bằng cách gửi thư điện tử tới Lien He Bao Viet Nam. Xin bao gồm tên bài viết VietOCR 15 Nhan dang ky tu tieng Viet chuan khong can chinh ở dạng tiếng Việt không dấu. Hoặc VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh” ở dạng có dấu. Bài viết trong chuyên đề Tin Tổng Hợp của chuyên mục Công Nghệ.

VietOCR 1.5: Vietnamese Character Recognition "standard without adjustment"
character recognition, text processing, document images, plain text, the new version, Vietnamese, programs and formats , can, compile, after, you, the, scan, file

New version of VietOCR more valuable features such as Vietnamese character recognition on many image formats, fix-# 160; semantics, spelling after treatment ....

CÓ THỂ BẠN QUAN TÂM
Xem tiếp: Công Nghệ


  • Thoi su 24h297 Lu lich su lam 17 nguoi chet
    Thời sự 24h(29/7): Lũ lịch sử làm 17 người chết

    Thống kê điểm thí sinh theo khối thi A,A1,B,C,D; Mưa lũ Quảng Ninh: Đã có 23 người chết và mất tích; Chủ tịch thuê người thi hộ trong khi đi nghỉ mát; Bắt người phụ nữ từng lên truyền hình vì "làm kinh tế giỏi"; 

  • Thoi su 24h287 HN ban 21 phat dai bac dip Quoc khanh
    Thời sự 24h(28/7): HN bắn 21 phát đại bác dịp Quốc khánh

     Hà Nội bắn 21 phát đại bác dịp Quốc khánh; 15 người chết trong lũ, Quảng Ninh xin ứng cứu; Ngưỡng xét tuyển đại học là 15 điểm; Người phụ nữ Indonesia kêu cứu vì chồng cũ "lừa" bắt con ở VN;

  • Thoi su 24h277 QN ngap nang sau tran mua lich su
    Thời sự 24h(27/7): QN ngập nặng sau trận mưa lịch sử

    Quảng Ninh ngập nặng sau trận mưa lịch sử; Biểu tượng sexy nhất của điện ảnh Việt thập niên 90; Vì sao hàng xóm không mua 'bức tường 1 tỷ'?; Hà Nội: Cảnh nhấc bổng xe tải mắc kẹt trên cầu vượt; Hàng chục cán bộ ngân hàng tại phiên xử đại gia nợ 1.600 tỷ...là những thông tin thời sự nổi bật ngày 27/7.

  • Thoi su tuan qua Dung thu phi duong bo voi xe may
    Thời sự tuần qua: Dừng thu phí đường bộ với xe máy

    Khách bị trói vì cố tình hút thuốc trên máy bay Vietnam Airlines; Thí sinh chật vật tra cứu điểm thi; Nữ đại gia bị thợ làm tóc lừa 288 tỷ đồng; Cán bộ Thanh tra Chính phủ bị bắt vì nghi vấn nhận 100 triệu đồng; Du khách Việt ăn cắp hàng hiệu ở Thụy Sĩ; Vụ giết 4 người ở Nghệ An: Bất ngờ về nghi phạm...là những thông tin thời sự nổi bật tuần qua.

  • Thoi su 24h257 Dai tuong Phung Quang Thanh ve den Ha Noi
    Thời sự 24h(25/7): Đại tướng Phùng Quang Thanh về đến Hà Nội

    Đại tướng Phùng Quang Thanh về đến Hà Nội; Triệt phá đường dây cực lớn, thu 5,5 tấn ma túy; LS nói về những 'bất thường' sau phiên xử Lý Nguyễn Chung; gần 40.000 điểm liệt môn Toán: ‘Tôi thấy choáng!’; nhiều người chết và bị thương vì tai nạn giao thông;... là những thông tin thời sự đáng chú ý ngày 25/7.

  • Mua lu ngap lut bat thuong o Quang Ninh
    Mưa lũ ngập lụt bất thường ở Quảng Ninh

    Người dân Quảng Ninh đang phải đối mặt với những khó khăn chồng chất trong việc khắc phục hậu quả trận mưa lũ lịch sử.

  • Du khach Viet an cap o Thuy Si
    Du khách Việt ăn cắp ở Thụy Sĩ

    Chưa tìm được cách ngăn ngừa người ra nước ngoài buôn lậu, trộm cắp hoặc vi phạm thuần phong mỹ tục nước sở tại nên chúng ta sẽ còn xấu mặt dài dài

  • Bat nguyen Chu tich Tap doan Dau khi VN
    Bắt nguyên Chủ tịch Tập đoàn Dầu khí VN

    Cựu Chủ tịch Tập đoàn Dầu khí quốc gia Việt Nam (PetroVietnam - PVN) Nguyễn Xuân Sơn bị khởi tố để điều tra hành vi "thiếu trách nhiệm gây hậu quả nghiêm trọng" - tội danh được quy định tại điều 285 Bộ luật Hình sự. Báo điểm.. ------------ Xem thêm: Bắt nguyên Chủ tịch Tập đoàn Dầu khí VN, http://vietbao.vn/tp/Bat-nguyen-Chu-tich-Tap-doan-Dau-khi-VN/12123701/ Tin nhanh Việt Nam ra thế giới vietbao.vn

  • Tuan Hung vang bay dap tra My Linh
    Tuấn Hưng "văng bậy", “đáp trả” Mỹ Linh

    Nhiều người tỏ ra không hài lòng với cách ứng xử của Tuấn Hưng, trong đó có diva Mỹ Linh. ------------ Xem thêm: Tuấn Hưng "văng bậy", nổi nóng với Bài hát yêu thích1, http://vietbao.vn/The-gioi-giai-tri/Tuan-Hung-vang-bay-noi-nong-voi-Bai-hat-yeu-thich1/350613756/235/ Tin nhanh Việt Nam ra thế giới vietbao.vn

  • Trung Quoc giup Lao xay duong sat cao toc
    Trung Quốc giúp Lào xây đường sắt cao tốc

    Dự án giúp Lào có vốn nhưng cũng giúp chính TQ nhằm đạt được 3 mục đích lớn: Xuất khẩu vốn; xuất khẩu công nghệ và xuất khẩu con người.

  • Su kien quoc te noi bat 197257
    Sự kiện quốc tế nổi bật (19/7-25/7)

    Thỏa thuận hạt nhân Iran gặp trở ngại tại Quốc hội Mỹ; Hải quân Trung Quốc tập trận lớn trên Biển Đông; Sách trắng Nhật tố cáo trực tiếp Trung Quốc gây hấn ở Biển Đông; Tin chấn động: NASA công bố tìm thấy Trái đất thứ 2 là những tin chính trong tuần qua.

  • Toan canh Showbiz tuan 207 267
    Toàn cảnh Showbiz tuần (20/7 - 26/7)

    Fan thu thập 2.000 bằng chứng nói xấu Taeyeon (SNSD), Vụ "Lệ Quyên cho con đi tiểu trên máy bay": hết "sốt" báo Mỹ, lại lên báo Anh, Sơn Tùng MTP bị nghi ngờ về giới tính, Sau tin đồn chia tay Kim Lý, Trương Ngọc Ánh tình tứ bên trai lạ, "Trò cưng Mỹ Tâm hát hit Sơn Tùng M-TP vượt trội bản gốc".... là những tin chính nổi bật trong tuần.

  • Nghin le chuyen tuan qua 1907 2507
    Nghìn lẻ chuyện tuần qua (19/07 - 25/07)

    Vụ chặt cây xanh: Hàng loạt cán bộ bị giáng chức, chuyển công tác; Du khách Việt ăn cắp ở Thụy Sĩ; Tranh cãi về màu sơn mới Nhà hát lớn Hà Nội; Bức tường 1 tỉ đồng sẽ bị thu hồi? ....là những tin tức nổi bật được dư luận quan tâm trong tuần qua. ------------ Xem thêm: Nghìn lẻ chuyện tuần qua (19/07 - 25/07), http://vietbao.vn/Xa-hoi/Nghin-le-chuyen-tuan-qua-1907-2507/2147580278/157/ Tin nhanh Việt Nam ra thế giới vietbao.vn

  • Toan canh kinh te tuan 1907 25072015
    Toàn cảnh kinh tế tuần 19/07 - 25/07/2015

    Ông Nguyễn Xuân Sơn - nguyên Chủ tịch HĐTV Tập đoàn Dầu khí Quốc gia Việt Nam bị cho thôi chức và bắt tạm giam để điều tra về nguồn vốn 800 tỉ do PVN đầu tư vào Ocean Bank có nguy cơ bị mất trắng; giá xăng giảm "nhỏ giọt"260 đồng/lít, trong khi DN xăng dầu vẫn đang lãi 1.105 đồng/lít xăng còn người tiêu dùng thì vẫn mua xăng đắt và tiếp tục phải đóng vào quỹ Bình ổn giá; WB vừa công bố thông tin về nợ công khiến dư luận xã hội giật mình với con số nợ lên tới 110 tỷ USD, cao hơn nhiều so với các nguồn số liệu từng được công bố... Cùng với đó, những thông tin về BĐS, tài chinh- ngân hàng, thị trường tiêu dùng... tiếp tục là những tin tức, sự kiện kinh tế nóng hổi trong tuần vừa qua. ------------ Xem thêm: Toàn cảnh kinh tế tuần 19/07 - 25/07/2015, http://vietbao.vn/Kinh-te/Toan-canh-kinh-te-tuan-1907-25072015/2147580269/47/ Tin nhanh Việt Nam ra thế giới vietbao.vn

  • Tin An ninh Phap luat tuan qua 1907 2507
    Tin An ninh - Pháp luật tuần qua (19/07 - 25/07)

    Bắt nguyên Chủ tịch Tập đoàn Dầu khí VN; Lý Nguyễn Chung bị tuyên án 12 năm tù; Cảnh báo tội phạm mới: ‘thôi miên, bỏ thuốc mê’ để gây án; Đánh sập đường dây mua bán, vận chuyển hơn 1.200 bánh heroin; Giáo viên cấu kết với người tình giết chồng; Nạn ném đá xe khách, vì sao dây dưa?;.....là những tin đáng chú ý trong tuần.