VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh”

Sau nhiều lần nâng cấp, phiên bản mới của VietOCR đã có thêm nhiều tính năng đáng giá như: hỗ trợ chế độ quét tích hợp, nhận dạng ký tự tiếng Việt trên nhiều dạng ảnh (bmp, jpg, tiff, png), hỗ trợ các tài liệu ảnh nhiều trang và cơ chế xử lý hậu kỳ, giúp khắc phục một số lỗi về ngữ nghĩa, chính tả sau khi xử lý. Đặc biệt chương trình hoàn toàn miễn phí.

Dung lượng: 4,2MB.
Tải tại: http://websitetinhoc.com (miễn phí).

Mô tả ảnh.
Nguồn: Diendantinhoc
So với một số phần mềm nhận dạng văn bản tiếng Việt như: VnDOCR, VietOCR thuộc vào hàng “ngon, bổ” và miễn phí. Tốc độ biên dịch nội dung nhanh, giao diện đơn giản, dễ sử dụng và mức độ chính xác có thể đạt hơn 80%.

VietOCR bao gồm hai phiên bản: phiên bản GUI Form chạy trên Windows (hỗ trợ cả 32/64bit) và phiên bản Swing GUI (sử dụng Java) có thể hoạt động trên nhiều hệ điều hành khác nhau như: Windows, Linux,…

VietOCR có thể sử dụng như một trình nhận dạng ký tự quang học độc lập (xử lý các file ảnh, dữ liệu sẵn có) hoặc kết hợp với chức năng quét để xử lý các tài liệu được nạp từ bên ngoài.

Thao tác xử lý văn bản được chia thành các loại:

1. Nhận dạng tài liệu ảnh:

Thông thường khi quét xong một tài liệu văn bản, file thu được sẽ được lưu dưới dạng một tài liệu ảnh và không thể xử lý (xoá text, nhập liệu, chỉnh sửa nội dung,…) như ban đầu. VietOCR sẽ có nhiệm vụ chuyển đổi các tài liệu này sang văn bản để bạn có thể xử lý dễ dàng. VietOCR hỗ trợ khá nhiều định dạng ảnh như: jpg, bmp, png, tiff, tuy nhiên không hỗ trợ định dạng gif.

Để sử dụng chương trình, bạn cần cài đặt thêm gói Visual C++ 2008 SP1 (nếu gói này chưa được cài đặt vào hệ thống), sau đó truy cập menu File > Open, trong phần File of types bạn chọn là All Image Files và nạp vào file văn bản cần xử lý. Xong, nhấn nút Open.

Tiếp đến, trên giao diện chính, bạn sẽ nhìn thấy hai khu vực: khu vực nằm bên trái chứa nội dung của file tài liệu vừa mới thêm vào, khung bên phải sẽ là tài liệu sau khi trích xuất từ file ảnh. Khi phần nội dung đã được nạp xong, bạn nhấn đề mục OCR Language (góc trên bên phải màn hình) và chọn Vietnamese. Sau đó, nhấn nút OCR để bắt đầu quá trình biên dịch nội dung, tốc độ nhanh hay chậm còn tùy thuộc vào độ dài, ngắn của văn bản và tốc độ xử lý của máy tính.

Sau khi biên dịch xong, bạn sẽ có ngay phần dữ liệu dạng text, có thể xoá hay thay đổi một cách dễ dàng. Một điểm hay của VietOCR, đó là khả năng tích hợp bộ gõ tiếng Việt (hoạt động dựa trên bộ gõ Unikey), cho phép bạn dễ dàng thay đổi nội dung văn bản có dấu mà không cần bộ gõ Unikey thường trực nơi khay hệ thống. Để định bộ gõ trong VietOCR, bạn truy cập menu Settings > Viet Input Method và chọn một trong các kiểu gõ: VNI, Telex, VIQR với Font mặc định là Unicode được tích hợp sẵn.

Trường hợp chỉ muốn nhận dạng riêng một khu vực nào đó, bạn giữ trái chuột và rê vào vùng văn bản mà bạn muốn trích xuất. Khi đó, chỉ nội dung của vùng này sẽ được hiển thị bên khung phải màn hình. Nếu muốn biên dịch tài liệu nhiều trang, bạn truy cập menu Command > OCR All Pages.

Để “thử” kiểm tra khả năng nhận diện văn bản của chương trình trên các định dạng khác nhau, người viết đã sử dụng thư viện mẫu văn bản có sẵn (C:Program FilesVietUnicodeVietOCR.NETsamples) và dùng chương trình MS Paint của Windows để lưu lại thành các định dạng khác nhau như: PNG, JPG và BMP (256 bit) từ file gốc có định dạng .TIFF

Kết quả, cả ba trường hợp đều nhận dạng được văn bản khá chuẩn xác. Tuy nhiên một số dấu câu chưa đúng và một vài từ vẫn còn sai chính tả, không rõ nghĩa nhưng mức độ biên dịch so với bản gốc là khá chuẩn.

2. Cài đặt máy quét:

Nếu nhu cầu của bạn là xử lý các tài liệu bên ngoài thông qua hệ thống quét của chương trình, nhất thiết bạn phải cài đặt thêm máy quét. Để làm việc này, bạn truy cập vào thư mục cài đặt của VietOCR, tìm và sao chép file WIAAut.dll (C:Program FilesVietUnicodeVietOCR.NET) vào thư mục C:WindowsSystem32.

Sau đó, bạn vào Start > Run, gõ lệnh regsvr32 C:WindowsSystem32WIAAut.dll để đăng ký thư viện này với Windows. Khi đăng ký xong, bạn cài driver cho máy quét và bắt đầu tiến trình xử lý văn bản như trên.

Lưu ý:

Trong quá trình biên dịch, đôi lúc bạn sẽ gặp phải thông báo lỗi Attemp to read or write protected memory, một trong những nguyên nhân gây ra lỗi này là do văn bản đã định sai hướng (lệch hướng đi, thay vì nằm ngang, văn bản đã chuyển sang hướng đứng), bạn chỉ việc nhấn nút Rotate vài lần cho đúng hướng là xong.

Nếu không có máy quét và bạn vẫn muốn “trải nghiệm” tính năng của phần mềm, bạn có thể tải tiện ích ImagePrinter, giúp bạn chuyển đổi bất kỳ tài liệu nào sang bốn định dạng hỗ trợ sẵn của chương trình (bmp, png, tiff, jpg). Trường hợp nếu muốn chuyển giao diện chương trình sang tiếng Việt, bạn truy cập menu Settings > User Interface Language, chọn Vietnamese.

Cũng tương tự quá trình nhận dạng tài liệu ảnh ở trên, trong trường hợp này tài liệu quét sẽ được chia thành hai dạng để kiểm tra: dạng văn bản thuần (text) và văn bản kèm hình ảnh. Quá trình xử lý và biên dịch được thực hiện như bước 1. Kết quả chương trình nhận dạng tốt với các văn bản thuần và gặp phải tình trạng lỗi OCR Operation với các tài liệu có kèm hình ảnh. Việc thực hiện này cũng xảy ra với các định dạng khác.

Một điều lưu ý với các bạn, để quá trình nhận dạng ảnh được chính xác, độ phân giải của bản quét phải đạt chuẩn 300dpi, không mờ, càng sạch và rõ càng tốt.

3. Xử lý tài liệu PDF:

Ngoài khả năng nhận dạng các tài liệu ảnh, VietOCR còn có khả năng xử lý các tài liệu PDF. Để có thể sử dụng được tính năng này trong VietOCR, bạn cần cài đặt thêm gói GPL GhostScript 8.7. Sau khi cài xong, bạn thực hiện việc xử lý tương tự các bước trên (với các tài liệu PDF có chứa hình ảnh, kết quả vẫn bị lỗi như trường hợp hai).

Nhìn chung, VietOCR có khả năng xử lý văn bản tiếng Việt tốt, độ chính xác khá cao và tương thích với nhiều định dạng ảnh khác nhau trong điều kiện văn bản thuần (không chứa hình ảnh), bạn có thể dùng văn bản sau khi xử lý để phục vụ cho công việc mà không phải tốn thời gian chỉnh sửa nhiều.

Theo Huy Trần/Echíp

Việt Báo

Video nổi bật

Cận cảnh chất lỏng sôi và đóng băng cùng lúc
00:00 / --:--

TIN Công Nghệ NỔI BẬT

Hướng dẫn kết nối giữa iPhone và Apple Watch

Chắc hẳn ai trong chúng ta đều biết rằng việc kết nối giữa iPhone và Apple Watch thật sự rất hữu ích. Việc kết nối này sẽ giúp người dùng có thể thực hiện các cuộc gọi, nhắn tin, thậm chí còn có thể chơi game trực tiếp trên chiếc Apple Watch mà không cần phải rút điện thoại từ túi quần ra nữa. Tuy nhiên không phải người dùng nào cũng biết cách kết nối hai th

Cách chuyển kho nhạc yêu thích trên iTunes vào Samsung Galaxy S6

Lần trước chúng tôi đã giới thiệu tới bạn đọc bài viết hãy mua iPhone 6 thay vì Galaxy S6. Bài viết ngày hôm nay chúng ta sẽ tiếp tục tìm hiểu về chiếc điện thoại mới của Samsung. Thật là đáng tiếc nếu phải từ bỏ cả một bộ sưu tập nhạc đã được tuyển chọn kỹ càng trong iTunes của bạn để chuyển sang sử dụng chiếc Samsung Galaxy S6. Tuy nhiên trong bài viết sau

Nhận xét tin VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh”

Ý kiến bạn đọc

Viết phản hồi

Bạn có thể gửi nhận xét, góp ý hay liên hệ về bài viết VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh” bằng cách gửi thư điện tử tới Lien He Bao Viet Nam. Xin bao gồm tên bài viết VietOCR 15 Nhan dang ky tu tieng Viet chuan khong can chinh ở dạng tiếng Việt không dấu. Hoặc VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh” ở dạng có dấu. Bài viết trong chuyên đề Tin Tổng Hợp của chuyên mục Công Nghệ.

VietOCR 1.5: Vietnamese Character Recognition "standard without adjustment"
character recognition, text processing, document images, plain text, the new version, Vietnamese, programs and formats , can, compile, after, you, the, scan, file

New version of VietOCR more valuable features such as Vietnamese character recognition on many image formats, fix-# 160; semantics, spelling after treatment ....

CÓ THỂ BẠN QUAN TÂM
Xem tiếp: Công Nghệ


  • Thoi su 24h255 Chua nhan 5 trieu yen chi ve chai da bi lua
    Thời sự 24h(25/5): Chưa nhận 5 triệu yên, chị ve chai đã bị lừa

     Hình ảnh công trường phi pháp của TQ ở Biển Đông; Anh em đại gia Thái Bình xây dãy biệt thự hệt nhau giữa Hà Nội; Thu Phương bỏ cả sĩ diện vì trai 19; Chưa nhận 5 triệu yên, chị ve chai đã bị vay tiền, lừa gạt; 

  • Thoi su tuan qua Chi tien khung de cham cay xanh
    Thời sự tuần qua: Chi tiền "khủng" để chăm cây xanh

    Chúng ta không bán sân bay, cảng biển; "Đẻ" thêm GPLX số tự động; Một quận chi 18 tỷ để bảo dưỡng cây xanh; Công an sẽ giao trả 5 triệu yên cho chị ve chai!; Ca mang thai đặc biệt ở Việt Nam; K +: Độc quyền vẫn lỗ ngàn tỷ; Chân dài thác loạn mua vui cho các cuộc bay "thuốc"... là những thông tin thời sự nổi bật trong tuần qua.

  • Thoi su 24h235 Dan dua nhau thao luoi chong loa
    Thời sự 24h(23/5): Dân đua nhau tháo lưới chống lóa

    Sắp khai tử nhà máy thép nghìn tỷ ở Vũng Áng; Triệu tập đôi nam nữ thuê người bức tử cây xanh; Sự thật về nhóm thanh niên mang xác người vứt ở bệnh viện;... là những thông tin thời sự đáng chú ý ngày 23/5. 

  • Thoi su 24h225 Thuc hu vu Hoc sinh HN len nui de sex
    Thời sự 24h(22/5): Thực hư vụ "Học sinh HN lên núi để sex"

     Phó Thủ tướng: ‘Tạo mọi điều kiện tốt nhất cho thí sinh’; Đại biểu xấu hổ, xin lỗi vì điều 60 luật BHXH; Đại gia “khóa môi” Hồ Ngọc Hà là tình cũ của Maya?; "Học sinh HN lên núi để... sex" được thêu dệt thế nào?; 

  • Thoi su 24h215 An mang chan dong trong quan bia
    Thời sự 24h(21/5): Án mạng chấn động trong quán bia

     Chính phủ đề xuất hưởng BHXH một lần; Án mạng chấn động Hưng Yên trong quán bia hơi; K +: Độc quyền vẫn lỗ ngàn tỷ; Thông tin ‘giật mình’ sau vụ chi 18 tỷ chăm cây xanh; Sự thật vụ "học sinh Hà Nội lên núi để... sex"?; 

  • Thuc hu chat luong ao chong nang tien trieu
    Thực hư chất lượng áo chống nắng tiền triệu

    Trước những lời quảng cáo như “mềm mịn, thấm hút mồ hôi cực tốt, không bí bách”,... các chuyên gia khuyến cáo “nên cẩn trọng”.

  • Mong manh hang Viet
    Mong manh hàng Việt!

    Doanh nghiệp Việt cần năng động, sáng tạo hơn để đương đầu với những thách thức, để tiếp tục phát huy trên nền tảng đã gây dựng được

  • Con xem phim sex cha me lam gi
    Con xem phim sex, cha mẹ làm gì?

    Chúng ta cần trang bị kỹ năng, kiến thức về sex, có như vậy mới tạo được 'vắc-xin kháng sex' đủ mạnh cho các em. Chị Đào Lan, có con gái học lớp 5 tại Hà Nội đã thực sự sốc nặng khi cô con gái nhỏ đóng cửa xem phim sex một..

  • Cap doi khach Tay bi cuop gay xon xao
    Cặp đôi khách Tây bị cướp gây xôn xao

    Cặp đôi khách Tây bị cướp ở Hà Nội đang là câu chuyện được nhều bạn trẻ quan tâm. Mới đây, thông tin về cặp đôi khách Tây bị cướp đã có những tình tiết mới. ------------ Xem thêm: Cặp đôi khách Tây bị cướp gây xôn xao, http://vietbao.vn/tp/Cap-doi-khach-Tay-bi-cuop-gay-xon-xao/11384861/ Tin nhanh Việt Nam ra thế giới vietbao.vn

  • Cho xe mo to vao duong cao toc
    Cho xe mô tô vào đường cao tốc

    Đa số lo ngại xoay quanh chuyện, nếu những tay đua "kiệt xuất" lái mô tô được “thả” vào môi trường phù hợp nhưng chưa đủ “chất” sẽ dễ gây họa.

  • Nghin le chuyen tuan qua 1705 2305
    Nghìn lẻ chuyện tuần qua (17/05 - 23/05)

    Cô gái thừa nhận dựng chuyện nhận nuôi con tử tù; Vụ giấu vàng qua sân bay: Vĩnh viễn không được làm việc trong ngành hàng không; Bé 6 tháng tuổi tử vong bất thường: Mũi tiêm hạ sốt oan nghiệt?; Chỉ rõ những bất thường vụ chi 18 tỷ chăm cây xanh... là những tin tức nổi bật được dư luận quan tâm trong tuần qua.

  • Tong hop Doi song tuan qua 185 235
    Tổng hợp Đời sống tuần qua (18/5 - 23/5)

    Con hẻm miễn phí ở Sài Gòn, những SV làm tình nguyện vùng cao, cậu bé mua đồ ăn cho người vô gia cư là những câu chuyện về tình người thật đẹp. Nhiều chủ đề giáo dục con, những chuyện tình cảm động, nhiều bài viết đáng suy ngẫm và các thông tin an toàn thực phẩm bẩn, mỹ phẩm giả...là những vấn đề nổi bật tuần vừa qua...

  • Diem lai tin suc khoe nong trong tuan 185 245
    Điểm lại tin sức khỏe nóng trong tuần (18/5 - 24/5)

    Bộ Y tế xác minh thông tin gạo giả ở Việt Nam, Phát hiện vịt nuôi bị nhiễm virus H5N1 ở Ninh Thuận, Trẻ mắc tay chân miệng nhập viện tăng đột biến, Đã có câu trả lời vụ khăn ướt nhiễm khuẩn, Giữ sức khỏe ngày nắng nóng cho bé yêu,.... là các thông tin sức khỏe được quan tâm nhất tuần qua.

  • Su kien quoc te noi bat 175 235
    Sự kiện quốc tế nổi bật (17/5 -23/5)

    Tình báo Đức cung cấp thông tin quyết định để Mỹ tiêu diệt Bin Laden; Chính phủ Mỹ khẳng định không thay đổi chiến lược tại Iraq; Cựu Thủ tướng Yingluck ra hầu tòa; Mỹ và Cuba kết thúc vòng đàm phán thứ 4... là những tin đáng chú ý trong tuần qua. ------------ Xem thêm: Sự kiện quốc tế nổi bật (17/5 -23/5), http://vietbao.vn/The-gioi/Su-kien-quoc-te-noi-bat-175-235/2147562992/433/ Tin nhanh Việt Nam ra thế giới vietbao.vn

  • Tin An ninh Phap luat tuan qua 1705 2305
    Tin An ninh - Pháp luật tuần qua (17/05 - 23/05)

    Cặp đôi khách Tây bị cướp gây xôn xao; Người mẹ trẻ nhẫn tâm sát hại đứa con hai tuổi; Cả trăm người thân bị hại gây náo loạn tòa; Mua ma túy về "ăn mừng ra tù", gặp ngay 141; Kế hoạch tiêu 5 triệu yên của 'tỷ phú ve chai'; Trung tướng rởm và chiêu bài lừa đảo chiếm đoạt 12 tỷ đồng;......là những tin đáng chú ý trong tuần.