vietbao

VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh”

Bấm ngay Subscribe / Đăng Ký xem video hay mới nhất >>

Sau nhiều lần nâng cấp, phiên bản mới của VietOCR đã có thêm nhiều tính năng đáng giá như: hỗ trợ chế độ quét tích hợp, nhận dạng ký tự tiếng Việt trên nhiều dạng ảnh (bmp, jpg, tiff, png), hỗ trợ các tài liệu ảnh nhiều trang và cơ chế xử lý hậu kỳ, giúp khắc phục một số lỗi về ngữ nghĩa, chính tả sau khi xử lý. Đặc biệt chương trình hoàn toàn miễn phí.

Dung lượng: 4,2MB.
Tải tại: http://websitetinhoc.com (miễn phí).

Mô tả ảnh.
Nguồn: Diendantinhoc
So với một số phần mềm nhận dạng văn bản tiếng Việt như: VnDOCR, VietOCR thuộc vào hàng “ngon, bổ” và miễn phí. Tốc độ biên dịch nội dung nhanh, giao diện đơn giản, dễ sử dụng và mức độ chính xác có thể đạt hơn 80%.

VietOCR bao gồm hai phiên bản: phiên bản GUI Form chạy trên Windows (hỗ trợ cả 32/64bit) và phiên bản Swing GUI (sử dụng Java) có thể hoạt động trên nhiều hệ điều hành khác nhau như: Windows, Linux,…

VietOCR có thể sử dụng như một trình nhận dạng ký tự quang học độc lập (xử lý các file ảnh, dữ liệu sẵn có) hoặc kết hợp với chức năng quét để xử lý các tài liệu được nạp từ bên ngoài.

Thao tác xử lý văn bản được chia thành các loại:

1. Nhận dạng tài liệu ảnh:



Thông thường khi quét xong một tài liệu văn bản, file thu được sẽ được lưu dưới dạng một tài liệu ảnh và không thể xử lý (xoá text, nhập liệu, chỉnh sửa nội dung,…) như ban đầu. VietOCR sẽ có nhiệm vụ chuyển đổi các tài liệu này sang văn bản để bạn có thể xử lý dễ dàng. VietOCR hỗ trợ khá nhiều định dạng ảnh như: jpg, bmp, png, tiff, tuy nhiên không hỗ trợ định dạng gif.

Để sử dụng chương trình, bạn cần cài đặt thêm gói Visual C++ 2008 SP1 (nếu gói này chưa được cài đặt vào hệ thống), sau đó truy cập menu File > Open, trong phần File of types bạn chọn là All Image Files và nạp vào file văn bản cần xử lý. Xong, nhấn nút Open.

Tiếp đến, trên giao diện chính, bạn sẽ nhìn thấy hai khu vực: khu vực nằm bên trái chứa nội dung của file tài liệu vừa mới thêm vào, khung bên phải sẽ là tài liệu sau khi trích xuất từ file ảnh. Khi phần nội dung đã được nạp xong, bạn nhấn đề mục OCR Language (góc trên bên phải màn hình) và chọn Vietnamese. Sau đó, nhấn nút OCR để bắt đầu quá trình biên dịch nội dung, tốc độ nhanh hay chậm còn tùy thuộc vào độ dài, ngắn của văn bản và tốc độ xử lý của máy tính.

Sau khi biên dịch xong, bạn sẽ có ngay phần dữ liệu dạng text, có thể xoá hay thay đổi một cách dễ dàng. Một điểm hay của VietOCR, đó là khả năng tích hợp bộ gõ tiếng Việt (hoạt động dựa trên bộ gõ Unikey), cho phép bạn dễ dàng thay đổi nội dung văn bản có dấu mà không cần bộ gõ Unikey thường trực nơi khay hệ thống. Để định bộ gõ trong VietOCR, bạn truy cập menu Settings > Viet Input Method và chọn một trong các kiểu gõ: VNI, Telex, VIQR với Font mặc định là Unicode được tích hợp sẵn.

Trường hợp chỉ muốn nhận dạng riêng một khu vực nào đó, bạn giữ trái chuột và rê vào vùng văn bản mà bạn muốn trích xuất. Khi đó, chỉ nội dung của vùng này sẽ được hiển thị bên khung phải màn hình. Nếu muốn biên dịch tài liệu nhiều trang, bạn truy cập menu Command > OCR All Pages.

Để “thử” kiểm tra khả năng nhận diện văn bản của chương trình trên các định dạng khác nhau, người viết đã sử dụng thư viện mẫu văn bản có sẵn (C:Program FilesVietUnicodeVietOCR.NETsamples) và dùng chương trình MS Paint của Windows để lưu lại thành các định dạng khác nhau như: PNG, JPG và BMP (256 bit) từ file gốc có định dạng .TIFF

Kết quả, cả ba trường hợp đều nhận dạng được văn bản khá chuẩn xác. Tuy nhiên một số dấu câu chưa đúng và một vài từ vẫn còn sai chính tả, không rõ nghĩa nhưng mức độ biên dịch so với bản gốc là khá chuẩn.

2. Cài đặt máy quét:

Nếu nhu cầu của bạn là xử lý các tài liệu bên ngoài thông qua hệ thống quét của chương trình, nhất thiết bạn phải cài đặt thêm máy quét. Để làm việc này, bạn truy cập vào thư mục cài đặt của VietOCR, tìm và sao chép file WIAAut.dll (C:Program FilesVietUnicodeVietOCR.NET) vào thư mục C:WindowsSystem32.

Sau đó, bạn vào Start > Run, gõ lệnh regsvr32 C:WindowsSystem32WIAAut.dll để đăng ký thư viện này với Windows. Khi đăng ký xong, bạn cài driver cho máy quét và bắt đầu tiến trình xử lý văn bản như trên.

Lưu ý:

Trong quá trình biên dịch, đôi lúc bạn sẽ gặp phải thông báo lỗi Attemp to read or write protected memory, một trong những nguyên nhân gây ra lỗi này là do văn bản đã định sai hướng (lệch hướng đi, thay vì nằm ngang, văn bản đã chuyển sang hướng đứng), bạn chỉ việc nhấn nút Rotate vài lần cho đúng hướng là xong.

Nếu không có máy quét và bạn vẫn muốn “trải nghiệm” tính năng của phần mềm, bạn có thể tải tiện ích ImagePrinter, giúp bạn chuyển đổi bất kỳ tài liệu nào sang bốn định dạng hỗ trợ sẵn của chương trình (bmp, png, tiff, jpg). Trường hợp nếu muốn chuyển giao diện chương trình sang tiếng Việt, bạn truy cập menu Settings > User Interface Language, chọn Vietnamese.

Cũng tương tự quá trình nhận dạng tài liệu ảnh ở trên, trong trường hợp này tài liệu quét sẽ được chia thành hai dạng để kiểm tra: dạng văn bản thuần (text) và văn bản kèm hình ảnh. Quá trình xử lý và biên dịch được thực hiện như bước 1. Kết quả chương trình nhận dạng tốt với các văn bản thuần và gặp phải tình trạng lỗi OCR Operation với các tài liệu có kèm hình ảnh. Việc thực hiện này cũng xảy ra với các định dạng khác.

Một điều lưu ý với các bạn, để quá trình nhận dạng ảnh được chính xác, độ phân giải của bản quét phải đạt chuẩn 300dpi, không mờ, càng sạch và rõ càng tốt.

3. Xử lý tài liệu PDF:

Ngoài khả năng nhận dạng các tài liệu ảnh, VietOCR còn có khả năng xử lý các tài liệu PDF. Để có thể sử dụng được tính năng này trong VietOCR, bạn cần cài đặt thêm gói GPL GhostScript 8.7. Sau khi cài xong, bạn thực hiện việc xử lý tương tự các bước trên (với các tài liệu PDF có chứa hình ảnh, kết quả vẫn bị lỗi như trường hợp hai).

Nhìn chung, VietOCR có khả năng xử lý văn bản tiếng Việt tốt, độ chính xác khá cao và tương thích với nhiều định dạng ảnh khác nhau trong điều kiện văn bản thuần (không chứa hình ảnh), bạn có thể dùng văn bản sau khi xử lý để phục vụ cho công việc mà không phải tốn thời gian chỉnh sửa nhiều.

Theo Huy Trần/Echíp

Việt Báo
Điều hòa tự chế từ vỏ chai nhựa, giảm nhiệt tới 5 độ C
Comment :VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh”
Ý kiến bạn đọc
Viết phản hồi
Bạn có thể gửi nhận xét, góp ý hay liên hệ về bài viết VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh” bằng cách gửi thư điện tử tới Lien He Bao Viet Nam. Xin bao gồm tên bài viết VietOCR 15 Nhan dang ky tu tieng Viet chuan khong can chinh ở dạng tiếng Việt không dấu. Hoặc VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh” ở dạng có dấu. Bài viết trong chuyên đề của chuyên mục Công Nghệ
VietOCR 1.5: Vietnamese Character Recognition "standard without adjustment"
character recognition, text processing, document images, plain text, the new version, Vietnamese, programs and formats , can, compile, after, you, the, scan, file
New version of VietOCR more valuable features such as Vietnamese character recognition on many image formats, fix-# 160; semantics, spelling after treatment ....
Dùng công nghệ cũ, các hãng hàng không sẽ còn gặp nhiều sự cố

Theo các chuyên gia hàng không, các hãng hàng không có thể còn gặp nhiều sự cố tương tự hãng Delta mới đây bởi không đầu tư đủ để cải tổ hệ thống đặt chỗ vốn đang sử dụng các công nghệ từ những năm 1960.

Top 9 ứng dụng Android chỉnh sửa ảnh tốt nhất
Top 9 ứng dụng Android chỉnh sửa ảnh tốt nhất

Càng ngày smartphone càng được cải tiến để thay thế máy ảnh. Các nhà phát triển cũng tận dụng cơ hội để cung cấp các ứng dụng chỉnh sửa ảnh trực quan và hiệu quả. Sau đây là 9 lựa chọn tốt nhất dành cho bạn… (ứng dụng, Android, chỉnh sửa ảnh)

  • Thoi su 24h238 Gai tre thue chat chan tay truc loi
    Thời sự 24h(23/8): Gái trẻ thuê chặt chân tay trục lợi

    Xé áo, cắt tóc nhân tình ở phố: Nhân tình là "osin" của kẻ chủ mưu; Giám định ADN để nhận dạng 150 ngôi mộ bị xâm phạm; Vụ "tháp nghiêng" chờ sập: 3/4 hộ dân đã di dời; Dân không có quyền kiểm tra CSGT': Giám sát khác kiểm tra; Bạn gái trễ giờ lên máy bay, nam thanh niên xông vào đánh nhân viên hàng không

  • Thoi su 24h228 Nhung vu giet hai can bo tai tieng
    Thời sự 24h(22/8): Những vụ giết hại cán bộ tai tiếng

    TPHCM kiểm tra "lót tay" lấy sổ đỏ: Sẽ như Hà Nội?; Những vụ giết hại cán bộ bằng súng tai tiếng nhất từ trước tới nay; Hé lộ nguyên nhân ban đầu vụ nhóm côn đồ nổ súng truy sát 1 gia đình ở Thanh Hóa; Nước biển miền Trung 'đạt chuẩn' để tắm và nuôi thủy sản; Cán bộ điều tra đánh người nhưng vẫn có thư cảm ơn;... là những tin tức thời sự nổi bật ngày 22/8/2016.

  • Thoi su 24h178 Me nhan tam giet 3 con ruot roi bo tron
    Thời sự 24h(17/8): Mẹ nhẫn tâm giết 3 con ruột rồi bỏ trốn

    Hà Nội chi 53 tỷ đồng/năm cắt cỏ: Dừng là đúng; Rúng động thảm án mẹ sát hại 3 con, đốt nhà rồi trốn vào rừng; Sự thật đằng sau bức ảnh tố nhân viên y tế chơi điện thoại; Vợ công an đánh ghen kinh hoàng: Trên tình bạn một tí; Sân bay tắc nghẽn sao còn cắt đất làm sân golf?

  • Tong hop tin An ninh phap luat tuan 142072016
    Tổng hợp tin An ninh - pháp luật tuần (14-20/7/2016)

    Như một gáo nước lạnh tạt vào mặt khi dư luận còn đang bàng hoàng trước thảm án Lào Cai. Trọng án Yên Bái, 3 nạn nhân là những người đứng đầu cơ quan lãnh đạo tỉnh. Thảm án Hà Giang, mẹ giết 3 con ruột vì mâu thuẫn với chồng. Giết mẹ vợ và em vợ ở Thái Bình.Những vụ án như một chuỗi sự kiện tiếp diễn xảy ra trong một thời gian ngắn. Có thể nói tuần này là t

  • Toan canh kinh te tuan 1408 20082016
    Toàn cảnh kinh tế tuần (14/08- 20/08/2016)

    Những dự án lọc dầu lớn phải bù lỗ tới hàng nghìn tỷ đồng, Bộ Công thương phản hồi về bộ nhiệm tại Sabeco, bảo mật tại các NH lớn, giá xăng tăng trở lại...Cùng với đó là những thông tin bất động sản, tài chính- ngân hàng, thị trường tiêu dùng... tiếp tục là những tin tức - sự kiện kinh tế nổi bật tuần qua.

  • Tong hop tin Doi song tuan qua 15218
    Tổng hợp tin Đời sống tuần qua (15-21/8)

    Mới đây, lời cảnh báo được một vị phụ huynh đưa ra cùng với hình ảnh được cắt ra từ camera của lớp học mẫu giáo cho thấy một bé trai đang cố làm chuyện người lớn với bé gái trong giờ nghỉ trưa khiến nhiều bậc cha mẹ phải suy ngẫm.