VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh”

Sau nhiều lần nâng cấp, phiên bản mới của VietOCR đã có thêm nhiều tính năng đáng giá như: hỗ trợ chế độ quét tích hợp, nhận dạng ký tự tiếng Việt trên nhiều dạng ảnh (bmp, jpg, tiff, png), hỗ trợ các tài liệu ảnh nhiều trang và cơ chế xử lý hậu kỳ, giúp khắc phục một số lỗi về ngữ nghĩa, chính tả sau khi xử lý. Đặc biệt chương trình hoàn toàn miễn phí.

Dung lượng: 4,2MB.
Tải tại: http://websitetinhoc.com (miễn phí).

Mô tả ảnh.
Nguồn: Diendantinhoc
So với một số phần mềm nhận dạng văn bản tiếng Việt như: VnDOCR, VietOCR thuộc vào hàng “ngon, bổ” và miễn phí. Tốc độ biên dịch nội dung nhanh, giao diện đơn giản, dễ sử dụng và mức độ chính xác có thể đạt hơn 80%.

VietOCR bao gồm hai phiên bản: phiên bản GUI Form chạy trên Windows (hỗ trợ cả 32/64bit) và phiên bản Swing GUI (sử dụng Java) có thể hoạt động trên nhiều hệ điều hành khác nhau như: Windows, Linux,…

VietOCR có thể sử dụng như một trình nhận dạng ký tự quang học độc lập (xử lý các file ảnh, dữ liệu sẵn có) hoặc kết hợp với chức năng quét để xử lý các tài liệu được nạp từ bên ngoài.

Thao tác xử lý văn bản được chia thành các loại:

1. Nhận dạng tài liệu ảnh:

Thông thường khi quét xong một tài liệu văn bản, file thu được sẽ được lưu dưới dạng một tài liệu ảnh và không thể xử lý (xoá text, nhập liệu, chỉnh sửa nội dung,…) như ban đầu. VietOCR sẽ có nhiệm vụ chuyển đổi các tài liệu này sang văn bản để bạn có thể xử lý dễ dàng. VietOCR hỗ trợ khá nhiều định dạng ảnh như: jpg, bmp, png, tiff, tuy nhiên không hỗ trợ định dạng gif.

Để sử dụng chương trình, bạn cần cài đặt thêm gói Visual C++ 2008 SP1 (nếu gói này chưa được cài đặt vào hệ thống), sau đó truy cập menu File > Open, trong phần File of types bạn chọn là All Image Files và nạp vào file văn bản cần xử lý. Xong, nhấn nút Open.

Tiếp đến, trên giao diện chính, bạn sẽ nhìn thấy hai khu vực: khu vực nằm bên trái chứa nội dung của file tài liệu vừa mới thêm vào, khung bên phải sẽ là tài liệu sau khi trích xuất từ file ảnh. Khi phần nội dung đã được nạp xong, bạn nhấn đề mục OCR Language (góc trên bên phải màn hình) và chọn Vietnamese. Sau đó, nhấn nút OCR để bắt đầu quá trình biên dịch nội dung, tốc độ nhanh hay chậm còn tùy thuộc vào độ dài, ngắn của văn bản và tốc độ xử lý của máy tính.

Sau khi biên dịch xong, bạn sẽ có ngay phần dữ liệu dạng text, có thể xoá hay thay đổi một cách dễ dàng. Một điểm hay của VietOCR, đó là khả năng tích hợp bộ gõ tiếng Việt (hoạt động dựa trên bộ gõ Unikey), cho phép bạn dễ dàng thay đổi nội dung văn bản có dấu mà không cần bộ gõ Unikey thường trực nơi khay hệ thống. Để định bộ gõ trong VietOCR, bạn truy cập menu Settings > Viet Input Method và chọn một trong các kiểu gõ: VNI, Telex, VIQR với Font mặc định là Unicode được tích hợp sẵn.

Trường hợp chỉ muốn nhận dạng riêng một khu vực nào đó, bạn giữ trái chuột và rê vào vùng văn bản mà bạn muốn trích xuất. Khi đó, chỉ nội dung của vùng này sẽ được hiển thị bên khung phải màn hình. Nếu muốn biên dịch tài liệu nhiều trang, bạn truy cập menu Command > OCR All Pages.

Để “thử” kiểm tra khả năng nhận diện văn bản của chương trình trên các định dạng khác nhau, người viết đã sử dụng thư viện mẫu văn bản có sẵn (C:Program FilesVietUnicodeVietOCR.NETsamples) và dùng chương trình MS Paint của Windows để lưu lại thành các định dạng khác nhau như: PNG, JPG và BMP (256 bit) từ file gốc có định dạng .TIFF

Kết quả, cả ba trường hợp đều nhận dạng được văn bản khá chuẩn xác. Tuy nhiên một số dấu câu chưa đúng và một vài từ vẫn còn sai chính tả, không rõ nghĩa nhưng mức độ biên dịch so với bản gốc là khá chuẩn.

2. Cài đặt máy quét:

Nếu nhu cầu của bạn là xử lý các tài liệu bên ngoài thông qua hệ thống quét của chương trình, nhất thiết bạn phải cài đặt thêm máy quét. Để làm việc này, bạn truy cập vào thư mục cài đặt của VietOCR, tìm và sao chép file WIAAut.dll (C:Program FilesVietUnicodeVietOCR.NET) vào thư mục C:WindowsSystem32.

Sau đó, bạn vào Start > Run, gõ lệnh regsvr32 C:WindowsSystem32WIAAut.dll để đăng ký thư viện này với Windows. Khi đăng ký xong, bạn cài driver cho máy quét và bắt đầu tiến trình xử lý văn bản như trên.

Lưu ý:

Trong quá trình biên dịch, đôi lúc bạn sẽ gặp phải thông báo lỗi Attemp to read or write protected memory, một trong những nguyên nhân gây ra lỗi này là do văn bản đã định sai hướng (lệch hướng đi, thay vì nằm ngang, văn bản đã chuyển sang hướng đứng), bạn chỉ việc nhấn nút Rotate vài lần cho đúng hướng là xong.

Nếu không có máy quét và bạn vẫn muốn “trải nghiệm” tính năng của phần mềm, bạn có thể tải tiện ích ImagePrinter, giúp bạn chuyển đổi bất kỳ tài liệu nào sang bốn định dạng hỗ trợ sẵn của chương trình (bmp, png, tiff, jpg). Trường hợp nếu muốn chuyển giao diện chương trình sang tiếng Việt, bạn truy cập menu Settings > User Interface Language, chọn Vietnamese.

Cũng tương tự quá trình nhận dạng tài liệu ảnh ở trên, trong trường hợp này tài liệu quét sẽ được chia thành hai dạng để kiểm tra: dạng văn bản thuần (text) và văn bản kèm hình ảnh. Quá trình xử lý và biên dịch được thực hiện như bước 1. Kết quả chương trình nhận dạng tốt với các văn bản thuần và gặp phải tình trạng lỗi OCR Operation với các tài liệu có kèm hình ảnh. Việc thực hiện này cũng xảy ra với các định dạng khác.

Một điều lưu ý với các bạn, để quá trình nhận dạng ảnh được chính xác, độ phân giải của bản quét phải đạt chuẩn 300dpi, không mờ, càng sạch và rõ càng tốt.

3. Xử lý tài liệu PDF:

Ngoài khả năng nhận dạng các tài liệu ảnh, VietOCR còn có khả năng xử lý các tài liệu PDF. Để có thể sử dụng được tính năng này trong VietOCR, bạn cần cài đặt thêm gói GPL GhostScript 8.7. Sau khi cài xong, bạn thực hiện việc xử lý tương tự các bước trên (với các tài liệu PDF có chứa hình ảnh, kết quả vẫn bị lỗi như trường hợp hai).

Nhìn chung, VietOCR có khả năng xử lý văn bản tiếng Việt tốt, độ chính xác khá cao và tương thích với nhiều định dạng ảnh khác nhau trong điều kiện văn bản thuần (không chứa hình ảnh), bạn có thể dùng văn bản sau khi xử lý để phục vụ cho công việc mà không phải tốn thời gian chỉnh sửa nhiều.

Theo Huy Trần/Echíp

Việt Báo

Video nổi bật

Sởn da gà trước cảnh nhện bất ngờ chui ra từ chuối
00:00 / --:--

TIN Công Nghệ NỔI BẬT

Ba thủ thuật truy cập vào Android bị khóa

Để ngăn chặn các truy cập trái phép vào điện thoại, nhiều người thường sử dụng các biện pháp bảo mật có sẵn trên thiết bị đơn cử như Pattern (mô hình khóa) hoặc PIN (mã số nhận dạng cá nhân).

Hướng dẫn kết nối giữa iPhone và Apple Watch

Chắc hẳn ai trong chúng ta đều biết rằng việc kết nối giữa iPhone và Apple Watch thật sự rất hữu ích. Việc kết nối này sẽ giúp người dùng có thể thực hiện các cuộc gọi, nhắn tin, thậm chí còn có thể chơi game trực tiếp trên chiếc Apple Watch mà không cần phải rút điện thoại từ túi quần ra nữa. Tuy nhiên không phải người dùng nào cũng biết cách kết nối hai th

Cách chuyển kho nhạc yêu thích trên iTunes vào Samsung Galaxy S6

Lần trước chúng tôi đã giới thiệu tới bạn đọc bài viết hãy mua iPhone 6 thay vì Galaxy S6. Bài viết ngày hôm nay chúng ta sẽ tiếp tục tìm hiểu về chiếc điện thoại mới của Samsung. Thật là đáng tiếc nếu phải từ bỏ cả một bộ sưu tập nhạc đã được tuyển chọn kỹ càng trong iTunes của bạn để chuyển sang sử dụng chiếc Samsung Galaxy S6. Tuy nhiên trong bài viết sau

Nhận xét tin VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh”

Ý kiến bạn đọc

Viết phản hồi

Bạn có thể gửi nhận xét, góp ý hay liên hệ về bài viết VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh” bằng cách gửi thư điện tử tới Lien He Bao Viet Nam. Xin bao gồm tên bài viết VietOCR 15 Nhan dang ky tu tieng Viet chuan khong can chinh ở dạng tiếng Việt không dấu. Hoặc VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh” ở dạng có dấu. Bài viết trong chuyên đề Tin Tổng Hợp của chuyên mục Công Nghệ.

VietOCR 1.5: Vietnamese Character Recognition "standard without adjustment"
character recognition, text processing, document images, plain text, the new version, Vietnamese, programs and formats , can, compile, after, you, the, scan, file

New version of VietOCR more valuable features such as Vietnamese character recognition on many image formats, fix-# 160; semantics, spelling after treatment ....

CÓ THỂ BẠN QUAN TÂM
Xem tiếp: Công Nghệ


  • Thoi su 24h027 Ong Chan se to cao nhan chung moi
    Thời sự 24h(02/7): Ông Chấn sẽ tố cáo nhân chứng mới

     Thủ tướng phát lệnh "cất cánh" Airbus A350 của Vietnam Airlines; Quang Lê rời khỏi Việt Nam, Đàm Vĩnh Hưng nói lời cuối; Ông Chấn sẽ tố cáo nhân chứng mới; Thêm nhiều "cái chết" trong phòng thi; 

  • Thoi su 24h0107 Bi cuop trang tron truoc gio thi quoc gia
    Thời sự 24h(01/07): Bị cướp trắng trợn trước giờ thi quốc gia

     Phó Thủ tướng Vũ Đức Đam gặp phụ huynh dưới nắng; Thương lái Trung Quốc ngừng mua, vải thiều rớt giá thê thảm;  2 nữ sinh bị cướp trắng trợn trước giờ thi quốc gia; Hà Nội: 

  • Thoi su 24h306 Nhan chung moi vu ong Chan
    Thời sự 24h(30/6): Nhân chứng mới vụ ông Chấn?

    Xuất hiện nhân chứng mới, ông Chấn chưa thể nhận 7,2 tỷ?; Hình ảnh Kỳ Duyên, Mai Phương Thúy không bao giờ muốn nhìn lại; Khách ném lọ cà tại sân bay bị phạt 750 nghìn; Dân quân cầm đầu nhóm côn đồ chém người như phim...là những thông tin thời sự nổi bật trong ngày 30/6.

  • Thoi su 24h296 Tai xe kien may toc do ban dieu
    Thời sự 24h(29/6): Tài xế kiện máy tốc độ "bắn điêu"

     Nhiều Bí thư Tỉnh ủy trực tiếp kiểm tra thi THPT quốc gia; Nhạc sĩ Phan Huỳnh Điểu qua đời; Bỏ 55 triệu mua cây hồng trăm bông đẹp lòng vợ trẻ; Bị đặt bẫy, tài xế quyết kiện máy tốc độ "bắn điêu"?; 

  • Thoi su tuan qua Dai gia bi tat axit tren xe Lexus
    Thời sự tuần qua: Đại gia bị tạt axit trên xe Lexus

    VTC chính thức trực thuộc VOV; GDP tăng 6,28%, cao nhất 5 năm; Đại gia đất Cảng bị tạt a xít trên xe Lexus; Bão số 1 làm 11 người chết, mất tích; Sông Hồng đoạn qua Hà Nội bất ngờ bị lấp chui; Mẹ già ngất xỉu khi con trai "biếu" quan tài; Tiếp viên múa thoát y trong nhà hàng ở Sài Gòn ... là những thông tin thời sự nổi bật tuần qua.

  • Nhung dam cuoi dat vang gay xon xao
    Những đám cưới "dát vàng" gây xôn xao

    Hình ảnh một số cô dâu đeo đầy vàng trong đám cưới ở một số nơi ở Việt Nam không chỉ khiến nhiều người trầm trồ mà còn là tâm điểm của các cuộc tranh luận trên mạng xã hội.

  • Nu sinh tu tu vi bi tung clip sex
    Nữ sinh tự tử vì bị tung clip sex

    Chưa bao giờ chuyện lạm dụng Internet, mạng xã hội để bêu xấu, hạ nhục nhau, tung ảnh nóng, clip riêng tư của người khác lên cho bàn dân thiên hạ xem lại phổ biến như hiện nay.

  • Ha Noi sap xu ly nguoi noi tuc
    Hà Nội sắp “xử lý” người nói tục

    Để đẩy lùi nạn mất dạy trong quần chúng nhân dân, chúng ta phải trao tặng các danh hiệu cá nhân không mất dậy, gia đình không mất dậy...cho người không nói bậy.

  • Su that tro thoi mien bo thuoc me gay an
    Sự thật trò "thôi miên, bỏ thuốc mê" gây án

    Cộng đồng mạng đang lan truyền hàng loạt hình ảnh về hai người phụ nữ nhờ mở iPhone rồi thôi miên lấy trộm tài sản. PV đã tìm đến địa bàn được cho là hai người này "làm việc". ------------ Xem thêm: Sự thật trò "thôi miên, bỏ thuốc mê" gây án, http://vietbao.vn/tp/Su-that-tro-thoi-mien-bo-thuoc-me-gay-an/11824364/ Tin nhanh Việt Nam ra thế giới vietbao.vn

  • Hoa don tien dien tang
    Hoá đơn tiền điện tăng

    Thời tiết nắng nóng kỷ lục lên tới 40 – 45 độ C những ngày tháng 5, cộng với ảnh hưởng từ việc điều chỉnh tăng giá bán điện kể từ ngày 16/3 khiến cho hoá đơn tiền điện không ngừng tăng vọt.

  • Nghin le chuyen tuan qua 2106 2706
    Nghìn lẻ chuyện tuần qua (21/06 - 27/06)

    Hoàn lưu bão số 1 làm 15 người chết và mất tích; Xe khách lao xuống vực ở đèo Lò Xo; Sóng lạ đè sóng không lưu Tân Sơn Nhất; Miễn nhiệm bác sĩ giẫm chân lên giường: Nên hay không?; Mạng xã hội và ‘chiếc phanh’ của tình người; Đầu năm 2016 sẽ được hưởng BHXH một lần... là những tin tức nổi bật được dư luận quan tâm trong tuần qua.

  • Toan canh kinh te tuan 2106 27062015
    Toàn cảnh kinh tế tuần 21/06 - 27/06/2015

    Giá điện tăng bất thường được lý giải do mức sử dụng điện năng tăng khiến lượng tiêu thụ điện tăng, thiết bị đo đếm, công tơ điện có vấn đề hay sự tù mù trong cách tính của “nhà đèn”… ------------ Xem thêm: Toàn cảnh kinh tế tuần 21/06 - 27/06/2015, http://vietbao.vn/Kinh-te/Toan-canh-kinh-te-tuan-2106-27062015/2147573276/47/ Tin nhanh Việt Nam ra thế giới vietbao.vn

  • Tin An ninh Phap luat tuan qua 2106 2706
    Tin An ninh - Pháp luật tuần qua (21/06 - 27/06)

    Nữ sinh tự tử vì bị tung clip sex; Tội phạm hoạt động theo kiểu "xã hội đen"; Nạn trộm chó và những vụ xử “cẩu tặc” rúng động; Tình trạng tội phạm dùng axit để gây án; Trùm ma túy Tàng Keangnam bị bắt giữ như thế nào?; Điều khiển xe tang vật "đi nhầm" vào chốt 141;......là những tin đáng chú ý trong tuần. ------------ Xem thêm: Tin An ninh - Pháp luật tuần qua (21/06 - 27/06), http://vietbao.vn/An-ninh-Phap-luat/Tin-An-ninh-Phap-luat-tuan-qua-2106-2706/2147573264/218/ Tin nhanh Việt Nam ra thế giới vietbao.vn

  • Toan canh kinh te tuan 1406 20062015
    Toàn cảnh kinh tế tuần 14/06 - 20/06/2015

    Giá xăng tiếp tục được điều chỉnh tăng thêm 275 đồng/lít vào chiều ngày 19/6, hóa đơn tiền điện sinh hoạt tháng 5 ở Hà Nội tăng gấp đôi, gấp ba, khiến nhiều hộ dân phát hoảng,trong hơn 1 tháng lại đây lãi suất huy động có tăng trở lại khéo theo khả năng lãi suất cho vay cũng có thể điều chỉnh tăng theo, việc nhiều loại phí, lệ phí bất hợp lý “đánh” lên gia

  • Tin An ninh Phap luat tuan qua 1406 2006
    Tin An ninh - Pháp luật tuần qua (14/06 - 20/06)

    'Thánh cô cô bóc' hay căn bệnh ảo tưởng quyền lực mạng?; Những vụ bắt cóc trẻ nhỏ gây ám ảnh nhất trong lịch sử; Tình hình tội phạm ma túy diễn biến phức tạp; 'Nóng' chuyện va chạm giao thông rồi xử nhau: Kinh nghiệm xử lý; Chiếc xe gian “4 tuổi” chạm mặt cảnh sát 141;......là những tin đáng chú ý trong tuần. ------------ Xem thêm: Tin An ninh - Pháp luật tuần qua (14/06 - 20/06), http://vietbao.vn/An-ninh-Phap-luat/Tin-An-ninh-Phap-luat-tuan-qua-1406-2006/2147571368/218/ Tin nhanh Việt Nam ra thế giới vietbao.vn