VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh”

Sau nhiều lần nâng cấp, phiên bản mới của VietOCR đã có thêm nhiều tính năng đáng giá như: hỗ trợ chế độ quét tích hợp, nhận dạng ký tự tiếng Việt trên nhiều dạng ảnh (bmp, jpg, tiff, png), hỗ trợ các tài liệu ảnh nhiều trang và cơ chế xử lý hậu kỳ, giúp khắc phục một số lỗi về ngữ nghĩa, chính tả sau khi xử lý. Đặc biệt chương trình hoàn toàn miễn phí.

Dung lượng: 4,2MB.
Tải tại: http://websitetinhoc.com (miễn phí).

Mô tả ảnh.
Nguồn: Diendantinhoc
So với một số phần mềm nhận dạng văn bản tiếng Việt như: VnDOCR, VietOCR thuộc vào hàng “ngon, bổ” và miễn phí. Tốc độ biên dịch nội dung nhanh, giao diện đơn giản, dễ sử dụng và mức độ chính xác có thể đạt hơn 80%.

VietOCR bao gồm hai phiên bản: phiên bản GUI Form chạy trên Windows (hỗ trợ cả 32/64bit) và phiên bản Swing GUI (sử dụng Java) có thể hoạt động trên nhiều hệ điều hành khác nhau như: Windows, Linux,…

VietOCR có thể sử dụng như một trình nhận dạng ký tự quang học độc lập (xử lý các file ảnh, dữ liệu sẵn có) hoặc kết hợp với chức năng quét để xử lý các tài liệu được nạp từ bên ngoài.

Thao tác xử lý văn bản được chia thành các loại:

1. Nhận dạng tài liệu ảnh:

Thông thường khi quét xong một tài liệu văn bản, file thu được sẽ được lưu dưới dạng một tài liệu ảnh và không thể xử lý (xoá text, nhập liệu, chỉnh sửa nội dung,…) như ban đầu. VietOCR sẽ có nhiệm vụ chuyển đổi các tài liệu này sang văn bản để bạn có thể xử lý dễ dàng. VietOCR hỗ trợ khá nhiều định dạng ảnh như: jpg, bmp, png, tiff, tuy nhiên không hỗ trợ định dạng gif.

Để sử dụng chương trình, bạn cần cài đặt thêm gói Visual C++ 2008 SP1 (nếu gói này chưa được cài đặt vào hệ thống), sau đó truy cập menu File > Open, trong phần File of types bạn chọn là All Image Files và nạp vào file văn bản cần xử lý. Xong, nhấn nút Open.

Tiếp đến, trên giao diện chính, bạn sẽ nhìn thấy hai khu vực: khu vực nằm bên trái chứa nội dung của file tài liệu vừa mới thêm vào, khung bên phải sẽ là tài liệu sau khi trích xuất từ file ảnh. Khi phần nội dung đã được nạp xong, bạn nhấn đề mục OCR Language (góc trên bên phải màn hình) và chọn Vietnamese. Sau đó, nhấn nút OCR để bắt đầu quá trình biên dịch nội dung, tốc độ nhanh hay chậm còn tùy thuộc vào độ dài, ngắn của văn bản và tốc độ xử lý của máy tính.

Sau khi biên dịch xong, bạn sẽ có ngay phần dữ liệu dạng text, có thể xoá hay thay đổi một cách dễ dàng. Một điểm hay của VietOCR, đó là khả năng tích hợp bộ gõ tiếng Việt (hoạt động dựa trên bộ gõ Unikey), cho phép bạn dễ dàng thay đổi nội dung văn bản có dấu mà không cần bộ gõ Unikey thường trực nơi khay hệ thống. Để định bộ gõ trong VietOCR, bạn truy cập menu Settings > Viet Input Method và chọn một trong các kiểu gõ: VNI, Telex, VIQR với Font mặc định là Unicode được tích hợp sẵn.

Trường hợp chỉ muốn nhận dạng riêng một khu vực nào đó, bạn giữ trái chuột và rê vào vùng văn bản mà bạn muốn trích xuất. Khi đó, chỉ nội dung của vùng này sẽ được hiển thị bên khung phải màn hình. Nếu muốn biên dịch tài liệu nhiều trang, bạn truy cập menu Command > OCR All Pages.

Để “thử” kiểm tra khả năng nhận diện văn bản của chương trình trên các định dạng khác nhau, người viết đã sử dụng thư viện mẫu văn bản có sẵn (C:Program FilesVietUnicodeVietOCR.NETsamples) và dùng chương trình MS Paint của Windows để lưu lại thành các định dạng khác nhau như: PNG, JPG và BMP (256 bit) từ file gốc có định dạng .TIFF

Kết quả, cả ba trường hợp đều nhận dạng được văn bản khá chuẩn xác. Tuy nhiên một số dấu câu chưa đúng và một vài từ vẫn còn sai chính tả, không rõ nghĩa nhưng mức độ biên dịch so với bản gốc là khá chuẩn.

2. Cài đặt máy quét:

Nếu nhu cầu của bạn là xử lý các tài liệu bên ngoài thông qua hệ thống quét của chương trình, nhất thiết bạn phải cài đặt thêm máy quét. Để làm việc này, bạn truy cập vào thư mục cài đặt của VietOCR, tìm và sao chép file WIAAut.dll (C:Program FilesVietUnicodeVietOCR.NET) vào thư mục C:WindowsSystem32.

Sau đó, bạn vào Start > Run, gõ lệnh regsvr32 C:WindowsSystem32WIAAut.dll để đăng ký thư viện này với Windows. Khi đăng ký xong, bạn cài driver cho máy quét và bắt đầu tiến trình xử lý văn bản như trên.

Lưu ý:

Trong quá trình biên dịch, đôi lúc bạn sẽ gặp phải thông báo lỗi Attemp to read or write protected memory, một trong những nguyên nhân gây ra lỗi này là do văn bản đã định sai hướng (lệch hướng đi, thay vì nằm ngang, văn bản đã chuyển sang hướng đứng), bạn chỉ việc nhấn nút Rotate vài lần cho đúng hướng là xong.

Nếu không có máy quét và bạn vẫn muốn “trải nghiệm” tính năng của phần mềm, bạn có thể tải tiện ích ImagePrinter, giúp bạn chuyển đổi bất kỳ tài liệu nào sang bốn định dạng hỗ trợ sẵn của chương trình (bmp, png, tiff, jpg). Trường hợp nếu muốn chuyển giao diện chương trình sang tiếng Việt, bạn truy cập menu Settings > User Interface Language, chọn Vietnamese.

Cũng tương tự quá trình nhận dạng tài liệu ảnh ở trên, trong trường hợp này tài liệu quét sẽ được chia thành hai dạng để kiểm tra: dạng văn bản thuần (text) và văn bản kèm hình ảnh. Quá trình xử lý và biên dịch được thực hiện như bước 1. Kết quả chương trình nhận dạng tốt với các văn bản thuần và gặp phải tình trạng lỗi OCR Operation với các tài liệu có kèm hình ảnh. Việc thực hiện này cũng xảy ra với các định dạng khác.

Một điều lưu ý với các bạn, để quá trình nhận dạng ảnh được chính xác, độ phân giải của bản quét phải đạt chuẩn 300dpi, không mờ, càng sạch và rõ càng tốt.

3. Xử lý tài liệu PDF:

Ngoài khả năng nhận dạng các tài liệu ảnh, VietOCR còn có khả năng xử lý các tài liệu PDF. Để có thể sử dụng được tính năng này trong VietOCR, bạn cần cài đặt thêm gói GPL GhostScript 8.7. Sau khi cài xong, bạn thực hiện việc xử lý tương tự các bước trên (với các tài liệu PDF có chứa hình ảnh, kết quả vẫn bị lỗi như trường hợp hai).

Nhìn chung, VietOCR có khả năng xử lý văn bản tiếng Việt tốt, độ chính xác khá cao và tương thích với nhiều định dạng ảnh khác nhau trong điều kiện văn bản thuần (không chứa hình ảnh), bạn có thể dùng văn bản sau khi xử lý để phục vụ cho công việc mà không phải tốn thời gian chỉnh sửa nhiều.

Theo Huy Trần/Echíp

Việt Báo

Video được xem nhiều nhất

Tiết lộ quy trình sản xuất bao cao su ít người biết
00:00 / --:--

Video nổi bật

TIN Công Nghệ NỔI BẬT

Tổng hợp 13 mẹo vặt thú vị trên iPhone

Chiếc iPhone của bạn có khá nhiều tính năng thú vị mà có lẽ bạn chưa bao giờ nghĩ tới, chẳng hạn như nó cấu giấu một bản đồ lưu lại tất cả nơi bạn đã đến, hoặc nó sẽ cho phép bạn điều khiển điện thoại chỉ bằng một cái lắc đầu... Hãy cùng FPT Shop khám phá 15 mẹo vặt thú vị trên iPhone nhé.

Trải nghiệm tìm kiếm & chỉ đường không cần internet trên Google Maps

Hiện nay, Google Maps là ứng dụng bản đồ số được nhiều người biết đến và sử dụng trên rất nhiều nền tảng nhờ vào các tính năng điều hướng, tìm đường hữu ích. Và cuối cùng đúng như mong đợi, chế độ tìm kiếm - chỉ đường offline đã xuất hiện!

Mẹo nhỏ để làm sạch smartphone

Smartphone đã và đang trở thành một phần không thể thiếu trong cuộc sống hàng ngày của mỗi người trên toàn thế giới. Con người sử dụng smartphone gần như mọi lúc mọi nơi, thậm chí ngay cả trong phòng vệ sinh, nơi có rất nhiều các loại vi khuẩn đang sinh sống.

Nhận xét tin VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh”

Ý kiến bạn đọc

Viết phản hồi

Bạn có thể gửi nhận xét, góp ý hay liên hệ về bài viết VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh” bằng cách gửi thư điện tử tới Lien He Bao Viet Nam. Xin bao gồm tên bài viết VietOCR 15 Nhan dang ky tu tieng Viet chuan khong can chinh ở dạng tiếng Việt không dấu. Hoặc VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh” ở dạng có dấu. Bài viết trong chuyên đề của chuyên mục Công Nghệ.

VietOCR 1.5: Vietnamese Character Recognition "standard without adjustment"
character recognition, text processing, document images, plain text, the new version, Vietnamese, programs and formats , can, compile, after, you, the, scan, file

New version of VietOCR more valuable features such as Vietnamese character recognition on many image formats, fix-# 160; semantics, spelling after treatment ....

CÓ THỂ BẠN QUAN TÂM
Xem tiếp: Công Nghệ


  • Thoi su 24h0402 Virus Zika teo nao lay qua duong quan he
    Thời sự 24h(04/02): Virus Zika teo não lây qua đường quan hệ

    Những lần “trảm tướng” nhanh như chớp của Bộ trưởng Thăng; Hành trình vây bắt đối tượng có lệnh truy nã đặc biệt nguy hiểm; Hành lý của khách bị rạch ở sân bay: Thanh tra Bộ GTVT vào cuộc; Phá trọng án trong những ngày Tết nguyên đán đã cận kề;Câu chuyện giảm nghèo chưa bao giờ dừng lại;... là những tin tức thời sự nổi bật ngày 04/02/2016.

  • Thoi su 24h0302 Dot phao no co the bi tu den 7 nam
    Thời sự 24h(03/02): Đốt pháo nổ có thể bị tù đến 7 năm

    Sửa tàu Cát Linh-Hà Đông, Trung Quốc chưa nghe: Tội hình thức; “Ngáo đá” khống chế hai cháu bé, dọa dội nước sôi; "Choáng" với quy trình sản xuất chè Đinh 3 triệu đồng/kg; Sự thật sau lời đồn về cái chết bí ẩn của nam sinh trên cầu; Liên tiếp có nhiều trẻ em nhập viện vì ngộ độc chì trong thuốc cam;... là những tin tức thời sự nổi bật ngày 03/02/2016.

  • Thoi su 24h0202 sap bay lua doi 3 trieu lay 12 trieu
    Thời sự 24h(02/02): sập bẫy lừa đổi 3 triệu lấy 12 triệu

    3/14 mẫu thực phẩm phục vụ Tết không đạt chất lượng; 102 người đi bộ bị xử phạt trong ngày đầu: "Cần nhưng chưa đủ"?; Bị phát hiện bột ngọt từ nguyên liệu TQ, chốt cửa tẩu tán; WHO ban bố tình trạng khẩn cấp toàn cầu về virus Zika;

  • Thoi su 24h0102 Dao mo moi chon trom di 1 phan co the
    Thời sự 24h(01/02): Đào mộ mới chôn, trộm đi 1 phần cơ thể

    Kẻ gian đào mộ mới chôn, trộm đi một phần cơ thể; Đã tháo dỡ hết biển báo dưới 50km/h sau 10 ngày; CSGT trưng dụng tài sản cá nhân, tổ chức: Luật quy định thế nào?; "Người dân đừng trộm hoa ven hồ Gươm nữa"; Đã có kết quả xét nghiệm gạo từ thiện gây ngộ độc;... là những tin tức thời sự nổi bật ngày 01/02/2016.

  • Thoi su 24h2901 Nghi pham giet vo chong dai gia o TG
    Thời sự 24h(29/01): Nghi phạm giết vợ chồng đại gia ở TG

    Nghi “ăn gạo từ thiện… ngộ độc”: Hội nạn nhân chất độc da cam lên tiếng; Hành trình phá đường dây ma túy hội quý tử con nhà giàu; Việt Nam lên phương án đối phó với virus Zika gây teo não; Sân bay Nội Bài lên tiếng vụ "vòi vĩnh": Người tố trên Facebook nói gì?; Coi chừng lỡ chuyến tàu Tết vì... vé không hợp lệ!;... là những tin tức thời sự nổi bật

  • Tet binh than 2016
    Tết bính thân 2016

    Người Việt có thói quen quan tâm tới cuộc sống cá nhân của nhau. Nhưng điều này không phải phù hợp, thậm chí thành khiếm nhã. Tết là dịp điều này thể hiện rõ nhất.

  • Xu phat nguoi di bo vi pham giao thong o HN
    Xử phạt người đi bộ vi phạm giao thông ở HN

    Tai nạn giao thông chết người do người đi bộ gây ra ở TP.HCM và Hà Nội đáng báo động.

  • Hari Won Tran Thanh Yeu that hay PR
    Hari Won - Trấn Thành: Yêu thật hay PR?

    Showbiz Việt hôm qua (3/2) dậy sóng sau khi hình ảnh MC đắt show bậc nhất hiện nay "khóa môi", cõng người yêu cũ Đinh Tiến Đạt xuất hiện trên mạng.

  • Virus Zika gay tat dau nho o tre so sinh
    Virus Zika gây tật đầu nhỏ ở trẻ sơ sinh

    Mỹ vừa ghi nhận ca lây nhiễm virus Zika gây bệnh teo não đầu tiên không phải do muỗi đốt mà dường như từ quan hệ tình dục.

  • Tien gia cong khai rao ban tren facebook
    Tiền giả công khai rao bán trên facebook

    Lợi dùng lòng tham và sự nhẹ dạ cả tin của người dân, một số đối tượng đã dùng thủ đoạn đổi tiền thật lấy tiền giả để chiếm đoạt tài sản. ------------ Xem thêm: Tiền giả công khai rao bán trên facebook, http://vietbao.vn/tp/Tien-gia-cong-khai-rao-ban-tren-facebook/13583762/ Tin nhanh Việt Nam ra thế giới vietbao.vn

  • Su kien quoc te noi bat 31162
    Sự kiện quốc tế nổi bật (31/1-6/2)

    Lệnh Hoàn Thành tiết lộ cho tình báo Mỹ bí mật thâm cung của Bắc Kinh; Hoà đàm Syria tạm ngừng do giao tranh khốc liệt trên chiến trường; Bà Clinton chính thức giành chiến thắng 'sít sao nhất lịch sử'; Viễn cảnh nước Anh rời khỏi Liên minh châu Âu đã cận kề.... là những tin chính trong tuần qua.

  • Toan canh kinh te tuan 3101 06022016
    Toàn cảnh kinh tế tuần 31/01 – 06/02/2016

    Ngày 2/2/2016 diễn ra buổi họp báo Công bố giá thành sản xuất kinh doanh điện năm 2014, ông Đinh Quang Tri – Phó tổng giám đốc Tập đoàn Điện lực Việt Nam (EVN) khẳng định chưa có kế hoạch tăng giá điện, tuy nhiên tới mùa cao điểm, doanh nghiệp 'chưa nói trước được điều gì'. Cũng trong buổi họp này, tổng kết hoạt động kinh doanh của tập đoàn này, EVN lãi hơn

  • Nghin le chuyen tuan qua 0102 05022016
    Nghìn lẻ chuyện tuần qua 01/02 - 05/02/2016

    Xử phạt người đi bộ vi phạm giao thông ở HN; CSGT trưng dụng tài sản của dân gây tranh cãi; Đề xuất mua tàu Trung Quốc cũ; Hoa trang trí ở hồ Gươm bị ăn trộm; Các điểm bắn pháo hoa giao thừa Tết Bính Thân 2016 tại 64 tỉnh, thành... là những tin tức xã hội nổi bật được dư luận quan tâm trong tuần qua.

  • Tin An ninh Phap luat tuan qua 3101 0602
    Tin An ninh - Pháp luật tuần qua (31/01 - 06/02)

    Cảnh báo nạn trộm cắp, cướp giật dịp Tết; Phận tù 'mồ côi', Tết về rưng rưng nước mắt; Tiền giả công khai rao bán trên facebook; Rượu bia ngày Tết và những hệ lụy: Từ rượu giả đến tai nạn giao thông; Hành trình cảm động của người cha qua 15 tỉnh, thành đi tìm con; Phá án là trách nhiệm chứ không phải chiến công;.....là những tin đáng chú ý.

  • Ban tin Suc khoe tuan qua 311 62
    Bản tin Sức khỏe tuần qua (31/1 - 6/2)

    Thái Lan phát hiện virus Zika, Bộ Y tế Việt Nam họp khẩn; Ăn tiết canh ngày Tết, dễ chết như chơi; Trẻ nhập viện liên tiếp vì ngộ độc chì từ thuốc cam; Không biết bị lạc nội mạc tử cung: Nhiều phụ nữ vô sinh;... là những thông tin Sức khỏe được quan tâm nhất tuần qua.