VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh”

Bấm ngay Subscribe / Đăng Ký xem video hay mới nhất >>

Sau nhiều lần nâng cấp, phiên bản mới của VietOCR đã có thêm nhiều tính năng đáng giá như: hỗ trợ chế độ quét tích hợp, nhận dạng ký tự tiếng Việt trên nhiều dạng ảnh (bmp, jpg, tiff, png), hỗ trợ các tài liệu ảnh nhiều trang và cơ chế xử lý hậu kỳ, giúp khắc phục một số lỗi về ngữ nghĩa, chính tả sau khi xử lý. Đặc biệt chương trình hoàn toàn miễn phí.

Dung lượng: 4,2MB.
Tải tại: http://websitetinhoc.com (miễn phí).

Mô tả ảnh.
Nguồn: Diendantinhoc
So với một số phần mềm nhận dạng văn bản tiếng Việt như: VnDOCR, VietOCR thuộc vào hàng “ngon, bổ” và miễn phí. Tốc độ biên dịch nội dung nhanh, giao diện đơn giản, dễ sử dụng và mức độ chính xác có thể đạt hơn 80%.

VietOCR bao gồm hai phiên bản: phiên bản GUI Form chạy trên Windows (hỗ trợ cả 32/64bit) và phiên bản Swing GUI (sử dụng Java) có thể hoạt động trên nhiều hệ điều hành khác nhau như: Windows, Linux,…

VietOCR có thể sử dụng như một trình nhận dạng ký tự quang học độc lập (xử lý các file ảnh, dữ liệu sẵn có) hoặc kết hợp với chức năng quét để xử lý các tài liệu được nạp từ bên ngoài.

Thao tác xử lý văn bản được chia thành các loại:

1. Nhận dạng tài liệu ảnh:

Thông thường khi quét xong một tài liệu văn bản, file thu được sẽ được lưu dưới dạng một tài liệu ảnh và không thể xử lý (xoá text, nhập liệu, chỉnh sửa nội dung,…) như ban đầu. VietOCR sẽ có nhiệm vụ chuyển đổi các tài liệu này sang văn bản để bạn có thể xử lý dễ dàng. VietOCR hỗ trợ khá nhiều định dạng ảnh như: jpg, bmp, png, tiff, tuy nhiên không hỗ trợ định dạng gif.

Để sử dụng chương trình, bạn cần cài đặt thêm gói Visual C++ 2008 SP1 (nếu gói này chưa được cài đặt vào hệ thống), sau đó truy cập menu File > Open, trong phần File of types bạn chọn là All Image Files và nạp vào file văn bản cần xử lý. Xong, nhấn nút Open.

Tiếp đến, trên giao diện chính, bạn sẽ nhìn thấy hai khu vực: khu vực nằm bên trái chứa nội dung của file tài liệu vừa mới thêm vào, khung bên phải sẽ là tài liệu sau khi trích xuất từ file ảnh. Khi phần nội dung đã được nạp xong, bạn nhấn đề mục OCR Language (góc trên bên phải màn hình) và chọn Vietnamese. Sau đó, nhấn nút OCR để bắt đầu quá trình biên dịch nội dung, tốc độ nhanh hay chậm còn tùy thuộc vào độ dài, ngắn của văn bản và tốc độ xử lý của máy tính.

Sau khi biên dịch xong, bạn sẽ có ngay phần dữ liệu dạng text, có thể xoá hay thay đổi một cách dễ dàng. Một điểm hay của VietOCR, đó là khả năng tích hợp bộ gõ tiếng Việt (hoạt động dựa trên bộ gõ Unikey), cho phép bạn dễ dàng thay đổi nội dung văn bản có dấu mà không cần bộ gõ Unikey thường trực nơi khay hệ thống. Để định bộ gõ trong VietOCR, bạn truy cập menu Settings > Viet Input Method và chọn một trong các kiểu gõ: VNI, Telex, VIQR với Font mặc định là Unicode được tích hợp sẵn.

Trường hợp chỉ muốn nhận dạng riêng một khu vực nào đó, bạn giữ trái chuột và rê vào vùng văn bản mà bạn muốn trích xuất. Khi đó, chỉ nội dung của vùng này sẽ được hiển thị bên khung phải màn hình. Nếu muốn biên dịch tài liệu nhiều trang, bạn truy cập menu Command > OCR All Pages.

Để “thử” kiểm tra khả năng nhận diện văn bản của chương trình trên các định dạng khác nhau, người viết đã sử dụng thư viện mẫu văn bản có sẵn (C:Program FilesVietUnicodeVietOCR.NETsamples) và dùng chương trình MS Paint của Windows để lưu lại thành các định dạng khác nhau như: PNG, JPG và BMP (256 bit) từ file gốc có định dạng .TIFF

Kết quả, cả ba trường hợp đều nhận dạng được văn bản khá chuẩn xác. Tuy nhiên một số dấu câu chưa đúng và một vài từ vẫn còn sai chính tả, không rõ nghĩa nhưng mức độ biên dịch so với bản gốc là khá chuẩn.

2. Cài đặt máy quét:

Nếu nhu cầu của bạn là xử lý các tài liệu bên ngoài thông qua hệ thống quét của chương trình, nhất thiết bạn phải cài đặt thêm máy quét. Để làm việc này, bạn truy cập vào thư mục cài đặt của VietOCR, tìm và sao chép file WIAAut.dll (C:Program FilesVietUnicodeVietOCR.NET) vào thư mục C:WindowsSystem32.

Sau đó, bạn vào Start > Run, gõ lệnh regsvr32 C:WindowsSystem32WIAAut.dll để đăng ký thư viện này với Windows. Khi đăng ký xong, bạn cài driver cho máy quét và bắt đầu tiến trình xử lý văn bản như trên.

Lưu ý:

Trong quá trình biên dịch, đôi lúc bạn sẽ gặp phải thông báo lỗi Attemp to read or write protected memory, một trong những nguyên nhân gây ra lỗi này là do văn bản đã định sai hướng (lệch hướng đi, thay vì nằm ngang, văn bản đã chuyển sang hướng đứng), bạn chỉ việc nhấn nút Rotate vài lần cho đúng hướng là xong.

Nếu không có máy quét và bạn vẫn muốn “trải nghiệm” tính năng của phần mềm, bạn có thể tải tiện ích ImagePrinter, giúp bạn chuyển đổi bất kỳ tài liệu nào sang bốn định dạng hỗ trợ sẵn của chương trình (bmp, png, tiff, jpg). Trường hợp nếu muốn chuyển giao diện chương trình sang tiếng Việt, bạn truy cập menu Settings > User Interface Language, chọn Vietnamese.

Cũng tương tự quá trình nhận dạng tài liệu ảnh ở trên, trong trường hợp này tài liệu quét sẽ được chia thành hai dạng để kiểm tra: dạng văn bản thuần (text) và văn bản kèm hình ảnh. Quá trình xử lý và biên dịch được thực hiện như bước 1. Kết quả chương trình nhận dạng tốt với các văn bản thuần và gặp phải tình trạng lỗi OCR Operation với các tài liệu có kèm hình ảnh. Việc thực hiện này cũng xảy ra với các định dạng khác.

Một điều lưu ý với các bạn, để quá trình nhận dạng ảnh được chính xác, độ phân giải của bản quét phải đạt chuẩn 300dpi, không mờ, càng sạch và rõ càng tốt.

3. Xử lý tài liệu PDF:

Ngoài khả năng nhận dạng các tài liệu ảnh, VietOCR còn có khả năng xử lý các tài liệu PDF. Để có thể sử dụng được tính năng này trong VietOCR, bạn cần cài đặt thêm gói GPL GhostScript 8.7. Sau khi cài xong, bạn thực hiện việc xử lý tương tự các bước trên (với các tài liệu PDF có chứa hình ảnh, kết quả vẫn bị lỗi như trường hợp hai).

Nhìn chung, VietOCR có khả năng xử lý văn bản tiếng Việt tốt, độ chính xác khá cao và tương thích với nhiều định dạng ảnh khác nhau trong điều kiện văn bản thuần (không chứa hình ảnh), bạn có thể dùng văn bản sau khi xử lý để phục vụ cho công việc mà không phải tốn thời gian chỉnh sửa nhiều.

Theo Huy Trần/Echíp

Việt Báo
Bấm ngay Subscribe / Đăng Ký xem video hay mới nhất >>

Video được xem nhiều nhất

Thí nghiệm bắn súng trường vào người trong bể bơi
00:00 / --:--

Video nổi bật

TIN Công Nghệ NỔI BẬT

Phục hồi tin nhắn đã xoá trên Facebook thật dễ dàng!

Bạn đã lỡ tay xóa bỏ những tin nhắn trên Facebook vào một này nào đó, bạn muốn tìm lại một số nội dung quan trọng đã nhắn và bối rối vì mình đã xóa chúng đi? Đừng lo lắng mà hãy bình tĩnh thực hiện vài bước hướng dẫn sau đây sẽ giúp bạn lấy lại các tin nhắn đã xóa. Thật tuyệt phải không?

Cách chuyển đổi video YouTube sang nhạc MP3 không cần phần mềm

Bạn vô tình xem được một đoạn video nào đó trên YouTube và rất thích bản nhạc nền trong đó, nhưng lại không muốn tải về cả đoạn video. Trong bài viết này, mình sẽ hướng dẫn các bạn cách chuyển đổi video từ YouTube hoặc SoundCloud sang định dạng MP3 trực tuyến không cần phần mềm.

Hậu trường việc Facebook tạo nên bộ Reactions mới (Phần 2)

Reactions, bộ biểu tượng cảm xúc mới đã chính thức đổ bộ xuống Facebook của người dùng toàn cầu sau một thời gian dài nghiên cứu và thử nghiệm. Nhìn thì có vẻ đơn giản, nhưng để ra mắt một thay đổi mang tính lịch sử này cần trải qua khá nhiều quá trình. Chúng ta hãy cùng tìm hiểu nhé.

Tổng hợp 13 mẹo vặt thú vị trên iPhone

Chiếc iPhone của bạn có khá nhiều tính năng thú vị mà có lẽ bạn chưa bao giờ nghĩ tới, chẳng hạn như nó cấu giấu một bản đồ lưu lại tất cả nơi bạn đã đến, hoặc nó sẽ cho phép bạn điều khiển điện thoại chỉ bằng một cái lắc đầu... Hãy cùng FPT Shop khám phá 15 mẹo vặt thú vị trên iPhone nhé.

Nhận xét tin VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh”

Ý kiến bạn đọc

Viết phản hồi

Bạn có thể gửi nhận xét, góp ý hay liên hệ về bài viết VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh” bằng cách gửi thư điện tử tới Lien He Bao Viet Nam. Xin bao gồm tên bài viết VietOCR 15 Nhan dang ky tu tieng Viet chuan khong can chinh ở dạng tiếng Việt không dấu. Hoặc VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh” ở dạng có dấu. Bài viết trong chuyên đề của chuyên mục Công Nghệ.

VietOCR 1.5: Vietnamese Character Recognition "standard without adjustment"
character recognition, text processing, document images, plain text, the new version, Vietnamese, programs and formats , can, compile, after, you, the, scan, file

New version of VietOCR more valuable features such as Vietnamese character recognition on many image formats, fix-# 160; semantics, spelling after treatment ....

CÓ THỂ BẠN QUAN TÂM
Xem tiếp: Công Nghệ


  • Thoi su 24h2804 Ca chet do thuy trieu do chua thuyet phuc
    Thời sự 24h(28/04): Cá chết do thủy triều đỏ chưa thuyết phục

    Xử lý nghiêm, thậm chí truy tố nếu để xảy ra ngộ độc do ăn cá chết; Nắng nóng bất thường tại TP.HCM: Trẻ nhỏ đổ bệnh, người già đột qụy; Chuyên gia phản bác nguyên nhân thuỷ triều đỏ làm chết cá; Phát hiện công nhân tráo đổi, làm mới hạn bánh quy hết date; Cháy chung cư ở Linh Đàm: Trẻ vạ vật ngủ ngoài đường

  • Thoi su 24h2704 Be trai bi me ep uong thuoc doc da chet
    Thời sự 24h(27/04): Bé trai bị mẹ ép uống thuốc độc đã chết

    Cá chết bất thường ở Vũng Áng: Thêm 5 thợ lặn nhập viện; Thảm án ở Hải Dương: Bé trai 8 tuổi bị mẹ đẻ ép uống thuốc độc đã chết; Giả mạo facebook nữ sinh bị cưa chân để lừa đảo: Lỗi tại nhà hảo tâm; Dân "tố" nước có mùi hôi, GĐ nước sạch bảo "Đun lên là hết"; Hành trình 18 năm vật vã tìm "tiếng người" cho con gái

  • Thoi su 24h2604 Nam thanh nien o HN bi sat hai da man
    Thời sự 24h(26/04): Nam thanh niên ở HN bị sát hại dã man

    Người nhái lặn 200m dưới kênh đen ngòm ô nhiễm để tìm két sắt; Có nên ăn hải sản khi cá chết hàng loạt ở miền Trung?; Thủy ngân trong không khí Hà Nội: "Khói xe chỉ là nghi ngờ"; Bỏ chất cấm độc hại: Thái Lan mất 6-7 năm, Việt Nam chỉ 6-7 tháng; Hà Nội: Lại một chung cư có nước sạch "sạch" như... nước cống!

  • Thoi su 24h2504 Tre bi bao hanh Noi dau tinh than
    Thời sự 24h(25/04): Trẻ bị bạo hành - Nỗi đau tinh thần

    Những cô gái bị xử tội... hiếp dâm; ‘Ai đầu độc cá cũng phải bị xử lý’!; Nằm rạp xuống đất khi thanh niên quăng mìn ra đường; Trẻ em bị bạo hành: Những nỗi đau về thể xác và tinh thần; Từ những vụ tống tình, tiền bằng ảnh 'nóng': Bài học cho giới trẻ... là những tin tức thời sự nổi bật ngày 25/04/2016.

  • Thoi su 24h2204 Thanh nien lay bua giet nguoi yeu
    Thời sự 24h(22/04): Thanh niên lấy búa giết người yêu

    Công an nóng vội bỏ qua, còn ta nóng vội thì ra vào tù; Vì sao có những miếng thịt bò lại ánh lên màu 7 sắc cầu vồng?; Mỗi ngày cả trăm người đi taxi "thất lạc hành lý"; Số phận như bóng ma của các cô gái Việt bị bán sang Trung Quốc; Lún vào đa cấp liên tỉnh, tiền tỉ bốc hơi

  • Xon xao nhung vu chong danh vo gay phan no
    Xôn xao những vụ chồng đánh vợ gây phẫn nộ

    Bạo lực gia đình từ lâu là một vấn đề nhức nhối trong xã hội, trong đó đáng báo động nhất là tình trạng bạo lực phụ nữ.

  • Sot virus trieu chung va cach dieu tri
    Sốt virus - triệu chứng và cách điều trị

    Bệnh nhân sốt virus có thể khỏi sau 5-7 ngày điều trị. Tuy nhiên, nếu không phát hiện sớm và điều trị kịp thời, bệnh có thể gây ra nhiều biến chứng nguy hiểm. ------------ Xem thêm: Sốt virus - triệu chứng và cách điều trị, http://vietbao.vn/tp/Sot-virus-trieu-chung-va-cach-dieu-tri/13168970/ Tin nhanh Việt Nam ra thế giới vietbao.vn

  • Dan ba Viet kho nhat the gioi
    Đàn bà Việt khổ nhất thế giới?

    Trên đời này, chỉ có cha mẹ mới có thể hi sinh vì con cái! Đừng nghĩ mình có thể thay đổi được người khác. Sống vì mình đi, thương mình đi, sáng suốt lên, đừng vì sợ thị phi, sợ không làm được mà sống chịu đựng cả đời. Ai bị..

  • Vu chu quan bi xu ly hinh su
    Vụ 'chủ quán bị xử lý hình sự"

    Ông Tấn thuê mặt bằng ở huyện Bình Chánh để bán cà phê, ăn sáng, cơm trưa... nhưng lại bị phạt tiền vì nhiều lý do rồi bị truy tố vì chậm đăng ký kinh doanh...

  • Tang thue moi truong voi xang dau
    Tăng thuế môi trường với xăng dầu?

    Đại diện Bộ Tài chính khẳng định, hiện Bộ Tài chính chưa có kế hoạch trình Chính phủ về điều chỉnh tăng thuế bảo vệ môi trường đối với xăng dầu.

  • Toan canh kinh te tuan 244 3004
    Toàn cảnh kinh tế tuần (24/4 -30/04)

    Trong buổi lễ Kỷ niệm 65 năm ngày thành lập ngành Ngân hàng Việt Nam, Thủ tướng Nguyễn Xuân Phúc yêu cầu ngành điều hành linh hoạt lãi suất, kiềm chế lạm phát, đẩy mạnh tái cơ cấu; theo cách tính của Việt Nam, sau 4 tháng, lạm phát đang dừng ở mức 1,33%; mức lương của người lao động tại Việt Nam là 384-582 USD/tháng.

  • Nghin le chuyen tuan qua 2404 29042016
    Nghìn lẻ chuyện tuần qua 24/04 - 29/04/2016

    Cá chết hàng loạt tại vùng biển miền Trung; Sự thật về thông tin có thủy ngân lơ lửng trong không khí Hà Nội; Gió thổi đổ cột điện cao thế 500kV; Phản cảm cảnh chân dài mặc bikini 2 mảnh câu khách ở siêu thị tại HN; Cá chết, thuỷ ngân, chất cấm - người Việt sống sao... là những tin tức xã hội nổi bật được dư luận quan tâm trong tuần qua.

  • Su kien quoc te noi bat 244304
    Sự kiện quốc tế nổi bật (24/4-30/4)

    Mỹ chi 38 tỷ USD cho phòng thủ tên lửa trong 5 năm tới; một phần tài liệu Panama bí mật sẽ được công bố vào tháng 5; Bà Clinton, ông Trump đứng trước chiến thắng lớn ở 5 bang; Nhật Bản ngơ ngác mất hợp đồng tàu ngầm 39 tỷ USD... là những tin chính trong tuần qua.

  • Ban tin Suc khoe tuan qua 244 304
    Bản tin Sức khỏe tuần qua (24/4 - 30/4)

    Tác động khủng khiếp của ô nhiễm không khí đến sức khỏe; 100% xúc xích Vietfoods chứa chất gây ung thư; Những món khoái khẩu mùa hè dễ gây ngộ độc nhất; Bé 6 tuổi dậy thì sớm vì được mẹ cho ăn một món liên tục trong 2 năm;... là những thông tin Sức khỏe được quan tâm nhất tuần qua.

  • Tong Hop Doi Song Tuan Qua 2443042016
    Tổng Hợp Đời Sống Tuần Qua (24/4-30/4/2016)

    Nhiều khi cha mẹ đã vô tình 'xâm hại' con mà không hay biết; cảnh giác trước những chiêu 'móc túi' của thợ điều hòa; vấn nạn dùng chất cấm trong chăn nuôi; cá chết khiến người dân không dám ăn hải sản...Cùng với những câu chuyện về tình yêu, hạnh phúc gia đình với ý nghĩa sâu xa khiến chúng ta phải suy ngẫm nhiều hơn là các