VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh”

Bấm ngay Subscribe / Đăng Ký xem video hay mới nhất >>

Sau nhiều lần nâng cấp, phiên bản mới của VietOCR đã có thêm nhiều tính năng đáng giá như: hỗ trợ chế độ quét tích hợp, nhận dạng ký tự tiếng Việt trên nhiều dạng ảnh (bmp, jpg, tiff, png), hỗ trợ các tài liệu ảnh nhiều trang và cơ chế xử lý hậu kỳ, giúp khắc phục một số lỗi về ngữ nghĩa, chính tả sau khi xử lý. Đặc biệt chương trình hoàn toàn miễn phí.

Dung lượng: 4,2MB.
Tải tại: http://websitetinhoc.com (miễn phí).

Mô tả ảnh.
Nguồn: Diendantinhoc
So với một số phần mềm nhận dạng văn bản tiếng Việt như: VnDOCR, VietOCR thuộc vào hàng “ngon, bổ” và miễn phí. Tốc độ biên dịch nội dung nhanh, giao diện đơn giản, dễ sử dụng và mức độ chính xác có thể đạt hơn 80%.

VietOCR bao gồm hai phiên bản: phiên bản GUI Form chạy trên Windows (hỗ trợ cả 32/64bit) và phiên bản Swing GUI (sử dụng Java) có thể hoạt động trên nhiều hệ điều hành khác nhau như: Windows, Linux,…

VietOCR có thể sử dụng như một trình nhận dạng ký tự quang học độc lập (xử lý các file ảnh, dữ liệu sẵn có) hoặc kết hợp với chức năng quét để xử lý các tài liệu được nạp từ bên ngoài.

Thao tác xử lý văn bản được chia thành các loại:

1. Nhận dạng tài liệu ảnh:

Thông thường khi quét xong một tài liệu văn bản, file thu được sẽ được lưu dưới dạng một tài liệu ảnh và không thể xử lý (xoá text, nhập liệu, chỉnh sửa nội dung,…) như ban đầu. VietOCR sẽ có nhiệm vụ chuyển đổi các tài liệu này sang văn bản để bạn có thể xử lý dễ dàng. VietOCR hỗ trợ khá nhiều định dạng ảnh như: jpg, bmp, png, tiff, tuy nhiên không hỗ trợ định dạng gif.

Để sử dụng chương trình, bạn cần cài đặt thêm gói Visual C++ 2008 SP1 (nếu gói này chưa được cài đặt vào hệ thống), sau đó truy cập menu File > Open, trong phần File of types bạn chọn là All Image Files và nạp vào file văn bản cần xử lý. Xong, nhấn nút Open.

Tiếp đến, trên giao diện chính, bạn sẽ nhìn thấy hai khu vực: khu vực nằm bên trái chứa nội dung của file tài liệu vừa mới thêm vào, khung bên phải sẽ là tài liệu sau khi trích xuất từ file ảnh. Khi phần nội dung đã được nạp xong, bạn nhấn đề mục OCR Language (góc trên bên phải màn hình) và chọn Vietnamese. Sau đó, nhấn nút OCR để bắt đầu quá trình biên dịch nội dung, tốc độ nhanh hay chậm còn tùy thuộc vào độ dài, ngắn của văn bản và tốc độ xử lý của máy tính.

Sau khi biên dịch xong, bạn sẽ có ngay phần dữ liệu dạng text, có thể xoá hay thay đổi một cách dễ dàng. Một điểm hay của VietOCR, đó là khả năng tích hợp bộ gõ tiếng Việt (hoạt động dựa trên bộ gõ Unikey), cho phép bạn dễ dàng thay đổi nội dung văn bản có dấu mà không cần bộ gõ Unikey thường trực nơi khay hệ thống. Để định bộ gõ trong VietOCR, bạn truy cập menu Settings > Viet Input Method và chọn một trong các kiểu gõ: VNI, Telex, VIQR với Font mặc định là Unicode được tích hợp sẵn.

Trường hợp chỉ muốn nhận dạng riêng một khu vực nào đó, bạn giữ trái chuột và rê vào vùng văn bản mà bạn muốn trích xuất. Khi đó, chỉ nội dung của vùng này sẽ được hiển thị bên khung phải màn hình. Nếu muốn biên dịch tài liệu nhiều trang, bạn truy cập menu Command > OCR All Pages.

Để “thử” kiểm tra khả năng nhận diện văn bản của chương trình trên các định dạng khác nhau, người viết đã sử dụng thư viện mẫu văn bản có sẵn (C:Program FilesVietUnicodeVietOCR.NETsamples) và dùng chương trình MS Paint của Windows để lưu lại thành các định dạng khác nhau như: PNG, JPG và BMP (256 bit) từ file gốc có định dạng .TIFF

Kết quả, cả ba trường hợp đều nhận dạng được văn bản khá chuẩn xác. Tuy nhiên một số dấu câu chưa đúng và một vài từ vẫn còn sai chính tả, không rõ nghĩa nhưng mức độ biên dịch so với bản gốc là khá chuẩn.

2. Cài đặt máy quét:

Nếu nhu cầu của bạn là xử lý các tài liệu bên ngoài thông qua hệ thống quét của chương trình, nhất thiết bạn phải cài đặt thêm máy quét. Để làm việc này, bạn truy cập vào thư mục cài đặt của VietOCR, tìm và sao chép file WIAAut.dll (C:Program FilesVietUnicodeVietOCR.NET) vào thư mục C:WindowsSystem32.

Sau đó, bạn vào Start > Run, gõ lệnh regsvr32 C:WindowsSystem32WIAAut.dll để đăng ký thư viện này với Windows. Khi đăng ký xong, bạn cài driver cho máy quét và bắt đầu tiến trình xử lý văn bản như trên.

Lưu ý:

Trong quá trình biên dịch, đôi lúc bạn sẽ gặp phải thông báo lỗi Attemp to read or write protected memory, một trong những nguyên nhân gây ra lỗi này là do văn bản đã định sai hướng (lệch hướng đi, thay vì nằm ngang, văn bản đã chuyển sang hướng đứng), bạn chỉ việc nhấn nút Rotate vài lần cho đúng hướng là xong.

Nếu không có máy quét và bạn vẫn muốn “trải nghiệm” tính năng của phần mềm, bạn có thể tải tiện ích ImagePrinter, giúp bạn chuyển đổi bất kỳ tài liệu nào sang bốn định dạng hỗ trợ sẵn của chương trình (bmp, png, tiff, jpg). Trường hợp nếu muốn chuyển giao diện chương trình sang tiếng Việt, bạn truy cập menu Settings > User Interface Language, chọn Vietnamese.

Cũng tương tự quá trình nhận dạng tài liệu ảnh ở trên, trong trường hợp này tài liệu quét sẽ được chia thành hai dạng để kiểm tra: dạng văn bản thuần (text) và văn bản kèm hình ảnh. Quá trình xử lý và biên dịch được thực hiện như bước 1. Kết quả chương trình nhận dạng tốt với các văn bản thuần và gặp phải tình trạng lỗi OCR Operation với các tài liệu có kèm hình ảnh. Việc thực hiện này cũng xảy ra với các định dạng khác.

Một điều lưu ý với các bạn, để quá trình nhận dạng ảnh được chính xác, độ phân giải của bản quét phải đạt chuẩn 300dpi, không mờ, càng sạch và rõ càng tốt.

3. Xử lý tài liệu PDF:

Ngoài khả năng nhận dạng các tài liệu ảnh, VietOCR còn có khả năng xử lý các tài liệu PDF. Để có thể sử dụng được tính năng này trong VietOCR, bạn cần cài đặt thêm gói GPL GhostScript 8.7. Sau khi cài xong, bạn thực hiện việc xử lý tương tự các bước trên (với các tài liệu PDF có chứa hình ảnh, kết quả vẫn bị lỗi như trường hợp hai).

Nhìn chung, VietOCR có khả năng xử lý văn bản tiếng Việt tốt, độ chính xác khá cao và tương thích với nhiều định dạng ảnh khác nhau trong điều kiện văn bản thuần (không chứa hình ảnh), bạn có thể dùng văn bản sau khi xử lý để phục vụ cho công việc mà không phải tốn thời gian chỉnh sửa nhiều.

Theo Huy Trần/Echíp

Việt Báo
Bấm ngay Subscribe / Đăng Ký xem video hay mới nhất >>

Video được xem nhiều nhất

Cận cảnh đàn rắn con lần lượt chui ra khỏi trứng
00:00 / --:--

Video nổi bật

TIN Công Nghệ NỔI BẬT

Phục hồi tin nhắn đã xoá trên Facebook thật dễ dàng!

Bạn đã lỡ tay xóa bỏ những tin nhắn trên Facebook vào một này nào đó, bạn muốn tìm lại một số nội dung quan trọng đã nhắn và bối rối vì mình đã xóa chúng đi? Đừng lo lắng mà hãy bình tĩnh thực hiện vài bước hướng dẫn sau đây sẽ giúp bạn lấy lại các tin nhắn đã xóa. Thật tuyệt phải không?

Cách chuyển đổi video YouTube sang nhạc MP3 không cần phần mềm

Bạn vô tình xem được một đoạn video nào đó trên YouTube và rất thích bản nhạc nền trong đó, nhưng lại không muốn tải về cả đoạn video. Trong bài viết này, mình sẽ hướng dẫn các bạn cách chuyển đổi video từ YouTube hoặc SoundCloud sang định dạng MP3 trực tuyến không cần phần mềm.

Hậu trường việc Facebook tạo nên bộ Reactions mới (Phần 2)

Reactions, bộ biểu tượng cảm xúc mới đã chính thức đổ bộ xuống Facebook của người dùng toàn cầu sau một thời gian dài nghiên cứu và thử nghiệm. Nhìn thì có vẻ đơn giản, nhưng để ra mắt một thay đổi mang tính lịch sử này cần trải qua khá nhiều quá trình. Chúng ta hãy cùng tìm hiểu nhé.

Tổng hợp 13 mẹo vặt thú vị trên iPhone

Chiếc iPhone của bạn có khá nhiều tính năng thú vị mà có lẽ bạn chưa bao giờ nghĩ tới, chẳng hạn như nó cấu giấu một bản đồ lưu lại tất cả nơi bạn đã đến, hoặc nó sẽ cho phép bạn điều khiển điện thoại chỉ bằng một cái lắc đầu... Hãy cùng FPT Shop khám phá 15 mẹo vặt thú vị trên iPhone nhé.

Nhận xét tin VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh”

Ý kiến bạn đọc

Viết phản hồi

Bạn có thể gửi nhận xét, góp ý hay liên hệ về bài viết VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh” bằng cách gửi thư điện tử tới Lien He Bao Viet Nam. Xin bao gồm tên bài viết VietOCR 15 Nhan dang ky tu tieng Viet chuan khong can chinh ở dạng tiếng Việt không dấu. Hoặc VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh” ở dạng có dấu. Bài viết trong chuyên đề của chuyên mục Công Nghệ.

VietOCR 1.5: Vietnamese Character Recognition "standard without adjustment"
character recognition, text processing, document images, plain text, the new version, Vietnamese, programs and formats , can, compile, after, you, the, scan, file

New version of VietOCR more valuable features such as Vietnamese character recognition on many image formats, fix-# 160; semantics, spelling after treatment ....

CÓ THỂ BẠN QUAN TÂM
Xem tiếp: Công Nghệ


  • Thoi su 24h3005 Nghi van vet khau tren dau be so sinh
    Thời sự 24h(30/05): Nghi vấn vết khâu trên đầu bé sơ sinh

    Hà Nội ngập lụt, dân kêu đóng phí đường bộ nhưng đi ...đường thủy; Tết thiếu nhi 1/6: Phụ huynh Việt hoang mang chọn đồ chơi cho trẻ; Xếp hạnh kiểm yếu, nữ sinh uống thuốc ngủ tự tử; Nghi vấn vết khâu trên đầu bé sơ sinh ... là những tin tức thời sự nổi bật ngày 30/5/2016.

  • Thoi su 24h2705 Tu choi loi moi di choi bi danh rot rang
    Thời sự 24h(27/05): Từ chối lời mời đi chơi bị đánh rớt răng

    Cả gia đình nhập viện vì quá kích động sau khi ăn rau lạ; "Ngọc ếch" đến "cát lợn": Thực hư những vật thể lạ giá hàng tỉ đồng; Phụ huynh bức xúc con bị thâm tím người khi từ trường mầm non về; Công bố kết quả điều tra vụ xe khách cháy 13 người chết; Mại dâm Đồ Sơn và luật ngầm nhốt chân dài sống trong lầm lũi

  • Thoi su 24h2605 Nhung an mang rung ron trong con mong du
    Thời sự 24h(26/05): Những án mạng rùng rợn trong cơn mộng du

    Cháu gái ngã xuống hồ đang xả nước, ông tử nạn khi lao theo cứu cháu; Uẩn khúc khám bệnh nhận quà khuyến mãi ở phòng khám tư nhân; Mảnh giấy sót lộ tẩy chiêu đóng giả người thân đoạt tiền người già; Giảm hóa đơn nước tiền triệu cho dân: Tình thương ngành nước

  • Thoi su 24h2505 Cong tu cuong buc nhieu co gai tren oto
    Thời sự 24h(25/05): Công tử cưỡng bức nhiều cô gái trên ôtô

    Bị "tố" từ chối cấp cứu bệnh nhân, bác sĩ trạm y tế nói gì?; Hà Nội ngập nặng, dân leo lên xe ủi, chèo xuồng "lướt" phố; Vợ tố bị chồng đánh đến mức phải nhập viện, sảy thai 3 tháng; Vụ tai nạn thảm khốc ở Bình Thuận: Đã có 13 nạn nhân tử vong; Đã giải cứu thành công cá voi nặng 15 tấn mắc cạn

  • Thoi su 24h2405 Loi khai cua hung thu sat hai be gai 11T
    Thời sự 24h(24/05): Lời khai của hung thủ sát hại bé gái 11T

    Chết cháy vì không có búa thoát hiểm: Nhà xe kêu khách lấy trộm; Những lần ông Obama tháo nhẫn để bắt tay gây tranh cãi; Hà Nội tiếp tục kiểm tra hoạt động bán hàng đa cấp; Cứu sống bệnh nhân bị gần 20 viên đạn găm khắp người; Cần xử lý thông tin bịa đặt, vu khống trên mạng xã hội

  • Tai nan kinh hoang o Binh Thuan
    Tai nạn kinh hoàng ở Bình Thuận

    Những vụ tai nạn liên quan đến xe khách thường gây ra thương vong lên đến hàng chục người khiến nhiều người thấy bất an, ám ảnh đối với loại phương tiện này.

  • Chuyen tham Viet Nam cua Tong thong Obama
    Chuyến thăm Việt Nam của Tổng thống Obama

    Nhà Trắng công bố lịch trình chuyến thăm chính thức tới Việt Nam và Nhật Bản của Tổng thống Barack Obama, chuyến thăm thứ 10 của ông tới châu Á.

  • Phong chong xam hai tinh duc tre em
    Phòng chống xâm hại tình dục trẻ em

    Từ đầu năm đến nay, hàng loạt vụ học sinh bị xâm hại tình dục khiến nhiều phụ huynh, học sinh hoang mang, lo sợ

  • Toan canh vu Dong phuc bien hieu
    Toàn cảnh vụ 'Đồng phục biển hiệu'

    Việc đồng bộ bảng, biển quảng cáo đã mang lại diện mạo khác hẳn với vẻ nhếch nhác của nhiều tuyến phố ở Hà Nội hay các đô thị lớn. Tuy nhiên, có không ít ý kiến không đồng tình với việc làm này.

  • Nu sinh tat ban 52 cai chay mau mui
    Nữ sinh tát bạn 52 cái, chảy máu mũi

    Một vụ bạo lực học đường nghiêm trọng đã xảy ra tại trường THCS 15/10 (Mộc Châu, Sơn La), trong đó một nữ sinh đã thẳng tay tát bạn 52 cái, hộc máu mũi đang thu hút sự quan tâm của dư luận.

  • Su kien quoc te noi bat 225285
    Sự kiện quốc tế nổi bật (22/5-28/5)

    Những hoạt động cũng như các tuyên bố của Tổng thống Obama tại Việt Nam là thông tin nổi bật nhất trên các mặt báo trong tuần vừa qua.

  • Nghin le chuyen tuan qua 2205 28052016
    Nghìn lẻ chuyện tuần qua 22/05 - 28/05/2016

    Tai nạn giao thông kinh hoàng ở Bình Thuận; Hà Nội mưa lớn, nhiều tuyến phố biến thành sông; Phụ huynh bức xúc con bị thâm tím người khi từ trường mầm non về; Hình ảnh ấn tượng tại lễ đón chính thức Tổng thống Mỹ ... là những tin tức xã hội nổi bật được dư luận quan tâm trong tuần qua.

  • Tin An ninh Phap luat tuan qua 2205 2805
    Tin An ninh - Pháp luật tuần qua (22/05 - 28/05)

    Giết người vì tưởng hiếp dâm; Vụ cướp bánh mỳ bị truy tố; Gia đình Minh Béo không phải trả tiền bảo lãnh 100.000 USD; Vụ trộm ô tô vàng chấn động Hà Nội; Dã tâm 'chiều chồng' lúc nửa đêm của người đàn bà ngoại tình; Giả hotgirl khoe thân qua mạng, lừa tiền người háo sắc;....là những tin đáng chú ý.

  • Toan canh kinh te tuan 2205 28052016
    Toàn cảnh kinh tế tuần (22/05- 28/05/2016)

    Chuyến thăm của Tổng thống Mỹ mang lại hiệu ứng lâu dài cho DN Việt; CPI tháng 5 tăng 0,54%, cao nhất trong 5 năm qua; Chính thức mở lại cho vay ngoại tệ từ 1/6; dự án sống lay lắt vì nhà thầu Trung Quốc chậm tiến độ;Tổng số tiền nợ thuế cả nước đã lên ngưỡng 76.000 tỷ đồng... Cùng với đó là những thông tin tài chính- ngân hàng,

  • Nghin le chuyen tuan qua 1505 21052016
    Nghìn lẻ chuyện tuần qua 15/05 - 21/05/2016

    Bố vợ chém chết con rể rồi chở xác đến Công an đầu thú; Ông Tây dọn cống thối ở Nguyễn Khang, Hà Nội; Choáng với hóa đơn tiền nước khủng ở Hà Nội; Cá chết ngửa bụng trên kênh Nhiêu Lộc ... là những tin tức xã hội nổi bật được dư luận quan tâm trong tuần qua.