Thứ sáu, 25 Tháng mười hai 2009, 15:12 GMT+7

VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh”

Sau nhiều lần nâng cấp, phiên bản mới của VietOCR đã có thêm nhiều tính năng đáng giá như: hỗ trợ chế độ quét tích hợp, nhận dạng ký tự tiếng Việt trên nhiều dạng ảnh (bmp, jpg, tiff, png), hỗ trợ các tài liệu ảnh nhiều trang và cơ chế xử lý hậu kỳ, giúp khắc phục một số lỗi về ngữ nghĩa, chính tả sau khi xử lý. Đặc biệt chương trình hoàn toàn miễn phí.

Dung lượng: 4,2MB.
Tải tại: http://websitetinhoc.com (miễn phí).

Mô tả ảnh.
Nguồn: Diendantinhoc
So với một số phần mềm nhận dạng văn bản tiếng Việt như: VnDOCR, VietOCR thuộc vào hàng “ngon, bổ” và miễn phí. Tốc độ biên dịch nội dung nhanh, giao diện đơn giản, dễ sử dụng và mức độ chính xác có thể đạt hơn 80%.

VietOCR bao gồm hai phiên bản: phiên bản GUI Form chạy trên Windows (hỗ trợ cả 32/64bit) và phiên bản Swing GUI (sử dụng Java) có thể hoạt động trên nhiều hệ điều hành khác nhau như: Windows, Linux,…

VietOCR có thể sử dụng như một trình nhận dạng ký tự quang học độc lập (xử lý các file ảnh, dữ liệu sẵn có) hoặc kết hợp với chức năng quét để xử lý các tài liệu được nạp từ bên ngoài.

Thao tác xử lý văn bản được chia thành các loại:

1. Nhận dạng tài liệu ảnh:

Thông thường khi quét xong một tài liệu văn bản, file thu được sẽ được lưu dưới dạng một tài liệu ảnh và không thể xử lý (xoá text, nhập liệu, chỉnh sửa nội dung,…) như ban đầu. VietOCR sẽ có nhiệm vụ chuyển đổi các tài liệu này sang văn bản để bạn có thể xử lý dễ dàng. VietOCR hỗ trợ khá nhiều định dạng ảnh như: jpg, bmp, png, tiff, tuy nhiên không hỗ trợ định dạng gif.

Để sử dụng chương trình, bạn cần cài đặt thêm gói Visual C++ 2008 SP1 (nếu gói này chưa được cài đặt vào hệ thống), sau đó truy cập menu File > Open, trong phần File of types bạn chọn là All Image Files và nạp vào file văn bản cần xử lý. Xong, nhấn nút Open.

Tiếp đến, trên giao diện chính, bạn sẽ nhìn thấy hai khu vực: khu vực nằm bên trái chứa nội dung của file tài liệu vừa mới thêm vào, khung bên phải sẽ là tài liệu sau khi trích xuất từ file ảnh. Khi phần nội dung đã được nạp xong, bạn nhấn đề mục OCR Language (góc trên bên phải màn hình) và chọn Vietnamese. Sau đó, nhấn nút OCR để bắt đầu quá trình biên dịch nội dung, tốc độ nhanh hay chậm còn tùy thuộc vào độ dài, ngắn của văn bản và tốc độ xử lý của máy tính.

Sau khi biên dịch xong, bạn sẽ có ngay phần dữ liệu dạng text, có thể xoá hay thay đổi một cách dễ dàng. Một điểm hay của VietOCR, đó là khả năng tích hợp bộ gõ tiếng Việt (hoạt động dựa trên bộ gõ Unikey), cho phép bạn dễ dàng thay đổi nội dung văn bản có dấu mà không cần bộ gõ Unikey thường trực nơi khay hệ thống. Để định bộ gõ trong VietOCR, bạn truy cập menu Settings > Viet Input Method và chọn một trong các kiểu gõ: VNI, Telex, VIQR với Font mặc định là Unicode được tích hợp sẵn.

Trường hợp chỉ muốn nhận dạng riêng một khu vực nào đó, bạn giữ trái chuột và rê vào vùng văn bản mà bạn muốn trích xuất. Khi đó, chỉ nội dung của vùng này sẽ được hiển thị bên khung phải màn hình. Nếu muốn biên dịch tài liệu nhiều trang, bạn truy cập menu Command > OCR All Pages.

Để “thử” kiểm tra khả năng nhận diện văn bản của chương trình trên các định dạng khác nhau, người viết đã sử dụng thư viện mẫu văn bản có sẵn (C:Program FilesVietUnicodeVietOCR.NETsamples) và dùng chương trình MS Paint của Windows để lưu lại thành các định dạng khác nhau như: PNG, JPG và BMP (256 bit) từ file gốc có định dạng .TIFF

Kết quả, cả ba trường hợp đều nhận dạng được văn bản khá chuẩn xác. Tuy nhiên một số dấu câu chưa đúng và một vài từ vẫn còn sai chính tả, không rõ nghĩa nhưng mức độ biên dịch so với bản gốc là khá chuẩn.

2. Cài đặt máy quét:

Nếu nhu cầu của bạn là xử lý các tài liệu bên ngoài thông qua hệ thống quét của chương trình, nhất thiết bạn phải cài đặt thêm máy quét. Để làm việc này, bạn truy cập vào thư mục cài đặt của VietOCR, tìm và sao chép file WIAAut.dll (C:Program FilesVietUnicodeVietOCR.NET) vào thư mục C:WindowsSystem32.

Sau đó, bạn vào Start > Run, gõ lệnh regsvr32 C:WindowsSystem32WIAAut.dll để đăng ký thư viện này với Windows. Khi đăng ký xong, bạn cài driver cho máy quét và bắt đầu tiến trình xử lý văn bản như trên.

Lưu ý:

Trong quá trình biên dịch, đôi lúc bạn sẽ gặp phải thông báo lỗi Attemp to read or write protected memory, một trong những nguyên nhân gây ra lỗi này là do văn bản đã định sai hướng (lệch hướng đi, thay vì nằm ngang, văn bản đã chuyển sang hướng đứng), bạn chỉ việc nhấn nút Rotate vài lần cho đúng hướng là xong.

Nếu không có máy quét và bạn vẫn muốn “trải nghiệm” tính năng của phần mềm, bạn có thể tải tiện ích ImagePrinter, giúp bạn chuyển đổi bất kỳ tài liệu nào sang bốn định dạng hỗ trợ sẵn của chương trình (bmp, png, tiff, jpg). Trường hợp nếu muốn chuyển giao diện chương trình sang tiếng Việt, bạn truy cập menu Settings > User Interface Language, chọn Vietnamese.

Cũng tương tự quá trình nhận dạng tài liệu ảnh ở trên, trong trường hợp này tài liệu quét sẽ được chia thành hai dạng để kiểm tra: dạng văn bản thuần (text) và văn bản kèm hình ảnh. Quá trình xử lý và biên dịch được thực hiện như bước 1. Kết quả chương trình nhận dạng tốt với các văn bản thuần và gặp phải tình trạng lỗi OCR Operation với các tài liệu có kèm hình ảnh. Việc thực hiện này cũng xảy ra với các định dạng khác.

Một điều lưu ý với các bạn, để quá trình nhận dạng ảnh được chính xác, độ phân giải của bản quét phải đạt chuẩn 300dpi, không mờ, càng sạch và rõ càng tốt.

3. Xử lý tài liệu PDF:

Ngoài khả năng nhận dạng các tài liệu ảnh, VietOCR còn có khả năng xử lý các tài liệu PDF. Để có thể sử dụng được tính năng này trong VietOCR, bạn cần cài đặt thêm gói GPL GhostScript 8.7. Sau khi cài xong, bạn thực hiện việc xử lý tương tự các bước trên (với các tài liệu PDF có chứa hình ảnh, kết quả vẫn bị lỗi như trường hợp hai).

Nhìn chung, VietOCR có khả năng xử lý văn bản tiếng Việt tốt, độ chính xác khá cao và tương thích với nhiều định dạng ảnh khác nhau trong điều kiện văn bản thuần (không chứa hình ảnh), bạn có thể dùng văn bản sau khi xử lý để phục vụ cho công việc mà không phải tốn thời gian chỉnh sửa nhiều.

Theo Huy Trần/Echíp

Việt Báo

TIN Công Nghệ NỔI BẬT

Hướng dẫn bảo vệ smartphone Android khi bị thất lạc

Tình trạng mất điện thoại hoặc bị quên ở đâu đó thực sự là ác mộng với người dùng. Google đã cung cấp một số giải pháp để tìm thiết bị hoặc ít nhất xóa tất cả các dữ liệu và nội dung riêng trên những chiếc smartphone cài hệ điều hành Android của họ.

Tổng hợp những biện pháp tăng tốc iPhone iOS 8 cực hiệu quả

Chắc cũng không cần phải nói gì nhiều khi nhắc đến iPhone hiện nay. Đây là sản phẩm đẳng cấp và được đánh giá cao về hiêu năng. Tuy nhiên, bên cạnh những ưu điểm không thể so sánh thì bên cạnh đó vẫn có những nhược điểm xuất hiện, nhất là đối với những điện thoại đã qua một thời gian sử dụng. Đôi lúc bạn sẽ nhận thấy điện thoại của mình hoạt động chậm đi. Ng

3 kỳ vọng lớn từ Google trong năm 2015

Trong năm 2014, công cụ tìm kiếm của Google vẫn tiếp tục chiếm lĩnh ngôi đầu ở thị trường thế giới. Chỉ tính riêng ở Mỹ, công ty đã có được 67% thị phần tìm kiếm trên máy tính. Còn ở thị trường toàn cầu, Google nổi danh là một doanh nghiệp với 50 tỷ USD doanh thu mỗi năm.

Chơi điện tử trên mạng phải cung cấp thông tin cá nhân

Người sử dụng dịch vụ trò chơi điện tử trực tuyến phải cung cấp những thông tin cá nhân như: Họ và tên; ngày, tháng, năm sinh; địa chỉ đăng ký thường trú; số Chứng minh nhân dân...

Nhận xét tin VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh”

Ý kiến bạn đọc

Viết phản hồi

Bạn có thể gửi nhận xét, góp ý hay liên hệ về bài viết VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh” bằng cách gửi thư điện tử tới Lien He Bao Viet Nam. Xin bao gồm tên bài viết VietOCR 15 Nhan dang ky tu tieng Viet chuan khong can chinh ở dạng tiếng Việt không dấu. Hoặc VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh” ở dạng có dấu. Bài viết trong chuyên đề Tin Tổng Hợp của chuyên mục Công Nghệ.

VietOCR 1.5: Vietnamese Character Recognition "standard without adjustment"
character recognition, text processing, document images, plain text, the new version, Vietnamese, programs and formats , can, compile, after, you, the, scan, file

New version of VietOCR more valuable features such as Vietnamese character recognition on many image formats, fix-# 160; semantics, spelling after treatment ....

CÓ THỂ BẠN QUAN TÂM
Xem tiếp: Công Nghệ


  • Thoi su 24h2301 Tang luong huu va tro cap them 8
    Thời sự 24h(23/01): Tăng lương hưu và trợ cấp thêm 8%

    Tăng lương hưu và trợ cấp thêm 8%; Bộ GTVT lên tiếng về vụ Cục trưởng Đường sắt chết tại trụ sở; Bắt ông chủ tạp chí cầm đầu đường dây đánh bạc ngàn tỷ; Hàng tấn mỹ phẩm không nguồn gốc "tràn" vào HN; Làm rõ vụ 12 con dê ‘lạc’ vào trang trại Bí thư huyện... là những thông tin thời sự nổi bật trong ngày 23/1.

  • Thoi su 24h2201 Cuc truong Duong sat chet tai tru so
    Thời sự 24h(22/01): Cục trưởng Đường sắt chết tại trụ sở

    Cục trưởng Đường sắt VN được phát hiện chết tại phòng làm việc, "Nữ quái" đất Cảng phẫu thuật mặt trốn nã 10 năm; Thưởng Tết thấp nhất là 30 ngàn đồng; Nữ du khách nước ngoài đến Hà Nội đã bị cướp; Bắt nghi phạm vụ hiếp dâm, giết bé gái bịt đầu mối; Giữ lại táo nhập từ Mỹ, cấm bán ra thị trường... là những thông tin thời sự nổi bật trong ngày.

  • Thoi su 24h2101 Xang giam toi 1900 donglit
    Thời sự 24h(21/01): Xăng giảm tới 1.900 đồng/lít

    Thiếu nữ bị kéo lê nửa cây số dưới gầm xe 7 chỗ; 3 công nhân tử vong tại công trường thủy điện; Vụ án tham ô hơn 10 năm chưa xử xong; Hoãn tăng thuế, xăng giảm tới 1.900 đồng/lít; Ô tô lao vun vút ngược chiều trên cầu Nhật Tân; Nữ giáo viên tống tiền giám đốc trường quốc tế... là những thông tin thời sự nổi bật trong ngày 21/1.

  • Thoi su 24h2001 Bi an ho chon hai cot tap the
    Thời sự 24h(20/01): Bí ẩn hố chôn hài cốt tập thể

    Lửa hàn bắn tung tóe tại dự án đường sắt trên cao; Trùm ma túy lĩnh án tử, tiến sĩ luật ốm nặng không phải ra tòa; Má mì xinh đẹp và 2 đại gia bị bắt quả tang mua dâm; Sự ma mãnh của Abbott khi ghi nhãn sữa kỳ thị; Đôi vợ chồng làm giả chữ ký nhiều vị lãnh đạo... là những thông tin thời sự nổi bật trong ngày 20/1.

  • Thoi su trong ngay Phat VTV 40 trieu vi Dieu uoc thu 7
    Thời sự trong ngày: Phạt VTV 40 triệu vì "Điều ước thứ 7"

    Thêm một lý do khiến "dự án đất vàng" chậm tiến độ; Xử phạt VTV 40 triệu đồng vì sai phạm của Điều ước thứ 7; Công dân bị tù oan được bồi thường gần 300 triệu; Xe đưa đón học sinh phát cháy trên phố... là những thông tin thời sự nổi bật trong ngày 19/1.

  • Benh vien cam ket khong nam ghep
    Bệnh viện cam kết không nằm ghép

    Lần đầu tiên 13 bệnh viện trung ương ký cam kết chấm dứt tình trạng bệnh nhân nằm ghép, đảm bảo 1 bệnh nhân/giường bệnh. Tuy nhiên xung quanh cam kết này vẫn còn nhiều băn khoăn.

  • Tao My gay chet nguoi da ve Viet Nam
    Táo Mỹ gây chết người đã về Việt Nam?

    Loại vi khuẩn nguy hiểm nhiễm trong táo Mỹ có thể nhiễm trong nhiều loại thực phẩm quan trọng thường xuất hiện trong bữa ăn hàng ngày. ------------ Xem thêm: Táo Mỹ gây chết người đã về Việt Nam?, http://vietbao.vn/tp/Tao-My-gay-chet-nguoi-da-ve-Viet-Nam/7063625/ Tin nhanh Việt Nam ra thế giới vietbao.vn

  • Tinh hinh buon lau dien bien phuc tap
    Tình hình buôn lậu diễn biến phức tạp

    Thời điểm gần Tết Nguyên đán hàng năm luôn là thời điểm nhạy cảm, cao điểm của nạn buôn lậu

  • Danh hai Thuy Nga to chong no nan lua gat
    Danh hài Thúy Nga tố chồng nợ nần, lừa gạt

    Mấy ngày vừa qua, những trang nhật ký của danh hài Thúy Nga chia sẻ chuyện cô bị “chồng hờ” lừa lấy 350.000 USD rồi bỏ trốn và lấy danh nghĩa của cô để lừa đảo rất nhiều người đã làm dấy lên rất nhiều luồng ý kiến. Giới..

  • Thong diep Lien bang My nam 2015
    Thông điệp Liên bang Mỹ năm 2015

    Tổng thống Mỹ nói về trang hoàng kim mới của lịch sử nước Mỹ nơi họ sẽ cùng đồng minh sống vững mạnh. Và Nga sẽ lụi tàn trong sự cô lập? ------------ Xem thêm: Thông điệp Liên bang Mỹ năm 2015, http://vietbao.vn/tp/Thong-diep-Lien-bang-My-nam-2015/7048259/ Tin nhanh Việt Nam ra thế giới vietbao.vn