Thứ sáu, 25 Tháng mười hai 2009, 15:12 GMT+7

VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh”

Sau nhiều lần nâng cấp, phiên bản mới của VietOCR đã có thêm nhiều tính năng đáng giá như: hỗ trợ chế độ quét tích hợp, nhận dạng ký tự tiếng Việt trên nhiều dạng ảnh (bmp, jpg, tiff, png), hỗ trợ các tài liệu ảnh nhiều trang và cơ chế xử lý hậu kỳ, giúp khắc phục một số lỗi về ngữ nghĩa, chính tả sau khi xử lý. Đặc biệt chương trình hoàn toàn miễn phí.

Dung lượng: 4,2MB.
Tải tại: http://websitetinhoc.com (miễn phí).

Mô tả ảnh.
Nguồn: Diendantinhoc
So với một số phần mềm nhận dạng văn bản tiếng Việt như: VnDOCR, VietOCR thuộc vào hàng “ngon, bổ” và miễn phí. Tốc độ biên dịch nội dung nhanh, giao diện đơn giản, dễ sử dụng và mức độ chính xác có thể đạt hơn 80%.

VietOCR bao gồm hai phiên bản: phiên bản GUI Form chạy trên Windows (hỗ trợ cả 32/64bit) và phiên bản Swing GUI (sử dụng Java) có thể hoạt động trên nhiều hệ điều hành khác nhau như: Windows, Linux,…

VietOCR có thể sử dụng như một trình nhận dạng ký tự quang học độc lập (xử lý các file ảnh, dữ liệu sẵn có) hoặc kết hợp với chức năng quét để xử lý các tài liệu được nạp từ bên ngoài.

Thao tác xử lý văn bản được chia thành các loại:

1. Nhận dạng tài liệu ảnh:

Thông thường khi quét xong một tài liệu văn bản, file thu được sẽ được lưu dưới dạng một tài liệu ảnh và không thể xử lý (xoá text, nhập liệu, chỉnh sửa nội dung,…) như ban đầu. VietOCR sẽ có nhiệm vụ chuyển đổi các tài liệu này sang văn bản để bạn có thể xử lý dễ dàng. VietOCR hỗ trợ khá nhiều định dạng ảnh như: jpg, bmp, png, tiff, tuy nhiên không hỗ trợ định dạng gif.

Để sử dụng chương trình, bạn cần cài đặt thêm gói Visual C++ 2008 SP1 (nếu gói này chưa được cài đặt vào hệ thống), sau đó truy cập menu File > Open, trong phần File of types bạn chọn là All Image Files và nạp vào file văn bản cần xử lý. Xong, nhấn nút Open.

Tiếp đến, trên giao diện chính, bạn sẽ nhìn thấy hai khu vực: khu vực nằm bên trái chứa nội dung của file tài liệu vừa mới thêm vào, khung bên phải sẽ là tài liệu sau khi trích xuất từ file ảnh. Khi phần nội dung đã được nạp xong, bạn nhấn đề mục OCR Language (góc trên bên phải màn hình) và chọn Vietnamese. Sau đó, nhấn nút OCR để bắt đầu quá trình biên dịch nội dung, tốc độ nhanh hay chậm còn tùy thuộc vào độ dài, ngắn của văn bản và tốc độ xử lý của máy tính.

Sau khi biên dịch xong, bạn sẽ có ngay phần dữ liệu dạng text, có thể xoá hay thay đổi một cách dễ dàng. Một điểm hay của VietOCR, đó là khả năng tích hợp bộ gõ tiếng Việt (hoạt động dựa trên bộ gõ Unikey), cho phép bạn dễ dàng thay đổi nội dung văn bản có dấu mà không cần bộ gõ Unikey thường trực nơi khay hệ thống. Để định bộ gõ trong VietOCR, bạn truy cập menu Settings > Viet Input Method và chọn một trong các kiểu gõ: VNI, Telex, VIQR với Font mặc định là Unicode được tích hợp sẵn.

Trường hợp chỉ muốn nhận dạng riêng một khu vực nào đó, bạn giữ trái chuột và rê vào vùng văn bản mà bạn muốn trích xuất. Khi đó, chỉ nội dung của vùng này sẽ được hiển thị bên khung phải màn hình. Nếu muốn biên dịch tài liệu nhiều trang, bạn truy cập menu Command > OCR All Pages.

Để “thử” kiểm tra khả năng nhận diện văn bản của chương trình trên các định dạng khác nhau, người viết đã sử dụng thư viện mẫu văn bản có sẵn (C:Program FilesVietUnicodeVietOCR.NETsamples) và dùng chương trình MS Paint của Windows để lưu lại thành các định dạng khác nhau như: PNG, JPG và BMP (256 bit) từ file gốc có định dạng .TIFF

Kết quả, cả ba trường hợp đều nhận dạng được văn bản khá chuẩn xác. Tuy nhiên một số dấu câu chưa đúng và một vài từ vẫn còn sai chính tả, không rõ nghĩa nhưng mức độ biên dịch so với bản gốc là khá chuẩn.

2. Cài đặt máy quét:

Nếu nhu cầu của bạn là xử lý các tài liệu bên ngoài thông qua hệ thống quét của chương trình, nhất thiết bạn phải cài đặt thêm máy quét. Để làm việc này, bạn truy cập vào thư mục cài đặt của VietOCR, tìm và sao chép file WIAAut.dll (C:Program FilesVietUnicodeVietOCR.NET) vào thư mục C:WindowsSystem32.

Sau đó, bạn vào Start > Run, gõ lệnh regsvr32 C:WindowsSystem32WIAAut.dll để đăng ký thư viện này với Windows. Khi đăng ký xong, bạn cài driver cho máy quét và bắt đầu tiến trình xử lý văn bản như trên.

Lưu ý:

Trong quá trình biên dịch, đôi lúc bạn sẽ gặp phải thông báo lỗi Attemp to read or write protected memory, một trong những nguyên nhân gây ra lỗi này là do văn bản đã định sai hướng (lệch hướng đi, thay vì nằm ngang, văn bản đã chuyển sang hướng đứng), bạn chỉ việc nhấn nút Rotate vài lần cho đúng hướng là xong.

Nếu không có máy quét và bạn vẫn muốn “trải nghiệm” tính năng của phần mềm, bạn có thể tải tiện ích ImagePrinter, giúp bạn chuyển đổi bất kỳ tài liệu nào sang bốn định dạng hỗ trợ sẵn của chương trình (bmp, png, tiff, jpg). Trường hợp nếu muốn chuyển giao diện chương trình sang tiếng Việt, bạn truy cập menu Settings > User Interface Language, chọn Vietnamese.

Cũng tương tự quá trình nhận dạng tài liệu ảnh ở trên, trong trường hợp này tài liệu quét sẽ được chia thành hai dạng để kiểm tra: dạng văn bản thuần (text) và văn bản kèm hình ảnh. Quá trình xử lý và biên dịch được thực hiện như bước 1. Kết quả chương trình nhận dạng tốt với các văn bản thuần và gặp phải tình trạng lỗi OCR Operation với các tài liệu có kèm hình ảnh. Việc thực hiện này cũng xảy ra với các định dạng khác.

Một điều lưu ý với các bạn, để quá trình nhận dạng ảnh được chính xác, độ phân giải của bản quét phải đạt chuẩn 300dpi, không mờ, càng sạch và rõ càng tốt.

3. Xử lý tài liệu PDF:

Ngoài khả năng nhận dạng các tài liệu ảnh, VietOCR còn có khả năng xử lý các tài liệu PDF. Để có thể sử dụng được tính năng này trong VietOCR, bạn cần cài đặt thêm gói GPL GhostScript 8.7. Sau khi cài xong, bạn thực hiện việc xử lý tương tự các bước trên (với các tài liệu PDF có chứa hình ảnh, kết quả vẫn bị lỗi như trường hợp hai).

Nhìn chung, VietOCR có khả năng xử lý văn bản tiếng Việt tốt, độ chính xác khá cao và tương thích với nhiều định dạng ảnh khác nhau trong điều kiện văn bản thuần (không chứa hình ảnh), bạn có thể dùng văn bản sau khi xử lý để phục vụ cho công việc mà không phải tốn thời gian chỉnh sửa nhiều.

Theo Huy Trần/Echíp

Việt Báo

TIN Công Nghệ NỔI BẬT

Hướng dẫn cập nhật iOS 8.1.2 thành công mỹ mãn

Bản cập nhật nhỏ iOS 8.1.2 giúp khắc phục một số những vấn đề lớn làm ảnh hưởng đến người dùng mua nhạc chuông từ iTunes nhưng không sử dụng được khi người dùng thay đổi thiết bị sử dụng. Sau khi cập nhật lên iOS 8.1.2, người dùng iPhone nhận thấy nhạc chuông đã mua từ iTunes được khôi phục vào thiết bị của họ. Trước đó, nhiều người dùng đã phàn nàn về lỗi n

Bản cập nhật Windows Phone 8.1 sẽ có những thay đổi lớn

Người dùng Windows Phone có thể sẽ được đón nhận những thay đổi lớn trong bản cập nhật Windows Phone 8.1 tới đây. Tính năng tiết kiệm pin Battery Saver sẽ được nhà phát triển tích hợp thêm khả năng hiển thị “Live Tiles” thời gian thực, với tính năng này, khả năng quản lý pin trên thiết bị của người dùng chắc chắn sẽ tốt hơn rất nhiều.

Năm 2014, người Việt tìm giá vàng, iPhone nhiều nhất

Google vừa công bố danh sách từ khóa và xu hướng tìm kiếm nhiều nhất năm 2014, trong đó có Việt Nam. Các từ khóa "giá vàng", "iPhone", "Doraemon", "Phương Mỹ Chi" vẫn giữ vị trí vững chắc trong bảng xếp hạng.

Nhận xét tin VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh”

Ý kiến bạn đọc

Viết phản hồi

Bạn có thể gửi nhận xét, góp ý hay liên hệ về bài viết VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh” bằng cách gửi thư điện tử tới Lien He Bao Viet Nam. Xin bao gồm tên bài viết VietOCR 15 Nhan dang ky tu tieng Viet chuan khong can chinh ở dạng tiếng Việt không dấu. Hoặc VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh” ở dạng có dấu. Bài viết trong chuyên đề Tin Tổng Hợp của chuyên mục Công Nghệ.

VietOCR 1.5: Vietnamese Character Recognition "standard without adjustment"
character recognition, text processing, document images, plain text, the new version, Vietnamese, programs and formats , can, compile, after, you, the, scan, file

New version of VietOCR more valuable features such as Vietnamese character recognition on many image formats, fix-# 160; semantics, spelling after treatment ....

CÓ THỂ BẠN QUAN TÂM
Xem tiếp: Công Nghệ


  • Thoi su tuan qua 3 vu tai nan kinh hoang
    Thời sự tuần qua: 3 vụ tai nạn kinh hoàng

    Ông Trần Văn Truyền trả đất; Y án 30 năm với bầu Kiên; Xét xử Huyền Như; Sập hầm thủy điện, 12 công nhân mắc kẹt; Tai nạn thảm khốc tại Quảng Ninh, 6 người chết; Sa Pa lạnh 0 độ; 1.000 xe TQ muốn vào du lịch...

  • Thoi su 24h2012 Chong nhan tam giet vo moi cuoi
    Thời sự 24h(20/12): Chồng nhẫn tâm giết vợ mới cưới

    Các diễn biến quanh vụ sập hầm thủy điện Đạ Dâng; Phong hàm Thượng tướng cho 4 sĩ quan quân đội; Miền Bắc lại đón không khí lạnh; Hà Nội: Chồng 9X nhẫn tâm đánh chết vợ;... là những thông tin thời sự đáng chú ý ngày 20/12.  

  • Thoi su 24h1812 Thang 72015 to chuc thi quoc gia
    Thời sự 24h(18/12): Tháng 7/2015 tổ chức thi quốc gia

    Tháng 7/2015 tổ chức thi THPT quốc gia; Đào cùng lúc 2 đường hầm cứu nạn; Lý giải máy bay Vietnam Airlines gặp sự cố; Sa Pa lạnh 0 độ, phủ trắng sương muối; Xe điên náo loạn là những thông tin thời sự nổi bật trong ngày 18/12...

  • Thoi su 24h1712 Xe o to roi vuc sau 5 quan nhan tu vong
    Thời sự 24h(17/12): Xe ô tô rơi vực sâu, 5 quân nhân tử vong

    Khoan hầm giải cứu 12 công nhân mắc kẹt; Xe ô tô rơi vực sâu, 5 quân nhân tử vong; Mở hộp đen tìm nguyên nhân máy bay hạ cánh khẩn cấp;Sa Pa rét 2 độ, có thể xuất hiện băng giá; Kho tiền 6 tấn của tay chơi Bắc Ninh... là những thông tin thời sự nổi bật trong ngày 17/12.

  • Thoi su 24h1612 Tai nan kinh hoang o Quang Ninh
    Thời sự 24h(16/12): Tai nạn kinh hoàng ở Quảng Ninh

    Sập hầm thủy điện, 11 người mắc kẹt; Tai nạn kinh hoàng ở Móng Cái, 6 người chết; Phó chủ tịch bị tố đánh dân giữa chợ; Đắm thuyền ở Thái Bình, 6 người chết; Bán sắt vụn chiếc máy bay bỏ quên 7 năm ở Nội Bài... là những thông tin thời sự nổi bật trong ngày 16/12.

  • Sap ham thuy dien Da Dang
    Sập hầm thủy điện Đạ Dâng

    Sau bao nỗ lực, bất chấp nguy hiểm của gần 1.000 người tham gia cứu hộ suốt 4 ngày qua, 12 nạn nhân mắc kẹt trong vụ sập hầm thủy điện đã được đưa ra ngoài an toàn.

  • EVN sap tang gia dien
    EVN sắp tăng giá điện?

    Đề xuất tăng giá điện của Tập đoàn Điện lực Việt Nam (EVN) khi năm hết Tết đến đang nhận được những ý kiến trái chiều. Trong khi nhiều người tỏ ra lo lắng, vẫn có ý kiến cho rằng, tăng giá điện vào thời điểm này là hợp lý.

  • Chuong trinh Guong mat than quen nhi 2014
    Chương trình Gương mặt thân quen nhí 2014

    Cặp đôi ngoại quốc Kyo York và Uyên Nhi đã xuất sắc trở thành Quán quân mùa đầu tiên của "Gương mặt thân quen nhí".

  • Nhung chuyen hy huu o chon phap dinh
    Những chuyện hy hữu ở chốn pháp đình

    Trả giá sau 2 thập kỷ vì ép thiếu nữ cởi áo; rắn tấn công bị cáo khiến phiên xử náo loạn; chị dâu xin ly hôn em chồng... là những cảnh diễn ra ở chốn pháp đình năm 2014.

  • Facebook nam 2014 The gioi hai mat cam bay
    Facebook năm 2014: Thế giới hai mặt cạm bẫy

    Việt Nam đang là một trong những nước có số lượng người truy cập Facebook thuộc hàng 'khủng' trên thế giới.

  • Toan canh kinh te tuan 1412 20122014
    Toàn cảnh kinh tế tuần (14/12 - 20/12/2014)

    Giá xăng thế giới giảm mạnh, vậy mà PVoil vẫn than lỗ và đề nghị tăng thuế nhập khẩu xăng dầu, để cần tiền trả nợ EVN có thể tăng giá điện thêm 9,5%, lên mức 1.652,19 đồng/kWh, tới đây NHNN sẽ siết cho vay ngoại tệ nhằm hạn chế tình trạng đô la hóa, TTCK tuần qua đã có những phiên chọc thủng đáy, cùng với đó là những thông tin thị trường tiêu dùng là những t

  • Tin Bong daThe thao noi bat tuan qua 14122012
    Tin Bóng đá-Thể thao nổi bật tuần qua (14/12-20/12)

    Diễn biến mới nhất vụ thủ môn Bửu Ngọc kiện CLB Đồng Tháp; ĐT Việt Nam hậu AFF Cup: Khủng hoảng niềm tin, cầu thủ chán lên tuyển; Chung kết lượt đi AFF Cup: Thái Lan chạm tay vào cúp vô địch; Kết quả bốc thăm vòng 1/8 Champions League; Tổng hợp bóng đá cuối tuần...là những tin tức Bóng đá-Thể thao nổi bật trong tuần.

  • Toan canh Showbiz tuan 1412 2012
    Toàn cảnh Showbiz tuần (14/12 – 20/12)

    Nguyễn Thị Loan lọt top 25 Miss World 2014, Người đẹp Nam Phi đăng quang Hoa hậu Thế giới 2014, Đám cưới ngọt ngào của Huyền Lizzie, Nhật Kim Anh, Sơn Tùng M-Tp là mỹ nam của năm, Hollywood lại chấn động vì bị tin tặc tấn công, Jennifer Lawrence được tìm nhiều nhất trên Google năm 2014,...

  • Ban tin suc khoe tuan tu 142012
    Bản tin sức khỏe tuần (từ 14-20/12)

    Vụ sản phụ băng huyết tử vong: Gia đình yêu cầu bệnh viện bồi thường 1,5 tỷ đồng; 7 nguyên nhân hàng đầu gây bệnh ung thư năm 2014; Những loại vắc-xin cần tiêm cho trẻ sơ sinh; Ấn tượng những xu hướng bầu bí hot nhất năm 2014;10 điều tiếp tục diễn ra trên cơ thể người chết; Tôm khô cao su được sản xuất thế nào?... là những tin sức khỏe nổi bật tuần qua.

  • Tin An ninh Phap luat tuan qua 1412 2012
    Tin An ninh - Pháp luật tuần qua (14/12 - 20/12)

    Những chuyện hy hữu ở chốn pháp đình; Đằng sau những vụ án chồng giết vợ; 5 vụ án hình sự nhiều người quan tâm năm 2014; Những lời cuối cùng nổi tiếng của tử tù trước giờ trả án; Lĩnh án 30 năm tù - vĩ thanh buồn cho “bầu” Kiên; Nhìn lại 4 vụ án oan 'tốn giấy mực' trong năm 2014;.......là những tin đáng chú ý trong tuần.