Sử dụng tesseract ocr là gì, nhận diện văn bản bằng tesseract

      154

Xin kính chào chúng ta, cảm ơn các bạn đang quyên tâm và trở về Blog Mì AI. Hôm ni để tiếp tục chuỗi bài về Computer Vision mình xin guide mang đến chúng ta một bài xích dễ dàng , theo đúng phong cách Mì AI về vụ việc Nhận dạng Tiếng Việt, dìm dạng vnạp năng lượng phiên bản (Optical Charactor Recognition) nhé.

Bạn đang xem: Sử dụng tesseract ocr là gì, nhận diện văn bản bằng tesseract

Đang xem: Tesseract ocr là gì

Về giải pháp thừa nhận dạng văn uống bản thì có tương đối nhiều bí quyết tiếp cận lắm luôn, một số cách mà lại bản thân biết như sau:

Sử dụng Tesseract OCRTrain model bởi CNN + SVMTrain Mã Sản Phẩm CNN – RNN – CTC….

Mỗi loại lại có loại xuất xắc, cái dsinh sống riêng cùng thưởng thức kỹ năng thiết kế khác nhau. Hôm nay mình đã share cùng với các bạn phương pháp dùng Tesseract OCR đến đơn giản nhé. Hiện Tess đã bao gồm đến phiên bản 4.0 phải cần sử dụng tương đối ổn cho các nhu yếu thông thường (chữ viết tay là chịu đựng nhé).

Thôi, bắt đầu ngay cho rét nhé!

Nhỏng thường lệ, mình xin trình diễn trước cấu tạo nội dung bài viết nhằm chúng ta gồm tầm nhìn tổng quan tiền. Bài viết sẽ tất cả các phần

Phần 1. Chuẩn bị môi trường xung quanh, setup thỏng viện Tesseract OCRPhần 2. Cấu hình với thêm ngôn ngữ giờ ViệtPhần 3. Viết code dấn dạng với tận hưởng

Phần 1. Chuẩn bị môi trường

Nlỗi thường xuyên lệ chúng ta hãy chế tạo 1 thử mục gocnhintangphat.com_Tess_OCR lưu vào ở đâu đó bên trên ổ cứng nhé. Bây giờ đồng hồ các bạn thiết lập Tesseract OCR theo cách sau, tùy theo các bạn dùng OS gì (mình không recommend window nhé, dù vẫn chạy).

Với các bạn sử dụng MacOS: Chúng ta đã cài đặt bởi dụng cụ Homebrew nhé. Các chúng ta gõ lệnh sau:

brew install tesseract

Sau Khi gõ xong các bạn hóng chạy lệnh không còn là thành công!

*

Với chúng ta cần sử dụng Linux: Các bạn áp dụng apt-get nlỗi sau:

suvì apt-get install tesseract-ocr

Sau đó cũng ngồi đợi chờ cho nó chạy hết lệnh là okie.

*

Với chúng ta sử dụng Window: Thì cái này mình ko tải test bao giờ yêu cầu chúng ta theo guide của Tesseract. Tóm lại là các bạn thiết lập file setup trên phía trên https://github.com/UB-Mannheim/tesseract/wiki (ghi nhớ chọn bạn dạng 32bit cùng 64 bit phù hợp với window của bạn).

*

Okie rồi, sau thời điểm cài đặt kết thúc, các chúng ta cũng có thể kiểm soát việc làm thiết lập xem sẽ thành công xuất sắc không bằng phương pháp gõ lệnh:

tesseract -v

Nếu nhỏng screen hiện ra thông báo phiên phiên bản nhỏng hình họa bên dưới cho nên bạn vẫn cài đặt thành công xuất sắc.

*

Còn nếu như nhỏng báo lỗi dạng “comm& not found” hoặc “is not recognize” thì các bạn restart lại sản phẩm hoặc đặt PATH mang đến cân xứng nhé (tính năng này tùy OS). quý khách hàng nào buộc phải thì bình luận bản thân vẫn guide thêm.

Xem thêm: Tuổi Thìn Là Con Gì ? Người Tuổi Thìn Sinh Năm Bao Nhiêu? Tuổi Thìn Là Con Gì

Phần 2. Cấu hình với setup giờ Việt.

Okie rồi, vậy là các bạn đang thiết lập tlỗi viện Tess OCR. Tuy nhiên mặc định của nó không tồn tại ngôn ngữ giờ đồng hồ việt và chúng ta buộc phải tiến hành thiết đặt thêm.

Các bạn truy cập vào link https://github.com/tesseract-ocr/tessdata chọn ngữ điệu giờ việt, chính là file vie.traineddata sở hữu về thiết bị cùng copy vào thỏng mục ngôn từ của Tess OCR.

Chắc những các bạn sẽ hỏi thỏng mục ngữ điệu sống đâu? Cái này nó tùy theo bạn thiết lập ở tlỗi mục nào, hệ điều hình như thế nào. Thỏng mục ngữ điệu mang tên tessdata nằm trong tlỗi mục setup Tesserac OCR. Nói tầm thường là thứ hạng gì cũng có thể có dòng tlỗi mục tên là tessdata vào sản phẩm công nghệ, chúng ta hãy tra cứu nó cùng copy tệp tin vie.traineddata vào tlỗi mục tessdata đó.

Nhỏng trang bị mình là MacOS buộc phải thỏng mục tessdata nó ở ở:

root⁩ ▸ ⁨usr⁩ ▸ ⁨local⁩ ▸ ⁨Cellar⁩ ▸ ⁨tesseract⁩ ▸ ⁨4.0.0_1⁩ ▸ ⁨share⁩

Phần 3. Viết code với tận hưởng thành quả nhấn dạng

Xong phần thông số kỹ thuật, hiện giờ viết code bằng Pythuôn nhằm nhận dạng nhé.

Để code chạy được, chúng ta hãy thực hiện setup các thỏng viện sau:

pip install pillowpip install pytesseractpip install opencv-python

Bây giờ các bạn vào tlỗi mục gocnhintangphat.com_Tess_Ocr và cài đặt source bên trên github của bản thân (https://github.com/thangnch/py_ocr) về hoặc gõ lệnh sau:

git clone https://github.com/thangnch/py_ocr

Bây giờ trong thư mục gocnhintangphat.coms.com_Tess_Ocr đang xuất hiện thêm thêm thỏng mục py_ocr. File py_ocr.py nó làm gi thì mình đã comment từng chiếc vào code rồi nhé. Còn bây giờ, tiến hành chuyển vào trong thỏng mục kia bằng lệnh cd py_ocr và gõ tiếp lệnh dấn dạng:

pyhẹp py_ocr.py -i gocnhintangphat.com.png -p thresh

Nếu gần như vật dụng ngon cơm, những bạn sẽ thấy kết quả thừa nhận dạng tiếng việt mỹ mãn nlỗi sau. Nếu lưu ý những các bạn sẽ thấy, tệp tin hình họa bao gồm nhiễu nhưng mà họ vẫn nhấn dạng vô tư nhé ;). Đó là do bản thân bao gồm áp dụng phương án chi phí cách xử lý ở trong phần ” -p thresh”

*

OK! Bởi vậy các bạn đang những bước đầu xả thân vào món OCR cùng với nhấn dạng tiếng việt. Món này còn các máy rất lôi cuốn, bản thân đã tiếp tục chia sẻ giữa những bài sau nhé.

Bài sau mình vẫn viết về kiểu cách train Tesseract OCR để nhấn dạng các font text đặc thù. lấy ví dụ các bạn có một vnạp năng lượng phiên bản với Font cực kỳ kì quái thì Tess OCR sẽ không còn nhận được đâu, chúng ta đề xuất train nó nhé!