Nhận Dạng Chữ Việt Với Tesseract Là Gì ? Nhận Diện Văn Bản Bằng Tesseract

      48

Xin chào chúng ta, cảm ơn chúng ta vẫn quan tâm với quay lại Blog Mì AI. Hôm nay nhằm tiếp diễn chuỗi bài bác về Computer Vision mình xin guide cho chúng ta một bài bác đơn giản , theo như đúng phong thái Mì AI về sự việc Nhận dạng Tiếng Việt, nhận dạng văn uống bạn dạng (Optical Charactor Recognition) nhé.

Bạn đang xem: Nhận Dạng Chữ Việt Với Tesseract Là Gì ? Nhận Diện Văn Bản Bằng Tesseract

Về cách dìm dạng vnạp năng lượng bản thì có không ít biện pháp tiếp cận lắm luôn luôn, một số giải pháp mà mình biết nhỏng sau:

Sử dụng Tesseract OCRTrain Mã Sản Phẩm bởi CNN + SVMTrain model CNN – RNN – CTC….

Mỗi loại lại có chiếc tuyệt, chiếc dnghỉ ngơi riêng rẽ cùng thưởng thức tài năng lập trình khác nhau. Hôm nay bản thân sẽ chia sẻ cùng với chúng ta phương pháp cần sử dụng Tesseract OCR đến dễ dàng nhé. Hiện Tess đang bao gồm mang lại phiên bạn dạng 4.0 nên dùng tương đối ổn cho những yêu cầu thông thường (chữ viết tay là chịu nhé).

Thôi, ban đầu ngay mang lại lạnh nhé!

Nlỗi thường xuyên lệ, bản thân xin trình diễn trước cấu trúc nội dung bài viết nhằm các bạn tất cả cái nhìn tổng quan lại. Bài viết đang gồm những phần

Phần 1. Chuẩn bị môi trường thiên nhiên, cài đặt tlỗi viện Tesseract OCRPhần 2. Cấu hình với thêm ngữ điệu giờ ViệtPhần 3. Viết code dìm dạng với tận hưởng

Phần 1. Chuẩn bị môi trường

Như hay lệ các bạn hãy chế tạo 1 demo mục gocnhintangphat.com_Tess_OCR lưu vào đâu đó trên ổ cứng nhé. Bây giờ đồng hồ các bạn thiết đặt Tesseract OCR theo cách sau, tùy thuộc theo các bạn sử dụng OS gì (bản thân không recommkết thúc window nhé, dù vẫn chạy).

Với các bạn cần sử dụng MacOS: Chúng ta đã setup bằng giải pháp Homebrew nhé. Các chúng ta gõ lệnh sau:

brew install tesseract

Sau Khi gõ ngừng chúng ta đợi chạy lệnh không còn là thành công!

*

Với chúng ta sử dụng Linux: Các các bạn áp dụng apt-get như sau:

subởi apt-get install tesseract-ocr

Sau đó cũng ngồi canh cho nó chạy hết lệnh là okie.

*

Với các bạn áp dụng Window: Thì đặc điểm này bản thân ko cài đặt demo bao giờ bắt buộc chúng ta theo guide của Tesseract. Tóm lại là chúng ta cài đặt tệp tin thiết lập trên trên đây https://github.com/UB-Mannheim/tesseract/wiki (ghi nhớ lựa chọn phiên bản 32bit cùng 64 bit cân xứng với window của bạn).

*

Okie rồi, sau khoản thời gian thiết lập hoàn thành, những chúng ta có thể kiểm tra việc làm thiết lập xem đang thành công xuất sắc không bằng phương pháp gõ lệnh:

tesseract -v

Nếu nlỗi màn hình chỉ ra lên tiếng phiên bạn dạng nlỗi ảnh dưới cho nên chúng ta sẽ mua thành công xuất sắc.

*

Còn nếu nlỗi báo lỗi dạng “commvà not found” hoặc “is not recognize” thì chúng ta restart lại thiết bị hoặc đặt PATH mang lại cân xứng nhé (cái này tùy OS). Bạn làm sao bắt buộc thì phản hồi bản thân vẫn guide thêm.

Xem thêm: Chế Độ Công Vụ Là Gì - Pháp Luật Về Chế Độ Công Vụ Theo Vị Trí Việc Làm

Phần 2. Cấu hình với setup giờ Việt.

Okie rồi, vậy là chúng ta vẫn thiết lập thỏng viện Tess OCR. Tuy nhiên mang định của nó không tồn tại ngữ điệu giờ việt cùng họ bắt buộc triển khai thiết đặt thêm.

Các bạn truy vấn vào link https://github.com/tesseract-ocr/tessdata lựa chọn ngữ điệu giờ việt, chính là tệp tin vie.traineddata cài về thứ với copy vào tlỗi mục ngôn ngữ của Tess OCR.

Chắc những bạn sẽ hỏi thỏng mục ngôn từ nghỉ ngơi đâu? Cái này nó tùy thuộc theo bạn cài đặt sống tlỗi mục làm sao, hệ điều hình làm sao. Thỏng mục ngôn từ mang tên tessdata phía bên trong tlỗi mục setup Tesserac OCR. Nói phổ biến là kiểu gì cũng đều có mẫu tlỗi mục thương hiệu là tessdata vào máy, các bạn hãy kiếm tìm nó và copy file vie.traineddata vào thỏng mục tessdata đó.

Nlỗi thứ bản thân là MacOS nên tlỗi mục tessdata nó ở ở:

root⁩ ▸ ⁨usr⁩ ▸ ⁨local⁩ ▸ ⁨Cellar⁩ ▸ ⁨tesseract⁩ ▸ ⁨4.0.0_1⁩ ▸ ⁨share⁩

Phần 3. Viết code với tận thưởng kết quả này nhấn dạng

Xong phần cấu hình, bây chừ viết code bằng Python nhằm nhận dạng nhé.

Để code chạy được, chúng ta hãy thực hiện thiết đặt các thỏng viện sau:

pip install pillowpip install pytesseractpip install opencv-python

Bây giờ các bạn vào tlỗi mục gocnhintangphat.com_Tess_Ocr và sở hữu source bên trên github của mình (https://github.com/thangnch/py_ocr) về hoặc gõ lệnh sau:

git clone https://github.com/thangnch/py_ocr

Bây tiếng vào tlỗi mục gocnhintangphat.com_Tess_Ocr đã mở ra thêm tlỗi mục py_ocr. File py_ocr.py nó có tác dụng gi thì tôi đã phản hồi từng cái trong code rồi nhé. Còn hiện giờ, tiến hành chuyển vào trong thư mục kia bởi lệnh cd py_ocr cùng gõ tiếp lệnh thừa nhận dạng:

pyhẹp py_ocr.py -i gocnhintangphat.com.png -p thresh

Nếu đông đảo đồ vật ngon lành, những các bạn sẽ thấy hiệu quả nhận dạng giờ việt mỹ mãn nhỏng sau. Nếu để ý các các bạn sẽ thấy, file hình họa có nhiễu tuy thế chúng ta vẫn nhận dạng vô tứ nhé ;). Đó nguyên nhân là mình có vận dụng giải pháp chi phí giải pháp xử lý ở đoạn ” -p thresh”


*

OK! do vậy các bạn vẫn những bước đầu lao vào vào món OCR cùng với dấn dạng giờ đồng hồ việt. Món này còn những sản phẩm công nghệ rất hấp dẫn, bản thân sẽ tiếp tục share trong số những bài xích sau nhé.

Bài sau bản thân vẫn viết về kiểu cách train Tesseract OCR để nhấn dạng các phông chữ đặc thù. lấy ví dụ chúng ta bao gồm một vnạp năng lượng phiên bản cùng với Font rất quái gở thì Tess OCR sẽ không còn nhận ra đâu, chúng ta yêu cầu train nó nhé!

Hẹn gặp lại!