Nablatronics

ในกระบวนการ Optical Character Recognition (OCR) นั้นจำเป็นจะต้องมีข้อมูลลักษณะ (Feature) ของตัวอักขระนั้นๆก่อน เพื่อนำมาประมวลผลเทียบเคียงกับข้อมูลที่ได้จากภาพ ข้อมูล Feature นี้นั้นได้มาจากการฝึกฝน (Train) ซึ่งค่อนข้างมีซับซ้อนในการพัฒนา ดังนั้นในบทความนี้จะใช้ Tool ที่ช่วยลดความยุ่งยากไปได้เยอะ โดยมีชื่อว่า Tesseract OCR Tesseract OCR Tesseract OCR เป็น Engine ที่ใช้สำหรับการรู้จำอักขระทางภาพ พัฒนาขึ้นโดยบริษัท HP ระหว่างปี 1984-1985 โดยเริ่มต้นมาจากโปรเจควิจัยระดับปริญญาเอกในห้องปฏิบัติการณ์ HP โดยมีความตั้งใจเพื่อนำไปใช้กับงานเครื่องสแกนเนอร์เป็นหลัก ซึ่งในปี 2005 HP ก็ได้ปล่อยให้เป็น Open Source โดยมี google เป็นผู้สนับสนุน ซึ่งนักพัฒนาสามารถนำชุดคำสั่งนี้มาใช้งานได้ Tesseract นั้นถือว่าเป็นหนึ่งใน OCR Open Source ที่มีความแม่นยำสูง สามารถเข้าไปดาวน์โหลดได้ที่ https://code.google.com/p/tesseract-ocr/ Training Step Step : 1 สร้างไฟล์ box ซึ่งเป็นไฟล์ที่ใช้ระบุตำแหน่งของอักขระต่างๆ ที่อยู่ในรูปภา...

Search This Blog

Nablatronics

Posts

สร้าง Traindata สำหรับ OCR ด้วย Tesseract