อ่ะ เอาภาพไปดูก่อน

การวิจัย Speech Recognition

งานวิจัย Speech Recognition ส่วนใหญ่ จะเน้นในกล่องสีแดงเป็นหลัก บางคนเขาก็เน้นวิจัยในกล่อง “การสังเคราะห์เสียง” ส่วนบางคนก็หันไปวิจัยในกล่อง “การเปรียบเทียบเสียง” แทน อันนี้แล้วแต่ความชอบส่วนบุคคล

ปัจจุบันเป็นที่ยอมรับกันทั่วไป (ในวงการ) ว่า Best Practice ใน “การสังเคราะห์เสียงพูด” ในระบบดิจิทัล ให้กลายเป็นชุดข้อมูลเสียงเพื่อใช้งาน คือการใช้เทคนิค Linear Predictive Coding Model

ในขณะที่ Best Practice ใน “การเปรียบเทียบเสียงพูด” คือการใช้เทคนิค Hidden Markov Model

ดังนั้นตอนนี้ นักวิจัยส่วนใหญ่เขาก็เลยไม่มานั่งค้นหา Best Practice กันอีกต่อไปแล้ว (เพราะหากันได้แล้ว) แต่เปลี่ยนเป็นค้นหา “โมเดล” ที่ดีที่สุด (ของ Best Practice ที่มี) เพื่อใช้ในกล่องสีแดงในภาพข้างบนแทน

โดยส่วนตัวแล้วมองว่า หนทางในการทำ Speech Recognition ภาษาไทยเชิงพาณิชย์ ยังทอดยาวอีกไกลนักกว่าจะถึงจุดหมาย เพราะเคยอ่านผ่านตามาว่า Microsoft เองก็ยังเคยโดนบ่นเรื่อง Speech API ของเขา (ซึ่งอยู่บน Vista) และ Google เองก็ยังเพิ่งจะกวาดต้อนผู้เชี่ยวชาญด้าน Speech Recognition มาเข้าสังกัด เพื่อสร้างระบบค้นหาด้วยเสียงเมื่อไม่นานมานี้

ขนาดยักษ์ใหญ่ทางไอทีของโลก เขายังแทบจะหืดจับกว่าจะเข็น Speech Recognition เชิงพาณิชย์ออกมาได้ งั้นของพี่ไทยเราก็สู้ ๆ ต่อไปแล้วกันครับ 😛

[tags]speech recognition, linear predictive coding, best practice, hidden markov model[/tags]

Related Posts

2 thoughts on “การวิจัย Speech Recognition

  1. เคยลองพยายามทำ Speech to Text เมื่อหลายปีก่อน ความยากของมันคือ การที่มี input ไม่แน่นอน คำหนึ่งคำ ให้คนร้อยคนมาพูด จะได้ รูปแบบ ออกมาแตกต่างกันหมด เมื่อได้รูปแบบแล้ว ก้อทำการ mapping input ที่เข้ามา เพื่อเข้าไปสู่ รุปแบบภาพ หลังจากนั้นก้อทำการ เปรียบเทียบ, ปัญหาใหญ่อีกอย่าง ที่เจอคือ ในการ ที่มี input เข้ามาเป็น realtime นั้น หากทำการ เปรียบเทียบไม่ทัน จะเจอปัญหา หน่วยความจำเต็ม , และปัญหาใหญ่ที่สำคัญที่สุด คือ ตอนนั้น คิดว่าไม่มีความรู้เพียงพอที่จะทำต่อ หลังจากค้นหา ข้อมูลในกูเกิลพอที่จะหาได้, หวังว่า ในประเทศไทย คงจะมีคนทำสำเร็จในเร็วๆนี้ครับ , เอาใจช่วยครับ

ใส่ความเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *