สปอยล์เปเปอร์ Speech synthesis from neural decoding of spoken sentences แบบไม่วิชาการ

เพิ่งอ่านเปเปอร์นี้จบ บันเทิงมาก ความรู้สึกเหมือนดูมาสเตอร์เชฟทำอาหาร

เปเปอร์นี้ตีพิมพ์ในวารสารเนเจอร์ เมื่อวันที่ 25 เมษายน 2562 ที่ผ่านมา เป็นงานวิจัยเพื่อสังเคราะห์เสียงพูดจากสมองออกมาเป็นไฟล์เสียงโดยตรง โดยไม่ผ่านการออกเสียงจากปาก

อ่านเนื้อหาแล้ว นึกว่าเป็นงานวิจัยที่ตีพิมพ์ใน SIG ACM หรือ IEEE Transaction มีแต่ศัพท์ EE กับ CS เต็มไปหมด

งานวิจัยที่น่าสนใจมาก เพราะเปเปอร์นี้จริง ๆ แล้ว สามารถแยกตีพิมพ์เจาะลึกเนื้อหาได้เป็น 3 เปเปอร์

ขั้นตอนในเปเปอร์ SPEECH SYNTHESIS FROM NEURAL DECODING OF SPOKEN SENTENCES

ถ้าแยกเป็น 3 เปเปอร์ จะได้เนื้อหาดังนี้

เปเปอร์แรก เป็นงานสอนเครื่องให้รู้ว่า สัญญาณจากสมอง ตรงกับการขยับลิ้น กราม และริมฝีปากยังไง ประโยชน์ของงานวิจัย ตัวอย่างเช่น ต่อไปเราสามารถใช้สมองสั่งหุ่นยนต์ให้ขยับปากตามความคิดที่จะพูดของเราได้

เปเปอร์สอง เป็นงานสอนให้เครื่องรู้ว่า การขยับลิ้น กราม และริมฝีปาก ตรงกับการออกเสียงคำหรือประโยคอะไร ประโยชน์ของงานวิจัย ตัวอย่างเช่น เอาไว้อ่านปาก เพื่อรู้ว่าพูดอะไร

เปเปอร์สาม เป็นงานสอนให้เครื่องรู้ว่า เสียงพูดที่ไม่ปะติดปะต่อ แหบพร่า ฟังไม่ค่อยรู้เรื่อง ตรงกับประโยคเสียงพูดที่สมบูรณ์ใด

ว่าตามจริง แยกวิจัยก็คือยากแล้ว แต่นี่เอามารวมกัน มันเลยอลังการมาก

ทีนี้มาคุยกันเกี่ยวกับจุดที่น่าสนใจในงานวิจัยนี้ในมุมมองส่วนตัว

จุดแรก วิธีการได้มาซึ่งข้อมูลในการสอนเครื่อง ซึ่งผู้วิจัยใช้วิธีผ่าตัดกระโหลกของผู้ทดสอบ เพื่อแปะเซ็นเซอร์ไว้บนพื้นผิวของเปลือกสมอง

ครับ เซ็นเซอร์วางแปะอยู่ตรงนั้นบนเปลือกสมอง และนี่คือสาเหตุว่าทำไมชื่อแรกของเปเปอร์จึงเป็นคุณหมอผ่าตัด และเปเปอร์นี้ถึงต้องตีพิมพ์ในวารสารเนเจอร์!!!

ปรกติเคยเจอแต่แปะเซ็นเซอร์บนกระโหลก หรือใช้วิธี fMRI แต่นี่ไปไกลล่ะ เล่นปลูกถ่ายเซ็นเซอร์กันเลยทีเดียว

และนอกจากนี้ เพราะสัญญาณที่ได้จากสมองมันยังไม่ชัวร์ เลยทำให้ผู้วิจัยต้องติดเซ็นเซอร์เอาไว้ที่ลิ้น กราม และริมฝีปากของผู้ทดสอบ เพื่อเก็บข้อมูลด้วย

สิ่งที่น่าสนใจในจุดที่สองก็คือ การส่งต่อเหตุและผล ในงานวิจัยทาง Machine Learning ส่วนใหญ่ เรามักสนใจเหตุและผลจังหวะเดียว เช่น เหตุเพราะผลไม้เป็นสีแดง เปลือกมันวาว เนื้อแข็ง ผลก็ควรแปลว่ามันเป็นแอปเปิ้ล จังหวะเดียวจบ

แต่งานวิจัยนี้มีการส่งต่อเหตุและผลถึงสามจังหวะ

จังหวะแรก เหตุเพราะสมองคิดแบบนี้ ผลจึงทำให้ลิ้น กราม ริมฝีปากขยับแบบนี้

จังหวะสอง เหตุเพราะลิ้น กราม ริมฝีปากขยับแบบนี้ จึงทำให้ออกเสียงพร่า ฟังไม่ค่อยชัดแบบนี้

และจังหวะสาม เหตุเพราะเสียงพร่า ฟังไม่ค่อยชัดแบบนี้ จึงทำให้ตีความได้ว่าพูดประโยคอะไรออกมา

ประมาณนี้

เนื่องจากในเปเปอร์นี้มีการอ้างอิงทฤษฎีทางการแพทย์ (เล็กน้อย) และทฤษฎีการคำนวณสำหรับคอมพิวเตอร์ (เยอะ ๆ) ไว้หลายตัวมาก ขอไม่ลงรายละเอียดแล้วกันครับ

รายงานสรุปของวารสารเนเจอร์ ที่เกี่ยวกับ SPEECH SYNTHESIS FROM NEURAL DECODING OF SPOKEN SENTENCES

จำนวนการอ่าน : 472

Cookie	Duration	Description
cookielawinfo-checbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

สปอยล์เปเปอร์ Speech synthesis from neural decoding of spoken sentences แบบไม่วิชาการ

Related Posts

การรวมปัญญาประดิษฐ์และความมั่นคงของคอมพิวเตอร์เข้าไว้ด้วยกัน

การปรับปรุงประสิทธิภาพของ Hidden Markov Models

ใส่ความเห็น