SCB 10X บริษัทด้านการลงทุนในเทคโนโลยี ภายใต้กลุ่ม SCBX เปิดตัว Typhoon Isan โมเดลถอดเสียงเป็นข้อความ ‘ภาษาอีสาน’ ที่สามารถถอดเสียงและสะกดคำอย่างเป็นระบบรายแรก

ในปัจจุบัน โมเดลถอดเสียงเป็นตัวอักษร (ASR) ยังไม่สามารถรองรับ ‘ภาษาถิ่น’ ได้อย่างมีประสิทธิภาพ โดยเฉพาะภาษาที่มีการเก็บข้อมูลในระบบดิจิทัลน้อยมาก
ผลก็คือ ถ้าผู้ใช้สื่อสารด้วย ‘ภาษาถิ่น’ โมเดล AI จึงไม่สามารถถอดคำพูดหรือสำเนียงของภาษาถิ่นได้อย่างถูกต้อง จึงเกิดเป็นจุดเริ่มต้นของการพัฒนาโมเดลภาษาถิ่น
โครงการนี้เกิดจากความร่วมมือระหว่างทีมวิจัยของ SCB 10X กับนักภาษาศาสตร์ ผู้เชี่ยวชาญด้านภาษา ครู นักเรียน และชุมชนท้องถิ่น เพื่อสร้างมาตรฐานให้กับภาษาอีสานในโลกดิจิทัล

เจาะลึก Typhoon Isan โมเดลภาษาถิ่นจาก SCB 10X
Typhoon คือโครงการ AI แบบเปิด (Open-Source AI Initiative) ที่พัฒนาโดยทีมวิจัยและพัฒนาของบริษัท SCB 10X มุ่งสร้างและเผยแพร่ โมเดล AI เชิงวิจัย (Research-driven) ที่สามารถเข้าใจทั้งข้อความ เสียง และภาพ โดยออกแบบมาเพื่อบริบทของประเทศไทยโดยเฉพาะ

ล่าสุด ทีม Typhoon เปิดตัวผลงานในซีรีส์ Typhoon Isan หลายส่วน เช่น
- วิจัยหลัก Typhoon Isan ASR (Automatic Speech Recognition) โมเดลโอเพนซอร์สที่สามารถถอดเสียงภาษาอีสานออกมาเป็นข้อความได้อย่างแม่นยำ
- ชุดสาธิตของ Typhoon Isan TTS (Text-to-Speech) โมเดลแปลงข้อความเป็นเสียงพูด ที่สามารถพูดภาษาอีสานได้อย่างเป็นธรรมชาติ
นอกจากนี้ ทีม Typhoon ยังจัดทำ ‘ชุดข้อมูล’ ภาษาอีสานแบบเปิดที่วิจัยและจัดเก็บอย่างเป็นระบบ (Open Data) โดยประกอบด้วย
- Isan Speech Transcription Convention แนวทางการถอดเสียงภาษาอีสานเป็นข้อความสำหรับการสร้างชุดข้อมูลเพื่องานด้านเทคโนโลยีทางเสียง
- Isan Spelling Standard อักขรวิธีการสะกดคำภาษาอีสานด้วยอักษรไทย
- Isan Speech Corpus ชุดข้อมูลเสียงพูดภาษาอีสานจากหลายจังหวัดในภาคตะวันออกเฉียงเหนือ
- Isan Phonetic Dictionary พจนานุกรมคำอ่านที่เชื่อมโยงคำกับการออกเสียงในภาษาอีสาน
ทำไมต้อง ภาษาอีสาน?
SCB 10X บอกว่า สาเหตุที่เลือกพัฒนาภาษาอีสานเป็นอันดับแรก เพราะจากข้อมูลพบว่าประเทศไทยมีผู้ใช้งานภาษาอีสานราว 20 ล้านคน หรือประมาณ 1 ใน 3 ของคนทั้งประเทศ
ถ้ามองกันในเรื่องเศรษฐกิจ ภาคอีสานสามารถสร้างมูลค่า GDP รวมกว่า 180,000 ล้านบาท หรือประมาณ 10% ของเศรษฐกิจไทยทั้งประเทศ แถมยังมีคนทำงานที่ใช้ภาษาอีสานอยู่ในหลากหลายอุตสาหกรรม
แต่เรื่องที่ท้าทายก็คือ ‘ภาษาอีสาน’ เป็นภาษาพูดที่ยังไม่มีมาตรฐานการเขียนที่ชัดเจน การบันทึกเสียงและคำพูดภาษาอีสานได้อย่างเป็นระบบจึงถือเป็นก้าวสำคัญในการรักษาภูมิปัญญาและวัฒนธรรม อันจะนำไปสู่การช่วยส่งเสริมเศรษฐกิจดิจิทัลของประเทศในระยะยาว

คุณัชญ์ พิพัฒนกุล Lead AI Scientist จาก SCB 10X เล่าว่า ทุกวันนี้โมเดลต่าง ๆ มักมาจากโลกตะวันตก โดยใช้วิธีการพัฒนาและแนวทางแบบ One-size-fits-all อาจขาดความเข้าใจในเชิงวัฒนธรรม บริบท และเอกลักษณ์ของไทย ดังนั้น ประเทศไทยจึงต้องมีโมเดลภาษาเป็นของตนเอง เพราะการสื่อสารด้วยภาษาถิ่น สามารถเข้าถึงคนท้องถิ่นจริง ๆ ได้มากกว่าภาษากลางหรือภาษาราชการ
ทีม Typhoon มองว่า AI ควรเป็นเทคโนโลยีที่มีพลัง เชื่อถือได้ และเข้าใจความเป็นมนุษย์ จึงอยากมุ่งพัฒนา AI ที่สอดคล้องกับวัฒนธรรม ครอบคลุมทุกภาคภาษา และเข้าถึงได้สำหรับทุกคน ไม่ว่าจะเป็นนักพัฒนา นักวิจัย หรือภาคธุรกิจไทย
อ่านรายละเอียดเพิ่มเติมของ Typhoon Isan ได้ที่ : GitHub
ติดตามข่าวสารจาก Brand Inside ได้จาก Facebook ของเรา