Image
ดร. อรรถพล ธำรงรัตนฤทธิ์
ฝ่าด่าน Natural Language Processng 
สอน AI ให้เชี่ยวชาญภาษาไทย
Interview
สัมภาษณ์และเรียบเรียง : สุวัฒน์ อัศวไชยชาญ
 ถอดเสียงสัมภาษณ์ : วรรณิดา มหากาฬ
 เวลา : ๑ ชั่วโมง ๓๔ นาที
 วันที่ : ๒๔ มิถุนายน ๒๕๖๔
สถานที่ : ห้องซูมออนไลน์
 ภาพ : คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย
Search Results
งานประจำ :
อาจารย์และนักวิจัยประจำภาควิชาภาษาศาสตร์ คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย
การศึกษา :
Stanford University ปริญญาตรี Symbolic Systems ซึ่งต้องเรียนสี่ศาสตร์ด้วยกัน คือ Computer Science, Linguistics, Philosophy และ Psychology ปริญญาโทและเอกด้าน Deep Learning สำหรับ Natural Language Processing
หนังสือที่ชอบ :
Hitchhiker’s Guide to the Galaxy
ความเคลื่อนไหว :
หลักสูตร Computational Linguistics ที่เปิดสอนเมื่อปี ๒๕๖๒ มีนิสิตสนใจเรียนเพิ่มขึ้นจาก ๑๐ กว่าคนในปีแรกเป็น ๔๐ คนในปีนี้ (๒๕๖๔)
บทสัมภาษณ์ที่เผยแพร่ :
The Matter, The Standard, aday Bulletin, Voice Online, Jobthai
Image
อยากให้ช่วยอธิบายว่า NLP หรือ natural language processing กับ computational linguistics แตกต่างกันหรือเกี่ยวข้องกันอย่างไร
ถ้าเป็นเมื่อ ๒๐-๓๐ ปีที่แล้วจะแยกกันค่อนข้างชัดเจน สมัยก่อน computational linguistics คือการศึกษาคุณสมบัติต่าง ๆ ของภาษา ทั้งเรื่องเสียง โครงสร้าง การเปลี่ยนแปลงปัจจัยทางสังคม โดยใช้โมเดลทางคณิตศาสตร์มาสร้างแบบจำลองทำให้เราเข้าใจภาษาได้ดีขึ้น  พอระยะหลังเทคโนโลยีพัฒนาขึ้นก็เกิด natural language processing ซึ่งนำเอาโมเดลที่เราใช้ศึกษาภาษานั้นมาทำเป็นโปรแกรมคอมพิวเตอร์เพื่อทำงานด้านภาษาแทนเรา เช่น แปลภาษา สรุปความ สรุปประเด็น วิเคราะห์อารมณ์ความรู้สึก เปลี่ยนตัวหนังสือให้เป็นเสียงพูด 

คำว่า natural language หมายถึงภาษาที่เป็นธรรมชาติซึ่งคนใช้พูดคุยสื่อสารกันและพัฒนาการในตัวมันเอง สมัยก่อนเทคโนโลยีคอมพิวเตอร์ยังไม่ดีพอ เวลาเอามาใช้ในโลกความเป็นจริงก็เลยยังดูไม่ค่อยเป็นธรรมชาติ  ลองนึกถึงโทรศัพท์รุ่นเก่า ๆ เวลาเราหาหมายเลขโทรศัพท์โดยใช้เสียงก็ต้องพูดให้เหมือนเป๊ะ เช่น “เต้” (เน้นเสียงชื่อเล่นของอาจารย์เอง) ก็ต้อง “เต้” ชัด ๆ เหมือนเดิม แต่ตอนนี้เทคโนโลยีดีขึ้น เราบอก Siri ได้ว่า “ช่วยโทรศัพท์หาเต้หน่อย” (เสียงพูดคุยปรกติ) ก็จะเป็นประโยคธรรมชาติมากขึ้น ทำให้กลายเป็นกระแสที่มีแอปพลิเคชันต่าง ๆ มากมายเอามาใช้ในช่วง ๑๐ ปีผ่านมา
งานวิจัยด้าน NLP ของภาษาไทยที่อาจารย์ทำมีเรื่องอะไรบ้าง
โครงการแรก ๆ คือใช้เทคโนโลยีใหม่ ๆ ที่เรียกว่า deep learning มาช่วยตัดคำภาษาไทย เพราะเป็นพื้นฐานของการจะไปวิเคราะห์ประโยค วิเคราะห์ข้อความ เราต้องตัดคำเป็นก่อน เพราะคำเป็นตัวสื่อความหมาย แต่ก่อนการตัดคำจะใช้แนวทางการดูคำในพจนานุกรม แต่ deep learning จะดูบริบทของคำมากขึ้น ดูว่าพยางค์ไหนน่าจะไปด้วยกันได้มากกว่า แม้ว่าคำนั้นจะไม่เคยเห็นมาก่อนในพจนานุกรมก็สามารถตัดได้ ถึงจะยังไม่แม่นยำ ๑๐๐ เปอร์เซ็นต์

มีโครงการเกี่ยวกับข้อกฎหมาย ให้ NLP ดูข้อความในคำฟ้องแล้วหาว่ากฎหมายข้อไหนสัมพันธ์กับคำฟ้อง เพื่อจะช่วยดึงข้อกฎหมายที่เกี่ยวข้องมาอ้างอิง ทำให้งานของทนายความง่ายขึ้น เพราะตอนนี้การค้นกฎหมายและกฎข้อบังคับต่าง ๆ ทำได้ยาก

อีกโครงการหนึ่งที่เพิ่งเริ่มคือการสร้างเครื่องที่สามารถอ่านสภาพอารมณ์ของคนผ่านทาง Twitter ว่าขึ้นลงอย่างไร อารมณ์คนสำคัญมาก เพราะจะส่งผลต่อผลการเลือกตั้ง ไปจนถึงราคาตลาดหุ้น เป็นสิ่งสะท้อนว่าสุขภาพจิตของคนแต่ละกลุ่มเป็นอย่างไร และในอนาคตเราจะสามารถทำนายอารมณ์ของคนว่าเป็นอย่างไรโดยดูจากการทวีตที่ผ่านมาของเขา
ตอนนี้ตัวตัดคำภาษาไทยที่วิจัยเสร็จแล้วนำไปใช้งานอย่างไรต่อ
พอทำตัวตัดคำเสร็จ ผมเปิดเป็น open source software ใครจะเอาไปใช้ก็ได้โดยไม่มีค่าใช้จ่าย ผมคิดว่านี่เป็นหน้าที่ของนักวิชาการ เพื่อให้อุตสาหกรรมทั้งหมดยกระดับและพัฒนาไปพร้อม ๆ กัน ไม่ใช่มีใครได้เปรียบเสียเปรียบ ก็มีบริษัทซอฟต์แวร์หนึ่งนำไปใช้กับงานวิเคราะห์การตลาด เพื่อดูข้อความบนสื่อออนไลน์ เช่น ทวิตเตอร์ ยูทูบ เฟซบุ๊ก ว่าคนพูดถึงผลิตภัณฑ์ เช่น ผงซักฟอก อย่างไรบ้าง คืออยากรู้ว่าตลาดสนใจอะไร ยี่ห้อไหน ฟีเจอร์แบบไหน

อีกบริษัทหนึ่งสนใจเรื่องราคาสินค้าโภคภัณฑ์ เช่น ข้าวโพด แป้งสาลี ถั่วเหลือง ซึ่งมีการค้าขายคล้ายหุ้น เขาก็ต้องการดูเพื่อซื้อตอนราคาถูกและขายตอนราคาแพง เขาก็ต้องติดตามข่าวดินฟ้าอากาศ ข่าวการเมืองเศรษฐกิจ รายงานผลผลิตจากประเทศต่าง ๆ เพื่อดูความเคลื่อนไหวของราคาว่าจะซื้อขายตอนไหน  ตัวตัดคำจะช่วยดึงคำสำคัญจากข่าวออกมาให้และนำมาใส่โมเดล deep learning อีกแบบหนึ่งที่เราพัฒนาขึ้นมาให้ทำนายทิศทางราคาในอีก ๓ วัน ๗ วัน หรือ ๒ สัปดาห์ถัดไปจากข่าวเมื่อ ๑๐ วันก่อน
“มีอยู่ไม่กี่ภาษาในโลกที่เขียนด้วยระบบที่ไม่แบ่งคำ ไทย จีน พม่า และภาษาของประเทศอื่นๆ แถวบ้านเรา แต่ก็เป็นโจทย์ที่เราต้องมาแก้ใน NLP  ซึ่งความจริงถ้าใช้ deep learning เราไม่ต้องทำอะไรมากนอกจากสร้างตัวอย่างให้โมเดลดู”
Image
เราสอนให้ deep learning ทำนายได้อย่างไร
เราจะให้ training data คือข้อมูลตัวอย่างว่า input แบบนี้ output ควรจะประมาณไหน ถ้าข่าวเป็นแบบนี้ ราคาควรจะเป็นประมาณไหน อาจจะป้อนข่าวเข้าไป ๒ ปีย้อนหลังและราคาที่เรารู้แล้วว่าเป็นอย่างไร  โมเดลก็จะพยายามเรียนรู้ให้ได้ว่า input แบบนี้ ราคาจะต้องเป็นแบบนี้ เป็นการเรียนรู้จากอดีต  พอเราให้ข่าวปัจจุบัน โมเดลก็จะพยายามทำนายราคาในอนาคตให้ใกล้เคียงที่สุด  ซึ่งคนทำโมเดลก็ต้องมีเทคนิคในการปรับโมเดล จะให้มันเรียนรู้เร็วหรือช้าขนาดไหน ถ้าเรียนรู้เร็วก็อาจข้ามอะไรบางอย่าง ถ้าเรียนรู้ช้าต้องใช้เวลา และจะทำอย่างไรให้โมเดลทำนายได้แม่นยำ
ถ้าให้สรุปอย่างย่อ ๆ ที่สุด deep learning คืออะไร
deep learning ได้แรงบันดาลใจจากการทำงานของสมองคนที่เรียกว่า neural network คือโครงข่ายของเซลล์ประสาทสมองที่มีเซลล์ประสาทจำนวนมากเชื่อมต่อกัน เมื่อจำลองด้วยคอมพิวเตอร์ก็ทำเป็นหน่วยการคำนวณที่นำมาต่อ ๆ กัน โดย deep learning จะต่อเรียงกันหลาย ๆ ชั้น จึงเป็นที่มาของคำว่า deep  มันเป็นโมเดลที่เหมือน black box เราใส่ input เข้าไปให้โมเดลบวกลบคูณหารเท่านั้น ๆ ครั้งเป็นผลลัพธ์ออกมา แต่สูตรการคำนวณค่อนข้างซับซ้อนมากจนเราไม่รู้การทำงานข้างในจริง ๆ ของมัน แต่ทำงานได้ผลมากที่สุด ยังไม่มีโมเดลไหนเอาชนะ deep learning ได้เลย นี่คือเทคโนโลยีล่าสุดที่คนวิจัยด้าน AI ให้ความสนใจ
เคยได้ยินว่าภาษาไทยเป็นภาษาที่ยากในการทำ NLP เพราะคำไทยติดกันหมด ไม่มีวรรค ไม่มีฟุลสต็อป อาจารย์เทรนโมเดลภาษาไทยอย่างไร
มีอยู่ไม่กี่ภาษาในโลกที่เขียนด้วยระบบที่ไม่แบ่งคำ ไทย จีน พม่า และภาษาของประเทศอื่น ๆ แถวบ้านเรา แต่ก็เป็นโจทย์ที่เราต้องมาแก้ใน NLP  ซึ่งความจริงถ้าใช้ deep learning เราไม่ต้องทำอะไรมากนอกจากสร้างตัวอย่างให้โมเดลดู คือตัดคำด้วยมือจำนวนมาก ๆ อาจเป็นแสน ๆ คำ เครื่องจะเรียนรู้จากตัวอย่าง เรียนรู้จากการเลียนแบบคนเพราะว่าคนเก่งภาษามาก ต่อให้คุณไม่ได้เรียนหนังสือสูงก็ยังตัดคำได้ เป็นเพราะอะไร แสดงว่านี่ไม่ใช่เรื่องลึกลับซับซ้อนมาก

โมเดลที่เราคิดขึ้นก็ต้องรู้หลายอย่าง อย่างแรกคือต้องจำคำให้ได้ โดยเฉพาะคำที่เจอบ่อย ๆ  อย่างที่ ๒ คือเราเทรนโมเดลให้รู้หลักการสะกดคำของภาษาไทย เพราะว่าเวลานำไปใช้งานจริงจะต้องเจอคำที่ไม่เคยเห็นมาก่อนตลอดเวลา เช่น ชื่อเฉพาะ ชื่อแอปฯ ชื่อเพลงใหม่ วงดนตรีใหม่ เราจะพึ่งการจำคำอย่างเดียวไม่ได้ ต้องพึ่งหลักการสะกดคำ

จริง ๆ การเขียนคำภาษาไทยไม่ได้มีรูปแบบมากมาย เด็ก ป. ๑ ป. ๒ ก็รู้เกือบหมดแล้ว แต่ความยากของภาษาไทยคือคำหนึ่งมีหลายพยางค์ได้ ไม่ใช่แค่หนึ่งพยางค์เสมอไป มันมีความกำกวมอยู่ เช่น ถ้าจะบอกว่า “ตู้เสื้อผ้า” เป็นหนึ่งคำ เพราะมีความเฉพาะเจาะจง แล้ว “ตู้เก็บแก้ว” ควรจะเป็นหนึ่งหรือสามคำกันแน่  ถ้าดูด้วยหลักเดียวกันกับตู้เก็บแก้วก็ควรจะเป็นหนึ่งคำเหมือนกัน
ตอนนี้แสดงว่าใครจะสร้างโมเดลขึ้นมาสักตัวหนึ่งก็ต้องเทรนภาษาไทยใหม่ทุกครั้ง
มันพบปัญหาอย่างการจะสร้างโมเดลมาวิเคราะห์อารมณ์ของข้อความในสื่อออนไลน์ เช่น comment บน Facebook ว่าเป็น hate speech หรือเปล่า เป็น abusive หรือสแปมไหม ซึ่งต้องอาศัยความเข้าใจความหมายและลักษณะของภาษา ถ้าเราใช้ deep learning เรียนรู้ตามปรกติเริ่มจากไม่รู้อะไรเลย คือเริ่มจาก ๐  แล้วถ้าตัวอย่างประโยคมีแค่ ๑ หมื่นประโยค มันก็จะรู้แค่นั้น  แต่เทียบกับคน คนไม่เคยเริ่มจากศูนย์ คนรู้ภาษามาก่อนแล้ว แต่อาจยังไม่เคยแยกแยะว่าแบบไหนเป็น abusive หรือ hate speech ก็เลยเกิดแนวคิดว่าโมเดลนี้ผิด มันจะไปไหนไม่ได้ไกล

แนวคิดใหม่คือให้เครื่องเรียนรู้ภาษามาก่อนว่ามีไวยากรณ์อย่างไร มีคำศัพท์อะไรบ้าง ความหมายของคำศัพท์คืออะไรเรียกว่าการ pre-training คือก่อนจะ training ก็ pre-training ให้ deep learning model เข้าใจวิธีการดูความหมายของคำว่าต้องดูคำที่อยู่รอบ ๆ ซึ่งเป็นตัวบอกไวยากรณ์ แล้วคำนาม บุพบท วิเศษณ์ ต้องอยู่ข้างหลังข้างหน้าอย่างไร  โมเดลจะเรียนรู้จากการ pre-training ด้วย ข้อความจำนวนมหาศาลที่ป้อนเข้าไป เสร็จแล้วค่อยไปเทรนในงานเฉพาะเจาะจงต่อ คือฝึกภาษาก่อนแล้วค่อยฝึกทำ

การเปลี่ยนพาราไดม์ในวงการวิจัย NLP ว่าต้อง pre-training ก่อน training ทำให้โมเดลใหม่ชนะโมเดลเก่าทุกครั้ง เป็นแนวคิดที่เกิดขึ้นมาประมาณ ๕ ปีที่แล้วเอง และมาเร็วมาก สมัยผมเรียนยังไม่ทัน ตอนนี้ผมเป็นอาจารย์ต้องสอนเรื่องนี้แล้ว แต่ยังไม่มีใครเขียนเป็นตำราจริงจังเลย ถือเป็นสิ่งที่ปฏิวัติวงการเหมือนกัน เพราะเราอยู่กับวิธีการเดิม ๆ มานานมาก ๒๐-๓๐ ปี
Image
ภาษาไทยมีโมเดลที่ทำ pre-training แล้วหรือยัง
มีแล้วชื่อว่า WangchanBERTa  จริง ๆ แล้วมาจาก BERT ซึ่ง Google เป็นคนคิดเทคนิคนี้ เขาทำให้หลายภาษามากแต่ไม่ได้ทำแบบดี ๆ ให้ภาษาไทย แล้ว Facebook ก็ทำอีกเวอร์ชันหนึ่งคล้าย ๆ กันคือ RoBERTa  ทีมนักวิจัยของไทยนำ BERT มา pre-training ด้วยข้อความภาษาไทยจากหน้าเว็บไซต์ทุกเว็บไซต์ที่เขาสามารถค้นหามาได้  แต่ปรากฏว่าได้ข้อมูลมาไม่ได้มากมายเหมือนอย่างภาษาอังกฤษ  ซึ่งการทำ pre-training ต้องการข้อมูลมาก ๆ  และกระบวนการ pre-
training จะทำแค่ครั้งเดียว เพราะค่า pre-training แพงมาก ต้องใช้คอมพิวเตอร์ที่แรงจริง ๆ หลายเครื่อง  อย่าง Google กับ Facebook เขาต้องใช้เป็นร้อยเครื่อง เนื่องจากโมเดลใหญ่มากและข้อมูลที่ป้อนเข้าไปก็มหาศาล ใช้เวลาครึ่งเดือน

ทางทีมของไทยได้ทาง VISTEC (Vidyasirimedhi Institute of Science and Technology) ซึ่งเป็นมหาวิทยาลัยที่ ปตท. สนับสนุน เข้ามาช่วย ทำให้ได้เครื่องคอมพิวเตอร์แรง ๆ มาทำการ pre-training  แม้ข้อมูลภาษาไทยจะน้อยกว่าของภาษาอื่นมาก แต่ก็ยังต้องใช้เวลากว่า ๑๐ วันปล่อยเครื่องวิ่งไปตลอดเวลากว่าจะเสร็จ ถือว่านานมาก

หลังจาก pre-training แล้ว เขาลองเอาโมเดลมาแยกประเภทของหัวข้อข่าว แยกอารมณ์บวกลบ เทียบกับโมเดลที่เคยคิดว่าดีที่สุด ปรากฏว่าผลแม่นยำดีกว่าทุกอันจริง ๆ และดีกว่ามากด้วย ซึ่งเหมือนกับภาษาอื่น ๆ ที่ใช้วิธีการเดียวกันนี้

ตอนนี้ถ้าใครสนใจก็ดาวน์โหลด WangchanBERTa มาได้ฟรี แล้วเอาไปฝึกทำงานต่อ ส่วนใหญ่จะได้ผลค่อนข้างดี ไม่ค่อยพลาดเท่าไร
ถ้าให้เปรียบเทียบการพัฒนา NLP ของบ้านเรากับต่างประเทศ ทิ้งห่างกันมากไหม
เขาไปไกลกว่าเรามากเหมือนกันในแง่การนำไปใช้งาน เพราะว่าถ้าเราจะแปลภาษาไทยกับภาษาอื่น เช่น ภาษาจีน ก็ต้องทำคลังข้อมูลขึ้นมา ต้องหาประโยคภาษาไทยมา ๑ ล้านประโยค แล้วหาคนนั่งแปลเป็นภาษาจีน ซึ่งใช้เวลานาน แต่ภาษาอื่นอย่างภาษาอังกฤษเขามีคลังข้อมูลอยู่แล้ว  แต่งานอื่น ๆ เช่น ระบบตอบคำถามอัตโนมัติ ซึ่งใช้ข้อมูลที่เป็นภาษานั้น ๆ แบบนี้จะทำง่ายกว่า

ในส่วนของการวิจัย เช่น การตัดคำภาษาไทย การวิเคราะห์โครงสร้างประโยค เราก็ต้องทำคลังข้อมูลขึ้นมาใหม่ของเราเอง หรือถ้าเป็นงานวิจัยที่เฉพาะเจาะจงขึ้นไปอีก เช่น การหาคำสรรพนามแล้วรู้ว่าคำสรรพนามนี้เขาพูดถึงใครอยู่ อันนี้ยากมาก  หรือในแง่การใช้งาน ถ้าเราจะทำแชตบอตให้พูดคุยเป็นธรรมชาติและเข้าใจบทสนทนา เช่น รู้ว่ากำลังคุยกับใครอยู่ ผู้ชายหรือผู้หญิง จะทำอย่างไรให้ใช้คำสุภาพขึ้น  จะเห็นว่ามันเป็นโจทย์ลักษณะเฉพาะของภาษาไทย ไม่ใช่สิ่งที่เป็นสากลของภาษาอื่น ๆ

การพัฒนา NLP จึงไม่เหมือนกับเทคโนโลยี AI ด้าน computer vision เช่น การจับใบหน้าคน การรู้จำวัตถุต่าง ๆ ในภาพที่เราสามารถเอาโมเดลที่คนอื่นพัฒนาแล้วมาต่อยอด หรือจะเอามาใช้เลยก็ได้ แต่การทำ NLP ภาษาไทยต้องทำขึ้นมาใหม่
แสดงว่าการสร้างคลังข้อมูลมีความสำคัญมาก
ต้องอาศัยหลักการทางภาษาศาสตร์ด้วย ยกตัวอย่างถ้าเราจะสกัดความรู้ออกมาจากข่าวต่าง ๆ ทำเป็น knowledgebased ว่าใครทำอะไร บริษัทไหนทำอะไรอยู่ ก็ต้องรู้ว่าคำนามอยู่ตรงไหนของประโยค คำกริยาอยู่ตรงไหน คุณศัพท์อยู่ตรงไหน ซึ่งเราจะใช้ทฤษฎีของเมืองนอกที่เขาคิดมาโดยตรงไม่ได้  ภาษาไทยคำนามกับคำกริยาแยกกันไม่ค่อยชัด คุณศัพท์กับกริยาก็แยกกันไม่ค่อยชัดด้วย เราก็ต้องมานั่งคิดทฤษฎีว่าจะวิเคราะห์อย่างไรให้รัดกุมและถูกต้อง ให้เป็นประโยชน์ต่อเวลานำไปใช้  เราจะต้องดีไซน์การวิเคราะห์ของเรา เพราะมีหลายแบบ ต้องอาศัยคนที่รู้ทฤษฎีทางภาษาศาสตร์เก่ง ๆ แล้วก็รู้วิธีการเทรนโมเดล

จริง ๆ แล้วสิ่งที่เราล้าหลังกว่าเมืองนอกหรือภาษาอื่นคือจำนวนนักวิจัยที่มีความเชี่ยวชาญด้านนี้ เพราะข้อมูลเราก็พอหาได้ คอมพิวเตอร์ที่แรง ๆ เราก็พอจะหาได้  โมเดลสูตรคำนวณต่าง ๆ ก็มี  แต่พอเราเอาแชตบอตเข้ามาใช้ทำไมก็ยังใช้ไม่ค่อยได้ คนใช้ก็โมโห  เรื่องนี้ขึ้นอยู่กับความเชี่ยวชาญทางภาษาศาสตร์  บทสนทนาทุกอย่าง เช่น เวลาเช็กอินที่โรงแรมหรือโรงพยาบาล มีการออกแบบทั้งนั้น  คุณจะออกแบบบทสนทนาอย่างไร ถ้าบทสนทนาออกนอกสคริปต์ เราจะทำอย่างไรถึงจะกลับเข้ามาอยู่ในสคริปต์ได้อีก

เวลาสอนผมจะให้แบบฝึกหัด เช่น ให้ลองทำแชตบอตรับนัดตัดผม ต้องบอกว่ามีสาขาไหนบ้าง มีช่างกี่คน ราคาเท่าไรว่างกี่โมง  เราต้องจับให้ได้ว่าคนพูดต้องการสาขาไหน ช่างแบบไหน เวลาไหน เวลาลูกค้าอยากเลื่อนเวลานัดเขาจะพูดว่าอะไร แชตบอตจะต้องรับมือกับสิ่งเหล่านี้ได้  ถ้าเกิดบทสนทนาหลุดขึ้นมาต้องทำอย่างไร ต้องขอทวนคำถามไหม หรือถามให้ชัด ๆ ไปเลย ซึ่งก็มีทฤษฎีทางภาษาศาสตร์ว่าเรามีวิธีการคุยกันอย่างไร

เปรียบเทียบจริง ๆ แล้วก็ไม่ต่างจากการสอนคน สมมุติเรามีหน้าบ้านเป็นร้านตัดผม เราก็ต้องสอนพนักงานว่าถ้าลูกค้าเข้ามาให้สวัสดีค่ะ มีนัดไหมคะ เป็นสิ่งที่ต้องถามอยู่แล้ว และพนักงานก็ต้องรู้ว่าลูกค้าเข้ามามีเจตนาอะไรบ้าง อาจมาขอเข้าห้องน้ำก็เป็นไปได้  เวลาเทรนโมเดลเราก็มีฉากเหตุการณ์จำลองรูปแบบต่าง ๆ ซึ่งก็เหมือนกับการฝึกคน
Image
ตอนนี้มีแอปพลิเคชันด้าน NLP ภาษาไทยตัวไหนที่อาจารย์รู้สึกทึ่งบ้าง
แอปพลิเคชันที่ทึ่งมาก ๆ ตอนนี้คือเครื่องถอดเสียงหรือ Transcription ใน Google Doc ใช้ deep learning เปลี่ยนเสียงพูดให้เป็นตัวอักษรภาษาไทยแม่นมาก ถูกต้องกว่า ๙๐ เปอร์เซ็นต์  ผมยังบอกนิสิตเลยว่าไม่ต้องจดเลกเชอร์แล้ว แค่เปิดตัวนี้ไว้ก็เป็นตัวอักษรออกมาให้อัตโนมัติเลย อันนี้เป็นเทคโนโลยีที่เราเคยคิดว่าเป็นสิ่งที่ยากมาก แต่ตอนนี้กลายเป็นว่าแม่นมาก เว้นแต่จะเจอคำยากจริง ๆ ก็จะถอดออกมาผิด อย่างพูดผสมไทยคำอังกฤษคำ เช่น ฟังก์ชันของทีวีเครื่องนี้ ก็จะมีผิดบ้าง

อันนี้เป็นแอปพลิเคชันที่ผมชอบที่สุด เวลาผมต้องเขียนอะไรยาว ๆ บางครั้งก็จะใช้วิธีพูดให้มันพิมพ์ออกมา และพอตัวนี้เสร็จก็เลยมี Siri มี Alexa เพราะต้องเปลี่ยน speech ให้เป็น text ได้ก่อน
ถ้าให้อาจารย์จินตนาการแบบไซไฟ NLP จะทำให้เกิดอะไรขึ้นได้อีก
ผมคิดว่าสิ่งที่คนรอกันอยู่มากที่สุดคือ virtual assistant ที่เก่งจริง ๆ  เท่าที่มีอยู่ตอนนี้ยังไม่เก่ง อย่าง Siri ทำงานได้น้อยมาก  บางงานที่จำเจมาก ๆ เช่น ช่วยเพิ่มนัดเข้าไป calendar หน่อย จริง ๆ เราไม่ควรจะต้องมานั่งคลิกอีกแล้วควรจะแค่พูดแล้วเพิ่มนัดเข้าไปให้ได้เลย และคนก็อยากได้ การพูดคุยที่ natural จริง ๆ ถึงจะสะดวกที่สุด ซึ่งถ้าทำได้มันจะส่งต่อให้โรบอต  สมมุติบุคลากรไม่พออย่างการเช็กอินที่โรงแรมหรือโรงพยาบาล ถ้ามีโรบอตที่พูดคุยกับผู้ป่วยได้ ช่วยพาเขาไปห้องที่ถูกต้องก็จะช่วยลดภาระของพยาบาลที่ต้องรับมือกับงานอื่น ๆ มากอยู่แล้ว  ผมคิดว่าโรบอตที่สามารถสื่อสารภาษาจะเกิดมากขึ้น เพราะทุกคนคุ้นเคยกับการพูดคุย มันจะทำให้ชีวิตของเราดีขึ้นในส่วนนี้
“คนทำวิจัยด้าน AI กำลังหันมามองเรื่อง NLP เพราะภาษาเป็นสิ่งที่ยากที่สุด ยากกว่าด้าน vision หรือการมองเห็น ถ้าเราได้เครื่องแปลภาษาที่สมบูรณ์ที่สุดเหมือนคนแปลแชตบอตที่พูดได้เหมือนคนจนแยกไม่ออกว่าคุยกับคนหรือคุยกับเครื่อง เราถือว่า AI จะไม่มีอะไรให้ทำอีกแล้ว”
แล้วการนำไปใช้ในด้านลบอาจจะเกิดอะไรขึ้นได้บ้าง
เช่น พวกเฟกนิวส์ สแปมเมล สแปมคอมเมนต์ เอาไปทำไอโอ แอ็กหลุม เอาทัวร์ไปลงที่นู่นที่นี่  ซึ่งถ้าใช้ภาษาที่ก๊อบปี้ มาแปะคนก็รู้ว่าเป็นของปลอม  แต่ถ้าใช้ NLP ทำให้เหมือนคนจริง ๆ ทำให้การพูดสาดเสียเทเสียแตกต่างกัน ดูเป็นธรรมชาติ อันนี้จะส่งผลเสียเยอะเลย เจ้าของแพลตฟอร์มก็ต้องมานั่งไล่ตาม

ตอนนี้เป็นประเด็นที่มีการวิจัยกันว่ามันมี potential จะเกิดความเสียหายต่อสังคมในเรื่องอะไรได้บ้าง เช่น การตรวจสอบไอคิวจากการเขียน  ถ้าเกิดเครื่องตรวจผิดแล้วคนเอาไปใช้ตัดสินว่าเข้าโรงเรียนไหนได้ เข้าโรงเรียนไหนไม่ได้ ก็จะเกิดความเสียหาย เขาไม่รู้ว่าเทคโนโลยีเหล่านี้มี bias ในตัวเอง ขึ้นอยู่กับว่าเราจับ bias นั้นได้ไหม เขาไม่รู้ว่าเครื่องก็มีข้อผิดพลาดได้
มีอาชีพอะไรที่อาจจะถูกดิสรัปต์จาก NLP 
ในอนาคตก็เป็นไปได้ที่จะมีโรงแรมซึ่งไม่มีพนักงานต้อนรับเลย คุณเช็กอินผ่านทางแชตบอตหรือไอแพด ได้รหัสแล้วก็กดเข้าห้องคุณได้เลย  น่าจะเป็นงานอะไรที่ซ้ำ ๆ ซาก ๆ ซึ่งเราเคยต้องใช้คนทำเกี่ยวกับภาษา อย่างงานพิสูจน์อักษร คนก็อาจจะยังอยู่ แต่มีเครื่องมาช่วยให้ทำงานได้ดีขึ้นหรือเร็วขึ้น  งานแปลที่ต้องแปลเร็ว ๆ ไม่ต้องการคุณภาพสูงแบบวรรณกรรม ใช้ Google Translate ก็อาจเร็วกว่า ไม่ต้องหาคนแปลเลย
มีปัจจัยอะไรบ้างที่จะช่วยยกระดับแอปพลิเคชัน NLP ภาษาไทยให้เติบโตขึ้นมาก ๆ 
ปัจจัยแรกคืองานวิจัยทางภาษาศาสตร์ ซึ่งเรายังขาดงานวิจัยอีกมาก เพราะว่าขาดคน แล้วการวิจัยเป็นสิ่งที่ AI ยังทำแทนไม่ได้  ปัจจัยที่ ๒ คือ open source software ที่มีคุณภาพดีในระดับหนึ่งให้ใคร ๆ ก็ดาวน์โหลดลงมาใช้ได้ จะช่วยให้บริษัทใหม่ ๆ ที่จะทำอะไรเกี่ยวกับ NLP เริ่มงานได้ทันที ช่วยลดต้นทุนและทำงานออกมาได้เร็วขึ้นมาก อันนี้เป็นสิ่งที่จะยกระดับทั้งอุตสาหกรรมจริง ๆ ซึ่งตอนนี้เราก็ยังขาดอยู่

อีกปัจจัยหนึ่งที่ช่วยได้ คือเงินที่จะทำให้เกิดงานวิจัยและ open source software ขึ้น และต้องได้งานที่มีมาตรฐาน เพราะถ้ามีมาตรฐานคนก็จะเอาไปใช้ ถ้าไม่ดีตั้งแต่ต้น ทุนก็ไม่เข้ามาสนใจ แต่ถ้าทำให้ดีระดับหนึ่งก็จะเกิดคนที่อยากเอาไปใช้ คนลงทุนก็สนใจ มันก็จะวนลูปเป็น ecosystem ซึ่งตอนนี้ของเรายังแห้งแล้ง เราต้องการคนเข้ามาใน community เยอะ ๆ  อยากทำให้วงการนี้พัฒนาไปได้เร็วขึ้น

อย่างงานวิจัยที่ทีมวิจัยของผมทำเป็นโมเดลแปลภาษาไทย-อังกฤษ ก็เป็นตัวอย่างงานวิจัยที่ได้รับการสนับสนุนจากภาคเอกชน ซึ่งก็ต้องขอขอบคุณทางธนาคารไทยพาณิชย์ที่ให้เงินทุนวิจัยเรามา  โมเดลของเราทดสอบแล้วว่ามีคุณภาพใกล้เคียงกับ Google Translate  ใครจะเอาไปพัฒนาต่อก็ไม่ต้องซื้อ Google Translate แล้ว สามารถดาวน์โหลดโมเดลนี้ไปใช้ได้ฟรีเลย
อาจารย์คาดว่า AI กับ NLP จะฉลาดหรือก้าวหน้าไปได้ถึงไหนเมื่อเทียบกับมนุษย์
คนทำวิจัยด้าน AI กำลังหันมามองเรื่อง NLP เพราะภาษาเป็นสิ่งที่ยากที่สุด ยากกว่าด้าน vision หรือการมองเห็น ถ้าเราได้เครื่องแปลภาษาที่สมบูรณ์ที่สุดเหมือนคนแปล แชตบอตที่พูดได้เหมือนคนจนแยกไม่ออกว่าคุยกับคนหรือคุยกับเครื่อง เราถือว่า AI จะไม่มีอะไรให้ทำอีกแล้ว

ถ้าเราจะทดสอบว่าใครมีปัญญาจริง ๆ ก็ลองให้เขาแปลไทยเป็นอังกฤษ หรืออังกฤษเป็นไทย เราจะบอกได้ทันทีว่าเขาเป็นคนฉลาดและรอบรู้  นอกจากต้องฉลาดในเรื่องทั่ว ๆ ไปแล้วก็ต้องรู้ภาษาทั้งสองภาษาด้วย  การพูดคุยโต้ตอบก็เหมือนกัน เราดูที่การพูดคุยก็รู้ว่าใครฉลาดแค่ไหน เพราะการสื่อความหมายมีวิธีพูดได้หลายแบบ ต้องดูบริบทของการพูด ใครพูด พูดกับใคร พูดเรื่องอะไร
ภาษาเป็นสิ่งที่ยอมรับกันว่าทำให้เราฉลาดกว่าสิ่งมีชีวิตอื่น และสิ่งยากที่สุดของ AI ก็คือ NLP แต่ถ้าจะยังมีอะไรที่ยากกว่านั้น คงเป็นการเชื่อมต่อระหว่างความฉลาดทางการมองเห็นกับความฉลาดทางภาษา เช่น ให้เครื่องดูวิดีโอที่มีเสียงและภาพเคลื่อนไหวแล้วบรรยายว่าเห็นอะไร