437 ดร. อรรถพล ธำรงรัตนฤทธิ์

สัมภาษณ์และเรียบเรียง : สุวัฒน์ อัศวไชยชาญ
ถอดเสียงสัมภาษณ์ : วรรณิดา มหากาฬ
เวลา : ๑ ชั่วโมง ๓๔ นาที
วันที่ : ๒๔ มิถุนายน ๒๕๖๔
สถานที่ : ห้องซูมออนไลน์
ภาพ : คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย

ถ้าเป็นเมื่อ ๒๐-๓๐ ปีที่แล้วจะแยกกันค่อนข้างชัดเจน สมัยก่อน computational linguistics คือการศึกษาคุณสมบัติต่าง ๆ ของภาษา ทั้งเรื่องเสียง โครงสร้าง การเปลี่ยนแปลงปัจจัยทางสังคม โดยใช้โมเดลทางคณิตศาสตร์มาสร้างแบบจำลองทำให้เราเข้าใจภาษาได้ดีขึ้น พอระยะหลังเทคโนโลยีพัฒนาขึ้นก็เกิด natural language processing ซึ่งนำเอาโมเดลที่เราใช้ศึกษาภาษานั้นมาทำเป็นโปรแกรมคอมพิวเตอร์เพื่อทำงานด้านภาษาแทนเรา เช่น แปลภาษา สรุปความ สรุปประเด็น วิเคราะห์อารมณ์ความรู้สึก เปลี่ยนตัวหนังสือให้เป็นเสียงพูด

คำว่า natural language หมายถึงภาษาที่เป็นธรรมชาติซึ่งคนใช้พูดคุยสื่อสารกันและพัฒนาการในตัวมันเอง สมัยก่อนเทคโนโลยีคอมพิวเตอร์ยังไม่ดีพอ เวลาเอามาใช้ในโลกความเป็นจริงก็เลยยังดูไม่ค่อยเป็นธรรมชาติ ลองนึกถึงโทรศัพท์รุ่นเก่า ๆ เวลาเราหาหมายเลขโทรศัพท์โดยใช้เสียงก็ต้องพูดให้เหมือนเป๊ะ เช่น “เต้” (เน้นเสียงชื่อเล่นของอาจารย์เอง) ก็ต้อง “เต้” ชัด ๆ เหมือนเดิม แต่ตอนนี้เทคโนโลยีดีขึ้น เราบอก Siri ได้ว่า “ช่วยโทรศัพท์หาเต้หน่อย” (เสียงพูดคุยปรกติ) ก็จะเป็นประโยคธรรมชาติมากขึ้น ทำให้กลายเป็นกระแสที่มีแอปพลิเคชันต่าง ๆ มากมายเอามาใช้ในช่วง ๑๐ ปีผ่านมา

โครงการแรก ๆ คือใช้เทคโนโลยีใหม่ ๆ ที่เรียกว่า deep learning มาช่วยตัดคำภาษาไทย เพราะเป็นพื้นฐานของการจะไปวิเคราะห์ประโยค วิเคราะห์ข้อความ เราต้องตัดคำเป็นก่อน เพราะคำเป็นตัวสื่อความหมาย แต่ก่อนการตัดคำจะใช้แนวทางการดูคำในพจนานุกรม แต่ deep learning จะดูบริบทของคำมากขึ้น ดูว่าพยางค์ไหนน่าจะไปด้วยกันได้มากกว่า แม้ว่าคำนั้นจะไม่เคยเห็นมาก่อนในพจนานุกรมก็สามารถตัดได้ ถึงจะยังไม่แม่นยำ ๑๐๐ เปอร์เซ็นต์

มีโครงการเกี่ยวกับข้อกฎหมาย ให้ NLP ดูข้อความในคำฟ้องแล้วหาว่ากฎหมายข้อไหนสัมพันธ์กับคำฟ้อง เพื่อจะช่วยดึงข้อกฎหมายที่เกี่ยวข้องมาอ้างอิง ทำให้งานของทนายความง่ายขึ้น เพราะตอนนี้การค้นกฎหมายและกฎข้อบังคับต่าง ๆ ทำได้ยาก

อีกโครงการหนึ่งที่เพิ่งเริ่มคือการสร้างเครื่องที่สามารถอ่านสภาพอารมณ์ของคนผ่านทาง Twitter ว่าขึ้นลงอย่างไร อารมณ์คนสำคัญมาก เพราะจะส่งผลต่อผลการเลือกตั้ง ไปจนถึงราคาตลาดหุ้น เป็นสิ่งสะท้อนว่าสุขภาพจิตของคนแต่ละกลุ่มเป็นอย่างไร และในอนาคตเราจะสามารถทำนายอารมณ์ของคนว่าเป็นอย่างไรโดยดูจากการทวีตที่ผ่านมาของเขา

พอทำตัวตัดคำเสร็จ ผมเปิดเป็น open source software ใครจะเอาไปใช้ก็ได้โดยไม่มีค่าใช้จ่าย ผมคิดว่านี่เป็นหน้าที่ของนักวิชาการ เพื่อให้อุตสาหกรรมทั้งหมดยกระดับและพัฒนาไปพร้อม ๆ กัน ไม่ใช่มีใครได้เปรียบเสียเปรียบ ก็มีบริษัทซอฟต์แวร์หนึ่งนำไปใช้กับงานวิเคราะห์การตลาด เพื่อดูข้อความบนสื่อออนไลน์ เช่น ทวิตเตอร์ ยูทูบ เฟซบุ๊ก ว่าคนพูดถึงผลิตภัณฑ์ เช่น ผงซักฟอก อย่างไรบ้าง คืออยากรู้ว่าตลาดสนใจอะไร ยี่ห้อไหน ฟีเจอร์แบบไหน

อีกบริษัทหนึ่งสนใจเรื่องราคาสินค้าโภคภัณฑ์ เช่น ข้าวโพด แป้งสาลี ถั่วเหลือง ซึ่งมีการค้าขายคล้ายหุ้น เขาก็ต้องการดูเพื่อซื้อตอนราคาถูกและขายตอนราคาแพง เขาก็ต้องติดตามข่าวดินฟ้าอากาศ ข่าวการเมืองเศรษฐกิจ รายงานผลผลิตจากประเทศต่าง ๆ เพื่อดูความเคลื่อนไหวของราคาว่าจะซื้อขายตอนไหน ตัวตัดคำจะช่วยดึงคำสำคัญจากข่าวออกมาให้และนำมาใส่โมเดล deep learning อีกแบบหนึ่งที่เราพัฒนาขึ้นมาให้ทำนายทิศทางราคาในอีก ๓ วัน ๗ วัน หรือ ๒ สัปดาห์ถัดไปจากข่าวเมื่อ ๑๐ วันก่อน

“มีอยู่ไม่กี่ภาษาในโลกที่เขียนด้วยระบบที่ไม่แบ่งคำ ไทย จีน พม่า และภาษาของประเทศอื่นๆ แถวบ้านเรา แต่ก็เป็นโจทย์ที่เราต้องมาแก้ใน NLP ซึ่งความจริงถ้าใช้ deep learning เราไม่ต้องทำอะไรมากนอกจากสร้างตัวอย่างให้โมเดลดู”

เราจะให้ training data คือข้อมูลตัวอย่างว่า input แบบนี้ output ควรจะประมาณไหน ถ้าข่าวเป็นแบบนี้ ราคาควรจะเป็นประมาณไหน อาจจะป้อนข่าวเข้าไป ๒ ปีย้อนหลังและราคาที่เรารู้แล้วว่าเป็นอย่างไร โมเดลก็จะพยายามเรียนรู้ให้ได้ว่า input แบบนี้ ราคาจะต้องเป็นแบบนี้ เป็นการเรียนรู้จากอดีต พอเราให้ข่าวปัจจุบัน โมเดลก็จะพยายามทำนายราคาในอนาคตให้ใกล้เคียงที่สุด ซึ่งคนทำโมเดลก็ต้องมีเทคนิคในการปรับโมเดล จะให้มันเรียนรู้เร็วหรือช้าขนาดไหน ถ้าเรียนรู้เร็วก็อาจข้ามอะไรบางอย่าง ถ้าเรียนรู้ช้าต้องใช้เวลา และจะทำอย่างไรให้โมเดลทำนายได้แม่นยำ

deep learning ได้แรงบันดาลใจจากการทำงานของสมองคนที่เรียกว่า neural network คือโครงข่ายของเซลล์ประสาทสมองที่มีเซลล์ประสาทจำนวนมากเชื่อมต่อกัน เมื่อจำลองด้วยคอมพิวเตอร์ก็ทำเป็นหน่วยการคำนวณที่นำมาต่อ ๆ กัน โดย deep learning จะต่อเรียงกันหลาย ๆ ชั้น จึงเป็นที่มาของคำว่า deep มันเป็นโมเดลที่เหมือน black box เราใส่ input เข้าไปให้โมเดลบวกลบคูณหารเท่านั้น ๆ ครั้งเป็นผลลัพธ์ออกมา แต่สูตรการคำนวณค่อนข้างซับซ้อนมากจนเราไม่รู้การทำงานข้างในจริง ๆ ของมัน แต่ทำงานได้ผลมากที่สุด ยังไม่มีโมเดลไหนเอาชนะ deep learning ได้เลย นี่คือเทคโนโลยีล่าสุดที่คนวิจัยด้าน AI ให้ความสนใจ

มีอยู่ไม่กี่ภาษาในโลกที่เขียนด้วยระบบที่ไม่แบ่งคำ ไทย จีน พม่า และภาษาของประเทศอื่น ๆ แถวบ้านเรา แต่ก็เป็นโจทย์ที่เราต้องมาแก้ใน NLP ซึ่งความจริงถ้าใช้ deep learning เราไม่ต้องทำอะไรมากนอกจากสร้างตัวอย่างให้โมเดลดู คือตัดคำด้วยมือจำนวนมาก ๆ อาจเป็นแสน ๆ คำ เครื่องจะเรียนรู้จากตัวอย่าง เรียนรู้จากการเลียนแบบคนเพราะว่าคนเก่งภาษามาก ต่อให้คุณไม่ได้เรียนหนังสือสูงก็ยังตัดคำได้ เป็นเพราะอะไร แสดงว่านี่ไม่ใช่เรื่องลึกลับซับซ้อนมาก

โมเดลที่เราคิดขึ้นก็ต้องรู้หลายอย่าง อย่างแรกคือต้องจำคำให้ได้ โดยเฉพาะคำที่เจอบ่อย ๆ อย่างที่ ๒ คือเราเทรนโมเดลให้รู้หลักการสะกดคำของภาษาไทย เพราะว่าเวลานำไปใช้งานจริงจะต้องเจอคำที่ไม่เคยเห็นมาก่อนตลอดเวลา เช่น ชื่อเฉพาะ ชื่อแอปฯ ชื่อเพลงใหม่ วงดนตรีใหม่ เราจะพึ่งการจำคำอย่างเดียวไม่ได้ ต้องพึ่งหลักการสะกดคำ

จริง ๆ การเขียนคำภาษาไทยไม่ได้มีรูปแบบมากมาย เด็ก ป. ๑ ป. ๒ ก็รู้เกือบหมดแล้ว แต่ความยากของภาษาไทยคือคำหนึ่งมีหลายพยางค์ได้ ไม่ใช่แค่หนึ่งพยางค์เสมอไป มันมีความกำกวมอยู่ เช่น ถ้าจะบอกว่า “ตู้เสื้อผ้า” เป็นหนึ่งคำ เพราะมีความเฉพาะเจาะจง แล้ว “ตู้เก็บแก้ว” ควรจะเป็นหนึ่งหรือสามคำกันแน่ ถ้าดูด้วยหลักเดียวกันกับตู้เก็บแก้วก็ควรจะเป็นหนึ่งคำเหมือนกัน

มันพบปัญหาอย่างการจะสร้างโมเดลมาวิเคราะห์อารมณ์ของข้อความในสื่อออนไลน์ เช่น comment บน Facebook ว่าเป็น hate speech หรือเปล่า เป็น abusive หรือสแปมไหม ซึ่งต้องอาศัยความเข้าใจความหมายและลักษณะของภาษา ถ้าเราใช้ deep learning เรียนรู้ตามปรกติเริ่มจากไม่รู้อะไรเลย คือเริ่มจาก ๐ แล้วถ้าตัวอย่างประโยคมีแค่ ๑ หมื่นประโยค มันก็จะรู้แค่นั้น แต่เทียบกับคน คนไม่เคยเริ่มจากศูนย์ คนรู้ภาษามาก่อนแล้ว แต่อาจยังไม่เคยแยกแยะว่าแบบไหนเป็น abusive หรือ hate speech ก็เลยเกิดแนวคิดว่าโมเดลนี้ผิด มันจะไปไหนไม่ได้ไกล

แนวคิดใหม่คือให้เครื่องเรียนรู้ภาษามาก่อนว่ามีไวยากรณ์อย่างไร มีคำศัพท์อะไรบ้าง ความหมายของคำศัพท์คืออะไรเรียกว่าการ pre-training คือก่อนจะ training ก็ pre-training ให้ deep learning model เข้าใจวิธีการดูความหมายของคำว่าต้องดูคำที่อยู่รอบ ๆ ซึ่งเป็นตัวบอกไวยากรณ์ แล้วคำนาม บุพบท วิเศษณ์ ต้องอยู่ข้างหลังข้างหน้าอย่างไร โมเดลจะเรียนรู้จากการ pre-training ด้วย ข้อความจำนวนมหาศาลที่ป้อนเข้าไป เสร็จแล้วค่อยไปเทรนในงานเฉพาะเจาะจงต่อ คือฝึกภาษาก่อนแล้วค่อยฝึกทำ

การเปลี่ยนพาราไดม์ในวงการวิจัย NLP ว่าต้อง pre-training ก่อน training ทำให้โมเดลใหม่ชนะโมเดลเก่าทุกครั้ง เป็นแนวคิดที่เกิดขึ้นมาประมาณ ๕ ปีที่แล้วเอง และมาเร็วมาก สมัยผมเรียนยังไม่ทัน ตอนนี้ผมเป็นอาจารย์ต้องสอนเรื่องนี้แล้ว แต่ยังไม่มีใครเขียนเป็นตำราจริงจังเลย ถือเป็นสิ่งที่ปฏิวัติวงการเหมือนกัน เพราะเราอยู่กับวิธีการเดิม ๆ มานานมาก ๒๐-๓๐ ปี

มีแล้วชื่อว่า WangchanBERTa จริง ๆ แล้วมาจาก BERT ซึ่ง Google เป็นคนคิดเทคนิคนี้ เขาทำให้หลายภาษามากแต่ไม่ได้ทำแบบดี ๆ ให้ภาษาไทย แล้ว Facebook ก็ทำอีกเวอร์ชันหนึ่งคล้าย ๆ กันคือ RoBERTa ทีมนักวิจัยของไทยนำ BERT มา pre-training ด้วยข้อความภาษาไทยจากหน้าเว็บไซต์ทุกเว็บไซต์ที่เขาสามารถค้นหามาได้ แต่ปรากฏว่าได้ข้อมูลมาไม่ได้มากมายเหมือนอย่างภาษาอังกฤษ ซึ่งการทำ pre-training ต้องการข้อมูลมาก ๆ และกระบวนการ pre-
training จะทำแค่ครั้งเดียว เพราะค่า pre-training แพงมาก ต้องใช้คอมพิวเตอร์ที่แรงจริง ๆ หลายเครื่อง อย่าง Google กับ Facebook เขาต้องใช้เป็นร้อยเครื่อง เนื่องจากโมเดลใหญ่มากและข้อมูลที่ป้อนเข้าไปก็มหาศาล ใช้เวลาครึ่งเดือน

ทางทีมของไทยได้ทาง VISTEC (Vidyasirimedhi Institute of Science and Technology) ซึ่งเป็นมหาวิทยาลัยที่ ปตท. สนับสนุน เข้ามาช่วย ทำให้ได้เครื่องคอมพิวเตอร์แรง ๆ มาทำการ pre-training แม้ข้อมูลภาษาไทยจะน้อยกว่าของภาษาอื่นมาก แต่ก็ยังต้องใช้เวลากว่า ๑๐ วันปล่อยเครื่องวิ่งไปตลอดเวลากว่าจะเสร็จ ถือว่านานมาก

หลังจาก pre-training แล้ว เขาลองเอาโมเดลมาแยกประเภทของหัวข้อข่าว แยกอารมณ์บวกลบ เทียบกับโมเดลที่เคยคิดว่าดีที่สุด ปรากฏว่าผลแม่นยำดีกว่าทุกอันจริง ๆ และดีกว่ามากด้วย ซึ่งเหมือนกับภาษาอื่น ๆ ที่ใช้วิธีการเดียวกันนี้

ตอนนี้ถ้าใครสนใจก็ดาวน์โหลด WangchanBERTa มาได้ฟรี แล้วเอาไปฝึกทำงานต่อ ส่วนใหญ่จะได้ผลค่อนข้างดี ไม่ค่อยพลาดเท่าไร

เขาไปไกลกว่าเรามากเหมือนกันในแง่การนำไปใช้งาน เพราะว่าถ้าเราจะแปลภาษาไทยกับภาษาอื่น เช่น ภาษาจีน ก็ต้องทำคลังข้อมูลขึ้นมา ต้องหาประโยคภาษาไทยมา ๑ ล้านประโยค แล้วหาคนนั่งแปลเป็นภาษาจีน ซึ่งใช้เวลานาน แต่ภาษาอื่นอย่างภาษาอังกฤษเขามีคลังข้อมูลอยู่แล้ว แต่งานอื่น ๆ เช่น ระบบตอบคำถามอัตโนมัติ ซึ่งใช้ข้อมูลที่เป็นภาษานั้น ๆ แบบนี้จะทำง่ายกว่า

ในส่วนของการวิจัย เช่น การตัดคำภาษาไทย การวิเคราะห์โครงสร้างประโยค เราก็ต้องทำคลังข้อมูลขึ้นมาใหม่ของเราเอง หรือถ้าเป็นงานวิจัยที่เฉพาะเจาะจงขึ้นไปอีก เช่น การหาคำสรรพนามแล้วรู้ว่าคำสรรพนามนี้เขาพูดถึงใครอยู่ อันนี้ยากมาก หรือในแง่การใช้งาน ถ้าเราจะทำแชตบอตให้พูดคุยเป็นธรรมชาติและเข้าใจบทสนทนา เช่น รู้ว่ากำลังคุยกับใครอยู่ ผู้ชายหรือผู้หญิง จะทำอย่างไรให้ใช้คำสุภาพขึ้น จะเห็นว่ามันเป็นโจทย์ลักษณะเฉพาะของภาษาไทย ไม่ใช่สิ่งที่เป็นสากลของภาษาอื่น ๆ

การพัฒนา NLP จึงไม่เหมือนกับเทคโนโลยี AI ด้าน computer vision เช่น การจับใบหน้าคน การรู้จำวัตถุต่าง ๆ ในภาพที่เราสามารถเอาโมเดลที่คนอื่นพัฒนาแล้วมาต่อยอด หรือจะเอามาใช้เลยก็ได้ แต่การทำ NLP ภาษาไทยต้องทำขึ้นมาใหม่

ต้องอาศัยหลักการทางภาษาศาสตร์ด้วย ยกตัวอย่างถ้าเราจะสกัดความรู้ออกมาจากข่าวต่าง ๆ ทำเป็น knowledgebased ว่าใครทำอะไร บริษัทไหนทำอะไรอยู่ ก็ต้องรู้ว่าคำนามอยู่ตรงไหนของประโยค คำกริยาอยู่ตรงไหน คุณศัพท์อยู่ตรงไหน ซึ่งเราจะใช้ทฤษฎีของเมืองนอกที่เขาคิดมาโดยตรงไม่ได้ ภาษาไทยคำนามกับคำกริยาแยกกันไม่ค่อยชัด คุณศัพท์กับกริยาก็แยกกันไม่ค่อยชัดด้วย เราก็ต้องมานั่งคิดทฤษฎีว่าจะวิเคราะห์อย่างไรให้รัดกุมและถูกต้อง ให้เป็นประโยชน์ต่อเวลานำไปใช้ เราจะต้องดีไซน์การวิเคราะห์ของเรา เพราะมีหลายแบบ ต้องอาศัยคนที่รู้ทฤษฎีทางภาษาศาสตร์เก่ง ๆ แล้วก็รู้วิธีการเทรนโมเดล

จริง ๆ แล้วสิ่งที่เราล้าหลังกว่าเมืองนอกหรือภาษาอื่นคือจำนวนนักวิจัยที่มีความเชี่ยวชาญด้านนี้ เพราะข้อมูลเราก็พอหาได้ คอมพิวเตอร์ที่แรง ๆ เราก็พอจะหาได้ โมเดลสูตรคำนวณต่าง ๆ ก็มี แต่พอเราเอาแชตบอตเข้ามาใช้ทำไมก็ยังใช้ไม่ค่อยได้ คนใช้ก็โมโห เรื่องนี้ขึ้นอยู่กับความเชี่ยวชาญทางภาษาศาสตร์ บทสนทนาทุกอย่าง เช่น เวลาเช็กอินที่โรงแรมหรือโรงพยาบาล มีการออกแบบทั้งนั้น คุณจะออกแบบบทสนทนาอย่างไร ถ้าบทสนทนาออกนอกสคริปต์ เราจะทำอย่างไรถึงจะกลับเข้ามาอยู่ในสคริปต์ได้อีก

เวลาสอนผมจะให้แบบฝึกหัด เช่น ให้ลองทำแชตบอตรับนัดตัดผม ต้องบอกว่ามีสาขาไหนบ้าง มีช่างกี่คน ราคาเท่าไรว่างกี่โมง เราต้องจับให้ได้ว่าคนพูดต้องการสาขาไหน ช่างแบบไหน เวลาไหน เวลาลูกค้าอยากเลื่อนเวลานัดเขาจะพูดว่าอะไร แชตบอตจะต้องรับมือกับสิ่งเหล่านี้ได้ ถ้าเกิดบทสนทนาหลุดขึ้นมาต้องทำอย่างไร ต้องขอทวนคำถามไหม หรือถามให้ชัด ๆ ไปเลย ซึ่งก็มีทฤษฎีทางภาษาศาสตร์ว่าเรามีวิธีการคุยกันอย่างไร

เปรียบเทียบจริง ๆ แล้วก็ไม่ต่างจากการสอนคน สมมุติเรามีหน้าบ้านเป็นร้านตัดผม เราก็ต้องสอนพนักงานว่าถ้าลูกค้าเข้ามาให้สวัสดีค่ะ มีนัดไหมคะ เป็นสิ่งที่ต้องถามอยู่แล้ว และพนักงานก็ต้องรู้ว่าลูกค้าเข้ามามีเจตนาอะไรบ้าง อาจมาขอเข้าห้องน้ำก็เป็นไปได้ เวลาเทรนโมเดลเราก็มีฉากเหตุการณ์จำลองรูปแบบต่าง ๆ ซึ่งก็เหมือนกับการฝึกคน

แอปพลิเคชันที่ทึ่งมาก ๆ ตอนนี้คือเครื่องถอดเสียงหรือ Transcription ใน Google Doc ใช้ deep learning เปลี่ยนเสียงพูดให้เป็นตัวอักษรภาษาไทยแม่นมาก ถูกต้องกว่า ๙๐ เปอร์เซ็นต์ ผมยังบอกนิสิตเลยว่าไม่ต้องจดเลกเชอร์แล้ว แค่เปิดตัวนี้ไว้ก็เป็นตัวอักษรออกมาให้อัตโนมัติเลย อันนี้เป็นเทคโนโลยีที่เราเคยคิดว่าเป็นสิ่งที่ยากมาก แต่ตอนนี้กลายเป็นว่าแม่นมาก เว้นแต่จะเจอคำยากจริง ๆ ก็จะถอดออกมาผิด อย่างพูดผสมไทยคำอังกฤษคำ เช่น ฟังก์ชันของทีวีเครื่องนี้ ก็จะมีผิดบ้าง

อันนี้เป็นแอปพลิเคชันที่ผมชอบที่สุด เวลาผมต้องเขียนอะไรยาว ๆ บางครั้งก็จะใช้วิธีพูดให้มันพิมพ์ออกมา และพอตัวนี้เสร็จก็เลยมี Siri มี Alexa เพราะต้องเปลี่ยน speech ให้เป็น text ได้ก่อน

ผมคิดว่าสิ่งที่คนรอกันอยู่มากที่สุดคือ virtual assistant ที่เก่งจริง ๆ เท่าที่มีอยู่ตอนนี้ยังไม่เก่ง อย่าง Siri ทำงานได้น้อยมาก บางงานที่จำเจมาก ๆ เช่น ช่วยเพิ่มนัดเข้าไป calendar หน่อย จริง ๆ เราไม่ควรจะต้องมานั่งคลิกอีกแล้วควรจะแค่พูดแล้วเพิ่มนัดเข้าไปให้ได้เลย และคนก็อยากได้ การพูดคุยที่ natural จริง ๆ ถึงจะสะดวกที่สุด ซึ่งถ้าทำได้มันจะส่งต่อให้โรบอต สมมุติบุคลากรไม่พออย่างการเช็กอินที่โรงแรมหรือโรงพยาบาล ถ้ามีโรบอตที่พูดคุยกับผู้ป่วยได้ ช่วยพาเขาไปห้องที่ถูกต้องก็จะช่วยลดภาระของพยาบาลที่ต้องรับมือกับงานอื่น ๆ มากอยู่แล้ว ผมคิดว่าโรบอตที่สามารถสื่อสารภาษาจะเกิดมากขึ้น เพราะทุกคนคุ้นเคยกับการพูดคุย มันจะทำให้ชีวิตของเราดีขึ้นในส่วนนี้

“คนทำวิจัยด้าน AI กำลังหันมามองเรื่อง NLP เพราะภาษาเป็นสิ่งที่ยากที่สุด ยากกว่าด้าน vision หรือการมองเห็น ถ้าเราได้เครื่องแปลภาษาที่สมบูรณ์ที่สุดเหมือนคนแปลแชตบอตที่พูดได้เหมือนคนจนแยกไม่ออกว่าคุยกับคนหรือคุยกับเครื่อง เราถือว่า AI จะไม่มีอะไรให้ทำอีกแล้ว”

เช่น พวกเฟกนิวส์ สแปมเมล สแปมคอมเมนต์ เอาไปทำไอโอ แอ็กหลุม เอาทัวร์ไปลงที่นู่นที่นี่ ซึ่งถ้าใช้ภาษาที่ก๊อบปี้ มาแปะคนก็รู้ว่าเป็นของปลอม แต่ถ้าใช้ NLP ทำให้เหมือนคนจริง ๆ ทำให้การพูดสาดเสียเทเสียแตกต่างกัน ดูเป็นธรรมชาติ อันนี้จะส่งผลเสียเยอะเลย เจ้าของแพลตฟอร์มก็ต้องมานั่งไล่ตาม

ตอนนี้เป็นประเด็นที่มีการวิจัยกันว่ามันมี potential จะเกิดความเสียหายต่อสังคมในเรื่องอะไรได้บ้าง เช่น การตรวจสอบไอคิวจากการเขียน ถ้าเกิดเครื่องตรวจผิดแล้วคนเอาไปใช้ตัดสินว่าเข้าโรงเรียนไหนได้ เข้าโรงเรียนไหนไม่ได้ ก็จะเกิดความเสียหาย เขาไม่รู้ว่าเทคโนโลยีเหล่านี้มี bias ในตัวเอง ขึ้นอยู่กับว่าเราจับ bias นั้นได้ไหม เขาไม่รู้ว่าเครื่องก็มีข้อผิดพลาดได้

ในอนาคตก็เป็นไปได้ที่จะมีโรงแรมซึ่งไม่มีพนักงานต้อนรับเลย คุณเช็กอินผ่านทางแชตบอตหรือไอแพด ได้รหัสแล้วก็กดเข้าห้องคุณได้เลย น่าจะเป็นงานอะไรที่ซ้ำ ๆ ซาก ๆ ซึ่งเราเคยต้องใช้คนทำเกี่ยวกับภาษา อย่างงานพิสูจน์อักษร คนก็อาจจะยังอยู่ แต่มีเครื่องมาช่วยให้ทำงานได้ดีขึ้นหรือเร็วขึ้น งานแปลที่ต้องแปลเร็ว ๆ ไม่ต้องการคุณภาพสูงแบบวรรณกรรม ใช้ Google Translate ก็อาจเร็วกว่า ไม่ต้องหาคนแปลเลย

ปัจจัยแรกคืองานวิจัยทางภาษาศาสตร์ ซึ่งเรายังขาดงานวิจัยอีกมาก เพราะว่าขาดคน แล้วการวิจัยเป็นสิ่งที่ AI ยังทำแทนไม่ได้ ปัจจัยที่ ๒ คือ open source software ที่มีคุณภาพดีในระดับหนึ่งให้ใคร ๆ ก็ดาวน์โหลดลงมาใช้ได้ จะช่วยให้บริษัทใหม่ ๆ ที่จะทำอะไรเกี่ยวกับ NLP เริ่มงานได้ทันที ช่วยลดต้นทุนและทำงานออกมาได้เร็วขึ้นมาก อันนี้เป็นสิ่งที่จะยกระดับทั้งอุตสาหกรรมจริง ๆ ซึ่งตอนนี้เราก็ยังขาดอยู่

อีกปัจจัยหนึ่งที่ช่วยได้ คือเงินที่จะทำให้เกิดงานวิจัยและ open source software ขึ้น และต้องได้งานที่มีมาตรฐาน เพราะถ้ามีมาตรฐานคนก็จะเอาไปใช้ ถ้าไม่ดีตั้งแต่ต้น ทุนก็ไม่เข้ามาสนใจ แต่ถ้าทำให้ดีระดับหนึ่งก็จะเกิดคนที่อยากเอาไปใช้ คนลงทุนก็สนใจ มันก็จะวนลูปเป็น ecosystem ซึ่งตอนนี้ของเรายังแห้งแล้ง เราต้องการคนเข้ามาใน community เยอะ ๆ อยากทำให้วงการนี้พัฒนาไปได้เร็วขึ้น

อย่างงานวิจัยที่ทีมวิจัยของผมทำเป็นโมเดลแปลภาษาไทย-อังกฤษ ก็เป็นตัวอย่างงานวิจัยที่ได้รับการสนับสนุนจากภาคเอกชน ซึ่งก็ต้องขอขอบคุณทางธนาคารไทยพาณิชย์ที่ให้เงินทุนวิจัยเรามา โมเดลของเราทดสอบแล้วว่ามีคุณภาพใกล้เคียงกับ Google Translate ใครจะเอาไปพัฒนาต่อก็ไม่ต้องซื้อ Google Translate แล้ว สามารถดาวน์โหลดโมเดลนี้ไปใช้ได้ฟรีเลย

คนทำวิจัยด้าน AI กำลังหันมามองเรื่อง NLP เพราะภาษาเป็นสิ่งที่ยากที่สุด ยากกว่าด้าน vision หรือการมองเห็น ถ้าเราได้เครื่องแปลภาษาที่สมบูรณ์ที่สุดเหมือนคนแปล แชตบอตที่พูดได้เหมือนคนจนแยกไม่ออกว่าคุยกับคนหรือคุยกับเครื่อง เราถือว่า AI จะไม่มีอะไรให้ทำอีกแล้ว

ถ้าเราจะทดสอบว่าใครมีปัญญาจริง ๆ ก็ลองให้เขาแปลไทยเป็นอังกฤษ หรืออังกฤษเป็นไทย เราจะบอกได้ทันทีว่าเขาเป็นคนฉลาดและรอบรู้ นอกจากต้องฉลาดในเรื่องทั่ว ๆ ไปแล้วก็ต้องรู้ภาษาทั้งสองภาษาด้วย การพูดคุยโต้ตอบก็เหมือนกัน เราดูที่การพูดคุยก็รู้ว่าใครฉลาดแค่ไหน เพราะการสื่อความหมายมีวิธีพูดได้หลายแบบ ต้องดูบริบทของการพูด ใครพูด พูดกับใคร พูดเรื่องอะไร

ภาษาเป็นสิ่งที่ยอมรับกันว่าทำให้เราฉลาดกว่าสิ่งมีชีวิตอื่น และสิ่งยากที่สุดของ AI ก็คือ NLP แต่ถ้าจะยังมีอะไรที่ยากกว่านั้น คงเป็นการเชื่อมต่อระหว่างความฉลาดทางการมองเห็นกับความฉลาดทางภาษา เช่น ให้เครื่องดูวิดีโอที่มีเสียงและภาพเคลื่อนไหวแล้วบรรยายว่าเห็นอะไร