Why Data Scientist should know SEM (structural equation modeling)?

ณ ปัจจุบัน กระแสความนิยมในสายอาชีพ Data Scientist และ Data Engineer ทำให้หลายองค์กรเปิดรับสมัครพนักงานเข้ามาทำโปรเจคเกี่ยวข้องกับการวิเคราะห์ข้อมูลภายในองค์กร เพื่อหวังว่าจะพบ pattern ที่มีค่านำไปสู่การปรับรูปแบบธุรกิจ (Shape business) ในอนาคต ซึ่งที่มาของสายอาชีพ Data Science เหล่านี้มาจากหลากหลายที่มา อาทิ เช่น

  • มีประสบการณ์เป็นนักวิเคราะห์ / Business analyst
  • จบสายไอที ฐานข้อมูล พัฒนาเว็บ สารสนเทศ หรือวิศวกรรมคอมพิวเตอร์
  • จบ ในด้านวิจัยเชิงปริมาณ สังคมศาสตร์ ฟิสิกส์ เศรษฐศาสตร์ วิศวกรรม ฯลฯ
  • เคยทำงานกับองค์กรที่มีชื่อเสียงด้าน Data Science เช่น Google, Facebook, Amazon, Agoda or retail & banking เป็นต้น

Data Scientist ที่เริ่มงานใหม่พบกับความท้าทาย แรงกดดัน ความคาดหวังจากผู้บริหารและคณะทำงานเมื่อต้องเริ่มลงมือจริงมากมาย เช่น พวกเค้าถูกคาดหวังว่า

  • Data Scientist ที่รับเข้ามา ต้องทำงานได้ทันที:

ในความเป็นจริง มันยากมากที่พนักงานใหม่คนหนึ่งจะเรียนรู้วัฏจักรและบริบทของธุรกิจคุณได้อย่างรวดเร็ว เพราะเมื่ออยู่กับงานจริง ๆ มันไม่ง่าย มีข้อยกเว้นมหาศาล มีสิ่งที่คุณไม่ได้บอกพวกเค้าทั้งหมด การเมืองในองค์กร มีข้อมูลที่ไม่ปะติดปะต่อไว้ (บางท่านจะใช้คำว่า ลองของ หรือ วางยา)

  • Data Scientist ที่รับเข้ามา จะต้องค้นพบข้อมูลที่มีค่าทันที:

ในความเป็นจริง หากไม่เคยมีการจัดเก็บข้อมูลอย่างเป็นระบบมาก่อน ข้อมูลอยู่ในลักษณะสะสมเป็น Data Lake ข้อมูลถูกแยกเป็น Silo ไม่เคยมีการ Validate หรือ Cleansing มันนึกไม่ออกเลยว่าเราจะเจอเพชรได้อย่างไร ในเมื่อเราพบแต่ภูเขาข้อมูลขยะ เราจะเจอแต่ correlation แต่ไม่เจอ causal relation

  • Data Scientist ที่รับเข้ามา จะต้องทำเงินได้ทันที:

ข้อนี้ถือเป็นแรงกดดันอย่างมากของสายอาชีพนี้ เป็นเรื่องปกติที่จะถูกให้ออกในช่วง probation (4 เดือน) หาก Data Scientist ไม่สามารถสร้างเงินหรือผลตอบแทนได้ หากเป็นที่ปรึกษา อาจถูกท้าทายว่าการออก campaign ของ Data Scientist จะดีกว่าทีมเอเจนซี่หรือไม่ เป็นเรื่องที่ยากมากหาก Data Scientist ขาดมุมมองธุรกิจที่เฉียบคม ที่จะต้องเชื่อมโยงภารกิจองค์กรกับความคาดหวังลูกค้า ตรวจสอบกระบวนการภายในที่เป็นกลไกขับเคลื่อน และชี้ให้เห็นถึง Talent & Skill ที่สอดรับกับการดำเนินงานของธุรกิจ

  • Data Scientist ที่รับเข้ามา จะต้องคอยเตือนทุก Business Units ได้ทันทีเมื่อมีความเสี่ยง:

ในความเป็นจริงเป็นเรื่องที่ยากมากที่จะต้อง fine tune กระบวนการทางธุรกิจให้เข้าสู่ภาวะ optimal ในเวลาอันรวดเร็ว เพราะ learning cure ด้าน Data literacy ยังไม่คงเส้นคงวา (consistency) อีกทั้ง Data Scientist ต้องมีภาวะผู้นำ สามารถเล่าเรื่องข้อมูลได้อย่าง make sense รู้ว่าเมื่อพูดกับทีมงานแต่ละกลุ่มจะพูดอย่างไร พูดเรื่องอะไร พูดแล้วต้องเกิดการตัดสินใจหรือเห็นพ้องในประเด็นใด

 

ในต่างประเทศมีงานวิจัยศึกษาดูว่า Data Scientist ต้องใช้เวลาเท่าไหร่ ถึงจะเริ่มสร้างงานวิเคราะห์ข้อมูลที่มี Impact กับธุรกิจได้ คำตอบคือ ประมาณ 9 เดือน จะเห็นว่าระยะเวลานานขนาดนี้ จึงทำให้มีผู้บริหารใจดีไม่กี่คนในประเทศไทย ที่จะให้โอกาส ให้เงินลงทุน ให้ทรัพยากร กับ Data Scientist ไปฟรี ๆ โดยไม่ได้ผลตอบแทนเป็นเม็ดเงิน ความคาดหวังเหล่านี้ส่วนหนึ่งมาจากการที่คนในองค์กร ได้ไปฟังการสัมมนาจากหลายแห่งซึ่งระบุว่า Data Scientist คืออาชีพสุดเซ็กซี่ มีขีดความสามารถเกินมนุษย์ทั่วไป จึงอนุมานคิดไปว่า Data Scientist  จะสร้างความได้เปรียบ และสร้างกระแสเงินได้ทันที ผลกระทบและแรงกดดันเหล่านี้ดับฝันของ Young Data Scientist ไปหลายคน เพราะกระโดดไม่ผ่านความคาดหวังของคนในองค์กร

ถึงแม้ว่า Young Data Scientist บางท่านได้เสริมความรู้ด้วยการอบรม เรียนต่อ หรือเข้าค่าย Data Camp หรือเรียนบน MOOC (massive online course) เหล่านี้จะได้แค่การฝึกใช้ tools และ concepts แต่สิ่งที่มีประโยชน์ต่อสายอาชีพที่แท้จริงคือ การลงมือปฏิบัติกับข้อมูล กับธุรกิจขององค์กร จริง ๆ พูดคุยกับ Stakeholder ภายในองค์กรจริงๆ นี่คือสิ่งที่ทุกองค์กรควรส่งเสริม วางโครงสร้าง จัดทำงบประมาณ เพื่อสร้างสถาปัตยกรรมด้านการเก็บข้อมูล วิจัยข้อมูล รวมถึงการนำนวัตกรรมใหม่ ๆ มาใช้

แล้วทำไม Data Scientist ควรรู้จักหลักการที่ชื่อว่า SEM ซึ่งย่อมาจาก structural equation modeling เข้าเรื่องโดยเรานำข้อดีของ SEM มาให้รับทราบ เพื่อที่จะนำข้อค้นพบด้านข้อมูลมาสนองต่อความคาดหวังของคนในองค์กร โดยใช้ระยะเวลาที่ไม่นานนัก ซึ่งประโยชน์ของ SEM มีดังนี้

  • เป็นทางลัดของการวิจัยข้อมูล :

ปกติเวลาเราจะทำ Data Project หากเราเริ่มคิดเองทุกอย่างคงต้องใช้เวลามาก แต่ด้วย SEM นั้นใช้ ทฤษฎีและ Historic data เป็นฐานคิด เราจึง Review ส่วนที่จะนำมา Bench-marking ของเราได้ทันที เราจะทราบองคาพยพของตัวแปร อิทธิพลของปัจจัยสำคัญ รวมถึงทิศทางที่ส่งผลกับตัวแปรตาม เช่น ผลกำไร, ยอดขาย, การลาออก หรือผลิตภาพ ได้ทันที และแน่นอนเวลาไปนำเสนอ เรายังได้ความเชื่อมั่นจาก literature review เหล่านี้อีกด้วย

  • สร้างโมเดลตามสมมุติฐานของ Data Scientist ได้:

ข้อนี้ถือว่าเด่นที่สุดของ SEM ที่ยังไม่หลักสถิติตัวอื่นทำได้ หากเราเปรียบเทียบกับการทำ Propensity model เราจะรู้แค่ Importance factors ที่ส่งผลต่อ likelihood to buy แต่เราไม่ทราบว่า causal relation ของการนำมาซึ่งลูกค้าใหม่ที่คล้ายกับลูกค้าชั้นดีของเรา เราไม่ทราบว่าลูกค้าจะมี life cycle ที่สร้างกระแสเงินในอนาคตหรือไม่ เราไม่ทราบว่ามีความเสี่ยงในการเสียลูกค้ากับกลุ่มใดไป ซึ่ง สรุปง่าย ๆ ว่า หลักการทาง Machine Learning นั้นมักจะสร้างโมเดลที่มีตัวแปรตามครั้งละหนึ่งตัวแปร แต่ SEM สนใจอิทธิพลระหว่างตัวแปรตามหลาย ๆ ตัว (บอกได้ทั้งอิทธิพลทางตรงและทางอ้อม) ซึ่งความเชื่อมโยงนี้เกิดขึ้นจริงในธุรกิจคุณ มันจึงน่าสนใจหากเล่าเรื่องด้วย SEM และที่สำคัญ SEM ใช้กับข้อมูลได้หลากหลายตั้งแต่ข้อมูลจาก ERP, แบบสอบถาม, Social network, ข้อมูลจากเครื่องจักร หรือ IoT เป็นต้น

  • SEM นั้นมีความน่าเชื่อถือสูงมาก:

SEM คือกระบวนการทดสอบตัววัด ทดสอบความสัมพันธ์ ทดสอบอิทธิพลระหว่างตัวแปร ที่มีความแกร่งทางสถิติ และนอกจากนี้ยังบอก error ให้ทราบรายตัววัดได้ด้วย จากจุดแข็งดังกล่าว ทำให้ในการศึกษา ป.เอก แทบทุกสาขาใช้ SEM เป็นเครื่องมือวิจัย (ปัจจุบัน ป.โท ก็นิยมใช้) เพราะสถิติ SEM นั้นโกหกไม่ได้ ข้อเท็จจริงเป็นอย่างไร ก็จะสะท้อนอย่างนั้น ถ้าชุดข้อมูลใดผ่านเกณฑ์ของ SEM ได้ ขอให้ Data Scientist มั่นใจได้เลย ว่าทิศทางของผลลัพธ์ทางธุรกิจจะเป็นแบบใด และธุรกิจขนาดใหญ่ในต่างประเทศมักใช้ SEM เป็นการ feedback ข้อมูลองค์กร และให้ภาพการทำนาย (Predictive) ที่ลด bias ของคนได้ดีทีเดียว

เรานำผลลัพธ์ของ SEM มาเป็นตัวอย่าง ดังภาพด้านล่าง

Screen Shot 2560-10-10 at 10.01.20 AM

จากแผนภาพที่แสดงผลลัพธ์ SEM เป็นข้อมูลที่เกี่ยวข้องกับแนวโน้มการลาออก (พนักงานที่ไม่มีความผูกพัน/หมดใจทำงาน) ว่ามีอิทธิพลเกี่ยวข้องกับตัวแปรใดบ้าง อธิบายโดยง่าย เริ่มจากตัวแปรประกอบไปด้วย 5 กลุ่มตัวแปร คือ

AC: ย่อมาจาก Attitudes Towards Co-Workers : ทัศนคติที่มีต่อเพื่อนร่วมงาน

EP: ย่อมาจาก Environmental Perception : การรับรู้สภาพแวดล้อม อาคาร สถานที่

OC: ย่อมาจาก Organizational Commitment ​​: รู้รับผิดชอบในหน้าที่

JS:  ย่อมาจาก Job Satisfaction : ความพึงพอใจในงานที่ทำอยู่

SI: ย่อมาจาก Stay Intention : แนวโน้มที่จะอยู่กับองค์กรต่อไป

จากผลการวิเคราะห์ให้สังเกตปัจจัยที่มีพลังคือ จาก EP ไป OC มีขนาด 0.595 และจาก OC ไป 0.631 (ตัวเลขที่เป็นสีแดง) ข้อค้นพบที่สำคัญ คือ ถึงแม้ว่าพนักงานจะไม่ค่อยพอใจในงานที่ทำหรือรู้สึกไม่ค่อยดีกับเพื่อนร่วมงาน แต่ถ้าองค์กรมีการออกแบบอาคารสถานที่การทำงาน โอ่โถง สะอาด หรูหรา เป็นสัดส่วน และมอบความรับผิดชอบให้ทำอย่างชัดเจน พวกเค้าจะไม่ค่อยลาออก และจะอยู่กับองค์กรคุณ (ข้อค้นพบนี้ เป็นจริงเฉพาะคนในองค์กรตัวอย่างนี้เท่านั้นนะครับ)

ในการวิเคราะห์ SEM จริง จะมีลูกเล่นอีกหลายอย่าง เช่น การสุ่มข้อมูลแบบ bootstrap เพื่อเพิ่มความแกร่งในการประมาณค่า การวิเคราะห์ multi-groups เพื่อดูว่า เพศ แผนก ต่างกัน จะคิดเหมือนกันไหม การวิเคราะห์แบบ Hierarchical และ Growth curve เป็นต้น

Screen Shot 2560-10-10 at 12.07.21 PM

ปัจจุบันมีผู้พัฒนาซอฟท์แวร์ SEM หลายค่าย ที่นิยมมากที่สุด SPSS AMOS, Lisrel และ Mplus ส่วนรูปแบบการใช้ก็มีทั้งแบบ Commercial, Free trial, และ Open Source ที่ไม่ต้องเสียค่า License เช่น ภาษา R (สามารถทำกับข้อมูลขนาดใหญ่ และซับซ้อนได้) เป็นต้น

รู้อย่างนี้แล้ว Data Scientist นักวิจัยข้อมูลทั้งภาควิชาการและภาคธุรกิจ ลองนำข้อมูลมาสร้าง Model SEM กันนะครับ ต้องเรียนรู้การใช้งานไว้เพราะมีรายละเอียดด้านเทคนิคพอสมควร  เมื่อคุณใช้ SEM เป็น คุณจะมั่นใจเวลาพูดเรื่องข้อมูลกับใคร ๆ

 

Amornthep Thongchiw

www.reinforcebi.com

Hot-line: 08 14910909

 

 

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

w

Connecting to %s