งานสาย Data Science หรืองานสายวิทยาศาสตร์ข้อมูลเป็นที่สนใจในช่วงหลายปีมานี้ เนื่องมาจากการเติบโตของ Big Data หรือชุดข้อมูลขนาดใหญ่ที่ถูกรวบรวมกันอย่างแพร่หลายจากช่วงทางอินเทอร์เน็ตต่างๆงานสายข้อมูล (Data) เป็นการทำงานเกี่ยวกับข้อมูลต้องมีความเข้าใจในข้อมูล ข้อจำกัดและการนำมาใช้เพื่อให้เกิดประโยชน์เป็นอย่างดี และยังต้องเลือกเครื่องมือที่นำมาใช้เพื่อวิเคราะห์ข้อมูลให้ถูกต้อง จึงจำเป็นต้องเข้าใจสถิติและความน่าจะเป็นอย่างดี รวมไปถึงแคลคูลัสพื้นฐาน และ linear algebra ด้วยซึ่งเครื่องมือที่ว่านี้ก็คือ การเขียนโปรแกรมเพื่อการวิเคราะห์ โดยที่นิยมใช้ในสายงานนี้คือ Python และรองลงมาคือ ภาษา R และก็ยังมีความรู้อื่นๆที่ต้องทำความเข้าใจอย่างระบบฐานข้อมูลและวิธีการดึงข้อมูลจากฐานข้อมูลมาใช้ โดยใช้ภาษา SQL และถ้าต้องการทำความเข้าใจการทำโมเดลให้สะท้อนถึงข้อมูลมากขึ้นไปอีกก็ต้องมีความเข้าใจคณิตศาสตร์เป็นอย่างดี ซึ่งในทางสายนี้ก็จะต่อยอดจากสถิติและความน่าจะเป็น ไปเป็น Machine Learningความแตกต่างของ Data Scientist กับนักสถิติคือ นักวิทยาศาตร์ข้อมูลสามารถวิเคราะห์ข้อมูลอย่างพวกข้อความและรูปภาพได้ ในขณะที่นักสถิติวิเคราะห์ได้แต่ข้อมูลตัวเลขหลายๆคนก็สนใจที่จะเข้ามาทำงานในสายงานนี้ ซึ่งเป็นสายทางที่น่าสนใจ และเป็นที่ต้องการ แต่ไม่รู้จะเริ่มจากตรงไหน บทความนี้จะแนะนำคอร์สเรียนฟรีสำหรับเริ่มเรียนด้านวิทยาศาสตร์ข้อมูล คำเตือนคอร์สเรียนฟรีมีเนื้อหาเป็นภาษาอังกฤษทั้งหมด ควรมีพื้นฐานการอ่านและการฟังที่แข็งแรง Khan Academyความรู้ด้านสถิติ และพื้นฐานเลขต่างๆ https://www.khanacademy.org/math/statistics-probabilityความรู้การดึงข้อมูลจากฐานข้อมูล SQL พื้นฐาน https://www.khanacademy.org/computing/computer-programming/sqlKhan Academy เป็นองค์กรไม่แสวงหากำไร สำหรับเนื้อหาคณิตศาสตร์ จะสอนเนื้อหาต่างๆเป็นวีดีโอสั้นๆ และมีแบบฝึกหัดให้ทำ เหมือนข้อสอบ อารมณ์เหมือนเกมส์ มีระดับความสามารถ สำหรับเนื้อหา SQL จะสอนเป็นคลิปสั้นๆ แล้วมีแบบฝึกหัดให้ลองเขียนโปรแกรม SQL สร้างฐานข้อมูล สร้างตาราง เรียกข้อมูลจากฐานข้อมูล แล้วก็จะตรวจว่าสิ่งที่เราเขียนถูกต้องไหม โดยส่วนตัวคือชอบมากๆเหมือนเล่นเกมส์เลยKaggleความรู้พื้นฐานการเขียนโปรแกรมภาษาทั้งหมดสำหรับ Data Science https://www.kaggle.com/learn/overviewซึ่งในคอร์สก็จะมีสอนตั้งแต่พื้นฐาน Python การทำความสะอาดข้อมูล Machine Learning การทำ Visualisation หรือการแสดงผลข้อมูลในรูปแบบต่างๆใช้ มีเนื้อหาต่างๆครอบคลุมทุกเรื่องที่ Data Science ใช้ แต่แบบฝึกหัดไม่เยอะมากนักโดยคอร์สของ Kaggle จะให้เราอ่านแล้วก็ทำความเข้าใจเอง แล้วก็ทำแบบฝึกหัดโดยใช้ Kaggle Notebookข้อดีอีกอย่างของ Kaggle คือเป็นศูนย์รวมของ Data Scientist ต่างๆ จะมีข้อมูลฟรี โปรเจคฟรีให้เราทำความเข้าใจ รวมไปถึงมีสมุด Kaggle Notebook ที่รวบรวมโค้ดที่เขียนเพื่อวิเคราะห์เรื่องต่างๆไว้แล้วและสามารถเขียน Markdown หรือคำอธิบายไว้ด้วย ซึ่งเป็นที่นิยมอย่างมากในสายงานนี้เหมาะสำหรับคนที่เรียนรู้ได้ไว และอยากลองทำโปรเจคจากข้อมูลจริง เป็นการเรียนแบบเรียนจากการทำจริงๆและเมื่อเราพอเข้าใจสถิติ การทำโมเดล แล้วก็ถึงเวลาลองเล่นกับข้อมูลจริง กับ Kaggle Competition มีทั้งแบบให้เราเรียนรู้ และแข่งขันเอาเงินได้อีกด้วย https://www.kaggle.com/competitionsแนะนำโปรเจคสำหรับมือใหม่จากคำแนะนำของคุณ Yash BhawsaClassification Problem: https://www.kaggle.com/c/titanicRegression Problem: https://www.kaggle.com/c/house-prices-advanced-regression-techniquesComputer Vision: https://www.kaggle.com/c/digit-recognizerImage Processing: https://www.kaggle.com/c/facial-keypoints-detectionNatural Language Processing: https://www.kaggle.com/c/word2vec-nlp-tutorial ซึ่งในช่วงแรกที่เรารู้สึกว่ามันยาก เราก็อาจตีความได้สองทางคือ เรายังไม่ถนัด ถ้าเราชอบทำงานกับข้อมูลจริงๆ ไม่มีอะไรแพ้ความพยายาม หรือ จริงๆแล้วเราอาจจะไม่เหมาะกับการทำงานสายนี้จริงๆ เราก็ไม่มีความจำเป็นที่จะต้องอยู่กับสิ่งที่เราไม่ชอบหรอก หางานที่เราทำแล้วมีความสุขทำดีกว่า เครดิตขอบคุณภาพหน้าปกจาก Canvasขอบคุณภาพประกอบบทความ โดยคุณ Gerd Altmann จาก Pixabay