ผมเชื่อมาตลอดว่างานวิจัยทางด้าน Predict ง่ายกว่าทางด้าน Mining เพราะงานวิจัยทาง Predict ส่วนใหญ่แล้วพิสูจน์ได้ด้วยการหา ROC curve จะมีส่วนน้อยเท่านั้นที่ต้องใช้ Domain Expert เข้ามาช่วย เช่น งานทางด้าน Facial Recognition เป็นต้น
ในขณะที่งานวิจัยทางด้าน Mining ส่วนใหญ่แล้วต้องพิสูจน์ด้วย Domain Expert เพราะการหาความรู้จากข้อมูล มันไม่สามารถพิสูจน์ได้ถ้าไม่มีผู้เชี่ยวชาญมาตัดสินว่าถูกหรือผิด เช่น ถ้าจะจัดกลุ่มข้อมูลทางด้านโรคภัยไข้เจ็บ พอจัดกลุ่มได้ก็ต้องให้หมอมาตัดสิน หรือถ้าจะจัดกลุ่มข้อมูลการออกฤทธิ์ของยา ก็ต้องให้เภสัชกรมาตัดสิน เป็นต้น
การให้ผู้เชี่ยวชาญหรือ Domain Expert มาตัดสินว่าถูกหรือผิดมีต้นทุนที่สูง เพราะอย่างแรกก็คือเราจะไปรู้จัก Domain Expert เหล่านั้นได้ยังไง อย่างสองก็คือจะเอาอะไรมาพิสูจน์ว่าคนเหล่านั้นเป็น Domain Expert จริง และอย่างสามก็คือจะเอาวิธีการเก็บสถิติหรือเก็บผลสำรวจแบบไหน เพื่อมาใช้ประกอบการตัดสินผลการ Mining โดย Domain Expert
เมื่อเป็นเช่นนี้แล้ว มันจึงทำให้ดูเหมือนกับว่า งานวิจัยทางด้าน Mining ค่อนข้างจะโน้มเอียงไปในทางสังคมศาสตร์อยู่ไม่น้อย!!!
จริง ๆ แล้วผมก็เห็นงานวิจัยหลายชิ้นที่พยายามหนีการพิสูจน์ด้วย Domain Expert โดยการใช้ Internal Indices เข้ามาช่วย เช่นการพิสูจน์ว่าผลการจัดกลุ่มถูกต้องมั้ย โดยการพิสูจน์ย้อนกลับว่าสมาชิกในแต่ล่ะกลุ่ม เกาะกลุ่มกันใกล้ศูนย์กลางจริงหรือเปล่า ซึ่งแล้วไงล่ะ? มันก็แค่พิสูจน์ว่ามันเกาะกลุ่มจริง แต่มันก็ยังคงพิสูจน์ไม่ได้อยู่ดีว่าการเกาะกลุ่มของมัน สมเหตุสมผลกับสภาวะความเป็นจริงหรือเปล่า จนกว่าจะมี Domain Expert มาตัดสินมัน
ผมกำลังคิดว่า มันน่าจะมีวิธีพิสูจน์ผลการ Mining แบบกลาง ๆ ซึ่งอยู่ระหว่างวิธีใช้ Domain Expert กับวิธีใช้ Internal Indices ซึ่งต้องดูกันต่อไป