บทบาทของอัลกอริทึมในชีวิตของเราเพิ่มขึ้นอย่างรวดเร็ว ตั้งแต่การแนะนำผลการค้นหาออนไลน์หรือเนื้อหาในฟีดโซเชียลมีเดียของเราไปจนถึงเรื่องที่สำคัญกว่า เช่น การช่วยให้แพทย์ระบุความเสี่ยงมะเร็ง ของเรา แต่เราจะรู้ได้อย่างไรว่าเราสามารถเชื่อถือการตัดสินใจของอัลกอริทึมได้? ในเดือนมิถุนายนผู้ขับขี่เกือบ 100 คนในสหรัฐอเมริกาได้เรียนรู้วิธีที่ยากที่บางครั้งอัลกอริทึมอาจผิดพลาดได้ Google Maps ทำให้พวกเขาทั้งหมดติดอยู่บนถนนส่วนตัวที่เต็มไปด้วยโคลนในทางอ้อมที่ล้มเหลวเพื่อ
หลบหนีรถติดที่มุ่งหน้าไปยังสนามบินนานาชาติเดนเวอร์ในโคโลราโด
ความผิดพลาดของ Google Maps ส่งคนขับ Colorado ไปที่ถนนด้านหลังที่เต็มไปด้วยโคลน
ในขณะที่สังคมของเราต้องพึ่งพาอัลกอริธึมสำหรับคำแนะนำและการตัดสินใจมากขึ้นเรื่อยๆ จึงกลายเป็นเรื่องเร่งด่วนที่จะต้องจัดการกับปัญหาที่ยากเย็นแสนเข็ญว่าเราจะไว้ใจพวกเขา ได้อย่างไร
อัลกอริทึมมักถูกกล่าวหาว่ามีอคติและเลือกปฏิบัติ พวกเขาสร้างความกังวลจากนักการเมืองสหรัฐฯท่ามกลางการอ้างว่าเรามีชายผิวขาวที่พัฒนาอัลกอริธึมการจดจำใบหน้าซึ่งได้รับการฝึกฝนให้ทำงานได้ดีเฉพาะกับชายผิวขาวเท่านั้น ในทั้งสองกรณี มนุษย์เป็นผู้ควบคุมอัลกอริธึมเหล่านี้และวิธีการทำงานของอัลกอริทึมเหล่านี้ หากอัลกอริทึมมีข้อบกพร่องก็ถือเป็นการกระทำของเรา
ดังนั้นก่อนที่เราจะลงเอยด้วยรถติดที่เต็มไปด้วยโคลน (หรือตามตัวอักษร!) ในเชิงเปรียบเทียบ มีความจำเป็นเร่งด่วนที่จะต้องกลับมาทบทวนวิธีที่มนุษย์เราเลือกเพื่อเน้นการทดสอบกฎเหล่านั้นและได้รับความเชื่อถือในอัลกอริทึม
อัลกอริทึมนำไปทดสอบชนิดของ
มนุษย์เป็นสิ่งมีชีวิตที่น่าสงสัยโดยธรรมชาติ แต่พวกเราส่วนใหญ่สามารถเชื่อได้ด้วยหลักฐาน
ด้วยตัวอย่างการทดสอบที่เพียงพอ – พร้อมคำตอบที่ถูกต้อง – เราพัฒนาความไว้วางใจหากอัลกอริทึมให้คำตอบที่ถูกต้องอย่างสม่ำเสมอ ไม่ใช่แค่ตัวอย่างที่ชัดเจนง่ายๆ แต่สำหรับตัวอย่างที่ท้าทาย สมจริง และหลากหลาย จากนั้นเราจะมั่นใจได้ว่าอัลกอริทึมนั้นไม่มีอคติและเชื่อถือได้
ฟังดูง่ายพอใช่มั้ย? แต่นี่เป็นวิธีทดสอบอัลกอริทึมหรือไม่? มันยากกว่าที่คิดเพื่อให้แน่ใจว่าตัวอย่างการทดสอบไม่มีอคติและเป็นตัวแทนของสถานการณ์ที่เป็นไปได้ทั้งหมดที่อาจเกิดขึ้นได้
โดยทั่วไปแล้ว เราจะใช้ตัวอย่างเกณฑ์มาตรฐานที่ ได้รับการศึกษาเป็นอย่างดี เนื่องจากสามารถหาได้ง่ายจากเว็บไซต์ Microsoft มีฐานข้อมูลใบหน้าคนดังสำหรับทดสอบอัลกอริธึม
การจดจำใบหน้า แต่เพิ่งถูกลบไปเนื่องจากปัญหาความเป็นส่วนตัว
การเปรียบเทียบอัลกอริทึมยังง่ายกว่าเมื่อทดสอบบนเกณฑ์มาตรฐานที่ใช้ร่วมกัน แต่ตัวอย่างการทดสอบเหล่านี้มักไม่ค่อยได้รับการพิจารณาถึงอคติ ยิ่งไปกว่านั้น ประสิทธิภาพของอัลกอริทึมมักถูกรายงานโดยเฉลี่ยในตัวอย่างการทดสอบ
น่าเสียดายที่การรู้ว่าอัลกอริทึมทำงานได้ดีโดยเฉลี่ยไม่ได้บอกอะไรเราเลยว่าเราจะเชื่อถือได้หรือไม่ในบางกรณี
ไม่ใช่เรื่องน่าแปลกใจที่แพทย์จะไม่เชื่ออัลก อริทึม ของGoogle สำหรับการวินิจฉัยโรคมะเร็งซึ่งมีความแม่นยำถึง 89% โดยเฉลี่ย แพทย์จะรู้ได้อย่างไรว่าผู้ป่วยของพวกเขาเป็นหนึ่งใน 11% ที่โชคร้ายที่มีการวินิจฉัยที่ไม่ถูกต้อง?
อ่านเพิ่มเติม: รักษาหรือหลอกลวง: เราถามผู้คนว่าพวกเขารู้สึกอย่างไรเกี่ยวกับการแบ่งปันข้อมูลการออกกำลังกายกับบริษัทประกัน
และที่ขัดแย้งกันก็คือแนวทางที่ห้องปฏิบัติการวิจัยทั่วโลกใช้การเกร็งกล้ามเนื้ออัลกอริทึม กระบวนการตรวจสอบโดยเพื่อนทางวิชาการช่วยเสริมขั้นตอนการทดสอบ ที่สืบทอดมาและ ไม่ค่อยมีการตั้งคำถาม
อัลกอริทึมใหม่สามารถเผยแพร่ได้หากโดยเฉลี่ยแล้วดีกว่าอัลกอริทึมที่มีอยู่ตามตัวอย่างเกณฑ์มาตรฐานที่ได้รับการศึกษาอย่างดี หากวิธีนี้ไม่สามารถแข่งขันได้ ก็จะถูกซ่อนไว้จากการตรวจสอบโดยเพื่อน หรือมีการนำเสนอตัวอย่างใหม่ที่อัลกอริทึมดูมีประโยชน์
ด้วยวิธีนี้ แสงที่อบอุ่นและประจบสอพลอจะส่องไปยังอัลกอริธึมที่เผยแพร่ใหม่แต่ละรายการ โดยพยายามเพียงเล็กน้อยเพื่อทดสอบจุดแข็งและจุดอ่อนของมัน และนำเสนอหูดและทั้งหมด เป็นเวอร์ชันวิทยาการคอมพิวเตอร์ของนักวิจัยทางการแพทย์ที่ไม่สามารถเผยแพร่ผลการทดลองทางคลินิกฉบับเต็มได้
เนื่องจากความไว้วางใจในอัลกอริทึมมีความสำคัญมากขึ้น เราจำเป็นต้องอัปเดตวิธีการนี้อย่างเร่งด่วนเพื่อตรวจสอบว่าตัวอย่างการทดสอบที่เลือกนั้นเหมาะสมกับวัตถุประสงค์หรือไม่ จนถึงตอนนี้ นักวิจัยถูกขัดขวางจากการวิเคราะห์ที่เข้มงวดมากขึ้นเนื่องจากขาดเครื่องมือที่เหมาะสม
เราได้สร้างแบบทดสอบความเครียดที่ดีขึ้น
หลังจากการค้นคว้ามากว่าทศวรรษ ทีมของฉันได้เปิดตัวเครื่องมือวิเคราะห์อัลกอริทึมออนไลน์ใหม่ที่ชื่อว่าMATILDA : Melbourne Algorithm Test Instance Library with Data Analytics
ช่วยให้อัลกอริทึมการทดสอบความเครียดมีความเข้มงวดมากขึ้นโดยการสร้างภาพที่มีประสิทธิภาพของปัญหา แสดงสถานการณ์หรือตัวอย่างทั้งหมดที่อัลกอริทึมควรพิจารณาสำหรับการทดสอบที่ครอบคลุม
MATILDA ระบุจุดแข็งและจุดอ่อนเฉพาะของอัลกอริทึมแต่ละรายการ โดยแนะนำว่าอัลกอริทึมใดที่มีให้ใช้งานภายใต้สถานการณ์ต่างๆ และเหตุผล
ตัวอย่างเช่น หากฝนตกเมื่อเร็วๆ นี้ทำให้ถนนที่ไม่ได้ปิดกลายเป็นโคลน อัลกอริทึม “เส้นทางที่สั้นที่สุด” บางอย่างอาจไม่น่าเชื่อถือ เว้นแต่จะสามารถคาดการณ์ผลกระทบของสภาพอากาศที่อาจเกิดขึ้นกับเวลาเดินทางเมื่อแนะนำเส้นทางที่เร็วที่สุด เว้นแต่นักพัฒนาจะทดสอบสถานการณ์ดังกล่าว พวกเขาจะไม่มีทางรู้เกี่ยวกับจุดอ่อนดังกล่าวจนกว่าจะสายเกินไปและเราติดอยู่ในโคลนตม
MATILDA ช่วยให้เราเห็นความหลากหลายและความครอบคลุมของการวัดประสิทธิภาพ และควรออกแบบตัวอย่างการทดสอบใหม่ให้เต็มทุกซอกทุกมุมของพื้นที่ที่เป็นไปได้ซึ่งอัลกอริทึมสามารถถูกขอให้ทำงาน
รูปภาพด้านล่างแสดงชุดสถานการณ์ (จุด) ที่หลากหลายสำหรับปัญหาประเภทหนึ่งของ Google Maps แต่ละสถานการณ์จะแตกต่างกันไปตามสภาพ เช่น ตำแหน่งต้นทางและปลายทาง เครือข่ายถนนที่ใช้ได้ สภาพอากาศ เวลาเดินทางบนถนนสายต่างๆ และข้อมูลทั้งหมดนี้ถูกจับทางคณิตศาสตร์และสรุปโดยพิกัดสองมิติของแต่ละสถานการณ์ในพื้นที่
เว็บแท้ / ดัมมี่ออนไลน์