ระบบไอทีล่มได้ ไม่มีใครเถียง แต่ล่มต่อเนื่องเป็นเดือน สำหรับระบบระดับประเทศที่ประชาชนต้องพึ่งพา อันนี้ไม่ใช่เรื่องที่ยอมรับได้ ต่อให้เป็น production ของ software house ขนาดเล็กก็ตาม

จากข้อมูลที่ปรากฏ ปัญหาไม่ได้เกิดแค่จุดเดียว แต่เกิดหลายชั้น ตั้งแต่สถาปัตยกรรม ระบบ core ส่วนกลาง ไปจนถึงฐานข้อมูล สะท้อนชัดว่าระบบอาจ “ผ่าน test” แค่บนเอกสาร แต่ไม่เคยถูกทดสอบภายใต้โหลดและสภาพการใช้งานจริง

ประเด็นนี้ในเชิงเทคนิค แก้ได้ ซอฟต์แวร์พัง ซ่อมได้ ออกแบบพลาด ก็แก้ใหม่ได้ สิ่งเหล่านี้ไม่ใช่เรื่องใหม่ในโลกไอที และไม่ใช่เรื่องที่ไม่มีทางออก

แต่สิ่งที่ผิดจริง คือวิธีจัดการหลังระบบพัง

ปัญหาใหญ่ไม่ใช่แค่ระบบล่ม แต่คือการจัดการวิกฤตที่ผิดทิศผิดทาง แทนที่จะโฟกัสที่ต้นตอของปัญหา กลับพูดถึงการใช้งบเพิ่มหลักสิบถึงหลักร้อยล้าน หรือแม้แต่การถอยกลับไปใช้ระบบเก่า

ทั้งที่หากระบบไม่เป็นไปตามสัญญา ความรับผิดชอบควรอยู่ที่ vendor ไม่ใช่เรื่องที่สำนักงานประกันสังคมต้องออกมาปกป้อง หรือผลักภาระต่อให้ผู้ประกันตน

ยิ่งไปกว่านั้น ทั้งที่ระบบหลักมีปัญหา ก็ไม่ได้แปลว่าต้องปิดทุกอย่างพร้อมกัน ในเชิงปฏิบัติการ มีทางเลือกให้ใช้จำนวนมาก เช่น

  • เปิดให้บางสาขาที่พร้อมดำเนินการก่อน
  • แบ่งโหลดตามช่วงเวลา หรือทำระบบคิว
  • จำกัดประเภทงานที่เข้าระบบในแต่ละช่วง
  • ใช้ manual หรือ semi-manual flow ชั่วคราวในงานจำเป็น
  • แยกงานเร่งด่วนออกจากงานทั่วไป

แนวทางเหล่านี้อาจไม่สวย อาจไม่สมบูรณ์ แต่ช่วยลดผลกระทบกับประชาชนได้จริง

การเลือก “ปิดทั้งประเทศ” คือทางเลือกที่ง่ายสำหรับระบบ แต่เป็นทางเลือกที่มักง่ายเกินไป

อีกสัญญาณอันตรายคือ การปิดกั้นผู้เชี่ยวชาญ เมื่อมีข้อเสนอให้ผู้เชี่ยวชาญภายนอกเข้าไปช่วยแก้ปัญหา กลับถูกปฏิเสธด้วยเหตุผลเรื่องความลับหรือความปลอดภัย

ในโลกของระบบวิกฤต การให้คนนอกเข้า audit เป็นเรื่องปกติ การไม่ยอมให้ใครเข้าไปดูต่างหาก ที่ควรตั้งคำถาม

ทั้งหมดนี้ทำให้เริ่มหลีกเลี่ยงไม่ได้ว่า หรือปัญหามันหนักเกินกว่าจะยอมรับ อาจไม่ใช่แค่ “แก้ช้า” แต่เป็น “แก้ยาก” หรือ “ยังไม่รู้จะแก้ยังไง”

เพราะการยอมรับว่ามีความผิดพลาดตั้งแต่การออกแบบ อาจมีผลทางสัญญา งบประมาณ และความรับผิดที่ใหญ่เกินไป จึงเลือกเลี่ยงการพูดถึงต้นเหตุ และซื้อเวลาไปเรื่อยๆ โดยให้ประชาชนเป็นคนรับผลกระทบแทน —

ระบบไอทีพัง ไม่ใช่เรื่องน่าอาย แต่การไม่ยอมรับว่ามันพัง ไม่ยอมแก้ที่ต้นเหตุ และไม่ยอมใช้มาตรการบรรเทาผลกระทบที่มีอยู่

อันนี้ไม่ใช่ปัญหาทางเทคนิค แต่มันคือปัญหาการบริหารและการตัดสินใจ