AI基準 排行榜 MMLU AI評估 AI入門 AI基準測試(Benchmark)是什麼?為什麼你不能完全相信排行榜? 聽說過MMLU、HumanEval、GPT-4比Claude強?這些都來自AI基準測試!但研究者最近發現:很多基準測試其實不太可靠。本文用簡單語言解釋AI基準測試是什麼,以及為什麼你不能盲目相信排行榜。 2026年4月1日