どうしてChatbot ArenaではGPT-4o miniがClaude 3.5 Sonnetを上回るのか?
「Chatbot Arena」は人間によるLLMの性能評価をまとめたサイト。特徴は全てのモデルにとって完全に平等な評価が下されること。
従来のベンチマークテストは特定のモデルに有利なことがあるかもしれないし、そもそも採点者によってモデル評価が変わってしまうこともある。
だからChatbot Arenaでは、大量の人が自分で問題文を考えて、それを名前の明かされない二つのモデルに解かせ、より良い方を選ぶ・・・というテストを採用した。
それが何万、十何万と繰り返されれば・・・間違いなく平等で正確なLLMベンチマークになるのは明らか。
なのに・・・
GPT-4o mini、llama 3.1のスコアがClaude 3.5よりも上なのだ。
もしかしてClaude 3.5が最高なのは日本国内だけ?
いや、日本語性能にしぼってもClaudeの評価は低い。
何で???
考えてみる
という事で、今回はこの「LMSYSベンチマークだとGPT-4o miniの評価がやたら高い&Claude 3.5の評価が低い」問題について考えてみたいと思います。
だって、おかしくないですか?
こんなものは個人の感想になってしまうけど、Claudeは他のモデルよりも賢いです。
僕に限った話ではなく、日本では誰もの共通認識だと思います。
英語圏でも、多少議論はあるものの、少なくとも「一番人気」は同じです。
にも関わらず低く出るスコア。
LMSYSは他のベンチマークと違ってごまかしや対策が効きません。ユーザーの評価がそのまま表されるんです。本当に多くの人が「Claude 3.5がベストだ」とこうも明確に感じるなら、それはスコアに反映されるはず。
ということは・・・実際には、Claude 3.5の性能がより高いという考えそのものが群衆心理による誤りなのでしょうか?あるいは陰謀論者のように、ただ事実と異なるだけの答えを見出した自分に陶酔しているだけとか?
結論、そんなことはないと思うのです。僕自身出来る限り多くのモデルを触るようにしていますが、それでもClaudeは他よりも優れている・・・と思うし、少なくともGPT-4o miniを下回ることはありえない。
だからいくつか、このベンチマークが現実の評価を反映していないと主張するための根拠を考えてみました。
根拠
1. "OpenAIとLMSYSが結託してテスト結果を操作してるんだ!!!!"
一部SNSや掲示板でまことしやかにささやかれるこの噂。拠り所としてはGPT-4oや4o mini発表時の二社の馴れ合いが挙げられますが、
まあ嘘でしょう。
2. ユーザープロンプトが現実に即していない
基本的にChatbot Arenaで自分の現実の課題を解決してもらいたいと考える人は少ないはず。答えを知っていて、そのうえで投げかける・・・とか、多くの人が知っている常識的な質問をしてなんとか良し悪しを見出そうとする方がずっと多いと思います。
それがClaude 3.5 Sonnetのようなより自由な生成をするモデルにとって不利に働いているという可能性。
3. よりそれっぽい方を評価してしまう
正確に簡潔に一言の答えを述べるより、長く詳細で論理的な文章を生成するより、上から下までさっと理解できる、ほどよく長くて簡単な答えをするモデルが無条件により良く思えてしまうことがあるかもしれません。もしそうだとしたら、それはモデル性能というよりもシステムプロンプト設計の問題です。
4. 長期的な対話の評価をしない
2と同じ理由で、ユーザーはそう本格的に長く会話しようとはしないでしょう。インターフェースも良いものではないし。一般的に小型のモデルは(そう、GPT-4o miniのような)大型のモデルよりも早い段階、短い対話のうちに性能を大きく落とします。これがユーザー評価で見過ごされている可能性は十分にあり得ると思います。
結論
考えたところで答えがわかるわけでは無いのですが、いくつか最もらしい理由も考えつきました。
もしかしてLMSYS Chatbot Arenaは一般的に言われるほど信頼のおけるテストではないのかもしれません。もっと理路整然とした問題、採点基準のある従来型のベンチマークテストの方が役に立つことがあるのかも。
だとしたら、今以上に正確にモデル評価を可能とする新型のChatbot Arenaみたいなものも作る余地がありそうです。
Comments