LLM推論速度比較表

モデル名
量子化
ハード構成
読込速度
推論速度
フレームワーク
バックエンド
OS
パラメータ
ソース
備考
Mistral Instruct 7BQ4_K_MRaspberry Pi5不明2.35llama.cpp不明不明7Link
Mistral Instruct 7BQ4i7-7700HQ不明3不明不明不明7Link
Mistral Instruct 7BQ4M1不明12不明不明不明7Link
Mistral Instruct 7BQ4RTX 4060 Ti不明44不明不明不明7Link
Mistral Instruct 7BQ4P40不明45不明不明不明7Link
Mistral Instruct 7BQ4M1 Max不明58不明不明不明7Link
Mistral Instruct 7BQ4RTX 3060不明59不明不明不明7Link
Mistral Instruct 7BQ4M1 Ultra不明70不明不明不明7Link
Mistral Instruct 7BQ4RTX 4070不明70不明不明不明7Link
Mistral Instruct 7BQ4RTX 3090不明120不明不明不明7Link
Mistral Instruct 7BQ4RTX 4090不明140不明不明不明7Link
llama 3 Instruct 70B不明Tesla P40 x2不明3不明不明不明70Link
llama 3 Instruct 70BQ4M1 Max不明6不明不明不明70Link
llama 2 7BQ4_0Radeon PRO W79002832.2891.65llama.cppROCm不明7Link
llama 2 7BQ4_0Radeon RX 7900 XTX3197.94100.74llama.cppROCm不明7Link
llama 2 7BQ4_0RTX 40908044.07157.44llama.cppROCm不明7Link
llama 2 7BQ4_0RTX 30904325.43136.71llama.cppROCm不明7Link
llama 3 8BQ4_0EPYC 7B13 8xDDR4-320083.8827.72llama.cpp-不明8Link
llama 3 8BQ4_0Radeon Instinct M125295.2529.12llama.cppROCm 6.1不明8Link
llama 3 8BQ4_0Radeon PRO VII585.4542.73llama.cppROCm 6.1不明8Link
llama 2 13BQ4_K_MRTX 4090690.1578.27ollamaCUDA不明13Link
llama 2 7BQ4_K_MRTX 40901148.29123.31ollamaCUDA不明7Link
llama 2 7BQ4_K_MM2 Ultra 192GB361.1892.26ollama不明不明7Link
llama 2 13BQ4_K_MM2 Ultra 192GB211.255.49ollama不明不明13Link
llama 2 70BQ4_K_MM2 Ultra 192GB53.5414.38ollama不明不明70Link
Mistral Instruct 7BQ6_KM1 Pro CPU不明14.8LMStudio不明不明7Linkおそらくトータルt/s
Mistral Instruct 7BQ6_KM1 Pro GPU不明19.4LMStudio不明不明7Linkおそらくトータルt/s
Mistral Instruct 7BQ6_KRyzen 7 7840U不明7.3LMStudio不明不明7Linkおそらくトータルt/s
Mistral Instruct 7BQ6_KRadeon 780M不明5LMStudio不明不明7Linkおそらくトータルt/s
Mistral Instruct 7BQ6_KRyzen 5 7535HS不明7.4LMStudio不明不明7Linkおそらくトータルt/s
Mistral Instruct 7BQ6_KRTX 4060 Mobile OC不明37.9LMStudio不明不明7Linkおそらくトータルt/s
Mistral Instruct 7BQ6_KRyzen 7 7800x3d不明9.7LMStudio不明不明7Linkおそらくトータルt/s
Mistral Instruct 7BQ6_KRTX 4080 OC不明78.1LMStudio不明不明7Linkおそらくトータルt/s
Mistral Instruct 7BQ6_KRTX 4090 OC不明108.5LMStudio不明不明7Linkおそらくトータルt/s
Mistral Instruct 7BQ6_KM3 Pro 12Core 18GB CPU不明17.9LMStudio不明不明7Linkおそらくトータルt/s
Mistral Instruct 7BQ6_KM3 Pro 12Core 18GB GPU不明21.1LMStudio不明不明7Linkおそらくトータルt/s
Mistral Instruct 7BQ6_KM1 Pro不明12.1LLM Farm不明不明7Linkおそらくトータルt/s, iPad Pro
Mistral Instruct 7BQ6_Kcore i7 14700k不明9.8LMStudio不明不明7Linkおそらくトータルt/s
Mistral Instruct 7BQ6_KRyzen Z1 Extreme不明5.3LMStudio不明不明7Linkおそらくトータルt/s
Mistral Instruct 7BQ6_KRTX 4080 SUPER不明71.6LMStudio不明不明7Linkおそらくトータルt/s
Mistral Instruct 7BQ6_KRTX 4070 Ti SUPER不明62LMStudio不明不明7Linkおそらくトータルt/s
Mistral Instruct 7BQ6_KRTX 4070 SUPER不明58.2LMStudio不明不明7Linkおそらくトータルt/s
Mistral Instruct 7BQ6_KRadeon RX 7900 XTX不明70.1LMStudio不明不明7Linkおそらくトータルt/s
Mistral Instruct 7BQ6_KRadeon RX 6800XT 16GB不明52.9LMStudio不明不明7Linkおそらくトータルt/s
Mistral Instruct 7BQ6_KRTX 3070 Ti不明41.8LMStudio不明不明7Linkおそらくトータルt/s
Mistral Instruct 7BQ6_KRyzen 5900HX不明7LMStudio不明不明7Linkおそらくトータルt/s
llama 2 7BQ4_K_MEPYC 9374F 12xDDR5-480015034llama.cpp-Linux7Link
llama 2 7BQ8_0EPYC 9374F 12xDDR5-480012324llama.cpp-Linux7Link
llama 2 13BQ4_K_MEPYC 9374F 12xDDR5-48008020llama.cpp-Linux13Link
llama 2 13BQ4_8_0EPYC 9374F 12xDDR5-48006514llama.cpp-Linux13Link
llama 2 70BQ4_K_MEPYC 9374F 12xDDR5-4800165.8llama.cpp-Linux70Link
llama 2 70BQ4_8_0EPYC 9374F 12xDDR5-4800123.7llama.cpp-Linux70Link
llama 2 7BQ4_K_MThreadripper 1950X 4xDDR4-24003911llama.cpp-Linux7Link
llama 2 7BQ8_0Threadripper 1950X 4xDDR4-2400327.7llama.cpp-Linux7Link
llama 2 13BQ4_K_MThreadripper 1950X 4xDDR4-2400206llama.cpp-Linux13Link
llama 2 13BQ4_8_0Threadripper 1950X 4xDDR4-2400174.3llama.cpp-Linux73Link
llama 2 70BQ4_K_MThreadripper 1950X 4xDDR4-24003.91.1llama.cpp-Linux70Link
Nemtron 4 340BQ8_0EPYC 9374F4.340.72llama.cpp-Ubuntu?430Link
Llama 3 70Bfp16EPYC 9374F20.974.01llama.cpp-不明70Linkコンテキスト1024
Llama 3 70Bfp16EPYC 9374F + RTX 4090105.433.97llama.cpp-不明70Linkコンテキスト1024, レイヤーオフロードなし
Cohere Command R+fp16EPYC 9374F8.42.55llama.cpp-不明104Linkコンテキスト1024
Cohere Command R+fp16EPYC 9374F + RTX 409070.470.77llama.cpp-不明104Linkコンテキスト1024, レイヤーオフロードなし
Mixtral 8x22BQ8_0EPYC 9374F22.416.44llama.cpp-不明104Linkコンテキスト1024
Mixtral 8x22B-v0.1Q5_K_MEPYC 9654 x2不明5.9llama.cpp-不明104Link
llama 3 70BQ2_KEPYC 9654 x2不明6llama.cpp-不明70Link
llama 3 70BQ5_K_MEPYC 9654 x2不明3.8llama.cpp-不明70Link
llama 3 8Bfp16Threadripper 7960X 4xDDR5-6400 + RTX 4090702.2849.13Ollama-不明8Link
llama 3 70BQ4Threadripper 7960X 4xDDR5-6400 + RTX 409015.84.61Ollama-不明70Link
Cohere Command R 35BQ4_K_MThreadripper 7960X 4xDDR5-6400 + RTX 4090123.9118.27Ollama-不明35Link
llava 34BQ4_K_MThreadripper 7960X 4xDDR5-6400 + RTX 40901040.5132.21Ollama-不明34Link
qwen2 72BQ4Threadripper 7960X 4xDDR5-6400 + RTX 409014.414.44Ollama-不明72Link
WizardLM 2 8x22BQ4Threadripper 7960X 4xDDR5-6400 + RTX 409011.285.85Ollama-不明141Link
WizardLM 2 7Bfp16Threadripper 7960X 4xDDR5-6400 + RTX 40901888.6752.75Ollama-不明8Link
WizardLM 2 8x22BQ4Ryzen 9 5950X 2xDDR4 + RTX 3090不明2.3Ollama-不明141Link
llama 3 70BQ4P40 x2不明4llama.cpp-不明141Link
WizardLM 2 8x22BQ4RTX 4090 x2 + RTX 3080 Ti不明5.6llama.cpp-不明141Link