Loose-Info.com
Last Update 2026/03/15
TOP - 各種テスト - LLM - ローカルLLMの実測値比較 Llama 3.1 [日本語プロンプト]

低スペック寄りのPCでローカルLLMを動作させた際の記録です。
LLM以外の仮想マシンなどが起動され、多少負荷がかかった状態で実行しています。
ベンチマークなどでLLMの性能を評価する内容ではありません。

検証用PC

OS

Debian GNU/Linux 12 (bookworm)

CPU

Intel(R) Core(TM) i5-14400F

GPU

GeForce RTX 3060 12GB

メモリ

DDR4 PC4-25600 32GB × 4

SSD

crucial P310 CT1000P310SSD8-JP


構築環境 : Docker + Ollama (特別な設定などは無い状態)

検証用プロンプト

おすすめの日本の絶景を教えてください。東西南北、10箇所程度、日本語で。

Llama 3.1 [日本語プロンプト]

GPU無し
8b-instruct-q4_K_M(8.72TPS)   8b-instruct-q5_K_M(7.41TPS)   70b-instruct-q4_K_M(0.96TPS)  
GPU使用
8b-instruct-q4_K_M(60.4TPS)   8b-instruct-q5_K_M(52.2TPS)   70b-instruct-q4_K_M(1.17TPS)  

・TPS(tokens/s) は eval_count / eval_duration により算出
・モデルロード済みの検証は省略

llama3.1:8b-instruct-q4_K_M(GPU無し)

Model architecture llama parameters 8.0B context length 131072 embedding length 4096 quantization Q4_K_M 2026-02-13 total_duration(合計時間) : 18216254072 (18.216s) load_duration(モデルのロード時間) : 2823679621 ( 2.824s) prompt_eval_count(評価されたプロンプトのトークン数) : 37 prompt_eval_duration(プロンプトの評価時間) : 1312874022 ( 1.313s) eval_count(生成トークン数) : 122 eval_duration(生成時間) : 13993402929 (13.993s) real 0m18.227s user 0m0.024s sys 0m0.012s メモリ使用量(RSS) : 5458156 KB ------------------------------------------------- 【生成結果に関する検証】 ・紹介ポイントは6箇所。東海、関東、九州の3地方に分割 東西南北は無視 ・言語混同無し ・情報に間違いが多い(正解は1箇所のみ) (例)「東海地方: 三方五湖(石川県)」 ・文章が無くリストのみ -------------------------------------------------

llama3.1:8b-instruct-q5_K_M(GPU無し)

Model architecture llama parameters 8.0B context length 131072 embedding length 4096 quantization Q5_K_M 2026-02-13 total_duration(合計時間) : 75113479153 (75.113s) load_duration(モデルのロード時間) : 3346053094 ( 3.346s) prompt_eval_count(評価されたプロンプトのトークン数) : 37 prompt_eval_duration(プロンプトの評価時間) : 1661644749 ( 1.662s) eval_count(生成トークン数) : 517 eval_duration(生成時間) : 69784848278 (69.785s) real 1m15.122s user 0m0.031s sys 0m0.007s メモリ使用量(RSS) : 6259620 KB ------------------------------------------------- 【生成結果に関する検証】 ・紹介ポイントは10箇所。東西南北を考慮したようなバランスの良い選出 ・言語混同無し ・文章に違和感は無いが誤情報が非常に多い -------------------------------------------------

llama3.1:70b-instruct-q4_K_M(GPU無し)

Model architecture llama parameters 70.6B context length 131072 embedding length 8192 quantization Q4_K_M 2026-02-13 total_duration(合計時間) : 424249026536 (424.249s) load_duration(モデルのロード時間) : 19181196345 ( 19.181s) prompt_eval_count(評価されたプロンプトのトークン数) : 37 prompt_eval_duration(プロンプトの評価時間) : 12054564380 ( 12.055s) eval_count(生成トークン数) : 377 eval_duration(生成時間) : 392763908742 (392.764s) real 7m4.259s user 0m0.030s sys 0m0.052s メモリ使用量(RSS) : 42990516 KB ------------------------------------------------- 【生成結果に関する検証】 ・紹介ポイントは10箇所。東西南北を考慮したようなバランスの良い選出 ・言語混同無し ・存在が怪しい地名の生成 (例)「滝平温泉(青森県)」「大根島(兵庫県)」 ・文章は違和感を感じないレベル(内容の評価を除く) -------------------------------------------------

llama3.1:8b-instruct-q4_K_M(GPU使用)

Model architecture llama parameters 8.0B context length 131072 embedding length 4096 quantization Q4_K_M 2026-02-13 total_duration(合計時間) : 4294982973 (4.295s) load_duration(モデルのロード時間) : 1417387528 (1.417s) prompt_eval_count(評価されたプロンプトのトークン数) : 37 prompt_eval_duration(プロンプトの評価時間) : 36902132 (0.037s) eval_count(生成トークン数) : 165 eval_duration(生成時間) : 2734087434 (2.734s) real 0m4.314s user 0m0.039s sys 0m0.014s +---------------------------------------------------------------------------------------+ | NVIDIA-SMI 535.261.03 Driver Version: 535.261.03 CUDA Version: 12.2 | |-----------------------------------------+----------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+======================+======================| | 0 NVIDIA GeForce RTX 3060 On | 00000000:01:00.0 On | N/A | | 0% 40C P2 169W / 170W | 5774MiB / 12288MiB | 97% Default | | | | N/A | +-----------------------------------------+----------------------+----------------------+ +---------------------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=======================================================================================| | 0 N/A N/A 1244 G /usr/lib/xorg/Xorg 108MiB | | 0 N/A N/A 1901 G xfwm4 2MiB | | 0 N/A N/A 2432 G /usr/bin/x-www-browser 244MiB | | 0 N/A N/A 10912 C /usr/bin/ollama 5406MiB | +---------------------------------------------------------------------------------------+ メモリ使用量(RSS) : 726504 KB ------------------------------------------------- 【生成結果に関する検証】 ・紹介ポイントは9箇所。日本海、東海、西、南に分割 ・言語混同無し ・情報に間違いが多い (例)「青森県の五能線 八甲田山(ハッケン渓谷)」「岐阜県の高山滝」 ・文章が無くリストのみ -------------------------------------------------

llama3.1:8b-instruct-q5_K_M(GPU使用)

Model architecture llama parameters 8.0B context length 131072 embedding length 4096 quantization Q5_K_M 2026-02-13 total_duration(合計時間) : 10987622315 (10.988s) load_duration(モデルのロード時間) : 1649093440 ( 1.649s) prompt_eval_count(評価されたプロンプトのトークン数) : 37 prompt_eval_duration(プロンプトの評価時間) : 39482941 ( 0.039s) eval_count(生成トークン数) : 470 eval_duration(生成時間) : 8997140092 ( 8.997s) real 0m11.006s user 0m0.042s sys 0m0.008s +---------------------------------------------------------------------------------------+ | NVIDIA-SMI 535.261.03 Driver Version: 535.261.03 CUDA Version: 12.2 | |-----------------------------------------+----------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+======================+======================| | 0 NVIDIA GeForce RTX 3060 On | 00000000:01:00.0 On | N/A | | 0% 46C P2 169W / 170W | 6486MiB / 12288MiB | 97% Default | | | | N/A | +-----------------------------------------+----------------------+----------------------+ +---------------------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=======================================================================================| | 0 N/A N/A 1244 G /usr/lib/xorg/Xorg 108MiB | | 0 N/A N/A 1901 G xfwm4 2MiB | | 0 N/A N/A 2432 G /usr/bin/x-www-browser 244MiB | | 0 N/A N/A 10993 C /usr/bin/ollama 6118MiB | +---------------------------------------------------------------------------------------+ メモリ使用量(RSS) : 791736 KB ------------------------------------------------- 【生成結果に関する検証】 ・紹介ポイントは10箇所。東西南北を考慮したようなバランスの良い選出 ・言語混同無し ・文章に違和感は無いが誤情報が非常に多い -------------------------------------------------

llama3.1:70b-instruct-q4_K_M(GPU使用)

Model architecture llama parameters 70.6B context length 131072 embedding length 8192 quantization Q4_K_M 2026-02-13 total_duration(合計時間) : 383056262443 (383.056s) load_duration(モデルのロード時間) : 3423857399 ( 3.424s) prompt_eval_count(評価されたプロンプトのトークン数) : 37 prompt_eval_duration(プロンプトの評価時間) : 2738845847 ( 2.739s) eval_count(生成トークン数) : 440 eval_duration(生成時間) : 376622491103 (376.622s) real 6m23.075s user 0m0.080s sys 0m0.022s +---------------------------------------------------------------------------------------+ | NVIDIA-SMI 535.261.03 Driver Version: 535.261.03 CUDA Version: 12.2 | |-----------------------------------------+----------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+======================+======================| | 0 NVIDIA GeForce RTX 3060 On | 00000000:01:00.0 On | N/A | | 0% 57C P2 52W / 170W | 10946MiB / 12288MiB | 6% Default | | | | N/A | +-----------------------------------------+----------------------+----------------------+ +---------------------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=======================================================================================| | 0 N/A N/A 1244 G /usr/lib/xorg/Xorg 108MiB | | 0 N/A N/A 1901 G xfwm4 2MiB | | 0 N/A N/A 2432 G /usr/bin/x-www-browser 140MiB | | 0 N/A N/A 11074 C /usr/bin/ollama 10682MiB | +---------------------------------------------------------------------------------------+ メモリ使用量(RSS) : 42990812 KB ------------------------------------------------- 【生成結果に関する検証】 ・紹介ポイントは10箇所。東西南北を考慮したようなバランスの良い選出 ・言語混同無し ・存在が怪しい地名の生成 (例)「大垣島(香川県)」「白鳥山(北海道)」 ・文章は違和感を感じないレベル(内容の評価を除く) -------------------------------------------------