Last Update 2026/02/16
低スペック寄りのPCでローカルLLMを動作させた際の記録です。
LLM以外の仮想マシンなどが起動され、多少負荷がかかった状態で実行しています。
ベンチマークなどでLLMの性能を評価する内容ではありません。
LLM以外の仮想マシンなどが起動され、多少負荷がかかった状態で実行しています。
ベンチマークなどでLLMの性能を評価する内容ではありません。
検証用PC
|
OS |
Debian GNU/Linux 12 (bookworm) |
|
CPU |
Intel(R) Core(TM) i5-14400F |
|
GPU |
GeForce RTX 3060 12GB |
|
メモリ |
DDR4 PC4-25600 32GB × 4 |
|
SSD |
crucial P310 CT1000P310SSD8-JP |
構築環境 : Docker + Ollama (特別な設定などは無い状態)
検証用プロンプト
おすすめの日本の絶景を教えてください。東西南北、10箇所程度、日本語で。
Llama 3.1 [日本語プロンプト]
GPU無し GPU使用・TPS(tokens/s) は eval_count / eval_duration により算出
・モデルロード済みの検証は省略
llama3.1:8b-instruct-q4_K_M(GPU無し)
Model
architecture llama
parameters 8.0B
context length 131072
embedding length 4096
quantization Q4_K_M
2026-02-13
total_duration(合計時間) : 18216254072 (18.216s)
load_duration(モデルのロード時間) : 2823679621 ( 2.824s)
prompt_eval_count(評価されたプロンプトのトークン数) : 37
prompt_eval_duration(プロンプトの評価時間) : 1312874022 ( 1.313s)
eval_count(生成トークン数) : 122
eval_duration(生成時間) : 13993402929 (13.993s)
real 0m18.227s
user 0m0.024s
sys 0m0.012s
メモリ使用量(RSS) : 5458156 KB
llama3.1:8b-instruct-q5_K_M(GPU無し)
Model
architecture llama
parameters 8.0B
context length 131072
embedding length 4096
quantization Q5_K_M
2026-02-13
total_duration(合計時間) : 75113479153 (75.113s)
load_duration(モデルのロード時間) : 3346053094 ( 3.346s)
prompt_eval_count(評価されたプロンプトのトークン数) : 37
prompt_eval_duration(プロンプトの評価時間) : 1661644749 ( 1.662s)
eval_count(生成トークン数) : 517
eval_duration(生成時間) : 69784848278 (69.785s)
real 1m15.122s
user 0m0.031s
sys 0m0.007s
メモリ使用量(RSS) : 6259620 KB
llama3.1:70b-instruct-q4_K_M(GPU無し)
Model
architecture llama
parameters 70.6B
context length 131072
embedding length 8192
quantization Q4_K_M
2026-02-13
total_duration(合計時間) : 424249026536 (424.249s)
load_duration(モデルのロード時間) : 19181196345 ( 19.181s)
prompt_eval_count(評価されたプロンプトのトークン数) : 37
prompt_eval_duration(プロンプトの評価時間) : 12054564380 ( 12.055s)
eval_count(生成トークン数) : 377
eval_duration(生成時間) : 392763908742 (392.764s)
real 7m4.259s
user 0m0.030s
sys 0m0.052s
メモリ使用量(RSS) : 42990516 KB
llama3.1:8b-instruct-q4_K_M(GPU使用)
Model
architecture llama
parameters 8.0B
context length 131072
embedding length 4096
quantization Q4_K_M
2026-02-13
total_duration(合計時間) : 4294982973 (4.295s)
load_duration(モデルのロード時間) : 1417387528 (1.417s)
prompt_eval_count(評価されたプロンプトのトークン数) : 37
prompt_eval_duration(プロンプトの評価時間) : 36902132 (0.037s)
eval_count(生成トークン数) : 165
eval_duration(生成時間) : 2734087434 (2.734s)
real 0m4.314s
user 0m0.039s
sys 0m0.014s
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.261.03 Driver Version: 535.261.03 CUDA Version: 12.2 |
|-----------------------------------------+----------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+======================+======================|
| 0 NVIDIA GeForce RTX 3060 On | 00000000:01:00.0 On | N/A |
| 0% 40C P2 169W / 170W | 5774MiB / 12288MiB | 97% Default |
| | | N/A |
+-----------------------------------------+----------------------+----------------------+
+---------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=======================================================================================|
| 0 N/A N/A 1244 G /usr/lib/xorg/Xorg 108MiB |
| 0 N/A N/A 1901 G xfwm4 2MiB |
| 0 N/A N/A 2432 G /usr/bin/x-www-browser 244MiB |
| 0 N/A N/A 10912 C /usr/bin/ollama 5406MiB |
+---------------------------------------------------------------------------------------+
メモリ使用量(RSS) : 726504 KB
llama3.1:8b-instruct-q5_K_M(GPU使用)
Model
architecture llama
parameters 8.0B
context length 131072
embedding length 4096
quantization Q5_K_M
2026-02-13
total_duration(合計時間) : 10987622315 (10.988s)
load_duration(モデルのロード時間) : 1649093440 ( 1.649s)
prompt_eval_count(評価されたプロンプトのトークン数) : 37
prompt_eval_duration(プロンプトの評価時間) : 39482941 ( 0.039s)
eval_count(生成トークン数) : 470
eval_duration(生成時間) : 8997140092 ( 8.997s)
real 0m11.006s
user 0m0.042s
sys 0m0.008s
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.261.03 Driver Version: 535.261.03 CUDA Version: 12.2 |
|-----------------------------------------+----------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+======================+======================|
| 0 NVIDIA GeForce RTX 3060 On | 00000000:01:00.0 On | N/A |
| 0% 46C P2 169W / 170W | 6486MiB / 12288MiB | 97% Default |
| | | N/A |
+-----------------------------------------+----------------------+----------------------+
+---------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=======================================================================================|
| 0 N/A N/A 1244 G /usr/lib/xorg/Xorg 108MiB |
| 0 N/A N/A 1901 G xfwm4 2MiB |
| 0 N/A N/A 2432 G /usr/bin/x-www-browser 244MiB |
| 0 N/A N/A 10993 C /usr/bin/ollama 6118MiB |
+---------------------------------------------------------------------------------------+
メモリ使用量(RSS) : 791736 KB
llama3.1:70b-instruct-q4_K_M(GPU使用)
Model
architecture llama
parameters 70.6B
context length 131072
embedding length 8192
quantization Q4_K_M
2026-02-13
total_duration(合計時間) : 383056262443 (383.056s)
load_duration(モデルのロード時間) : 3423857399 ( 3.424s)
prompt_eval_count(評価されたプロンプトのトークン数) : 37
prompt_eval_duration(プロンプトの評価時間) : 2738845847 ( 2.739s)
eval_count(生成トークン数) : 440
eval_duration(生成時間) : 376622491103 (376.622s)
real 6m23.075s
user 0m0.080s
sys 0m0.022s
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.261.03 Driver Version: 535.261.03 CUDA Version: 12.2 |
|-----------------------------------------+----------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+======================+======================|
| 0 NVIDIA GeForce RTX 3060 On | 00000000:01:00.0 On | N/A |
| 0% 57C P2 52W / 170W | 10946MiB / 12288MiB | 6% Default |
| | | N/A |
+-----------------------------------------+----------------------+----------------------+
+---------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=======================================================================================|
| 0 N/A N/A 1244 G /usr/lib/xorg/Xorg 108MiB |
| 0 N/A N/A 1901 G xfwm4 2MiB |
| 0 N/A N/A 2432 G /usr/bin/x-www-browser 140MiB |
| 0 N/A N/A 11074 C /usr/bin/ollama 10682MiB |
+---------------------------------------------------------------------------------------+
メモリ使用量(RSS) : 42990812 KB