We have Cloude Code at Home - Vibe coding offline auf Jetson Orin Nano
von Alexander Schwirjow
Eigentlich ist der Jetson Orin Nano für LLM inference zu schwach, auch in der "Super"-Ausführung. Aber es täuscht.
Was wird verwendet
Auf dem Jetson Orin läuft llama-setver mit Qwen3.5-4B, auf dem Laptop - Opencode. Thats it.
Wie genau
- llama.cpp klonen und compilieren. Mit CUDA versteht sich.
- Qwen3.5-4B als GGUF herunterladen. Ich verwende die Q5_K_M Variante. Logo, 8B oder gar 12B könnte man auch zum laufen krieren, aber da muss man schon einiges an Geschwindigkeit und Qualität opfern. Und nicht zu vergessen - genug Platz für KV-Cache und Context lassen.
- Server Starten
llama-server -m Qwen3.5-4B-Q5_K_M.gguf --flash-attn on --no-webui -c 16384 --host 0.0.0.0
- Auf dem Laptop Opencode installieren
curl -fsSL https://opencode.ai/install | bash
- Die Konfigurationsdatei (
~/.opencode/opencode.json) anlegen. %IP% logischerweise gegen die IP von dem Jetson Orin tauschen
{
"$schema": "https://opencode.ai/config.json",
"provider": {
"llama.cpp": {
"npm": "@ai-sdk/openai-compatible",
"name": "llama-server (local)",
"options": {
"baseURL": "http://%IP%:8080/v1"
},
"models": {
"Qwen3.5-4B-Q5_K_M": {
"name": "Qwen3.5-4B-Q5_K_M.gguf",
"modalities": { "input": ["text"], "output": ["text"] },
"limit": {
"context": 16384,
"output": 16384
}
}
}
}
}
}
- Im Terminal
opencodeausführen, glücklich sein.
Tips
- Ubuntus Desktop frist gerne mal 1gb+ von dem knappen Unifird Memory. Automatisches Login aus und per
sshstarten. - Schimpft
llama.cppCUDA sei nicht da (CUDA Toolkit not found) -sudo apt install nvidia-cuda-dev. - Kommt
No CMAKE_CUDA_COMPILER could be found.-CUDACXX=/usr/local/cuda-13.0/bin/nvccins Environment hinzufügen.
Was kann man erwarten?
Ich habe tatsächlich eine Next.js-basierte Webseite und einen Markdown-Editor mit Flask Backend ohne Probleme mir zaubern lassen. Es gibg schnell und sogar Fehler im code wurden erkannt und automatisch behoben.
Kommentare
Einen Kommentar schreiben