We have Cloude Code at Home - Vibe coding offline auf Jetson Orin Nano

von

Eigentlich ist der Jetson Orin Nano für LLM inference zu schwach, auch in der "Super"-Ausführung. Aber es täuscht.

Was wird verwendet

Auf dem Jetson Orin läuft llama-setver mit Qwen3.5-4B, auf dem Laptop - Opencode. Thats it.

Wie genau

  1. llama.cpp klonen und compilieren. Mit CUDA versteht sich.
  2. Qwen3.5-4B als GGUF herunterladen. Ich verwende die Q5_K_M Variante. Logo, 8B oder gar 12B könnte man auch zum laufen krieren, aber da muss man schon einiges an Geschwindigkeit und Qualität opfern. Und nicht zu vergessen - genug Platz für KV-Cache und Context lassen.
  3. Server Starten
llama-server -m Qwen3.5-4B-Q5_K_M.gguf --flash-attn on --no-webui -c 16384 --host 0.0.0.0
  1. Auf dem Laptop Opencode installieren
curl -fsSL https://opencode.ai/install | bash
  1. Die Konfigurationsdatei (~/.opencode/opencode.json) anlegen. %IP% logischerweise gegen die IP von dem Jetson Orin tauschen
{
  "$schema": "https://opencode.ai/config.json",
  "provider": {
    "llama.cpp": {
      "npm": "@ai-sdk/openai-compatible",
      "name": "llama-server (local)",
      "options": {
        "baseURL": "http://%IP%:8080/v1"
      },
      "models": {
        "Qwen3.5-4B-Q5_K_M": {
          "name": "Qwen3.5-4B-Q5_K_M.gguf",
          "modalities": { "input": ["text"], "output": ["text"] },
          "limit": {
            "context": 16384,
            "output": 16384
          }
        }
      }
    }
  }
}
  1. Im Terminal opencode ausführen, glücklich sein.

Tips

  • Ubuntus Desktop frist gerne mal 1gb+ von dem knappen Unifird Memory. Automatisches Login aus und per ssh starten.
  • Schimpft llama.cpp CUDA sei nicht da (CUDA Toolkit not found) - sudo apt install nvidia-cuda-dev.
  • Kommt No CMAKE_CUDA_COMPILER could be found. - CUDACXX=/usr/local/cuda-13.0/bin/nvcc ins Environment hinzufügen.

Was kann man erwarten?

Ich habe tatsächlich eine Next.js-basierte Webseite und einen Markdown-Editor mit Flask Backend ohne Probleme mir zaubern lassen. Es gibg schnell und sogar Fehler im code wurden erkannt und automatisch behoben.

Zurück

Kommentare

Einen Kommentar schreiben

Was ist die Summe aus 3 und 3?