Hier ist eine vollständige Schritt-für-Schritt-Anleitung, wie du Ollama auf einem Windows 11 PC mit NVIDIA-Grafikkarte installierst, GPU-Beschleunigung aktivierst und über eine Web-GUI (Open WebUI) darauf zugreifst.
Voraussetzungen
Windows 11 mit aktivierter WSL 2.
NVIDIA-Grafikkarte mit aktueller CUDA / GeForce-Treiberinstallation.
Installierte Tools:
Docker Desktop für Windows
Node.js (nur nötig, wenn du die Web-App lokal kompilierst)
Optional: Git für Repository-Klonen
Lade den Windows-Installer von der offiziellen Seite herunter:
https://ollama.com/download/windows
Führe die Datei OllamaSetup.exe als Administrator aus.
Nach der Installation sollte Ollama über die Taskleiste aktiv sein.
Überprüfe die Installation:
ollama --versionBei Bedarf lege den Modellpfad als Umgebungsvariable fest:
setx OLLAMA_MODELS "C:\Apps\ollama\models"Stelle sicher, dass deine NVIDIA-Treiber und CUDA installiert sind.
Aktiviere GPU-Nutzung für Docker:
Öffne PowerShell (Admin) und führe aus:
wsl --installLade das NVIDIA Container Toolkit:
wsl --updatePrüfe GPU-Unterstützung mit:
nvidia-smiDamit Ollama auf die GPU zugreift, setze in Windows unter Einstellungen → System → Anzeige → Grafikeinstellungen Ollama auf „Hohe Leistung“ (NVIDIA GPU auswählen).
Am einfachsten geschieht das über Docker:
docker run -d -p 3000:8080 --gpus all --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:ollamaDieser Befehl startet Open WebUI mit GPU-Unterstützung und verbindet es automatisch mit deiner lokalen Ollama-Installation.
Öffne anschließend im Browser:
http://localhost:3000Dort kannst du dich anmelden, Modelle auswählen und direkt über die Weboberfläche mit Ollama interagieren.
Falls du von einem anderen PC im Netzwerk zugreifen möchtest, öffne die Firewall und rufe z. B. auf:
http://<deine-lokale-IP>:3000Ollama nutzt lokale Modelle, die du mit folgendem Befehl herunterladen kannst:
ollama pull llama3Anschließend kannst du direkt im WebUI oder per Terminal ein Modell starten:
ollama run llama3In den Docker Container einsteigen:
docker exec -it open-webui /bin/bashNach diesen Schritten läuft Ollama nativ auf Windows 11 mit NVIDIA GPU-Beschleunigung und einer modernen Weboberfläche (Open WebUI).
Dieses Setup erlaubt dir, KI-Modelle lokal zu betreiben, Chatverläufe zu speichern und eigene Agents oder Workflows über die WebUI zu gestalten.