Ollama Server installieren

Hier ist eine vollständige Schritt-für-Schritt-Anleitung, wie du Ollama auf einem Windows 11 PC mit NVIDIA-Grafikkarte installierst, GPU-Beschleunigung aktivierst und über eine Web-GUI (Open WebUI) darauf zugreifst.

Voraussetzungen

Windows 11 mit aktivierter WSL 2.
NVIDIA-Grafikkarte mit aktueller CUDA / GeForce-Treiberinstallation.
Installierte Tools:
- Docker Desktop für Windows
- Node.js (nur nötig, wenn du die Web-App lokal kompilierst)
- Optional: Git für Repository-Klonen

Schritt 1: Ollama installieren

Lade den Windows-Installer von der offiziellen Seite herunter:
https://ollama.com/download/windows
Führe die Datei OllamaSetup.exe als Administrator aus.
Nach der Installation sollte Ollama über die Taskleiste aktiv sein.

Überprüfe die Installation:

ollama --version

Bei Bedarf lege den Modellpfad als Umgebungsvariable fest:

setx OLLAMA_MODELS "C:\Apps\ollama\models"

Schritt 2: GPU-Unterstützung aktivieren

Stelle sicher, dass deine NVIDIA-Treiber und CUDA installiert sind.
Aktiviere GPU-Nutzung für Docker:

Öffne PowerShell (Admin) und führe aus:

wsl --install

Lade das NVIDIA Container Toolkit:

wsl --update

Prüfe GPU-Unterstützung mit:

nvidia-smi

Damit Ollama auf die GPU zugreift, setze in Windows unter Einstellungen → System → Anzeige → Grafikeinstellungen Ollama auf „Hohe Leistung“ (NVIDIA GPU auswählen).

Schritt 3: Open WebUI (die Web-Oberfläche) installieren

Am einfachsten geschieht das über Docker:

docker run -d -p 3000:8080 --gpus all --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:ollama

Dieser Befehl startet Open WebUI mit GPU-Unterstützung und verbindet es automatisch mit deiner lokalen Ollama-Installation.

Schritt 4: Zugriff über Browser

Öffne anschließend im Browser:

http://localhost:3000

Dort kannst du dich anmelden, Modelle auswählen und direkt über die Weboberfläche mit Ollama interagieren.
Falls du von einem anderen PC im Netzwerk zugreifen möchtest, öffne die Firewall und rufe z. B. auf:

http://<deine-lokale-IP>:3000

Schritt 5: Modelle laden und starten

Ollama nutzt lokale Modelle, die du mit folgendem Befehl herunterladen kannst:

ollama pull llama3

Anschließend kannst du direkt im WebUI oder per Terminal ein Modell starten:

ollama run llama3

In den Docker Container einsteigen:

docker exec -it open-webui /bin/bash

Ergebnis

Nach diesen Schritten läuft Ollama nativ auf Windows 11 mit NVIDIA GPU-Beschleunigung und einer modernen Weboberfläche (Open WebUI).
Dieses Setup erlaubt dir, KI-Modelle lokal zu betreiben, Chatverläufe zu speichern und eigene Agents oder Workflows über die WebUI zu gestalten.