Sie fragen - wir antworten!

Apps & Leitfäden

Ihr eigenes Qwen mit HF

Große neuronale Netzwerkmodelle mit ihren außergewöhnlichen Fähigkeiten sind fest in unserem Leben verankert. Große Unternehmen erkannten dies als Chance für die zukünftige Entwicklung und begannen, ihre eigenen Versionen dieser Modelle zu entwickeln. Der chinesische Gigant Alibaba hat nicht tatenlos zugesehen. Er entwickelte sein eigenes Modell, QWen (Tongyi Qianwen), das zur Grundlage für viele andere neuronale Netzwerkmodelle wurde.

Voraussetzungen

Cache und Pakete aktualisieren

Bevor Sie mit der Einrichtung von Qwen beginnen, sollten Sie den Paket-Cache aktualisieren und Ihr Betriebssystem aufrüsten. Außerdem müssen wir Python Installer Packages (PIP) hinzufügen, falls es nicht bereits im System vorhanden ist. Bitte beachten Sie, dass wir für diese Anleitung Ubuntu 22.04 LTS als Betriebssystem verwenden:

sudo apt update && sudo apt -y upgrade && sudo apt install python3-pip

Nvidia-Treiber installieren

Sie können das automatische Dienstprogramm verwenden, das in Ubuntu-Distributionen standardmäßig enthalten ist:

sudo ubuntu-drivers autoinstall

Alternativ können Sie die Nvidia-Treiber auch manuell mit Hilfe unserer Schritt-für-Schritt-Anleitung installieren. Vergessen Sie nicht, den Server neu zu starten:

sudo shutdown -r now

Texterstellung Web UI

Klonen Sie das Repository

Öffnen Sie das Arbeitsverzeichnis auf der SSD:

cd /mnt/fastdisk

Klonen Sie das Repository des Projekts:

git clone https://github.com/oobabooga/text-generation-webui.git

Anforderungen installieren

Öffnen Sie das heruntergeladene Verzeichnis:

cd text-generation-webui

Überprüfen und installieren Sie alle fehlenden Komponenten:

pip install -r requirements.txt

SSH-Schlüssel zu HF hinzufügen

Bevor Sie beginnen, müssen Sie in Ihrem SSH-Client eine Portweiterleitung einrichten (Remote-Port 7860 auf 127.0.0.1:7860). Weitere Informationen finden Sie im folgenden Artikel: Verbindung zum Linux-Server herstellen.

Aktualisieren Sie das Paket-Cache-Repository und die installierten Pakete:

sudo apt update && sudo apt -y upgrade

Erzeugen Sie einen SSH-Schlüssel, den Sie in Hugging Face verwenden können, und fügen Sie ihn hinzu:

cd ~/.ssh && ssh-keygen

Wenn das Schlüsselpaar generiert ist, können Sie den öffentlichen Schlüssel im Terminalemulator anzeigen:

cat id_rsa.pub

Kopieren Sie alle Informationen, die mit ssh-rsa beginnen und mit usergpu@gpuserver enden, wie im folgenden Screenshot gezeigt:

Copy RSA key

Öffnen Sie einen Webbrowser, geben Sie https://huggingface.co/ in die Adresszeile ein und drücken Sie Enter. Loggen Sie sich in Ihren HF-Account ein und öffnen Sie die Profileinstellungen. Wählen Sie dann SSH and GPG Keys und klicken Sie auf die Schaltfläche Add SSH Key:

Add SSH key

Füllen Sie Key name aus und fügen Sie den kopierten SSH Public key aus dem Terminal ein. Speichern Sie den Schlüssel, indem Sie Add key drücken:

Paste the key

Jetzt ist Ihr HF-Konto mit dem öffentlichen SSH-Schlüssel verknüpft. Der zweite Teil (privater Schlüssel) ist auf dem Server gespeichert. Der nächste Schritt ist die Installation einer speziellen Git LFS-Erweiterung (Large File Storage), die für das Herunterladen großer Dateien wie z. B. Modelle neuronaler Netze verwendet wird. Öffnen Sie Ihr Home-Verzeichnis:

cd ~/

Laden Sie das Shell-Skript herunter und führen Sie es aus. Dieses Skript installiert ein neues Drittanbieter-Repository mit git-lfs:

curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash

Nun können Sie es mit dem Standard-Paketmanager installieren:

sudo apt-get install git-lfs

Lassen Sie uns git so konfigurieren, dass es unseren HF-Nickname verwendet:

git config --global user.name "John"

Und mit dem HF-E-Mail-Konto verknüpft:

git config --global user.email "john.doe@example.com"

Das Modell herunterladen

Der nächste Schritt ist das Herunterladen des Modells mit der von Softwareentwicklern häufig verwendeten Technik des Klonens von Repositorys. Der einzige Unterschied besteht darin, dass das zuvor installierte Git-LFS die markierten Zeigerdateien automatisch verarbeiten und den gesamten Inhalt herunterladen wird. Öffnen Sie das erforderliche Verzeichnis (in unserem Beispiel /mnt/fastdisk):

cd /mnt/fastdisk

Dieser Befehl kann einige Zeit in Anspruch nehmen:

git clone git@hf.co:Qwen/Qwen1.5-32B-Chat-GGUF

Ausführen des Modells

Führen Sie ein Skript aus, das den Webserver startet und /mnt/fastdisk als das Arbeitsverzeichnis mit den Modellen angibt. Dieses Skript kann beim ersten Start einige zusätzliche Komponenten herunterladen.

./start_linux.sh --model-dir /mnt/fastdisk

Öffnen Sie Ihren Webbrowser und wählen Sie llama.cpp aus der Dropdown-Liste Model loader:

llama.cpp settings

Stellen Sie sicher, dass Sie den Parameter n-gpu-layers setzen. Er ist dafür verantwortlich, wie viel Prozent der Berechnungen auf den Grafikprozessor verlagert werden. Wenn Sie die Zahl auf 0 belassen, werden alle Berechnungen auf der CPU durchgeführt, was ziemlich langsam ist. Sobald alle Parameter eingestellt sind, klicken Sie auf die Schaltfläche Load. Wechseln Sie dann zur Registerkarte Chat und wählen Sie Instruct mode. Nun können Sie eine beliebige Eingabeaufforderung eingeben und eine Antwort erhalten:

Qwen chat example

Die Verarbeitung wird standardmäßig auf allen verfügbaren GPUs durchgeführt, wobei die zuvor festgelegten Parameter berücksichtigt werden:

Qwen task GPU loading

Siehe auch:



Aktualisiert: 28.03.2025

Veröffentlicht: 20.01.2025