ollama 0.11.9 bringt eine nette CPU/GPU-Leistungsoptimierung

Michael Larabel 😛 Christian Spaan 04.09.2025 KI

Die Open-Source-Software ollama, mit der sich KI-Sprachmodelle (Large Language Models, LLMs) über verschiedene Betriebssysteme, Hardware und Modelle hinweg einfach ausführen lassen, wird demnächst einen deutlichen Geschwindigkeitsschub erfahren.
Eine Übersetzung von 🇬🇧 Phoronix.com

Das ollama 0.11.9-rc0 Testrelease wurde vor kurzem veröffentlicht und kommt mit einer netten Leistungsverbesserung. Diese nächste Version von ollama bringt eine verbesserte Leistung durch die Überlappung von GPU- und CPU-Berechnungen.

Diese ollama-Optimierung stammt von VMware-Ingenieur Daniel Hiltgen und dient dazu, den Graphen für den nächsten Batch asynchron zu erstellen, um die GPU zu entlasten. Hiltgen erklärte in der Pull-Anfrage letzten Monat:

Dadurch wird die Hauptlaufschleife des ollama-Runners so umgestaltet, dass die wichtigsten GPU-intensiven Aufgaben (Compute+Floats) in einer Go-Routine ausgeführt werden, so dass wir den nächsten Stapel parallel vorbereiten können, um die Zeit zu verkürzen, in der die GPU auf den nächsten Arbeitsstapel wartet.

Auf Metall sehe ich eine 2-3%ige Beschleunigung der Token-Rate. Auf einer einzelnen RTX 4090 sehe ich einen Geschwindigkeitszuwachs von ~7%.

Rund 7 % mehr Leistung auf einer NVIDIA GeForce RTX 4090 ist beachtlich und auch andere höherwertige GPU-Modelle sollten von dieser Verbesserung profitieren, um die GPU bei der Arbeit zu unterstützen.

Die Version 0.11.9-rc0 von ollama behebt auch Probleme, bei denen nicht erkannte AMD-GPUs einen Fehler für ollama verursachten. Außerdem wurden einige Abstürze aufgrund von unbehandelten Fehlern in einigen Mac und Linux ollama-Installationen behoben.

Downloads und weitere Details zu dieser ollama-Testversion über GitHub.

Unterstützen Sie Michael

Ein Service von s3n🧩net