Details

Autor: Robert Wittig
Titel: Architectures and Theoretical Models for Shared Scratchpad Memory Systems
Typ: Dissertation
Fachgebiet: Informationstechnik
Reihe: Mobile Nachrichtenübertragung, Nr.: 92
Auflage: 1
Sprache: Englisch
Erscheinungsdatum: 20.10.2021
Lieferstatus: lieferbar
Umfang: 140 Seiten
Bindung: Soft
Preis: 69,00 EUR
ISBN: 9783959470506
Umschlag: (vorn)
Inhaltsverzeichnis: (pdf)


Bestellung

Abstrakt in Englisch

Computer engineering is advancing rapidly. For 55 years, the performance of integrated circuits has almost doubled every 18 months. Mostly, these advancements were enabled by technological progress. Even the end of frequency scaling could not bring the ever-increasing performance growth to a halt. However, technology burdens, like noticeable leakage currents, have piled up, which shifts the focus towards architectural improvements. Especially the multi-core paradigm has proven its virtue for chip designs over the last decade. While having been introduced in high-performance computing areas, modern technology nodes also enable low-cost, low-power embedded designs to benefit from multiple cores and accelerators. Since the majority of cores depend on memory, which requires a considerable amount of chip area, this common resource needs to be shared efficiently. High-performance cores use shared caches to increase memory utilization. However, many accelerators do not use caches as they need predictable and fast scratchpad memory (SM). But sharing SM entails conflicts, questioning its fast and predictable nature. Hence, the question arises on how to adapt architectures for sharing while retaining SM’s advantages. This thesis presents a novel, shared SM architecture that embraces the idea of a minimal logic path between core and memory, thereby increasing the maximum operating frequency. Because of its additional capabilities, like dynamic address translation and programmable priorities, it is also well suited for heterogeneous platforms that use dynamic scheduling and require predictable behavior. Demonstrating its advantages, we analyze the characteristics of the new architecture and compare it to state-of-the-art approaches. To further mitigate conflicts, we present the conception of access interval prediction (AIP). By predicting memory accesses with a granularity of a single clock cycle, AIP guides the allocation of resources. This method maximizes memory utilization while reducing conflict delays. With the help of various methods inspired by branch prediction, we achieve over 90 % of accurate predictions and reduce stall cycles significantly. Another key contribution of this thesis is the extension of analytic models to estimate the throughput of shared SM systems. Again, the focus lies on heterogeneous systems with different priorities and access patterns. The results show a promising error reduction, boosting the used models applicability for real design use cases.

Abstrakt in Deutsch

Seit über 55 Jahren erleben wir einen beispielslosen Siegeszug von integrierten Schaltungen. Fortschreitende technologische Erfolge ermöglichen eine Leistungsverdopplung aller 18 Monate. Selbst das Erreichen einer scheinbaren Taktfrequenz-Barriere konnte einem weiteren Leistungszuwachs nicht entgegenwirken. Zunehmende technologische Herausfoderungen, wie steigende Leckströme, lassen jedoch vermehrt architekturelle Verbesserungen in den Fokus rücken. So erlangten im letzten Jahrzehnt Multi-Rechenkern-Systeme an Popularität und trugen erheblich zu weiteren Leistungssteigerungen bei. Anfänglich vorallem im Hochleistungssektor angesiedelt, ermöglichen neue Technolgien den Einsatz von mehreren Kernen auch für Systeme mit restriktivem Energieverbrauch. Dabei brauchen die meisten Kerne Speicher, welcher einen erheblichen Teil der Chipfläche einnehmen kann und deshalb effizient genutzt werden muss. Hochleistungs-Computer verwenden daher meist geteilte Cache-Architekturen, welche jedoch für spezialisierte Recheneinheiten ungeeignet erscheinen, da sie unvorhersehbare Zugriffszeiten aufweisen. Deshalb kommen oft Scratchpad Architekturen (SAs) zum Einsatz, um schnelle, vorhersehbare Speicherzugriffe zu ermöglichen. Doch wie können SAs für mehrere Kerne verwendet werden, ohne ihre Vorteile zu beeinträchtigen?

Um diese Frage zu beantworten erforscht diese Arbeit Möglichkeiten effizienter, geteilter SAs und präsentiert eine neu entwickelte Speicherarchitektur. Durch die Minimierung der benötigten Schaltungslogik sowie die Einführung von Prioritäten bleiben die Vorteile von SAs erhalten, gleichzeitig können Taktfrequenzen gesteigert und neue Anwendungsfälle realisiert werden. Jedoch entstehen durch die gemeinsame Speichernutzung auch Zugriffskonflikte. Deshalb konzipiert diese Arbeit Access-Interval-Prediction (AIP). AIP ist in der Lage Speicherzugriffe taktgenau vorherzusagen und erlaubt es somit die negativen Auswirkungen von Konflikten abzumildern. Die entwickelten Algorithmen für die Umsetzung von AIP erzielen über 90 % Vorhersagegenauigkeit. Eine Untersuchung des Implementierungsaufwandes zeigt außerdem, dass AIP auch für integrierte Systeme mit restriktivem Ressourcenverbrauch realisierbar ist. Ein weiterer entscheidener Beitrag dieser Arbeit ist die Erweiterung von analytischen Schätzmodellen, welche für die Entwicklung von SAs Verwendung finden. Mit den erzielten Ergebnissen können erstmals auch Heterogenitäten in einem System, wie beispielsweise verschiedene Zugriffshäufigkeiten, bei der analytischen Betrachtung berücksichtigt werden.