GNU Compiler Collection

GNU Compiler Collection
GNU Compiler Collection
Logo von GNU Compiler Collection
Entwickler GCC-Team
Aktuelle Version 4.6.2
(26. Oktober 2011)
Betriebssystem Unix, GNU/Linux, Windows, Mac OS X, und andere
Kategorie Compiler
Lizenz GPL (Freie Software)
Deutschsprachig ja
gcc.gnu.org

GCC ist der Name der Compiler-Suite des GNU-Projekts. GCC stand ursprünglich für GNU C Compiler. Da GCC heute aber außer C noch einige andere Programmiersprachen übersetzen kann, hat GCC inzwischen die Bedeutung GNU Compiler Collection erhalten (engl. für GNU-Compilersammlung). Das Kommando gcc (in Kleinbuchstaben) steht weiterhin für den C-Compiler.

Inhaltsverzeichnis

Überblick

Die Sammlung enthält Compiler für die Programmiersprachen C, C++, Java, Objective-C, Fortran, Ada und Go. Die Compilersammlung unterliegt den Bedingungen der GNU General Public License.

GCC wird von einer Reihe von Systemen als Standardcompiler genutzt, darunter viele Linux-Distributionen, BSD, Darwin (Mac OS X), NextStep, BeOS und ZETA. Zudem bietet er auch Unterstützung für die Laufzeitumgebung Cygwin und die Entwicklerwerkzeuge MinGW.[1] Er wurde auf mehr Systeme und Rechnerarchitekturen portiert als jeder andere Compiler und bietet sich besonders für Betriebssysteme an, die auf verschiedenen Hardware-Plattformen laufen sollen. Der GCC lässt sich auch als Cross-Compiler installieren.[2]

Zielsysteme

GCC 4.1.3 in einem Kommandozeile-Fenster unter Ubuntu 7.10 mit GNOME 2.20

Das GCC-Projekt bezeichnet einige Plattformen offiziell als primäre und andere als sekundäre Evaluationsplattformen. Vor jeder Veröffentlichung einer neuen Version werden insbesondere diese beiden Gruppen getestet. GCC kann Programme für folgende Prozessoren erzeugen (primäre und sekundäre Evaluationsplattformen sind markiert):

Dazu kommen noch eine Reihe von Prozessoren von eingebetteten Systemen, wie

Insgesamt unterstützt der GCC mehr als 60 Plattformen.[3]

Struktur

Design Flow von GCC

Das externe Interface des gcc entspricht dem eines Standard-Unix-Compilers.

  1. Der Benutzer ruft ein Hauptprogramm mit dem Namen gcc auf.
  2. GCC interpretiert das Kommandozeilen-Argument.
  3. GCC stellt die Programmiersprache der vorliegenden Eingabedatei fest.
  4. Der entsprechende Sprach-Compiler wird aufgerufen.
  5. Die Ausgabe wird dem Assembler übergeben.
  6. Schließlich wird der Linker aufgerufen.
  7. Ein komplettes Programm wurde erstellt.

Jeder Sprachcompiler ist ein separates Programm, das Quellcode entgegennimmt und Assemblersprache produziert. Im Schema auf der rechten Seite sind Beispiele für C und Assembler gegeben, welche sich beide dem Preprocessing unterziehen müssen, bei dem Compilermakros, eingebundene Header-Dateien und ähnliches umgewandelt werden, um reinen C-Code bzw. Assembler zu erhalten. Jenes sprachabhängige Frontend parst die entsprechende Sprache und erzeugt einen abstrakten Syntaxbaum, der an ein Backend übergeben wird, das den Baum in GCCs Register Transfer Language (RTL) überführt (im Diagramm nicht gezeigt), verschiedene Codeoptimierungen durchführt und zum Schluss Assemblersprache erzeugt.

Fast alle Bestandteile des GCC sind in C geschrieben. Ausnahmen bilden die Backends, die in wesentlichen Teilen in RTL formuliert sind, sowie das Ada-Frontend, welches zum größten Teil in Ada geschrieben ist.

Frontends

Frontends müssen Bäume produzieren, die vom Backend verarbeitet werden können. Wie sie dies erreichen, bleibt ihnen überlassen. Einige Parser benutzen Yacc-ähnliche Grammatiken, andere verwenden handgeschriebene, rekursive Parser.

Bis vor kurzem war die Baumrepräsentation des Programms nicht völlig vom Zielprozessor unabhängig. Die Bedeutung eines Baums konnte für unterschiedliche Sprachfrontends unterschiedlich sein, und Frontends konnten ihren eigenen Baumcode zur Verfügung stellen.

Mit dem Tree-SSA-Projekt, das in die Version GCC 4.0 integriert wurde, wurden zwei neue Formen von sprachunabhängigen Bäumen eingeführt. Diese neuen Baumformate wurden GENERIC und GIMPLE getauft. Parsing wird nun durchgeführt, indem ein temporärer sprachabhängiger Baum nach GENERIC konvertiert wird. Der so genannte „Gimplifier“ überführt diese komplexe Form in die SSA-basierte GIMPLE-Form, von der ausgehend eine Reihe neuer sprach- und architekturunabhängiger Optimierungen durchgeführt werden können.

Middleend

Optimierung an Bäumen passt eigentlich nicht in das Schema von „Frontend“ und „Backend“, da sie nicht sprachabhängig sind und kein Parsen beinhalten. Die GCC-Entwickler haben diesem Teil des Compilers daher den Namen „Middleend“ gegeben. Zu den gegenwärtig am SSA-Baum durchgeführten Optimierungen gehören Dead code elimination, Partial Redundancy Elimination, Global Value Numbering, Sparse Conditional Constant Propagation, und Scalar replacement of Aggregates. Array-basierende Optimierungen wie zum Beispiel automatische Vektorisierung, wie sie der Intel-Compiler anbietet, werden gegenwärtig entwickelt.[4]

Backend

Das Verhalten des GCC-Backends wird teilweise durch Präprozessor-Makros und architekturspezifische Funktionen bestimmt, mit denen zum Beispiel die Endianness, Wortgröße, und Aufrufkonventionen definiert und die Registerstruktur der Zielmaschine beschrieben werden. Unter Verwendung der Maschinenbeschreibung, einer LISP-ähnlichen Beschreibungssprache, wandelt GCC die interne Baumstruktur in die RTL-Darstellung (Register Transfer Language) um. Obwohl diese dem Namen nach prozessorunabhängig ist, ist die Sequenz an abstrakten Instruktionen daher bereits an das Ziel angepasst.

Die Art und Anzahl der vom GCC an der RTL durchgeführten Optimierungen werden mit jeder Compiler-Version weiterentwickelt. Zu ihnen gehören etwa (global) common subexpression elimination, verschiedene Schleifen- und Sprungoptimierungen (if-conversion, branch probability estimation, sibling calls, constant propagation, ...) sowie der combine-pass, in dem mehrere Instruktionen zu einer einzigen kombiniert werden können.

Seit der kürzlichen Einführung von globalen SSA-basierten Optimierungen an GIMPLE-Bäumen haben die RTL-Optimierungen leicht an Bedeutung verloren, da in der RTL-Repräsentation des Programms weit weniger der für viele Optimierungen wichtigen High-Level-Informationen enthalten sind. Allerdings sind auch maschinenabhängige Optimierungen sehr wichtig, da für viele Optimierungen Informationen über die Maschine vorliegen müssen, etwa darüber, welche Instruktionen eine Maschine kennt, wie teuer diese sind und wie die Pipeline der Zielarchitektur beschaffen ist.

In der „Reload“-Phase wird die prinzipiell unbeschränkte Anzahl an abstrakten Pseudo-Register durch die begrenzte Anzahl an echten Maschinenregistern ersetzt, wobei hier unter Umständen neue Instruktionen in den Code eingefügt werden müssen, um zum Beispiel Pseudo-Register auf dem Stack der Funktion zwischenzuspeichern. Diese Registerzuteilung ist recht kompliziert, da die verschiedenen Eigenheiten der jeweiligen Zielarchitektur besonders berücksichtigt werden müssen.

In der letzten Phase geschehen Optimierungen wie peephole optimization (englisch für „Guckloch-Optimierung“) und delay slot scheduling (englisch wörtlich für „Verzögerung-Schlitz-Ablaufplanung“) bevor die recht maschinennahe Ausprägung der RTL auf Assemblercode abgebildet wird, indem die Namen von Registern und Adressen in Zeichenketten umgesetzt werden, welche die Instruktionen spezifizieren.

Geschichte

Die erste öffentliche Version (0.9) des GCC wurde am 22. März 1987 von Richard Stallman für das GNU-Projekt freigegeben (Version 1.0 erschien am 23. Mai desselben Jahres) und wird heute von Programmierern auf der ganzen Welt weiterentwickelt. Die Erweiterung des C-Compilerpakets zur Compiler-Collection erfolgte im Rahmen des EGCS-Projektes, das eine Weile parallel zum GCC existierte und schließlich zum offiziellen GCC wurde.

EGCS

1997 spaltete sich das Projekt Experimental/Enhanced GNU Compiler System (EGCS, engl. für experimentelles/erweitertes GNU Compiler System) von GCC ab, und wurde 1999 mit diesem wieder vereinigt.

GCC 1.x hatte 1991 eine gewisse Stabilität erreicht, jedoch verhinderten architekturbedingte Einschränkungen viele Verbesserungen, sodass die Free Software Foundation (FSF) damit begann, GCC 2.x zu entwickeln. Mitte der 1990er kontrollierte die FSF jedoch sehr genau, was zu GCC 2.x hinzugefügt werden durfte und was nicht, sodass GCC als Beispiel für das „Cathedral“-Entwicklungsmodell Verwendung fand, das Eric S. Raymond in seinem Buch Die Kathedrale und der Basar beschreibt.

Die Tatsache, dass GCC freie Software ist, erlaubte es Programmierern, die in andere Richtung arbeiten wollten, eigene Abspaltungen zu entwickeln. Viele Abspaltungen erwiesen sich jedoch als ineffizient und unübersichtlich. Dass ihre Arbeiten vom offiziellen GCC-Projekt oft nicht, oder nur unter Schwierigkeiten akzeptiert wurden, frustrierte viele Entwickler.

Daher gründete eine Gruppe von Entwicklern 1997 EGCS, um mehrere experimentelle Abspaltungen in einem einzigen Projekt zu vereinen. Dazu gehörten g77 (Fortran), PGCC (Pentium-optimierter GCC), das Einpflegen vieler Verbesserungen an C++, sowie Compiler-Versionen für weitere Prozessor-Architekturen und Betriebssysteme.

Die Entwicklung von EGCS erwies sich als schneller, lebhafter und insgesamt besser als die des GCC-Projektes, sodass die FSF 1999 offiziell die Weiterentwicklung von GCC 2.x einstellte und stattdessen EGCS als offizielle GCC-Version übernahm. Die EGCS-Entwickler wurden zu Projektverantwortlichen (engl.: maintainer) des GCC. Von da an wurde das Projekt explizit nach dem „Basar“-Modell entwickelt, nicht mehr nach dem „Cathedral“-Modell. Mit der Veröffentlichung von GCC 2.95 im Juli 1999 waren beide Projekte wiedervereinigt.

Siehe auch

Weblinks

Einzelnachweise

  1. Compiler GCC 4.5.1 veröffentlicht. In: Golem.de, vom 2. August 2010.
  2. Nikolaus Schüler: Der Gcc-Compiler – Überblick und Bedienung. 1. Auflage. bhv, Kaarst 1997, S. 28. ISBN 3-89360-873-7
  3. Host/Target specific installation notes for GCC. In: gnu.org, 23. Februar 2006 (englisch).
  4. AutovectBranchOptimizations. In: GCC-Wiki, vom 10. Januar 2008 (englisch).

Wikimedia Foundation.

Игры ⚽ Нужно сделать НИР?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • GNU compiler collection — Pour les articles homonymes, voir GCC. GNU Compiler Collection …   Wikipédia en Français

  • GNU Compiler Collection — GCC invocado desde la línea de comandos en Debian …   Wikipedia Español

  • GNU Compiler Collection — GNU Compiler Collection …   Википедия

  • GNU Compiler Collection — Cc1 redirects here. For other uses of CC1 or CC 1, see CC1 (disambiguation). GNU Compiler Collection Developer(s) GNU Project Initial release May 23, 1987 ( …   Wikipedia

  • GNU Compiler Collection — Pour les articles homonymes, voir GCC. GNU Compiler Collection …   Wikipédia en Français

  • GNU Compiler for the Java Programming Language — GNU Compiler for Java Entwickler: The GNU Project Aktuelle Version: 4.3.1 (6. Juni 2008) Betriebssystem …   Deutsch Wikipedia

  • GNU Compiler for Java — Developer(s) The GNU Project Stable release 4.6.1 / June 27, 2011; 4 months ago (2011 06 27 …   Wikipedia

  • GNU Compiler for Java — Тип Компилятор Разработчик Проект GNU Операционная …   Википедия

  • GNU Compiler for Fortran — GNU Fortran (Gfortran) ist ein freier Compiler für Fortran nach dem Sprachstandard Fortran 95 und ein Teil der GNU Compiler Collection. GNU Fortran unterstützt den vollen Sprachstandard von Fortran 95 und Teilen von Fortran 2003 sowie einige… …   Deutsch Wikipedia

  • GNU Compiler for Java — Entwickler The GNU Project Aktuelle Version 4.4.2 (15. Oktober 2009) Betriebssystem …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”