Google Scholar


Google Scholar
Logo

Google Scholar ist ein Suchdienst des Unternehmens Google Inc. und dient der allgemeinen Literaturrecherche wissenschaftlicher Dokumente. Dazu zählen sowohl kostenlose Dokumente aus dem freien Internet als auch kostenpflichtige Angebote. Zumeist werden als Treffer Volltexte oder zumindest bibliographische Nachweise angezeigt. Google Scholar analysiert und extrahiert die in den Volltexten enthaltenen Zitate und erstellt daraus eine Zitationsanalyse. Darüber hinaus können die bibliographischen Angaben dieser Zitate über den Suchdienst recherchiert werden.

Inhaltsverzeichnis

Vorgänger

Google Scholar basiert auf den Erfahrungen, die Google mit verschiedenen anderen Diensten in den vorhergehenden Jahren sammeln konnte, Allen voran natürlich aus der Google Websuche. Das Layout und die einfache Bedienbarkeit sowie die Indexierung sämtlicher Ressourcen in einem Gesamtindex wurden auf die wissenschaftliche Suchmaschine übertragen. Mit einigen Anpassungen konnte auch das Pagerank für die Bewertung und Sortierung der Quellen übernommen werden. Als Vorgänger von Google Scholar gilt das Projekt CrossRef. Darin wurden neben Open-Access-Dokumenten und Dokumenten aus dem Self Archiving-Bereich die Volltext-Bestände zahlreicher Fachverlage und –gesellschaften indexiert. Über die bekannte einfache Google-Suchoberfläche wurden alle diese Materialien recherchierbar. Das Projektziel war es, ein Teil des Deep Web, nämlich die nur durch Registrierung und Anmeldung zugänglichen kostenpflichtigen Publikationen der Verlage und Fachgesellschaften, für die Suchmaschine zugänglich zu machen. Als Grundlage dafür dient eine gemeinsame Vereinbarung des Suchdiensts Google und diverser Verlage.[1]

Funktionsumfang

Am 18. November 2004 startete Google die englischsprachige Beta-Version von Google Scholar, seit dem 21. April 2006 ist der Suchdienst auch in deutscher Sprache verfügbar.

Der Schwerpunkt der nachgewiesenen Literatur liegt auf den Fachzeitschriften.[2] Jedoch weist Google Scholar auch andere wissenschaftliche Dokumente im Volltext oder nur die entsprechenden bibliographischen Daten nach. Dazu zählen Inhalte aus dem freien Web bspw. von privaten und institutionellen Homepages sowie Open-Access-Publikationen und Dokumente aus dem Self Archiving-Bereich. Darüber hinaus sind auch kostenpflichtige Angebote von Verlagen und Fachgesellschaften nachgewiesen.[3] Damit erschließt Google Scholar, wie auch sein Vorgängerprojekt CrossRef, einen Teil des Deep Web.

Das Besondere an Google Scholar ist die Volltextanalyse und –indexierung. In wissenschaftlichen Datenbanken kann ausschließlich in den bibliographischen Angaben sowie den Abstracts und Schlagworten gesucht werden. Die Auswahl und Bewertung der Dokumente erfolgt im Gegensatz zu den Fachdatenbanken nicht intellektuell sondern auf Basis von Algorithmen, die die Wissenschaftlichkeit bewerten und das Ranking der Trefferliste bestimmen.

Die Ergebnisse einer Literatursuche werden dem Nutzer nach Relevanz sortiert angezeigt. Unterschieden wird dabei dabei zwischen kostenpflichtigen Verlagsangeboten und kostenfreien Nachweisen, die jedoch nicht immer direkt zum Volltext führen und in Open Access-Publikationen. Der Mehrwert der wissenschaftlichen Suchmaschine liegt zum einen im Ranking von Dokumenten sowie in der Extraktion und Analyse der Zitationen. Des Weiteren auch in der Möglichkeit der Weiterleitung von Suchanfragen an den WorldCat und die Nutzung des "Bibliothekslinks" für die Nutzer von Bibliotheken, die mit Google Scholar zusammenarbeiten.

Zielgruppe

Laut der Homepage richtet sich Google Scholar mit seinem Angebot an die Gemeinde der Akademiker. Somit werden Wissenschaftler, Forscher, Studierende, Hochschuldozierende, wissenschaftliche Mitarbeiter und Doktoranden sowie Schüler zur Zielgruppe gezählt.

Da die Google-Websuche unter Jugendlichen und jungen Erwachsen sehr stark genutzt wird, kann davon ausgegangen werden, dass Google Scholar stärker von Studierenden als von Wissenschaftlern genutzt wird, da diese Zielgruppe eher über Erfahrungen in der Beschaffung wissenschaftlicher Literatur verfügt.

Suchraum

Google Scholar versteht sich als ein Suchdienst für die allgemeine Suche nach wissenschaftlicher Literatur. Dazu gehören vor allem Zeitschriftenartikel, Bücher und technische Berichte. Aber auch Seminararbeiten und sämtliche Arten von studentischen Abschlussarbeiten, Power Point-Präsentationen, Abstracts, Preprints und Konferenzbeiträge. Diese Dokumente sind teilweise frei im Web verfügbar, teilweise stammen sie von kommerziellen Anbietern. Deutlich erweitert wird das Volltextangebot durch die Integration der Daten aus Google Books.

Die kommerziellen Lieferanten der Daten sind wissenschaftliche Verlage, Fachgesellschaften und Berufsverbände, mit denen Google eine Vereinbarung getroffen hat. Diese erlaubt es den Webcrawlern deren Volltextdokumente zu indexieren. Dabei werden lediglich akademische Artikel, nicht jedoch Lehrbücher oder Monographien berücksichtigt. Es wird deutlich, dass Google die Definition der "Wissenschaftlichkeit" sehr weit fasst. Neben Fachartikeln, die nach einem Peer Review-Verfahren in Zeitschriften publiziert werden, sind auch Vortragsfolien, studentische Arbeiten von Hochschulschriftenservern und Dokumente, die Privatpersonen auf ihre Homepage stellen, nachgewiesen. [4]

Funktionsweise

Abdeckung

Wie bereits dargelegt, umfasst der Suchraum dieser Suchmaschine wissenschaftliche Dokumente von unterschiedlichen Qualitätsstufen. Die Dokumente befinden sich zudem teilweise in verschiedenen Bearbeitungsstadien. So werden nicht nur qualitätsgeprüfte Fachartikel aus wissenschaftlichen Zeitschriften nachgewiesen, sondern auch Open Access-Publikationen, welche nicht immer ein Peer-Review-Verfahren durchliefen, sowie Preprints oder Vortragsunterlagen. Die unterschiedlichen Versionen eines Dokuments werden von Google Scholar gruppiert. Als Treffer wird die Verlagspublikation angezeigt und alle anderen Versionen werden unterhalb dieses Treffers unter dem Link „alle … Treffer“ zusammengefasst. Die Liste sämtlicher indexierter Versionen kann aufgerufen werden.[5]

Google Scholar analysiert und indexiert Dokumente in verschiedenen Formaten. Dazu gehören die Formate HTML, PDF und PostSkript; auch komprimierte Dateien können bearbeitet werden. Der Umfang der Dokumente, die als Volltext zur Verfügung gestellt werden, ist durch die Integration der Daten aus Google Books deutlich ausgedehnt worden.[6] Jedoch sind die Themen, die eine geringe Popularität besitzen nur unzureichend in Google Scholar mit Nachweisen oder Volltexten repräsentiert.[7]

Indexierung

Google Scholar extrahiert aus den gefundenen Dokumenten die Metadaten wie z.B. Titel, Autor und Erscheinungsjahr. Dies erfolgt automatisiert, indem die Dokumente vom Webcrawler durchsucht werden und mit Hilfe eines Algorithmus die einzelnen Textsegmente anhand des Dokumentenlayouts unterschieden werden. Die Software erkennt sie als Zitation, Autorennamen, Erscheinungsjahr o.ä. Diese Extraktion ist schwierig, da sich die Dokumente an keinen oder an unterschiedlichen Standards orientieren und in unterschiedlichen Formaten vorliegen. Dementsprechend ist das Erkennen der Metadaten teilweise fehlerhaft. Dies hat negative Folgen für die Auffindbarkeit der Dokumente sowie für alle Funktionen, die Google Scholar auf Basis dieser Daten anbietet.

Die extrahierten Daten werden für die Zitationsergebnisse, für den Rankingfaktor des Dokumentes, als auch für die Funktion „zitiert durch“ verwendet. Darüber hinaus werden sie bei der erweiterten spezifischen Suche und für den Export in Literaturverwaltungsprogramme benötigt.[6]

Ranking

Das Rankingverfahren nutzt die etablierten Verfahren von Google WebSearch. Da die bekannte Google-Technik im Hintergrund von Google Scholar angewandt wird, bietet dieser Suchdienst die gleiche Rechercheoberfläche und die gleiche Bearbeitungsgeschwindigkeit. Jedoch bweisen wissenschaftliche Dokumente und deren Inhalte besondere Eigenschaften auf, die eine Anpassung der Prinzipien und Algorithmen des Pagerank notwendig machen.[1]

Die Technologie berücksichtigt den vollständigen Text des Dokuments, die Quelle, in welcher der Text veröffentlicht wurde und vor allem auch wie oft er in andereren Artikeln zitiert wird, um nur einige der berücksichtigten Faktoren zu nennen.[4] Da Google über das Rankingverfahren kaum Informationen bekannt gibt, können über weitere Popularitätswerte und über die Gewichtung nur Vermutungen angestellt werden. Bekannt ist lediglich, dass Literatur, die häufig zitiert wird, in der Trefferliste weit oben angezeigt wird.[2] Da somit aktuelle Dokumente einen niedrigeren Rankingfaktor erhalten als ältere Dokumente, wurde die Gewichtung des Publikationsdatums zugunsten von Dokumenten aktuelleren Datums verändert.

Wie der Algorithmus der Webcrawler wissenschaftliche von nicht wissenschaftlichen Dokumenten im freien Web unterscheidet, ist ebenfalls nur vage von Google bekannt gegeben worden. Es heißt lediglich, dass ein Dokument anhand seiner strukturellen Merkmale als wissenschaftlich eingestuft werde.

Zitationsextraktion

Für die automatische Extraktion und Analyse von Zitationen greift Google auf seine Erfahrungen mit der Linkanalyse PageRank und auf die Erkenntnisse der Suchmaschine CiteSeer zurück. Durch das autonomous citation indexing werden Literaturangaben aus den Volltexten entnommen und nachgewiesen. Somit enthält Google Scholar auch Werke, die über seinen Abdeckungsgrad hinausreichen. Dabei handelt es sich hauptsächlich um Bücher.[1]

Teilweise wird Google Scholar als Konkurrenz zum kostenintensiven Science Citation Index (SCI) gesehen, da diese Fachdatenbank eine Zitationsanalyse anbietet und diese kostenlos zur Verfügung stellt. Google Scholar berücksichtigt darüber hinaus Open Access-Publikationen sowie Publikationen, die durch die selektiven Auswahlkriterien im SCI nicht enthalten sind. Somit bietet Google Scholar einige Vorteile gegenüber dem Science Citation Index. Jedoch reicht die Genauigkeit und die damit verbundene Aussagekraft bei weitem nicht an die Qualität der Analyse des SCI heran.

Wie die automatische Extraktion der Metadaten, ist auch das maschinelle Erkennen von Zitaten fehleranfällig. So kommt es teilweise zu redundanten, unvollständigen oder fehlerhaften Einträgen im Index von Google Scholar.[2] Selbstverständlich versucht Google durch die Weiterentwicklung der zugrunde liegenden Algorithmen, die Fehler zu beheben.

Google Scholar bietet mit den Funktionen „ähnliche Artikel“ und „zitiert durch“ die Möglichkeit, die Recherche auszudehnen. Mit dem Begriff „Zitation“ werden Dokumente gekennzeichnet, auf die in anderen wissenschaftlichen Ressourcen verwiesen wird, die jedoch nicht in Google Scholar im Volltext enthalten sind. Dem Nutzer werden lediglich die ermittelten bibliographischen Daten präsentiert. Die Anfrage kann jedoch über den Link „Bibliothekssuche“ an den WorldCat weitergeleitet werden. Über diesen Katalog wird die nächstgelegene Bibliothek ermittelt, die diesen Titel im Bestand hat.[8] Über den Link "ähnliche Artikel" werden als thematisch verwandt erkannte Dokumente aufgelistet. Diese Funktion beruht ebenfalls auf der Volltextindexierung und der anschließenden automatischen Analyse der Daten.

Kooperation mit Verlagen und Bibliotheken

Wie bereits erwähnt kooperiert Google Verlagen, Berufsverbänden und anderen Fachgesellschaften zusammen. Die vertraglichen Vereinbarungen erlauben den Webcrawlern das Indexieren der zugriffsbeschränkten Internetseiten dieser Contentanbieter. Auf diese Weise kann die Suchmaschine kostenpflichtige, in Datenbanken enthaltene Fachartikel nachweisen. Die Anbieter sind verpflichtet, für kostenpflichtige Dokumente ein frei zugängliches Abstract bereitzustellen.

Google Scholar kooperiert ebenfalls mit Bibliotheken. Über den WorldCat kann die nächstgelegene Bibliothek ermittelt, werden die ein vorgefundenes Buch im Bestand hat. Dies ist unmittelbar aus der Trefferliste von Google Scholar über den Link Bibliothekssuche möglich. Dafür leitet die Suchmaschine die Nutzeranfrage an den WorldCat weiter.

Über den Link-Resolver kann jede Bibliothek ihren Nutzern den unmittelbaren Zugriff auf die lizenzierten elektronischen Bestände gewähren.[6] Dies erspart den Nutzern die nochmalige Suche auf den Seiten der Heimatbibliothek und ist eine gute Möglichkeit die Google-Nutzer auf die qualitativ hochwertigen Angebote der eigenen Bibliothek aufmerksam zu machen.

Systemarchitektur

Hardware und Infrastruktur

Google nutzt die existierende Infrastruktur seiner Rechenzentren, um den Dienst Google Scholar anzubieten. Weltweit betreibt Google Rechenzentren, in denen der riesige Datenbestand gespeichert ist und die Suchanfragen bearbeitet werden. Diese verteilte Datenhaltung wird durch die Datenbanksoftware Google BigTable verwaltet. Genauere Informationen über die Systemarchitektur, die Datenhaltung und die Software befinden sich im Wikipedia-Artikel zu Google. An dieser Stelle werden deshalb nur wenige Details kurz erläutert.

Die als Commodity Server bezeichneten Geräte sind handelsübliche PCs bzw. selbst gebaute Geräte, auf denen das kostenlose Betriebssystem UNIX installiert ist. Die Server bilden in den einzelnen Rechenzentren Rechencluster und können gemeinsam Daten im Terabyte-Bereich verarbeiten. Der Vorteil der vielen Einzelgeräte an Stelle von Großgeräten liegt in dem problemlosen Austausch einzelner Server. Auf diese Weise können defekte Server ohne Leistungseinbußen ausgetauscht werden und das gesamte System ist schnell und einfach erweiterungsfähig.[9]

Da Google nur sehr wenige Informationen über seine Systemarchitektur bekannt gibt, können keine genauen Angaben über die Schaltung der Server innerhalb der Cluster sowie der Cluster untereinander getroffen werden. Auch über die Protokolle und Schnittstellen für den internen und externen Datenaustausch können keine Angaben gemacht werden.

Webcrawler

Die Webcrawler gelangen über Links zu frei verfügbaren Internetseiten, die sie nach wissenschaftlichen Dokumenten durchsuchen. Durch die Vereinbarungen mit Fachgesellschaften und Verlagen ist dies für die Webcrawler von Google nicht nur im freien Web sondern auch in den geschützten Seiten der Vertragspartner möglich. Die Crawler extrahieren die bibliographischen Daten der gefundenen Dokumente ebenso wie die darin enthaltenen Zitationen. Für diese Aufgaben werden spezielle Algorithmen eingesetzt. Wie bei Google üblich, findet keine intellektuelle Überprüfung der ausgeführten Arbeiten statt. Andere Contentanbieter wie beispielsweise Hosts und Bibliotheken, die Anbieter von Fachdatenbanken, Bibliothekskatalogen und Virtuellen Fachbibliotheken sind, erstellen im Gegensatz dazu ihre Metadatensätze vollständig intellektuell bzw. semiintellektuell unter Einsatz von lernenden Indexierungsprogrammen.

Linkresolver

Die Crawler erhalten jedoch keinen Zugang zu bibliothekarischen Datenbeständen. Der Zugriff auf die notwendigen Daten von kooperierenden Bibliotheken kann nur über Linkresolver erfolgen. Diese stellen die Schnittstelle zu deren elektronischen Angeboten. Hierfür sind jedoch Änderungen am Linkresolver durch dessen Anbieter notwendig. Danach ist es Google Scholar möglich, einem Bibliotheksbenutzer aus der Trefferliste heraus auf den Volltext weiterzuleiten.

Über die Schnittstelle ist das Auslesen der notwendigen Angaben über die lizenzierten Dokumente wie den Anbieter und den lizenzierten Zeitraum und den Link zum Volltext aus dem Bibliothekskatalog möglich.[10] Dafür wird eine XML-Datei auf der Bibliotheks-Website benötigt, die täglich von den internen Konfigurationsdateien des eingesetzten Linkresolvers erzeugt wird. Sie enthält den Titel der Zeitschrift, deren ISSN sowie die Angaben zum Subskriptionszeitraum. Diese Angaben bestehen aus dem Jahr, dem Jahrgang und der Heftnummer des ersten und des letzten lizenzierten Zeitschriftenheftes. Darüber hinaus können Kommentare über Bestandslücken oder Zugangsbeschränkungen von der Bibliothek eingefügt werden. Zur Unterstützung der Bibliotheken bei der Erstellung dieser Datei bietet Google Scholar eine Beispieldatei an.

Suche und Trefferanzeige

Bei jeder Suche wird nach passenden Dokumenten und nach allen Dokumenten gesucht, in denen diese Dokumente zitiert werden. Den Haupttreffer stellen gegebenenfalls indexierte Verlagspublikationen dar. Die Zahl der zitierenden Arbeiten wird direkt unterhalb des Treffers angezeigt. Ebenfalls dort werden die Versionen zusammengefasst, die als kostenlose oder frühere Version erkannt wurden. Bei diesen Anzeigen handelt es sich um Links, die zu der Auflistung der zitierenden Artikel bzw. weiteren Versionen führen. Der Link „verwandte Artikel“ zeigt die Treffer an, die am besten zu dem ausgewählten Treffer passen, also dem gefundenen Treffer ähneln.

Neben diesen Möglichkeiten bietet Google Scholar für Treffer, bei denen es sich lediglich um ermittelte Zitationen handelt, eine Weiterleitung der Suchanfrage an den WorldCat an. So kann die nächstgelegene Bibliothek ermittelt werden, die das nachgewiesene Dokument (meistens ein Buch) in ihrem Bestand hat.

Darüber hinaus erhält der Nutzer die Möglichkeit, über den Linkresolver seiner Heimatbibliothek Zugriff auf den lizenzierten Volltext zu erhalten. Dafür ist es notwendig, in den Einstellungen von Google Scholar seine Heimatbibliothek einzutragen. Selbstverständlich kann dieser Mehrwertdienst nur angeboten werden, wenn die jeweilige Bibliothek mit Google Scholar zusammenarbeitet und die unter Schnittstellen beschriebenen Vorgaben erfüllt.

Die Trefferliste kann weiter eingeschränkt werden. Über ein Pull-Down-Menü kann das früheste Erscheinungs- bzw. Publikationsjahr festgelegt werden. Über ein zweites Menü besteht die Möglichkeit, Zitate in die Treffermenge einzuschließen oder nur Treffer anzeigen zu lassen, die mindestens eine Zusammenfassung besitzen. Mit dieser Einstellung ist es möglich sowohl Treffer ohne Abstracts als auch Zitate auszuschließen. Weitere Optionen zur selbstständigen Sortierung bietet Google Scholar jedoch nicht. Google Schloar bietet an dieser Stelle einen Alerting-Dienst an. Damit kann ein Nutzer sich über neu indexierte Dokumente, die zur Suchanfrage passen, per E-Mail informieren lassen. Die eingegebene Suchanfrage wird in das Feld "Benachrichtigungsabfrage" übernommen. Nach gegebenenfalls notwendigen Änderungen an der Suchanfrage und der Eingabe der E-Mail-Adresse wird der Alertingdienst durch den Klick auf "Alert erstellen" eingerichtet.

Insgesamt ist der Nutzer stark auf die Qualität des [[Pagerank|Rankings] angewiesen. Über die Rankingkriterien und deren Gewichtung wird von Google nur sehr wenig bekannt gegeben. Die Einschränkung nach der Qualität der Dokumente bietet Google Scholar nicht an. Eine Unterscheidung der verschiedenen Versionen ist bei der Suche nicht möglich. Es muss ebenfalls beachtet werden, dass es keine Trunkierungs- oder Maskierungsmöglichkeiten gibt. Dies bedeutet, dass sämtliche Begriffe ausgeschrieben und mit "OR" verknüpft werden müssen. Die deutschsprachige Version von Google Scholar bietet keine thematische Einschränkung, es kann ausschließlich multidisziplinär gesucht werden. In der englischen Version stehen sieben allgemeine Forschungsgebiete zur Beschränkung des Suchraumes zur Auswahl. Obwohl Google Scholar technisch auf der Websuche von Google beruht, ist die dort angebotene Einschränkung der Suche mit den bekannten Operatoren "filetype" und "allinurl" nicht möglich.

Google Scholar bietet eine einfache Suche, eine erweiterte Suche und eine Suche mit Operatoren innerhalb der einfachen Suche. Für diese Suchvarianten können vorab gewisse Einstellungen vorgenommen werden. So kann die Sprache der Dokumente und der Benutzeroberfläche sowie die Anzahl der Treffer pro Seite ausgewählt werden. Außerdem kann in den Einstellungen die Heimatbibliothek für die Funktion Bibliothekslink ausgewählt werden. Eine weitere angebotene Voreinstellung betrifft die Literaturverwaltung. Über die Einstellung „Bibliographiemanager“ kann der Nutzer das Format auswählen, in dem er Daten in seine Literaturverwaltungssoftware importieren möchte.

Einfache Suche

In der einfachen Suche können einzelne Suchbegriffe nacheinander eingegeben werden, die automatisch mit „AND“ verknüpft werden. Die Phrasensuche ist durch den Einschluss der Suchbegriffe in Anführungszeichen möglich. Für die Suche mit dem Autorennamen ist es unerheblich, ob er nach dem Schema „Nachname Vorname“ oder „Vorname Nachname“ eingegeben wird. Jedoch muss die Suchanfrage den bzw. die Vornamen des Autoren sowohl vollständig ausgeschrieben als auch nur mit dem ersten Vornamen abgekürzt umfassen, um alle Dokumente dieses Autoren zu finden.

Erweiterte Suche

Die erweiterte Suche bietet mehrere Eingabefelder, die die einfache Nutzung der Boole’schen Operatoren ermöglichen. In dem Feld „mit allen Wörtern“ wird eine automatische Und-Verknüpfung ausgeführt und nach den Begriffen in allen Feldern der Datenbank gesucht. Die Phrasensuche ist in dem Feld „mit der genauen Wortgruppe“ möglich. Mit synonymen, quasisynonymen oder anderssprachigen Begriffen in einer Suchanfrage kann mit „mit irgendeinem der Wörter“ gesucht werden. Über das Feld „ohne die Wörter“ können Treffer, die bestimmte Begriffe enthalten, ausgeschlossen werden. Sie entspricht dem Operator „NOT".

Die Suche kann über den gesamten Volltext erfolgen oder nur auf den Titel des Artikels eingeschränkt werden. Lediglich in den Metadaten eines intellektuell erschlossenen Dokumentes zu recherchieren wird von Google Scholar leider nicht unterstützt. Weitere Einschränkungen sind auf das Publikationsjahr bzw. einen Zeitraum und auf die Veröffentlichung in einer Publikation, also z.B. in einer Fachzeitschrift, möglich. Dabei muss jedoch beachtet werden, dass nicht alle indexierten Dokumente eine Jahresangabe enthalten und diese bei der Suche demzufolge nicht berücksichtigt werden. Es kann außerdem explizit nur nach dem Metadatum „Autor“ gesucht werden. Die beschriebenen notwendigen Suchen mit verschiedenen Varianten des Autorennamens sind auch in der erweiterten Suche notwendig.

Kommandobasierte Suche

Die unter „erweiterte Suche“ beschriebenen Präzisierungen der Suchanfrage können auch über die Eingabe der entsprechenden Operatoren als Zeichen oder als Begriff in Großbuchstaben in dem Eingabefeld der einfachen Suche vorgenommen werden.

Die Und-Verknüpfung von Begriffen wird automatisch durch die Aneinanderreihung dieser Begriffe erzeugt. Der Operator „AND“ oder das Pluszeichen führt zur Berücksichtigung von Buchstaben, Zahlen und allgemeinen Wörtern (Stoppwörtern), die eigentlich bei der Suche übergangen werden.

Mit dem Minuszeichen oder dem Begriff „NOT“ wird der anschließende Begriff aus der Suche ausgeschlossen. So können Dokumente mit diesem Begriff aus der Treffermenge entfernt werden. Der dritte Boole’sche Operator „OR“ kann nur als Begriff eingegeben werden. Mit ihm können, wie schon beschrieben, Synonyme, Quasisynonyme oder Übersetzungen von Begriffen gleichzeitig in einer Suche berücksichtigt werden. Auf diese Weise kann mit einer Anfrage eine breitere thematische Abdeckung erreicht werden.

Weitere Operatoren sind „autor“, „allintitle“ sowie „site“. Mit ihnen kann die Suche auf die Metadaten Autor bzw. Titel eines Dokumentes bzw. auf die Quelle wie bspw. eine URL eingeschränkt werden. Die aus der Google Websuche bekannten Operatorn „filetype“ und „allinurl“ werden (wie schon beschrieben) von Google Scholar nicht unterstützt. Die Gesamtheit der Suchoptionen stellt verglichen mit den Möglichkeiten in Fachdatenbanken lediglich ein Minimum an Suchmöglichkeiten für eine wissenschaftliche Recherche dar. Die von Fachverlagen und Fachgesellschaften erstellten Metadaten wie Abstracts, Keywords etc. werden von der Suchmaschine nicht berücksichtigt. Damit bleiben qualitativ hochwertige Informationen ungenutzt. Die Relevanz und Suchgenauigkeit von Google Scholar hängt somit vollständig von den Algorithmen zur Bewertung der Wissenschaftlichkeit, der Extraktion der Metadaten sowie dem Ranking ab.

Beispiel

Die beschriebenen Dienste von Google Scholar sollen anhand einer Beispielsuche demonstriert werden. In das Feld der "einfachen Suche" wird der Autorenname Stephen Hawking eingegeben. Die Suche ergibt (mit Stand vom November 2011) 23.500 Treffer. Ein Blick auf die Trefferliste zeigt auf den ersten fünf Seiten nur thematisch passende Dokumente an. Diese sind jedoch fast ausschließlich englischsprachig und belegen die starke Konzentration der Nachweise auf den englischen Sprachraum.

Rechts neben dem Suchschlitz der einfachen Suche befindet sich der Link zur "erweiterten Suche". Diese bietet verschiedene Eingabefelder für die genauere Formulierung der Suchanfrage. Für die Suche nach Publikationen von Stephen Hawking muss sein Name im Feld "Artikel geschrieben von" als Phrase eingetragen werden. Diese Suche ermittelt 554 Treffer. Wie weiter oben beschrieben wird auch eine kommandobasierte Suche über den Suchschlitz der einfachen Suche angeboten. Hier muss der Operator für die Suche nach Autorennamen eingesetzt werden. Die Suchanfrage lautet: autor:Stephen Hawking. Es werden ebenfalls 554 Treffer ermittelt, da die Suchanfragen der erweiterten und der kommandobasierten Suche identisch lauten.

Die möglichen Einschränkungen der Trefferliste wurden weiter oben schon skizziert. Nun wird der Aufbau einer Kurztrefferanzeige anhand eines nachgewiesenen Dokumentes aus der Trefferliste der vorgestellten Suche beschrieben:

[PDF] Der große Wurf
S Hawking... -2010 - buchliebling.com
Auffassung, ganz anders sogar als das Bild, das wir vielleicht noch vor ein oder zwei Jahrzehnten gezeichnet hätten. Trotzdem reichen die ersten Entwürfe des neuen Konzepts fast hundert Jahre zurück. Nach der traditionellen Auffassung vom Universum bewe...
Zitiert durch: 5 - Ähnliche Artikel - HTML-Version - Alle 7 Versionen

Zunächst zeigt Google Scholar den Titel des Treffers an, der durch Anklicken zum indexierten Dokument führt. Als nächstes werden die extrahierten bibliographischen Angaben dieses Dokumentes präsentiert. Wie in diesem Beispiel ersichtlich, können die Metadaten so knapp sein, dass sie für das Zitieren in einer wissenschaftlichen Arbeit nicht ausreichen. Zur Beurteilung des Dokumentes wird anschließend ein Ausschnitt aus dem Volltext angeboten. In der letzten Zeile bietet Google Scholar die vorgestellten Mehrwertdienste an.

Klickt man Zitiert durch: 5 an, werden die Publikationen als Kurztrefferliste angezeigt, die dieses Werk zitieren. Über den Link "Ähnliche Artikel" gelangt der Nutzer ebenfalls zu einer Trefferliste mit Dokumenten, die das gleiche Thema behandeln. Da dieser Treffer im Format PDF vorliegt, bietet Google Scholar seine Anzeige in HTML an. Es konnten sieben andere Versionen dieses Dokumentes erkannt werden, die unter dem Link "Alle 7 Versionen" gruppiert sind. Über diesen Link stehen diese unterschiedlichen Versionen sofort zur Verfügung. Weitere Mehrwertdienste sind Bibliothekssuche und Bibliothekslink. Über die Bibliothekssuche kann der WorldCat abgefragt werden. Dieser wird angeboten, wenn es sich bei dem ermittelten Treffer um ein gedrucktes Werk (meistens ein Buch) handelt. Ist der Nutzer von Google Scholar auch Nutzer einer Bibliothek, die mit der wissenschaftlichen Suchmaschine kooperiert, wird ebenfalls in dieser untersten Zeile der "Bibliothekslink" angeboten. Wie weiter oben beschrieben, wird darüber die Verfügbarkeit einer lizenzierten elektronischen Version des Artikels überprüft und gegebenenfalls direkt auf den Volltext verlinkt.

Kritik

Positive Kritik

Die Attraktivität wissenschaftlich relevante Dokumente mittels Google Scholar zu recherchieren liegt in der einfachen Bedienbarkeit, der übersichtlichen Trefferpräsentation sowie in der Bearbeitungsgeschwindigkeit. Auch die wahrscheinlich enorme Größe des Indexes und damit des abgedeckten Suchraumes und die gewohnte Qualität des Ranking sind für den Erfolg der wissenschaftlichen Suchmaschine wesentlich. Darüber hinaus ist die Suchmaschine intuitiv zu benutzen, Kenntnisse über Thesauri, Klassifikationen oder andere kontrollierte Vokabulare sind nicht notwendig. [1]

Diese Charakteristika haben Google Scholar zu einem wichtigen und intensiv genutzten Konkurrenten von etablierten akademischen Suchdiensten gemacht. Dazu haben auch die Kooperationen mit Bibliotheken sowie die Verlinkung zum WorldCat beigetragen. Hervorzuheben ist in diesem Zusammenhang, dass die wissenschaftliche Suchmaschine BASE (Bielefeld Academic Search Engine) Ergebnisse aus Google Scholar in ihre Suchergebnisse einbindet.

Google Scholar macht sowohl Volltexte als auch bibliographische Daten zugänglich. Die Bedeutung von Google Scholar liegt in der Öffnung von Teilen des Invisible Web. Durch die Kooperationen mit Verlagen etc. werden Dokumente indexiert, die in Datenbanken verborgen sind und normalerweise nicht für Webcrawler zugänglich sind. Zusammen mit der Indexierung freier Webinhalte kann die wissenschaftliche Suchmaschine zu unzähligen Volltexten direkten Zugriff bieten oder sie zumindest bibliographisch nachweisen. Für kostenpflichtige Volltexte liegt ein Abstract vor, anhand dessen die Relevanz des Dokuments vor Zahlung der Lizenzgebühr eingeschätzt werden kann. Außerdem geht der Nachweis von Werken über den eigentlichen Suchraum von Google Scholar hinaus. Durch die Extraktion von Zitationen sind Werke mit ihren bibliographischen Angaben nachgewiesen, die nicht digital vorliegen. [3]

Die Angabe der Zitationen kann helfen, thematisch verwandte Dokumente im Internet zu finden, da durch die zitierenden Quellen gebrowst werden kann. Gleiches gilt für die Funktion „zitiert durch“, durch die sofort weitere Quellen zu einem Thema zur Verfügung stehen. [6]

Liegen die Quellen nicht digital vor, bietet Google Scholar oftmals die Weiterleitung an den WorldCat oder den Bibliothekslink an. Dieser Link ist für Nutzer von Bibliotheken, die mit Google Scholar zusammenarbeiten, sehr vorteilhaft. Der Nutzer erhält darüber Zugriff auf den durch seine Bibliothek lizenzierten Volltext. Kann der Volltext auch auf diese Weise nicht angeboten werden, steht in manchen Fällen der WorldCat zur Recherche nach der nächstgelegenen Bibliothek, die dieses Werk in ihrem Bestand hat, zur Verfügung. [11]

Die Suchmaschine ist kostenlos und tritt mit ihrem Anspruch wissenschaftliche Literatur nachzuweisen in Konkurrenz zu kommerziellen Datenbankanbietern und Volltextarchiven. Durch die Zitationsanalyse von Webzitierungen kann Google Scholar als Alternative (nicht unbedingt als Konkurrenz) zum etablierten aber teuren Science Citation Index sowie zu SCOPUS gesehen werden. [12]

Durch die interdisziplinäre Gestaltung des Suchdienstes erhöht sich die Sichtbarkeit der Publikationen fachübergreifend. Google Scholar bewertet die Wissenschaftlichkeit von Dokumenten anhand ihres Layouts. Dadurch indexiert die Suchmaschine Zeitschriften, die aufgrund der selektiven Auswahlkriterien im Science Citation Index nicht ausgewertet werden. Dies betrifft vor allem Open-Access-Zeitschriften. Somit wird die Sichtbarkeit der Zeitschriften und der Autoren im Internet erhöht. Dies kann als „Demokratisierung“ des Wissenschaftssystems bezeichnet werden. [6]

Die Erschließung von Internetressourcen mit Webcrawlern hat zum einem den Vorteil, dass nur ein Index besteht, der bei einer Suche abgefragt werden muss. Dies erleichtert auch die Aktualisierung der Daten und ist ein Vorteil gegenüber Metasuchmaschinen. Zum anderen werden die Treffer in der Anzeige gleich dargestellt, egal von welchem Datenlieferanten sie stammen. [1]

Negative Kritik

Deutlich kritisiert werden muss die Informationspolitik von Google Scholar. Die Nutzer werden nicht informiert über die Kriterien, die der Beurteilung der Wissenschaftlichkeit und dem Ranking zu Grunde liegen. Auch über die genaue Zielgruppe werden nur vage Aussagen getroffen. Prinzipiell richtet sich die Suchmaschine an alle, die wissenschaftliche Literatur suchen. Es bleibt ebenfalls unklar, welche Datenbestände indexiert werden. Über den Indexierungsgrad und mögliche Indexierungslücken beim Nachweis von Volltextangeboten der wissenschaftlichen Kooperationspartner wird nichts bekannt gegeben. Die Aussagen bleiben sehr ungenau und schwammig. [12] Auch die Größe der Datenbasis und die Aktualisierungshäufigkeit bleiben unbekannt. [6]

Kritisch gesehen werden muss ebenfalls, dass Google Scholar auch studentische Arbeiten und Power-Point-Präsentationen als wissenschaftliche Publikationsformen ansieht. Die Durchmischung dieser Dokumente mit Fachartikeln und deren Preprints führt dazu, dass die formale und fachliche Qualität der Treffer unterschiedlich ist. Besonders für Studierende ohne Erfahrung in der Recherche ist es schwierig, passende und hochwertige Quellen zu ermitteln. Dies könnte insbesondere Studierenden ohne Rechercheerfahrung passieren.[1] Besonders für Studierende ohne Erfahrung in der Recherche ist es schwierig, passende und hochwertige Quellen mit Google Scholar zu ermitteln. [6] Außerdem entsteht durch die Berücksichtigung von Vortragsunterlagen und Preprints das Problem von Dubletten bzw. Fast-Dubletten. Die unterschiedlichen Versionen müssen durch die Software als zusammengehörig identifiziert und unter der aktuellsten Version gruppiert werden. [1]

Dies setzt jedoch die korrekte Erkennung der Daten für die Indexierung voraus. Die Indexdaten werden ausschließlich automatisch anhand von Algorithmen aus dem Volltext extrahiert und für sämtliche Dienste genutzt. Die Grundlage ist ausschließlich das Layout der Dokumente. [5] Werden in diesem Prozess die Daten falsch gelesen oder nicht in die korrekte Kategorie eingeordnet, sinkt die Qualität sämtlicher Dienste. Diese Fehler geschehen relativ häufig und so stehen bspw. Begriffe aus dem Titel im Autorenfeld oder Vor- und Nachnamen werden vertauscht oder die Namen von zwei Autoren werden als ein Name indexiert. [1] Somit werden die Daten auch unkorrekt in Literaturverwaltungsprogramme exportiert und falsch als Suchanfrage an den WorldCat und über den Linkresolver an die Bibliothekskataloge weitergeleitet. Die Funktionsfähigkeit dieser Dienstleistungen ist von der Richtigkeit der Metadaten abhängig. [6]

Aber nicht nur falsch indexierte Daten haben einen negativen Einfluss. Da sich die Zitationshäufigkeit ausschließlich aus den indexierten Quellen bestimmt, bedeutet dies im Umkehrschluss, dass nicht indexierte Dokumente nicht für diesen Dienst herangezogen werden können. Dies führt zu einer Verzerrung des Bildes. Sind Zitationen zu einem Titel nicht im Index enthalten, wird dieser Titel schlechter gerankt und erscheint in der Trefferliste weiter unten, obwohl er inhaltlich sehr gut passt. [4] Darüber hinaus ist der Mechanismus zur Zitrationsextraktion und –analyse in seiner Funktionalität umstritten. Der Grund ist seine Fehleranfälligkeit. Die von Google Scholar ermittelte Zitationsrate ist nicht immer korrekt und, wie gerade erwähnt, können darin nicht alle zitierenden Werke enthalten sein. Somit kann aus der Zitationsrate nicht die tatsächliche Relevanz des Treffers abgelesen werden. [6]

Die bibliographischen Angaben aller Dokumenttypen sind in der Trefferangabe sehr kurz. Darüber hinaus sind sie häufig aufgrund der beschriebenen Indexierungs- und Extraktionsalgorithmen formal und inhaltlich falsch. Sie genügen kaum den Ansprüchen des wissenschaftlichen Arbeitens.[7]

Die Nutzer sind sehr stark vom Ranking der Treffer abhängig, da Google Scholar keine Möglichkeiten zum Sortieren der Treffer bietet. Es können lediglich Zitationen oder Dokumente vor einem ausgewählten Erscheinungsjahr ausgeschlossen werden. Problematisch ist in diesem Zusammenhang die fehlende intellektuelle Kontrolle. Die Algorithmen bestimmen, welche Dokumente indexiert werden und welchen Rankingwert sie erhalten. [6]

Die Indexierung beschränkt sich auf die Volltexte. Schlagworte, Notationen oder Abstracts, die qualitativ hochwertige Artikel aus Fachzeitschriften besitzen, werden nicht indexiert und bleiben somit völlig unberücksichtigt. Damit verschenkt Google Scholar eine Möglichkeit, die Precision in der Recherche zu erhöhen. Auch eine weitere Bearbeitung der indexierten Dokumente durch Stemming-Verfahren findet nicht statt. [1]

Die Suchwerkzeuge, die Google Scholar anbietet, sind sehr beschränkt. Es können lediglich Einschränkungen nach Autoren, Zeitschriften und Publikationsjahr vorgenommen werden. Diese Suchoptionen genügen nicht den Anforderungen an eine wissenschaftliche Fachrecherche. [11] Außerdem werden bei der Suche mit der Datumsbeschränkung Quellen ohne Veröffentlichungsdatum ausgeschlossen und in die Trefferliste nicht miteinbezogen. Deshalb ist diese Sucheinschränkung für eine präzise ebenso wie für eine auf Vollständigkeit angelegte Suche ungeeignet.

Aber auch mehrere Sucheinschränkungen, die der Nutzer der Google Websuche gewohnt ist, werden von Google Scholar nicht unterstützt. Dazu gehören die Operatoren „allinurl“ und „filetype“. Neben den Boole’schen Operatoren unterstützt Google Scholar nur „allintitle“, "site" und „author“. Außerdem kann nur über Stichwörter thematisch gesucht werden. Dies ist für eine thematische Suche unzureichend. Weiterhin nachteilig wirkt sich der multidisziplinäre Ansatz von Google Scholar aus. Die deutschsprachige Version bietet keine Einschränkung der Suche auf Fachgebiete. Auch die Qualität der Dokumente ist keine Einschränkungsoption. Sinnvoll wäre die Möglichkeit, die Suche auf gewisse Dokumenttypen zu beschränken oder Typen auszuschließen. [1] Die beschränkten Suchmöglichkeiten sind außerdem teilweise fehlerhaft, da sie ausschließlich auf maschinell ausgewählten, indexierten und bewerteten Daten beruhen. [1] [6]

Die unzureichenden Suchmöglichkeiten zeigen, dass Google Scholar die Recherche in Fachdatenbanken nicht ersetzen kann. Gerade für thematische Suchen bieten Thesauri, Klassifikationen und Abstracts gute Suchmöglichkeiten, die Google Scholar nicht einsetzt. Auch die fehlenden Trunkierungsmöglichkeiten sind ein deutlicher Nachteil gegenüber Fachdatenbanken. Für eine auf Vollständigkeit oder Präzision ausgerichtete Literatursuche sollte diese wissenschaftliche Suchmaschine nicht eingesetzt werden. Jedoch ist sie ausreichend für einen Einstieg in ein Thema sowie zur Recherche nach Volltexten anhand von bibliographischen Angaben. [7]

Literatur

Einzelnachweise

  1. a b c d e f g h i j k Dirk Lewandowski: Google Scholar. Ausbau und strategische Ausrichtung des Angebots sowie Auswirkungen auf andere Angebote im Bereich der wissenschaftlichen Suchmaschinen. Expertise im Auftrag des Hochschulbibliotheksrechenzentrums Nordrhein-Westfalen, 2005
  2. a b c Philipp Mayr: Google Scholar als akademische Suchmaschine, 2009. In: VÖB-Mitteilungen (62), 2, S. 18-28
  3. a b Dirk Lewandowski: Nachweis deutschsprachiger bibliotheks- und informationswissenschaftlicher Aufsätze in Google Scholar, 2007. In: Information Wissenschaft und Praxis. 58 (2007), 3, S. 165-168
  4. a b c Google Scholar, Kategorie Über Google
  5. a b Google Scholar, Kategorie Support für Verlage
  6. a b c d e f g h i j k René König: Google, Google Scholar und Google Books in der Wissenschaft — Steckbrief III im Rahmen des Projekts Interactive Science. ITA-Projektbericht Nr. A52-3, Wien: Institut für Technikfolgen-Abschätzung (ITA), 2010
  7. a b c Franka Handreck; Michael W. Mönnich: Google Scholar als Alternative zu wissenschaftlichen Fachdatenbanken, In: B.I.T. online 11 (2008), 4, S. 401-406
  8. Google Scholar, Kategorie Google Scholar Hilfe.
  9. Neogrid. Das innovative EDV-Lexikon, Begriffe Google, Google BigTable, Google Server.
  10. Google Scholar, Kategorie Support für Bibliotheken.
  11. a b Philipp Mayr; Anne-Kathrin Walter: Abdeckung und Aktualität des Suchdienstes Google Scholar, 2006. In Information Wissenschaft und Praxis. DGI, Frankfurt
  12. a b Ben Kaden: Über Google Scholar, unveröffentlicht, 2006

Weblinks


Wikimedia Foundation.

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Google Scholar — Google Академия URL: scholar.google.com Тип сайта: библиографическая база данных …   Википедия

  • Google Scholar — URL http://scholar.google.com Description Service de recherche d articles scientifiques Commercial …   Wikipédia en Français

  • Google Scholar — (abreviado GS) es un buscador de Google especializado en artículos de revistas científicas, enfocado en el mundo académico, y soportado por una base de datos disponible libremente en Internet que almacena un amplio conjunto de trabajos de… …   Wikipedia Español

  • Google scholar — Logo de Google Scholar URL http://scholar.google.com/ Description Moteur de recherche spécialisé (recherche d articles scientifiques …   Wikipédia en Français

  • Google Scholar — Infobox Website name = Google Scholar caption = Google Scholar logo url = [http://scholar.google.com scholar.google.com] commercial = type = bibliographic database language = registration = no owner = Google author = Google launch date = current… …   Wikipedia

  • Google-Toolbar — Entwickler: Google Inc. Aktuelle Version: Firefox 3.1.20080605W Internet Explorer 5.0.2124.6042 …   Deutsch Wikipedia

  • Google-Hacking — Google URL http://www.google.de (Deutsche Version) http://www.google.ch (Schweizer Version) http://www.google.at (Österreichische Version) …   Deutsch Wikipedia

  • Google.com — Google URL http://www.google.de (Deutsche Version) http://www.google.ch (Schweizer Version) http://www.google.at (Österreichische Version) …   Deutsch Wikipedia

  • Google.de — Google URL http://www.google.de (Deutsche Version) http://www.google.ch (Schweizer Version) http://www.google.at (Österreichische Version) …   Deutsch Wikipedia

  • Google Finance — Google URL http://www.google.de (Deutsche Version) http://www.google.ch (Schweizer Version) http://www.google.at (Österreichische Version) …   Deutsch Wikipedia