. (Sie können hier über den Inhalt dieser Seite berichten)Möchten Sie Ihren Inhalt auf R-bloggers teilen? Klicken Sie hier, wenn Sie einen Blog haben, oder hier, wenn Sie keinen haben.

In der nächsten Woche werden wir die Grundlagen behandeln, wie Sie Ihre eigenen Histogramme in R erstellen können. Drei Möglichkeiten werden untersucht: grundlegende R-Befehle, ggplot2 und ggvis. Diese Beiträge richten sich an Anfänger und fortgeschrittene R-Benutzer, die eine zugängliche und leicht verständliche Ressource benötigen. Möchten Sie mehr lernen? Entdecken Sie die R-Tutorials auf DataCamp.

Was ist ein Histogramm?

Ein Histogramm ist eine visuelle Darstellung der Verteilung eines Datensatzes. Als solches ist die Form eines Histogramms seine offensichtlichste und informativste Eigenschaft: Sie ermöglicht es Ihnen, leicht zu sehen, wo sich eine relativ große Menge an Daten befindet und wo nur wenige Daten zu finden sind (Verzani 2004). Mit anderen Worten: Sie können sehen, wo die Mitte in Ihrer Datenverteilung liegt, wie nahe die Daten um diese Mitte herum liegen und wo mögliche Ausreißer zu finden sind. Genau aus diesem Grund sind Histogramme eine großartige Möglichkeit, Ihre Daten kennenzulernen!

Aber wie sieht diese spezielle Form eines Histogramms genau aus? Kurz gesagt, besteht das Histogramm aus einer x-Achse, einer y-Achse und verschiedenen Balken mit unterschiedlicher Höhe. Die y-Achse zeigt, wie häufig die Werte auf der x-Achse in den Daten vorkommen, während die Balken Wertebereiche oder kontinuierliche Kategorien auf der x-Achse gruppieren. Letzteres erklärt, warum Histogramme keine Lücken zwischen den Balken haben.

Beachten Sie, dass die Balken von Histogrammen oft als „Bins“ bezeichnet werden; in diesem Tutorial wird auch dieser Name verwendet.

Herstellen eines Histogramms mit R

Schritt eins – Zeigen Sie mir die Daten

Da Histogramme zunächst einige Daten benötigen, um gezeichnet zu werden, ist es gut, einen Datensatz zu importieren oder einen in R eingebauten zu verwenden. In diesem Tutorial werden zwei Datensätze verwendet: der eingebaute R-Datensatz AirPassengers und ein Datensatz mit dem Namen chol, der in einer .txt-Datei gespeichert ist und zum Download bereitsteht.

chol = read.csv("https://s3.amazonaws.com/assets.datacamp.com/blog_assets/chol.txt", sep = " ") 

Schritt zwei – Machen Sie sich mit der Funktion Hist() vertraut

Sie können einfach ein Histogramm erstellen, indem Sie die Funktion hist() verwenden, die ein Histogramm der angegebenen Datenwerte berechnet. Sie setzen den Namen Ihres Datensatzes zwischen die Klammern dieser Funktion, etwa so:

hist(AirPassengers)

Das Ergebnis ist das folgende Histogramm:

Wenn Sie allerdings nur eine bestimmte Spalte eines Datenrahmens auswählen wollen, chol zum Beispiel, um ein Histogramm zu erstellen, müssen Sie die Funktion hist() mit dem Datensatznamen in Kombination mit dem Zeichen $ verwenden, gefolgt vom Spaltennamen:

hist(chol$AGE) #computes a histogram of the data values in the column AGE of the dataframe named "chol”

Schritt drei – Die Hist()-Funktion aufpeppen

Die Histogramme aus dem vorherigen Abschnitt sehen etwas langweilig aus, oder? Die Standardvisualisierungen tragen in der Regel nicht viel zum Verständnis Ihrer Histogramme bei. Sie müssen daher einen weiteren Schritt tun, um ein besseres und einfacheres Verständnis Ihrer Histogramme zu erreichen. Glücklicherweise ist dies nicht allzu schwer: R bietet mehrere einfache und schnelle Möglichkeiten, die Visualisierung von Diagrammen zu optimieren, wobei die hist()-Funktion weiterhin verwendet wird.

Um Ihr Histogramm anzupassen, müssen Sie einfach weitere Argumente zur hist()-Funktion hinzufügen, etwa so:

hist(AirPassengers, main="Histogram for Air Passengers", xlab="Passengers", border="blue", col="green", xlim=c(100,700), las=1, breaks=5)

Dieser Code berechnet ein Histogramm der Datenwerte aus dem Datensatz AirPassengers, gibt ihm als Titel „Histogramm für Flugpassagiere“, beschriftet die x-Achse mit „Passagiere“, gibt den Bins einen blauen Rahmen und eine grüne Farbe, während die x-Achse von 100 bis 700 begrenzt wird, die auf der y-Achse gedruckten Werte um 1 gedreht werden und die Bin-Breite auf 5 geändert wird.

Überwältigt von dieser großen Menge an Code? Kein Grund zur Sorge! Brechen wir ihn einfach in kleinere Stücke auf, um zu sehen, was jedes Argument bewirkt.

Namen/Farben

Ändern Sie den Titel des Histogramms, indem Sie main als Argument zur hist()-Funktion hinzufügen:

hist(AirPassengers, main="Histogram for Air Passengers") #Histogram of the AirPassengers dataset with title "Histogram for Air Passengers”

Um die Beschriftung der x-Achse anzupassen, fügen Sie xlab hinzu. Ebenso können Sie ylab zur Beschriftung der y-Achse verwenden:

hist(AirPassengers, xlab="Passengers", ylab="Frequency of Passengers") #Histogram of the AirPassengers dataset with changed labels on the x-and y-axes

Wenn Sie die Farben des Standard-Histogramms ändern möchten, fügen Sie einfach die Argumente border oder col hinzu. Sie können, wie die Namen schon verraten, die Ränder oder die Farben Ihres Histogramms anpassen.

hist(AirPassengers, border="blue", col="green") #Histogram of the AirPassengers dataset with blue-border bins with green filling

Tipp: Vergessen Sie nicht, die Farben und Namen zwischen "" zu setzen.

X- und Y-Achsen

Ändern Sie den Bereich der X- und Y-Werte auf den Achsen, indem Sie xlim und ylim als Argumente zur hist()-Funktion hinzufügen:

hist(AirPassengers, xlim=c(100,700), ylim=c(0,30)) #Histogram of the AirPassengers dataset with the x-axis limited to values 100 to 700 and the y-axis limited to values 0 to 30

Bei der Verwendung von xlim und ylim wird die Funktion c() zur Abgrenzung der Werte auf den Achsen verwendet. Es nimmt zwei Werte an: der erste ist der Anfangswert, der zweite ist der Endwert

Die Beschriftungen auf der y-Achse drehen Sie, indem Sie „las = 1“ als Argument hinzufügen. las kann 0, 1, 2 oder 3 sein.

hist(AirPassengers, las=1) #Histogram of the AirPassengers dataset with the y-values projected horizontally

Abhängig davon, welche Option Sie wählen, unterscheidet sich die Platzierung der Beschriftung: Wenn Sie 0 wählen, wird die Beschriftung immer parallel zur Achse platziert (das ist die Voreinstellung); wenn Sie 1 wählen, wird die Beschriftung horizontal platziert. Wählen Sie 2, wenn die Beschriftung senkrecht zur Achse stehen soll, und 3, wenn sie vertikal platziert werden soll.

Bins

Sie können die Bin-Breite ändern, indem Sie breaks als Argument hinzufügen, zusammen mit der Anzahl der Haltepunkte, die Sie haben möchten:

hist(AirPassengers, breaks=5) #Histogram of the AirPassengers dataset with 5 breakpoints

Wenn Sie mehr Kontrolle über die Haltepunkte zwischen den Bins haben möchten, können Sie das Argument breaks anreichern, indem Sie ihm einen Vektor von Haltepunkten geben. Sie können dies tun, indem Sie die c()-Funktion verwenden:

hist(AirPassengers, breaks=c(100, 300, 500, 700)) #Compute a histogram for the data values in AirPassengers, and set the bins such that they run from 100 to 300, 300 to 500 and 500 to 700.

Doch die c()-Funktion kann Ihren Code manchmal sehr unübersichtlich machen. Deshalb können Sie stattdessen =seq(x, y, z) einfügen. Die Werte von x, y und z werden von Ihnen selbst bestimmt und stellen in der Reihenfolge ihres Auftretens die Anfangszahl der x-Achse, die Endzahl der x-Achse und das Intervall dar, in dem diese Zahlen vorkommen.

Beachten Sie, dass Sie die beiden Funktionen auch kombinieren können:

hist(AirPassengers, breaks=c(100, seq(200,700, 150))) #Make a histogram for the AirPassengers dataset, start at 100 on the x-axis, and from values 200 to 700, make the bins 150 wide

Tipp: Studieren Sie die Veränderungen in der y-Achse genau, wenn Sie mit den im seq-Argument verwendeten Zahlen experimentieren!

Beachten Sie, dass die unterschiedliche Breite der Balken oder Bins verwirren kann und die interessantesten Teile Ihrer Daten nicht hervorgehoben oder sogar ausgeblendet werden können, wenn Sie diese Technik auf Ihr ursprüngliches Histogramm anwenden. Experimentieren Sie also einfach damit und sehen Sie, was für Ihre Zwecke am besten geeignet ist!

Extra: Wahrscheinlichkeitsdichte

Die hist()-Funktion zeigt Ihnen standardmäßig die Häufigkeit eines bestimmten Bin auf der y-Achse an. Wenn Sie jedoch sehen wollen, wie wahrscheinlich es ist, dass ein Intervall von Werten auf der x-Achse auftritt, benötigen Sie eine Wahrscheinlichkeitsdichte und nicht die Häufigkeit. Wir wollen also ein Histogramm der Proportionen abfragen. Sie können dies ändern, indem Sie das freq-Argument auf false setzen oder das prob-Argument auf true setzen:

hist(AirPassengers, main="Histogram for Air Passengers", xlab="Passengers", border="blue", col="green", xlim=c(100,700), las=1, breaks=5, prob = TRUE)#Histogram of the AirPassengers dataset with a probability density expressed through the y-axis instead of the regular frequency.

Nachdem Sie die Funktion hist() aufgerufen haben, um das obige Wahrscheinlichkeitsdichte-Diagramm zu erstellen, können Sie anschließend eine Dichtekurve zu Ihrem Datensatz hinzufügen, indem Sie die Funktion lines() verwenden:

lines(density(AirPassengers)) #Get a density curve to go along with your AirPassengers histogram

Beachten Sie, dass Sie für diese Funktion zunächst das prob-Argument des Histogramms auf true setzen müssen!

Schritt 4. Möchten Sie weitergehen?

Für eine vollständige Liste aller Argumente, die Sie der hist()-Funktion hinzufügen können, werfen Sie einen Blick auf den RDocumentation-Artikel zur hist()-Funktion.

Dies ist der erste von 3 Beiträgen zur Erstellung von Histogrammen mit R. Der nächste Beitrag wird die Erstellung von Histogrammen mit ggplot2 behandeln.

Haben Sie einen Fehler entdeckt? Senden Sie uns einen Tweet

Der Beitrag How to Make a Histogram with Basic R erschien zuerst auf The DataCamp Blog.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.