Pandas-Beispiele¶
Importe¶
[1]:
import numpy as np
import pandas as pd
Scatter matrix¶
Mit pandas.plotting.scatter_matrix lässt sich eine Streumatrix (Scatter-Matrix erstellen, z.B.:
[2]:
df = pd.DataFrame(np.random.randn(1000, 4), columns=["A", "B", "C", "D"])
pd.plotting.scatter_matrix(df, alpha=0.2)
[2]:
array([[<Axes: xlabel='A', ylabel='A'>, <Axes: xlabel='B', ylabel='A'>,
<Axes: xlabel='C', ylabel='A'>, <Axes: xlabel='D', ylabel='A'>],
[<Axes: xlabel='A', ylabel='B'>, <Axes: xlabel='B', ylabel='B'>,
<Axes: xlabel='C', ylabel='B'>, <Axes: xlabel='D', ylabel='B'>],
[<Axes: xlabel='A', ylabel='C'>, <Axes: xlabel='B', ylabel='C'>,
<Axes: xlabel='C', ylabel='C'>, <Axes: xlabel='D', ylabel='C'>],
[<Axes: xlabel='A', ylabel='D'>, <Axes: xlabel='B', ylabel='D'>,
<Axes: xlabel='C', ylabel='D'>, <Axes: xlabel='D', ylabel='D'>]],
dtype=object)
numpy.random.randn gibt eine Stichprobe (oder mehrere Stichproben) mit Standardnormalverteilung zurück. Die Parameter (d0, d1, …, dn) sind optionale Ganzzahlen, die die Dimensionen des zurückgegebenen Arrays bestimmen.
Andrews plot¶
In den letzten Jahren kamen weitere ausgefeilte statistische Visualisierungswerkzeuge hinzu, unter anderem Andrews plot für die Visualisierung mehrdimensionaler Daten:
[3]:
df = pd.read_csv(
"https://raw.githubusercontent.com/pandas-dev/pandas/master/pandas/tests/io/data/csv/iris.csv"
)
pd.plotting.andrews_curves(df, "Name")
[3]:
<Axes: >