MINI MINI MANI MO
%
% Copyright (c) 2015, Oracle and/or its affiliates. All rights reserved.
%
\name{ore.randomForest}
\alias{ore.randomForest}
\alias{grabTree}
\alias{grabTree.ore.randomForest}
\alias{predict.ore.randomForest}
\alias{print.ore.randomForest}
\title{
Oracle R Enterprise - randomForest-Funktion
}
\description{
Zufällige parallele Gesamtstrukturmodelle von \code{ore.frame}-Daten für
Klassifizierung erstellen.
}
\usage{
ore.randomForest(formula, data, ntree=500, mtry = NULL,
replace = TRUE, classwt = NULL, cutoff = NULL,
sampsize = if(replace) nrow(data) else ceiling(0.632*nrow(data)),
nodesize = 1L, maxnodes = NULL, confusion.matrix = FALSE,
groups = getOption("ore.parallel", NULL), na.action = na.fail, ...)
### Specific methods for ore.randomForest objects
\method{grabTree}{ore.randomForest}(object, k = 1L, labelVar = FALSE, ...)
\method{predict}{ore.randomForest}(object, newdata,
type = c("response", "prob", "vote", "all"),
norm.votes = TRUE,
supplemental.cols = NULL,
cache.model = TRUE, ...)
\method{print}{ore.randomForest}(x, ...)
}
\arguments{
\item{formula}{
Ein \code{\link[stats]{formula}}-Objekt, das das
zufällige Gesamtstrukturmodell für das Training darstellt.
}
\item{data}{
Ein \code{ore.frame}-Objekt, das die die Daten für dieses
Modell angibt.
}
\item{ntree}{
Gesamtanzahl der zu erweiternden Bäume.
}
\item{mtry}{
Die Anzahl der Variablen, die in den einzelnen Baumknotenaufteilungen zufällig
als Kandidaten ausgewählt werden. Wird keine Angabe gemacht, wird dieser Wert auf die
abgerundete Ganzzahl der Quadratwurzel der Attributanzahl in \code{formula} gesetzt.
}
\item{replace}{
Ein logischer Wert, der angibt, ob ein Sampling
mit Ersetzung durchgeführt werden soll.
}
\item{classwt}{
Ein Vektor der vorherigen Elemente von Klassen. Falls angegeben, muss
die Länge des Vektors der Anzahl Klassen in der
Zielspalte entsprechen. Der Vektor muss nicht 1 ergeben.
}
\item{cutoff}{
Ein Vektor von Begrenzungswerten. Falls angegeben, muss die Länge
des Vektors der Anzahl Klassen in der Zielspalte
entsprechen. Bei Angabe der Vorhersageklasse für eine Beobachtung
wird diejenige mit dem maximalen Verhältnis der zu begrenzenden Abstimmproportionen
gewählt. Falls nicht angegeben, lautet der Standardwert \code{1/k}, wobei \code{k}
die Anzahl der Klassen ist.
}
\item{sampsize}{
Die Größe der aus den zu erweiternden Bäumen zu nehmenden Stichprobe.
}
\item{nodesize}{
Die minimale Größe von Endknoten.
}
\item{maxnodes}{
Die maximale Anzahl Endknoten eines jeden Baums, der
erweitert werden soll. Falls nicht angegeben, können Bäume auf die maximale Größe erweitert werden,
die von den Grenzwerten von \code{nodesize} abhängt.
}
\item{confusion.matrix}{
Ein logischer Wert, der angibt, ob
die Confusion Matrix zu berechnen ist. Beachten Sie, dass diese Confusion Matrix
nicht auf OOB (out-of-bag) basiert. Sie ist das Ergebnis der Anwendung des
erstellten Gesamtstrukturzufallsmodells auf alle Trainingsdaten.
}
\item{groups}{
Gibt an, in wie viele Baumgruppen die Gesamtanzahl von
Bäumen aufgeteilt wird. Standardmäßig ist dies mit dem Wert
der Option \code{ore.parallel} identisch. Wenn der Systemspeicher begrenzt ist, wird
empfohlen, eine hohe Anzahl für dieses Argument festzulegen, damit die
Größe jeder Gruppe klein bleibt, um Speichermangel zu vermeiden. Andernfalls
sollte der Standardwert des Arguments beibehalten werden.
}
\item{na.action}{
Die Art, wie \code{NA}-Werte
bearbeitet werden. Mit Standardwert \code{na.fail} ist diese Bearbeitung nicht erfolgreich, wenn
die Trainingsdaten \code{NA} enthalten.
}
\item{\dots}{
Zusätzliche Argumente.
}
\item{object, x}{
Ein \code{ore.randomForest}-Objekt.
}
\item{k}{
Eine Ganzzahl, die angibt, welche Baumdaten extrahiert werden sollen.
}
\item{labelVar}{
Ein logischer Wert, der angibt, ob die Spalten \code{split
var} und \code{prediction} im zurückgegebenen Frame
aussagefähige Labels verwenden.
}
\item{newdata}{
Ein \code{ore.frame}-Objekt, die Testdaten.
}
\item{type}{
Dieses Argument gibt den Ausgabetyp an. Der Wert
kann \code{response}, \code{prob}, \code{votes} oder \code{all} sein
und gibt den Ausgabetyp an: Vorhersagewerte, Matrix der
Klassenwahrscheinlichkeiten, Matrix der Stimmenanzahl oder beides: Stimmenmatrix und
Vorhersagewerte.
}
\item{norm.votes}{
Ein logischer Wert, der angibt, ob die Stimmenanzahl
in der Ausgabestimmenmatrix normalisiert werden sollte. Das Argument
wird ignoriert, wenn \code{type} gleich \code{response} oder \code{prob} ist.
}
\item{supplemental.cols}{
Zusätzliche Spalten, die in dem Vorhersageergebnis
aus dem \code{newdata}-Dataset einbezogen werden sollen.
}
\item{cache.model}{
Ein logischer Wert, der angibt, ob das gesamte
Gesamtstrukturzufallsmodell im Speicher während der Vorhersage zwischengespeichert werden soll.
}
}
\value{
Für \code{ore.randomForest} wird ein Objekt der Klasse
\code{ore.randomForest} zurückgegeben. Einige der Komponenten sind folgende:
\item{forest}{Ein \code{ore.frame}-Objekt, das die serialisierten erweiterten Bäume speichert.}
\item{DOP}{Der Grad der zur Erstellung des Modells verwendeten Parallelität.}
\item{confusion}{Die Confusion Matrix als das Ergebnis der Anwendung des
erstellten Modells auf die Trainingsdaten, wenn \code{confusion.matrix} als
\code{TRUE} angegeben wird.}
Für \code{grabTree.ore.randomForest} wird \code{ore.frame} mit den
\code{kth}-Baumdaten zurückgegeben. Jede Zeile steht für einen Knoten
und enthält die Knoten-ID, die untergeordneten Knoten, die Aufteilungsvariable,
den Aufteilungspunkt, den Knotenstatus (Endknoten: \code{-1},
Nicht-Endknoten: \code{1}) und die Vorhersage.
Für \code{predict.ore.randomForest} wird \code{ore.frame}
mit Vorhersage und/oder Stimmenmatrix zurückgegeben, abhängig vom Argument \code{type}.
}
\details{
Mit der \code{ore.randomForest}-Funktion wird ein Gesamtstrukturzufallsmodell durch
parallel erweiterte Bäume erstellt. Die Funktion gibt ein \code{ore.randomForest}-Objekt
zurück. Sie setzt voraus, dass das Oracle R Distribution-(ORD-)
oder \code{randomForest}-Package installiert ist. Vorzugsweise sollte das Oracle R
Distribution-Package statt des \code{randomForest}-Packages installiert werden,
um eine bessere Performance und Kompatibilität zu erzielen.
Es wird eine Warnung ausgegeben, wenn das \code{randomForest}-Package verwendet wird.
Die Bewertungsmethode \code{predict} wird parallel ausgeführt. Der Standardwert
von \code{cache.model} \code{TRUE} wird empfohlen, sofern ausreichend Speicher verfügbar ist.
Andernfalls muss \code{cache.model} auf \code{FALSE} gesetzt werden,
um eine Speicherüberlastung zu vermeiden.
Die globale Option \code{\link[OREbase:ore.options]{"ore.parallel"}} wird von
\code{ore.randomForest} verwendet, um den im Oracle R Enterprise-Server
zu verwendenden bevorzugten Parallelitätsgrad festzulegen.
}
\references{
\href{http://www.oracle.com/technetwork/database/database-technologies/r/r-enterprise/documentation/index.html}{Oracle R Enterprise}
}
\author{
Oracle \email{oracle-r-enterprise@oracle.com}
}
\seealso{
\code{\link[randomForest]{randomForest}},
\code{\link[OREbase:ore.options]{ore.parallel}}
}
\examples{
IRIS <- ore.push(iris)
mod <- ore.randomForest(Species~., IRIS)
tree10 <- grabTree(mod, k = 10, labelVar = TRUE)
ans <- predict(mod, IRIS, type="all", supplemental.cols="Species")
table(ans$Species, ans$prediction)
}
\keyword{randomForest}
OHA YOOOO