MINI MINI MANI MO
%
% Copyright (c) 2015, Oracle and/or its affiliates. All rights reserved.
%
\name{ore.randomForest}
\alias{ore.randomForest}
\alias{grabTree}
\alias{grabTree.ore.randomForest}
\alias{predict.ore.randomForest}
\alias{print.ore.randomForest}
\title{
Oracle R Enterprise randomForest 함수
}
\description{
분류를 위해 \code{ore.frame} 데이터에서 무작위 포리스트 모델을
병렬로 생성합니다.
}
\usage{
ore.randomForest(formula, data, ntree=500, mtry = NULL,
replace = TRUE, classwt = NULL, cutoff = NULL,
sampsize = if(replace) nrow(data) else ceiling(0.632*nrow(data)),
nodesize = 1L, maxnodes = NULL, confusion.matrix = FALSE,
groups = getOption("ore.parallel", NULL), na.action = na.fail, ...)
### Specific methods for ore.randomForest objects
\method{grabTree}{ore.randomForest}(object, k = 1L, labelVar = FALSE, ...)
\method{predict}{ore.randomForest}(object, newdata,
type = c("response", "prob", "vote", "all"),
norm.votes = TRUE,
supplemental.cols = NULL,
cache.model = TRUE, ...)
\method{print}{ore.randomForest}(x, ...)
}
\arguments{
\item{formula}{
학습할 무작위 포리스트
모델을 나타내는 \code{\link[stats]{formula}} 객체입니다.
}
\item{data}{
모델에 대한 데이터를 지정하는
\code{ore.frame} 객체입니다.
}
\item{ntree}{
증가할 총 트리 수입니다.
}
\item{mtry}{
각 트리 노드 분할에서 후보로 무작위 샘플링된 변수 수입니다.
지정되지 않은 경우 \code{formula}에서 속성 수에 대한 제곱근의
플로어 정수로 설정됩니다.
}
\item{replace}{
대체 항목을 사용해서 샘플링을 수행할지 여부를 나타내는
논리 값입니다.
}
\item{classwt}{
클래스의 사전 벡터입니다. 지정된 경우,
벡터 길이는 대상 열의 클래스 수와 동일합니다.
벡터는 1씩 증가할 필요가 없습니다.
}
\item{cutoff}{
한계 값의 벡터입니다. 지정된 경우 벡터
길이가 대상 열의 클래스 수와 동일해야
합니다. 관찰에 대한 예측 클래스를 결정할 때는
투표와 한계의 비율이 최대인 항목이
선택됩니다. 지정되지 않은 경우 기본값은 \code{1/k}이고, 여기서 \code{k}은(는)
클래스 수입니다.
}
\item{sampsize}{
증가 트리에 대해 그리는 샘플 크기입니다.
}
\item{nodesize}{
터미널 노드의 최소 크기입니다.
}
\item{maxnodes}{
성장할 각 트리의 터미널 노드에 대한 최대
개수입니다. 지정되지 않은 경우 \code{nodesize} 제한에 따라 트리가 최대 크기로
성장할 수 있습니다.
}
\item{confusion.matrix}{
혼동 매트릭스를 계산할지 여부를
나타내는 논리 값입니다. 이 혼동 매트릭스는
OOB(out-of-bag)를 기반으로 하지 않으며, 전체 교육 데이터에 대해
작성된 무작위 포리스트 모델을 적용한 결과입니다.
}
\item{groups}{
총 트리 수가 분할된 트리 그룹
수입니다. 기본값은 \code{ore.parallel} 옵션의 값과
동일합니다. 시스템 메모리가 제한적인 경우,
이 인수를 큰 값으로 설정해서 메모리 부족을 방지하기 위해
각 그룹의 크기가 작게 유지되도록 하는 것이 좋습니다. 그렇지 않으면
인수를 기본값 그대로 두어야 합니다.
}
\item{na.action}{
\code{NA} 값이 취급되는
방식입니다. 기본값 \code{na.fail}을(를) 사용할 경우 학습 데이터에
\code{NA}이(가) 포함되면 실패합니다.
}
\item{\dots}{
추가 인수입니다.
}
\item{object, x}{
\code{ore.randomForest} 객체입니다.
}
\item{k}{
추출할 트리 정보를 나타내는 정수입니다.
}
\item{labelVar}{
반환된 프레임의 \code{split
var} 및 \code{prediction} 열이 의미 있는 레이블을 사용하는지 여부를 나타내는
논리값입니다.
}
\item{newdata}{
\code{ore.frame} 객체, 테스트 데이터입니다.
}
\item{type}{
이 인수는 출력의 유형을 지정합니다. 값은
\code{response}, \code{prob}, \code{votes} 또는 \code{all}일 수 있으며,
예상 값, 클래스 확률 매트릭스, 투표 수 매트릭스 또는
투표 매트릭스와 예상 값 모두와 같은 출력 유형을
나타냅니다.
}
\item{norm.votes}{
출력 투표 매트릭스에서 투표 수를 정규화할지
여부를 나타내는 논리 값입니다. \code{type}이(가) \code{response}
또는 \code{prob}인 경우 인수가 무시됩니다.
}
\item{supplemental.cols}{
\code{newdata} 데이터 집합의 예측 결과에 포함할
추가 열입니다.
}
\item{cache.model}{
예측 중 전체 무작위 포리스트 모델을
메모리에 캐시할지 여부를 나타내는 논리 값입니다.
}
}
\value{
\code{ore.randomForest}의 경우 \code{ore.randomForest} 클래스의 객체를
반환합니다. 일부 구성요소는 다음과 같습니다.
\item{forest}{직렬화된 성장 트리를 저장하는 \code{ore.frame} 객체입니다.}
\item{DOP}{모델을 작성하는 데 사용된 병렬화 정도입니다.}
\item{confusion}{\code{confusion.matrix}이(가) \code{TRUE}(으)로 지정된 경우 작성된
모델을 교육 데이터에 적용한 결과로 발생하는
혼동 매트릭스입니다.}
\code{grabTree.ore.randomForest}의 경우 \code{ore.frame} 트리 정보와 함께
\code{kth}을(를) 반환합니다. 각 행은 하나의 노드를 나타내며,
여기에는 노드 ID, 자식 노드, 분할 변수,
분할 지점, 노드 상태(터미널: \code{-1};
비터미널: \code{1}) 및 예측이 포함됩니다.
\code{predict.ore.randomForest}의 경우 \code{ore.frame} 인수에 따라
예측 및/또는 선호 매트릭스와 함께 \code{type}을(를) 반환합니다.
}
\details{
\code{ore.randomForest} 함수는 성장 트리에 따라 병렬로 무작위
포리스트 모델을 작성합니다. 이 함수는
\code{ore.randomForest} 객체를 반환합니다. 이를 위해서는 ORD(Oracle R Distribution)
또는 \code{randomForest} 패키지가 설치되어 있어야 합니다. Oracle R
Distribution은 성능 및 호환성으로 인해 \code{randomForest}
패키지보다 선호됩니다. \code{randomForest} 패키지가 사용된 경우에는 경고가
표시됩니다.
점수 지정 메소드 \code{predict}은(는) 병렬로 실행됩니다. 사용 가능한 메모리가
충분한 경우에는 \code{cache.model} \code{TRUE}의 기본값이
권장됩니다. 그렇지 않으면 메모리 초과 사용을
방지하기 위해 \code{cache.model}을(를) \code{FALSE}(으)로 설정해야 합니다.
\code{\link[OREbase:ore.options]{"ore.parallel"}} 전역 옵션은
\code{ore.randomForest}에서 Oracle R Enterprise 서버 내에 사용할
병렬화의 선호 정도를 결정하기 위해 사용됩니다.
}
\references{
\href{http://www.oracle.com/technetwork/database/database-technologies/r/r-enterprise/documentation/index.html}{Oracle R Enterprise}
}
\author{
Oracle \email{oracle-r-enterprise@oracle.com}
}
\seealso{
\code{\link[randomForest]{randomForest}},
\code{\link[OREbase:ore.options]{ore.parallel}}
}
\examples{
IRIS <- ore.push(iris)
mod <- ore.randomForest(Species~., IRIS)
tree10 <- grabTree(mod, k = 10, labelVar = TRUE)
ans <- predict(mod, IRIS, type="all", supplemental.cols="Species")
table(ans$Species, ans$prediction)
}
\keyword{randomForest}
OHA YOOOO