민서네집

통계패키지 R 본문

IT

통계패키지 R

브라이언7 2014. 1. 20. 10:50

[출처] http://hbiedu.co.kr/sme/small_detail.jsp?seq=921&flag=5


R은 무엇인가?? 
R은 데이터 분석을 위한 통계 및 그래픽스를 지원하는 오픈소프트웨어 환경이다. 
그 뿌리는 벨 연구소의 S 언어에 두고 있는데, R은 S언어를 근간으로 뉴질런드의 Universityof Auckland에서 Ross Ihaka와 Robert Gentleman이 만든것이 그 시작이다.
R은 현재 엄청난 인기를 누리고 있는데, 그 한가지 사례로 kdnugget에서 실시한 ‘지난12개월간 실제로 사용한 분석, 데이터 마이닝, 빅 데이터 소프트웨어’에 대한 설문 조사를 볼 수 있다.


그 내용에 따르면 R은 2012년 현재 Rapid Miner, Weka, SAS, MATLAB 등의쟁쟁한 경쟁자를 물리치고 데이터 분석 소프트웨어 1위로 자리매김하고 있다.
R은 하나의 완성된 언어체계이다. 따라서 자유롭게 데이터 분석을 R안에서 수행할 수있다는 장점이 있다. 또한 R은 통계, 머신러닝, 금융, 바이오인포머틱스, 그래픽스에 이르는 다양한 통계패키지를 갖고 있으며 이 모든 것이 무료로 제공된다. 거기에 더해 최근 시류에발맞춰 R은 멀티프로세서에서 손쉽게 병렬화하여 실행할 수 있고, RHive를 사용하면 최근
인기를 끌고 있는 Hive 환경에서 R을 사용할 수 있다


R의 장점
- 무료 통계 패키지
- 성능
- 그래픽 기능
- 다양한 플랫폼지원

R의 특징

(시스템 통합의 용이성)

Application이나 Platform을구축할 경우 분석 영역의 솔루션으로 R을 사용하는 것이 용이하다

ㅇLanguage Interface : C, C++, FORTRAN, JAVA, Python, Tcl/tk, VB,Perl, Ruby 
ㅇApplication Interface : Excel, Google earth, ArcView, COM/DCOM, etc
ㅇDB Interface : ODBC (Oracle, Mysql, MS-SQL, PostgreSql, ...)
ㅇIDE : Rstudio, eclipse, emacs, Bluefish, Crimson Editor, ConTEXT, Vim, Jedit, Kate, TextMate, gedit, SciTE, WinEdt


(자료구조 _ 통계계산에 최적화)
통계분석에 최적화된 자료구조” matrix, vector 등

ㅇData Objects
ㅇVector : 벡터 연산을 위한 구조
ㅇFactor : 범주형 자료
ㅇOrdered factor : 순서 범주형 자료
ㅇMatrix : 행렬 연산을 위한 행렬
ㅇList : 리스트 객체, C의 구조체와 유사
ㅇData Frame : 다변량 데이터 구조, DBMS의 Table과 유사한 구조
ㅇArray : 배열 연산을 위한 구조
ㅇTime Series : 시계열 데이터 분석을 위한 구조
ㅇVectorize 연산:Loop 문을 피하고 행렬이나 벡터 연산으로 계산apply, lappy, tapply, outer, 


(통계계산 최적화 사례 - 회귀분석)
“행렬/벡터 데이터 타입 지원”과“행렬 연산 지원”으로“복잡한 구조의 반복문 제거”“코드를 이해가 쉬움”


(Like UNIX Command ? Bell Lab)
“Bell Lab 시절 S Language가 UNIX의 특성을 많이 가져 옴”


(Graphics)
“다양한 그래프를 사용자가 세세하게 조정하여 그릴 수 있음”

ㅇGraphics Devices : bmp, jpeg, png, tiff, pdf, postscript, SVG(R 2.14)
ㅇother Support : OpenGL, Spatial(Archview, googleMap) ,… 
ㅇLow level Plot : points, lines, box, rect, polygon , text, title, mtext ,legend, axis, grid 
ㅇHigh level Plot : plot, barplot, boxplot, pie, qqplot, … / trellis(lattice packages), rgl, sna, wordcloud, …


'IT' 카테고리의 다른 글

하둡(Hadoop), HDFS, MapReduce  (0) 2014.01.20
Comments