課程背景:
我們正生活在一個信息爆炸的時代。全球主干通信網(wǎng)每天傳輸數(shù)萬兆兆字節(jié)數(shù)據(jù)。醫(yī)療保健業(yè)由醫(yī)療記錄、病人監(jiān)護和醫(yī)學圖像產(chǎn)生大量數(shù)據(jù)。搜索引擎支持的數(shù)十億次Web搜索每天處理數(shù)萬兆兆字節(jié)數(shù)據(jù)。社團和社會化媒體已經(jīng)成為日趨重要的數(shù)據(jù)源,產(chǎn)生數(shù)字圖像、視頻、網(wǎng)絡博客、網(wǎng)絡社區(qū)和形形色色的社會網(wǎng)絡。產(chǎn)生海量數(shù)據(jù)的數(shù)據(jù)源不勝枚舉。
數(shù)據(jù)的爆炸式增長、廣泛可用和巨大數(shù)量使得我們的時代成為真正的數(shù)據(jù)時代。急需功能強大和通用的工具,以便從這些海量數(shù)據(jù)中發(fā)現(xiàn)有價值的信息,把這些數(shù)據(jù)轉(zhuǎn)化成有組織的知識。這種需求導致了數(shù)據(jù)挖掘的誕生。這個領域是年青的、動態(tài)變化的、生機勃勃的。數(shù)據(jù)挖掘已經(jīng)并且將繼續(xù)在我們從數(shù)據(jù)時代大步跨入信息時代的歷程中做出貢獻。
在本課程中,您將學習如何用R編程,以及如何使用R進行有效的數(shù)據(jù)分析。您將學習如何安裝和配置統(tǒng)計編程環(huán)境所需的軟件,并描述通用編程語言概念,因為它們在高級統(tǒng)計語言中實現(xiàn)。該課程涵蓋了統(tǒng)計計算中的實際問題,其中包括用R編程,將數(shù)據(jù)讀入R,訪問R包,編寫R函數(shù),調(diào)試,剖析R代碼,以及組織和注釋R代碼。統(tǒng)計數(shù)據(jù)分析的主題將提供工作實例。
課程大綱
一: 為什么我們需要數(shù)據(jù)挖掘?
1、 什么是數(shù)據(jù)挖掘?——海量數(shù)據(jù)中尋找有價值的信息
2、 數(shù)據(jù)挖掘如何改變我們的生活?——推薦系統(tǒng)及精準營銷
3、 數(shù)據(jù)挖掘?qū)ζ髽I(yè)的意義——用戶是業(yè)務的中心,用戶數(shù)據(jù)是關鍵資產(chǎn)
二、使用R編程的介紹
1、 基本編程概念:函數(shù),變量,數(shù)據(jù)類型和向量
2、 將數(shù)據(jù)加載到R中
3、 概括您的數(shù)據(jù)
4、 圖形化數(shù)據(jù)并保存圖表
三、使用Tidyverse操作數(shù)據(jù)
1、 使用管道(%>%)創(chuàng)建無縫工作流程
2、 使用select()選擇一列或多列
3、 使用filter()選擇一行或多行
4、 使用mutate()添加新變量
5、 使用arrange()更改行的順序
6、 使用summarize()將變量轉(zhuǎn)換為單個值
7、 使用group_by()對觀察集進行分組
四、使用ggplot2可視化數(shù)據(jù)
1、 GGplot2語法
2、 散點圖
3、 barplots
4、 線圖
五、課堂實操任務
1、 將數(shù)據(jù)讀入內(nèi)核
2、 使用直方圖繪制數(shù)值變量
3、 進行t檢驗
4、 使用條形圖顯示分類數(shù)據(jù)
5、 使用卡方檢驗