從數(shù)據(jù)到結(jié)論人民大學(xué)吳喜之教授變.ppt
《從數(shù)據(jù)到結(jié)論人民大學(xué)吳喜之教授變.ppt》由會員分享,可在線閱讀,更多相關(guān)《從數(shù)據(jù)到結(jié)論人民大學(xué)吳喜之教授變.ppt(38頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
變量間的關(guān)系 直到現(xiàn)在我們所涉及的僅僅是對一些互相沒有關(guān)系的變量的描述 但是現(xiàn)實(shí)世界的問題都是相互聯(lián)系的 不討論變量之間的關(guān)系 就無從談起任何有深度的應(yīng)用 而沒有應(yīng)用 前面講過的那些基本概念就僅僅是擺設(shè)而已 變量間的關(guān)系 人們每時(shí)每刻都在關(guān)心事物之間的關(guān)系 比如 職業(yè)種類和收入之間的關(guān)系 政府投入和經(jīng)濟(jì)增長之間的關(guān)系 廣告投入和經(jīng)濟(jì)效益之間的關(guān)系 治療手段和治愈率之間的關(guān)系等等 這些都是二元的關(guān)系 還有更加復(fù)雜的諸多變量之間的相互關(guān)系 比如企業(yè)的固定資產(chǎn) 流動(dòng)資產(chǎn) 預(yù)算分配 管理模式 生產(chǎn)率 債務(wù)和利潤等諸因素的關(guān)系是不能用簡單的一些二元關(guān)系所描述的 例1廣告投入和銷售之間的關(guān)系 數(shù)據(jù)ads sav 這是什么關(guān)系 這兩個(gè)變量是否有關(guān)系 顯然 它們有關(guān)系 這從散點(diǎn)圖就很容易看出 基本上銷售額是隨著廣告投入的遞增而遞增 如果有關(guān)系 它們的關(guān)系是否顯著 這也可以從散點(diǎn)圖得到 當(dāng)廣告投入在6萬元以下 銷售額增長很快 但大于這個(gè)投入時(shí) 銷售額增長就不明顯了 因此 這兩個(gè)變量的關(guān)系是由強(qiáng)變?nèi)?這些關(guān)系是什么關(guān)系 是否可以用數(shù)學(xué)模型來描述 本例看上去是可以擬合一個(gè)回歸模型 后面會介紹 但絕不是線性的 用一條直線可以描述的 具體細(xì)節(jié)需要進(jìn)一步的分析 這是什么關(guān)系 這個(gè)關(guān)系是否帶有普遍性 也就是說 僅僅這一個(gè)樣本有這樣的關(guān)系 還是對于其他企業(yè)也有類似的規(guī)律 這里的數(shù)據(jù)還不足以回答這個(gè)問題 可能需要考慮更多的變量和收集更多的數(shù)據(jù) 一般來說 人們希望能夠從一些特殊的樣本 得到普遍的結(jié)論 以利于預(yù)測 這個(gè)關(guān)系是不是因果關(guān)系 在本問題中 看來有因果關(guān)系 這類似于一種試驗(yàn) 而試驗(yàn)時(shí)是容易找到因果關(guān)系的 但是 一般來說 變量之間有關(guān)系但絕不意味著存在因果關(guān)系 定性變量間的關(guān)系 關(guān)于某項(xiàng)政策調(diào)查所得結(jié)果 table7 sav 大致可以看出女性贊成的多 低收入贊成的多 定性和定量變量間的混和關(guān)系 假想關(guān)于高等學(xué)校的數(shù)據(jù)的一些指標(biāo)包括 在校生人數(shù) S 研究生比例 G 教師人數(shù) F 職工人數(shù) ST SCI和SSCI文章數(shù)目 P SCI和SSCI文章引用數(shù)目 Q 科研項(xiàng)目數(shù) PR 科研經(jīng)費(fèi) B 總經(jīng)費(fèi)及招生范圍 N 等 從這個(gè)數(shù)據(jù)很難馬上看到任何關(guān)系 但是從這個(gè)數(shù)據(jù)可以得到許多有用的關(guān)系和結(jié)論 比如 可以得到任何一個(gè)變量和其余變量之間的定量關(guān)系或者多個(gè)變量之間的定量關(guān)系 因而可以建立模型 進(jìn)行預(yù)測和各種推斷 也可以利用其中一些變量把各個(gè)高等學(xué)校分類 還可以把眾多的變量用少數(shù)幾個(gè)變量代替以利于分析和理解 此外這個(gè)數(shù)據(jù)可以作為高校排名的根據(jù)之一 所有這些都是未來章節(jié)的內(nèi)容 相關(guān)和回歸分析 相關(guān)和回歸分析 顧客對商品和服務(wù)的反映對于商家是至關(guān)重要的 但是僅僅有滿意顧客的比例是不夠的 商家希望了解什么是影響顧客觀點(diǎn)的因素以及這些因素是如何起作用的 一般來說 統(tǒng)計(jì)可以根據(jù)目前所擁有的信息 數(shù)據(jù) 建立人們所關(guān)心的變量和其他有關(guān)變量的關(guān)系 稱為模型 假如用Y表示感興趣的變量 用X表示其他可能有關(guān)的變量 可能是若干變量組成的向量 則所需要的是建立一個(gè)函數(shù)關(guān)系Y f X 這里Y稱為因變量或響應(yīng)變量 而X稱為自變量或解釋變量或協(xié)變量 建立這種關(guān)系的過程就叫做回歸 相關(guān)和回歸分析 一旦建立了回歸模型可以對各種變量的關(guān)系有了進(jìn)一步的定量理解還可以利用該模型 函數(shù) 通過自變量對因變量做預(yù)測 這里所說的預(yù)測 是用已知的自變量的值通過模型對未知的因變量值進(jìn)行估計(jì) 它并不一定涉及時(shí)間先后的概念 例1有50個(gè)從初中升到高中的學(xué)生 為了比較初三的成績是否和高中的成績相關(guān) 得到了他們在初三和高一的各科平均成績 數(shù)據(jù) highschool sav 從這張圖可以看出什么呢 問題是 怎么判斷這兩個(gè)變量是否相關(guān) 如何相關(guān) 相關(guān)的度量是什么 進(jìn)一步的問題是能否以初三成績?yōu)樽宰兞?高一成績?yōu)橐蜃兞縼斫⒁粋€(gè)回歸模型以描述這樣的關(guān)系 或用于預(yù)測 還有定性變量 該數(shù)據(jù)中 除了初三和高一的成績之外 還有一個(gè)定性變量它是學(xué)生在高一時(shí)的家庭收入狀況 它有三個(gè)水平 低 中 高 分別在數(shù)據(jù)中用1 2 3表示 還有定性變量 下面是對三種收入對高一成績和高一與初三成績差的盒形圖 例2這是200個(gè)不同年齡和性別的人對某項(xiàng)服務(wù)產(chǎn)品的認(rèn)可的數(shù)據(jù) logi sav 年齡是連續(xù)變量 性別是有男和女 分別用1和0表示 兩個(gè)水平的定性變量 而 定性 變量 觀點(diǎn) 則為包含認(rèn)可 用1表示 和不認(rèn)可 用0表示 兩個(gè)水平的定性變量 從這兩張圖又可以看出什么呢 兩個(gè)定量變量的相關(guān) 如果兩個(gè)定量變量沒有關(guān)系 就談不上建立模型或進(jìn)行回歸 但怎樣才能確定兩個(gè)變量有沒有關(guān)系呢 最簡單的辦法就是畫出它們的散點(diǎn)圖 四組數(shù)據(jù) 每個(gè)有兩個(gè)變量的樣本 的散點(diǎn)圖 幾種相關(guān)的度量 Pearson相關(guān)系數(shù) 又叫相關(guān)系數(shù)或線性相關(guān)系數(shù) 它一般用字母r表示 Kendallt相關(guān)系數(shù) Kendall st 這里的度量原理是把所有的樣本點(diǎn)配對 看每一對中的x和y是否都增加來判斷總體模式 Spearman秩相關(guān)系數(shù) 它和Pearson相關(guān)系數(shù)定義有些類似 只不過在定義中把點(diǎn)的坐標(biāo)換成各自樣本的秩 它們各自都有以不相關(guān)為零假設(shè)的檢驗(yàn) 即p 值小則相關(guān) 但各自的相關(guān)含義不盡相同 現(xiàn)在再來看例1的數(shù)據(jù) highschool sav 關(guān)于初三和高一成績的相關(guān)系數(shù)的結(jié)果是Pearson相關(guān)系數(shù) Kendallt和Spearman秩相關(guān)系數(shù)分別為0 795 0 595和0 758 定量變量的線性回歸分析 對例1中的兩個(gè)變量的數(shù)據(jù)進(jìn)行線性回歸 就是要找到一條直線來最好地代表散點(diǎn)圖中的那些點(diǎn) 檢驗(yàn)問題等 對于系數(shù)b1 0的檢驗(yàn)對于擬合的F檢驗(yàn)R2 決定系數(shù) 及修正的R2 多個(gè)自變量的回歸 如何解釋擬合直線 什么是逐步回歸方法 自變量中有定性變量的回歸 例1的數(shù)據(jù)中 還有一個(gè)自變量是定性變量 收入 以虛擬變量或啞元 dummyvariable 的方式出現(xiàn) 這里收入的 低 中 高 用1 2 3來代表 所以 如果要用這種啞元進(jìn)行前面回歸就沒有道理了 以例1數(shù)據(jù)為例 可以用下面的模型來描述 自變量中有定性變量的回歸 現(xiàn)在只要估計(jì)b0 b1 和a1 a2 a3即可 啞元的各個(gè)參數(shù)a1 a2 a3本身只有相對意義 無法三個(gè)都估計(jì) 只能夠在有約束條件下才能夠得到估計(jì) 約束條件可以有很多選擇 一種默認(rèn)的條件是把一個(gè)參數(shù)設(shè)為0 比如a3 0 這樣和它有相對意義的a1和a2就可以估計(jì)出來了 對于例1 對b0 b1 a1 a2 a3的估計(jì)分別為28 708 0 688 11 066 4 679 0 這時(shí)的擬合直線有三條 對三種家庭收入各有一條 SPSS實(shí)現(xiàn) hischool sav Analize Generallinearmodel Univariate 在Options中選擇ParameterEstimates 再在主對話框中把因變量 s1 選入DependentVariable 把定量自變量 j3 選入Covariate 把定量因變量 income 選入Factor中 然后再點(diǎn)擊Model 在SpecifyModel中選Custom 再把兩個(gè)有關(guān)的自變量選入右邊 再在下面BuildingTerm中選Maineffect Continue OK 就得到結(jié)果了 輸出的結(jié)果有回歸系數(shù)和一些檢驗(yàn)結(jié)果 SPSSSyntax UNIANOVAs1BYincomeWITHj3 METHOD SSTYPE 3 INTERCEPT INCLUDE CRITERIA ALPHA 05 DESIGN incomej3 注意 這里進(jìn)行的線性回歸 僅僅是回歸的一種 也是歷史最悠久的一種 但是 任何模型都是某種近似 線性回歸當(dāng)然也不另外 它被長期廣泛深入地研究主要是因?yàn)閿?shù)學(xué)上相對簡單 它已經(jīng)成為其他回歸的一個(gè)基礎(chǔ) 總應(yīng)該用批判的眼光看這些模型 Logistic回歸 例2是關(guān)于200個(gè)不同年齡 性別的人對某項(xiàng)服務(wù)產(chǎn)品的觀點(diǎn) 二元定性變量 的數(shù)據(jù) logi sav 這里觀點(diǎn)是因變量 只有兩個(gè)值 所以可以把它看作成功概率為p的Bernoulli試驗(yàn)的結(jié)果 但是和單純的Bernoulli試驗(yàn)不同 這里的概率p為年齡和性別的函數(shù) 可以假定下面的 logistic回歸 模型 Logistic回歸 為了循序漸近 先擬合沒有性別作為自變量 只有年齡x 的模型 Logistic模型擬合結(jié)果 依靠計(jì)算機(jī) 很容易得到b0和b1的估計(jì)分別為2 380和 0 069 擬合的模型為 Logistic模型擬合結(jié)果 再加上性別變量進(jìn)行擬合 得到的b0 b1和a0 a1的估計(jì) 同樣事先確定為a1 0 分別為1 722 0 072 1 778 0 可以看出年齡影響對男女混和時(shí) 0 069 差不多 而女性相對于男性認(rèn)可的可能性大 a0 a1 1 778 擬合的年齡 概率圖 SPSS實(shí)現(xiàn) logi sav Analize Regression BinaryLogistic 再把因變量 opinion 選入DependentVariable 把自變量 age和sex 選入Covariates Categorical 再把定性變量sex選入CategoricalCovariate 回到主對話框 點(diǎn)擊OK即可得到結(jié)果 注 SPSS的syntax LOGISTICREGRESSIONVAR opinion METHOD ENTERagesex CONTRAST sex Indicator CRITERIAPIN 05 POUT 10 ITERATE 20 CUT 5 SPSS的數(shù)據(jù)輸入 數(shù)據(jù)的鍵入 T01 sav 數(shù)據(jù)從其他文本讀入 File Open Data 文件類型 Sav Excel SAS dBase TXT等等 T02 txt 散點(diǎn)圖定性變量的加權(quán) 每一行的權(quán)數(shù)等于該行被觀測到的次數(shù) T03 sav 和不加權(quán) T04 sav 條形圖 餅圖數(shù)據(jù)的變換 T01 sav 多重散點(diǎn)圖 圖的編輯 SPSS的相關(guān)分析 相關(guān)分析 hischool sav 利用SPSS選項(xiàng) Analize Correlate Bivariate再把兩個(gè)有關(guān)的變量 這里為j3和s1 選入 選擇Pearson Spearman和Kendall就可以得出這三個(gè)相關(guān)系數(shù)和有關(guān)的檢驗(yàn)結(jié)果了 零假設(shè)均為不相關(guān) SPSS的回歸分析 自變量和因變量都是定量變量時(shí)的線性回歸分析 hischool sav 利用SPSS選項(xiàng) Analize Regression Linear再把有關(guān)的自變量選入Independent 把因變量選入Dependent 然后OK即可 如果自變量有多個(gè) 多元回歸模型 只要都選入就行 SPSS的回歸分析 自變量中有定性變量 啞元 和定量變量而因變量為定量變量時(shí)的線性回歸分析 hischool sav 利用SPSS選項(xiàng) Analize Generallinearmodel Univariate 在Options中選擇ParameterEstimates 再在主對話框中把因變量 s1 選入DependentVariable 把定量自變量 j3 選入Covariate 把定性因變量 income 選入Factor中 點(diǎn)擊Model 在SpecifyModel中選Custom 再把兩個(gè)有關(guān)的自變量選入右邊 再在下面BuildingTerm中選Maineffect 然后就Continue OK SPSS的Logistic回歸 logi sav 自變量為定量變量時(shí) 利用SPSS選項(xiàng) Analize Regression BinaryLogistic 再把因變量 opinion 選入DependentVariable 把自變量 age 選入Covariates OK即可得到結(jié)果 自變量為定量變量及定量變量時(shí) 利用SPSS選項(xiàng) Analize Regression BinaryLogistic 再把因變量 opinion 選入DependentVariable 把自變量 age和sex 選入Covariates 然后點(diǎn)Categorical 再把定性變量sex選入CategoricalCovariate 回到主對話框 點(diǎn)擊OK即可得到結(jié)果- 1.請仔細(xì)閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 數(shù)據(jù) 結(jié)論 人民大學(xué) 教授
鏈接地址:http://m.kudomayuko.com/p-5169508.html