現(xiàn)代醫(yī)學統(tǒng)計方法與Stata應用(第一版)
《現(xiàn)代醫(yī)學統(tǒng)計方法與Stata應用(第一版)》由會員分享,可在線閱讀,更多相關《現(xiàn)代醫(yī)學統(tǒng)計方法與Stata應用(第一版)(108頁珍藏版)》請在裝配圖網(wǎng)上搜索。
現(xiàn)代醫(yī)學統(tǒng)計方法與 Stata 應用 1 第一章 Stata 概貌 1 1 Stata 的功能 特點和背景 Stata是一個用于分析和管理數(shù)據(jù)的功能強大又小巧玲瓏的實用統(tǒng)計分析軟件 由美國計 算機資源中心 Computer Resource Center 研制 從 1985至 1998的十四年時間里 已連續(xù)推出 1 1 1 2 1 3 1 4 1 5 及 2 0 2 1 3 0 3 1 4 0 5 0 6 0等多個版本 通過不斷更 新和擴充 內(nèi)容日趨完善 它同時具有數(shù)據(jù)管理軟件 統(tǒng)計分析軟件 繪圖軟件 矩陣計算軟 件和程序語言的特點 又在許多方面 別具一格 Stata融匯了上述程序的優(yōu)點 克服了各自的 缺點 使其功能更加強大 操作更加靈活 簡單 易學易用 越來越受到人們的重視和歡迎 Stata的突出特點是只占用很少的磁盤空間 輸出結果簡潔 所選方法先進 內(nèi)容較齊 全 制作的圖形十分精美 可直接被圖形處理軟件或字處理軟件如 WORD等直接調用 一 Stata 的數(shù)據(jù)管理能力 Stata的數(shù)據(jù)管理空間受計算機的操作系統(tǒng)和計算機擴展內(nèi)存的影響 對 640k內(nèi)存的 微機 3 1版本的 Stata可以管理 2400個記錄 99個變量 并隨計算機擴展內(nèi)存的增加而增加 對 4 0的 WINDOWS版本 Stata可以管理 4800個記錄 99個變量 對 WINDOWS 95下的 5 0版 本 可根據(jù)計算機的配置情況設置變量數(shù)和記錄數(shù) 如 32M擴展內(nèi)存的計算機 可處理 2千萬 個數(shù)據(jù) 變量數(shù)和記錄數(shù)可以互相交易 trade 即減少記錄數(shù)可以增加變量數(shù) 減少變量 數(shù)可以增加記錄數(shù) 可以將分組變量轉換成指示變量 啞變量 將字符串變量映射成數(shù)字代碼 可以對數(shù)據(jù)文件進行橫向和縱向 鏈接 可以將行數(shù)據(jù)轉為列數(shù)據(jù) 或反之 可以恢復 修改執(zhí)行過的命令 可以利用數(shù)值函數(shù)或字符串函數(shù)產(chǎn)生新變量 可以從鍵盤或磁盤讀入數(shù)據(jù) 二 Stata 的統(tǒng)計功能 Stata的統(tǒng)計功能很強 除了傳統(tǒng)的統(tǒng)計分析方法外 還收集了近 20年發(fā)展起來的新方 法 如 Cox比例風險回歸 指數(shù)與 Weibull回歸 多類結果與有序結果的 logistic回歸 Poisson回 歸 負二項回歸及廣義負二項回歸 隨機效應模 型等 具體說 Stata具有如下統(tǒng)計分析能 力 數(shù)值變量資料的一般分析 參數(shù)估計 檢驗 單因素和多因素的方差分析 協(xié)方 差分析 交互效應模型 平衡和非平衡設計 嵌套設計 隨機效應 多個均數(shù)的兩兩比較 缺 項數(shù)據(jù)的處理 方差齊性檢驗 正態(tài)性檢驗 變量變換等 分類資料的一般分析 參數(shù)估計 列聯(lián)表分析 2檢驗 列聯(lián)系數(shù) 確切概率 流行 10 第二章 Stata 的函數(shù)和變量 第二章 Stata 的函數(shù)和變量 2 1 Stata 的函數(shù) Stata具有豐富的函數(shù)功能 它不僅提供了一般計算機語言和統(tǒng)計軟件包所具有的數(shù)學函 數(shù)和字符串函數(shù) 而且還提供了很多有用的統(tǒng)計函數(shù) 特殊函數(shù) 以及許多獨具特色的系統(tǒng)變 量 借助于這些函數(shù)和系統(tǒng)變量 用戶可以得心應手地使用 Stata 充分發(fā)揮自己的聰明才 智 提高工作效率 為講述方便 先引入指令 display display使我們的計算機行使簡單的計算功能 例如 要計算 3 22 dislplay 3 2 2 7 結果是 7 有了這 個命令后 下面的講述和練習就容易了 一 數(shù)學函數(shù) 1 abs x 絕對值函數(shù) 2 exp x 指教函數(shù) 3 log x 自然對數(shù) 4 log10 x 常用對數(shù) 5 sqrt x 平方根函數(shù) 6 sin x 正弦函數(shù) 7 cos x 余弦函數(shù) 8 atan x 反正切函數(shù) 9 lngamma x 整數(shù) x的 函數(shù)之對數(shù) ln x 1 10 mod x y 模數(shù)函數(shù)獲得 x除以 y的余數(shù) 如 display mod 25 3 結果將是 1 二 統(tǒng)計函數(shù) 1 normprob df x 正態(tài)分布的下側概率函數(shù) 2 invnorm p 正態(tài)分布的分位數(shù) 3 Binomial n k p 二項分布函數(shù) 表示 n 次試驗中成功次數(shù) k 的概率 p 為成功概率 4 invbinomial n k p 二項分布的逆函數(shù) p 示 n 次試驗中成功次數(shù) k 的概率 本函數(shù)給出 的是每次成功的概率 當 p0 5 時 概率 p 滿足 Pr x k 1 p 5 tprob df t 自由度為 df 的 t 分布雙側累積概率 Pr t t 6 invt df P 自由度為 df 的 t 分位數(shù) invt df 1 tprob df t t 現(xiàn)代醫(yī)學統(tǒng)計方法與 Stata 應用 11 7 fprob df1 df2 f 自由度為 df1 df2 的 F 分布的上側累積概率 8 invfprob df1 df2 p F 分布的分位數(shù) 如果 fprob df1 df2 F p 則 invfprob df1 df2 p F 9 chiprob df x 自由度為 df 的 2 分布的上側累積概率 10 nchi df L x 非中心 2 分布的上側概率 1 df 200 0 L0時取 1 x 0時取 1 x 0時取 0 2 取整函數(shù) int x 去掉 x的小數(shù)部分 得到整數(shù) int x 0 5 是對 x四舍五入取整 int x sign x 2 產(chǎn)生與 x最近的一個整數(shù) 3 求和函數(shù) sum x 很常用 獲得包括當前記錄及以前的所有記錄的 x的和 缺失值 missing value 當 0處理 4 最大值函數(shù) max x1 x2 Xn 忽略缺失值 12 第二章 Stata 的函數(shù)和變量 5 最小值函數(shù) min x1 x2 Xn 忽略缺失值 6 分組函數(shù) group x 將數(shù)據(jù)分成大小近 似相等的 x個子樣本 分別給予組編號 1 2 x 7 浮點轉換函數(shù) float x 將 x轉換成浮點表示法 Stata是用浮點形式存儲數(shù)據(jù)的 因此 在將變量與具體數(shù)值進行比較時 最好先將具體數(shù)值轉換成浮點形式 例如 當 x為 1 1時 表達式 x 1 1的結果可能不真 因為表達式左邊的 x是浮點形式 右邊的 1 1是雙精度形式 二者相差 0 00000002384 而改寫為 x float 1 1 后 結果就正確了 當某個數(shù)值沒有有限的二 進制表達時 常常會出現(xiàn)這種情況 8 條件函數(shù) cond x a b x可以是一個條件 x非 0 條件成立 時取 a x為 0 條件不成立 時取 b 9 歸組函數(shù) recode x x1 x2 xn 其結果可表達如下 x1 如果 x x1 x2 如果 x1 x x2 x3 如果 x2 x x3 recode x x1 x2 xn xn 1 如果 xn 2 xxn 1 缺失值 如果 x為缺失值 10 自動歸組函數(shù) autocode x ng xmin xmax 自動將區(qū)間 xmin xmax 分成 ng個等長的小 區(qū)間 其結果是包含 x值那個小區(qū)間的上界值 其作用與歸組函數(shù)相同 2 2 Stata 的格式文件 變量和系統(tǒng)變量 一 文件名和文件類型 Stata的格式文件命名規(guī)則與 Dos中文件的命名規(guī)則相同 文件名以字母開頭 不超過 8個 字符 不能用標點符號 及 Dos中的通配符 Stata共有六種格式文件 其默認的后綴 文件擴展 名 見表 2 1 表 2 1 Stata 的文件類型 文件擴展名 文件特性 dct ASC 數(shù)據(jù) 字典文件 raw ASC 數(shù)據(jù)文件 do 命令文件 dta Stata數(shù)據(jù)文件 log Stata結果文件 gph Stata圖形文件 xp Stata的 xp 數(shù)據(jù)文件 二 變量名和變量類型 與文件名一樣 Stata的變量名可以是英文字母 A Z和 a z 數(shù)字 0 9 下劃線 可 現(xiàn)代醫(yī)學統(tǒng)計方法與 Stata 應用 13 區(qū)分的有效長度 大于 大于等于 小于 例 6 1 0 3 2 2 析因設計 就表 6 6 資料分析三種基礎液 a 中的鉤端螺旋體計數(shù) conut 有 無差別 兔血清與胎盤血清 b 的計數(shù)有無差別 兩種 濃度 c 間的計數(shù)有無差別 各因素間有 無交互作 anova count a b c a b a c c b a b c Number of obs 48 R square 0 5656 Root MSE 400 421 Adj R square 0 4328 Source Partial SS df MS F Prob F Model 7514726 92 11 683156 992 4 26 0 0005 72 第六章 數(shù)值變量資料的統(tǒng)計分析 a 107712 792 2 53856 3958 0 34 0 7169 b 6588972 00 1 6588972 00 41 09 0 0000 c 573781 333 1 573781 333 3 58 0 0666 a b 95267 375 2 47633 6875 0 30 0 7448 a c 47553 2917 2 23776 6458 0 15 0 8627 c b 10502 0833 1 10502 0833 0 07 0 7995 a b c 90938 0417 2 45469 0208 0 28 0 7547 Residual 5772 117 00 36 160336 583 Total 13286843 9 47 282698 807 表 6 6 鉤端螺旋體計數(shù) 血清種類 b 兔血清 b 1 胎盤血清 b 2 血清濃度 c 血清濃度 c 加入維生素 的基礎液 a 5 c 1 8 c 2 5 c 1 8 c 2 1426 1260 604 1 108 1183 1599 1081 886 2000 1410 487 831 緩沖液 a 1 1612 2416 624 1159 684 875 867 1115 1430 2250 771 698 1165 1871 403 791 蒸餾水 a 2 2022 1962 370 559 1182 1220 1243 1283 1512 1095 1115 1142 1450 1700 416 677 自來水 a 3 1385 2372 533 534 本例分析了三種因素及其所有交互作用不同水平間的差別 結果表明 兔血清與胎盤血清 b 因素 的鉤端螺旋體計數(shù)有 差別 而三種基礎液 a 因素 間 兩種濃度 c 因素 間的計數(shù)無差別 各因素間亦無交互作用 6 6 協(xié)方差分析 協(xié)方差分析是在扣除協(xié)變量的影響后再對 修正后的 主效應進行方差分析 是把直線回 歸或多元線性回歸與方差分析結合起來的一種方法 協(xié)變量一般是連續(xù)性變量 并假設協(xié)變量 與響應變量間存在線性關系 且在各處理組這種線性關系一致 用于協(xié)方差分析的命令是在 anova 命令后再加選擇項 continuous 協(xié)變量名 或 category 分組變量名 anova y a b c a b b c a b c x 1 x 2 continuous x1 x2 現(xiàn)代醫(yī)學統(tǒng)計方法與 Stata 應用 73 其中 y 為響應變量 a b 為分組變量 x1 x2 為協(xié)變量 加選擇項 continuous x1 x2 的意思是指明 x1 x2 為連續(xù)性變量 協(xié)變量 從而 Stata 自動以 x1 x2 為協(xié)變量進行協(xié)方 差分析 在不指定連續(xù)性變量時 Stata 視所有變量為分組變量 響應變量除外 亦可 指定分組 變量 則其余變量將視為是連續(xù)的 相應的選擇項應改為 categroy 如 anova y a b c a b b c a b c x 1 x 2 categroy a b c 與上述命令是等價的 當有一個協(xié)變量時 稱為一元協(xié)方差分析 當有兩個或多個協(xié)變量時 稱為多元協(xié)方差分 析 例 6 1 1 配伍組的協(xié)方差分析 以下資料是三組小白鼠的進食量 x 與所增體重 y 由于 體重增加受進食量的影響 故在分析體重的增加時 必須扣除進食量的影響 即以進食量為協(xié) 變量 對三組的增加體重進行分析 這里 協(xié)變量為一個 use ex6 11 list x y a b 1 256 9 27 1 1 2 271 6 41 7 1 2 3 210 2 25 1 3 4 300 1 52 1 4 5 262 2 14 5 1 5 6 304 4 48 8 1 6 7 272 4 48 1 7 8 248 2 9 5 1 8 9 242 8 37 1 9 10 342 9 56 5 1 10 11 356 9 76 1 11 12 198 2 9 2 1 12 13 260 3 32 2 1 14 271 1 47 1 2 2 15 214 7 36 7 2 3 16 300 1 65 2 4 17 269 7 39 2 5 18 307 5 37 9 2 6 19 278 9 51 5 2 7 20 256 2 26 7 2 8 21 240 8 41 2 9 22 340 7 61 3 2 10 23 356 3 102 1 2 11 24 199 2 8 1 2 12 25 544 7 160 3 3 1 26 481 2 96 1 3 2 27 418 9 114 6 3 3 28 556 6 134 8 3 4 29 394 5 76 3 3 5 30 426 6 72 8 3 6 31 416 1 99 4 3 7 32 549 9 133 7 3 8 74 第六章 數(shù)值變量資料的統(tǒng)計分析 33 580 5 147 3 9 34 608 3 165 8 3 10 35 559 6 169 8 3 11 36 371 9 54 3 3 12 這里 a 1 2 3 表示相應的三個處理組 b 1 12 表示配伍組 x 為協(xié)變量 anova y a b x cont x Number of obs 36 R square 0 9706 Root MSE 10 2942 Adj R square 0 9511 Source Partial SS df MS F Prob F Model 73560 9936 14 5254 35669 49 58 0 0000 a 463 94765 2 231 973825 2 19 0 1369 b 3765 32692 11 342 302448 3 23 0 0101 x 6174 24838 1 6174 24838 58 26 0 0000 Residual 2225 36425 21 105 969726 Total 75786 3579 35 2165 32451 在控制了進食量 x 的影響后 三組小白鼠所增體重無差別 方差分析中 進食量 x 的 P 0 0000 說明控制進食量 x 的影響是必要的 也可用下列命令 結果是等價的 anova y a b x categroy a b 例 6 1 2 2 3 析因試驗的協(xié)方差分析 分別以不同來源和成分的蛋白質喂養(yǎng)六組小白鼠 每組 10 只 資料見表 6 7 表 6 7 六組公鼠的食物消耗量 x 10cal 及所增體重 y g 高蛋白 a 1 低蛋白 a 2 牛肉 谷類 豬肉 牛肉 谷類 豬肉 b 1 B 2 b 3 b 1 b 2 b 3 x y x y x y x y x y x y 108 73 99 98 194 94 165 90 124 107 140 49 136 102 117 74 198 79 164 76 95 95 177 82 138 118 90 56 196 96 161 90 116 97 189 73 159 104 141 111 198 98 159 64 112 80 142 86 146 81 106 95 210 102 175 86 123 98 216 81 141 107 112 88 196 102 135 51 110 74 200 97 175 100 110 82 230 108 1 32 72 137 74 255 106 149 87 117 77 222 91 190 90 105 67 173 70 174 117 111 86 220 120 145 95 135 89 153 61 176 111 122 92 228 105 142 78 126 58 160 82 use ex 6 12 list x y a b 現(xiàn)代醫(yī)學統(tǒng)計方法與 Stata 應用 75 1 108 73 1 1 2 136 102 1 1 60 160 82 2 3 anova y a b a b x cont x Number of obs 60 R s quare 0 4694 Root MSE 12 7349 Adj R square 0 4093 Source Partial SS df MS F Prob F Model 7603 55945 6 1267 25991 7 81 0 0000 a 2343 46252 1 2343 46252 14 45 0 0004 b 1673 30508 2 836 652542 5 16 0 0090 a b 933 8117 2 466 90585 2 88 0 0650 x 2990 62611 1 2990 62611 18 44 0 0001 Residual 8595 37389 53 162 176866 Total 16198 9333 59 274 558192 結果表明 在控制了食物消耗量 x 的影響后 用高蛋白與用低蛋白 a 因素 喂養(yǎng)小白 鼠所增體重不同 用高蛋白喂養(yǎng)比用低蛋白喂養(yǎng)體重增加多 用牛肉 谷類 豬肉 b 因素 喂養(yǎng)小白鼠所增體重亦不同 但尚不能認為有交互作用 如不考慮協(xié)變量的影響 結論就不同 了 請讀者自行驗算 也可用下列命令 結果是等價的 anova y a b x categroy a b 例 6 1 3 多元協(xié)方差分析 某地測得 30 名初生至 3 周歲兒童的身高 體重及體表面積如 表 6 8 欲比較男女體表面積是否相同 此時身高 體重為協(xié)變量 為二元協(xié)方差分析 input y x1 x2 sex sort sex by sex summ y x1 x2 sex 1 Variable Obs Mean Std Dev Min Max y 15 4099 327 1592 838 1928 4 6410 6 x1 15 75 2 18 30671 50 5 99 x2 15 8 583333 4 804821 2 25 16 sex 2 Varia ble Obs Mean Std Dev Min Max y 15 3790 76 1543 524 1632 5 6074 9 76 第六章 數(shù)值變量資料的統(tǒng)計分析 x1 15 73 16667 16 93229 51 94 x2 15 8 116667 4 408663 2 25 15 表 6 8 30 名兒童的身高 x1 cm 體重 x2 kg 及體表面積 y cm2 男 sex 1 女 sex 2 x1 x2 y x1 x2 y 54 0 3 00 2446 2 54 0 3 00 2117 3 50 5 2 25 1928 4 53 0 2 25 2200 2 51 0 2 50 2094 5 51 5 2 50 1 906 2 56 5 3 50 2506 7 51 0 3 00 1850 3 52 0 3 00 2121 0 51 0 3 00 1632 5 76 0 9 50 3845 9 77 0 7 50 3934 0 80 0 9 00 4380 8 77 0 10 00 4180 4 74 0 9 50 4314 2 77 0 9 50 4246 1 80 0 9 00 4078 4 74 0 9 00 3358 8 76 0 8 00 4134 5 73 0 7 50 3809 7 96 0 13 50 5830 2 91 0 12 00 5358 4 97 0 14 00 6013 6 91 0 13 00 5601 7 99 0 16 00 6410 6 94 0 15 00 6074 9 92 0 11 00 5283 3 92 0 12 00 5299 4 94 0 15 00 6101 6 91 0 12 50 5291 5 計算男嬰組 女嬰組及合并的體表面積與體重 身高的相關系數(shù) by sex corr y x1 x2 sex 1 obs 15 y x1 x2 y 1 0000 x1 0 9895 1 0000 x2 0 9902 0 9809 1 0000 sex 2 obs 15 y x1 x2 y 1 0000 x1 0 9901 1 0000 x2 0 9806 0 9827 1 000 corr y x1 x2 obs 30 y x1 x2 y 1 0000 x1 0 9887 1 0000 x2 0 9842 0 9817 1 0000 由此可見 無論是男嬰組還是女嬰組 體表面積都與身高 體重高度相關 故應扣除兩者 的影響 再比較性別間體表面積有無差別 用協(xié)方差分析 anova y sex x1 x2 cont x1 x2 Number of obs 30 R square 0 9847 現(xiàn)代醫(yī)學統(tǒng)計方法與 Stata 應用 77 Root MSE 202 428 Adj R square 0 9829 Source Partial SS df MS F Prob F Model 68523073 3 3 22841024 4 557 41 0 0000 sex 139769 36 1 139769 36 3 41 0 0762 x1 938153 264 1 938153 264 22 89 0 0001 x2 368955 082 1 368955 082 9 00 0 0059 Residual 1 065399 93 26 40976 9205 Total 69588473 2 29 2399602 52 方差分析的結果表明 根據(jù)現(xiàn)有資料 在扣除了身高 體重的影響后 男嬰女嬰的體表面積之 差別無顯著性 P 0 0762 該命令與下面的命令是等價的 anova y sex x1 x 2 categroy sex 結果略 6 7 正態(tài)性檢驗與變量變換 正態(tài)性是很多傳統(tǒng)統(tǒng)計方法的應用條件之一 如 t 檢驗 方差分析等均要求資料服從正態(tài) 分布 如資料不服從正態(tài)分布 則需作適當?shù)淖兞孔儞Q 以使資料達到或接近正態(tài) 本節(jié)介紹幾種正態(tài)性檢驗方法和幾種常見的正態(tài)化和對稱化變換 一 正態(tài)性檢驗 用于正態(tài)性檢驗的命令為 sktest 變量 該命令要求資料的樣本含量至少為 8 先看一個實例 例 6 1 4 某市 200 名正常成人的血鉛含量 g 100g 如下 試對其進行正態(tài)性檢驗 3 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 8 8 8 8 9 9 9 9 9 9 9 10 10 10 10 10 10 10 10 10 11 11 11 11 11 12 12 12 12 12 12 12 13 13 13 13 13 13 13 13 13 13 13 13 14 14 14 14 14 14 14 14 14 14 15 15 15 15 15 15 15 16 16 16 16 16 16 17 17 17 17 17 17 17 17 17 17 17 17 18 18 18 18 18 19 19 19 19 19 19 20 20 20 20 20 20 20 20 21 21 21 21 21 22 22 22 22 22 22 23 23 23 24 24 24 24 24 24 25 25 26 26 26 26 26 27 27 28 28 29 29 30 30 31 31 31 31 32 32 32 32 32 32 33 33 36 38 38 39 40 41 41 43 47 50 53 60 首先用 summ 命令計算偏度系數(shù)和峰度系數(shù) summ x d x Percentiles Smallest 1 4 3 78 第六章 數(shù)值變量資料的統(tǒng)計分析 5 5 4 10 6 4 Obs 200 25 9 4 Sum of Wgt 200 50 15 Mean 17 085 Largest Std Dev 10 33984 75 22 47 90 31 5 50 Variance 106 9123 95 38 53 Skewness 1 215245 99 51 5 60 Kurtosis 4 734997 對 x 的偏度系數(shù)和峰度系數(shù)進行假設檢驗 sktest x Skewness Kurtosis tests for Normality joint Variable Pr Skewness Pr Kurtosis adj chi sq 2 Pr chi sq x 0 000 0 001 34 93 0 0000 結果中給出了偏度系數(shù)檢驗的 P 值 Pr Skewness 峰度系數(shù)檢驗的 P 值 Pr Kur tosis 以 及偏度系數(shù)和峰度系數(shù)聯(lián)合檢驗的校正 2 adj chi sq 2 及檢驗概率 Pr chi sq 結果表明 該資料不服從正態(tài)分布 這從資料的分布亦可判斷 set tex 150 gra x bin 13 xlab 0 5 10 15 20 25 30 35 40 45 50 55 60 65 ylab 0 1 15 2 25 gap 3 圖 6 1 例 6 14 資料的頻數(shù)分布圖 現(xiàn)對 x 作對數(shù)變換 計算其對數(shù)值的偏度系數(shù)和峰度系數(shù) 并對其進行假設檢驗 gen lnx ln x summ lnx d lnx 現(xiàn)代醫(yī)學統(tǒng)計方法與 Stata 應用 79 Percentiles S mallest 1 1 386294 1 098612 5 1 609438 1 386294 10 1 791759 1 386294 Obs 200 25 2 197225 1 386 294 Sum of Wgt 200 50 2 70805 Mean 2 658423 Largest Std Dev 6167802 75 3 091043 3 850147 90 3 449862 3 912023 Variance 3804178 95 3 637586 3 970292 Skewness 1735798 99 3 941157 4 094345 Kurtosis 2 418212 sktest lnx Skewness Kurtosis tests for Normality joint Variable Pr Skewness Pr Kurtosis adj chi sq 2 Pr chi sq lnx 0 303 0 029 5 72 0 0574 結果中給出了對數(shù)值 lnx 的偏度系數(shù)檢驗的 P 值 峰度系數(shù)檢驗的 P 值 以及偏度系數(shù)和峰度 系數(shù) 聯(lián)合檢驗的校正 2 及檢驗概率 結果表明 該資料經(jīng)對數(shù)變換后 該資料已基本對稱 但 其峰度比正態(tài)峰扁平 按 0 10 水準 對數(shù)變換后的資料仍不服從正態(tài)分布 圖 6 2 例 6 14 資料對數(shù)值的頻數(shù)分布圖 二 Box Cox 正態(tài)性變換 所謂 Box Cox 變換是指對變量 x 作變換 80 第六章 數(shù)值變量資料的統(tǒng)計分析 0 ln 0 1 l lll x x y Box Cox 正態(tài)性變換就是尋找參數(shù) 使變換后的資料最接近正態(tài)分布 用于尋找 Box Cox 正態(tài)性變換的命令為 b oxcox 原變量 generat 新變量 例 6 1 5 對例 6 14 資料作 Box Cox 正態(tài)性變換 boxcox x g y note iterations performed using zero 001 Iteration Lambda Zero Variance LL 0 1 0000 73 90087 107 166828 467 43868 1 0 0491 5 98333 76 7498368 434 0551 3 2 0 1180 0 00210 76 6147889 433 87901 3 0 1180 0 00000 76 6147808 433 87900 Transform x L 1 L L 95 Conf Interval Log Likelihood 0 1180 not calculated 433 879 Test L 1 chi2 1 106 69 Pr chi2 0 0000 L 0 chi2 1 1 31 Pr chi2 0 2521 L 1 chi2 1 65 64 Pr chi2 0 0000 參數(shù) 是用迭代的方法求出的 Stata 給出了迭代的中間步驟 結果 0 1180 結果中還給出 了分別與 1 0 及 1 不作變換 時的 2 檢驗 表明 0 1180 的變換與 0 對數(shù)變換 無顯著性 而比原資料有較大的改進 gen lnx log x sktest lnx y Skewness Kurtosis tests for Normal ity joint Variable Pr Skewness Pr Kurtosis adj chi sq 2 Pr chi sq lnx 0 303 0 029 5 72 0 0574 y 0 898 0 028 4 89 0 0869 可見 作 0 1180 的 Box Cox 變換后的偏度系數(shù) 較作對數(shù)變換 0 有所改善 而對資料的 峰度系數(shù)則兩種變換相差不大 Stata 還提供了其它檢驗正態(tài)分布的檢驗方法 Shapiro Wilk 法和 Shapiro Francia 法 命 令為 swilk 和 sfrancia 三 對稱性變換 現(xiàn)代醫(yī)學統(tǒng)計方法與 Stata 應用 81 所謂對稱性變換 即尋找變換 使資料接近對稱 或偏度系數(shù)接近 0 Stata 提供了兩種對 稱性變換 其一是 Box Cox 對稱性變換 即尋找 Box Cox 中的 使變換后資料的偏度系數(shù)接 近 0 其二是對 數(shù)對稱性變換 即尋找一 k 值 作變換 kxy ln 使變換后資料 y 的偏度系數(shù)接近 0 相應的兩個命令為 lnskew0 新變量 原變量 bcskew0 新變量 原變量 x 前面的正負號將根據(jù)其具體取值 由用戶自己定義 例 6 1 6 對例 6 14 資料作對稱性變換 lnskew0 ltx x Transform k 95 Conf Interval Skewness ln x k 2 09 0607 not calculated 0006012 結果 k 2 09 此時的偏度系數(shù)為 0 0006012 在執(zhí)行完命令后 Stata 產(chǎn)生了一個新變量 ltx 其取值為 ln x 2 090607 bcskew0 bcx x lev 95 Transform L 95 Conf Interval Skewness x L 1 L 1349801 1275427 38839 0005503 結果 0 135 此時的偏度系數(shù)為 0 0005503 在執(zhí)行完 命令后 Stata 產(chǎn)生了一個新變量 bcx 其取值為 x0 1349801 1 0 1349801 82 第七章 分類資料的統(tǒng)計分析 第七章 分類資料的統(tǒng)計分析 分類資料又稱定性資料 或計數(shù)資料 其取值是定性的 表現(xiàn)為互不相容的類別或屬性 按類別間的關系 又分為有序分類和無序分類 有序分類資料又稱等級資料 等級資料的統(tǒng)計 分析將在第八章介紹 本章介紹無序分類資料的統(tǒng)計分析 7 1 率 構成比的比較 率與構成比的資料形式一般都是行列表形式 Stata 用于處理分類資料的命令是雙向 二 維 tabulate 命令 參見第四章 tabulate var1 var2 fw 頻數(shù)變量 選擇項 其中 var1 var2 分別表示行變量和列變量 fw 頻數(shù)變量 只在變量以頻數(shù)形式存放時選用 選擇項有 chi2 Pearson 2 檢驗 lrchi2 似然比 2 檢驗 gamma Goodman Kruskal 的 系數(shù) taub Kendall 的相關系數(shù) b V Cramer 的列聯(lián)系數(shù) V all 同時給出以上五種結果 exact Fisher 的確切概率 cell 打印每個格子的頻數(shù)占總頻數(shù)的百分比 column 打印每個格子的頻數(shù)占相應列合計的百分比 row 打印每個格子的頻數(shù)占相應行合計的百分比 nofreq 不打印頻數(shù) 以上命令可同時選用 分類資料的一個特點是重復數(shù)較多 在報告結論時 一般都將數(shù)據(jù)整理成頻數(shù)表 但收集 資料時都是未整理的原始形式 Stata 對這兩種形式的資料都可以進行分析 所得結果相同 只 是命令稍有區(qū)別 下面以兩 種數(shù)據(jù)形式 三種命令格式對四格表資料進行分析 以說明 tabulate 命令的應用 例 7 1 兩個率的比較 四格表 試比較甲乙兩種療法對某病的治療效果 表 7 1 甲乙兩種療法對某病的治療效果 無效 有效 合計 有效率 甲法 6 4 10 p1 40 0 乙法 11 33 44 p2 75 0 合計 17 37 54 pC 68 5 1 頻數(shù)形式 記 a 0 表甲法 a 1 表乙法 b 0 表無效 b 1 表有效 freq 表相應 的頻數(shù) 數(shù)據(jù)結構如下 use d mydata ex 7 1 現(xiàn)代醫(yī)學統(tǒng)計方法與 Stata 應用 83 list a b freq 1 0 0 6 2 0 1 4 3 1 0 11 4 1 1 33 數(shù)據(jù)是以頻數(shù)的形式存放的 頻數(shù)變量為 freq 相應的命令格式為 tab a b fw freq row all exact effect mathod 0 1 Total 0 6 4 10 60 00 40 00 100 00 1 11 33 44 25 00 75 00 100 00 Total 17 37 54 31 48 68 52 100 00 Pearson chi2 1 4 6273 Pr 0 031 likelihood ratio chi2 1 4 3274 Pr 0 038 Cramer s V 0 2927 gamma 0 6364 ASE 0 218 Kendall s tau b 0 2927 ASE 0 14 3 Fisher s exact 0 056 1 sided Fisher s exact 0 041 由于選用了 all 和 exact 項 結果中給出了包括 Fisher 確切概率在內(nèi)的全部六種統(tǒng)計量 注 意 all 選擇中不包括 Fisher 的確切概率 各統(tǒng)計量的計算見后 結論 本例樣本含量較小 且 有理論頻數(shù)小于 應以 Fisher 的確切概率下結論 按 0 05 水準 尚不能認為兩種療效有 差別 2 原始資料形式 分類資料在收集資料時都是未整理的原始形式 Stata 對這種資料可直接以進行分析 所得 結果相同 如例 7 1 資料用原始資料形式存放即為 drop all use d mydatat ex7 1 1 list a b 1 0 0 2 0 0 6 6 0 0 7 0 1 84 第七章 分類資料的統(tǒng)計分析 4 10 0 1 11 1 0 11 21 1 0 22 1 1 33 54 1 1 此時 相應的命令為 tab a b all exact row 命令中沒有 fw freq 選擇項 但所得結果相同 3 直接輸入頻數(shù) 對頻數(shù)表資料還可用 tabi 命令直接輸入頻數(shù) 按行輸入 各行數(shù)據(jù)間用 分開 因 該法較之上兩法更為簡單 故推薦使用 命令格式如下 tabi 6 4 11 33 row all exact 結果相同 略 注 設有下列 R C 表表 1 2 3 j C 1 n11 n12 n13 n1j n1C n1 2 N21 n22 n23 n2j n2C n2 i ni1 ni2 ni3 nij nIC ni R nR1 nR2 nR3 nRj nRC nR n 1 n 2 n 3 n j n C n 記 nnnm jiij Q ijijjiijijji ik jl kl ik jl klij ik jl kl ik jl klij DnAnP nnD nnA 則 1 Pearson 2 ijijijjip mmnQ 現(xiàn)代醫(yī)學統(tǒng)計方法與 Stata 應用 85 2 似然比 2 ln ijijijji mnnG 3 Cramer 列聯(lián)系數(shù) n11n22 n12n21 n1 n2 n 1n 2 1 2 對 2 2 表 V QP n min R 1 C 1 1 2 其 他 4 Goodman Kruskal 的 gamma P Q P Q 5 Kendall 的列聯(lián)系數(shù) b P Q wRwC 1 2 wr n2 in i 2 wc n2 j n j 2 例 7 2 多個率的比較 用免疫法觀察鼻咽癌患者 a 1 頭頸部其他惡性腫瘤患者 a 2 及 正常成人組 a 3 的血清 EB病毒殼抗原的免疫球蛋白 A VCA IgA 抗體的反應情況 資料如下 三組陽性率有無差別 表 7 2 三組人群中 EB 病毒 VCA IgA 抗體陽性率 分 組 陽性例數(shù) 陰性例數(shù) 合 計 陽性率 a 1 188 16 204 92 3 a 2 10 23 33 30 3 a 3 49 333 382 12 8 合 計 247 372 619 39 9 按頻數(shù)形式輸入原始數(shù)據(jù) list a b pop 1 1 1 188 2 2 1 10 3 3 1 49 4 1 0 16 5 2 0 23 6 3 0 333 tab a b fw pop row chi2 lrchi2 exact b a 0 1 Total 1 1 88 16 204 92 16 7 84 100 00 2 10 23 33 30 30 69 70 100 00 86 第七章 分類資料的統(tǒng)計分析 3 49 333 382 12 83 87 17 100 00 Total 247 372 619 39 90 60 10 100 00 Pearson chi2 2 350 3259 Pr 0 000 likeli hood ratio chi2 2 387 3664 Pr 0 000 Fisher s exact 0 000 也可直接用以下命令 tabi 188 16 10 23 49 333 row chi2 lrchi2 exact 所得結果同上 結論 無論是卡方檢驗還是似然比檢驗 按 0 05 水準可認為三組陽性率不 同 鼻咽癌患者的反應陽性率最高 正常成人組的反應陽性率最小 如在 DOS 版本上使用 當總例數(shù)大于 170 時 即使命令中選用 exact 也不能給出 Fisher 的確切概率 3 0 以上的版本無此限制 例 7 3 多組構成比的比較 就下表資料分析三個民族的血型分布 構成比 是否相同 表 7 3 傣族 佤族 土家族居民的 ABO 血型分布 A B O AB 合計 xx 1 xx 2 xx 3 xx 4 傣 族 mz 1 112 150 205 40 507 佤 族 mz 2 200 112 135 73 520 土家族 mz 3 362 219 310 69 960 合 計 674 481 650 182 1987 tabi 112 150 205 40 200 112 135 73 362 219 310 69 nofreq row chi2 lrchi2 xx mz 1 2 3 4 Total 1 22 09 29 59 40 43 7 89 100 00 2 38 46 21 54 25 96 14 04 100 00 3 37 71 22 81 32 29 7 19 100 00 33 92 24 21 32 71 9 16 100 00 Pearson chi2 6 71 5186 Pr 0 000 likelihood ratio chi2 6 72 2521 Pr 0 000 按命令要求 結果中給出了 Pearson 的 2 檢驗和似然比 2 檢驗 結論 卡方檢驗與似然比檢驗的 值均較小 可認為三個民族的血型分布不同 其中傣族以 型為主 而佤族與土家族均以 型為多 例 7 4 計數(shù)相關 就下列資料分析人群中 ABO 血型與 MN 血型有無相關關系 表 7 4 6094 人 MN 血型與 ABO 血型的分布 ABO 血型 MN 血 型 現(xiàn)代醫(yī)學統(tǒng)計方法與 Stata 應用 87 M N MN 合計 A 431 490 902 1823 B 388 410 800 1598 O 495 587 950 2032 AB 137 179 325 641 合 計 1451 1666 2977 6094 以 a 表 ABO 血型 b 表 MN 血型 c 為相應的頻數(shù) tabi 431 490 902 388 410 800 495 587 950 137 179 325 nofreq all Pearson chi2 6 8 5952 Pr 0 198 likelihood ratio chi2 6 8 6689 Pr 0 193 Cramer s V 0 0266 gamma 0 0078 A SE 0 017 Kendall s tau b 0 0053 ASE 0 011 結論 從列聯(lián)系數(shù)來看 Cramer 的 V Goodman Kruskal 的 gamma 以及 Kendall 的 tb 均較 小 從 P 值來看 無論是卡方檢驗還是似然比檢驗 P 值均較大 尚不能認為兩種血型間有相 關關系 7 2 流行病學表格分析 在流行病學資料分析中 經(jīng)常要計算某事件的發(fā)生率 如發(fā)病率 死亡率等 率差 相對 危險度 RR 比數(shù)比 OR 及它們的可信區(qū)間等 用該軟件可以非常 方便地解決此類問題 Stata 用于處理流行病簡單表格資料的命令有 ir cs cc mcc 等 他們分別適用于定群研 究 病例對照研究和配比病例對照研究 詳細說明請查閱幫助 help epitab 一 定群研究資料 定群研究又稱隊列研究 前瞻性研究 隨訪研究或縱向研究 在定群研究時 根據(jù)以往有 無暴露經(jīng)歷 研究者將研究人群分為暴露和非暴露 在一定時間內(nèi) 隨訪觀察和比較兩組人群 的發(fā)病率或死亡率 對定群研究的資料 Stata 提供了 ir 和 cs 命令 ir 病例變量 暴露變量 時間變量 選擇項 cs 病例變量 暴露變量 選擇項 這里選擇項有 level 指定可信區(qū)間的可信度 tb 以檢驗方法為基礎 作可信區(qū)間的估計 by varname 指定分層變量 fast 不計算層內(nèi) OR 或可信區(qū)間 estandard 指定用外在權數(shù)計算標準化估計 與 by 一起用 istandard 指定用內(nèi)在權數(shù)計算標準化估計 與 by 一起用 standard varname 指定按變量為權數(shù)計算標準化估計 與 by 一 起用 ird 指定計算標準化率之差 用于 estandard istandard 或 standard 選擇項后 88 第七章 分類資料的統(tǒng)計分析 nocrude 不計算合并資料的指標 用于 by 選擇項后 pool 直接加權估計 與 by 一起用 nohet 不做層間的齊性檢驗 ir 命令適用于發(fā)病率 發(fā)病密度或人 時資料 主要用于估計發(fā)病密度比和差 而 cs 適用 于 隨訪時間相同 隨訪資料的分母是觀察對象數(shù)而不是人時數(shù)的資料 這兩種類型的頻數(shù)資料 都能直接用快速命令 iri 或 csi 格式如下 iri a b N1 N2 level tb csi a b c d level exact or tb woolf 例 7 5 就表 7 5 資料進行流行病學分析 表 7 5 暴露和不暴露 X 線患結核病婦女乳腺癌病例發(fā)生數(shù)和觀察人年數(shù) 暴露 不暴露 合計 病例數(shù) 41 a 15 b 56 M 人年數(shù) 28 010 N1 19 017 N2 47 027 T 凡此 種含有時間變量的資料 應采用 iri 或 ir 命令分析之 iri 41 15 28010 19017 Exposed Unexposed Total Cases 41 15 56 Person time 28010 19017 47027 Incidence Rate 0014638 0007888 0011908 Pt Est 95 Conf Interval Inc rate diff 000675 0000749 0012751 Inc rate ratio 1 855759 1 005815 3 6111 92 exact Attr frac ex 4611368 0057813 7230831 exact Attr frac pop 337618 midp Pr k 41 0 0177 exact midp 2 Pr k 41 0 0355 exact 解釋 RD 率差 0 000675 6 75 萬 95 CI 0 749 萬 12 751 萬 RR 相對危險度 1 855759 95 CI 1 005815 3 611192 ARP 歸因危險度百分比 0 4611368 95 CI 0 0057813 0 7230831 PARP 人群歸因危險度百分比 0 337618 P 0 0177 單 側 根據(jù) Stata 輸出的結果 暴露 X 線患結核病婦女發(fā)生乳腺癌的危險性為非暴露者的 1 86 倍 暴 露者中有 46 的乳腺癌是由暴露 X 線所致 人群中乳腺癌的 33 8 是由接觸 X 線所致 注意 該命令中數(shù)據(jù)的輸入順序必須正確 依次為暴露組病例數(shù) 非暴露組病例數(shù) 暴露 現(xiàn)代醫(yī)學統(tǒng)計方法與 Stata 應用 89 組觀察人時數(shù) 非暴露組觀察人時數(shù) 一旦數(shù)據(jù)輸入順序有誤 則結果將大相徑庭 請讀者自 己驗證 也可用 ir 命令 首先輸入數(shù)據(jù) input case exposed time case exposed time 1 41 1 28010 2 15 0 19017 3 end ir case exposed time Exposed Unexposed Total Cases 41 15 56 Person time 28010 19017 47027 Incidence Rate 0014638 0007888 0011908 Pt Est 95 Conf Interval Inc rate diff 000675 0000749 0012751 Inc rate ratio 1 855759 1 005815 3 611192 exact Attr frac ex 4611368 0057813 7230831 exact Attr frac pop 337618 midp Pr k 41 0 0177 exact midp 2 Pr k 41 0 0355 exact 結果與前完全相同 例 7 6 就表 7 6 資料計算婦女乳腺癌 RR 及 90 可信區(qū)間 表 7 6 母親乳汁中 IgG 抗體滴度高低與 6 個月以上嬰兒患呼吸道疾病的關系 高滴度 低滴度 發(fā)病 5 a 16 b 不發(fā)病 10 c 7 d 合計 15 23 最簡單的 csi 命令為 c s i a b c d 請注意數(shù)據(jù)輸入順序 csi 5 16 10 7 level 90 Exposed U nexposed Total Cases 5 16 21 Noncases 10 7 17 Tota l 15 23 38 Risk 3333333 6956522 5526316 90 第七章 分類資料的統(tǒng)計分析 Pt Est 90 Conf Interval Risk difference 3623188 6172448 107此文檔不允許下載,請繼續(xù)在線閱讀
還剩頁未讀,繼續(xù)閱讀
- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權。
- 關 鍵 詞:
- 現(xiàn)代醫(yī)學 統(tǒng)計 方法 Stata 應用 第一版
裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學習交流,未經(jīng)上傳用戶書面授權,請勿作他用。
鏈接地址:http://m.kudomayuko.com/p-9270908.html