(B) |
1 | 某社區衛生局統計每日上午9:00至12:00,平均就診人數為10 人,請問 9月1日當天就診人數少於3人的機率為何?$(e^{-10} = 4.54×10^{-5})$- 0.0103
- 0.0028
- 0.0076
- 0.0023
|
(C) |
2 | 以下盒形圖(boxplot)來自世代研究調查資料,將資料中有中風者及無中風者的年齡以盒形圖繪製出其分布,利用此圖的訊息,對於中風與否之年齡分布描述,選出較合適的選項?
- 中風者之年齡分布呈現右偏分布,無中風者呈現左偏分布
- 中風者之年齡中位數小於無中風者
- 中風者之四分位距(interquartile range, IQR)大約為10歲,無中風者的年齡四分位距約為13歲
- 中風者之標準差(standard deviation)會大於無中風者
|
(D) |
3 | 在某大學新生體檢中,發現大學生健康狀況明顯較往年差,該校患有糖尿病的學生中男生之比例為0.7,該校沒有糖尿病學生中男生的比例為0.5,且年輕族群(18-20歲)糖尿病盛行率為1%,請問該校男學生中,患有糖尿病的比例為何?(四捨五入至小數第三位,選出最接近的答案)- 0.011
- 0.010
- 0.016
- 0.014
|
(A) |
4 | 某大學大一統計成績服從常態分配,平均數為78分,標準差為5,共有500位修習統計學,請問有一位同學分數為88分,請問其排名為何?PR 值為何?(選出最接近選項)- 排名約為第13名、PR 值約為97.5
- 排名約為第25名、PR 值約為95
- 排名約為第5名、PR 值約為99
- 排名約為第50名、PR 值約為90
|
(B) |
5 | 在流行病學研究中,常利用性別及年齡配對,來了解暴露及疾病之相關性。以下資料為世代研究(cohort study)收集而來,想了解抽菸對於肺癌之影響,以不同條件暴露狀況進行性別及年齡配對,以一位有抽菸者和一位未抽菸者進行性別及年齡的配對,再觀察兩人是否有罹患肺癌,並檢定抽菸和肺癌之相關性。請針對此資料的檢定結果,選出正確的選項。(檢定時皆不進行連續型修正)
| 有抽菸者 |
無抽菸者 | 肺癌 | 無肺癌 |
肺癌 | 123(A) | 220(C) |
無肺癌 | 260(B) | 150(D) |
-
在此研究設計所得資料,可利用費雪精確檢定進行了解
- 若運用正確的檢定方法下,此檢定的檢定統計量應為3.33
- 在此研究設計所得資料,並製作成上表,表中所呈現的人數共有753人
- 在顯著水準為0.05下,我們拒絕虛無假設,證實抽菸和肺癌間具有相關性
|
(D) |
6 | 想了解戴口罩對於預防新冠肺炎是否有效益,共收集 100 人,進行回顧式研究,其中有得病及未得病者,分別各有 50人,請他們回顧過去一個月戴口罩之狀況,資料如下,下列描述何者錯誤?
| 戴口罩 頻率高K=0 | 戴口罩 頻率低K=1 | 總合 |
此星期 曾感染 新冠肺炎D=1 | 28(a) | 22 | 50 |
此星期 未曾感染過 新冠肺炎D=0 | 33 | 17 | 50 |
-
有符合卡方之假設,故可使用卡方檢定進行分析
- 若要計算格子之期望個數,格子(a)之期望個數為30.5
- 若利用勝算比(odds ratio)之估計及檢定進行此問題之探討,戴口罩頻率低者染病風險大約是戴口罩頻率高者的1.53倍,但不具統計上之顯著
- 若利用勝算比估計及檢定兩者之相關性,勝算比估計值之標準誤可利用
{ $ \sqrt{1/22}$ +$ \sqrt{1/28}$ +$ \sqrt{1/33}$ +$ \sqrt{1/17}$ }估計之
|
(B) |
7 | 研究顯示慢跑及快走皆是有益身心之運動,國外研究顯示在既定的公里數下,慢跑所需熱量較快走多,在此收集以下資料,想驗證此結果;在進行相同的公里數下(1.6公里)所需消耗之熱量如下(單位:大卡):
參與者 | 1 | 2 | 3 | 4 | 5 |
跑步 | 113 | 115 | 110 | 105 | 150 |
快走 | 88 | 80 | 90 | 85 | 92 |
共有10個年齡相仿之參與者,隨機分派兩組,下列描述何者正確?- 可使用兩組獨立平均數檢定,為檢定兩組平均數之方法
- 使用Wilcoxon rank sum 檢定方法,為檢定兩組中位數之方法
- 使用Wilcoxon signed-rank檢定方法,為檢定兩組中位數之方法
- 使用McNemar 檢定方法,為檢定兩組成對中位數之方法
|
(A) |
8 | 研究者欲瞭解具有某項飲食習慣的有無,是否會導致某疾病的發生,他將研究資料整理如下:
具有該項飲食習慣、但沒有罹病:400 人
具有該項飲食習慣、也有罹病:100 人
不具該項飲食習慣、也沒有罹病:200 人
不具該項飲食習慣、但有罹病:300 人
若研究者將上述資料置入 logistic regression 中,則可計算出,具有該項飲食習慣者罹病之Crude Odds Ratio 為何?- 0.17
- 0.50
- 2.00
- 6.00
|
(B) |
9 | 若針對宜蘭地區居民進行腰圍之測量,抽出 500 位居民(無遺失值) ,其樣本腰圍平均數為78.89公分、樣本腰圍標準差為9.72 公分。男性為250人,其樣本腰圍平均數為83.07公分、標準差為9.99公分;女性為250人,其樣本腰圍平均數為74.70公分、標準差為9.67公分。下列何者正確?- 在比較男性、女性之腰圍平均是否有差異時,可使用成對樣本平均數(paired t test)檢定
- 若要利用此資料建構宜蘭地區居民腰圍平均值的 95%信賴區間,其信賴區間約為(78.04, 79.74)
- 男性腰圍大於 90 公分定義為肥胖,若要檢定此地區男性居民平均腰圍是否大於 90 分,以此資料可得,在顯著水準為0.05時,可以證明此地區是男性居民平均腰圍大於90公分
- 在顯著水準為0.05時,此地區男性平均腰圍和女性平均腰圍無法證明兩者間具有顯著差異
|
(A) |
10 | 最近研究發現"人工甜味劑「阿斯巴甜」可能對人類致癌",一般食品的規範中,食品每100公克含糖量不超過0.5公克,即可宣稱「無糖」 ,這些宣稱無糖的食品,卻添加了許多人工甜味劑,長期而言,非全然對健康無害。若要想檢測此食品是否可宣稱「無糖」,我們抽出數個樣本進行檢測,測量每100公克的含糖量,以下對於虛無假設及對立假設的設定,何者正確?
- $H_0:\mu \le 0.5$ vs $H_1:\mu > 0.5$
- $H_0:\mu = 0.5$ vs $H_1:\mu \ne 0.5$
- $H_0:\mu < 0.5$ vs $H_1:\mu \ge 0.5$
- $H_0:\mu \ge 0.5$ vs $H_1:\mu < 0.5$
|
(C) |
11 | 我們可以利用中央極限定理的結果,建構$\mu $的95%信賴區間,稱為(a, b) ,針對此信賴區間的描述,何者正確?
- 表示$\mu $有95%的機率會在(a, b)之間
- 表示此(a, b)必會包含 $\mu$
- (a, b)區間愈長表示標準誤愈大,代表樣本數較小
- 建置$\mu $的95%信賴區間,會比99%信賴區間來得長
|
(C) |
12 | 在心血管疾病的研究中,腰圍為重要的影響因子,控制腰圍大小為預防心血管疾病管道之一,我們想了解腰圍大小(Y)和收縮壓(X)之相關性。利用簡單線性迴歸模型$ \mu_{Y|X} = α + \beta X $或皮爾森(Pearson)相關係數($\rho $)了解兩者間之相關性,下面描述何者錯誤?(假設腰圍、收縮壓為常態分配)
- 簡單線性迴歸模型或皮爾森相關係數,皆是可以了解腰圍大小和收縮壓之直線相關的程度
- 若腰圍大小(Y)和收縮壓(X)皆進行標準化後,分別為 $ y^\prime $及$ x^\prime $,再進行線性迴歸模型,可得$ \mu_{ y^\prime | x^\prime }= α^\prime + \beta^ \prime x^\prime $模型,其$ \beta \prime $的估計值會很接近 $\rho $ 的估計值
- 線性迴歸模型中的斜率($ \beta $)可描述腰圍大小和收縮壓兩者互相影響之變化程度,若$ \beta $愈大表示兩者相關性愈大
- 若皮爾森相關係數或線性迴歸之斜率($ \beta $ )為0,腰圍大小和收縮壓間,有可能為曲線相關,也有可能是無相關性
|
(B) |
13 | 在治療自體免疫性疾病的藥物中,除了非類固醇抗發炎藥(NSAID)外,還有免疫抑制劑的選擇。以下資料來自 200 位疾病嚴重度相似的自體免疫性疾病患者,有 100 位接受 Drug 治療(Drug=0,為參考組),有100位接受免疫抑制劑的治療(Drug=1),觀察治療半年後疾病狀況是否有改善(Y=1:有改善;Y=0:無改善),在調整年齡(Age)、性別(Gender=0,女性(參考組);Gender=1,男性)後,下列式子及下表為多變項模型及其估計結果(顯著水準為0.05)。下列描述何者正確?
logit={Pr(Y=1 | $Drug$,$Gender$,$Age $)} $ = α+ \beta_1 \times Drug$ + $\beta_2 \times Gender$ + $\beta_3 \times Age$
| Estimate | Std. Error | t value |
Drug ($\hat{\beta_1}$) | 0.3048 | 0.0690 | 4.421 |
Gender ($\hat{\beta_2}$) | 0.4686 | 0.0639 | 7.3 5 |
Age ($\hat{\beta_3}$) | -0.0028 | 0.0017 | -1.642 |
-
在此模型中,可判斷年齡及性別為干擾因子
- 在模型估計結果中,調整年齡(Age)及性別(Gender)下,在治療半年後,使用免疫抑制劑藥物會較使用NSAID病況有改善,且有統計上之顯著
- 在控制其他變數下,在治療半年後,男生較女生病況有改善,但無統計上顯著
- 在控制其他變數下,在治療半年後,年齡愈小病況有改善的可能性較高,且有統計上顯著
|
(A) |
14 | 在心血管疾病的研究中,腰圍為重要的影響因子,控制腰圍大小為預防心血管疾病管道之一,我們想了解腰圍大小($Y$)和收縮壓($X_1$)之相關性,並考慮調整年齡($X_2$)及性別($X_3$) ,男性為1,女性為0,女性為參考組)。以下利用簡單線性迴歸及複迴歸模型,探討腰圍和收縮壓之相關性,請計算模型三中$\beta_1$之95%信賴區間估計。(此資料樣本數為5019,遺失值變數最多為3%,顯著水準為0.05)
模型一$ \mu_{Y|X_1} $ $= α + \beta_1 X_1 $
模型二$ \mu_{Y|X_1,X_2,X_3} $ $= α + \beta_1 X_1 + \beta_2 X_2 $
模型三$ \mu_{Y|X_1,X_2,X_3} $ $= α + \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3 $
模型四$ \mu_{Y|X_1,X_2,X_3} $ $= α + \beta_1 X_1 + \beta_2 X_2 + \beta_2 X_3 $ $+ \beta_4 (X_1 \times X_3)$
- 模型三中$\beta_1$之95%信賴區間估計為(0.08, 0.15)
- 模型三中$\beta_1$之95%信賴區間估計為(0.18, 0.24)
- 模型三中$\beta_1$之95%信賴區間估計為(0.09, 0.20)
- 模型三中$\beta_1$之95%信賴區間估計為(0.08, 0.19)
|
(B) |
15 | 承上題,對於模型一、二、三、四之描述,何者錯誤?
- 在這四個模型中,以模型選擇的概念(估計參數個數最少、解釋力最大),若要選一個較佳的模型,應該選擇模型三最合適
- 模型二中,其調整後的$R^2$= 19.45%,表示年齡及收縮壓可解釋腰圍的總變異佔19.45%
- 模型一中,可推得腰圍和收縮壓的皮爾森(Pearson)相關係數為0.404
- 在模型四中,顯示交互作用不存在,表示腰圍和收縮壓之間的相關,不受年齡之不同而改變定
|
(A) |
16 | 肺癌發生率為每十萬人口36 人,為臺灣前10 大癌症之一,以下為某醫學中心,肺癌存活率之資料(以月為單位),是利用Kaplan-Meier 估計方法得到,gender=0 為女性,gender=1 為男性,在曲線上"+"為設限(censor),以下描述何者錯誤?
- Kaplan-Meier估計方法,需在兩條存活曲線沒有相交的狀況下進行估計
- 此Kaplan-Meier估計結果中,存活中位數,男性為40個月,女性為70個月
- 曲線有下降表示有因肺癌死亡之事件發生
- 第 80 個月後曲線為平行線,表示在第 80 個月後,無個案因肺癌死亡,但有幾個個案是非因肺癌死亡
|
(D) |
17 | 承上題,我們想了解男性、女性之存活曲線是否有差異,利用以下方法進行檢定,請問以下描述,何者正確?(顯著水準為0.05)
檢定方法 | 檢定統計量 | p-value |
Log-Rank 檢定 | 3.5562 | 0.0593 |
Peto-Wilcoxon 檢定 | 2.8182 | 0.0932 |
- Log-Rank 檢定,需假設兩條 log-存活函數的比值需為常數(風險比為常數),故非為無母數(nonparametric)檢定
- 此兩條存活函數在後期差異較大,使用Peto-Wilcoxon 檢定進行兩組存活曲線比較時,其檢定力較好
- 以 Log-Rank檢定或 Peto-Wilcoxon 檢定之p-value,有充份證據證明男性、女性存活曲線是有顯著差異
- Log-Rank檢定或Peto-Wilcoxon檢定方法,其抽樣分配為自由度為1之卡方分配
|
(A) |
18 | 我們利用 Cox PH model(Cox proportional hazard model)進行影響因肺癌死亡之風險因子的探討,以因肺癌死亡為事件發生,並記錄從追踪到因肺癌死亡發生之時間,模型之解釋變項為性別(男性、女性,女性為參考組)、年齡、抽菸程度(從未抽菸、過去曾抽菸現在無抽菸、現在有抽菸,現在有抽菸為參考組),依據以下分析結果,那些為影響存活之因子,請選出正確選項:
-
年齡為唯一顯著之影響存活之變數
- 性別、年齡、抽菸與否,皆為顯著影響存活的變數
- 性別、抽菸與否,為顯著影響存活的變數
- 上述未呈現p-value,故無法判斷何者為顯著影響存活的變數
|
(B) |
19 | 承上題,依據上題分析結果,對於模型參數之解釋何者正確?- 在控制其他變數下,男性發生因肺癌死亡的機率是女性的1.38倍
- 在控制其他變數下,從未抽菸者發生因肺癌死亡的風險是現在有抽菸者的0.32倍
- 在控制其他變數下,年齡每增加一歲,發生因肺癌死亡的風險會增加104%
- 在控制其他變數下,現在有抽菸者發生因肺癌死亡的風險是過去曾抽菸現在無抽菸者的0.56倍
|
(B) |
20 | 在一個Mean=Median=Mode的常態分布中,加入若干個極大值後,請問下列敘述何者正確?(假設仍然只有一個Mode)- Median一定變大、Mode一定不變
- Median可能變大或是不變、Mode可能變大或是不變
- Median一定變大、Mode可能變大或是不變
- Median可能變大或是不變、Mode一定不變
|
(A) |
21 | 在盒型圖(boxplot)中,圖形中央四邊形所對應的數值範圍,涵蓋了這個變數多少比例的觀察值?(α為顯著水準)- 50%
- 75%
- 95%
- 100(1-α)%
|
(C) |
22 | 在執行完「變異數分析」的檢定之後,碰到下面那種情況時,需要再進行「事後檢定」(或稱「多重比較」)?- 各組的變異數不相等
- 各組的中位數不相等
- 各組的平均數不相等
- 各組的峰度和偏態不相等
|
(D) |
23 | 在《莊子.齊物論》有一則寓言:養猴人跟猴子們說,以後早上餵三升橡實,下午餵四升橡實,但猴子們聽了很不高興,因為早上吃太少,於是,養猴人說,那改成早上餵四升,下午餵三升,猴子們就很高興(此即朝三暮四的典故)。假設養猴人對這些猴子進行這兩種餵食方式的滿意度調查,結果如下(a,b,c,d為猴子的個數):
| 朝四暮三 |
朝三暮四 | 滿意 | 不滿意 |
滿意 | a | b |
不滿意 | c | d |
試問,養猴人該用
何種方法來進行統計檢定?- Test of goodness-of-fit
- Test of independence
- Fisher's exact test
- McNemar's test
|
(A) |
24 | 將某兩個變數置入simple linear regression後,得到其決定係數為0.64,若將這兩個變數進行相關分析,則其相關係數應為下列何者?- $0.64^{0.5}$
- $0.64^1$
- $0.64^2$
- 條件不足無法計算
|
(B) |
25 | 某研究者收集了 10 名罕見疾病患者的發病年齡,若欲比較男性和女性之發病年齡是否有差異,則該使用何種統計方法來進行檢定?- Kruskal-wallis test
- Wilcoxon rank-sum test
- Wilcoxon sign-ranked test
- Spearman correlation
|
(C) |
26 | 在下列四種統計檢定方法中,共有幾種方法可以對自變數進行調整 (adjustment,或稱控制)?
①Simple linear regression
②Logistic regression
③General linear model
④Cox proportional hazard model- 1種
- 2種
- 3種
- 4種
|
(B) |
27 | Kruskal-Wallis test 的虛無假設為下列何者?- 各組資料母群體的平均數相等
- 各組資料母群體的中位數相等
- 各組資料母群體的眾數相等
- 各組資料母群體的變異數相等
|
(D) |
28 | 在使用統計軟體進行性別、血型、身高(以上三項為自變數)對於體重(依變數)的複迴歸分析時,如果在報表中有出現一項下表中的結果:
參數 | 估計值 | p-value |
[性別=女] * [血型=A] | a | b |
則代表有對這兩個變數進行下列何種探討?- 加權效果
- 加乘作用
- 聯合效應
- 交互作用
|
(B) |
29 | 在某次選舉中,研究者對三位候選人進行支持度的民意調查,結果發現,甲、乙、丙三位候選人的支持度分別為30%、27%、20%。試問:該研究者還需要下列那一種指標,才能判斷候選人之間的支持度是不分軒輊,或是具有統計上的顯著差異?- 已經可以直接判定,不需其它指標
- 各候選人支持度的信賴區間
- 各候選人支持度的標準差
- 各候選人支持度的檢定力(power)
|
(D) |
30 | 在實務研究上,若發現欲對一個2×3列聯表進行檢定時,其中有兩個細格(cell)的期望值不符合Pearson's chi-square test的使用前提。試問:在進行下列那一項動作之後,就能夠有機會且合理地使用該檢定方法?- 將橫列的組別合併
- 將直行最少個數的組別與次少個數的組別合併
- 將直行最少個數的組別與最多個數的組別合併
- 增加樣本數1
|
(B) |
31 | 有一檢測之陽性預測值為60%,令其敏感度為100%,可得之陰性預測值為何?- 60%
- 100%
- 90%
- 80%
|
(C) |
32 | 承上題,令其特異度為33%及群體得病率為50%,請問檢測陽性者為得病之條件機率為何?
P (D+|T+) = P (D+)*sensitivity/ (P (D+)*sensitivity+ (1-P (D))*(1-specificity))
- 30%
- 50%
- 60%
- 90%
|
(D) |
33 | 下列四種資料尺度中,那一種的等級(或稱數值化程度)是最低的?- Ratio scale
- Interval scale
- Ordinal scale
- Nominal scale
|
|
|
有一多中心體外反搏介入研究(MUST-EECP),其中 71 人為個案組,66 人為對照組,其心絞痛年平均值(標準差)分別為8.56(7.88)對4.5(4.06)。請回答第34題至第36題:
|
(A) |
34 | 請問其標準誤分別為何? 標準誤=標準差 / $ \sqrt{樣本大小}$ - 0.94對0.50
- 0.50對0.94
- 7.88對4.06
- 4.06對7.88
|
(B) |
35 | 請問個案組vs 對照組心絞痛年95%信賴區間下限vs上限分別為何? 95%信賴區間=平均值±1.96×標準誤- 10.39 vs 5.48
- 6.73 vs 5.48
- 10.39 vs 3.52
- 6.73 vs 3.52
|
(A) |
36 | 請問個案組與對照組二組心絞痛年平均值之差異應用何種統計方法檢定?- Student's t-test
- Paired t-test
- Chi-square test
- McNemar test
|
(C) |
37 | 如表,設定的顯著性水平(通常為0.05),請問下列敘述何者最不適當?
Logistic model prediction | Actual measurement | Mc Nemar | Correlation coefficient |
Fail | Pass | P value | Spearman | P value |
Fail | 39 (40.63) | 13 (13.54) | .84 | .477 | <.001 |
Pass | 12 (12.50) | 32 (33.33) | - | - | - |
-
McNemar test 未達統計顯著
- 推論預測與實測結果未達統計顯著差異
- 推論預測與實測關聯未達統計顯著關聯
- Spearman correlation coefficient 為0.477 (p < 0.001)達統計顯著
|
(D) |
38 | 承上題,請問下列敘述何者最不適當?- Chi-square test 用以檢定獨立樣本
- McNemar test 用以檢定相依樣本
- Spearman correlation用於評估兩個變數之間的相關性,特別是在變數之間存在非線性關係時
- 相關係數的取值範圍在-1到1之間,-1表無關,1表有關
|
(C) |
39 | 想針對臺灣四個地區(北、中、南、東)進行 BMI 之調查,是否不同區域之 BMI 之平均數會有差異,以下為 ANOVA 的分析結果,資料無遺失值。在顯著水準為 0.05 時,針對下表ANOVA的結果,選出正確選項?
說明:$Pr(F>F_{(p,3,4823)})$$=p,F_{(p,3,4823)}$為$(1-p)$th百分數
$ F_{0.05,2,4824} = 2.9976 $,
$ F_{0.05,3,4823} = 2.6068 $,
$ F_{0.05,4,4822} = 2.3738 $,
$ F_{0.05,5,4821} = 2.2160 $,
$ F_{0.05,4824,2} = 19.4955$,
$ F_{0.05,4823,3} = 8.5270$,
$ F_{0.05,4822,4} = 5.628824$,
$ F_{0.05,4821,5} = 4.3658$
變異 來源 | 平方和 | 自由度 | 平均平方和 | F值 |
處理 | 130.40 | (B) | (D) | (F) |
誤差 | (A) | (C) | (E) | |
總和 | 97996.89 | 4826 | | |
-
格子中(B)及(C)中,為描述ANOVA檢定之抽樣分配的自由度,其值分別為(B)=4822、(C)=4
- 從ANOVA表中,在資料無遺失的狀況下,可推得此研究的樣本數共有4826筆
- 依ANOVA的假設之一,每地區的BMI資料變異數都相同,故我們可以利用ANOVA表中的數值來估計母體的變異數,其母體變異數估計值約為20.30
- ANOVA檢定之抽樣分配為F分配,由此結果得知是拒絕虛無假設,在顯著水準為0.05時,有證據顯示此四地區之BMI平均數不全相等
|
(C) |
40 | 承上題,所採取的檢定方式,其虛無假設及對立假設為何?
- $H_0:\mu_北 =\mu_中 =\mu_南 =\mu_東 $ 全部相等 vs
$ H_1: \mu_北 \ne \mu_中 \ne \mu_南 \ne \mu_東 $ 全不相等
- $H_0:\mu_北 \ne \mu_中 \ne \mu_南 \ne \mu_東 $ 全不相等 vs
$ H_1: \mu_北 =\mu_中 =\mu_南 =\mu_東 $ 全部相等
- $H_0:\mu_北 =\mu_中 =\mu_南 =\mu_東 $ 全部相等 vs
$ H_1: \mu_北、\mu_中、\mu_南、\mu_東 $ 不全相等
- $H_0:\mu_北 、\mu_中 、\mu_南 、\mu_東 $ 不全相等 vs
$ H_1: \mu_北 =\mu_中 =\mu_南 =\mu_東 $ 全部相等
|