110專技高考公衛師

生物統計學


申論題

擬答
$X$:不合格藥品數
$X~Bin(n=24,p=0.04)$
合格的機率為
$P(X≤1)$
=$P(X=0)$+$P(X=1)$
=$C^{24}_0 0.04^0 .0.96^{24} + C^{24}_1 0.04^1 .0.96^{23} $
=0.7508

在此考慮近似卜瓦松分配求解
$X~Bin(n=24,p=0.04)$ → $Poi(\lambda = 24 \times 0.04 = 0.96)$
$f(x)=\dfrac{0.96^x・e^{-0.96}}{x!}$ , $x=0,1,2,...∞ $

合格的機率為
$P(X≤1)$
=$P(X=0)$+$P(X=1)$
$=\dfrac{0.96^0・e^{-0.96}}{0!}$ + $\dfrac{0.96^1・e^{-0.96}}{1!}$
= $1.96 \times 0.3829 $
= $0.7505$
擬答
  1. 考慮迴歸模式
    ln(p/q)= -2.0591 + $0.5211X_1$

    經常飲用含糖飲料
    $X_1 = 1$ :
    $ln(p_1/q_1)$ =-2.0591 + 0.5211 × 1

    無經常飲用含糖飲料
    $X_1 = 0$ :
    $ln(p_0/q_0)$ =-2.0591 + 0.5211 × 0

    所以 $ln \left( \dfrac{p_1 / q_1}{p_0 / q_0} \right) $= ln(OR)=0.5211

    粗勝算比 OR = $e^{0.5211}$ = 1.6839
  2. 從干擾因子條件來說,年齡是外在因子,且年齡是罹患第二型糖尿病的危險因子,且與年齡與經常飲用市售含糖飲料有關(合理猜想為負相關),所以年齡為干擾因子;就多變量統計分析結果來說,邏輯式迴歸模式是否控制了年齡,迴歸係數估計值有所不同:
    ln(p/q)= -2.0591 + $0.5211X_1$

    ln(p/q)= -2.0591 + $1.3364X_1$ + $0.1418X_2$

    可知透過模式控制後的勝算比產生了離零偏差,為負干擾。綜合上述,年齡是經常飲用市售含糖飲料與第二型糖尿病的干擾因子。
  3. 考慮多變量邏輯斯迴歸模式
    ln(p/q)= -9.2834 + $1.1883X_1$ + $0.1521X_2$ + $1.1246X_3$ + $2.1371X_4$

    經常飲用含糖飲料:$X_1$=1,
    $ln(p_1/q_1)$= -9.2834 + $1.1883\times 1$ + $0.1521X_2$ + $1.1246X_3$ + $2.1371X_4$

    無經常飲用含糖飲料:$X_1=0$,
    $ln(p_1/q_1)$= -9.2834 + $1.1883\times 0$ + $0.1521X_2$ + $1.1246X_3$ + $2.1371X_4$

    所以 $ln \left( \dfrac{p_1 / q_1}{p_0 / q_0} \right) = ln(OR)=1.1883 $

    調整後勝算比 $OR=e^{1.1883}=3.2815$

    其95%信賴區間為 $e ^ {1.1883 \pm 1.96\times 0.5784}$
    $\Rightarrow \left \lbrack e^{0.054636},e^{2.32164} \right \rbrack $

    $\Rightarrow \left \lbrack 1.0562,10.1957 \right \rbrack$
擬答
將資料整理如下
月份一月二月三月四月五月六月
觀察值$O_i$13271420
期望值$E_i$121212121212
七月八月九月十月十一月十二月總計
373316623144
121212121212144
$H_0$ :溺水死亡事件沒有月份聚集現象
$H_1$ :溺水死亡事件有月份聚集現象
α= 0.05

檢定統計量 $X^{2^*}$
=$\sum \dfrac {(O_i - E_i)^2}{E_i}$

=$\dfrac {(1-12)^2}{12}+...+ \dfrac {(3-12)^2}{12} $

= 141.17

自由度 $df = 12 - 1 = 11$

因為 $P(X^2 > 19.68,df = 11) = 0.05$
所以 $p-value = P(X^2(11)> 141.17)< 0.05$
臨界值為 $X^2_{0.05}(11)$ = 19.68
拒絕$H_0$ ,有顯著證據說溺水死亡事件有月份聚集現象

選擇題

(B) 1若有一種新型篩檢工具可以在1 天內即測出是否有D 病,該工具敏感度(sensitivity)為85%,特異度(specificity)為95%。張先生使用此工具篩檢得知結果為陽性,則張先生實際確診為D 病的機率為何?
  1. 0.3%
  2. 1.7%
  3. 85%
  4. 99%
(C) 2新冠肺炎從2020 年開始肆虐至今,已經至少出現7 種變異病毒,愈多人沒打疫苗,病毒變異的機會愈大。某一機構之員工30%為外勤人員,70%為內勤人員。已知60%的外勤人員和40%的內勤人員皆已打疫苗,若隨機抽取一沒打疫苗者,請問其為內勤人員之機率為何?
  1. 1/2
  2. 3/5
  3. 7/9
  4. 7/10
(D) 3下列有關描述性統計的敘述,何者正確?
  1. 臺灣受僱勞工的平均月收入是一個左偏(left skewed)的分布,因為有一些高收入所得者
  2. 左偏(left skewed)的分布,中位數(median)通常會比平均數(mean)來得小
  3. 中位數比平均數較容易受到極端值(outlier)影響
  4. 莖葉圖(stem and leaf plot)可以用來描述資料的分布情況
(C) 4卡方分布(chi-square distribution)的平均值與下列那一個數值相等?
  1. 變異數
  2. 中位數
  3. 自由度
  4. 眾數
(B) 5為了解市面上販賣的飲料中某物質X 的平均值,隨機抽取40 杯飲料的樣本,這40 杯飲料X的平均值為10。假設X 在母群體及此樣本的標準差剛好皆為4。下列敘述何者錯誤?
  1. 標準誤為0.632
  2. 標準誤為量化X 分散程度的敘述性統計指標
  3. X 的平均值近似常態分布
  4. 如果只抽取20 杯,X 的平均值分布未知
(D) 6一群過重的成年人被隨機分派成兩組,一組進入減重計畫,一組作為對照組,半年之後用t 檢定評估兩組受試者體重改變的差異,參加減重計畫的受試者體重平均減少5 公斤,對照組平均減少1 公斤,二組體重改變平均值差異的95%信賴區間是1 公斤到7 公斤。下列敘述何者正確?
  1. 雖然兩組體重減少的差異未達到統計顯著,但仍應拒絕虛無假設
  2. t 檢定的P 值大於0.05,所以不能拒絕虛無假設
  3. 因為是前後測量,所以應該用成對樣本的t 檢定
  4. 從二組體重改變平均值差異的95%信賴區間,可以拒絕虛無假設
(C) 7下列關於樣本數與統計檢定力(statistical power)的敘述,何者錯誤?
  1. 統計檢定力受到型一錯誤(type-I error)和型二錯誤(type-II error)大小的影響
  2. 如果希望統計檢定力提高,在其他條件不變的情況下,所需樣本數就應隨著提高
  3. 如果樣本數太小,容易犯下型一錯誤
  4. 減少測量誤差,可以讓統計檢定力增加
(C) 8為了估計臺灣30 歲至60 歲男性的平均血壓的收縮壓,研究者挑選一家健身俱樂部50 位30歲至60 歲的男性會員測量其血壓。根據中央極限定理,下列敘述何者正確?
  1. 會參加健身俱樂部的人可能比較健康,收縮壓平均數可以代表母群體平均數
  2. 由這個樣本所估計的平均數,其準確度(accuracy)會受到母群體平均數的影響
  3. 由這個樣本所估計的平均數,其準確度(accuracy)會受到母群體變異數的影響
  4. 由這個樣本所估計的平均數,其準確度(accuracy)會受到母群體總人數的影響
(D) 9關於平均數之信賴區間的敘述,下列何者正確?
  1. 母群體的平均數會落在95%信賴區間的機率是0.95
  2. 95%信賴區間會比99%信賴區間來得更寬
  3. 從隨機樣本計算平均數的95%信賴區間,當樣本數增加,95%信賴區間也會隨著變寬
  4. 如果從母群體隨機抽樣相同的大小樣本100 次,從這些樣本所計算的95%信賴區間,大約會有95 個包含母群體的平均數
(B) 10根據調查,肺癌患者治療後復發的機率為15%。現有一醫生想了解這樣的機率是否正確,該醫生希望95%的信賴水準下,估計誤差不超過1%,最少應該收集多少樣本才足夠?
  1. 1520
  2. 4899
  3. 9604
  4. 32654
(D) 11在一臨床醫學研究中,有N 位病況相當之病人被隨機安排在K 種治療方式,若欲了解是否至少有一治療方式,治療後其病人之平均病情分數與其他治療方式有統計上顯著差異,研究者得到下列變異數分析表:
變異來源平方和自由度平均平方和F值
治療方式10902(丙)(戊)
誤差(甲)(乙)(丁) 
總和147723 
請問根據上表,(戊)大約為何?
  1. 5
  2. 15
  3. 25
  4. 30
(D) 12當抽樣的樣本數增加時,樣本平均值的標準誤(standard error)會發生何種變化?
  1. 變成零
  2. 不變
  3. 變大
  4. 變小
(A) 13某調查想了解民眾對某政策是否贊同,100 位受訪者中,有55 位回答「贊同」,45 位回答「不贊同」,同意比例的點估計為55%。有關估算同意比例的95%信賴區間(95% Confidence interval; 95%CI)的方法,下列敘述何者錯誤?
  1. 計算95%CI 會用到Z 分布的第95%百分位數(the 95th percentile)
  2. 同意比例的標準誤約為0.05
  3. 若同意比例的點估計仍為55%,但總樣本數改為80 位,95%CI 會變寬
  4. 同樣的樣本若估算99%CI 會比95%CI 寬
(D) 14某抽樣調查甲地區高中生嘗試吸菸狀況,調查結果樣本中30%曾吸菸,估計嘗試吸菸率的95%信賴區間(下界,上界)得(27%, 33%)。已知全國高中吸菸率為25%,試檢定甲地區高中生嘗試吸菸率是否與全國高中生有顯著差異(顯著水準設0.05)。下列敘述何者正確?
  1. p value > 0.5
  2. 0.25 < p value < 0.5
  3. 0.05< p value < 0.25
  4. p value<0.05
(A) 15承上題,若顯著水準(significance level)設定為0.05,下列敘述何者正確?
  1. 甲地區高中生嘗試吸菸率與全國高中生有差異,具統計上顯著意義
  2. 甲地區高中生嘗試吸菸率與全國高中生沒有差異,具統計上顯著意義
  3. 甲地區高中生嘗試吸菸率與全國高中生有差異,沒有統計上顯著意義
  4. 甲地區高中生嘗試吸菸率與全國高中生沒有差異,沒有統計上顯著意義
(B) 16某機構針對甲乙兩個部門進行服務滿意度調查,收集甲乙各100 位民眾(總共200 位民眾)分別對服務人員勾選的滿意度程度,非常不滿意勾1、不滿意勾2、普通勾3、滿意勾4、非常滿意勾5。若要檢定甲乙兩部門滿意程度中位數是否有統計上顯著差異,下列何種方法最適當?
  1. Spearman correlation coefficient
  2. Wilcoxon rank sum test
  3. McNemar chi-square test
  4. Sign test
(A) 17進行全國性大規模健康行為與狀況調查時,完成隨機抽樣後,若要檢定樣本與全國母體在年齡及性別上的分布是否一致時,下列統計方法何者最適當?
  1. Chi-square goodness-of-fit test
  2. Logistic regression
  3. McNemar test
  4. Linear regression
(C) 18下列為10 對雙胞胎成年後身體質量指數(BMI)數據:
配對號12345678910
雙胞胎A20233022192829302533
雙胞胎B21212824253121332834
若要量化雙胞胎BMI 的相關程度,下列何種方法最適當?
  1. 勝算比(Odds Ratio)
  2. 變異係數(Coefficient of variation)
  3. 斯皮爾曼(Spearman)等級相關係數
  4. Kappa 係數
(A) 19下表為A、B 兩個地區發生疾病D 的分布:
疾病D
  
A地區819922000
B地區169841000
若要估算及檢定地區與疾病D 的關聯,下列那一種統計方法最不適當?
  1. Two-sample t test
  2. Fisher exact test
  3. Pearson's chi-square test
  4. Logistic regression
(D) 20某社區健康服務中心辦理健康促進活動,100 位民眾報名參加,其中一項活動為調查參加者對愛滋病的傳染途徑是否了解。每個人在活動開始及結束各回答同一個問題一次,1 表示答對,0 表示答錯,以下為民眾的資料示意表(僅列出前10 位)。若要檢定參加前後民眾對愛滋病傳染途徑了解是否有顯著差異,下列那一個統計方法最適當?
ID12345678910
1110000001
0110101110
  1. Paired t test
  2. Two-sample t test
  3. Linear regression
  4. McNemar chi-square test
(C) 21以下是一個統計車禍發生時,機車騎士是否有戴安全帽和是否發生頭部外傷之間關係的二乘二列聯表:
 沒有戴
安全帽
有戴
安全帽
總人數
沒有
頭部外傷
107080

頭部外傷
204060
總人數30110140
下列敘述何者正確?
  1. 如果使用卡方檢定(Chi-squared test)檢查戴安全帽和頭部外傷關係,則卡方檢定的自由度為4
  2. 如果戴安全帽與發生頭部外傷是兩獨立事件,沒有戴安全帽也沒有發生頭部外傷的預期人數為16.1 人
  3. 如果戴安全帽與發生頭部外傷是兩獨立事件,有戴安全帽仍發生頭部外傷的預期人數為47.1 人
  4. 卡方分布是間斷分布(discrete distribution),可以用來檢定列聯表中兩類別變數的關係
(B) 22下列關於單因子變異數分析(one-way analysis of variance)的敘述,何者錯誤?
  1. 單因子變異數分析用來比較三組的母群體平均數μ1,μ2和μ3是否相等時,虛無假設是μ1=μ2=μ3
  2. 對立假設為母群體平均數不相等,亦即μ1 ≠ μ2且μ1 ≠ μ3且μ2 ≠ μ3
  3. 變異數分析的假設,其中之一為母群體變異數相等
  4. 如果用變異數分析比較兩組平均數相等時,其結果會等於兩獨立樣本t 檢定的結果
(C) 23下列關於兩獨立樣本t 檢定(two-sample independent t test)的敘述,何者正確?
  1. 兩組獨立樣本的大小必須相同
  2. 可以用來檢定左右眼近視度數的差別
  3. 兩組獨立樣本的變異數大小必須接近
  4. 兩組樣本的平均值必須要相近
(B) 24臨床心理師將18 位病情相當的輕度失智症患者完全隨機分派到下表三種治療方式,每一種治療方式有6 人,持續進行3 個月的治療,之後接受憂鬱量表的測量。治療後的憂鬱量表測量分數描述統計量如下,分數越高表示憂鬱傾向越高。臨床心理師執行變異數分析,請問此變異數分析表中之組間變異平方和(Sum of Squares Between Groups)大約為何?
 個數平均數標準差標準誤
有氧運動68.001.414.577
音樂療法612.003.3471.366
認知療法625.002.8281.155
總和1815.007.8741.856
  1. 1422
  2. 948
  3. 474
  4. 106
(C) 25下列何者不是無母數方法?
  1. Kruskal-Wallis test
  2. Mann-Whitney U test
  3. Paired t test
  4. Sign test
(B) 26下列關於解釋變數之間的共線性(collinearity)何者錯誤?
  1. 共線性是指解釋變數之間的相關係數很高
  2. 共線性只有當解釋變數的數目超過10 個的時候才是個問題
  3. 當一個解釋變數的迴歸係數方向改變,例如從正向變成負向關係,代表共線性可能是個問題
  4. 當模型的判定係數(coefficient of determination)很大,但是模型裡面的解釋變數都不顯著,代表共線性可能是個問題
(A) 27189 位足部雞眼(foot corns)的患者,94 位接受手術治療,另外95 位接受非手術性治療。下列是進行邏輯式迴歸分析治療成功與否(成功設為1, 失敗設為0)的結果:
    勝算比信賴區間
變項迴歸係數標準誤勝算比下界上界
治療組別
(非手術=0,
手術=1)
0.2780.4851.320.513.414
性別
(男性=0,
女性=1)
-0.6970.5090.4980.1841.352
截距-0.9340.356  
下列敘述何者正確?
  1. 治療組別的迴歸係數虛無假設勝算比為1
  2. 不管使用那種方式治療,男性和女性治療成功機會的差異達到統計上顯著
  3. 治療組別之間治療成功機會的差異達到統計上顯著
  4. 在調整性別之後,手術治療的成功機率(probability)是非手術治療的1.32 倍,但是沒有達到統計上的顯著
(D) 28下列關於迴歸分析變數選擇的敘述,何者正確?
  1. 使用逐步迴歸(stepwise regression)總是能夠得到最正確的模型
  2. 統計不顯著的解釋變數,必須要從模型裡移除掉,否則會影響其他變數的解釋
  3. 當解釋變數很多的時候,可以完全交給逐步迴歸來決定那些變數應該納入模型中
  4. 當解釋變數很多的時候,經由逐步迴歸所挑選出來的變數,其P 值可能比實際上小
(A) 29隨機抽樣兒童醫院654 位18 歲以下兒童和青少年,測量他們的身高(單位:公分)及每分鐘最大通氣量(單位:公升)。以最大通氣量為依變項,身高作為解釋變項,進行簡單線性迴歸分析。結果發現,身高的迴歸係數為0.05 公升/公分,標準誤為0.001,判定係數為0.75。下圖為模型的殘差圖(residual plot),橫座標是身高,縱座標是殘差。
下列敘述何者錯誤?
  1. 身高和最大通氣量的相關係數為0.375
  2. 殘差圖顯示變異數同質性(homoscedasticity)的假設不成立
  3. 身高的迴歸係數達到統計顯著
  4. 殘差圖顯示身高和最大通氣量之間可能存在非線性的關係
(D) 30針對189 名出生嬰兒的體重(單位:公克),和嬰兒母親的變項,包括母親年齡(單位:年)、母親懷孕前體重(單位:公斤)和母親是否有高血壓(有高血壓設為1,沒有設為0)進行複迴歸分析,得到以下結果:
出生體重=2240.29+6.33×母親年齡+11.77×母親懷孕前體重-591.12×高血壓下列敘述何者正確?
  1. 母親體重的迴歸係數比母親年齡的迴歸係數大,表示母親體重是比較重要的一個解釋變數
  2. 有高血壓的母親生下的嬰兒,平均而言,比沒有高血壓的母親生下的嬰兒重
  3. 一位30 歲沒有高血壓的母親,懷孕前體重為58 公斤,根據上述方程式,她生下來的嬰兒體重大約是2421.6 公克
  4. 迴歸係數的抽樣分布,服從標準t 分布
(A) 31在北北基隨機抽樣N 位中學九年級生,資料顯示每日運動時間及閱讀能力皆為常態分布,而且運動時間較多的學生,其閱讀能力較高;若使用普通最小平方法:以每日運動時間(分鐘)來預測閱讀能力(分數),得到下表,請問線性迴歸係數(又稱斜率)大約為何?
敘述統計
 最小值最大值平均數標準差
運動時間10844223
閱讀能力261247932
變異數分析表
模式平方和df平均平方和F顯著性
迴歸8714(甲)(丙)(戊)<0.001
殘差2995999(丁)  
總數11710(乙)  
  1. 1.2
  2. 9.6
  3. 15.5
  4. 21.1
(D) 32下圖為根據三組不同資料的(X,Y)散布圖及應用普通最小平方法之線性迴歸線,依此三組資料所得的決定係數(Coefficient of Determination)大小順序為何?
  1. 甲>乙>丙
  2. 丙>乙>甲
  3. 丙>甲>乙
  4. 乙>丙>甲
(D) 33在線性迴歸模式中,所謂普通最小平方法意即最小化何值?
  1. 預測值
  2. 殘差值
  3. 殘差值之平方
  4. 殘差值之平方總和
(A) 34某調查比較兩個地區某心血管風險指標分數(連續變項)的平均值是否不同,但兩個地區的年齡及性別組成不同,需要估算校正年齡及性別後之兩組平均值的差,下列那一個方法最適當?
  1. Multiple linear regression
  2. Multiple logistic regression
  3. Two-sample t test
  4. McNemar chi-square test
(C) 35某研究想探討社區長者身體活動情況(Group)與某心血管類疾病(D 病)的關係。令D 為二分類變項,D=1 表示有D 病,D=0 表示無D 病;Group=1 表示有規律運動習慣,Group=0表示無運動習慣。以下為依變項為D 的迴歸模式分析結果,B 代表迴歸係數,OR 代表勝算比(Odds Ratio),95%CI OR 代表勝算比的95%信賴區間。
 BOR95%CI ORP value
截距1.39  <0.001*
Group-0.730.48(0.26,0.89)
上表最可能使用那一個統計方法?
  1. 斯皮爾曼(Spearman)相關係數
  2. 皮爾森(Pearson)相關係數
  3. 邏輯式迴歸模式(Logistic regression)
  4. 線性迴歸模式(Linear regression)
(A) 3661 位晚期大腸直腸癌病人,34 位接受合併化學治療,27 位接受單一化學治療,利用Cox 風險比例模型,針對死亡風險分析得到以下結果:
 風險比
(Hazard Ratio)
標準誤95%
信賴區間
下界
95%
信賴
區間上界
治療方式
(合併治療設為1,
單一治療設為0)
0.400.160.190.87
性別
(男性設為1,
女性設為0)
1.080.420.502.31
年齡1.000.020.971.04
根據上方表格,下列敘述何者正確?
  1. 女性接受治療之後死亡的風險比男性小,但沒有達到統計上顯著
  2. 病人接受合併治療比接受單一治療的死亡風險較小,但沒有達到統計上顯著
  3. 病人的年齡對於治療之後死亡的風險有統計上顯著的影響
  4. 分析結果可顯示男性接受合併治療死亡的風險,比女性接受合併治療死亡的風險來得低
(B) 37某研究調查大學生身體活動(PA)與BMI 的關係。以下為線性迴歸模式的係數估計,BMI 為依變項(dependent variable),PA 為自變項(independent variable)。其中PA 為身體活動的類別,1 代表經常身體活動("活動組"),0 代表很少身體活動("少動組")。
VariableDFCoefficientsStandard>
error
t valueP value
Intercept122.91.023.8<0.001
PA1-0.31.1-0.30.81
有關分析結果之判讀,下列敘述何者正確?(顯著水準=0.05)
  1. 活動組平均BMI 為22.9
  2. 活動組BMI 樣本平均值比少動組BMI 樣本平均值略低
  3. 根據統計檢定,活動組與少動組BMI 的平均值有統計上顯著差異
  4. BMI 有81%的變異可被PA 所解釋
(A) 3842 位急性白血病的病人隨機分派接受標靶治療或化學治療,觀察事件是病人死亡,下圖是Kaplan-Meier 存活分析圖:
在本研究中,沒有病人中途退出,所有病人不是在觀察過程中死亡,就是在研究結束時仍存活。根據上圖,下列敘述何者正確?
  1. 接受標靶治療的病人,Kaplan-Meier 存活分析所估計的中位數存活時間比實際觀察的中位數存活時間來得長
  2. 接受標靶治療的病人,所有病人在研究結束前都死亡
  3. 接受化學治療的病人,第一例死亡發生在6 個月的時候
  4. 接受化學治療的病人,最長活了30 個月
(B) 39下圖為總共50 位病人的存活曲線,虛線為男性,實線為女性,跨在每條線上的小細直線標示為設限(censor)。有關存活曲線,下列敘述何者正確?
  1. 若病人在2000 天時設限,表示此病人在第2000 天時死亡
  2. 女性存活時間的中位數約落在1000 天到1700 天之間
  3. 女性存活時間的中位數比男性長
  4. 男性組無法估算存活時間的中位數
(D) 40病人的Kaplan-Meier 存活分析圖形裡,存活函數是一個遞減的階梯函數(step function)。如果觀察的事件是病人的死亡,關於階梯函數每往下一個階梯代表的意義,下列敘述何者正確?
  1. 至少有一個病人失去追蹤
  2. 至少有一個病人主動退出試驗
  3. 至少有一個病人失去追蹤或死亡
  4. 至少有一個病人死亡

※本站所有內容皆為志光教育科技集團版權所有,未經同意請勿任意複製、轉載、發行或刊他處。


TOP