TITLE: 第四章:信度與效度 AUTHOR: QUENCY DATE: 02/10/2014 10:56:19 AM CATEGORY: 設計理論 STATUS: publish ---- BODY:
http://n91074.pixnet.net/blog/post/22021810
http://n91074.pixnet.net/blog/post/23444668
管倖生等編著,2006,設計研究方法,台北市:全華
一、信度(Reliability): 從英文來看,reliable就是可靠的,亦即一個測量工具(例如問卷或量表),每次施測都會產生相似的結果(結果靠得住),如果這個測量工具有很高的reliability,則施測後的結果比較能被我們信服,所以reliability強調「結果」本身,也就是「在一個測量中,觀察值(觀察研究者而產生的值)呈現不一致的情形或者對某一特定單位使用不同測量,施測結果呈現不一致之情形」,更簡明的解釋是指某一測量工具所包含「變項誤差」的程度 (誤差有可能是人為,可參考先前研究易犯的錯誤或前述受試者易犯的錯誤,也有可能是研究設計不佳而造成結果的不一致,稍後會再做解釋)。變項誤差越大,產生的結果越不可靠,測量越不具有reliability。
信度是指一個測工具其所包含"變數誤差"的程度。即指測量資料的可靠性,對某一持久性心理特質的"一致性"(consistency)或"穩定性"(stability)。
例如我們新設計一個憂鬱症的量表,把量表拿去給被醫生診斷為憂鬱症的病人測試,憂鬱症病人的量表分數(結果)應該要趨於一致,反之,則這個量表不具有reliability. 一般而言,reliability的功能有三:
(一)等質性(equivalence):即使用複本效度parallel reliability,若同一個測驗有兩種以上之複本可以交替使用,則對同一群受試者連續或距一段時間施以兩種複本,再根據得分計算相關係數,係數越高,parallel reliability越高。此法雖可避免再測法之缺點,但複本的設計需要具一致性,難度高,如語法使用、句型、題數、難易度等都要經過謹慎設計。
(二)穩定性(stability):即使用再測法test-retest reliability,在不同時間,使用同一測量對同一群樣本施測,若兩次分數之相關係數高,表示該工具有穩定性,但此法易受記憶與成長學習因素影響(即受試者會因為成長或記憶因素,在第二次施測時獲得較高的分數,使測量不具有reliability)。
(三)一致性(cosistency):即用折半信度、庫李信度、內在一致信度,與觀察者評分信度來測量一個工具(尤其是問卷)的內在一致性。
1. 折半信度(split-half reliability):當一種測量工具沒有複本,只能施行一次時,可採用此法,即隨機或採奇偶數折半,將受試者完成的試題分成兩半,比較兩組的相關係數,例如某測量憂鬱的量表共50題,我們想知道量表的reliability,在受試者坐完題目後,將題目隨機拆成兩半,檢視兩者得分的相關係數,係數高則reliability高.
2. 庫李信度KR-20/21: 根據受試者對一個測驗中,各項題目反應之一致性求出的信度,只適用於正反兩極之題型。如對錯的記分系統,每對一題得一分。(有個公式,不過我自己並沒有記)
3. 內在一致性信度(internal consistency reliability)又稱Cronbach’s α reliability: (It is used to judge the consistency of results across items on the same test.) 檢定一個量表,每個題目之一致性或關聯性。如果Cronbach’s α值很低(可用spss計算),則表示題目和題目之間的關連性很低,其測量出的結果自然也就無法一致性,量表就不具reliability。
4. 觀察者評分信度(inter-rater reliability): (Having two or more independent raters score the test,then compare the consistency of the raters’ estimates.) 通常針對非量化的資料,由兩位以上的評分者按記分要點記分,再將每份量表的兩個不同分數計算相關係數。
(四)影響reliability的因素: 要使一個工具的結果達到等質性,穩定性,和一致性,必須要設法控制會影響改變分數的因素:
1. 受測者:身心狀況、動機、注意力、持久性......
2. 施測者:評分主觀,主導話語不正確
3. 測驗內容:內容太長,語意不清,內部一致性低,使用語言有誤.
4. 測驗情境:測驗的環境,聲音、燈光、噪音、溫度等
5. 時間: 重複施測之時間相隔太長或太短,測試時間長短等.
我們學過研究法後,當有人拿問卷給我們填寫,我們看到問卷一定要想兩件事:這個問卷測量的結果可不可靠,可不可以相信(Reliability),以及問卷可不可以測到想測量的東西(Validity)。
在前我們提到信度Reliability就是在討論問卷做出來的結果可不可以相信,簡單的記法Reliability = Result。通常一個測量工具有很高的信度Reliability,不一定會有很高的效度Validity。例如我們拿體重計去測量身高,每次測量出來的結果都很一致,我們可以說體重計具有很高的Reliability,但是由於他沒法真的測出身高,所以Validity很低。
二、效度(Validity[væˋliditi])的英文是指法律的效力;在這裡是指一個測量工具是否能真正測量出所欲測量事物的特質或功能的程度;換句話說,效度的判別是把測量結果用來解釋測量主題的程度(是程度的多寡,並非全有或全無;就上例來說,用體重計測量身高,體重計的效度很低)。其中效度又可以在不同的範圍裡提到:測量工具本身的效度(如上例)、實驗設計上的效度(Internal/External Validity內外在效度,實驗設計章節會解釋)、分析推論上的效度(即樣本結果能推論到母群的程度)。
知道效度的功能後,接下來我們要怎麼知道某個測量工具是具有效度的呢?
1. 內容效度(Content Validity):指某測驗之題目內容是否周延、具代表性、適切性、並確實包含所欲測量主題的內涵;通常為了讓問卷具有內容效度,我們會盡量去詢問專家的意見或參考文獻。例如我們在設計憂鬱症量表,我們可以根據DSM-IV將憂鬱症所包含行為及心情等表徵納入問卷設計中;例如在設計「同性戀者對社會適應的程度」的問卷量表,由於現有文獻不是很充足,我們必須去諮詢專家的意見,使量表更周延、適切。
(1)抽樣效度(sampling Validity):量表所包含的項目(item)是否能代表母體構念的項目。內容效度的高低程度,端賴項目取樣代表性的大小而定。
(2)表面效度(Face Validity):指測量工具經由受測者或研究者主觀覺得與研究主題相關(也就是一看到測量工具,就知道研究者想測量什麼,所以是最沒有效力的一種)。是指量表項目和形式上,給人的主觀印象。例如我們設計一份「案主對機構服務的滿意度」問卷,案主或你的同事一看到問卷內容就知道大概是在做滿意度調查。
3. 建構效度(Construct Validity):最複雜、也最簡單的一種測量效度的方法。其實就是指某測驗能測量某個理論的概念的程度(考試常考)。如果這個測量工具與某些概念的相關聯性很高,我們稱為收歛效度(Convergent Validity);反之,測量工具與另一些概念沒有相關性則稱為區別效度(Discriminant Validity)。通常實務工作者不太會用到這個方法,只有那種要測量理論概念的學者比較會用的到。例如我們想要設計一份關於「自尊」的問卷以了解這個概念,由於我們知道自尊跟「自信」的概念很相似(正相關;即自尊越高,自信越高),跟「自卑」的概念剛好相反(負相關;即自尊越多,自卑越少),我們透過文獻找出測量兩者的量表,讓同一群受試者填寫,若你設計的自尊量表與自信量表測出的結果有高度正相關,與自卑量表呈現負相關,我們說你的量表具有建構效度中的Convergent Validity。
常用的"統計檢定"有三種方法:(1)相關分析;(2)"因素分析"求量表各項目的因素結構矩陣,再由結構矩陣所表列的因素負荷量大小來判定建構效度的好壞;(3)"多特質多方法"(multi-traits muiti-methods, MTMM)不同的方法測同一特質,相關度要高。
*相關程度與相關係數r會在統計裡提到,考試不會考計算,只要知道概念就好,所以不用太擔心。
4. 效標關聯效度(Criterion-related Validity):即測驗分數與效標之間的相關係數(白話文就是在測量某個主題時,拿我們設計的問卷A跟別人設計的問卷B同時或在不同時間給受試者填寫,把兩次的結果A1和B1拿來做相關係數的比較;聽起來跟建構效度很像,不同的是建構效度是在測量理論的概念,效標關聯效度在測量其他具體的東西。效標:測量工具所欲測量之特質的獨立量數;即檢定測量工具效度的標準;也就是用問卷B去測我們要測的主題,產生的結果B1。)
效標關聯效度可以依照效標取得的時間分成下列幾種:
(1) 同時效度(Concurrent Validity): 指效標分數與測驗分數同時取得,因此可以估計測驗分數在效標方面的實際表現。例如社工在執行課輔活動時可以設計一個英文成就測驗A,讓學生在段考前一天施測,之後再將測驗的成績A1與學生在學校的英文段考分數B1(英文段考考卷是B)作比較,如果成就測驗的成績A1與學校段考成績B1呈現高度相關,那我們可以說你的成就測驗具有同時效度(表示學生的英文成就測驗分數越高,其段考成績也會越高;雖然聽起來成就測驗A有預測的效果,但因為兩者的分數幾乎是同時取得,所以稱為同時效度)。
(2) 預測效度(Predictive Validity):指測驗分數與將來效標資料之相關程度;若相關係數高,則測驗工具的預測效度越高。例如高中時,輔導室曾讓我們填寫就業性向測驗,此一測驗即可用預測效度來檢驗其效度;在這邊,效標就是我們未來的職業,研究者可以在數年後做電話追蹤,了解受試者在數年後的職業發展,如果結果跟當初的測驗成績有很高的相關,則這份測量工具有很高的預測效度。此外,我們也可以拿第一次段考成績跟第二次段考成績來做預測效度的檢驗(因兩者不是同時取得)。
(3) 區分效度Differential Validity:拿兩種不同的測驗工具當做效標,分別與我們設計的工具的測驗結果求算相關係數,兩者的差即為區分效度。如上例,我們拿兩種不性質的就業性向問卷作為校標,分別計算與我們的測驗分數的相關係數,兩者的差可以表示擇業的成功性。
影響效度的因素:
(1) 測驗內容:內容效度不佳,測量工具不具適切性、廣泛性、問句用語太艱澀、試題太多…
(2) 測量情境:是否具有標準化
(3) 受試者 (同Reliability),此外受試者之樣本抽取是否符合研究目的
(4) 效標的使用不客觀、不可靠、不易取得、或無法適切反應測量之目的。
* 切記:Reliability & Validity 不是全有或全無,是程度的差別而已;通常Validity是一個測量工具的首要條件,Reliability則是補充,因為若一個問卷沒法測出我們想要測量的東西,就算測量出的結果再穩定一致,也沒啥用。可以想像我們在射箭(箭代表很多受試者接受測量),我們希望箭都落在箭靶上(即測量出我們想要研究的東西),如果這些箭全落在紅心(即受試的結果一致、也測出我們想要測量的),表示高效度與高信度;箭平均分布在箭靶上(即結果很分散、落在紅心的箭也不多並沒測出我們預測的主題),表示低信度與低效度;如果箭全部集中在外圈的某部份(即結果蠻一致的,但因為落在外圈並沒有測量出我們想要的主題),表示高信度與低效度。
1.有效度一定有信度;
2.但有信度不一定有效度;
3.無信度一定無度。
參考2007年10月保成出版 研究法 王淑芬著
----- --------
