欧美极品第一页,一区二区三区四区高清视频,久草成色在线,在线观看网站免费入口在线观看国内

推廣 熱搜: ISO9001  音樂版權  知識產權貫標  CMMI  ISO20000  科技服務  質量管理體系  知識產權  測試標準  電池 

ISO9000認證中調查處理缺失值方法

   日期:2025-05-09 03:03:15     來源:ISO9001認證     作者:中企檢測認證網     瀏覽:911    評論:0
核心提示:ISO9000認證中調查處理缺失值方法關于推算的說明美國最近完成了其第23屆聯邦人口普查。第一次人口普查的實

ISO9000認證中調查處理缺失值方法

關于推算的說明

美國最近完成了其第23屆聯邦人口普查。第一次人口普查的實施是在1790年依據憲法授權在Thomas Jefferson執政時期進行的。直到1950年,人口普查采用親自登記或打電話的方式,所以缺失值的風險降被降低到最小。

自從人口普查采用郵件的形式,無回復的比率以及無回答問題的數量開始增加。這個問題不僅出現在郵件回復人口普查上,并且影響到大多數的調查—尤其是大規模、大范圍的調查的形式—無論什么形式的調查。

比如,在美國,一個企業家的大規模年度例行統計,其中的專家和調查組織者,就遇到了兩個影響調查質量的無回答問題:

1.

總體拒訪率和對特定問題的無回答率在隨機電話調查中持續上升。在2008年的調查中,為了得到4000份回答,需要多進行25,000多個的訪問。

2.

電話隨機抽樣調查,針對僅使用手機的用戶在美國是不被法律允許的。因此聯系到個人電話的使用者產生了人口統計上的偏差。同時,向對于美國的年齡分布,18-35歲年齡組的回答者不足,導致我們需要對該年齡組進行超密度采樣。

令人欣慰的是,技術可以填補調查中缺失值所導致的偏差。在處理缺失值或總體調查的無回答時,我們可以使用權重來為特定的總體產生代表性的樣本。為了填補某些特定的缺失值問題,還有一些更加復雜的推算方法—這些方法更加錯綜復雜,而且這類技術也可能會暗含影響統計分析的信息。

缺失值的類型

在調查中空缺值可以按照空缺信息的隨機程度來分類。最簡單并且是最強有力的假設就是數據資料的缺失是“完全隨機的”。這意味著調查者沒有其他的信息可以輔助填補缺失值。從統計上來講,在被統計者完成的數據當中沒有足夠的信息去用條件概率來改善該缺失值。

在這種情況下,可以使用其他被調查者的回答的隨機值來填補空缺。這種假設有些差強人意,還有一個更好的方法,利用其他的受調查者的回答來推算。

另一個強有力的假設是“資料隨機空缺”。這個假設要求變量可以在一定條件下幫助填補缺失值并且提供一個值域來建立一個關于缺失值的更優的模型。

例如,考慮以受調查者的教育水平來推算年齡缺失值:20-23歲常等同于大學畢業生,17-20歲通常是高中畢業生。基于最高學力,使用上述數值范圍來填補年齡的缺失值。

一種非常可能的情況是“非隨機空缺”的推算。在知道其他受調查者的回答時,調查者可以以較高的正確概率來推算缺失值,比如基于受調查者的郵政代碼推算其區域代碼。

任何推算程序,分析偏差都應該最小化,同時最大化對可用信息的使用,并且對變異性和誤差做合理的估計。

非統計性推算

以下的技術用其他被調查者的數據或者合理的猜測來填補空缺資料:

刪除受調查者或成對刪除:這些是處理缺失值最簡單的方式。但是它們會同時刪除有用的數據,導致結果的偏差。

在分析過程中,可以選擇刪除該case,刪除該變量,或者成對刪除—所有的變量數據被納入統計推斷,并納入統計概要,但是這可能造成不同分析之間的樣本大小有差異。對于成對刪除(不刪除全部回答),如果部分回答的受調查者與那些完全回答的受調查者有顯著的不同,可能會導致偏差。

Hot-deck程序:這項技術應用其他受訪者的真實回答作為處理某一特定受訪者缺失值的基礎。最簡單的方法是采用一個隨機答案作為缺失值的替代。更好的辦法是使用一個hot-deck程序—在具備該受訪者的特征的回答群體中尋找缺失值的替代。

比如,如果性別,種族和教育年限的信息都具備卻惟獨少了年齡,那么一個與之具有同樣性別,種族和上學時間的隨機受調查者就會從其他的受調查者中被選擇出來,該受調查者的年紀就會被填補入空缺的資料數據中。

分層的程序使得匹配的變量可以排序,在推算年齡的過程中,性別和教育年限在計算年紀時比種族要更加重要。即便種族不同,但是其他重要的變量匹配精準,就可以用來的填補缺失值。

美國人口普查局已經應用此項技術來推斷缺失值。此外,John Stiller和Donald R. Dalzell公布了一個用于在SAS軟件中執行此項技術的宏。

另一個相關的推算技術cold-deck程序,與之相似,但運用的是統計概要。我們將在本專欄稍后討論。

內插法和外插法:這項技術通過代數內插,或者當假設數據在某一固定的形狀或分布的函數,用公式來推算缺失值。

推演計算:這可以是一個定性的或定量的技術。定性地,用于小調查,研究者可以去讀出受調查者的結果,且有較高的置信度來推算缺失值。

例如,給出一個調查者地址,研究者可能根據調查者對某一地區的認知推算其種族或住宅所有權。這種方法消耗時間,且非概率性的,因此不能從統計上證明是合理的。

統計計算

下面的技術用于減小偏差、變異或都兩者皆有:

平均值替代或冷-甲板程序:非常簡單合理的推算方法。簡單的平均值替代法,可以通過改變量的總體平均值,為任意變量填補任何缺失值。復雜平均值替代法,通過與該缺失值相關的條件變量的平均值,來填補缺失值。與hot-deck技術相似。

例如對于缺失年齡值,總體平均年齡可以作為簡單的平均值來替換。復雜替換則使用所有高中學歷亞洲女性的平均年齡,替代該人口學分組的缺失值。在很多情況下,隨機性的水平是通過根據年齡分布添加的隨機數值完成的。

此項技術的問題是,在計算自由度或者標準誤差時,推算數據會被包括在有效回答中,但事實上,它們是統計估計。

通過增加自由度或減少標準誤差,該技術的結果就更可能導致統計學顯著。許多統計軟件允許缺失值的簡單的平均值替換。某些允許從重要的條件變量中得來的子群平均值替換。

回歸和隨機回歸技術:通過實施線性(或理論上地,非線性)模型來預測缺失值。這些方法,是以所有非缺失數據建立一個模型,來預測缺失值。

這項技術中一個非常吸引人的成果是回歸的方法不僅會得出預期值,還會有這個值的置信區間。調查者便可以用平均值和極值帶入缺失值來檢查對分析的影響。

這也是一個向對于確定與缺失值變量相關的重要變量,以及計算相關平均值的方法來說更加簡單的辦法。前者的信息可能來自于一個極端的小群組。與平均值替代法相似,但這個方法會增加分析的自由度,以及任何由此產生的統計性測試會更加顯著。

決策樹:這種方式,是數據挖掘方面的有監督的機器學習技術,基于類別數據(或者可以歸為類別數據)的概率計算。他們是統計的但依靠機器學習算法來代替研究者創造的模型。

然而那可能是一個統計學的技術,這個方法設計的是為了適用于那些統計測試不太合適的大數據集合。顯然,如果應用統計方法,它將會像前面提到的一樣,增加統計學的顯著性。

中企檢測認證網提供iso體系認證機構查詢,檢驗檢測、認證認可、資質資格、計量校準、知識產權貫標一站式行業企業服務平臺。中企檢測認證網為檢測行業相關檢驗、檢測、認證、計量、校準機構,儀器設備、耗材、配件、試劑、標準品供應商,法規咨詢、標準服務、實驗室軟件提供商提供包括品牌宣傳、產品展示、技術交流、新品推薦等全方位推廣服務。這個問題就給大家解答到這里了,如還需要了解更多專業性問題可以撥打中企檢測認證網在線客服13550333441。為您提供全面檢測、認證、商標、專利、知識產權、版權法律法規知識資訊,包括商標注冊食品檢測第三方檢測機構網絡信息技術檢測環境檢測管理體系認證服務體系認證產品認證版權登記專利申請知識產權檢測法認證標準等信息,中企檢測認證網為檢測認證商標專利從業者提供多種檢測、認證、知識產權、版權、商標、專利的轉讓代理查詢法律法規,咨詢輔導等知識。

本文內容整合網站:百度百科搜狗百科360百科知乎市場監督總局國家認證認可監督管理委員會質量認證中心

免責聲明:本文部分內容根據網絡信息整理,文章版權歸原作者所有。向原作者致敬!發布旨在積善利他,如涉及作品內容、版權和其它問題,請跟我們聯系刪除并致歉!

本文來源: http://www.rumin8raps.com/zs/202011/ccaa_11730.html

 
打賞
 
更多>同類知識
0相關評論

ISO9001認證推薦服務
ISO9001認證推薦圖文
ISO9001認證推薦知識
ISO9001認證點擊排行
ISO體系認證  |  關于我們  |  聯系方式  |  使用協議  |  版權隱私  |  網站地圖  |  排名推廣  |  廣告服務  |  積分換禮  |  網站留言  |  RSS訂閱  |  違規舉報  |  蜀ICP備07504973號
 
主站蜘蛛池模板: 中方县| 乌拉特前旗| 高雄市| 科技| 墨竹工卡县| 南平市| 新安县| 肇州县| 阜平县| 壶关县| 平远县| 四平市| 图们市| 鄂州市| 宁南县| 土默特左旗| 日土县| 府谷县| 大荔县| 芦山县| 北海市| 临安市| 喀喇| 桃源县| 凤阳县| 双江| 洪洞县| 揭东县| 清原| 盐源县| 临城县| 文登市| 台南县| 泽州县| 五寨县| 丹东市| 根河市| 什邡市| 会昌县| 武鸣县| 华阴市|