欧美在线91,久久精品主播,国内老司机av在线

前言

抽樣調查是研究美國政治的重要觀測工具。自19世紀末至今，美國政治研究中的抽樣調查從起源、發展，到21世紀以來遇到挑戰。

面對概率抽樣調查覆蓋誤差增大、應答率下降和成本上升，非概率抽樣調查的興起，以及來自大數據的競爭等問題，抽樣調查研究者們不斷創新，正在探索響應式調查設計，非概率樣本的統計推斷，以及與大數據結合應用等方法。

本文采用總調查誤差的框架，從測量誤差、覆蓋誤差、無應答誤差和調整誤差四個方面分析2016年美國總統大選前民調失靈的原因。概率抽樣調查、非概率抽樣調查和大數據各有自己的主要應用場域，未來的發展中三種數據采集手段會相互校驗、融合使用，而高質量的概率抽樣調查是衡量非概率抽樣調查或大數據質量的參照基準。

1、抽樣調查的發展歷程

（一）1890年至1960年，抽樣調查萌芽期

抽樣調查是一種相對于普查的方法創新。普查的歷史悠久，最早可以追溯到六千多年前的巴比倫，主要目的是清點管轄區域內的人口并掌握他們的基本信息。普查長期以來在美國具有重要的地位，因為美國的國會由參議院和眾議院組成。參議院的議員議席按照每州兩名的方式分配，而眾議院的議員議席則是根據各州的人口數分配。

然而，普查并非易事，耗時、耗資、耗力，各國要成立專業的統計部門來實施這項工作。1897年挪威中央統計局主任安德斯·凱（Anders Kaier），首次提出了用代表性樣本代替普查所有人口的做法。他提出的做法類似于配額抽樣，是依據一些輔助信息有目的地選取一個“平衡”的樣本，而該樣本的各方面特征可以反映出普查的人群特征。

這在當時是一個革命的想法，安德斯·凱不屈不撓地到處宣傳，卻四處碰壁。盡管政府部門對這一方法持謹慎態度，商業調查公司卻樂于接受省時、省力、省錢的創新。于是1936年美國大選年發生了抽樣調查史上一個里程碑式的事件。大選年預測總統競選結果是美國政治的一個熱點，當時久負盛名的《讀者文摘》（Reader's Digest）雜志邀請其大量讀者參與調查，曾經在1916年到1932年間成功預測當選的總統。在1936年的調查中，《讀者文摘》收到了240萬名讀者的應答，統計結果顯示阿爾夫·蘭登將勝出。蓋洛普公司（Gallup）采用配額抽樣的方法，僅根據很少樣本的調查，得出了相反的結論。當年大選結果如蓋洛普公司預測，富蘭克林·羅斯福當選。這個事件在公眾中產生了強烈的反響，也影響到政府和學術界，代表性樣本的思想開始生根發芽。

抽樣調查史上另一個里程碑式的事件，是1934年著名統計學家耶日·內曼（Jerzy Neyman）關于概率抽樣論文的發表。這篇文章論證并提供了從樣本推斷到總體的方法及基于大樣本的置信區間估計，為概率抽選代表性樣本奠定了理論基礎。學者們在這一理論的基礎上不斷探索，完善概率抽樣的步驟，并測試方法的有效性。在美國測試這一方法最佳的環境就是總統競選，終于在1948年的總統選舉中，概率抽樣的方法擊敗蓋洛普的配額抽樣方法，成功預測杜魯門獲勝。這一事件引起了美國社會科學研究委員會（Social Science Research Council）的重視，提出民意調查應采用更佳技術提高準確性的建議。這一建議結束了一段時期以來配額抽樣與概率抽樣之爭，概率抽樣成為美國公認的最優調查方法。

與此同時，問卷標準化提問方面也取得了很大進展，社會學和心理學研究者們為此做出巨大貢獻。調查是社會學者常用的研究手段，特別是在19世紀末的社會改良運動中，諸多社會學者走入倫敦的貧民窟，匹茲堡的工人區等地通過訪談收集了豐富的信息。這些學者對訪談方法既有信心又有經驗。然而，當一些商業或私營調查機構想做大量的訪問時，聘用的往往是缺乏訓練的新手，而研究者發現提問用語和方式對于態度性問題影響尤大，于是他們設計了統一的標準化問題，要求訪員嚴格按照問卷文字提問。在態度性問題的設計上，研究者們開始借鑒心理學上的賦值方法，但又覺得那種賦值方法過于煩瑣。1929年，倫西斯·利克特（Rensis Likert）在他的博士論文中使用了一種單個問題加上分程度答案的形式，簡化了態度性問題的測量，這種方法一直沿用至今。

20世紀40年代到60年代是美國抽樣調查史上的“黃金時代”。當時的數據采集手段以訪員面對面訪問和郵寄問卷自填為主，應答率普遍在70%以上，而且無應答的主要原因是接觸不到受訪者，而非被拒絕訪問。那時訪員通常由退休婦女或照顧孩子的專職媽媽承擔，她們既有很好的資歷，又有對調查的熱情。同時，這一時期抽樣調查數量較少，人們對此還有較大的新鮮感。

這一階段也見證了知名抽樣調查專業機構和研究協會的誕生。1941年，國家民意研究中心（National Opinion Research Center，NORC）在丹佛大學創辦，后來由于創辦者哈里·菲爾德（Harry Field）的意外去世，該中心由克萊德·哈特（Clyde Hart）接任而在1947年轉到芝加哥大學。1946年，密歇根大學抽樣調查中心在利克特的領導下組建。兩個機構后來分別承擔了美國兩個重要的抽樣調查項目，一個是社會學的綜合社會調查（General Social Survey，GSS），另一個是政治學的美國全國選舉調查（American National Election Studies，ANES）。1947年，在哈里·菲爾德的倡議下，一些致力于民意研究的抽樣調查先鋒創辦了美國民意研究協會（American Association for Public Opinion Research，AAPOR），并于次年出版發行了至今仍有重要影響力的專業雜志《公共輿論季刊》。

回顧這一階段，從凱到內曼，從喬治·蓋洛普（George Gallup）到利克特，這些人物對抽樣調查從無到有、從被拒絕到被接受，發揮了重要的作用。他們對抽樣調查的滿腔熱情也源于社會關懷，相信自己在為營造更好的社會創造有用的工具。如蓋洛普在《民主的脈搏》一書中提出通過抽樣調查來反映人民的聲音，而利克特也曾針對當時新政集權化的形勢下政府官員遠離民眾，提出通過抽樣調查了解民意的解決方案。

（二）1960年至1990年，抽樣調查發展期

在這一階段，技術促進了抽樣調查的突飛猛進。為了保證樣本的代表性，抽樣調查最重要的是建構一個定義明確、無遺漏無重復的抽樣框。對于家庭調查來說，抽樣框就是一個完備的家庭列表。如果出現遺漏，則會有人或家庭沒有機會被訪問到（稱之為覆蓋誤差），這會嚴重影響到抽樣調查的代表性。

美國早期抽樣調查的家庭列表主要有兩種來源：

一是地理區域（如行政單位、普查地區劃分等）內的住戶名單或住址列表；

二是商業公司編輯的電話號碼簿中的住宅電話號碼。

在住宅電話未能完全普及時，第二種來源的抽樣框顯然會有嚴重的覆蓋誤差。因此，“黃金時代”的高質量抽樣調查僅采用第一種方法建構抽樣框，只有一些商業或私營調查機構使用住宅電話號碼組織訪問。

20世紀60年代末，美國住宅電話得到了普及。由于使用住宅電話號碼建構抽樣框效率高，費用低而得到越來越多調查機構的青睞。在沒有統計理論支撐的情況下，政府和學術調查往往采取觀望的態度，而調查統計學家們則有巨大的壓力為這一實踐賦以合理性。一種建立在概率抽樣理論上的電話號碼隨機抽樣的方式誕生了。這種方法考慮美國電話號碼的構成，前六位數字對應特定的地理區域，于是隨機生成后四位號碼，實現電話號碼的隨機抽選。同時計算機技術也有了進步，并開始應用在電話訪問上，被稱為計算機輔助電話訪問（Computer－Assisted Telephone Interviewing，CATI）。

這一時期調查研究者將認知心理學理論和方法應用到問題用語和問卷結構等方面的測試中，這方面研究成果最為豐碩的是密歇根大學霍華德·舒曼（Howard Schuman）教授，他利用在抽樣調查中嵌入隨機分組的實驗方法（稱為調查實驗），研究了問題順序、開放或封閉的答案選項設計、態度問題中設立中間選項等做法對受訪者應答的影響。

這一時期美國聯邦政府和研究基金會投入了大量資金用來支持抽樣調查，多個全國大規模縱貫追蹤調查都是在這一時期啟動的。

抽樣調查為了解大規模民眾或群體的態度及變化打開了大門，成為用政治事實闡釋政治科學的重要工具。與早期蓋洛普對于抽樣調查與民主關系的樂觀態度不同，這一時期政治研究者們深深被抽樣調查中的一些發現所困擾。美國式民主制度標榜民治、民有、民享的政府，公眾是如何參與政治及通過投票選擇執政方成為政治學研究者們最迫切想要了解的問題。

總的來看，抽樣調查在20世紀60年代至90年代的30年里鞏固了其在社會科學研究領域中的地位，雖然已出現了一些令人不安的跡象，如應答率的下降和調查成本的上升，但憂患主要來自內部。然而，進入20世紀90年代以后，科技的進步帶來了外部的挑戰，抽樣調查一時迷失了方向。

（三）1990年至今，抽樣調查迷失期

不幸的是，調查者們的研究發現全球的抽樣調查都不同程度地顯示出應答率下降的趨勢，直接原因是受訪者拒絕接受訪問的比例增加，而社會資本下降是造成這一現象的重要社會原因。

當時應答率的計算方式多樣，常常會造成不同調查項目之間無法比較。因此美國民意調查研究協會在1998年出版了《標準化定義：抽樣調查案例代碼的最終配置與結果率》，制定了統一的應答率計算標準。調查者們努力尋找辦法來提高應答率，他們嘗試了培訓訪員轉化拒訪的技巧、調配不同特征的訪員，提升受訪者的酬金等方法，然而這些措施不但沒有改變應答率下降的趨勢，反而使調查成本越來越高。

技術進步加劇了抽樣調查的困境，甚至導致了抽樣調查的退步。移動電話普及后，一些家庭不再安裝使用住宅固定電話，造成原有的基于住宅電話的抽樣框出現嚴重的覆蓋誤差。然而對于移動電話，一個家庭可能不僅只有一個號碼，甚至一個人也可能擁有多個號碼，而且移動電話和居住區域之間不是完全對應，因此，僅依靠移動電話號碼建構抽樣框會產生更為嚴重的問題。這時，嚴謹的抽樣調查不得不退回到基于郵遞系統的住址列表來選取代表性調查樣本，無力承擔昂貴調查費用的商業調查公司在尋找新的替代方案。

同時互聯網技術的發展催生了網絡問卷調查，這種調查屬于最為傳統的受訪者自填調查模式，類似于早期郵寄問卷調查。與紙版問卷相比，網絡問卷問題形式更為豐富，不僅包括文字性問題，也可以插入音頻、圖片和視頻等多媒體信息。然而，這種調查模式的致命弱點是無法確定抽樣框。政府或學術調查會從郵政地址列表中抽取代表性樣本，將網絡調查的鏈接通過郵件發送給選中的家庭，然后采用電話或真人到訪的方式進行補訪。一些商業調查公司則走上了當年《讀者文摘》的老路，在網站上推送鏈接，網民自愿參與調查。還有一些調查公司建設網絡調查樣本庫，主動招募網絡調查的志愿者，登記他們的基本社會人口信息，然后采用配額抽樣的方法發送調查鏈接。2010年，美國民意研究協會宣布盡管這樣的樣本庫有一些用處，“當研究目標是為了精確地估計總體參數值時，研究者應該避免使用在線非概率樣本庫”。此外，在網絡調查自制（DIY）工具的輔助下，似乎人人可以做調查，抽樣調查的專業化被漠視，抽樣設計被忽略，測量設計上也魚目混珠，抽樣調查被“游戲化”或“娛樂化”。抽樣調查統計學家們又遇到和當年電話調查普及時同樣的壓力，就是如何為這種非概率抽樣的網絡調查提供理論支持，于是非概率抽樣調查的統計推斷問題成為這一階段的研究熱點。

這一時期出現的另一個“復興”是調查實驗，就是通過把調查樣本隨機分配到實驗組和對照組，將實驗設計嵌入抽樣調查中。如前所述，這一方法早就被應用在抽樣調查方法的比較研究中。與傳統的實驗室實驗相比，調查實驗的被試（樣本）是概率抽選，在概率論的支持下可以將實驗結果推論到更大的總體（稱之為外部效度）；而且被試（樣本）數量大，同質性低，也提高了實驗結果的有效性（稱之為內部效度）。當經濟學的觸角伸入抽樣調查中，用調查數據分析因果機制成為重要的需求。政治學者們在這方面深受影響，當計算機輔助調查的技術得到應用，對樣本的隨機化分配成為易事，他們便馬上利用這一技術優勢，將調查實驗嵌入大型抽樣調查中。他們還發明了一種測量敏感問題態度的實驗，稱之為列舉實驗（list experiment）。這種方法是將問卷分為兩個版本，隨機分配給受訪者。一個版本的問卷中包括一組有關態度或行為的常規問題，另一個版本的問卷中同樣包括這些問題，但多出一條關于態度或行為的敏感問題。通過比較兩組問題的均值，就可以得出敏感態度或行為的發生比例。美國政治學家保羅·辛德曼（Paul Sniderman）是推動將調查實驗運用到美國政治研究中的核心人物。在他自己關于種族偏見與歧視的研究中，調查實驗是重要的研究方法。他還申請到美國自然科學基金（NSF）的資助，創建了社會科學分時實驗室（Time－sharing Experiments in the Social Sciences，TESS）。社會科學分時實驗室采用一個調查項目搭載多個調查實驗的方法，公開征集調查實驗的研究計劃，并搭建了擁有全國代表性樣本的網絡調查平臺采集調查實驗數據。

互聯網、物聯網、社交媒體的普及，開辟了數據采集的新階段。任何電腦、移動設備或傳感器上的操作都可以被機器自動記錄、存儲或傳輸，產生了巨大數量的數據，被稱之為“大數據”。大數據給人的感覺是可以記錄下任何人所做的任何事。這種情況下既無須抽樣，也無須調查，數據已經在那里了。一時間，抽樣調查仿佛遇到了“滅頂之災”。然而，大數據這個巨人對于社會科學研究也有諸多羈絆。一是大數據并非是理想中的總體數據，總是有一些人會被有意無意地排除在這些設備或網絡之外，不同的人被機器捕捉到數據的概率不同且不知。與非概率抽樣的網絡調查數據相似，大數據雖在規模上取勝，但同樣不能推論總體；二是大數據是有機產生的，或稱“有機數據”，數據量雖大，但信息含量低，噪音干擾多，數據處理不易。對于研究者來說屬于“二手數據”，如果不清楚數據產生的機制，很容易得出錯誤的結論；三是大數據并非公共資源，大多掌握在商業公司或私營機構中，在很大程度上成為謀利的私有財產，而無意于幫助理解社會。雖然如此，對于研究者來說，大數據獲取相對容易，成本也低，具有很強的吸引力。

在這一階段，抽樣調查遇到了嚴峻的挑戰，分別是：第一，應答率的下降及調查成本的上升；第二，非概率抽樣調查的死灰復燃；第三，大數據的橫空出世。抽樣調查研究者們沒有姑息待命，下部分將重點介紹他們在這方面的努力。

2、抽樣調查的新探索

（一）概率抽樣調查的自救：響應式調查設計

雖然可以簡單地認為，抽樣調查應答率低，概率抽樣就不能保證提供對于總體特征參數的無偏估計，但是應答率低到何種程度才能破壞推斷的有效性卻一直沒有明確答案。抽樣調查應答率的降低促使調查研究者們不得不認真考察無應答率與無應答偏差的關系。格羅夫斯在2006年和2008年兩次發表論文證明無應答率和無應答偏差沒有直接聯系。如他和同事利用59項研究中的959個估計值進行分析，發現無應答率與這些估計值偏差相關系數僅在0.20左右，只有在調查變量與應答傾向高度相關的情況下，無應答率才會影響到無應答誤差。因此，同一個調查內的不同變量的無應答誤差是不同的。美國抽樣調查專家邁克爾·布里克（Michael Brick）和羅杰·圖蘭吉（Roger Tourangeau）利用同樣的數據進一步分析發現，當把這些估計值偏差按照所屬研究進行匯總時，可以發現無應答率與無應答偏差在調查之間存在較強的相關性。也就是說，較高應答率的調查，研究變量的總體偏差相對較低。

針對越來越多的家庭或個人不愿意參與抽樣調查，格羅夫斯等利用計算機輔助調查能夠獲取并及時提供關于調查過程的數據（稱之為并行數據）的便利，在2006年提出了“響應式調查設計”（responsive survey design）的思路，其基本框架包括以下四個方面：

• 預先確定一組可能會影響到調查成本和誤差的設計特性；

• 針對設計特性，確定一套測量成本和誤差屬性的指標，并在數據采集的最初階段監測這些指標；

• 在權衡成本和誤差得失的基礎上，在后續階段改變設計特性；

• 將不同階段的數據組合成最終的數據集。

研究者們在這個框架的基礎上進行拓展。一個研究取向是在調查開始，根據抽樣框或其他關于樣本的輔助數據，對不同的人群總體分派不同的調查操作指示，這種方法也被稱為“適應式調查設計”（adaptive survey design），有別于在調查開始后基于前一階段的情況進行修改的響應式設計。另一個研究取向是不再劃分為獨立的階段，而是在全過程中根據需要進行調整，這種做法被稱作“動態調查設計”（dynamic survey design）。

這些設計共同關注的四個元素是：設計特性、輔助數據、質量和成本的測量指標，以及質量－成本的優化。輔助數據是測量指標設計的基礎。按照所利用的輔助數據，這些指標可分為三大類：第一類是應答率，僅依據受訪者是否應答即可計算；第二類指標除了應答率，還加入了抽樣框數據和并行數據，如R指標（R indicator）和分組應答率的變異系數；第三類指標比第二類指標又增添了調查數據，如缺失信息率等。其中，R指標嘗試采用模型的方法來預測受訪者的應答傾向，對輔助數據的來源和質量要求更高。如聯系記錄和訪員觀察等并行數據極易產生測量誤差，會減弱他們與調查變量或受訪者應答傾向間可能存在的關系。

抽樣調查研究者們通過真實的項目、實驗或仿真模擬對響應式調查設計的效果進行評估。總覽這些研究，圖蘭吉等人得出以下結論：

第一，調查方案的重大變化（如更短的問卷、更大的激勵措施或轉為面訪），與簡單堅持一貫的數據采集方案相比，更有可能減少無應答偏差。但是，在調查預算不斷縮減的時代，所有調查都很難減少無應答偏差。第二，盡管許多嘗試使用傾向模型來提高數據收集的效率，但是無論是提高應答率還是對降低應答傾向的變異，收獲甚微。究其原因有幾個方面：（1）受當時的調查環境所限，取得顯著進展的難度較大；（2）輔助變量對于應答傾向的預測力不足，導致傾向模型對于數據采集沒有起到有效的指導作用；（3）即使模型準確地預測了應答傾向，實地執行時不一定選擇了有效的干預措施；（4）即使選擇了有效的干預措施，卻不能有效地監控訪員忠實地執行指令。第三，相比依據同樣的輔助變量對調查數據進行事后加權，在數據采集時利用響應式調查設計實現樣本的平衡不僅有助于降低偏差，還可以減少加權對調查估計值方差的影響。

響應式調查設計被認為是現代抽樣調查的核心技術。為此，密歇根大學抽樣調查中心設置了專門的暑期培訓課程，用以推廣這個技術在美國及全球抽樣調查實踐中的應用。

（二）非概率抽樣調查的希望：統計推斷

研究者們一邊努力尋找挽救概率抽樣調查的良方，一邊重新審視死灰復燃的非概率抽樣調查。2011年，美國民意研究協會任命了一個特別工作組，由美國國內知名抽樣調查專家組成，“研究在何種情況下，不使用概率樣本的各種調查設計仍可用于推斷更大的總體”。

這里的“推斷”指的是“統計推斷”，用工作組給出的定義是：對總體特征進行估計，并且對這些估計的可靠性提供某種度量的一組程序。這組程序要基于理論和明確的假設，那些沒有理論基礎而收集數據并做出估計的方法不能用作統計推斷。例如街角攔訪、網上自愿參與的方便抽樣（convenience sampling）調查在進行估計時如果沒有任何基于理論的調整，是與統計推斷無份的。

非概率抽樣被孟曉犁比喻為“快餐”，能快速滿足人的需要，但含有對人體有害的成分。這些“有害的成分”表現為：（1）有部分人被排除在調查之外，導致嚴重的覆蓋誤差；（2）受訪者自愿參與，導致自我選擇的偏差；（3）高水平的無應答率。雖然在網絡和大數據時代，非概率抽樣調查可以在短時間內采集到大量的數據，然而也無法降低對總體估計值的偏差。孟曉犁提出，估計值的偏差是三個部分數值的乘積：第一部分是數據質量測量，表現為研究變量X與樣本應答指標R的相關系數；第二部分是數據數量測量，表現為（N－n）／n的平方根，其中N是總體規模，n是樣本規模；第三部分是問題難度測量，采用X的標準差。由此可見，首先，估計值偏差并非是樣本規模的函數，而是樣本規模F與總體規模比值的函數；其次，樣本相對規模對估計值偏差的影響會同時受到質量測量和難度測量的制約。因此，在沒有考慮數據質量的情況下，樣本量的大小不能決定估計值的準確程度，反而會出現“大數據悖論”，即“數據越多，我們越容易欺騙自己”（the more the data，the surer we fool ourselves）。

提升非概率抽樣調查的數據質量是讓這一方法獲得新生的唯一希望。在抽樣調查中，利用樣本估計進行統計推斷有兩種不同的思路，分別是基于設計的估計和基于模型的估計。概率抽樣調查屬于基于設計的估計方法，隨機化抽樣設計保證每個樣本的入選概率是可知的，入選概率的倒數就是樣本的權重，在估計時通過權重把樣本還原為總體，從而實現統計推斷的功能。基于模型的推斷將抽樣調查中的有限總體視為特定形式的超總體的一次隨機實現，數據產生的機制可以通過超總體模型加以刻畫，利用抽樣調查獲取的樣本觀測數據進行擬合，對沒有觀測到的變量值進行預測，從而實現對總體的統計推斷。

對于非概率抽樣調查，沒有一個嚴格的隨機化抽樣設計，但是可以通過一些干預實現“準隨機化”（quasi－randomization）。第一個方法是計算出樣本的偽包含概率（pseudo－inclusion probability），轉化為權重，用來糾正選擇偏差。具體做法是選取一個供參考的調查（reference survey），可以是質量上可信的可公開獲取的概率抽樣調查數據集，也可以是調查機構并行實施的概率抽樣調查，要求是作為參考的調查要與非概率抽樣調查都含有與研究變量高度相關的協變量。將參考數據集里的樣本和自愿參與調查的樣本混合在一起，根據共同的協變量擬合模型來預測作為非概率樣本的概率，轉換為偽權重。如果只需要對非概率樣本進行分析，則使用這個偽權重；如果概率樣本和非概率樣本合并使用，還需對偽權重和概率樣本的權重進行標準化，確保合并后的權重之和接近總體規模。

第二個方法是樣本匹配（sampling match）。樣本匹配的重點也是選擇參考數據源，將非概率樣本的背景特征與目標總體進行匹配。參考數據源可以是普查數據，也可以是推斷目標總體的高質量的概率抽樣調查數據。傳統的配額抽樣就是一種簡單的樣本匹配。這種方法從普查數據中選取一些社會人口屬性，如性別、年齡、受教育程度等變量作為協變量，然后根據這些協變量的交互分層來分配樣本，實現樣本在這些協變量上的構成與總體相似。樣本匹配方法的關鍵是要找到和研究變量相關的協變量，然而不同的研究主題，相關的協變量不盡一致，而且協變量的數量也可能是多個。于是，研究者開發出用傾向值進行匹配的方法。具體做法是從參考數據源中抽取一個隨機樣本，這個樣本可以看作推斷目標總體的概率樣本，這個概率樣本需包含和研究變量相關的重要的協變量信息。然后，根據這些協變量，通過傾向值匹配的方法，從非概率樣本中選取匹配樣本。最后，利用匹配樣本的調查數據實現對總體的估計。也就是說，通過匹配的方法，使匹配樣本與概率選取的目標樣本有相似的性質，因此可以根據匹配樣本對目標總體進行推斷。

第三個方法是鏈接跟蹤網絡抽樣方法（link－tracing network sampling），適用于有社會聯系的沒有可得抽樣框的特殊人群的抽樣。如應答者驅動抽樣（Respondent Driven Sampling）就是這樣一種方法。具體做法類似滾雪球抽樣，也是通過前一個應答者來招募下一個受訪者，不同的是這種方法對于招募的路徑及每個應答者招募的人數有所限定，并且利用統計方法進行評估，直至達到某種“均衡”即可結束調查。這種方法在滿足一些假定的情況下可以獲取接近概率抽樣的樣本。但在實際中這些假定很難得到滿足，即使得到滿足了，估計值的方差也可能相當高。

上述三種方法都是基于設計的估計思路，是從總體選擇樣本，通過樣本來反射總體；另一種思路是基于模型的估計，不考慮樣本的選擇機制，而是用樣本來預測總體。模型估計的假定類似抽樣調查中數據的隨機缺失（Missing at Random，MAR）機制，認為在控制住一系列協變量的情況下，樣本與非樣本在研究變量的特征上是相似的，因此通過利用樣本數據，納入這些協變量擬合模型，模型的參數可以用來預測非樣本或總體的特征。常見的例子就是事后的校準權重，如采用普查數據中的性別、年齡、受教育程度等變量構建的分層（poststratification）或傾斜（raking）權重。最新的方法則是通過建構回歸模型、傾向值模型，或多層次回歸模型，以及采用貝葉斯分析方法（Bayesian Analysis）來估計總體參數。這些方法也可以應用在概率抽樣調查中，用于處理覆蓋誤差或無應答誤差導致的估計偏差。

那么，如何判斷哪種方法更好呢？美國皮尤研究中心的資深研究方法專家安德魯·默瑟（Andrew Mercer）等認為抽樣調查的估計偏差取決于三個要素：一是互換性（exchangeability），含義是觀測的樣本與沒有觀測的樣本是可以互換的，或者是有條件的互換，也就是說可以實現二者在研究變量上的表現無差異；二是正概性（positivity），意思是每一個觀測的樣本都是正概率入選，不存在總體中的某一個群體從觀測的樣本中完全缺失；三是組成性（Composition），就是觀測的樣本分布與目標總體相匹配，或者通過調整后匹配。如配額抽樣或事后傾斜權重僅在組成性上有所改進，對于其他兩個方面沒有任何助益。而樣本匹配的方法可以在一定程度上保證互換性、正概性，輔以事后調整權重，也可以改善組成性，因此具有一定的優勢。

無論哪種方法，最關鍵的是要獲取和研究變量高度相關、測量誤差小的協變量，模型的方法還要求在模型的設定上減少誤差。然而，實現這些并非易事，因此非概率抽樣的統計推斷具有相當大程度的不確定性。

（三）抽樣調查與大數據的互補與互助

大數據成為社會熱點后，2015年，美國民意研究協會又成立了一個特別工作組，來調研大數據的特性及對抽樣調查的影響。工作組的專家們認為，大數據屬于“發現”的數據，是先出現數據，而后研究者根據自己的研究需要去“收割”。而調查數據則屬于“制造”的數據，是研究者根據研究需要先設計，然后按照設計來有控制地采集數據。由此，大數據的出現帶來了研究范式的改變。傳統研究范式是從理論到假設再到數據，最后通過統計檢驗來驗證假設，提出新理論，或修正、擴展原理論。大數據則在一定程度上脫離了理論驅動的研究范式，轉向數據驅動，利用數據量大、數據顆粒精細的優勢來挖掘細節和變量間的相關性。

大數據在對專業人員技能上的要求也與抽樣調查有所不同。抽樣調查的專業訓練注重抽樣和測量的設計，以及在數據采集過程的質量控制，以最大限度地降低總調查誤差為目標。收集到的數據采用結構化方式存儲，數據清洗主要包括邏輯性檢驗、數據值合理性的查驗，以及元數據的修訂。后期數據處理包括對變量缺失值的插補、覆蓋誤差和無應答誤差的調整等。總的來看，前期投入大，技能要求高，后期工作主要是對前期工作中出現問題的彌補。大數據的采集屬于“直接收割”，最需要的是計算機數據管理技能，在不同的時間點從不同的數據源聚合并形成數據集。收割上來的數據良莠不分，格式多樣，沒有統一的結構。這時需要專業人員對數據進行清洗，去粗取精，去偽存真，統一測度，并形成可供分析的數據庫格式。因此，大數據采集的前期成本低，速度快，但后期數據清洗和加工的工作量巨大。而且由于大數據可以在網上輕松獲取，沒有經過專業訓練的業余數據分析人員數量增長，可能會導致大數據處理和分析質量的下降，基于數據的結論不可靠。

大數據自身除了具有大量（volume）、快速（velocity）和多樣（variety）的特征外，還具有易變（variability）、存真（veracity）和復雜（complexity）的特征。美國政治學家大衛·拉澤（David Lazer）教授等將“谷歌流感趨勢”（Google Flu Trend，GFT）預測失誤歸結為兩個原因：一個是大數據的“狂妄”，認為大數據可以替代傳統數據收集和分析，忽視了基本的測量、建構效度和信度以及數據間的依賴性等問題；另一是搜索引擎算法的變動，提出搜索行為不僅是由外部因素決定的，也是由服務提供者培育的。當谷歌公司為了支持其業務而改變算法，向用戶推薦其他內容的搜索，實際上就改變了數據的生成機制，導致錯誤的估計。拉澤等還提出用戶也有可能改變數據生成機制，如政治競選團隊和商業公司意識到新聞媒體正在監控社交媒體，他們會使用一些策略以造成他們的候選人或產品正在流行的假象。還因為數據產權、個人隱私等問題，大數據很難支撐科學研究的復制（replication）檢驗。相比之下，抽樣調查的數據生成機制穩定、透明，數據可通過共享的方式供其他研究者復制，但調查數據的精細程度和時效性較弱，在時空動態分析，以及檢測復雜的相互作用方面也有較大局限。

因此，抽樣調查數據和大數據是兩種各具優缺點的研究工具，二者可以在研究內容上互補，在研究方法上互助。

首先在研究內容上，抽樣調查和大數據的發現可以互相激發。如抽樣調查中常會有一些重要的現象或人群，由于數據量小而無法使用常規的統計手段分析，大數據則可以擴大對這些現象或人群數據的采集，使研究內容上更為全面。大數據也可以提供新的視角和方法，如研究中運用空間分析的方法，考察州內縣級收入分配的聚合情況，可深入探討抽樣調查數據中所發現的收入不平等與健康的關系。另外，大數據有助于發現正在發生的事件，以及發展的趨勢，卻常常無法解釋這個事件為什么會發生，或者為什么會偏離某種趨勢，這時則需要借助抽樣調查的精心設計來探究。隨著大數據在社會科學研究上的應用增加，為更深入理解大數據發現的問題而進行抽樣調查的需求可能也會隨之增長。

在研究方法上，如前所述，基于普查或行政管理的大數據早已應用在抽樣框的設計以及事后的權重調整上，有助于降低抽樣調查由于覆蓋誤差或無應答誤差導致的估計偏差。對于非概率抽樣調查，這些數據可以作為重要的協變量，用以準隨機化設計、偽權重的計算和模型估計。此外，一些個體可識別的大數據可以直接和調查數據鏈接，如將收入登記數據與關于選舉的調查數據相關聯，探討個人財政狀況對于選舉決定的影響。這樣做一方面可以豐富研究數據，另一方面也可以避免自報數據的測量誤差，還可以減少調查數據采集的負擔。對于個體不可識別但可以分類匯總的大數據，則可以通過統計值，與調查數據聯合建構多層次模型，以滿足特定的研究目的。

抽樣調查也將大數據的技術用于提高調查質量和降低調查成本。如利用地理信息系統（GIS）建立抽樣框，并采用衛星定位系統（GPS）進行住址抽樣，或基于計算機輔助調查系統記錄的鍵盤痕跡數據計算單題訪問時長，用于糾正訪員不合規范的訪問行為，或將機器學習技術應用到職業應答的文本編碼等。在響應式調查設計的執行中，更是需要依靠計算機記錄的各種并行數據及大數據的可視化手段來控制整個數據采集過程。

美國著名抽樣調查專家米克·庫珀（Mick Couper）甚至認為，大數據有可能解放抽樣調查。他認為抽樣調查的過量和商業化是導致抽樣調查應答率下降，拒訪率上升的重要原因。如果大數據可以帶來抽樣調查的減少，可能意味著完成的調查質量更高，也會提高抽樣調查在受訪者心目中的價值。

3、抽樣調查失靈了嗎？：以2016年美國大選民意調查為例

從前文的介紹可以看出，抽樣調查進入現時代被各種各樣的實踐問題所困擾，雖然有強大的概率抽樣理論支撐，在現實面前卻顯得無力回天。那么，抽樣調查作為研究工具還值得信賴嗎？

美國大選一直是抽樣調查的“試金石”。1936年和1948年兩次美國大選為抽樣調查確立幾十年來的“霸主”地位提供了機遇。2016年美國大選中再次爆出冷門，民意調查中一直被看好的希拉里·克林頓敗給了唐納德·特朗普，人們在被選舉結果震驚之余，也對民意調查的準確性提出了質疑。

美國民意研究協會一直對抽樣調查的表現保持高度的關注，早在2016年春季就成立了一個委員會，任務是總結當年大選前民調的準確性，審查不同民調方法的差異，并從歷史的角度進行評估。大選結束后，這個委員會對在大選前13天內進行的22個全國民意調查和422個州內民意調查，以及在其他調查數據或實驗數據的輔助下進行了嚴謹充分的論證，發現有明確證據支持的解釋是：（1）部分選民在臨近選舉日時改變了之前的選舉決定，或從之前的不確定到轉向特朗普；（2）在民意調查的樣本中擁有大學學歷的選民被過度代表，而低學歷的選民代表性不足；（3）與2012年美國總統選舉相比，投票的選民結構也發生了變化。部分證據顯示，一些民調機構利用模型預測選民投票的可能性上存在失誤。雖然當時最為普遍的說法是一些支持特朗普的選民沒有在民意調查中如實報告，但委員會的多方取證沒有支持這一說法。

對于抽樣調查質量的評估，總調查誤差（Total Survey Error，TSE）框架是一個有效的工具。這個框架下，抽樣調查的生命歷程有兩條主線，一條是測量，路徑是構建－測量－應答－修訂后的數據；另一條是代表性，路徑是目標總體－抽樣框－樣本－受訪者－事后權重調整。兩條路徑匯合，生成調查統計值。在這兩條路徑上，每一個階段或環節都有產生誤差的風險。如第一條路徑就分別對應著建構效度（測量在多大程度上構建了要研究的概念）、測量誤差（理想的測量和實際的測量之間的差異）和過程誤差（對實際測量結果加工成研究數據時造成的偏差）；第二條路徑則對應著覆蓋誤差（目標總體與抽樣框對應的總體之間的差異）、抽樣誤差（從抽樣框中選取部分樣本時的統計誤差）、無應答誤差（受訪者完全應答的估值與實際不完全應答的估值之間的差異）和調整誤差（對樣本估值進行事后調整時造成的誤差）。用這個框架來分析2016年美國大選前的民調預測失誤，發現主要問題在于抽樣調查過程中的測量誤差、覆蓋誤差、無應答誤差和調整誤差。

（一）測量誤差

委員會的報告（以下簡稱報告）中檢驗了四個可能的解釋，其中兩個解釋屬于測量誤差方面的原因。一個是選民投票前的臨時決定。用于預測的民意調查要在選舉前進行，一般認為，在調查方法同樣嚴謹的情況下，民調的日期離選舉日越近，預測的結果就越準確。這種看法的根據在于選民在接受調查后到真正投票時這段時期內可能會由于某些事件而改變他們的想法。也就是說，民意調查采集到的只是應答者最終投票決定的近似測量。報告引用了一個選舉日當天的出口民調（exit polling）的研究結果，發現在競選的最后一周，在選民中出現了明顯的有利于特朗普的情形，特別是在特朗普以微弱優勢勝出的那四個州。皮尤研究中心的回訪民調也發現有11%的受訪者承認他們在投票箱前做出了和選舉前不一樣的決定。這種臨時改變決定的做法并非是2016年大選所獨有，但之前一般改變想法的人會在民主黨和共和黨候選人之間平均分配，而這個回訪調查卻發現，在這些改變投票決定的受訪者中，轉而選擇特朗普的比例比轉向克林頓的比例多出16個百分點。對于競爭如此激烈的大選，這個測量誤差可能就會決定預測的準確性。

另一個和測量誤差相關的解釋被稱為“害羞的特朗普”（shy Trump），指的是支持特朗普的受訪者在民意調查中沒有坦誠自己真實的投票決定，從而造成民意調查獲取的是錯誤的信息。在美國，種族和性別通常是兩個具有政治正確色彩的話題，而在2016年選舉中希拉里·克林頓是美國歷史上第一個女性總統候選人，特朗普則被控有種族和性別上的歧視，所以支持特朗普的受訪者出于社會期許或政治正確的原因不愿意透露真實想法似乎是一個非常合理的解釋。報告重點從訪員效應角度來證實（偽）這個解釋。以往的研究發現，受訪者對于一些敏感問題的應答可能會因為對訪員的不信任，或訪員的某些特征（如性別和種族）而隱藏自己的真實想法。然而，專家們基于對調查模式的比較和一些調查實驗的研究，沒有發現支持的證據。他們也假設如果這個解釋成立，同一州內特朗普與共和黨參議員在民調預測與實際得票的差異上會表現不同，這一間接的假設也沒有被證實。因此，由于社會期許或政治正確而導致的測量誤差至少是不嚴重的。

（二）覆蓋誤差

美國大選民調的總體界定上有些復雜，可以分為符合資格的選民總體、登記注冊的選民總體，以及實際投票的選民總體。這三個總體按此順序排列，后者都是前者的一個子集，或是一個大數據樣本。大選民調的理論目標總體是符合資格的選民總體，操作化的目標總體是登記注冊的選民總體，而統計推斷的目標總體則是實際投票的選民總體。

報告中分析的民意調查主要有六種設計：（1）網絡自愿式調查，樣本來自調查公司建設的網絡調查樣本庫；（2）電話調查，樣本選取基于固定電話和手機號碼的隨機數字撥號（RDD）；（3）電話調查，樣本框是各州的選民登記文件；（4）交互式語音系統（IVR）調查，樣本框是各州的選民登記文件；（5）交互式語音系統和電話調查的混合模式；（6）交互式語音系統和網絡調查的混合模式。

根據以往的研究發現，上網和不上網的人之間有系統的差異，網絡自愿式調查很容易將老人、低學歷或藍領勞動者排除在外；使用固定電話和手機的人群也不一樣，后者一般為年輕人，在種族和民族上較為分化。基于選民登記文件的抽樣框要比電話號碼建構的抽樣框質量更好，但前者更適用于州內民調，對于全國民調則不易獲取。按照美國聯邦法規的規定，交互式語音系統功能只能用于固定電話，而美國大約一半的成年人沒有固定電話。因此，僅采用交互式語音系統方式的州內民調，即使有選民登記文件作為抽樣框，仍會存在嚴重的覆蓋誤差，這也是為什么一些民調采用交互式語音系統和電話或網絡相結合的方式。

報告中一個意外的發現是，這些僅采用交互式語音系統方式的州內民調在預測的準確度上最高。推測其原因是由于這些漏掉的手機用戶有大部分是非裔美國人或年輕選民，他們對實際投票的參與率較低，因此漏掉這些特征人群的樣本結構反而與實際投票總體的結構更接近。那些為了彌補這一覆蓋誤差而補充了網絡或電話調查的民調，反而表現較差。

（三）無應答誤差

根據皮尤研究中心2012年的報告，當時電話訪問的應答率已經低于10%。2016年美國大選前的民意調查主要采用訪員主導或交互式語音系統形式的電話訪問，雖然應答率不知，但已有許多研究證明在這些民調中低學歷的選民代表性不足，而擁有大學及以上學歷的選民被過度代表。

如果明確知道無應答樣本的特征，一般通過權重調整就可以基本避免估計偏差。然而，報告中發現大多數的州內民調都沒有對教育結構進行事后調整，而在全國性民調中約有一半做了調整。究其原因，是因為州內民調大多采用州內的選民登記文件作為抽樣框，這些文件中包括了登記選民的年齡、性別、地域分布、黨派注冊和過往的投票歷史等信息，卻唯獨漏掉了受教育程度。這些民調在訪問時也未能補充受訪者教育程度的信息，致使無法對樣本的無應答誤差進行糾偏。

令人疑惑的是，這些州內的民調以前也沒有依據教育程度進行權重調整，卻沒有發現大的預測失誤。報告發現，2016年的選民特征與投票選擇之間的關系和2012年大選時有所不同。出口民調數據顯示，在2012年無論是全美還是威斯康星、賓夕法尼亞和密歇根三個“搖擺州”（swing state），選民的受教育程度與對民主黨派候選人的支持呈現U型關系，即受教育程度低和受教育程度高的選民都更為支持民主黨派候選人。但在2016年的大選，選民受教育程度與對民主黨派候選人的支持幾乎呈直線上升關系，即選民的受教育程度越高，越支持民主黨候選人。這樣，在2012年的民調中如果不對過度代表的高學歷樣本和代表性不足的低學歷樣本進行調整，不會造成麻煩，因為兩個人群在支持方向上比較一致。但在2016年的民調中，如果不做調整，就會帶來較大的偏差，這時低學歷樣本的代表性不足將造成過高地估計民主黨候選人的支持率。

報告還查證了另外一種無應答誤差的可能，即堅定支持特朗普的地區的選民是否在民調中代表性不足。邏輯是，如果人口普查數據顯示有13%的美國人生活在堅定支持特朗普的地區，但民調估計只有9%的美國人生活在這些地區，這就證明民調確實系統性地遺漏了特朗普的支持者。受數據所限，報告中僅對電話調查進行了分析，沒有發現有明顯的證據支持這個假設。然而，孟曉犁用“數據缺陷指標”（data defect index）來分析這次美國大選前的民調，確實發現在特朗普的支持者中無應答的概率更高。

（四）調整誤差

如前所述，美國大選前的民調統計推斷的目標總體是實際投票的選民總體，然而這一總體也是一個大數據樣本，每次大選時不同特征的選民的投票意愿不同，將造成實際投票的選民總體與登記注冊的選民總體有結構性的差異。所以，解釋2016年美國大選民調失靈的一個可能的理由就是不同民調在預測當年選民投票的可能性，以及對調查估計所做的相應調整上出了錯誤。報告發現不同的民調在可能的選民（likely voter）的預測模型設定上各有千秋，對于估計結果的影響也不盡相同。但有證據表明，在幾個搖擺州，降低大學及以上學歷樣本的權重會提升預測的準確性，而調高非西班牙裔黑人的權重則會降低準確性。雖然大家都意識到需要對民調估計值進行調整以降低覆蓋誤差、無應答誤差，以及選民投票行為的自選擇誤差，然而這些調整在多大程度上發揮了降低偏差的作用卻很難判斷。

盡管2016年美國大選前的民調存在各樣誤差的隱患，但委員會的報告證實，以歷史標準來衡量，至少全國性的民調整體上看是準確的。2016年的誤差水平不到自1936年現代民調出現以來全國民調平均誤差的一半，也低于1992年以來的平均誤差。州內的民調則問題嚴重些，過高估計了對希拉里·克林頓的支持。但總的來看，美國民調不存在對某個黨派候選人的系統性偏差。全國和州內民調的趨勢線都顯示，在任何一次選舉中，民調在黨派傾向上是隨機的。

4、抽樣調查的未來

一部分調查研究者還在不懈地努力，想盡各種辦法維護抽樣調查的質量；同時，無論是社會環境的原因造成應答率下降，還是政府對抽樣調查經費的縮減，都使得抽樣調查不具有持續性。相比之下，非概率抽樣調查或大數據雖然成本低、時效快、數據量大，但數據質量不盡如人意。盡管大多數抽樣調查領域的資深學者都認為數據采集進入一個多工具的時代，但似乎每個工具都不夠完美，這會使基于數據分析的量化研究陷入困境：再完美的模型，如果建立在糟糕的數據上，也沒有用處，甚至有害。

筆者認為，研究數據采集進入了一個新的生態環境，抽樣調查、非概率抽樣調查和大數據是這個生態環境中互動的三個主體。

首先，三種數據采集手段短期內會各據一方。與之前一樣，在沒有扎實的理論支持下，政府仍然會繼續依靠傳統的概率抽樣調查手段，根據對有代表性的調查數據的分析，為政策制定提供信息支持。因此，主要承接政府項目的維斯塔特（Westat）等專業調查機構還在致力于概率抽樣調查的研究與實施。非概率抽樣調查數據和大數據的主要用戶是商業公司或媒體，主要是服務于自己的業務模型，或用于采集時效性強、成本低的社會數據。在學術研究上，知名的縱貫調查項目仍是重要的數據資源，然而也有一些研究會采用相對認可的新的技術手段。如美國政治學期刊《美國政治學評論》（American Political Science Review）在2023年10月網上首發的一篇學術論文中，研究者使用了兩種數據來源。兩個數據源都是非概率樣本，樣本量也不大，但是對這項研究很適用。同時按照要求作者也把所用數據及分析程序公布在哈佛大學的研究數據存儲（dataverse）網站上，供同行復制或檢驗研究結果。

其次，三種數據采集手段會互相校驗，概率抽樣調查仍是衡量非概率抽樣調查或大數據質量的參照基準。因此，培植高質量的抽樣調查仍然必不可少。調查研究者們在執行過程中采用響應式調查設計降低調查誤差的同時，也要利用或開發不同的統計工具，加強對缺失數據的處理等方面的研究。同時，調查研究者們也需要建立一種數據質量的度量，供用戶來區分不同類型的調查，或不同類型的估計值的質量，并且教育用戶該怎樣選擇數據。如大數據工作組的專家們基于抽樣調查的總調查誤差提出了大數據總體誤差（Big Data Total Error）框架，孟曉犁提出的“數據缺陷指數”都是潛在的評估工具。

最后，三種數據采集手段融合使用，將促進不同數據源的組合。美國國家統計委員會（Committee on National Statistics）的一個小組已經開展研究，以“促進聯邦統計項目的范式轉變，即使用來自政府和私營部門的不同數據源的組合，而不是單一的普查、調查或行政記錄”。他們認為，抽樣調查范式已經衰落，而新的統計需要基于抽樣調查數據和非抽樣調查數據的組合。然而，多數據源的組合會遇到諸多障礙，但這是一個不可避免的趨勢，并且是值得努力的方向。

塞翁失馬，焉知非福。對于抽樣調查來說，也許正如庫珀所希望的，多種數據采集工具并存可以減少對抽樣調查數量的需求，進而減少對受訪者的過度攪擾，轉變人們對于抽樣調查的態度，從而將抽樣調查做到“少而精”，回歸到1960年以前的“黃金時代”。

中企檢測認證網提供iso體系認證機構查詢，檢驗檢測、認證認可、資質資格、計量校準、知識產權貫標一站式行業企業服務平臺。中企檢測認證網為檢測行業相關檢驗、檢測、認證、計量、校準機構，儀器設備、耗材、配件、試劑、標準品供應商，法規咨詢、標準服務、實驗室軟件提供商提供包括品牌宣傳、產品展示、技術交流、新品推薦等全方位推廣服務。這個問題就給大家解答到這里了，如還需要了解更多專業性問題可以撥打中企檢測認證網在線客服13550333441。為您提供全面檢測、認證、商標、專利、知識產權、版權法律法規知識資訊，包括商標注冊、食品檢測、第三方檢測機構、網絡信息技術檢測、環境檢測、管理體系認證、服務體系認證、產品認證、版權登記、專利申請、知識產權、檢測法、認證標準等信息，中企檢測認證網為檢測認證商標專利從業者提供多種檢測、認證、知識產權、版權、商標、專利的轉讓代理查詢法律法規，咨詢輔導等知識。

本文內容整合網站：百度百科、搜狗百科、360百科、知乎、市場監督總局

免責聲明：本文部分內容根據網絡信息整理，文章版權歸原作者所有。向原作者致敬！發布旨在積善利他，如涉及作品內容、版權和其它問題，請跟我們聯系刪除并致歉！

本文來源： http://www.rumin8raps.com/zs/202101/ccaa_18719.html

• 如何讓質量管理擺脫＂空架子＂？	• 質量管理的8大誤區!
• SOP！你的作業指導書是無效的！	• 質量部門角色該如何轉變？
• 如何做好品質？五步讓你得心應手！	• 如何編寫質量控制計劃
• 六個質量典故，全面詮釋質量管理	• 品質異常停線處理作業辦法
• 提高產品質量的331法則！	• 質量過程管控比質量結果更重要？

ERP和MES如何做到優勢	PPK與CPK定義，差異分
PMC六大工作流程與四	看美的公司是如何做MS

欧美极品第一页,一区二区三区四区高清视频,久草成色在线,在线观看网站免费入口在线观看国内

【質量】從美國大選來看抽樣方法