1. 首頁
  2. 其他

看透資料的真相的方法

看透資料的真相的方法

在我們的工作、生活中,經常能接觸到各種各樣的資料、調查結果,這些資料和結果都是正確的嗎?哪些資料有誤導性?哪些資料有限定條件?哪些資料不可以比較?本次分享告訴大家如何解讀資料,如何看透資料的真相!

【案例一】樣本的代表性

1936年《青年文摘》對美國總統大選的結果進行預測,結果失敗,問題出在調查方法上(調查物件是其讀者,調查方法為電話調查)。1936年有能力購買電話和訂閱雜誌的人並不能代表所有的選民,至少在經濟上,他們是一個極其特殊的群體,是有偏的,事實後來證實他們有許多人是共和黨的選民。但是如果調查選擇的樣本是代表性的,能代表全部選民那麼調查就能得到準確的預測結果。

l 蓋洛普為什麼預測美國大選的結果很準確?他們採用抽樣調查方法,在全國各州按比例選擇調查物件對總體有很強的代表性 。

【案例二】樣本量是否足夠?

我們來調查“喜歡大番茄的人多還是小番茄的人多”,究竟調查10個人、20個人還是100個人得出的結論是準確的呢?我們選擇多少個人作為調查物件,即需要多少個樣本量的決定因素有很多,總體的大小,總體內部的變異程度等等。總體的大小很容易理解,調查全市市民和調查一個班級哪個需要的樣本量大呢?顯然是前者。至於總體內部的變異程度,舉個例子,如果總體只有100個人且這100個人差異不大,或許十幾個樣本就已經足夠了,但是如果這100個人每個人差異性都很大呢?是不是要選取更多的樣本才能更真實反映100個人的情況呢?

舉一個用研的例子:對於整個淘寶網買家的調研,基本上我們要保障1500的樣本量,而對於某一類目賣家的調研可能幾百就足夠了(比如機票等類目賣家較少)。

PS:抽樣經驗:1500以上的樣本量基本就能很好地代表總體,無論總體有多大。

【案例三】敏感、隱私話題

對於一些敏感、隱私的話題,被調查者對於你的提問可能不會反映最真實的情況。如果採納這些不真實的資訊,會使得調查結果不準確,比如圖中詢問“您更喜歡閱讀哪本雜誌?”,可能有很多人明明更喜歡閱讀《東周刊》卻選擇《鳳凰週刊》,原因在於擔心選擇前者可能會被大家認為是一個喜歡偷窺隱私的人。因此對於敏感隱私的話題,不必面對面調查,可以採用集體填答問卷的形式或者電話調查的方式,並且說明我們的保密原則,結果就會好很多。另外有些隱私話題不用直接詢問,可以從不同角度確認這些資訊,例如詢問“每月您的消費支出水平”,我們可以透過詢問“購買哪些品牌的衣服”“經常去哪兒就餐”等問題從側面收集資料。

【案例四】平均數的陷阱

假設你是某個小型製造企業的3個合夥人之一,到了月底給企業的90個職工發了99000元,你和合夥人每人共獲得5500元的工資,最後還餘下21000元作為利潤可供你們3個合夥人平分。你會選擇哪一種表述公示呢? 肯定是後者,因為顯得收入分配更公平,但其實每個人拿到的錢還是和前者一樣。因此需要特別注意這些平均數背後的真相。 l 國家統計局釋出《2009年國民經濟和社會發展統計公報》,其中稱“70個大中城市房屋銷售價格上漲1.5%”,數字公佈之後,引起了代表委員和社會輿論的`廣泛質疑。從數字看起來房價上漲很少,但為何與我們的感受不一致,主要原因還是在於平均數,這一數字對房屋種類、地區、地段、樓層、朝向、時點等因素而差異較大的樣本進行綜合平均統計,過度消除了價格變化。

l 統計局公佈1月CPI數字,因為春節假期央行再度加息,市場曾預期1月CPI必將再創新高,甚至有望接近6%數字,可實際數字4.9%卻讓人頗為意外。原因就是統計局CPI統計的新權重:居住類、醫療保健類、娛樂教育文化類價格權重上升,食品類權重下降。而食品類價格卻是百姓感受最明顯的一個指標,因此平均時權重差異也使得我們感受與數字之間產生差異。

【案例五】一樣的資料,不一樣的圖形

為了讓沒有直接接觸資料的人也能直觀地感受到其中的一些資訊,人們發明了各種各樣漂亮的統計圖表。但是就是“客觀”的圖表裡面也存在著各種各樣的陷阱。在製作統計圖表時,一個常用的欺騙手法便是改變統計圖形的座標尺度,從而改變了整個圖形的增長趨勢或是陡峭程度。 天平兩側的圖是用同一組數字繪製的,只是改變了縱座標的刻度範圍,卻使得兩幅圖看起來具有完全不同的增長趨勢。 此圖反映了某年9月27日某時的黃金價格走勢。上面兩幅圖描述的是相同時間段的黃金價格走勢,顯然,左邊的金價急升更容易讓人產生激動的心情。即使標出了橫縱軸的刻度,這兩幅圖給普通人留下的第一印象也大不一樣。

【案例六】 結論的使用範圍、限定條件

對於這一則廣告,從廣告詞來看,此感冒藥效果很好,但是在這裡我們需要問兩個問題:在人的喉嚨裡會不會發揮作用?這些細菌是感冒細菌嗎?顯然如果廣告詞沒有標明結論的限定條件,我們並不能就此認為此感冒藥到底有何效果。因此我們特別要關注有些結論的限定條件,並不是所有條件下結論都成立。 正是由於結論受到很多條件的限制,我們在調查中如果要得到較為穩定的結論,則需要探究一些較為穩定的現象。使用者的行為經常在發生變化,如果我們僅僅是關注使用者的行為,可能我們要不停地去做重複的調查,但是除了行為外,其實很多使用者需求層面的東西是比較穩定的,我們的調研也會重點關注這些方面,行為會變但是需求層面的東西會比較穩定,因此我們不會僅僅設計一些很操作層面的問題,拿酒店頻道舉例,我們不會只提問“您為什麼在查詢之後預訂我們的酒店”,我們還會詢問“您經常去哪些渠道預訂酒店”“您經常住哪一型別的酒店”等等,從各個方面去看使用者最內在的需求。

【案例七】口徑不同的數字不可比較

如果告訴圖中所示資訊,你肯定會認為美國海軍的死亡率低於紐約市民。但是大家想一下:美國海軍與紐約市民的年齡結構是一致的嗎?海軍都是青壯年而紐約市民中很一部分是死亡率極高的老年人,這兩個人群的死亡率可以比較嗎?顯然是不行的。國家統計局公佈2009年上半年,中國城鎮單位在崗職工平均工資為14638元,與上年同期相比增加了1674元,增長12.9%。有網民稱,統計資料與自己的收入不符。為何數字公佈與網民感受不符呢?關鍵在於納入國家統計局口徑的不是所有勞動人口,而是城鎮國有單位、集體單位和股份合作、聯營、有限責任公司、股份有限公司、外資和港澳臺商投資單位的員工,不包括私營單位、個體工商戶和靈活就業人員,而往往低收入人群廣泛存在於漏掉那部分人群中。因此在看到一個統計結論時一定要仔細辨清其統計口徑。

【案例八】真的是因果關係嗎?

如果給出全班所有成員的成績,又給出是否抽菸的情況,你發現抽菸的學生成績都比較差,你是否就能得出“抽菸導致低分”的結論呢?抽菸與低分之間可能還有性格、家庭等各方面的因素。兩個變數一起變動只能代表他們相關但不能代表他們是因果關係。

此圖給出了兩種很容易被我們誤解為A與B之間有因果關係的情況,雖然A與B同時變動,但是他們的變動都是由Z引起的,而不是本身的因果關係,這樣的情況我們需要特別注意。 總結以上八個案例,特別提示大家注意以下問題: 根據抽樣得出的結論一定要採用具有代表性的樣本 在樣本量足夠時誤差才會較小,結論才會可靠 對敏感隱私問題需要多方驗證 看到平均數時首先問問是平均了什麼? 同一種資料的不同展現方式帶來的陷阱 大部分結論都有其限定條件和適用範圍 口徑不一致的資料不能拿來比較 兩個數字同時變化並不能用於說明因果關係如果在看到很多資料以及結論的時候想到了以上八個問題,並且在心中回答出以下四個問題:“研究方法科學嗎?”、“表達方式有誤嗎?”、“這些數字可以比較嗎?”、“結論有限定條件嗎?”,那麼恭喜大家練成了火眼金睛,不用害怕掉入任何數字的陷阱了!


[看透資料的真相的方法]相關文章:

1.看透資料的真相的方法