閱讀摘要：我們是誰？大數據下的人類行為觀察

簡介：美國著名網站OkCupid創辦人透過經營交友網站得到一般研究無法取得的巨量且真實的數據，因為在半匿名的交友網站上，人們只依自己的想法行事、誠實地透露好惡，藉由統計分析解讀用戶創造出來的資料，並使用廣大的樣本數證實人們對某些議題的猜想、破解常見的迷思。

心得：本書透過三大主題：人際間的連結、人際間的分隔和兩個人如何交往，實案介紹大數據分析的實質運用，以視覺化方法提出對不同問題的洞察及解釋。作者選擇不同資料的圖表型態，清楚簡潔的凸顯出想表達的意涵，分析社交網路的大數據有助於我們深入了解人與人之間或自己對自己的看法，也作為公共政策、自我投資、企業徵才等活動的研究參考。

關於大數據的兩三句話…

隨著線上和真實世界逐漸融合，網路世界開始內建社會壓力，克制那些想在網路上造假的衝動。
資料科學雖然有選擇性偏差，但網路讓小人物有寫進歷史故事的資格，資料可以改變歷史的內容。
巨量資料顯示人類的故事；看出真實（四下無人時）人類的樣貌。
交友網站就是要讓人在一起，而要贏得使用者的信任，就得先了解他們的慾望、習慣和喜好。
網站希望你投票評分是因為這讓原本難以捉摸的你的意見變得明確，讓網站能夠理解並應用。
涉及個人偏好的評分時，圖表容易偏向一側而非鐘形曲線。
男性對女性吸引力感受程度之評分接近鐘形曲線，然而多半以為男性對女性外表有不切實際的期望。女性給分模式較嚴苛（分數較低）。

第一部分：我們為何互相吸引？

女人30歲前喜歡年紀比她稍微大一點的男人；30歲之後到40歲，喜歡年輕的男人，彼此歲數皆相差不大；40歲以後喜歡歲數相差大的年輕男，男人性感程度的極限約為40歲。結論：年紀上升，對女性有興趣的男性愈少。
男人只愛年輕嫩妹（20-23）男人的期望永遠長不大，然而男人「聲稱」自己想找的女性隨著年齡增長而增加（不是只停留在年輕女性）因為不得不妥協於現實及社會觀感，換句話說，對年輕女性有興趣但很少付諸行動。結論：年紀對男生來說並非負擔，經濟能力及地位的上升對年輕女性有吸引力。
對比男女期望的尋找伴侶年齡，發現是因為沒發現彼此目標不同而互相錯過，男性希望找到年輕女性而女性希望男伴一起變老。
排擠掉一些人，反而讓其他人更靠近；美就是讓你永遠忘不掉的，一張臉孔應該要讓人震撼，而不是讓人感到平和。缺陷是一股強大的力量，在人際關係上，大家都愛在某種程度上就是沒特色，有些人討厭表有些人更喜歡，換句話說，如果某些男人覺得某個女人醜，反而讓她的整體性感程度加分。
衍生理論：女性的吸引力高低取決於變異數大小（極端喜歡或討厭她的人數）和她實際整體吸引力，與眾不同（不管好壞）能夠讓人更喜歡你。因為評分低的女性，當覺得鍾意的男性看到時，會預期競爭對手低（畢竟特別）因此私訊機率高，然而長相中等的女性表很多人都有興趣，競爭高導致吸引力打折。結論：勇敢做自己。
問：推特拉低寫作水準？答：使用精簡語言;不會改變一個人的寫作風格。
改變對語言研究的看法：追蹤詞彙使用如何隨著時間而改變，可深入探究人類的集體心理、顯示我們如何看待抽象概念。結論：當今語言的變化比過去任何時候都多，其變化就是藝術的保存。
交友介紹時：40-60字元為最高回覆率；拿個差不多的訊息稍微修改寄出，得到的單位時間回覆率最佳！結論：別想太多在撰寫訊息！
兩個人關係的穩固程度：除了要讓網路交纏在一起，還要有特定的交纏方式。「誰不認識誰」是一項重要指標，同化程度高的夫妻在一起就能連結許多原本不相連的交友圈，換句話說，缺少你和配偶整個社交圈將會崩潰，高同化度表婚姻穩定性高。
造成服務人員無奈的原因，在於客戶不了解、也說不出自己的實際需求。
兩個人的長相對於約會是否成功幾乎沒影響，大家給約會正面評價的機率都維持在一定的水準。結論：還沒見面前，要求外表；真正見面後，外表不太重要了。
真正能決定彼此是否適合的因素在於關心政治與否而非特定的黨派或是信念，且對於那些看起來比較重要、了不起的事（信仰、政治、外表）人類通常會過度強調，然而這些事真正的重要性低於那些乍看不起眼缺很能看出兩人是否合適的問題（有沒有自己出國旅行過、喜不喜歡恐怖片）。
當沒法看到照片時，私訊比較容易回覆且交換電話的比例也較高。
交友網站清楚列出分類簡單的條件，希望有助於用戶下判斷、滿足願望，實際上很可能對尋求真愛幫倒忙，人們會從這些資訊做選擇，但這只因為他們可以這麼做，卻不見得真的該這麼做。有很多人因為預設條件被拒於千里之外，實際上這些條件在真實世界上可能根本不重要。在網上，你一定可以找到自己「想要」的東西；但講到你真正「需要」的東西，可能難找得多了。結論：其實大家並不真正懂自已想要的、所渴望的是什麼。

第二部分：我們為何互相排斥？

干擾因子：分析時沒考慮到，但仍會影響結果的因素。例如：要看兩個陌生人戀愛的表現時，種族就是干擾因子（雙方可能不平等）。
種族對速配指數（與外表無關）的影響小於宗教、政治或教育因素。事實上男性感受到的女性吸引力：男性通常喜歡自己種族的女性。不喜歡黑人女性（評分打75折）。評分人為一般組成大眾（單身、較年輕、教育程度高、大部分為自由派、比較都市化、亞裔6%黑人7%拉丁裔8%白人80%）。換句話說，歧視是普遍存在的，弔詭的是，84%的人選擇「絕對否定」當回答：如果某人表達強烈的種族負面偏見，你是否考慮和對方約會？這意味著84%的人根本不可能找到對象，這就是人類的矛盾之處。
線上交友（不喜歡帶著自己的社群網路）裡的種種，就只有你和你選擇的對方兩人的體驗，因此人比較能依照自己態度和期望行事。
女性對男性的評價：黑人及亞裔男子較不受青睞。更強調「白人偏好」；加上「白人」標籤得分皆會上升。白人姓名履歷得到回音的機率較黑人高出50%，即使是自稱「平等就業機會雇主」的公司。結論：種族歧視不是意外異常，而是普遍且無所不在的。雖然大多數美國人都知道種族歧視是錯的，但歧視仍隱隱存在於我們許多的決定之中。此一狀態為「基模」，表我們知道理想世界的樣貌但心理基模尚未跟上腳步。許多不起眼的日常行為並非出於歧視的意圖或感受，但反映出的整體文化仍是種族歧視。
另外觀點：黑人在其他國家（英國、日本、加拿大）較有吸引力，性感有時不在於骨架、肌肉、組織而在文化、期望及相關的影響。
種族主義不是一種急症，而是種緩慢、折磨人的過程，影響的不是日常代謝而是長久的生殖。
成功與美貌始終相關，對於求職者面試機會，外貌愈高，男性求職者曲線為線型（外表對未來發展影響不大）而女性為指數曲線。且女性求職者被用來衡量的特質與她們是否有出色的工作能力根本無關。
常常那些最醜惡、最分歧的態度就躲在自我和文化規範之後，想透過直接提問來突破，幾乎絕不可能。這種「社會期望偏誤」代表受試者回答問題時都想顧及顏面，光是「發問」這種行為，就會引發自我審查。唯有「搜尋」的時候不會受到偏誤的影響，因為那是你自己透露出你的想法。
搜尋引擎的自動完成功能顯示各種趨勢，然而也加深刻板印象。
謠言成了人與人建立關係、累積社會資本的方式。現在，透過分享資訊所建立的社會資本非常明確，人類散佈謠言的重點在於跟誰說，而不是謠言的當事人。網路也讓大家都成了公眾人物，然而掌握權力的還是那些抓住話語權的人及他們的投資者。結論：網路發言使我們達成「透過打壓別人抬高自己」這一慾望。
問題：為什麼我們定義自己時，那些我們所嚴惡的事情和我們所喜愛的事情一樣重要？
問題：人類為何透過羞辱自己的同類，感覺自己得到光榮？

第三部分：我們為什麼是現在這樣子？

齊夫定律：單詞出現的頻率與它在頻率表裡的熱門程度成反比-排名x次數=常數。此定律也適用於與人類體驗緊緊相連的各種社會概念，如城市規模或特定族群收入分布。可分析出有些最重要的事，人們通常看法一致。
透過自傳了解人的理想：比較特定族群與其他族群用詞頻率的排名，找出哪些字詞可以較適當的代表哪種族群（該族群使用頻率高但其他族群不太使用）。結論：各種族最常自認的特色，白人在於頭髮和眼睛、亞裔在於原籍國、拉丁裔在於音樂；這些排名表展現各個文化的「內部」觀點。
透過同志色情網站，發現每一州的比率相當一致，表同性慾望不受政治和宗教環境影響，也推翻同志非遺傳的說法。也可從圖表推測民眾對同志偏狹而不寬容的態度。
社會版的痛苦指數：多少比例的人口必須隱藏起來無法做自己。
同性、異性戀用詞分析：異性戀男女：關於個人（可能的）對象女同志：內在的探尋，較多自我描述，與異性戀用辭表相似男同志：充滿流行文化，少談到使用者親近的人或家人男性雙性戀是種詮釋性衝動的風格，而非性衝動本身；自稱雙性戀其實只是不承認自己是同志或異性戀，真正的雙性戀只是少數。
將人的行為和實際地理合而為一找出想要提供服務的市場及邊界。
DOLLY計畫：將所有具備地理標籤的推特文收成一個資料庫，收集彼此關聯的情感抒發文章，對應經緯度；例如：推特文反應的密度離真正的物理震央不遠，此應用更能直接反應地震的影響。計畫目的是希望看到文化在十年間的興衰演變。也可發現那些超越地域而非反映地域的社群。用「興趣」呈現集體意識地圖，代表我們能用自己覺得有趣好笑或重要的事情來定位自己。
跟隨者小於100人的用字：簡單、時效短的主題。跟隨者大於1000人的用字：大多是管理學的行話，說話方式像一家企業。購買追隨者：他們看起來愈受歡迎，就有可能真的變得比較受歡迎。然而，把自我當品牌可能導致「追逐空虛的數字」的後果。我們渴望自己的對話能得到注意、獲得認可，愈來愈希望被人按讚、有人回應互動，想得到他人的注意和認同。
網站上會顯示各種計數、總和、徽章，因為他們知道你一定會想回來看這些數字怎樣往上跑；業者就能把你逐漸提升的參與度化成數字、放上簡報、拿來打動投資人。
反對klout 分數將人簡化成數字，而不反對簡化資訊。個別使用者的資料集合形成人類整體樣貌，但企業得小心將人簡化成去人性化的使用者ID心態，畢竟抹滅人性的不是數字，而是經過算計的決定讓人不再當人。
政府和公司收集你私人生活的小部分，試圖把它組回成一個能夠讓他們利用的完整圖像。
作者認為大部分的人其實沒那麼在意隱私，也覺得當個人免費使用谷歌或臉書的服務時，就算是提供資料後得到的補償。
問：如何用一段音樂辨識這是哪首曲子？答：只要抓住旋律的升降變化就能辨識，音高、節奏、歌詞、編曲都可忽略不計，這種旋律升降曲線為歌曲的「parsons code」U表旋律向上、D表旋律向下、R表音符重複、·表開頭的音調，幾乎所有歌曲的code是獨一無二的。

上述喜愛的段落及句子皆節錄自：

書名：我們是誰？大數據下的人類行為觀察作者：Christian Rudder 出版：馬可孛羅