搜索引擎如何規(guī)避不恰當(dāng)聯(lián)想詞?
搜索引擎,可以通過聯(lián)想詞使得人們在使用時更加的便利,但是與此同時,也帶來了一些麻煩。人類有固有的思維盲區(qū),讓他們在設(shè)計算法和流程的時候,實在是難以預(yù)料用戶會出現(xiàn)什么樣的不當(dāng)使用行為,導(dǎo)致什么奇葩的結(jié)果。
有媒體報道,通過搜索引擎,可以找到一些“相約自殺”的QQ群、微信群等,成為有些年輕人自殺的誘因。搜索引擎方面自然對這種聯(lián)想詞功能的問題責(zé)無旁貸,然而媒體和公眾花樣翻新的測試,總是讓產(chǎn)品設(shè)計者防不勝防。
為了讓我們更方便的使用搜索,聯(lián)想詞是必然要加入的一項功能。而對人們的意圖進行聯(lián)想和預(yù)測,也是未來人工智能語音助手變得更好用的基礎(chǔ)前提。但是,人類固有的思維盲區(qū),讓他們在設(shè)計算法和流程的時候,實在是難以預(yù)料用戶會出現(xiàn)什么樣的不當(dāng)使用行為,導(dǎo)致什么奇葩的結(jié)果。
往往只有在媒體曝光,公眾關(guān)注以后,他們才能知道運算的結(jié)果如何,然而此時,錯誤已經(jīng)鑄成。
一、為您推薦
年輕人在網(wǎng)上相約自殺的行為,中外都有。在中國,主要的網(wǎng)絡(luò)平臺載體就是QQ群、微信群等地。幾天前《法制晚報》報道,又有三名青年通過QQ群“相約自殺”成功。
看到孩子遺體的父親在悲慟欲絕之余,還質(zhì)問網(wǎng)絡(luò)平臺說:
“聊了那么久,網(wǎng)站看不到嗎?網(wǎng)絡(luò)平臺沒有審核么?不承擔(dān)任何一丁點的責(zé)任么?”
不管事實上看不看得到,從公司主觀層面,騰訊當(dāng)然都要說看不到用戶的聊天記錄。這一點可能不會遭遇什么異議,你當(dāng)然也不希望自己在群里剛說了一句話,五分鐘后就有警車呼嘯而至什么的吧。
不過,在《法制晚報》的報道中,記者在百度上搜索“自殺群”關(guān)鍵字,就能非常容易地找到很多QQ群的號碼。公開展示的信息,和私密的群聊是兩碼事。
報道稱:結(jié)果頁面不僅有聊天記錄截屏。相關(guān)新聞報道,而且每次點擊結(jié)果后,都會通過聯(lián)想詞自動“為您推薦”一些關(guān)鍵字,包括“約死微信群2018、 2018 相約死亡群、 2018 想死扣扣群”等。
筆者小時候曾經(jīng)幫不太懂電腦的同學(xué)和家長找過資料,時常被詢問“為什么我這么半天搜不出來,你一搜就有了”,這實在三言兩語很難講清楚。
但是,很顯然百度的這些關(guān)鍵詞聯(lián)想功能,給了一些可能不太熟悉搜索引擎語法的用戶機會,讓他們可以獲得更精準(zhǔn)的結(jié)果。
二、防不勝防
記者向百度反映之后,百度已經(jīng)修正了相關(guān)檢索結(jié)果?,F(xiàn)在你再搜索“自殺群”時,就不再顯示帶有具體群號碼的討論,基本上看到的都是相關(guān)事件的新聞,持續(xù)十幾二十幾頁都是這樣。
而且,讓航通社感受頗深的是,跟“相約自殺”有關(guān)的搜索結(jié)果清理工作,在今天( 6 月 26 日)持續(xù)一整天都在不斷進行。
今天上午,航通社測試在百度貼吧搜索框當(dāng)中打“相約自殺”,并選擇“全吧搜索”,還會發(fā)現(xiàn)帶著QQ群號碼的一些帖子;“相約燒炭”“燒碳”等一些變種也有帖子存在。但到了下午 4 點左右再測試,這些頁面刷新之后基本都被清理了。
然而,媒體曝光的問題修改起來總是容易的。進一步操作的話就會發(fā)現(xiàn),還有一些“高?!钡亩叹渌阉鹘Y(jié)果未作處理。
在貼吧搜索“相約燒炭”,旁邊的“大家都在搜”提示了“燒炭多久可致人死亡”、“車?yán)餆肌?、“燒碳如何確保必死”、“ 2017 有燒碳死的嗎”這些短語。
筆者相信它們的形成機制,和報紙記者測試出現(xiàn)的“約死微信群2018”等是一樣的,機器不太可能無中生有地造出這些排列組合。每一個關(guān)鍵字的后面,很大程度上都可能有不止一個真人親自打出過這些詞。
只要簡單想想,就令人后背發(fā)麻。
三、是不是有專門的員工盯著
在知乎,有關(guān)于百度的三個“經(jīng)典問題”:
“百度作了哪些惡?”
“為什么有人說百度以一己之力全面降低了中國互聯(lián)網(wǎng)體驗?”
“為什么老師說‘百度搜索不是什么正經(jīng)的東西’?”
在這些問題下的數(shù)千個回答中,有些提到的現(xiàn)象現(xiàn)在再看,已經(jīng)無法重現(xiàn)。而有時在某個回答成為熱門之后很短時間,其中提到的不妥當(dāng)?shù)乃阉鹘Y(jié)果就會被清理。
筆者一度懷疑,有專門的百度員工盯著這些“招黑”的帖子和媒體報道。不過有自稱的百度員工回帖說,一般他們都是路過看到,順手貼進內(nèi)網(wǎng)論壇,也通過這一渠道報了很多Case。
實際上,面對一部分搜索結(jié)果的Bug(特別是和盈利不明顯掛鉤的問題),百度并不是毫無作為,同時也樂于將一些搜索結(jié)果的改善大舉宣傳,作為企業(yè)履行社會責(zé)任的一部分表現(xiàn)。
具體到“自殺”問題,百度和國內(nèi)其他搜索引擎,均已和國內(nèi)相關(guān)的心理干預(yù)機構(gòu)建立了合作關(guān)系。在一些比較容易想到的詞語,比如說:“自殺”,“我想自殺”這類關(guān)鍵詞結(jié)果頁,都會出現(xiàn)求助熱線電話號碼,以及求助方式,基礎(chǔ)知識等等。
至少有一部分人選擇自殺時,并不是經(jīng)過深思熟慮的,只是一時間想不開。與此同時,他又沒有接觸過關(guān)于自殺的一些基礎(chǔ)知識,包括死亡的代價,尋死的疼痛,無法挽回和來不及后悔的具體含義。
也許,如果他們有機會了解到相關(guān)的知識,那么他可能就會被嚇到,或者被勸阻,從而重新認(rèn)真的思考自己這一決策是否合理。
但是,這個關(guān)鍵字提醒功能,并未涵蓋“自殺群”、“相約自殺”等詞,也沒有覆蓋所有的“死法”,比如:“上吊”、“跳樓”有,但“燒炭”、“安眠藥”沒有。
這很顯然與百度的分詞策略有很大關(guān)系,“自殺”關(guān)鍵字的相關(guān)頁面無疑是人工干預(yù)的結(jié)果,而產(chǎn)品經(jīng)理頭腦風(fēng)暴以后想不到的一些詞,就只會由系統(tǒng)自動展開聯(lián)想。
具體到“自殺群”這個詞,因為在近一兩天產(chǎn)生了大量新聞和轉(zhuǎn)載,全國轉(zhuǎn)載媒體達到幾十家,所以這可以組成一個自動的新聞專題。我相信記者寫稿時看到的結(jié)果頁肯定不是這個樣子,但是已經(jīng)沒有辦法去查證了。
當(dāng)“自殺群”關(guān)鍵詞被系統(tǒng)認(rèn)為是新聞熱點的時候,在頁面右側(cè)的推薦結(jié)果當(dāng)中,就會提示“相關(guān)人物”——最近有什么名人自殺了,以及其中包含的“知名演員”。
雖然看不到具體的QQ群號,但是顯示的是有多少名人和自己一樣,也選擇了自我了斷,這可能對有自殺念頭的人來說,并不是一個非常正面的激勵。
此外,也有網(wǎng)友指出,百度雖然對“自殺”實施了干預(yù),但對造成后果同樣很嚴(yán)重的“自殘”卻沒有干預(yù)。現(xiàn)在( 6 月 26 日下午 4 點)搜索“自殘”,第二條結(jié)果是有人問“為什么自殘會覺得很舒服”。
四、盲區(qū)如何形成
如此看來,搜索引擎聯(lián)想詞惹出的麻煩,恐怕不能靠產(chǎn)品設(shè)計上事先根治,多數(shù)情況下是發(fā)現(xiàn)一個整改一個,跟打地鼠一樣。是什么導(dǎo)致了這樣的結(jié)果呢?
首先,與“自殺”相關(guān)的這一系列詞語,可以說在整個搜索處理流程中,并沒有達到一個極端重要的優(yōu)先級,換句話說就是還沒有成為“敏感詞”。
因為如果將“自殺”也設(shè)置為不可觸碰的最高等級詞語,你會發(fā)現(xiàn)自己連發(fā)消息,甚至發(fā)諧音字火星文代替都很困難。如果很多人自殺念頭只是一閃念,看這么麻煩,也許就偃旗息鼓了。然而,這樣做會很大程度上影響我們的日常交流,給人們帶來的不便,已經(jīng)超出了封禁可能帶來的好處。
但更重要的是:我們尋求結(jié)果的過程,從事后來看可以說是非常簡單,但是事前想要從零開始去想,那就非常困難。
這就像我們?nèi)ラ喿x一篇構(gòu)思精巧的偵探小說一樣。沒有經(jīng)驗的讀者,不知道這種小說會有什么樣的套路,面對謎題的時候會是一頭霧水的。但是當(dāng)最后真相終于揭曉的那一刻,我們再把它還原回去,就會感覺一切線索原來都預(yù)先設(shè)置好了,草蛇灰線的埋伏都是在情理之中的。
那么,為什么我們這么笨,就沒有想到呢?
其實不是我們笨,而是一些我們?nèi)粘?赡芩季S形成的慣性或者定勢,對我們造成了誤導(dǎo)。
小時候,老師用一個“棉花糖實驗”,教給我們做事要忍耐,要有毅力,抵御誘惑的道理。好像在有些地方,也被誤傳為“棒棒糖實驗”什么的。實驗內(nèi)容是給一些孩子們每人一塊棉花糖,如果他們?nèi)套?15 分鐘不吃掉糖,就能再吃一塊。當(dāng)然,馬上就吃也沒關(guān)系,但是不會有獎勵。
大多數(shù)小孩都忍不住吃掉了,或者搞小動作吃了一點點,自以為沒被發(fā)現(xiàn),最后能堅持 15 分鐘沒吃糖的孩子只有一小部分。然后呢,這一小部分孩子長大后果然堅毅勇敢有耐心,走上人生巔峰。
然而,《大西洋月刊》雜志最新刊登的一篇文章介紹了紐約大學(xué)和加州大學(xué)一項共同研究的結(jié)果,讓人大跌眼鏡——這項原本進行于 1990 年的“棉花糖實驗”的結(jié)論可能有誤。
確實有少數(shù)孩子比其他孩子更能堅持 15 分鐘,以拿到雙份的棉花糖,但這并不是因為他們更有毅力——而是因為他們家境較好,小時候就能經(jīng)常吃到好東西,所以并不認(rèn)為棉花糖是一個稀罕物。
我讀到之后既震驚又奇怪,為什么之前我只是被動的接受了老師指定的結(jié)論,或者是“標(biāo)準(zhǔn)答案”?為什么我都沒想到從另外的角度去看,或者懷疑它?
我想,對于百度的工程師和產(chǎn)品經(jīng)理們來說,他們顯然也不是全知全能的。說到給關(guān)鍵字添加溫馨提示,他們只能是想到“自殺”,以及“我要自殺”、“我想自殺”,沿著這樣的路徑去聯(lián)想。
他們不可能想到,“自殺”后面還可以跟著“QQ群”,或者是“相約”,或者是細致入微地采用自然語言詢問怎么自殺最快且不痛苦。
五、人人都是義務(wù)測試員
歷史上,搜索引擎因聯(lián)想功能而受到的抨擊,簡直是舉不勝舉。
2009 年 6 月,國家有關(guān)部門批評谷歌中國存在“大量淫穢色情和低俗信息”,使“大量境外互聯(lián)網(wǎng)上的淫穢色情信息通過該網(wǎng)站傳播到我國境內(nèi)”。
在《焦點訪談》節(jié)目中,有關(guān)部門演示了谷歌網(wǎng)站聯(lián)想詞搜索存在提示黃色信息的問題。例如:在谷歌中國中輸入“兒子”,下面卻出現(xiàn)了例如“兒子母親不正當(dāng)關(guān)系”等十幾個選項。
事件成為谷歌宣布退出中國業(yè)務(wù)運營的直接導(dǎo)火索,此后有網(wǎng)友指出,在報道播出前幾天,相關(guān)詞匯的搜索量異常驟增,導(dǎo)致該詞匯成為熱門關(guān)鍵字,因此可以進入聯(lián)想詞列表的前列。
直到現(xiàn)在,谷歌、Facebook、Twitter等網(wǎng)絡(luò)平臺所遭遇的跟關(guān)鍵詞、自動聯(lián)想推薦功能有關(guān)的無妄之災(zāi),也依然是層出不窮。
2016 年 12 月,在谷歌搜索框輸入“猶太人是”時,會顯示“猶太人是邪惡的”聯(lián)想詞。
2017 年 11 月,在YouTube搜索“how to have”時,會顯示“how to have s*x with your kids”(如何與你的孩子發(fā)生*關(guān)系,原文就有*號)。
2018 年 2 月,谷歌搜索會提供這樣一些聯(lián)想詞:“伊斯蘭主義者不是我們的朋友”、“希特勒是我的英雄”、“女權(quán)主義者是性別歧視”、“白人至上是好的”、“全球變暖是假的”。
媒體展開了憤怒的質(zhì)問:
為什么像我們記者這樣的普通用戶,都能一眼就發(fā)現(xiàn)的東西,你們谷歌有那么高明的技術(shù)手段,卻遲遲不能發(fā)現(xiàn)?
如同上面我們說過的一樣,雖然算法是普遍存在的,然而人的思維是有盲區(qū)的。所以,算法優(yōu)化的方向也是由人來指定的,那么它也只會把一個已經(jīng)知道的位置去掃描得事無巨細,卻完全管不到它和它的設(shè)計者可能想象不到的地方。
自動推薦是機器學(xué)習(xí)最典型的應(yīng)用,而這個“黑箱子”里面一向以人們不能掌握其具體運轉(zhuǎn)機制而著稱。就算歐盟通過GDPR立法,逼迫廠商公開算法細節(jié),恐怕那公開出來的,也是沒人看的懂的天書。
長遠來看,解決混沌的方法必須是還以混沌。也就是說,用機器學(xué)習(xí)去對抗隨機Bug,是解決所有未來這些聯(lián)想問題的唯一一個看起來可行的途徑。
具體到搜索關(guān)鍵字聯(lián)想,應(yīng)對不當(dāng)聯(lián)想的方法,除了人工標(biāo)記——就連谷歌在回應(yīng)媒體報道時,都只能說用到這個方法——可能就是要采用類似神經(jīng)網(wǎng)絡(luò)翻譯的手段:通過分拆和描述一個關(guān)鍵詞、短句的具體特征,計算某類詞匯(以及其錯別字變體)跟另一些詞一同出現(xiàn)的概率,并嘗試通過人工抽樣檢查等方式下判斷來訓(xùn)練機器。
如果機器學(xué)習(xí)實在到不了這種程度,一個非常簡單的方式就是一禁了之。
例如:任何出現(xiàn)QQ群號碼的帖子——也就是“QQ、秋秋、V信”等詞語,后面加上九位或十位數(shù)字——或者是手機號這類的信息,如果和“自殺”、“燒碳”連綴的話,我們根本就不讓它出現(xiàn)在百度搜索結(jié)果里,可不可以?
還是說起來容易,做起來難。全面禁止容易“誤傷”,為用戶帶來不便,而且出了問題以后,對系統(tǒng)改動的斷點越多,查找問題源頭時就越麻煩,最后可能越改越糟。
我愿意從比較善良的角度思考,相信百度、谷歌等這些提供算法推薦的企業(yè),并沒有因為出現(xiàn)時有發(fā)生的負(fù)面消息,而一口氣關(guān)閉推薦功能,初衷是進一步改善和優(yōu)化搜索結(jié)果,以至于讓它不斷的接近人類的思維可以達到的理想境界。
在這種改善產(chǎn)品的過程中,搜索引擎事實上推出了一個不完美的“半成品”,把所有使用這個功能的用戶、媒體等等,都當(dāng)成是其測試部門的“編外”工作人員。每一次搜索異常,都是在向開發(fā)者反應(yīng)一個錯誤的測試結(jié)果,或者是示范一種計劃之外的錯誤的用法。
對于程序員來說,他們可能學(xué)到的很多項重要的道理當(dāng)中,其中一條就是,永遠不要去試圖規(guī)范用戶該做什么,不該做什么,他總能找到你意想之外的使用方式。
然而,如果你試圖把所有的用戶當(dāng)做不花錢的測試員,這樣做的結(jié)果就是你必須要付出金錢之外的代價。
當(dāng)媒體以及社會輿論發(fā)現(xiàn)你這些錯誤,并且在社交渠道廣為流傳的時候,這就不是你能夠靠給媒體們發(fā)工資能解決的問題了——可能很多年之后,關(guān)于這個搜索引擎各種不靠譜的印象,還是會繼續(xù)流傳。
本文網(wǎng)址:http://kb521.cn/news/479.html
關(guān)鍵詞:醴陵網(wǎng)站建設(shè),株洲網(wǎng)站建設(shè),長沙網(wǎng)站建設(shè)
最近瀏覽:
相關(guān)產(chǎn)品:
相關(guān)新聞:
- 網(wǎng)站建設(shè)應(yīng)該如何進行SEO優(yōu)化?
- 怎樣才能找到符合自己需求的株洲網(wǎng)站建設(shè)公司?
- 如何實現(xiàn)全網(wǎng)整合營銷的效果?
- 株洲網(wǎng)站建設(shè)與移動端適配如何進行?
- 株洲網(wǎng)站建設(shè)需要關(guān)注哪些技術(shù)點?
- 怎樣實現(xiàn)株洲網(wǎng)站建設(shè)的快速上線?
- 你知道如何選擇適合自己的網(wǎng)站建設(shè)方案?
- 株洲網(wǎng)站建設(shè)如何做好SEO優(yōu)化?
- 如何評估株洲網(wǎng)站建設(shè)公司的實力?
- 株洲網(wǎng)站建設(shè)可以幫助企業(yè)招攬客戶嗎?