大家在網路上申請各種帳號的時候,常被要求填寫「驗證碼」;例如將一張圖片上扭曲的字打出來,或是從多張圖片中選出有「紅綠燈」的。這個技術主要是用來判斷申請者是不是人類,而它是由路易斯馮安(Luis von Ahn)所發明的。而他都免費的將這個服務提供給網路平台商。那他的公司如何賺錢?

1. 暑假娛樂是數學解題,到糖果工廠卻只愛拆機器

大家暑假時都會如何打發時間?每天睡到自然醒、24小時不斷玩電動、和朋友整天膩在一起、還是出門旅行?

出生並成長於80年代瓜地馬拉 (Guatemala) 的路易斯馮安沒有網路、手機,所以他暑假的娛樂就是找來下學年的數學課本,然後一題一題的解。在解題的過程中,馮安愛上了數學,以及解決難題。

除了解題,馮安也愛玩電動。8歲那年,馮安要求母親買一台任天堂的遊戲機給他。但母親卻買了一台Commodore 64家用電腦。雖然8歲的馮安完全不懂得使用電腦,但想要玩電動,而且又熱愛解決問題的他,很快的就靠著閱讀使用者手冊,搞懂了如何操作這台機器。

Commodore 64
Commodore 64 來源:Wikipedia

同時,馮安還發現他只要將向朋友借來的電腦遊戲,複製到自己的磁碟片中,就可以擁有這個遊戲。於是,他開始用手上的遊戲和附近的年輕人們交換,很快的他家裡成為了小小的電玩收藏室。到了週末,馮安會在他母親家開的糖果工廠中渡過。和他同輩的親戚們都愛到工廠吃免費糖果,但馮安對工廠裡的機器更有興趣。他每次都找機會將不同的機器拆開然後重組。雖然常因為有零件漏了沒有組回去而被罵,但他依然樂此不疲。

雖然馮安的成長的過程看來非常多姿多采,但那個時候的瓜地馬拉其實正處於內戰中,局勢非常混亂,治安非常糟糕。15歲那年,馮安一位親人被綁架。這讓馮安決定要離開家鄉,到美國生活。

2. 用系統分辨電腦後面是不是人類,解決讓雅虎頭痛的問題

馮安在18歲時,被美國北卡州最頂尖的杜克大學 (Duke University) 錄取,主修他最擅長的數學系。2000年大學畢業後,他進入了卡內基梅隆大學 (Carnegie Mellon University) 就讀資訊工程系博士班。

馮安原本想繼續就讀數學系,但在一次和數學系教授的聊天中,發現教授正在研究一個300年來都沒有人能夠解開的難題。馮安想,300年都沒有人能夠解決的問題,他怎麼可能解開?但他在拜訪資工系時,看到的結果卻完全不一樣。因為資工是比較新的科系,每位教授都可以說出最近幾個月來他們解決了什麼問題。這讓喜歡解題的馮安覺得更有成就感,因此決定要轉換跑道。

一天,馮安和指導教授一起去參與了由雅虎(Yahoo)主辦的座談會。當天雅虎的工程師介紹了10個雅虎沒有辦法解決的問題。這讓愛解決難題的馮安精神一振。他在座談會結束後,馬上開始和指導教授一起討論這些問題。2000年時的雅虎,是一家頂尖的科技公司。因此,連雅虎都無法解決的問題,當然都是非常複雜的。在思考了好幾個月之後,馮安總算為其中一個問題找到可能的解決方法。

雅虎其中一個重要的服務是提供免費的電郵地址,但每個地址一天只能寄出500封信。於是,很多駭客就寫程式,不斷申請新的帳號,然後用這些帳號發出大量垃圾郵件。這個現象讓雅虎非常頭痛。馮安覺得,人類無法24小時坐在電腦前申請新帳號,所以要解決這個問題,只要能夠分辨出操作電腦的是人類還是程式就好了。

那有什麼東西是人類可以輕易做到,而程式不行的?馮安認為「看圖說故事」是連小孩都可以輕易做到,但對電腦來說卻是非常困難的事。因此,他設計了一個系統,將扭曲的文章與數字放在圖片中,然後請要申請電郵地址的人,輸入圖片中的字。成功輸入對的人,才會被允許申請新的電郵地址。這就是第一版的「驗證碼」(CAPTCHA)。

CAPTCHA中的扭曲文字
CAPTCHA中的扭曲文字 來源:Wikipedia

馮安將這個系統簡稱為CAPTCHA,因為CAPTCHA聽起來像是英文的「抓到你了」,代表他們成功抓出用程式申請電郵地址的人。而CAPTCHA的全名是:「全自動區分電腦和人類的公開圖靈測試」(Completely Automated Public Turing test to tell Computers and Humans Apart) 。

在確保CAPTCHA可行之後,馮安寫了一封電郵給雅虎,並附上了他的程式與簡單說明。大約一週後,雅虎就在它們電郵地址申請的頁面上加入了這個驗證功能,可見它們真的很想要處理這個問題。21歲的馮安雖然解決了雅虎的問題,但卻沒有因為這樣而致富。因為,他沒有向雅虎收取任何費用,CAPTCHA是免費提供給雅虎的。

網路上的其他廠商看到雅虎驗證碼,也開始推出類似程式。不久後CAPTCHA就成為了網路上常見驗證方法。

3. 隨機結合兩個人玩遊戲,順便為網路照片貼標籤

在解決了雅虎的問題後,馮安繼續回到他的博士論文:找出人類可以做到,但電腦無法完成的事,並設法讓人類來輔助電腦。

在有了CAPTCHA的經驗後,馮安決定繼續朝著「看圖說故事」的方向前進。他設計了一個網路遊戲,將參與者隨機配對成兩人一組,然後給他們一張圖片,並請他們猜對方看到圖片時會想到什麼。例如,參與者看到一張101大樓的照片,就可能會寫下:「101」、「建築」、「高樓」、「台灣」等不同的詞。而遊戲就是要看那一對能夠寫出最多相同的詞。

這個遊戲延續馮安優良的怪咖命名傳統,被稱為「ESP 遊戲」(Extrasensory perception,第六感)。這邊表面上看來是「心靈感應」的遊戲,其實後面在解決的,是「電腦無法分辨照片」的問題。透過這個遊戲,馮安就能為網路上照片貼上標籤,讓電腦以後也可以透過使用者的輸入,找到正確的照片。今天,大家一定覺得這個技術沒什麼了不起,因為我們在Google輸入「101」,就能夠找到各式各樣101相關的照片。而這正是運用了馮安研究的成果。

ESP遊戲的畫面
ESP遊戲的畫面 來源:Research Gate

ESP遊戲在2005年正式上線,在4個月內,它成功吸引了1萬3千人使用,並為約30萬張照片加上了超過130萬筆標籤。2006年,Google發現了這個研究,就向馮安購買了使用權,並設計了類似的產品。這個名為Google Image Labeler的工具就能夠讓使用者標註上傳到Google的照片。

4. 想要免費使用服務,就要「義務」協助電子化紙本內容

博班畢業後,馮安打算繼續留在卡內基梅隆大學做研究。但這時,他接到了來自比爾蓋茲的電話。由於馮安之前曾在微軟實習,所以裡面的主管都很想招攬他加入微軟研究團隊。但馮安一直堅持要做自己的研究而婉拒。微軟因此決定要出絕招,找來了創辦人比爾蓋茲親自打電話給馮安。他們在電話中聊了約半小時,但馮安最後還是沒有加盟微軟。

回到卡內基梅隆大學當講師的馮安還是繼續思考「人類」和「電腦」如何搭配。這時,他忽然想起使用CAPTCHA每次都要花5-10秒的時間,輸入驗證碼。但由於使用者很多,所以這些時間累積起來也非常可觀。於是,他開始思考如何更好的利用這些時間。

在這個時,隨著電子儲存技術的進步,很多公司都開始研究如何將過去數以萬計的紙本書籍數位化。而可行的方法只有兩種,第一是手動輸入,但這個方法耗時耗力,而且容易出現輸入錯誤。另一種方法,就是將紙本掃描後,利用光學文字辨識技術 (OCR) 去辨別這些文字。但是,辨識技術一般來說大概有20%的字是無法辨識的。而那些年代久遠導致文字不清晰的書,就更難被辨識了。

於是,馮安再次想起了人類「看圖說故事」的能力。於是,他改良了CAPTCHA的做法,並將它命名為「reCAPTCHA」,然後再次免費提供給有需要的網站。唯一不同的是,使用這個服務的網站需要將使用者輸入的字回傳給馮安。

reCAPTCHA和CAPTCHA最大的分別,是在於它不是提供使用者一組經過扭曲的文字,而是兩組。其中一組是系統已經知道答案的文字,另一組則是從掃描紙本得來的。只要使用者能夠正確回答前一組,那系統就會認為後一組的解答也是正確的。系統同時還會將同一張掃描內容發送給多個使用者交叉驗證,以確保不會有人答對了前一組,卻不小心打錯了後一組的狀況。所以,使用者在輸入驗證碼是,同時也在為紙本的電子化盡一份力。

reCAPTCHA提供兩組扭曲文字
reCAPTCHA 提供兩組扭曲文字 來源:Wikipedia

系統上線後,馮安找了一些小網站合作,但在2006年,有一家新興網站主動聯絡他,想要使用這個服務。這個網站就是後來著名的Facebook,而這也讓reCAPTCHA的使用量暴增。

之後一場演講中,馮安分享了reCAPTCHA如何能夠協助電子化藉由的紙本資訊,而《紐約時報》技術長正好在場。會後,這位技術長就告訴馮安,《紐約時報》在全面電子化之前,有約130年的紙本內容。他想要馮安報個價,看看要將全部內容電子化大概需要多少錢。

但馮安起初並沒有想到reCAPTCHA能夠如何賺錢,甚至也沒有想要用它來賺錢(就如CAPTCHA和ESP遊戲一樣,只是他的研究)。因此,他只好急忙想辦法估算需要的費用。最後,他不知從何算出電子化一年的內容,要收42,000美元這個數字。但《紐約時報》沒有討價還價,只要求他每完成轉換一年的內容,就請款一年的費用。

托Facebook的福,reCAPTCHA那時候已經有非常多用戶,所以只要一週就大約能將《紐約時報》一年的紙本電子化。更好的是,馮安其實並不需要做些什麼,只要確保reCAPTCHA的系統有正常運作,就可以每週收到42,000美元。

而在這個時候,馮安的老客戶Google正好啟動了自己的電子書計劃。它們看到了reCAPTCHA後,就決定再次向馮安購買這個系統。就這樣,馮安再次將他的研究賣給Google。

在收購了reCAPTCHA後,馮安因為合約的關係,短暫地進入Google工作。而在2012年,reCAPTCHA每天大概能夠協助辨識1.5億個需要被電子化的字。

但馮安的研究並沒有停止。很快的,他又再為「看圖說故事」找到新的應用,而且還設計出一個線上語言學習App Duolingo。不過,這又是另一個故事了!

*本文由「創新拿鐵」授權轉載,原文:他婉拒了比爾蓋茲,曾將兩個產品賣了給 Google!這位來自瓜地馬拉的教授,教我們用「免費」來「賺錢」

責任編輯:李頤欣