新一代的“谷歌”或許不遠(yuǎn)了,未來(lái)的搜索將靠計(jì)算機(jī)視覺(jué)
在舊金山街頭,會(huì)有人使用一個(gè)叫“Alice Who”(神馬愛(ài)麗絲)的APP。
你只要把手機(jī)攝像頭對(duì)準(zhǔn)一棟建筑,或一家餐廳,“Alice Who”就會(huì)告訴你,這是什么地方,這家餐廳叫什么名字;“Alice Who”還能夠幫你鏈接去美國(guó)版的大眾點(diǎn)評(píng)網(wǎng)Yelp、FourSquare等,讓你能夠了解這家餐廳的詳細(xì)信息和評(píng)價(jià)。
有了Alice Who,地方搜索變得異常簡(jiǎn)單,就像有一個(gè)當(dāng)?shù)氐暮糜言谏磉叄阊劬聪蚰膬?,這位當(dāng)?shù)嘏笥丫湍芨嬖V你看到的是什么。這或許就是未來(lái)的搜索體驗(yàn)吧!
看似簡(jiǎn)單的應(yīng)用,背后包含了復(fù)雜的技術(shù)。對(duì)于戶外環(huán)境中建筑、店面的識(shí)別,一直是計(jì)算機(jī)視覺(jué)的難點(diǎn)。如何讓計(jì)算機(jī)看清楚,看得準(zhǔn)?即使戶外的光線千變?nèi)f化,即使環(huán)境中存在眾多干擾因素?
帶著這些問(wèn)題,硅谷密探連線了Alice Who的開發(fā)者,以色列創(chuàng)新公司Fringefy的聯(lián)合創(chuàng)始人Assif Ziv,請(qǐng)他介紹了Fringefy在計(jì)算機(jī)視覺(jué)技術(shù)領(lǐng)域的研發(fā)情況,以及Fringefy的愿景和方向。
獨(dú)辟蹊徑的計(jì)算機(jī)視覺(jué)技術(shù)
計(jì)算機(jī)視覺(jué)puter Vision)是近年來(lái)大家談的較多的話題。無(wú)人駕駛汽車、無(wú)人機(jī)等產(chǎn)品漸漸進(jìn)入大眾視野,如何讓機(jī)器能夠像人一樣,有看見(jiàn)、辨識(shí)周圍環(huán)境的能力,成為這些產(chǎn)品成功的關(guān)鍵。
隨著計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展,人們開發(fā)了不同的手段來(lái)幫助機(jī)器“看見(jiàn)”物體。大部分技術(shù)是基于同一基礎(chǔ)的,那就是點(diǎn)狀云(Point Cloud)。通過(guò)3D掃描物體,構(gòu)建點(diǎn)狀云,然后用點(diǎn)狀云訓(xùn)練機(jī)器的算法,讓機(jī)器能夠辨識(shí)出這個(gè)物體。
?。≒oint Cloud 示意)
但是,這種標(biāo)準(zhǔn)的技術(shù),在室內(nèi)適用,識(shí)別物體、人臉都很給力,卻不擅長(zhǎng)識(shí)別戶外建筑。在戶外,隨著光線的變化,不但建筑反光的顏色和強(qiáng)度會(huì)變化,陰影會(huì)變化;此外,建筑物周圍的行人、??康能囕v,也會(huì)影響機(jī)器對(duì)其的識(shí)別。
?。☉敉猸h(huán)境和物體受多種因素影響,圖片來(lái)自asl.ethz.ch)
舉個(gè)例子,我們?cè)谏衔?0點(diǎn)拍攝的咖啡的圖像,與下午4點(diǎn)再次拍攝的圖像,對(duì)于機(jī)器識(shí)別來(lái)講,可能是完全不同的兩個(gè)場(chǎng)景。并且,建筑物的體積較大,人通常并不能拍到其全貌。這也給機(jī)器識(shí)別帶來(lái)了挑戰(zhàn)。
而Fringefy的計(jì)算機(jī)視覺(jué)技術(shù)主要集中于應(yīng)對(duì)這些挑戰(zhàn)。Fringefy所開發(fā)的算法,專注于把握建筑的幾何形狀,而非整體和細(xì)節(jié)。也就是說(shuō),通過(guò)把握建筑的門、窗及主要結(jié)構(gòu),避開光線和干擾物的影響。
Azzif的團(tuán)隊(duì)已經(jīng)專注開發(fā)這個(gè)技術(shù)兩年,并在美國(guó)申請(qǐng)了專利,成為同一領(lǐng)域的最前沿的公司。
首先,他們的商業(yè)模式是什么?
其實(shí),“Alice Who”APP只是Fringefy推出的一款展示用APP。Fringefy真正的商業(yè)模式,是通過(guò)提供API或SDK為客戶提供服務(wù)。
目前,F(xiàn)ringefy的目標(biāo)客戶包含三類。
第一類是地區(qū)搜索引擎,如Yelp、大眾點(diǎn)評(píng)、Trip Advisor等,讓這些搜索引擎的用戶,能夠非常簡(jiǎn)便的用手機(jī)攝像頭識(shí)別周圍環(huán)境,提供不一樣的搜索體驗(yàn)。
Fringefy的第二類目標(biāo)客戶是品牌和公司,這些公司希望通過(guò)分析其用戶在社交媒體上發(fā)布的照片的地理位置,來(lái)獲得商業(yè)洞察。例如,這些公司的用戶,通過(guò)社交媒體發(fā)布了自己的照片,但并沒(méi)有注明拍攝地址。Fringefy可以幫助客戶分析這個(gè)圖片,告訴客戶,這是什么地方,從而幫助客戶分析其用戶的行為模式和喜好。
而第三類,當(dāng)然是國(guó)防和安全行業(yè)了。以色列政府目前也是Fringefy的合作伙伴之一。
Azzif告訴硅谷密探,F(xiàn)ringefy成立到現(xiàn)在,盈利模式也經(jīng)歷了多個(gè)變化。最先是希望通過(guò)授權(quán)技術(shù)給客戶來(lái)盈利,例如收取年度授權(quán)費(fèi)用。后來(lái),逐漸轉(zhuǎn)向提供API,基于客戶所消費(fèi)的圖像分析服務(wù)的數(shù)量和需求來(lái)收費(fèi)。
(Assif Ziv)
如何快速準(zhǔn)確地進(jìn)行圖片識(shí)別?
通常,F(xiàn)ringefy會(huì)把用戶通過(guò)手機(jī)攝像頭捕捉到的圖像,與數(shù)據(jù)庫(kù)中的圖像進(jìn)行比較、匹配。那么,如何將一個(gè)圖像,與云上的成千上萬(wàn)張圖像比較, 并且快速、精準(zhǔn)?背后的兩個(gè)關(guān)鍵詞是:數(shù)據(jù)庫(kù)和標(biāo)簽策略。
Fringefy的數(shù)據(jù)庫(kù)來(lái)源分為兩類。對(duì)于一些客戶,例如國(guó)防安全類的,客戶會(huì)負(fù)責(zé)提供圖像數(shù)據(jù)庫(kù)。但是Fringefy也能夠自己抓取公開網(wǎng)絡(luò)上的圖像,快速形成圖像數(shù)據(jù)庫(kù),例如,Yelp,Trip Advisor等網(wǎng)站上,有用戶上傳的大量圖片,包含了建筑外觀,并有相應(yīng)的地點(diǎn)信息。
在制作“Alice Who”APP時(shí),F(xiàn)ringefy建立了整個(gè)舊金山的商業(yè)類建筑的數(shù)據(jù)庫(kù),包括所有的餐廳、酒吧等,只用了2到3天的時(shí)間。目前,這個(gè)公開網(wǎng)絡(luò)數(shù)據(jù)抓取的能力,還不是全自動(dòng)的。Fringefy的下一步,就是研發(fā)能全自動(dòng)的從浩瀚的網(wǎng)頁(yè)上抓取圖像,形成數(shù)據(jù)庫(kù)的解決方案。
不過(guò),如果每次都要將一個(gè)圖像與云上的成千上萬(wàn)張圖像比較、匹配,可能會(huì)減緩識(shí)別的速度。所以Fringefy配合使用了標(biāo)簽(signature)策略,讓計(jì)算機(jī)算法根據(jù)某類標(biāo)簽,先進(jìn)行預(yù)篩選,然后再匹配識(shí)別,以配合現(xiàn)有的電腦處理的條件。
例如,地址可以作為一種標(biāo)簽。當(dāng)用戶在某一個(gè)地點(diǎn)用攝像頭捕捉圖像時(shí),用戶的手機(jī)會(huì)上傳地理位置信息。Fringefy就能根據(jù)這個(gè)地理位置信息,先篩選出數(shù)據(jù)庫(kù)里附近的建筑的圖像,再與用戶手機(jī)捕捉到的圖像進(jìn)行匹配,從而更快、更準(zhǔn)的得到結(jié)果。
數(shù)據(jù)庫(kù)里關(guān)于被拍攝建筑的圖像越多,F(xiàn)ringefy就能越快、越準(zhǔn)確的得到答案。對(duì)于小型的建筑,例如一個(gè)咖啡館,只要云端數(shù)據(jù)庫(kù)上有10到20張圖像,F(xiàn)ringefy就能很準(zhǔn)確的辨識(shí)出這個(gè)建筑。而對(duì)于中央火車站這樣的大型建筑,大約需要500張左右的數(shù)據(jù)庫(kù)圖像。目前Fringefy能夠做到的程度是,在80%的實(shí)驗(yàn)中,能準(zhǔn)確的辨識(shí)出建筑。
以色列政府資助,邁出第一步
跟很多以色列公司一樣,F(xiàn)ringefy的三位創(chuàng)始人是在服兵役時(shí)認(rèn)識(shí)的。Assif Ziv和另外兩位創(chuàng)始人都在空軍服過(guò)役。在空軍訓(xùn)練中,他們體驗(yàn)了高端的AR技術(shù),產(chǎn)生了把這樣的技術(shù)帶到民間的想法。離開軍隊(duì)后,Assif和朋友們組建團(tuán)隊(duì),并獲得了以色列政府的投資。
(Fringefy團(tuán)隊(duì))
獲得以色列政府的孵化投資時(shí),F(xiàn)ringefy只有一個(gè)技術(shù)概念,和一個(gè)簡(jiǎn)單的展示(demo)。但至關(guān)重要的,F(xiàn)ringefy有四個(gè)關(guān)系緊密的顧問(wèn),對(duì)如何解決建筑識(shí)別的技術(shù)提出了很多想法。顧問(wèn)團(tuán)隊(duì)幫助Fringefy拿到了這筆重要的投資。據(jù)Assif透露,這筆投資占到了他們迄今籌得的總投資數(shù)(約150萬(wàn)美元)的一半。
初創(chuàng)團(tuán)隊(duì)工作了數(shù)個(gè)月,驗(yàn)證了技術(shù)的可行性,并做出了產(chǎn)品。之后,他們將目光轉(zhuǎn)向了硅谷。在這里,有大量的潛在客戶,例如社交媒體,例如無(wú)人汽車、無(wú)人機(jī)公司。而Fringefy的第二輪融資,主要來(lái)自硅谷,例如硅谷的投資機(jī)構(gòu)Rothenberg Ventures 和 Super Ventures等,以及一些天使投資人等。
未來(lái),或許會(huì)是新一代的谷歌?
在成立之初,F(xiàn)ringefy的團(tuán)隊(duì)就有一個(gè)愿景。那就是把由技術(shù)帶來(lái)的“超級(jí)力量”帶給大眾。就像美國(guó)硅谷的技術(shù)創(chuàng)新最早是由軍方流向民間,在以色列也是一樣。Assif覺(jué)得,現(xiàn)在的時(shí)代是“天時(shí)、地利、人和”。
谷歌開創(chuàng)了一個(gè)時(shí)代。在那個(gè)時(shí)代里,谷歌將網(wǎng)絡(luò)上的文字內(nèi)容貼上標(biāo)簽(index),通過(guò)標(biāo)簽進(jìn)行搜索,使得搜索引擎成為可能。而漸漸的,隨著移動(dòng)設(shè)備的普及,人們更多的開始在戶外使用搜索引擎,而非在辦公室和家里。并且,移動(dòng)設(shè)備上的攝像機(jī)越來(lái)越強(qiáng)大,使得機(jī)器“看見(jiàn)”世界成為可能。
人們使用習(xí)慣的變化和硬件技術(shù)的前進(jìn),把我們推向了另一個(gè)未來(lái),那就是視覺(jué)搜索的時(shí)代。在這個(gè)時(shí)代里,一切的圖像、不管是平面的還是立體的,都可以被標(biāo)注、被搜索;這也是Fringefy想要一展自己所長(zhǎng)的未來(lái)。
這個(gè)未來(lái)還很遠(yuǎn)嗎?No。就像一句有名的廣告詞:未來(lái)已來(lái)。在硅谷,大公司已經(jīng)在大力投入,計(jì)算機(jī)圖像識(shí)別的創(chuàng)業(yè)公司被收購(gòu)、投資無(wú)數(shù)。在這里,投資者青睞的很多技術(shù),都指向同一個(gè)目的,讓機(jī)器更好的“看見(jiàn)”環(huán)境,并理解四周的環(huán)境。
而Fringefy,正在這個(gè)路途中大展宏圖。