当前位置:首页 > 新闻资讯 > IT业界 > 新闻
太平洋两岸的创业竞速跑
  • 2014-1-21 15:26:31
  • 类型:原创
  • 来源:电脑报
  • 报纸编辑:邓晓进
  • 作者:电脑报记者 王星
【电脑报在线】一边是从麻省理工学院的技术精英,一边是清华大学的计算机专业毕业生;一个在美国硅谷,一个在北京中关村,大洋两岸的两个年轻团队,却瞄准了同一个新兴领域:图像识别。
    一边是从麻省理工学院的技术精英,一边是清华大学的计算机专业毕业生;一个在美国硅谷,一个在北京中关村,大洋两岸的两个年轻团队,却瞄准了同一个新兴领域:图像识别。

    在2014年的CES上,智能汽车与可穿戴设备成为了两大热点,而在它们背后,一些上游技术也迎来了新的机遇。图像识别便是其中之一——无论是智能眼镜对人脸的识别,还是智能汽车通过捕捉和分析路况与周边环境实现无人驾驶,它都是不可或缺的关键技术之一。
   如同许多新兴领域一样,图像识别领域既不乏巨头的参与,也吸引了一些创业者的目光。在美国和中国,两家由刚从知名高校计算机专业走出的年轻人创立的公司成为了这个领域的佼佼者,一场创业者之间的竞速跑正在太平洋两岸展开。

Orbeus:华人打造的硅谷明星创业团队


Orbeus的技术能分析出图片上的信息




Orbeus团队合影

   在CES上AMD公司的展厅一角,一台PC显示屏上演示的两个应用Demo吸引了许多参观者的注意。
   其中之一是一个智能相册,相册里有两百多张明星的人脸照片,人物、拍摄视角、光照、背景等属性各不相同;当你选定一个人物后,电脑会自动筛选出相册里所有该人物的照片,无论人物的装扮和所处场景如何。
   另一个应用同样是识别人脸,但针对的是视频;整段视频中出现的几个人物的头像会出现在屏幕下方,后面各自有一段时间轴;视频播放时,每当某人物出现在镜头中,对应的时间点就会被标记出来;而点击某个人物的头像,则可以看到视频片段中所有包含该人物的片段。
   展台前负责讲解的是几个年轻的华人面孔,他们并非AMD的员工,而是来自于一家名叫Orbeus的小型创业公司,主攻图像识别。一旁的AMD员工告诉记者,由于他们技术出众,也能做出有趣的Demo,AMD选择他们作为合作伙伴来展示自己基于异构系统架构(HSA)的新一代APU——Kavri。

 
   在CES开幕之前,记者来到了位于硅谷中心的山景城,拜访这家成立仅一年多的创业公司。他们的办公室在一个典型的美国别墅区内,是一幢独立的别墅;如同许多硅谷创业公司一样,五名全职员工都住在这幢房子里,吃、住、工作都在一起;而五名兼职员工也都居住在附近,利用业余时间来此办公。
   不过和大多数硅谷企业不同,这个团队核心成员均为华人,两位创始人王盟和刘天强都是来自中国的留学生,团队内的大多数成员也都有着类似的背景。在这间融合了工程师文化与生活气息的公寓内,刘天强和记者聊起了他们的创业经历。
   2012年初,刚从波士顿大学计算机系拿到硕士学位的刘天强认识了在麻省理工学院攻读博士学位、刚刚结束YouTube实习的王盟。在一次交流中,王盟说起YouTube的推荐机制是基于文本的,无法有效地对视频进行标记。
   “视频很长,但仅靠一段文字描述很有限,无法很好地把视频里的信息提取出来;视频网站都有自己的推荐系统,但主要是基于文本,像Youtube上只有3%的视频有很好的人工描述”。在他看来,二人共同研究的图像识别技术具备解决这个问题的能力,是个有很大前景的领域;刘天强也十分认同这个观点,两人一拍即合,便开启了这个项目。
   “当时我们手头上都有其他工作的offer,所以最初做这个只是出于兴趣,我经常去他家里做hackathon(黑客马拉松)。”三个星期之后,demo做出来了——一个很简单的网站,页面上有个文本框;上传图片之后,网页可以分析出图片中的一些信息,例如任务的表情、年龄、图片中的文字等。
   他们将这个demo发给了Y Combinator、TechStar等美国几家著名的孵化器,“当时也没抱太大希望,因为之前并没有中国人的团队进过这些孵化器,但结果很不错——我们是在截止期前一刻向TechStar提交的,只过了几个小时,他们的项目负责人就发邮件过来说想深入了解一下。”
   接下来,这个技术背景的华人创业团队一发不可收拾,先后以极佳的成绩入选了TechStar、Y Combinator、Excelerate Labs以及DreamIT的最终名单,在TechStar中更是获得了第一名的成绩,此外还进入了麻省理工学院的创业比赛$100K的半决赛,所有这些都是美国的华人创业团队的“第一次”。最终他们选择了较早给出Offer的Excelerate Labs,从波士顿搬到了后者位于芝加哥的孵化器里。
   意想不到的突破让王盟和刘天强下决心将Orbeus作为创业方向,于是他们找来了有投行背景的孟醒担任公司CEO,又通过不同渠道招募人才、扩充团队。在当年发到人人网上的一个招聘贴里,刘天强将Orbeus称为“波士顿地区今年最hot(火)的startup(创业公司)之一”。
   不过,当他们借助Y Combinator提供的机会到访硅谷后,他们迅速迷上了这个阳光灿烂的创业圣地,联想到Facebook正是将公司从波士顿搬到硅谷后才走向腾飞,Orbeus在离开芝加哥后正是落脚山景城。
   由于两个创始人均为技术背景出身,公司在经过一段探索期后将创业的方向定位从事图像识别的上游技术开发,面向对此有需求的公司提供API和SDK。此后的一年,他们先后与松下、AMD等厂商达成合作,也向包括国内开发者在内的App厂商提供了技术支持,并为Google Glass的开发者推出了支持人脸识别的SDK。
   在刘天强看来,Orbeus最大的优势在于用图像识别能力对于视频信息的提取,以及分析视频信息所带来的底层计算能力:“视频帧数很多,一个视频会有上万张、几十万张图片,;一下子后台能吃掉这么多图片的,业界的公司并不多。我们一开始就是要解决量大的问题。”他说,能处理大量的视频数据意味着底层有足够大的吞吐量,“它让我们不仅能够应对当前图像识别领域的算法,也可以从容应对新的算法。”
Face++:清华走出的“中国合伙人”
   
   Face++的人脸搜索演示


Face++联合创始人印奇


   当Orbeus的小伙伴们为准备CES的展示而忙碌时,在大洋彼岸的北京中关村,一个名叫Face++的公司也在图像识别领域耕耘。
   两家公司有着许多相似之处,成立更早的Face++就如同是Orbeus的孪生哥哥:三个创始人均为清华计算机系的毕业生,主攻计算机视觉方向;联合创始人印奇曾赴美国哥伦比亚大学攻读博士,但最终决定退学创业;Face++致力开发图像识别的上游技术平台,为开发者提供API;在国内,Face++也堪称明星级创业公司,2012年在《创业家》主办的黑马大赛上获得了冠军,2013年则进入了有“中国的Y Combinator”之称的创新工场,并获得了其投资。
   不过与Orbeus面向整个图像识别领域不同,Face++专注于图像识别的一个细分领域——人脸识别。谈到这一选择,印奇说公司最终“一定是想做大的图像识别”,但大方向上目前存在的一些问题让他们决定从细分领域起步:
   “一个是技术成熟度——人脸识别是研究时间较长的领域,相比之下,现在炒的比较热的商品识别等技术离真正成熟还需要更久的时间;而且人脸由于只处理一类问题,所以最终可能能更快地达到特别准确,并符合用户预期。第二,你做大的图像识别一定要从一类图片来处理,而人脸又是最重要的一类,包括在社交等各个方面,人脸的信息在图像信息的单类物品里面最重要的。所以我们选择最重要的并且最早成熟的一个领域来做。”
   2011年年底,Face++的三个年轻合伙人看到计算机视觉领域正在兴起,决定从这个自己十分熟悉的领域开始创业。“最开始没有想得特别清楚,只是把人脸识别技术和游戏相结合,后来觉得游戏不是我们的兴趣点,于是又回头专攻技术。”
   就在公司正式成立前后,印奇前往美国深造。据他透露,这是三人共同的决定,“他们放心派我去美国学习,我放心让他们在这边做,是因为我们三个人之间有很多年的同学交情,也是很好的朋友;并且你能够找到一帮能力很强又志趣相投的人来一起创业,本来就是一件很难的事情。”
 

   印奇不在国内的日子里,公司在另外两位创始人——唐文斌和杨沐的带领下稳步前行。在2012年的“黑马大赛”中,Face++从全国各地的数百个项目中脱颖而出夺得冠军,担任评委的奇虎360董事长周鸿祎、启明创投合伙人童士豪等知名投资人在接受本报记者采访时都对该项目给予了高度评价,认为人脸识别有足够大的市场,而且可以成为一项普适性的技术。
   在印奇看来,获奖的关键原因在于当时主打的概念在国内十分罕见:“当时的定位是做人脸识别云平台,而人脸识别和云平台都是比较新兴的概念”。
   不过在去年年初拿到创新工场的A轮投资后,Face++经历了一段沉寂期,在大半年的时间内很少被媒体曝光;印奇将这段时间成为“概念落地”的过程:“那时Face++的核心平台刚刚上线,只是一个雏形,还有很多东西需要积累,比如核心技术和后台。”随着团队的扩大与成型、技术方面的不断积累以及印奇退学归来,Face++又重新走上了快车道,频频在业界活动上露面。
   印奇很看好人脸识别在Google Glass等可穿戴设备上的应用,例如为脸盲症患者提供信息,帮助他们避免遇到熟人却想不起是谁的尴尬。不过目前国内对于这项技术需求最旺盛的是互联网和移动互联网领域,因此Face++的合作伙伴也以这类企业为主,主要包括两个方向:其一是以美图秀秀为代表的相机和图片处理类应用,它们利用Face++提供的人脸检测技术提升面部美化效果;其二是以世纪佳缘为代表的社区和以360搜索为代表的搜索引擎,它们利用Face++的人脸比对以及面部语义分析进行人脸搜索。
   “其实无论是人脸美化还是通过搜索寻找美女帅哥,这些都是偏娱乐化的应用场景,而我相信娱乐是一种刚需。”目前,Face++的主要收入也来自于和这些厂商合作过程中收取的技术授权费。
   尽管和Orbeus一样是以打造技术服务平台为核心,但Face++也正在研发自有产品,例如通过人脸进行锁屏和解锁的应用。“我们在提升技术服务时也会选择一些比较看好的方向,从幕后走向台前。”
同样的领域,不同的创业环境
   作为一个新兴的热门领域,图像识别领域汇聚了许多科技公司。苹果、Google、百度等巨头都在这一领域投入了大量的研发经历,而Facebook和雅虎也先后收购了Fac*.c*m和IQ Engine等创业公司。
   在上海,一个名叫亮风台的创业团队前不久推出了一款通过拍摄应用图标搜索、安装应用的工具,也在业界引起了一定反响,并与91助手达成了深度合作,为其提供图标搜索接口。
   不过与以网站或移动应用为创业项目的产品类创业公司相比,技术类创业公司无论在美国还是中国都是小众:Orbeus是Excelerate Labs里第一个纯技术团队;而印奇则坦言作为纯技术型公司,Face++是国内创业公司里的异类,也因此获得了不少关注。
   但记者走访过的一些技术类创业公司普遍认同的一个观点是:在美国,技术类创业公司的创业环境要远优于中国。
   刘天强从投资者的态度和市场竞争两个方面来对比中美技术领域的创业环境。
   “(在美国)很多投资者是有远见的,觉得这个技术将来做到某个时候会有爆发点,或者他看得到市场的,他就会去投。国内的投资人我们也接触过,他们更偏向于投产品,可能会投一些短线的,不太会做长线;他们对于项目可能没有太多考量,关键是你要能挣到钱,就算中途换一个项目也没问题。”
   而谈到竞争环境,他则说国内的巨头在所谓“微创新”方面不仅针对产品,近年来也涉足技术领域,“你有一个技术,他也会找人来跟你谈合作,如果它觉得技术好的话它也会自己找人来做;国内的人力也便宜”。而在美国,一方面抄袭所受到的舆论压力会更高;另一方抄袭技术很可能需要组建新的团队,而美国人力成本较高,“招的这个团队还不一定是最合适的”;因此刘天强看到的是,更多美国巨头在看到好的技术时会选择战略投资或收购。
   “像我们这样的故事在美国会更受到追捧,”印奇也坦言,尽管国内的投资环境正逐渐变好,但投资者仍会更加看重创业者是否有明确的商业模式和盈利前景,“在美国如果投资者相信这个东西未来一定会火,而你是这个领域最好的,他就会以很高的价值来评估你”。
   他表示,接下来除了技术研发,也会将更多精力花在对“技术能干什么”的展示上,“在国外你可能安心做技术就行了,在国内你必须两边都做,需要做一些辅助的事情来证明你”。
   不过身为中国人,在美国创业也会面临一些国内所没有的风险,例如人才成本高、易流逝。刘天强表示,尽管仅有5名全职员工,但人员成本是目前公司最主要的开支。相比地处清华大学门口、能凭借校友圈关系吸引到许多优秀的实习生的Face++,由东部的波士顿移师硅谷的Orbeus在人才招募方面面临着更大的困难,刘天强也坦言这是公司当前最主要的困难。
   而在此之前,公司也经历过几次变动,例如创始团队成员、前CEO孟醒选择回国、投身游戏领域。不过在刘天强看来,Orbeus能在所有核心成员都没有拿到绿卡的情况下就完成创立公司、为员工发工作签证、融资等一系列工作,已经十分难得,“我们那期Excelerate Labs中的另外两个国际团队目前都面临着很大的困难,有一家已经基本放弃了。”
   谈到未来,刘天强希望Orbeus能在图像、视频识别领域取得像Nuance公司在语音识别领域的地位,并更进一步,成为一个能解决所在领域所有问题的大平台;而公司现任的CEO李轶则表示,Orbeus的愿景是成为图像识别领域的“大脑”,就像Google在搜索领域一样。在被问道是否觉得这一目标过于宏大时,李轶表示,这样的想法在美国的创业公司中很普遍,“你首先要敢想,才有可能做到”。
   印奇同样将Google视为Face++的榜样,不过他在谈到公司未来的定位时则显得较为低调:“我们有个口号叫’be different, be interesting’,我们希望做不一样的事情,并且把这件事情做得有意思;我们也会坚定走技术创业的路线。”
深度学习给人脸识别带来了什么?
   在交流人脸识别技术的过程中,印奇也谈到了深度学习。深度学习在图像识别领域为人们所熟知的应用是在海量图片中识别一类物体,这大概要归功于Google发布的那段“找猫”的视频。
   不过人脸识别是一个细分领域,经过多年的积累,人脸检测和脸部关键点定位的技术都已十分成熟。而且在这一领域,人们通常需要机器去做的也不是在海量 的不同类型的图片中寻找有人脸的图片,而是在海量的人脸图片中找出与指定的图片相同的人,即人脸比对。那么深度学习在这个领域能带来哪些帮助呢?
   印奇说,传统的深度学习是辨别不同的类别,而在人脸识别领域,深度学习被用于辨别同一类物体里不同个体的,“更精细化,所以更难”。
   
   “你想想,一个机器,你教懂它猫和狗的区别,和教懂它你和我的区别,其实后者更难,因为同一类物品的变化更细微。”
   此外,深度学习还能用于补全人脸信息,例如给出一个人的正面照,让机器来绘制出它的侧面。
   印奇说,按目前Face++的技术,用一张正面照能较为精准地识别60度以内的侧面照,即两只眼睛都可见的情况。如果角度更大,则需要补充额外的信 息,“比如我只见过你正面,没见过你侧面,我要去识别的话,可能需要见过100万人的正面和侧面的联系才能推测出你的侧面长什么样子。”
   这正是利用了深度学习的思想。“如果没有其他的关系,它一定不能(补全人脸信息),因为这不符合常理;但如果机器学习了一亿人的正面和侧面,那你给我一亿零一个人的时候,我其实可以做到,我可以用我之前学到的知识帮你做这件事。”
   不过印奇认为现在的技术距离完成这项工作还有很长的路要走:“你给我一张普适的人脸照片,我肯定做不到;但如果你进行一些限定,或者我给你补一个70%-80%,那应该是可以做到的。”
   
 

技术对话
人脸识别背后的技术解析



   电脑报:人脸识别的基本流程是怎样的?
   印奇:首先找到人脸在哪,然后是关键点定位,把眉毛、眼睛、鼻子这些点用作识别的基本信息,然后再做识别。按我的理解,现在的人脸检测和关键点定位已经相当成熟,符合大家预期了。但在关键点定位之后的识别这块还没有做得特别成熟。
   在这里我们是把人脸当作特异化的物体来处理。假如我要做狗的识别,那模块其实缺了很多,首先我都找不到这张狗,一张图里有只狗,机器不知道哪是狗, 也不知道哪是狗的头,哪是狗的尾巴;而人脸的模块已经成熟了,并且只做这类图片时我们会提取之和这类图片相关、其他图片没有的特征。
   
   电脑报:传统基于关键点定位的人脸识别技术有哪些问题?
   印奇:传统的人脸识别更多的是图像层面的比对,比如说要检测人脸和关键点,然后把两个图片做像素或者图像里的特征值的比对。这些比对在光照等因素影响下都会变化很大。而我们更加讲究高层语义识别,比如你的话,我们会给你定义男生,年龄在20岁到25岁之间,然后还有五官的类型,这就跟自然语言理解是一样的,你只有跟人一样去理解人脸,你匹配的结果才能符合人的预期。
   
   电脑报:如何测定人脸识别的精确度?
   印奇:如果有人给你一个数字,说精确度是多少,那一定不靠谱。首先人脸识别跟场景特别相关,如果大家都是证件照,很规整,那肯定很简单;如果大家有正脸有 侧脸,那肯定很难。所以给这样一个概念:当用户没有特别奇怪的场景,角度不是特别大,两个眼睛都能看见,光线还比较正常的情况下,现在我们的系统能做到1 比1000左右的精准识别,你可以认为它满足人们的预期,在这里面找这个人一定能找到;如果是1比10000,那可能能在前10个人里面找到你。这是用户 给我一张照片的情况,如果用户给我一段视频或者多张照片,那精确度会随之增加。未来我们肯定是希望能在1比几万甚至十几万能够做到比较精准的识别。
   
   电脑报:海量图片数据能给你们带来什么帮助?
   印奇:这也是我们为什么现在这个节点做人脸识别。正因为有这么多数据,你的技术才有可能飞跃,就像Google当年做搜索,如果没有用户反复点击的数据, 你也没法做得好。然后深度学习也是一个大的方向,深度学习也是需要很海量的数据。就像你说的,有一个正面照,能否知道它的侧面,就是需要很海量的数据才能 完整这件事情。
   
   电脑报:除了人脸比对,脸部的信息还有别的价值吗?
   印奇:还可以知道人的属性、情绪,尤其是跟广告很有关的。广告所需要的大部分信息都是可以通过人脸来分析的,甚至是人的年龄、保养程度等。 
本文出自2014-01-20出版的《电脑报》2014年第03期 A.新闻周刊
(网站编辑:pcw2013)


我来说两句(0人参与讨论)
发表给力评论!看新闻,说两句。
匿名 ctrl+enter快捷提交
读者活动
48小时点击排行
论坛热帖