跳至正文

Amazon Fire Phone 的 Firefly 识别功能是怎么工作的

《Amazon Fire Phone 的 Firefly 识别功能是怎么工作的》有1个想法

  1. 到目前为止,Fire Phone 是唯一能够满足我对“智能”的有限想像的智能手机。(多图)
    这里以我有限的见识描述下Firefly 识别功能:

    1、Firefly 所能识别的项目

    A. Text : 泛指图像文本识别(Image Text ),有别于OCR(Optical Character ),而是类似名片识别,拍照翻译等功能,其终极问题是 Google’s New Street View Image Algorithm Can Beat Most CAPTCHAs

    B. Audio : 音频识别,如歌曲识别(这一领域的先驱Shazam使用户可以在任何地方通过歌曲的任何一个音轨对其进行识别),电视节目识别等;

    C. Image : 图像识别,主要是基于内容的图像搜索(Content Based Image Retrival),更近一步讲是类似重复图片检测(Near-plicate Image Detection),只要是数据库中存在的样本图像,只要查询图片是对其的重采样或编辑,总是可以找到原样本图片,这样就给人造成可以识别上亿商品的表象,说白了就是一对一的匹配,而非广义的图像识别。

    这三项与小李子在KDD2012开幕式上演讲提到的九个需要解决的计算机问题的前三个OCR、语音识别、图像搜索(Nine Real Hard Problems We’d Like You to Solve [Abstract, Slides: PDF])[4]不谋(也可能是有谋)而合,尽管有所出入,但大抵是这个意思。可咱贝爷已经实现了,而且意指很明显,肯定能用它赚上钱,小李子你在忙啥,忙着跟Ng秀基情么?

    文本识别和音频识别相对来讲识别对象明确些,且小生对这两块了解有限,接下来只讲图像识别这块,这边的战斗更多彩,摄像头做为移动设备的入口之一,早已成为兵家必争之地。

    2、摄像头后面的头

    烧不起器材的穷吊经常用“摄影不在于镜头多牛,而在于镜头后面的头” 解毒,这里我替贝爷喝句"FireFly就是摄像头后面的头",还在比像素你们真是LOW!

    从摄像头捕捉到的图像中,FireFly做了这些:
    二维码/条形码 识别;
    电话号码/邮箱/网址 识别;
    图书/CD/DVD/游戏封面,电影海报 识别;
    艺术品识别;
    商品识别;

    听上去好像也就这样,企鹅家的微信和G家的goggles也有类似功能嘛,但是它们有巨大的区别!咱先说说贝爷为这事有多么努力骚年你们可知道呀:

    2009年A9收购Snaptell[1],A9是amazon的子公司。Snaptell主要业务是手机图像检索,即通过手机摄像头抓拍到的图像搜索相关信息。官方介绍他们的算法非常之精准,可以对付遮挡,光照不均,扭曲,透视,缩放等等,总之很牛。他们的算法名字叫"highly accurate and robust
    algorithm for image matching: Signed Gradient
    (ASG)"。创始人之一Rajeev Motwan在斯坦福大学指导过google创始人Larry Page 和Sergey Brin[2]。

    2011年11月发布Amazon Flow应用程序,是一款增强现实的购物iPhone应用,它使用条形码和图像识别技术,让购物者直接在摄像头视图中获得信息。Flow可以识别出的书籍、DVD、CD、视频游戏和其他有包装的东西,比如一盒饼干——无论是通过扫描产品的图像还是条形码,通过识别媒介产品的封面、logo、艺术品以及其他一些独特的视觉特点来工作。Flow是亚马逊的子公司A9运营的,A9是亚马逊旗下的专注搜索和广告的部门[3]。

    嗯,就是这么过来的,贝爷都这么努力了,骚年们还在晃悠什么,战斗去吧。

发表评论