更多科技互联网猛料,请点击右上角关注我~
记得上周人民日报被删除的那个 Twitter 制造了很多风暴。
不幸的是,虚摇一枪,什么也没发生,但李彦宏的朋友圈很有趣~
李先生对百度的技术非常有信心,认为在中国,他可以用技术和创新击败谷歌,而不用担心谷歌进入中国。
结果第二天就被网友打脸了。
百度上的 “ 滑嫩 ”、“ 鲜嫩 ” 都是美女图片,谷歌搜索这些内容,出现了一些美食等等。emmm。。高下立判。
爆料后,百度程序猿加班加点,终于处理了大家发现的敏感词汇。
然而,今天发生的一件事让差评君意识到,谷歌在另一个方面早已超过百度,不仅仅是搜索算法。
下午,差评君正在调查黑产品,用百度搜索一个 QQ 网页版的内容基本上是随机凑合的,图片搜索是空的,没有结果。
不放弃的差评君用谷歌再试一次,结果。
给大家看一。
真的搜索了差评君想要的,因为这个 QQ 说到黑产,骗子只把它放在图片里,而不是放在网页上。
也就是说,Google 现在已经开始识别和提取互联网上的图片文本,并建立索引!
在我们的印象中,搜索引擎通常会根据图片旁边的文本描述来标记图片,或者使用神经网络来识别图片上的物体,而不是扫描和阅读图片上的文本内容。
图片用神经网络分类:
所以很多时候,当你搜索图片上的文本时,搜索引擎不会给你正确的结果。
不知道谷歌什么时候偷偷给自己的搜索引擎升级了!
为了看谷歌的图片识别文本达到了什么程度,差评君开启了疯狂验证模式。
首先要验证图片上的数字是否可以识别~
Emmm,先搜索身份证号。这是百度的结果:
再用谷歌搜索一下?
嗯。。你感到有点害怕吗?!想想你是否在网上上传了你的身份证照片?如果它被泄露到互联网上,你可以通过身份证号码直接获得身份证照片,后果有点严重。
差评君借了一个小伙伴的身份证,分别在百度和谷歌上搜索 “ 1201031993 百度还是什么都找不到,谷歌又回到了一堆结果。
这些图片无一例外都有 1201031993 这些数字。
令差评君惊讶的是,谷歌在提取图片文本时,不仅仅是最简单、最基本的图像识别。
就像上面第二张图数字是垂直的,但谷歌仍然正确识别,这表明谷歌的识别算法将自动匹配文本的旋转角度。
如果不是纯数字,带英语怎么办?只有在图片上,没有出现在网页上的文本真的很难找到。最后,差评君试了一张车牌照片 “ A·K8896 ” 搜了一下。
嗯,百度出来的图片都是八竿子打不着的,很正常。
那谷歌呢?
你也可以试试你的车牌是否可以找到
给,这是差评君十年的膝盖,请接受。
这张照片是差评君随机找到的一张汽车照片。谷歌的技术甚至找到了隐藏在车身下的不那么明显的车牌号大。
谷歌能在图片中识别中文吗?
经过测试,幸运的是,中文仍然是谷歌图片未征服的堡垒。目前,谷歌似乎只识别图片中的字母和数字。
在文章的第一个例子中搜索了图片的中文,没有返回图片:
但差评君好奇的是,谷歌搜索引擎什么时候开始识别图片文本?
谷歌没有给出官方消息,相关讨论也很少。2016年 谷歌的老板也否认谷歌在识别图片文本。
不过在去年 7 月份有个博客主和差评君有类似的发现,所以至少去年谷歌偷偷升级了~
事实上,谷歌很早就积累了图片文本识别相关技术—— OCR ( 光学字符识别 )。
这个技术本身并不难,谷歌最早会 OCR 应用于书籍扫描和转换文本,这样只要你搜索书中的一句话,它就能给你正确的书籍。
谷歌解析图片文本的专利:
现在,谷歌已经将这项技术应用在互联网的所有图片上。
差评君之所以感到惊讶,是因为我们每天要产生大量图片,光在 Facebook 和 Instagram 上每天就产生近 4 亿张图片,微博上每天产生1.5 亿张图片,保守估计互联网上每天要多出 8 亿图片。
而谷歌对每张图片都进行 OCR 算法处理,获取里面的文本信息,这是一项海量的工程,消耗太大了。。但谷歌还是做到了。。
Google 实时翻译也是用的 OCR 技术:
这样大大提高了大家使用搜索引擎的效率,让大家更容易找到自己想要的结果~
不过在以前,正是因为大家默认搜索不出图片上的文本,才会放心的把一些资料保存成图片放到网上。
现在随着这项技术的成熟,恐怕图片也不再保险。。谁能想到一个身份证号,就把身份证图片都搜出来了呢?
如何兼顾技术和隐私,恐怕未来需要谷歌好好处理一下~
图片来源:
1. 新视角,李明明
2. 北美留学生日报
3-5、7-15. 差评
6. damon
16. Techgyst
参考资料:
1.《用谷歌和百度同时搜索“鲜嫩、滑嫩、胸膜”等词后…李彦宏赢了》,北美留学生日报
2.《 Google: No, We Don’t Understand Text In Images 》,Barry Schwartz
3.《 How Much Data Do We Create Every Day? The Mind-Blowing Stats Everyone Should Read 》,Bernard Marr
4.《Does Google Read Text in Images? NEW Evidence Says Yes!》,Steve Toth
5.《互联网上一天产生的流量,到底有多少?》,财经头条
“ 吓得我赶紧把微博里面的图片都删了。。 ”
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至827202335@qq.com 举报,一经查实,本站将立刻删除。文章链接:https://www.eztwang.com/dongtai/50897.html