痛并快乐的搜狗AI黑客马拉松之旅
有一种比赛能让你着迷,不管是打酱油,还是亲力亲为,在决胜时刻,总能感受到团结的强大,那就是搜狗黑客马拉松。
引子
身披第二届黑马两项大奖(第三名+90后最喜爱)的光环和荣耀,我对第三届搜狗黑客马拉松充满向往,报名开启第一天便率先占坑。上一届,得益于熊总在创意、技术和语言文字组织上全方位的强大,自己既享受了划水时的轻松,也经历了答辩演讲的压力,更享受了团队欢庆的一刻。这一次,我成为了“大当家”,重新感受黑马。
偶像的黑马之旅分享在这里,我extend他,对比过往的经历说说本次比赛的感受。
漫长的组队
上一届我们小鲜肉6人刚好满足比赛人数的上限,组队只花1秒钟。今年的组队显得困难许多,有意愿的人数超过上限,却没有人有勇气分成两个队,僵持…僵持…,好吧,一周后队伍终于稳定。
兴奋+漫长的创意生成
我从来不怀疑自己在创意上的能力,纵使这次主题限定为陌生的人工智能,我也不畏惧,立马开启调研模式。自动生成视频字幕(youtube已实现)、智能视频广告(唉,本届比赛第二名)、智能垃圾分类、英文陪练… idea不断在产生和否定间循环,老大也组织全组人一起聚餐帮忙头脑风暴,无果,时间又过去4天。
距离比赛还有十天,我们团队6人第一次坐下来思考,第一次想出了全队兴奋的idea,图个楽,以图生成音乐,任务分工一气呵成。然而,经过周五、周日的开发,项目的问题逐渐暴露,没有评价指标、没有解决痛点、没有达到预期,我有点失落。
距离比赛仅剩四天,我们再一次坐下来重新思考。我分享了CVPR2015的一篇图片转自然语言的文章,希望能从这个高端的技术中找到灵感。正常人一看到图片就能想到对应的描述,这技术有什么用?咦?如果这人看不到呢,如果是盲人呢。我又一次心中佩服了一下自己,全队第二次兴奋,确定新的idea,盲人听相。尽管之后又陷入过调研、纠结和争论的状态,最后还是确定了下来。(ps. 对比上届,报名当天就已确定主题,第二天就生成调研报告并讨论将要开展的工作)
总结一下经验:idea一定要一起坐下来想,否则大多数人一开始会下意识地抵触否定别人的想法。
比赛
我们将“盲人听相”映射成了三类人,视觉有障碍的盲人,忙于看手机的低头族,看不懂世界的儿童。
1、针对盲人,我们打算停留在PPT的表现上,不落地开发;
2、针对低头族,我决定基于微信进行文字和图像消息的语音播报,原理类似抢红包插件,使得我相信它的可行性;
3、针对儿童,我们打算开发一个看图说中英文的app,宝宝知乎,难度较低,以备不时之需。
这时候继续为熊总点个大大的赞,友情为我们把hack微信程序的架子搭好,陪我调试到凌晨4点;再给团队里唯一一位女生点赞,把程序中最关键的文字转语音问题调试正常,两天时间,没有放弃希望;最后鄙视自己一下,只做了几件小事,搞定演示环境、写好图片自动描述和翻译代码以及修改PPT。要是自己技术储备强一点,应该会有更多时间让我们最终的产品形态更加完善。
在我参与到PPT时,已经是答辩前一天的晚上,效果非常不好,思路混乱,内容单薄。这时候已经没有多少时间推翻重新写了,只能将重点放在产品介绍上,用产品原型工具绘制了两个app效果图,第二天在老大帮忙指导下强化了产品的面向人群、特色、使用场景和架构创新等内容,并决定着重介绍微信的智能播报功能,放弃针对儿童的宝宝知乎。(好怀念当年跟熊总一起搞PPT的时候,他的思路我点赞,我的想法他也同意,重要的是思考与行动并行,最终的效果是我俩都满意,无需折腾返工)
答辩
我们将演讲的任务交给了能力最强的组员(雷哥),自己负责demo的演示,毕竟调试那么多次,要是有什么坑也更有把握。
初审:抽签后我们的顺序是最后一位,答辩过程出人意料的紧张,我在演示过程中手抖得厉害,多次打错字。虽然演示效果不错,但面对茹总“川总已在四月份一个活动中演示过图片转语音技术”的尴尬场景,我也吓傻,不知道如何反驳。走下台后,我几乎觉得比赛就此结束。出人意料的是,我们并列第三,而且由于茹总的力挺,我们意外地成为了44支队伍中的前16名,挺进决赛。我心中窃喜,又有一个机会让我重新证明。
决赛:这一次我调整了一下演示流程,往演示机器上发送文字图片的任务交给所有小伙伴,我只需在旁边解说,果然,这就是我要的感觉,我一点都没感觉到紧张。演示时的互动让现场高潮迭起,我多次想强调我们产品的特色时都被台下的吃瓜群众制止,整个过程我和小伙伴们觉得已经perfect了。
结果:比赛的最终结果并没有想象中那么满意,排名大概在第七位,看着现场的各种大奖,心中有些小小失落。自我总结一下,创意上应该没有任何问题,缺乏的是包装我们的成果,没有体现出技术上的难度。图片生成自然语言描述其实是一项非常先进的技术(微软提供了较为成熟的API,谷歌暂时还没有),它将图像识别技术和自然语言处理技术融合在一起,相比于OCR等成熟的技术,更加有难度,有挑战性。如果我们对它的原理足够了解,多一些理论描述,效果应该会不一样。
收获
黑马的魅力之一在于过程,从报名时的无知茫然,到一遍遍提出和否定idea,再到开发时的焦虑和惊喜交加,最后到PPT的修改完善,我们无时无刻不在进步,这一点必须为小伙伴们点赞!我享受这种感觉!
黑马的魅力之二就是团结,在比赛时你一定能感受到团队的力量,老大从陪产假中跑来和我们一起出谋划策,其它同事赶来为我们加油到晚上十一点;
黑马的魅力之三就是成长,当自己全身心地参与比赛,为结果负责,为团队负责时,自己就一定会获得成长,过程中所遇到诸多不顺心的事都会是下次改进的动力。回想去年我还批评了熊总的领导能力,结果今年自己做得更不好,这一点我必须调整自己的心态,并提高自己的能力。
最后献上本次demo的源码,github, 希望下次拿到拉斯维加斯的头等舱机票!