数据科学家杰西卡·格拉夫:时装也需要拥抱大数据!
【数据猿导读】 倾听!如果你是数据科学家,要仔细倾听你所在行业的商业问题,认真了解这些问题的来龙去脉,而不是一上来就把自己的技术偏好和个人兴趣带入解决方案。你可能会发现,对你而言,研究某类问题比在某类公司工作更加重要,或者恰好相反
你对年轻的数据分析员,尤其是学习自然科学的博士生,有什么建议?
倾听!如果你是数据科学家,要仔细倾听你所在行业的商业问题,认真了解这些问题的来龙去脉,而不是一上来就把自己的技术偏好和个人兴趣带入解决方案。你可能会发现,对你而言,研究某类问题比在某类公司工作更加重要,或者恰好相反。当你的团队普遍感到灰心丧气时,要仔细观察,找出没人知道应该请你解决的问题。同时,不要纠结于解决方案是否完美。如果你对某项机器学习技术最感兴趣,你能证明使用这项技术要比使用其他技术更为合理吗?大量的技术是否将成为严重的负累?项目能够(在法务上、财务上、技术上、运营上)引入杠杆操作吗?你能将不做某个项目的风险量化成直观的数据吗?
你希望自己以前就能对数据科学家有什么认识?
我希望自己能认识到,数据科学就好比古典写实主义绘画。
古典写实主义者接受的训练,是把对立体物体的观察结果用平面图像准确地表现出来。最严格的训练甚至可能不允许你在最初的一到三年里使用色彩,而只能使用石墨条,然后逐渐过渡到炭笔和铅笔,最后则是单色画。只有在掌握了形状、线条、调子、阴影和明暗的基础后,才能获准使用更加强大的武器--色彩。尤其是油画,用色的顺序和层次,色彩的选择,每种颜料的化学成分、品质和浓度,媒介剂的选用和调和比例,刷子的形状和使用角度,晾干时间的长短,全都非常重要。你的首要目标是不断地纠正你在转化观察结果时犯下的错误,不要对物体应该是什么样子有先入之见。
数据科学与此有很多相似之处。作为古典写实派画家,你绝对说不出“哦,这是一张脸,那我就画跟上次一样的线条好了”。同样,作为数据科学家,你在应用某种算法之前,应该先仔细研究数据,哪怕在谷歌搜索结果中最靠前的几篇文章都说在那种情况下应该选择该算法。你必须完全忠实于你的观察,而不是你脑海中的成见。有时,一只手可能看起来更像一只土豆而不是一只手,不要因为你知道那是一只手而一味执着于解剖学上的细节。这种算法是否在你所处的问题领域里产生了你想要的结果?你是否想当然地认为偏斜数据就一定呈高斯分布?在逻辑回归就能满足需要的情况下,你是否会直接应用深度学习的算法?我希望自己以前就知道数据科学在很多时候就相当于用数据作画。一旦有必要的线条被移除,数据量大到无法在笔记本电脑上进行提取,本以为自己对某个子集运行的是一套漂亮的标准算法,却有信息弹出提示内存不足,那你是取得不了什么进展的。更何况在这一切动作之前,你先得创建或采集到数据集--或者巧言说服某人允许你使用他们的数据。
另外,所谓“Nulla dies sine linea”。这适用于画画、舞蹈和写作,也同样适用于数据科学。它的意思就是“每天都要写一行”。要是没有日复一日地长期埋头于代码或理论范例,就难以达到很高的境界(我认为这就是 Recurse Center 公司在程序员心目中如此特别的原因所在)。就像一款平淡无奇但运行良好的小软件。大量并不起眼但认真对待的工作,可以推高随后所有复杂工作的质量。那些你探索到一半就知道不应选用的方法累积得多了,仍能让那些规模更大、进展更慢的项目收益。
顺便也给过去的我提几个醒:Linux,内存,Thunderbolt 接口。
你听到“大数据”这个词语的时候是什么反应?
大数据?在云端?或者我们现在已经是在雾里了?坦白讲,我最先想到的是存储单位PB 。我想到总容量以PB计的自拍照从天上落下来,流进数据湖,变成一滩死水。能高效利用数据的人工智能十分流行--更少的数据,更多的原生数据,更智能的机器人。另一方面,优化硬件和代码来处理庞大的数据集,是非常好玩的。崇拜数据规模没有关系,只要你不在乎数据多样化的好处。你的算法能否处理好十分小众的模式?你怎么处理极少量的数据?
关于你的领域,最令人兴奋的是什么?
时装是可见的,是不可避免的。每种文化都包含服装和饰品,不管重不重要。全球的服装、纺织品和配饰交易额高达几万亿美元。该行业的问题可谓五花八门,很多都没有得到解决。生物学家可以进入时装行业,制作更好的丝绸。人工智能研究人员可以利用深度学习技术,在网上搜索半结构化的大量服装图片。很多可以利用技术解决的问题都还没有得到解决。服装生产是最被忽视的开源软件研发领域之一。路威酩轩(LVMH)和历峰(Richemont)不会像亚马逊和谷歌那样,为了是谁为研究人员提供了最成熟的开源工具的问题争斗不休。你花几千美元就能创建一家深度学习公司,低价甚至免费使用最先进的软件工具。但如果没有大量的投资,你根本无法创建一家拥有最先进工具的服装生产公司,因为市场环境依然极不利于支持由少数独立设计师组成的真正生态圈的存续。为最创新的硬件打造的最智能的软件过于昂贵,坚持闭源,很少宣传--甚至根本不会在公开渠道论及。缝纫行业曾经对自动化技术抵抗了几十年,最后也还是走到了这一阶段,如今,缝合布料的工作全部交由自动化机器人完成,每一针每一线都利用计算机视觉技术来决定下一个针的位置。
无论高端、低端还是中端,时装都是一件实体物品,必须从头开始赋予生命力,或者无缝地交给消费者,让他们把它穿在身上。很多人只是为了穿衣而穿衣,但从事时装行业的人在很大程度上是出于自我选择和热情,为这样一群投入的人打造工具是一件令人兴奋的事情,但也是一件困难的事情,因为标准的机器学习算法和标准的运用方式并不适合他们。
你如何框定数据问题?具体些说,你如何避免花费太长时间?如何管理预期?如何知道怎样的结果足够好?
艺术家们最终明白了一点:作品数量要比完美更重要。即使是创作古典写实派作品,也是从看似可笑的抽象概括开始。用立方体和圆柱体来模拟头和手臂的形态。把问题分解成尽可能小的单位。数学家波利亚(Polya)说过:“如果你无法解决一个问题,那么有一个比它简单的问题,你一定能解决:就是找到它。”
至于何时完成?没有什么会永远做不到足够好的。做出来的东西总比纸上的好,暂时而言可能也比已有的其他东西好,甚至可能焕发出超越设计初衷的生命力。但用利益相关者的话来说,一定要确保解决方案和问题完全相关。不然的话,对于这类面向消费者的产品或功能,你的用户就会常常提点你,现在有哪些产品功能更好用。
你曾做过一段时间的数据分析顾问。你是如何应对文化挑战,如何面对利益相关者和公司高管的?在这方面,你对新人有何建议?
保持开放的心态。时装行业为创新提供了很大的空间,只要你清楚自己能为那些实际存在、耗钱耗时的问题带来何种改变,能够将之加以量化,向大家表明你能够以很高的效率解决那些问题。“我们打造出了这件新事物”跟“我们打造出了这件有用处的事物”绝对没有丝毫干系,跟“我们打造出了这件能够向下兼容的事物”也肯定没有任何关系。也许你很想推荐一样“新事物”,然后埋怨时装界还没有“成熟”或者“数据”到能够接纳它。时装是一个有时在很大程度上忽视数据,而为直觉支付优渥薪酬的行业,我想正确的态度应该是提倡单纯的尊重多于傲慢,提倡转变而非废止。也就是说,打造你自己的时装产品,而不是更新现有产品。
你在时装行业工作。你能谈谈数据在时装行业的最大机遇吗?在这样一个“创意行业”里,数据化是否会遭遇文化上的挑战?
时装行业需要“数据化”,数据化显然将使时装行业受益。如果你把现成的协同过滤算法应用于具有季节性、缺乏用户互动的时尚服饰,得到的结果会很差。 在其他领域里表现糟糕的算法,经过若干调整后,也许就会非常适合时装行业。神经信息处理系统进展大会(NIPS)在去年举行了一场电子商务研讨会,知识发现及数据挖掘大会(KDD)也在今年举行了一场时装专题研讨会,这场会议非常棒。但我想指出的是,自从上世纪90年代以来,研究人员一直在试图用神经网络来解决服装生产问题。
时装创意人士可能会非常热衷于人工智能、机器学习和数据科学,前提是你能把你的表达转化成某种能让他们的生活更轻松的事物。路易威登(Louis Vuitton)使用一种算法,能够更好地在一块皮料上规划手袋的版型裁片(并非所有的皮料表面都适合手袋的所有版型裁片),并用激光标记线条,然后再让技工进行手工裁剪。技工们对此似乎并没有感到特别不安。
目前,我仍看到的两个主要问题,就是导购和合身的问题。利用数据和软件,让大大小小的设计师都能够更容易地调整服装设计,做到符合真正的市场需求,而不是只做给他们想象中的缪斯女神。然后,利用尽可能少的输入信息,帮助网购用户找出在售服饰中都有哪些适合他们。用户完成购买后,要确保他们能够按时、安全地收到包裹,并且保护好他们的隐私。
【作者简介】
杰西卡·格拉夫(Jessica Graves)是一名数据科学家,目前在美国纽约市研究时装所具有的问题。她曾在加速前进实验室(Fast Forward Labs)内和希拉里·梅森(Hilary Mason)共事,并与伦敦创业界保持着频繁联系。她致力于分享自己在时装数据化领域的独特视角。她拥有视觉和表演艺术以及时装设计背景,在闲暇之余喜欢看报和学习舞蹈。
来源:品觉
我要评论
活动推荐more >
- 2018 上海国际大数据产业高2018-12-03
- 2018上海国际计算机网络及信2018-12-03
- 中国国际信息通信展览会将于2018-09-26
- 第五届FEA消费金融国际峰会62018-06-21
- 第五届FEA消费金融国际峰会2018-06-21
- “无界区块链技术峰会2018”2018-06-14