对文章有兴趣来不及看?点选右上角「橘色小書籤」收藏文章,再也不怕错过就是一辈子!
资料科学浪潮袭来的第一个十年
从2023年10 月哈佛商业评论抛出「资料科学家是21 世纪最性感的职业」那刻起,资料科学从美国加州矽谷向全世界刮起汹涌大浪至今要迈向第一个十年,报章杂志与社群媒体不停向我们大量放送资料科学、大数据、机器学习、深度学习与人工智慧等这些听起来熟悉却又陌生的字汇。
各行各业因应着资料科学浪潮的袭来,开始从商业智能的运行上重新思索资料驱动的决策机制,造就「以程式处理并分析资料」的相关职缺在就业市场的需求量大增,我们可以说每一个资料科学领域的从业人员都站在软体工程、统计分析以及商业思维三个面向的交会点上,但又能依照在三个面向的兴趣或者擅长,再细腻区分出职称为资料工程师(对软体工程较有兴趣或擅长)、资料科学家(对统计分析较有兴趣或擅长)或者资料分析师(对商业思维较有兴趣或擅长)。
钻研与区分上述的辞汇与职称令人感到困惑,若是返璞归真检视「以程式处理并分析资料」的本质,就会赫然发现这个学门或者工作内容其实并不是横空出世的,只是在这个时间点,由于科学计算的盛行、套件设计模式的成熟以及运算成本的降低,让「擅长写程式的分析师」与「擅长分析的工程师」水到渠成地浮现,在资料科学浪潮袭来的第一个十年依然屹立于镁光灯下。
横看成岭侧成峰的资料分析流程
从资产负债、损益与现金流问题角度观看的分析被称作为财务分析(Financial analysis),从消费者、产品、竞争定价与通路问题角度观看的分析被理解为行销分析(Marketing analysis),从供应链、竞争厂商、议价力、消费者与替代品问题角度观看的分析被解释为策略分析(Strategy analysis)。
一个分析,各自表述,能够随着听者的主修背景知识而产生不同的解读;但是回溯这些大量的应用场景回到其源头,分析不外乎是在扮演称职的「桥梁」角色,企图将问题与解决方案合理地串连起来。像是财务分析串连了提升企业营运状况的问题和解决方案、行销分析串连了强化产品服务利润的问题和解决方案、策略分析串连了提升企业竞争力的问题和解决方案。
我们理解了分析是串连问题与解决方案之间的桥梁,而如果在进行财务问题、行销问题与策略问题等的分析时采用了「基于资料、事实与可量化的方法」,就被认定为采用了资料分析的方法论。这个意涵表示着资料分析在多数情况下可能并不是第一主角,而是伴随一个应用场景登场的第二主角。而如同在财务分析、行销分析与策略分析中多样化的框架或者方法论,常见的资料分析流程也有着不同样貌,像是类似马斯洛需求金字塔理论的资料科学需求金字塔:
或者Gartner 以企业导入难度和商业价值作出区隔的分析成熟度递增阶段:
或是我自己最喜欢的资料分析专案流程管线:
从上述几个常见资料分析流程中我们可以归纳,一个资料分析专案大抵是资料(Data)提炼为资讯(Information)的过程,广泛来说,从商业使用者的需求发想、需求规格的讨论交流、测试资料的规划取得、资料处理、探索资料、模型预测、沟通分享以及正式部署。
资料分析专案也不一定会涵盖所有环节,也没有既定的标准来论断环节涵盖较完整的专案其效益就必然高于环节涵盖较简短的专案,具体来说,能够有效地向产品经理、行销经理与管理团队等合作部门精准地传达资料分析专案的结果与量化的效益数字,就能显著为资料分析专案的成果加值,提升分析团队在组织内的价值。
SQL 在资料分析流程扮演强韧的资料供应角色
资料分析任务中常见的资料来源包含有:文字档案(特定符号区隔的纯文字档案、JSON)、试算表、API 以及资料库。若以一个在发展已趋成熟的公司任职的资料分析师来说,最高比例的资料来源应该是内部的资料库,这时就需要倚赖SQL(Structured Query Language)结构化查询语言来对资料库进行查询以及操作。
在前述不论是资料科学需求金字塔中的Collect、Storage 与Aggregate 层;分析成熟度递增中的Descriptive Analytics 与Diagnostic Analytics 阶段;资料分析专案流程管线中的Import、Tidy 与Transform 环节,都是SQL 粉墨登场的舞台。
我们可以将SQL 在资料分析工具中定位为比较基础、不是那么绚丽的一个角色,它朴实地将资料分析专案与资料存储之间的桥梁搭起来,甚至在资料库管理员与资料工程师的手中,SQL 更是建构资料存储的主角。光彩耀眼的视觉化、预测模型之下所仰赖的是SQL 在底层建构出强韧的资料供应管线。
SQL 被资料科学从业人员视为最重要的语言之一
发展已趋成熟的大型公司中由于高度专业分工,通常会将资料库与使用者部门(包含资料科学团队、产品经理或者行销团队)的权限区隔,藉由「需求」的内部文件传递来进行资料供应,但是这样的设计并不符合当今资料科学蓬勃发展的时节。
不论是资料需求的内容、使用者或频率等,都具备极高度的变动,因此有相当高比例的公司已经采取将存取权限共享给专案的核心利害关系人,确保资料供给能够满足需求。
SQL 对于资料科学从业人员的高度重要性亦能够从第三方资料佐证,例如全世界最大的资料科学社群Kaggle 在2020 年针对网站会员所发出的机器学习与资料科学调查问卷中,SQL 就被资料科学从业人员评为「日常最常使用的语言」的第二名,仅次于Python 程式语言。
近日Google 推出的资料分析专业证书中设计八堂课程,围绕着问题解决、试算表、资料库、视觉化与程式设计,视为资料分析师的五个核心能力,其中SQL 与资料库在资料准备、资料清理与资料分析三堂课程中,占有相当大的比重。
因为SQL 早于2023 年代即问世,又受到众多软体工程师的喜爱与熟悉,许多近年广受资料科学团队欢迎的资料存储、大数据技术或资料分析套件,也是以SQL 和资料库作为开发和使用介面的设计原型,假如对于Pandas DataFrame、R dplyr、Dask、data.table、Spark DataFrame、Hive 等大数据技术有兴趣,未来想进一步学习,更可以先扎根SQL 与资料库的基础,能有效降低学习门槛。
透过Exercise Based Learning 把SQL 学起来
平心而论,比起其他泛用程式语言(C 语言、Java、Python 等)或者科学计算专用语言(R 语言、Matlab、SAS 等),SQL 的学习难度是比较容易的,原因在于SQL 是一个与英文语法、文法高度相似的语言。不过,对于初学者而言,仍然有三个需要克服的学习门槛:一是资料库环境;二是与生活脱节且无趣的范例资料;三是缺乏练习。
学习痛点一:资料库环境
学习SQL 我们习惯从用途最广泛也最为简易的「查询」资料语法入门,但是在可以验证自己所写的查询会跑出什么样的结果之前,却需要先透过「操作」资料语法建立资料库、建立表格并且插入资料列,这也导致很多初学者会在一开始较困难的「操作」资料语法就因为错误而打退堂鼓。
我的SQL 入门课《SQL 的五十道练习》考量到这点,一开始先让初学者对已经建立好的资料库表格查询,待学完查询语法,最后一个章节再带入如何建立与操作跟学习资料库一模一样的环境。
学习痛点二:与生活脱节且无趣的范例资料
多数课程或教科书所使用的范例资料都与生活脱节且无趣,像是国家人口资料、超级市场销售资料或者班级成绩资料,《SQL 的五十道练习》考量到这点,使用了像是IMDb 网站的电影、演员资料、NBA 网站的球员、球队资料、约翰霍普金斯大学的Covid 19 资料以及中选会2023 选举资料,希望能够让学习过程中因为这些贴近生活的范例资料饶富趣味。
学习痛点三:缺乏练习
想要有效地将SQL 纳入自己的技能组合,需要在每个知识点运用LPAA 循环:Learn、Practice、Apply、Assess。
首先透过课程影片听老师观念讲解,接着在学习环境跟着影片中的范例实作、再来是自己写作练习题,最后是若测资一直无法顺利通过就可以看练习题详解影片。这也是《SQL 的五十道练习》课程设计的精神。
采用EBL (Exercise Based Learning) 的学习理念,可以确保学生在每个章节都会走一遍LPAA 循环,五十道练习都是明确给定预期输入和预期输出的题目设计,点选网址连结就可以开始练习。
在这篇文章,我们谈了在第一个十年前景看起来仍然灿烂的资料科学、简介提炼资讯价值的资料分析流程、SQL 在资料科学中之中扮演强韧的要角以及初学者应该透过练习确实将SQL 纳入自己的技能组合。
如果您是符合下列描述的初学者:
日常工作、学习或研究需要使用资料库作为分析的数据来源。
对于数据分析、资料科学有兴趣,未来想从事相关工作。
对于Pandas DataFrame、R dplyr、Dask、data.table、Spark DataFrame、Hive 等大数据技术有兴趣,未来想学习相关知识。
邀请您加入我的好学校课程《SQL 的五十道练习:初学者友善的资料库入门》,一起建立贴近生活的资料库环境,完成五十道练习,把SQL 学起来!