当前位置:蜗牛素材网>综合资讯>科技>正文

学习中华小当家做菜:基于下厨房的菜谱和作者数据分析

人气:304 ℃/2023-11-03 06:15:51

“人莫不饮食也”,一日三餐满足了人们基本的生理需求,“鲜能知味也”在中国似乎并不成立。中国人对美食的追求从菜品数量上可见一斑:食材、刀法、烹饪方式、火候、时间等排列组合的结果,没有人能给出一个准确的数字。

今年疫情期间,受管控隔离等限制,人们的活动半径骤然缩小,居家时间大幅延长,下厨热应运而生。下厨房APP在疫情期间因为服务器过载而多次崩溃,反映出人们的下厨热情之高。在过去,厨艺的教授囿于口耳相传,何为“适量”全凭心领神会;菜品的记录依赖纸笔书籍,可获取的数量和样式都受到局限。而互联网的东风使下厨这场过去仅凭记忆或纸质资料的闭卷、半开卷考试,有了照着菜谱平台开卷的可能。下厨房就是这样一个平台。

图1-1 下厨房网页版首页截屏

从豆瓣小组演变而来的下厨房定位于“美食菜谱分享社区”,鼓励用户作为菜谱作者发布菜谱、作为菜谱跟做者上传作品。自2011年3月、7月下厨房网站和APP正式上线、发布以来,截至2020年8月,如图1-1所示:下厨房约收录2.2百万个菜谱和6.3千万个作品,在数量级上远超一本书籍可以收录的菜谱和作品数量。热门专题、烘焙甜品饮料、肉类、蔬菜水果、汤粥主食、口味特色、水产、蛋奶豆制品、米面干果腌咸等9个大类下,共有56个类和529个小类。

猪是肉类下的第一个分类,也是中国人重要的肉类食材。依据出土的骨骼标本,猪的驯化可以追溯至约九千年前。而在今天,根据国家统计局发布的2019年中国统计年鉴,猪肉的产量远超牛肉、羊肉产量,占肉类畜产品产量的68.89%。与美国人偏好鸡肉、牛肉不同,中国人对猪肉情有独钟。根据经合组织(OECD)的数据统计,2018年中国猪肉总消费量为552.19亿吨,占世界猪肉总消费量的46.08%。中国是世界上最大的猪肉消费国。想要成为“中华小当家”,绕不开对猪肉的处理。因此,本报告将在猪这一菜谱分类下展开分析。

图1-2 研究的问题

如图1-2所示,在新手阶段,用户可以作为跟做者,参照下厨房上的菜谱,做出相应的作品。“在猪的众多分类中,从哪一个分类里挑选菜谱进行学习?”、“如何采购调料?”、“如何搭配食材?”、“哪些菜谱可以举一反三?”都是学习阶段可能关注的问题。同时,菜谱作者可以尽量使用常见调料,增加菜谱被跟做的可能性。最后,菜谱平台可以增加相应内容,以引导初学者;在市集板块,可以根据用户习惯,如下厨频率、菜谱偏好等,推荐相应规格的调料;还可以搭配售卖支持度高的食材,进行组合促销等活动。在熟练掌握下厨技能后,用户可以从学习下厨的跟做者转向上传菜谱的作者。在这一阶段,菜谱作者会关注“什么样的作者更受欢迎?”。同时,跟做者和平台可以更有效地识别优秀作者,跟做者可以以此为参考之一,挑选到更容易满足心理预期的菜谱,平台则可以给予这些作者流量扶持。本报告希望通过对这些问题的分析,帮助“中华小当家”们更轻松地打怪升级。

数据说明

图2-1 数据筛选

样本数据爬取自下厨房网页版,如图2-1所示,共获取了猪这一菜谱分类下有文字步骤说明而不仅仅“详见视频”、收藏人数大于0的数据4215条,每条数据代表一个菜谱的相关信息。13个变量可以被分为菜谱特征和作者特征两类。一个完整的菜谱有名称、用料和步骤说明等特征。发布菜谱前,作者可以选择将菜谱推荐至不超过5个分类。本报告仅关心菜谱在猪这一分类下的相关子类。详细变量说明如表2-1所示。

表2-1 数据变量说明表

新手攻略

从哪一个分类中挑选菜谱学习?

综合评分、收藏人数和跟做人数是用户的重要行为。

1、综合评分

只有在菜谱页面上传了作品的用户才能对菜谱进行评价。评价时,有好极了、挺好、一般3个选项。一个用户只能对同一个菜谱持有一种评价,综合评分基于所有跟做者的评分计算得出。计算不同分类下,有综合评分的菜谱的平均评分。如图3-1(a)所示:(1)猪皮类菜谱的平均综合评分最高。获取的所有猪皮类菜谱中,三鲜火锅和双色肉皮冻的综合评分最高,数据抓取时刻的综合评分高达9.0分;(2)猪血、猪耳朵类菜谱的平均综合评分最低,可能因为二者的烹饪方式相对单一,难以达到“好极了”的评价。

2、收藏人数向跟做人数的转化率

在日常浏览时,用户可以收藏心仪的菜谱。收藏这一用户行为在一定程度上反映了跟做意愿。但是,收藏人数并不一定能转化为跟做人数。菜谱用料不常见、步骤说明不清楚等都可能是收藏人数向跟做人数转化率低的原因。本文借助中位数反映转化率的平均水平。如图3-1(b)所示:(1)猪耳朵、猪血类菜谱的平均转化率较高,可能是因为二者处理简单,烹饪方式也相对单一;猪耳朵的做法主要是卤后凉拌;而猪血分类下,“汤”类菜谱较多;(2)猪蹄类菜谱的平均转化率最低,可能因为猪蹄需要去毛,处理较为麻烦;烹饪所需时间也相对较长。

(a)综合评分

(b)收藏人数向跟做人数的转化率

图3-1 不同分类的综合评分、收藏人数向跟做人数的转化率

建议新手根据个人需求,考虑平均综合评分或收藏人数向跟做人数的转化率,在特定分类下寻找心仪的菜谱进行学习。

如何采购调料?

对用料名称分词后,过滤停用词、去除肉类食材、合并同义词,计算词频。词云图如图3-2所示,最常用的15种调料按照功效可以被大致分为:增咸提鲜(盐、酱油、蚝油)、增甜上色(白糖、冰糖)、增酸(醋)、增香(姜、葱、蒜、辣椒、胡椒、八角、花椒、香叶)和除异去腥(料酒)。分析同义词词频,生抽比老抽、酱油更为常用;白醋比陈醋、米醋更为常用;白胡椒较黑胡椒更为常用;白芝麻较黑芝麻更为常用;淀粉中玉米淀粉的词频最高;面粉中中筋面粉的词频最高。因此,当可以选购的调料数量有限,如短期留学、偶尔做饭时,出于节省,不妨在可以相互替代的同类调料中只购买最常用的一种。

进行采购时,调料的规格往往有很多选择。对保质期较长的常用调料的用量进行分析,考虑到调料用量呈右偏分布,以生抽为例:具体而言,单位为毫升时,均值约为13毫升,大于中位数10毫升。因此,使用中位数反映调料的一般用量。可以根据烹饪频率,选择合适的规格。

图3-2 菜谱用料名称词云图及相关分析

如何搭配食材?

为探究不同食材的常用烹饪方式,利用apriori算法,合并菜谱名称、用料名称的分词结果和菜谱所属分类,生成频繁项集,挖掘支持度在0.005及以上的2个词之间的关联规则。仅关注猪类食材与烹饪方式的关联规则,使用红色、蓝色分别进行标注;2个词的支持度越高,连接线条颜色越深;相关项数越多,词所在圆形越大。如图3-3(a)所示:五花肉的常用烹饪方式最多,有炒、卤、烤、红烧、面点5种。筛选每种猪类食材最常用的烹饪方式,除猪皮冻外,其余菜式都很常见。

加入其他食材的关联规则,增加相对应的灰色标注;加入同类之间的关联规则。如图3-3(b)所示:(1)汤和炒、卤和炒具有较高的支持度,经常在同一道菜的烹饪过程中使用;“汤”类、“卤”类菜谱中常预先炒制香料;“卤”好的食材常使用“炒”的方式进行烹饪;(2)烹饪方式中,“炒”和“汤”的常用食材较多;(3)猪类食材中,五花肉的相关项较多;(4)其他食材中,姜、盐、酱油、葱、料酒等拥有较多的相关项,与用料名称词云图的结果相合。

此外,面粉和肥肠的支持度为较高,阅读步骤说明,可以发现:常使用面粉或淀粉清洗肥肠,通常配合小苏打、盐、醋、白酒、料酒等。

(a)猪类食材与烹饪方式

(b)猪类食材、其他食材与烹饪方式

图3-3 关联分析结果

哪些菜谱可以举一反三?

考虑到操作是否熟练是菜谱能否举一反三的关键,仅保留步骤说明分词结果中的动词。如图3-4(a)所示,对不重复的动词个数至少为5的菜谱进行分析,计算每个菜谱动词的TF-IDF值,加和所有菜谱的TF-IDF后,以单词TF-IDF值之和为权重,绘制动词词云图。如图3-4(b)所示,加入食材、翻炒、煮、清洗食材是可以优先掌握的操作。使用词权重汇总的余弦相似度反映菜谱相似性大小。以跟做人数最多的鱼香肉丝为例,大蒜炒血豆腐、爆炒猪肝、蒜苔炒肉末等菜谱与其余弦相似度较高,比较容易举一反三。

(a)步骤说明数据处理过程

(b)动词词云图

图3-4 菜谱相似性分析

进阶攻略:什么样的作者更受欢迎

参考下厨房APP帮助中心的内容,如图3-5(a)所示:对于优质菜谱作者,下厨房在APP中给予“超赞作者”的认证标识,展示在用户主页和菜谱上,享受优先开设付费课程等特权;官方使用综合评分和收藏数衡量菜谱受欢迎的程度,并给出了“什么样的菜谱更受欢迎”的答案。那么,什么样的作者更受欢迎呢?

(a)下厨房APP帮助中心—超赞作者

(b)平均综合评分

(c)平均收藏数

图3-5 作者数据分析

将粉丝数、菜谱数、作品数和注册时长以上下四分之一分位数为界限离散化,分别以平均综合评分和平均收藏数为因变量,绘制是否有简介、性别、粉丝数、菜谱数、作品数和注册时长的分组箱线图。对于定量自变量,如果皮尔逊相关系数不为0且显著,使用红色标注平均值最高的一组数据;对于定性自变量,则参考假设检验结果。如图3-5(b)、(c)所示:希望创造出受欢迎菜谱的作者,可以撰写简介、积累粉丝、多发布作品。

总结与讨论

基于下厨房的菜谱数据和作者数据,本报告试图解决“中华小当家”们在初学和创作阶段,作为菜谱跟做者和菜谱作者可能遇到的问题。

本报告也存在一定局限性,主要在于:

(1)为控制样本数据的分类,本报告仅能从相应分类下爬取数据,而不能通过随机生成菜谱ID获取数据。而下厨房的分类下,仅有“最近流行”、“最受欢迎”和“评分”3种分类方式,为尽可能保证随机性,本报告从每一个分类的“最近流行”中爬取可获取的菜谱ID,再根据ID爬取数据。但是,因为可获取的ID数量有限,本报告的抽样过程并不是完全随机的;

(2)与常规认知不同的是,下厨房作者注册时长的最大值小于菜谱创建时长的最大值。经筛选,有244条样本数据的菜谱创建时长大于作者注册时长。这些菜谱的创建时间在2011年2月16日至2013年6月16日之间,是下厨房网站和APP运营的初期。下厨房创始人王旭升(UITony)在知乎的回答中提到:“百万菜谱ID段停留在2013.6.25,26日凌晨我们出了技术故障,ID增加了两位数(因为技术应急,把所有ID都以变成亿的规模重新计算);下厨房在早期,有小几万菜谱是编辑通过征求美食博主授权整理的,ID号段不是百万。”在这244条样本数据中,存在百万和非百万的菜谱ID。如今,在下厨房创建菜谱时,无论是网站还是APP都必须先登录账号。可以推测下厨房在运营初期并无这一规定。此外,以美食博主“君之”进行验证,他在下厨房的第一个菜谱创建于2011年2月16日,但在同年6月7日才加入下厨房。可以推测,早期菜谱并非都由本人创建,也是造成这一现象的原因。因此,作者注册时长这一变量并不能准确反映作者的入驻时长。

(3)最后,考虑到中餐菜谱较烘焙菜谱,用料和步骤说明的变化更多,如果对烘焙菜谱进行分析,可以取得更好的结果。

搜索更多有关“学习中华小当家做菜:基于下厨房的菜谱和作者数据分析”的信息 [百度搜索] [SoGou搜索] [头条搜索] [360搜索]
本网站部分内容、图文来自于网络,如有侵犯您的合法权益,请及时与我们联系,我们将第一时间安排核实及删除!
CopyRight © 2008-2024 蜗牛素材网 All Rights Reserved. 手机版