一、在成都无经验的数学专业的毕业生,想转行入数据分析行业,没有任何经验,求能提供一个职业规划?
最直接的方法就是去网上搜招聘,看看对方需要什么,招聘条件是什么。有针对性地自我学习。
半年前从数学专业转行到了互联网行业做数据挖掘和推荐系统,在做具体的业务的时候遇到了一些知识点,于是自己整理出来。如果有后来人需要转行的话,可以用这份资料来参考一下。大牛请忽视以下的内容,小白可以参考下。从数学专业转行到工业界做数据挖掘需要的知识储备:1. Hadoop,HIVE,SQL数据库操作。Hive用于提取数据,做基本的数据分析。hive的基本函数,比如聚合函数,数学函数,字符串的函数,连接表格函数等。hive的各种语句,比如if else,case等语句。EXCEL的基本操作需要掌握,可以进行各种数据的处理、统计分析和辅助决策操作,用熟悉了其实挺方便的。
2. 编程语言
最好会python,c/c++,或者java,至少一种。做机器学习的话感觉用python会多一些。3. 操作系统
Linux系统,脚本语言Shell。4. 数据挖掘和机器学习的基础知识和算法逻辑回归算法 Logistic Regression(LR),
支持向量机算法 Support Vector Machine(SVM),
物质扩散和热传导算法(Heat Spreading),
Gradient Boosting Decision Tree(GBDT),
聚类算法,神经网络算法,决策树,随机森林,异常值检测等常用算法需要掌握。
特征工程的基础知识:根据相应的产品进行必要的特征构造,物品特征,交叉特征等。其中LR使用广泛:由于LR是使用线性方法来处理非线性的问题,导致特征工程十分复杂,交叉项多(二维或者三维的交叉)。工程上的最优化论文推荐:Ad Click Prediction a View from the Trenches需要了解的是相关论文的背景SGD算法,Truncated Gradient算法,RDA算法,FOBOS算法,FTRL算法等。5. 统计学时间序列模型,变量的相关系数,ROC和AUC曲线,交叉验证,主成分分析。
6. 业务背景
大数据,推荐系统,计算广告学的科普书籍。以上就是笔者在公司工作半年了的一些简单的总结,如果有啥不正确的地方,还希望大家赐教。
.........................................................
欢迎大家关注我的公众账号
(长按图片,识别二维码即可添加关注)
http://weixin.qq.com/r/ODp-Z9vEu4bErZ8E928q (二维码自动识别)
二、我做酒店失败了,有没有成功的经验分享给我啊?求大咖指教?
这个行业利润挺大的,只要你开的好肯定可以赚钱。
我也是开酒店的,做了有3年的时间,前2年生意还挺好的,一个月有10万元的收入,可是慢慢的酒店生意特别难做,根本不如前年的状态了。有时候甚至连着好几个月都是倒贴,朋友都劝我说转让为好,但是我不甘心啊,正当我绝望的时候,一个偶然的机会我认识了王顺杰老师,在听了王顺杰老师的“免费盈利模式”两节课程后,我对酒店的生意信心百倍,我报了王老师的弟子课,我对酒店的生意信心百倍,老师给了我一套方案,在老师的指导下,我学会了老师的充卡模式和置换模式之后,回去我就落地运用,一个星期的时间酒店的生意非常火爆。不怕告诉大家,现在酒店每个月的盈利达到50万,我真的要感谢生命中的贵人王顺杰老师,王老师真的是一位很朴实的人,他用自己30年的从商经验创下了“免费盈利模式”,他讲的营销方案非常落地。半个月的时间我不花一分钱开到三家连锁店。当别人都免费了,你还在因为做生意难而捶胸顿足吗?所以老板们,找到王顺杰老师,你的人生就一定有希望!
三、有没有三本学生考研逆袭成功的例子啊,三本学生考研,求励志真实经验给自己鼓劲?
三本考研成功的很多,在天津,三本逆袭南大天大的还是有很多人的
四、国产途观的真实保养费用,多少公里保养一次,小保多少,大保多少,我要真实的数据啊,谢谢?
途观是很不错的选择按上海大众保养规范,所有保养间隔周期为上述行驶里程或半年(以先到为准)制动液为每2年或50000Km更换一次火花塞为每20000Km更换一次(首次25000Km)花粉过滤器(空调滤清器)每20000Km或1年更换一次(以先到为准)空滤为每15000Km或1年更换一次(以先到为准)上海大众途观整车质保期为2年或6万公里行驶55000公里所需保养费用为8990.87元可以看出,虽然身为一款国产SUV,但途观的保养配件的价格仿佛依旧按照进口车型的标准收取,并且工时费的价格可以媲美一些级别更高的车型。
就拿火花塞为例,125元一根的售价相当于国产自主品牌的车型更换火花塞两次的费用,不得不说途观的配件价格真的不便宜。
五、有没有前辈申请港大、中大临床医学类的研究生成功的经验啊~?
香港只有医学本科可以行医,剩下的都是做研究的,不过如果在香港呆满7年拿到身份之后,你用你国内本科的学位可以申请参加医师考试,通过后可以行医,但前提是有身份! 有很多人在香港念PHD,mphil,ms""都是研究性质的,但是mphil 和ms的学位性质不一样,录取的难易也就不一样""如果想直接做临床,香港现在中大港大医学都有直接招收大陆的高考考生,很多省都有招""读6年之后再呆一年拿到身份可以直接在香港行医""详情可以到中大和港大的网站查询""
六、关于用R语言做关联规则的购物篮分析,有没有真实的脚本案例啊?网上大多都用的软件自带的数据。。。?
泻药。关联挖掘通常用于通过识别经常一起购买的产品来提出产品推荐。但是,如果您不小心,则规则在某些情况下可能会产生误导性的结果。
全文链接:
拓端数据科技 / Welcome to tecdat原文出处:
R语言关联挖掘实例(购物篮分析)关联挖掘通常是根据零售市场或在线电子商务商店的交易数据进行的。由于大多数交易数据很大,因此该apriori
算法使更容易快速找到这些模式或规则。
那么,什么是规则?
规则是一种符号,表示经常购买哪些商品和哪些商品。它具有LHS和RHS部分,可以表示如下:
项目集A =>项目集B
这意味着,右侧的商品经常与左侧的商品一起购买。
如何衡量规则的强度?
将apriori()
产生最相关集从给定的交易数据的规则。它还显示了这些规则的支持度,置信度和提升度。这三个度量可用于确定规则的相对强度。那么这些术语是什么意思呢?
让我们考虑规则A => B,以便计算这些指标。
提升度是A和B的并存超过独立的A和B并存的预期概率的因素。因此,提升度越高,A和B一起发生的机会就越高。
让我们看看如何使用R获取规则,置信度,提升度等。
例
交易数据与数据框不同,使用head(Groceries)
不会在数据中显示交易项目。要查看交易,请改用inspect()
函数。
由于关联挖掘处理交易,因此必须将数据转换为class transactions
。这是必要的步骤,因为该apriori()
函数transactions
仅接受交易类的数据。
- library(arules)
- class(Groceries)
- #> [1] "transactions"
- #> attr(,"package")
- #> [1] "arules"
- inspect(head(Groceries, 3))
- #>商品
- #> 1 {citrus fruit,
- #> semi-finished bread,
- #> margarine,
- #> ready soups}
- #> 2 {tropical fruit,
- #> yogurt,
- #> coffee}
- #> 3 {whole milk}
如果您必须从文件中读取数据作为交易数据,请使用read.transactions()
。
tdata <- read.transactions("transactions_data.txt", sep="\t")
如果您已经将交易存储为数据框,则可以将其转换为类transactions
,如下所示:
tData <- as (myDataFrame, "transactions") # 转换为“交易”类
这里有一些其他有用的实用程序函数:
- size(head(Groceries)) # 每个观察项的数量
- #> [1] 4 3 1 4 4 5
- LIST(head(Groceries, 3)) # 将'交易'类转换为列表,注意CAPS中的LIST
- #> [[1]]
- #> [1] "citrus fruit" "semi-finished bread" "margarine"
- #> [4] "ready soups"
- #>
- #> [[2]]
- #> [1] "tropical fruit" "yogurt" "coffee"
- #>
- #> [[3]]
- #> [1] "whole milk"
如何查看最常出现的项目?
在eclat()
交易对象中获取并给出根据您提供的支持数据的最常见物品supp
。maxlen
定义频繁项中的每个项目集项目的最大数量。
- frequentItems <- eclat (Groceries, parameter = list(supp = 0.07, maxlen = 15)) # 计算对频繁物品的支持度
- inspect(frequentItems)
- #> items support
- #> 1 {other vegetables,whole milk} 0.07483477
- #> 2 {whole milk} 0.25551601
- #> 3 {other vegetables} 0.19349263
- #> 4 {rolls/buns} 0.18393493
- #> 5 {yogurt} 0.13950178
- #> 6 {soda} 0.17437722
- itemFrequencyPlot(Groceries, topN=10, type="absolute", main="Item Frequency") # 绘制频繁项目
如何获得推荐规则?
- inspect(head(rules_conf)) # 显示所有规则的支持度,提升度和置信度
- #> lhs rhs support confidence lift
- #> 113 {rice,sugar} => {whole milk} 0.001220132 1 3.913649
- #> 258 {canned fish,hygiene articles} => {whole milk} 0.001118454 1 3.913649
- #> 1487 {root vegetables,butter,rice} => {whole milk} 0.001016777 1 3.913649
- #> 1646 {root vegetables,whipped/sour cream,flour} => {whole milk} 0.001728521 1 3.913649
- #> 1670 {butter,soft cheese,domestic eggs} => {whole milk} 0.001016777 1 3.913649
- #> 1699 {citrus fruit,root vegetables,soft cheese} => {other vegetables} 0.001016777 1 5.168156
- rules_lift <- sort (rules, by="lift", decreasing=TRUE) # 'high-lift' rules.
- inspect(head(rules_lift)) #
- #> lhs rhs support confidence lift
- #> 53 {Instant food products,soda} => {hamburger meat} 0.001220 0.6315789 18.995
- #> 37 {soda,popcorn} => {salty snack} 0.001220 0.6315789 16.697
- #> 444 {flour,baking powder} => {sugar} 0.001016 0.5555556 16.408
- #> 327 {ham,processed cheese} => {white bread} 0.001931 0.6333333 15.045
- #> 55 {whole milk,Instant food products} => {hamburger meat} 0.001525 0.5000000 15.038
- #> 4807 {other vegetables,curd,yogurt,whipped/sour cream} => {cream cheese } 0.001016 0.5882353 14.834
置信度为1(见rules_conf
上文)的规则意味着,每当购买LHS物品时,也100%的时间购买了RHS物品。
提升为18(见rules_lift
上文)的规则意味着,与假设无关的购买相比,LHS和RHS中的物品一起购买的可能性要高18倍。
如何控制输出中的规则数量?
调整maxlen
,supp
并conf
在所述参数apriori
函数来控制生成的规则数。您将不得不根据数据的冗余性对此进行调整。
parameter = list (supp = 0.001, conf = 0.5, maxlen=3) # maxlen = 3 限制规则中最大物品数量为 3
- 要获得“强”规则,请增加“ conf”参数的值。
- 要获得“更长”的规则,请增加“ maxlen”。
如何删除冗余规则?
有时希望删除作为较大规则子集的规则。为此,请使用以下代码过滤冗余规则。
- rules <- rules[-subsetRules] #删除规则子集
如何查找与给定项目相关的规则?
这可以通过修改函数中的appearance
参数来实现apriori()
。例如,
找出哪些因素影响了产品X的购买
在购买“全脂牛奶”之前找出顾客购买了什么。这将帮助您了解导致购买“全脂牛奶”的频繁模式。
- sort ( by="confidence", decreasing=TRUE) # 按置信度排列
- #> lhs rhs support confidence lift
- #> 196 {rice,sugar} => {whole milk} 0.001220132 1 3.913649
- #> 323 {canned fish,hygiene articles} => {whole milk} 0.001118454 1 3.913649
- #> 1643 {root vegetables,butter,rice} => {whole milk} 0.001016777 1 3.913649
- #> 1705 {root vegetables,whipped/sour cream,flour} => {whole milk} 0.001728521 1 3.913649
- #> 1716 {butter,soft cheese,domestic eggs} => {whole milk} 0.001016777 1 3.913649
- #> 1985 {pip fruit,butter,hygiene articles} => {whole milk} 0.001016777 1 3.913649
找出在产品X之后/与产品X一起购买的产品
这是找出购买“全脂牛奶”的顾客的案例。在等式中,“全脂牛奶”以LHS(左侧)表示。
- list(default="rhs",lhs="whole milk" #
- #> lhs rhs support confidence lift
- #> 6 {whole milk} => {other vegetables} 0.07483477 0.2928770 1.5136341
- #> 5 {whole milk} => {rolls/buns} 0.05663447 0.2216474 1.2050318
- #> 4 {whole milk} => {yogurt} 0.05602440 0.2192598 1.5717351
- #> 2 {whole milk} => {root vegetables} 0.04890696 0.1914047 1.7560310
- #> 1 {whole milk} => {tropical fruit} 0.04229792 0.1655392 1.5775950
- #> 3 {whole milk} => {soda} 0.04006101 0.1567847 0.8991124
这样做的一个缺点是,无论支持度,置信度或最小参数如何,您在RHS上只能得到一项。
使用提升度的提示
使用提升时,规则的方向性将丢失。也就是说,任何规则A => B和规则B => A的提升都将相同。请参阅以下计算:
A-> B
- 支持:
- 置信度:
- 期望置信度:P(B)
- 提升度:
B-> A
- 支持度:
- 置信度:
- 期望置信度:P(B)
- 提升度:
重要的提示
对于规则A-> B和B-> A而言,提升和支持度的值都相同。这意味着我们不能使用提升为特定方向的 “规则” 提出建议。它只能用于将经常购买的物品分组。
使用置信度的提示
在现实世界中提出产品建议时,尤其是在提出附加产品建议时,规则的置信度可能是一种误导性的度量。让我们考虑以下涉及4个事务的数据,涉及iPhone和耳机:
- Iphone,耳机
- Iphone,耳机
- 苹果手机
- 苹果手机
我们可以为这些交易创建2条规则,如下所示:
- iPhone->耳机
- 耳机-> iPhone
在现实世界中,将耳机推荐给刚买了iPhone而不是反过来是很现实的。想象一下,当您刚购买完耳机时,就被推荐为iPhone。不太好!
从apriori
输出中选择规则时,您可能会猜测规则的置信度越高,则规则越好。但是对于这种情况,头戴式耳机-> iPhone规则将比iPhone->头戴式耳机具有更高的置信度(2倍)。你知道为什么吗?下面的计算显示了如何。
置信度计算:
iPhone->耳机:
耳机-> iPhone:
如您所见,耳机-> iPhone推荐具有更高的置信度,这具有误导性和不现实性。因此,置信度不应成为您提出产品建议的唯一方法。
因此,在推荐产品之前,您可能需要检查更多标准,例如产品价格,产品类型等,尤其是在交叉销售的情况下。
七、想转行数据分析师,现在不知道哪个培训机构靠谱,知道的有黑马,CDA,达内,有没有大佬推荐下啊?
给同学提供一份CDA的学习资料,希望可以帮助到你。
免费领取“数据分析师”学习大礼包八、平面设计师前景大吗?以前是做采购的,因为喜欢设计所以转行,但是没有工作经验,做平面修图师是否一样?
设计师和修图师是同一工种,两个不同的行业。
平面设计是一个新型的产业,前景可想而知。修图师和设计师没的的比九、21考研安大商学院会计学硕,请问有没有学长学姐给我一些经验,还有安大的专业课怎么复习啊 ?
安徽大学商学院今年考研分数不高,348分,很正常的一个分数。我20今年刚上岸,分享一下我的经验,积攒人品,嘿嘿!!!
1.专业课压不压分?
不压,看一个学校压不压分,不是看嚷嚷着压分的人考了多少分,而是看最高分考了多少。20届安大商学院130+的有好几个。说压分的人很可能是自己知识不牢固或者答题技巧不对,所以但决定了备考安大,只需安心学习即可。
2.学校会不会歧视三本院校或者二战的学生?
不会,不会,不会!安徽大学商学院很公平,只要你真的知识掌握牢固,应答顺利,不会因为这个歧视你的,放心备考。
3.专业课用书是哪本?
周三多的管理学,第三版第四版第五版都行,这三本书我都有。无论是哪一版,都有需要补充的内容。我个人推荐用第四版或者第五版。(在这要和大家说下,第四第五版没有区别,就算是第三版和它俩相比,改动也不大。不要被哪些鼓吹课本大纲改动大的人吓到!!!!)
4.专业课复习方法
第一种,找个专业课学长学姐一对一带你,这个价格比较贵,市面上得2000左右,看个人情况。
第二种,买一份资料回去自己背,然后把真题看了。买的资料讲义一定要是高效直击重点的那种,要不然买回来一堆,根本不知道什么是重点。
十、19考研安大会计学硕,请问有没有学长学姐给我一些经验,还有安大的专业课管理学用哪本书啊 ?
关于数学,线代就看永乐大帝的视频和它的辅导讲义,复习全书的线代部分没有辅导讲义细致到位吧我觉得,其它是常规操作,强推b站汤家凤,汤神的知识点很基础也全面,12月份都可以看但是那时候可以不做笔记了,就在看视频的时候消化知识点。
关于英语,朋友看的何凯文的,并且坚持下来了,后面三篇阅读理解好像只错了两三个,所以真的是有用的,单词真的挺重要,一天记一点但是每天都要做,前期可以看朱伟的恋恋有词,可以看不止一遍,朋友们是晚自习回宿舍洗好了看视频,看到12点,用加速软件哦,qq影音,MX播放器都可以加速。小作文我是直接套何凯文模板所以分不高,前期背的很多真题优秀范文没用上,但是王江涛老师不是让我们背么那一定有他的道理吧。
关于政治,真的特别喜欢徐涛啊,徐涛真的好可爱,每天晚上看徐涛老师的视频都感觉很开心,有时候还搜老师的关于其它非考研的视频看,老师把政治讲的很生动一点也不枯燥真的救活了我这个理科生,这么说吧我是二战生,第一年46第二年72(但感觉多选也错了好几个啊,笑哭),第一年也是看了一遍完整视频的可是是照葫芦画瓢的,徐涛老师很好,前期让我们自己整理知识点说把笔记本翻开到崭新的一页记会议,再是崭新的一页记毛主席的著作,然后我就多了很多崭新的一页。。。最后写不下去了用的腿姐的笔记,腿姐的笔记也是很好的,用表格很好比较。然后用小黄书,也背了风中劲草,最后发现基础知识很重要但是理解也特别重要,真题风格和1000题风格很不一样,可以用16年和17年真题比较一下。
关于专业课,是周三多第三版管理学,学弟学妹们买安大燕姐团队资料吧,她这是有偿的并且也不便宜,搜集资料也挺不容易的,她已经垄断了并且闭塞信息,她一直灌输的理念的不要把资料分享给别人就算不是考安大的也不要给别人看,因为据我所知有的学校管理学案例题目可能会考一样的,但是这样做的坏处其一在于每个学生都是不愿意交流、共享信息,相互都是闭塞的,有次我在群里问了一个关于学习的问题就有三个同学私聊我而不是在大群里,其二在于对燕姐的很强的依赖心理,燕姐真的很严格,接触了就知道了,当然她的资料真的有用。创新章这两年越来越重要了,其它的可以参照10年前的真题,近三年的真题,可以把重复的真题比较一下找一找规律,主要还是要多背背,案例题要会写,但其实我专业课很低哈哈。。。选择判断知识点我也不知道在哪找可能是错了一大片的。
关于复试,是西方经济学,每年复试难度都不一样,17年大家都考了85分左右吧,最高有94和92分的,但是今年分差很大最高88分最低有不及格的所以可想而知,计算题大概是课后习题难度,棘手的就是简答题,推荐的教材有尹伯成的第八版习题集和高鸿业第六版,然后看视频多学习,尹伯成的题目很难简答计算都是,不用完全掌握,主要仔细多看课本就好,要理解不是像管理学那样背诵。所以复试逆袭很有可能的,面试大家拉不开太大差距,今年老师特别强调本科期间做的科研成果和发表的论文可是我都没有,哭,然后英文问题是介绍我的大学专业课问题是谈谈对内部提升和外部选拔的理解吧,进门之后眼睛对着门把手关上,不要背对着老师显得,然后鞠躬说各位老师早上好,自我介绍+英文+专业课,专业课问题是从密封袋里抽题目,念出来,然后回答,不要慌要自信,走的时候也鞠个躬说谢谢各位老师。
还有安徽大学研究生院和安徽大学商学院官网上有很多信息,还有安小研这样的微信公众号,可以自己搜集信息的基础上再去询问学长学姐,18安大商学院考研交流,这个群里面的人都很nice的,不会的可以问里面的学长学姐,不要怕尴尬,人家知道的只是你的QQ号不是人,皮厚一点,我之前就是皮薄,发个言想半天。
18年初试管理学回忆:1.名词解释:秩序,组织层次,局部创新,
2.选择梅奥人际关系学说,计划与决策的区别,创新的职能,组织结构的特性,领导权力的来源。组织变革的环境和目的,影响决策的因素。
18年复试西方经济学群里的小伙伴的回忆:判断题 5题15分,理由2分,判断正确1分
选择题10题10分 问到博弈论,经济租金等
简答题 (40分)1范围经济与规模经济及其区别2自然垄断,政府为什么不用p=mc限价3劳动供给曲线为什么是向后倾斜的4需求供给弹性与销售收入的关系。
计算题(35分)
1,生产函数Q²=LK,推到短期平均变动成本曲线和长期平均成本曲线。
2,给出效用函数,U=X的四次方×Y的三次方,
(1)求商品x,和商品y的支出占总支出的比重。
(2)y的需求量与x价格之间的关系。
3,C=100+Q²,100为固定成本。
(1)画出AVC和MC曲线
(2)p=60是,求利润最大化的产量。
(3)求停止营业点。
最后,祝你心愿达成~!