2018数据分析工作总结

时间：2019-05-14 12:22:46 网站：公文素材库

在这一段时间的工作中，遭遇到了很多的问题，也尝试了多种解决方案，最后获得良好的效果，这也离不开同事的帮助，从中可以感悟到自身的不足，需要在以后的时间中加强自我的能力。下面是小编带来的2018数据分析工作总结。

近期主要完成了某产品用户画像分析，从9月底拿到数据，到上周输出第三稿，中间历时一个半月，如果从收到需求，到三稿输出，那就超过两个月，在这次整个分析过程中，遇到了不少问题，尝试了使用不同方法，现在是时候做一个复盘、总结、反思。

在开始阶段，遇到的主要问题是客户的要求是分析产品用户画像报告，因为没有直接跟客户沟通，而需求只有简单的一句话，我只能根据经验列出要分析的要点，确定需要的数据维度。在我确定分析框架后，我发现如果按照我方的想法最后输出的结果却不是客户想到的，那就白做了，所以确定分析框架后还需要客户确认，思路是否可行，分析方向有无异议。这个问题还算比较好解决，客户同意了分析思路即可。

经过与客户沟通后，到了第二阶段，发起提数需求。这个过程总体算比较顺利，客户方数据库工程师首先反馈了一份样本数据，让我方确认数据是否正确，如正确，则提供全量样本。数据验证的过程，主要是由我来完成，对样本数据，我提出了一些疑问，对方也一一解答。当然还有个别字段逻辑问题，我没有发现，对后续的分析带来了一些影响，造成最后能使用的维度减少，是一个遗憾。

拿到全量数据后，对数据进行清洗。在这个过程中发现数据质量非常不理想，很多字段的缺失值占比很大，个别字段也有异常值，总体样本中能使用的记录锐减。一开始我的处理方法比较简单，对缺失值占比达的字段直接不使用，带来的后果就是输出的第一版分析报告过于简单。

重新回到数据，再次对数据进行摸底，而且也调整分析方法，尝试使用聚类分析方法，按用户活跃渠道，对用进行分群，分群后，再结合其他维度，对用户进行描述。这一次输出的报告还是存在一些问题，最大问题就是用户群之间区别不明显，只能继续修改。中间因为要做另一个分析，用户画像分析就暂时先放一边。

完成另一个分析后，继续回到产品用户画像分析，这次同事提出了一些建议，在没有更好的思路前，我按照同事的建议第三次修改分析报告。当然还是要先处理数据，这次我对异常值、缺失值就行了处理，异常值使用的是盖帽法，对缺失值，在一些字段中用0填补，这样增加了可使用的维度。数据清洗完后，对连续变量进行分箱处理，这一次还是先使用聚类分析，对几个字段进行聚类，这样增加了两个大的维度，接着基于两个大的维度，使用对应分析方法，结合其他维度观察变量间的关系，最后的结果显示有部分变量之间是存在明显的关系，有些几乎没有区别。数据处理完后，再次输出分析报告。

完成第三次分析后，我回过头来看看分析中存在的问题，尤其是使用对应分析，查阅了一些资料，发现在对应分析中，应该先进行预分析。聚类分析，两次我都是使用k-means聚类，其实还可以使用二阶聚类，二阶聚类适用于分类变量，这是快速聚类不适用的，我尝试在清洗后的数据中使用二阶聚类，效果尚可。

最近恰好又在看丁亚军老师的讲课视频，讲到聚类分析，再结合我在工作中的应用，对聚类分析方法有了新的认识。聚类方法在刚兴起的时候，是不被传统的统计学家们接受，因为这个方法太简单，没有使用到过多的统计学知识。在实际的工作中，聚类使用的频率还是很高的，尤其是在用户分群方面，用户特征的描述。对应分析是第一次用到，为什么会想到使用对应分析，主要是根据变量类型，几个分类型变量，探究变量间的关系，除了相关分析外，对应分析也使用，而且它的结果更直观。

最后能完成第三稿也要感谢同事的建议，一个人的力量是有限的，群策群力、集思广益才能做得更好。

　　来源：网络整理免责声明：本文仅限学习分享，如产生版权问题，请联系我们及时删除。

《2018数据分析工作总结》
由互联网用户整理提供,转载分享请保留原作者信息,谢谢!
http://m.bsmz.net/gongwen/195495.html