Data preprocessing

这两个月在搞数据挖掘。

刚拿到任务时定过一个计划,现在回过头看,只是一个计划而已。当时对能拿到的数据究竟是个什么格式,需要做哪些处理,都没一丝概念。当初的一个月计划里,给了一周时间做数据预处理。现在看来,一边预处理,一遍看着各种问题接踵而来。

比如今天遇到一个去重的问题。每个实验对象都采集了若干样本,而我其实只需要其中一个。有的样本几乎采失败了,按说是个脉搏的波形,可一部分采样看上去就像是活死人……另外一部分呢,不像是人的脉象……如何从这一堆采样中找出一个最优的采样,是个问题。如果说属于我数据挖掘的准备工作一部分,也没什么不对,只是再次增加了这个项目工作量,似乎年底前又干不完了。

能用于挖掘的数据真是太多了,但是把他们reshape或者format成算法接受的输入,往往是个浩瀚的工作量。获取数据本身不容易,拿到数据之后这段什么都没挖的“编辑”工作,花的时间比挖掘的时间长几倍甚至几十倍。

下一次做计划的时候,希望自己能估计得再准点吧。