1
今天是開始數據分析學習的第一百天,像一開始預備的那樣,今天會寫一個階段性的總結來紀念這一段短暫但是也很有意義的時光。
我,一個普通人,不是 985,211,不是留學,研究生,不是統計,數學,代碼出身,不是工作相關,不是學生,沒有專人輔導,通過不斷的搜索,買課,閱讀,提問,自學,只通過工作之余的空白時間,靠自己的智力和意志力,
認認真真的去做一件事,自己到底能做到什么程度。
所以從最開始,我就給自己定了一個目標:去完成一個百日作業。
歷程
其實一百天里的最開始只是在朋友圈進行打卡來記錄一下累積的有效學習時間,但是在一個月過去之后,我突然意識到,自己正在生產數據,而這一部分的數據,對我自己是很重要和寶貴的。于是就動手做一個 excel 表格,開始記錄的整個的學習過程。

我自己看數據的話可以感受到 100 天里主要是分成三個階段的,第一個階段是從第一天到第 30 天,一共學習了 51 小時,空白 3 天,這里是效率最高的一段時間,因為這個時候自己在更多的關注一些理論知識,入門知識以及瘋狂的去補一些教學視頻。
去了解數據框是什么樣的一個概念,了解一些數據語言的最基本的操作,包括一些很簡單的命令,反復的去看。因為你甚至會在儲存格式上的問題都遇到的不少的麻煩。實話說,在這一段學習里我浪費了不少時間在一些最開始完全想不到的地方,而且是各種書籍教學里極少提到的那一部分弱智問題上。
而這一部分用我朋友的話說是 “這是代碼常識啊!”
……
抱歉,我確實沒有常識。
所以我哪怕會寫幾個可視化函數了,卻會弄錯 utf-8 和 gbk 的編碼問題,然后苦苦掙扎幾個小時,毫無頭緒,等等等等。
這真的是媽的智障的一段心酸過程,而且可以預見的,未來的日子還會出現幾次的。
……
所以說那個時候其實是很充實,很快樂,但是也很痛苦的一段時間。因為那個時候獲得的成就感是最頻繁的。“啊,今天又學了兩個小時”,“今天又知道了很多新的概念”,等等。
但是真正當 30 天后,最開始的非常激情的一個月過去之后,開始接觸一些真正的操作和應用的之后。也就是從 31 天到 90 天的這段時間,對我來說,可能是更重視的一個過程。
進入 3 月中旬之后,工作開始忙碌了起來,在前 30 天中,自己再累也會騰出半小時的時間來翻看視頻和閱讀書籍。但是在 3 月中開始,工作開始忙碌之后,學習時間出現了第一次的大面積空白。

從第 42 天到六第 60 天,一共 18 天里只學了四天,最核心的原因是期間,涉及到了一次出差,出差前的工作準備,出差中的疲勞,出差后的報告波折…… 而這個時候的學習,涉及到更多的思考,更多的工具使用,很多時候并不是半個小時可以解決的。所以在知道自己不能保證效率的時候,我選擇的是休息。
但是確實非常心疼。
學習很多時候,就是自己的情緒,理智,和自控力不斷的斗爭的過程。
而從記錄上看,第 80 天左右的時候,又出現大面積段的間斷學習,從第 78 天到 89 天一共 11 天的時間里只學了一天,而這一段學習空白,我的備注上也標記得非常清楚:
【外勤】,大量的【外勤】
而且由于工作本身的原因積累了很多的壓力,當然一部分也是學習的焦慮造成的。這段空白的時間里還有一個五一小長假,我的備注欄里寫著【沒心情,休息】。

這個時候,我已經意識到了工作和這樣高強度的學習是存在著一定程度上的沖突的,畢竟人的精力是有限。哪怕我自詡精力旺盛,但每當工作強度和壓力上升的時候,學習就會非常明顯的受到影響。也是在那個時候,自己開始認真的考慮停產學習的事情。
最后,在第 96 天的時候,我離職了。
然后就像突然后知后覺的,我開始真正意義上的,懷念起大學的時光,非常自由也非常純粹的一段時光。也像很多人曾經做過的那樣,慨嘆自己的年幼無知和對于自由時光的奢侈浪費。
最后說回這次百日作業的實踐。其實這段時間里,自己一直有去完成不同老師課程里布置的各種作業,但是很多時候是無法聯系起來的,技巧上一些練習。像很重要是 sql 技能,常用指令其實不多,但是可練習項目其實真的少的可憐。而 kaggle 上的項目,經過幾次嘗試,我發現更多的是需要一些思路上的突破,需要很多的算法積累,模型學習,而這一部分,是我需要大量補習的內容。如果只是簡單的做幾個數據的可視化,其實并沒有很大的重復意義。
所以自己也去開始想著:如果從實際應用出發,自己怎么去獨立的解決一個命題呢?
遇到的問題
于是就開始了這次的作業實踐,也遇到非常非常多的問題。
首先就是爬蟲技術的問題,因為一開始在做 R 和 python 二選一的時候,我選擇了名字比較短的那個,所以到后面發現 python 的技術可能更適合爬蟲應用的時候,我的臉是非常傲嬌的…… 通過取巧,采用了爬蟲插件來工作。但是在應用的時候還是遇到了各種問題,首先就是因為智聯的搜索機制問題,它在無法滿足搜索機制的時候,會自動的填充其他內容,所以我當初爬到了 3000 多的時候發現爬取內容已經完全沒有 “數據” 兩個字了,然而工作還在繼續!這就很窩心了。

但是那個時候根本不知道問題在哪里,只能重新再爬一次,然后定期回來檢查…… 這工作居然要人工來做,可想有多窩火。而且因為不知名原因,gooseeker 爬取還會出現很多的爬取失敗和卡頓現象,盯著那個爬取頁面卡著半天,然后報錯,然后下一個…… 這是一種很讓人沮喪的體驗,也是在那個時候,我下決心,還是把 python 追上了學學吧。
哎。
數據的源文件,我爬了整整 2 個晚上,然后只有 2000 出頭可以用,后面整合爬取文件的時候,因為要通過 excel 的宏來操作,又是遇到各種零碎的麻煩,最后甚至還是通過笨辦法解決的……
效率低下!心疼啊!
然后就是文本問題的處理上,首先我是想通過代碼來進行職業關鍵詞篩選的,后來發現研究了整整兩天,最后發現現有的知識量,沒有頭緒去做到。查了半天就是找不到方法。最后不得已放棄,采用了觀察,然后數字篩選的方法,也幸虧我當初是人工叫停的。否則還真不知道要翻數據翻到哪里去。

文本的第二個問題出現在月薪機制的篩選上,其實原本就知道這個東西通過 excel 的命令特別容易做到(畢竟我也是看【七周成為數據分析師 - Excel 實戰篇 - 知乎專欄】才動的實踐課題念頭)但是通過 R 語言來實現的時候就遇到了各種問題,這個時候還沒有人教過我的文本處理,也不知道去哪里問,問什么,只能到處逛,到處搜,搜到了之后好不容易處理好代碼,然后發現不斷的報錯,最后長時間的 debug 然后發現是問題出在 “1000 以下”(別人都是 “6000-8000”)心情可想而知…
而后面在詞云的文本分析和處理上,發現僅僅學會技術的話可提供的幫助太少了,文本分析需求的邏輯鏈條可能更模糊也更困難。尤其是在關鍵詞不明朗的前提下。
最后就是代碼優化和可視化的輸出上。因為完成思路的周期其實很長,零碎的思路在最后回頭再看的時候,又會有很多的想法。而在自己的數據閱讀中,我一直想去嘗試優化自己的思路和代碼,這種嘗試的過程會很,幸福。哈哈,不說笑,真的很幸福。尤其是在可視化的時候,這個圖到底能不能清晰的表達我的思路,我全篇的邏輯線是否流暢,是我想要去完善的一個東西。可能一直是在從事比較務實的工作的原因,能不能盡可能的簡單,盡可能方便拿起來就用,是我關注的重點。這個琢磨的過程其實給予我很多。

————
而在實踐完成的時候我也如愿的拿到了我的作業的結論,也清楚了自己下一階段的學習重點,而且也算增加了自己的項目實踐素材。
最重要的是,我證明了,我可以做到。
路還長,而明天,就是 Day101 了。
2017.5.13
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。