趁熱打鐵,他又新增了十個本地新聞站和兩個本地論壇,兩三個網站的反爬蟲機制很厲害,不到一分鐘就被禁止訪問了,他苦笑了一聲聳了聳肩,無論如何已經有上千條新聞進來了。
新聞抓取,達成!男孩帶著明亮的眼眸笑著,帶著欣喜回望了身後熟睡的女孩們,又緊握拳頭再次振作。
接下來是提取工作,首先是去重,用distinct命令就可以。去重之後剩下700多條新聞和帖子,男孩倒吸一口涼氣。
短短幾天,全市竟然發生了700多起失蹤案!
提取工作最難的一部分是地點識別,男孩沒有字典,如果是有物流公司的資料就好了——思忖片刻,問題很快解決。
他開啟無極公司的地圖網頁,找到api介面,用網頁提取的方式將錢唐市的所有街道小區名、路名、飯館名、橋名、河名全部提取下來,畢竟工作量不大,於是他連公共廁所也沒有放過。匯入新的資料表後,自制的字典完成。
藉著字典和熟悉的命令,幾十萬字的新聞在5分鐘化為700個零碎地名的檔案,再次去重之後,只剩下500多個地名。
早知道剛剛順便把座標也提取下來了,男孩挑了挑漫不經心的眉毛,喝了一口茶舒展身體,靠著椅背略微休息一會回到螢幕前,重新呼叫無極公司的api。
這才發現無極公司早就提供了資料地圖的功能,作為測試版本還是免費的,男孩露出欣喜的笑容,他重新下載好地名的資料包,再次敲擊好命令之後,500多個地名後面紛紛出現對應的gps座標。
從開始到現在一共過去了兩個小時,男孩望著螢幕上密密麻麻標著紅點的地圖露出興奮的笑,如此短的時間內取得如此進展真是嘆為觀止!這是過去以往都沒有達到的推進速度。
看著螢幕,谷文承喜悅的嘴巴逐漸大張,滿臉驚恐。
紅點分佈一共呈現出多個大圓,大多分佈在城南城西,離自己最近的圓,其圓心是自己家南側兩個街區的十字路口,半徑在兩公裡左右,無論是學校、自己家都被覆蓋!
最後是資料擬合,不管怎麼樣資料都是符合冪律分佈的,男孩首先刪去除了其他地方的資料,只剩下自己所在片區的一個圓,他將噪點中心都去掉,只剩下最外圍的點狀分佈,拼成一個圓環的輪廓,圓形擬合可以使用最小二乘法,他還沒用過這樣的公式,文承皺起眉頭。
他快速搜尋到最小二乘法的原理,花了十幾分鐘快速啃完,接著來到開原始碼網站,卻找不到php版本的,有的是c語言版本,他還不是很熟,不過原理是相通的,更何況直接應用就可以,根本不需要二次開發。
他深吸一口氣,下載了atab之後將資料重新匯入,一個清脆的回車鍵,擬合結束!
文承看著螢幕上一個完美的圓形滿意地笑起來,揉了揉眼睛,將資料再次匯入地圖。
地圖上的圓心名叫遠拓大廈,
谷文承突然想起來,那是一個爛尾樓。
將結果儲存後關了電腦,忍住將答案告訴熟睡女孩的沖動,文承來到房門外悄悄關了門,來到沙發上躺下。
他看了看手機,已是淩晨五點,即便是一個小時,還是夠睡的。
興奮的情緒似乎是小鬼的舞蹈一樣糾纏在腦中,谷文承無論怎麼努力閉上眼睛都沉不下心,他在手機上胡亂翻著,突然翻到了前陣子剛拍下的一個女孩的照片,一下子就平靜下來,他就那樣靜靜地靜靜地看著,心緒逐漸平穩,睏意排山倒海般湧來。