“表弟啊,再救哥哥一次。”張傑越來越發現表弟是個觀音化身,有求必應。
“又……是什麼問題啦,家裡還好嗎?”
“呸,家裡好著呢。趕緊給我推薦幾個同聲翻譯的軟體吧,我扛不住了,一堆世界各地的老外,什麼口音都有。有個印度客戶,客服問他叫什麼,他說他叫‘禿驢’,我勒個去,後來一想應該是叫‘terry’。這是什麼個口音。”
“哥啊,這個我可搞不定。國內有能耐的就是兩家比較厲害的,但是還是一堆的問題。遇到一些口音問題就搞不定。奴歌的我們又上不去,不說也罷。你要麼去招幾個外國留學生回來兼職,要麼給那兩家公司打電話問問。”
“好吧,我打過去問問。”張傑掛掉了電話,在網上找了兩家公司的400電話,撥了過去。
“3342號話務員為您服務,有什麼可以幫助您的。”
“我想問一下,你們的同聲翻譯的軟體能不能做到正確識別印度印度,或者非英語國家的帶著嚴重口音的英語?”
話務員愣了一下,這個問題好難的樣子。“先生,我們的軟體是基於大資料分析平臺的,有足夠多的語音樣本,你們可以試用一下,我想應該可以解決你們的問題。”
“好吧,”張傑也聽出來了,他們的客服也很為難的樣子。
張傑掛掉電話後,在兩家的網站上下載了軟體,然後又從自己的呼叫中心的錄音伺服器上抽取了幾個老外打來的電話錄音。
開啟軟體後,開始播放錄音。識別出來的效果是一塌糊塗,就連設定好指定的印度英語後,識別率都不到80,更何況還有很多的口音是不支援的。
“不行啊,表弟,這個幾個翻譯軟體一點用也沒有。不是號稱大資料嗎?怎麼識別率那麼低?”
“原因很簡單,小語種用的人少,賣不了錢,怎麼會花心思去做呢。這個東西說簡單也簡單,說難也難。實際上辨別標準美語還是其他小語種,對於電腦來說都是把語音做音訊切片,然後和已有的語音庫做比對。懂了嗎?”
“差不多懂了,就是說,只有花了時間去做出來一個語音庫,就算是幾十個人用的小語種也可以被識別出來。”
“您太聰明瞭,但是誰會去花錢做這種事情呢?完全是吃力不討好的,你要蒐集足夠多的語音樣本,還需要做人工切片,再讓軟體進行學習,因為不可能所有的人對同一個單詞的發音是一樣的。只有樣本一多,大資料分析平臺就可以用近似逼近的演算法去匹配,所以我們也經常發現語音識別會跑出來很多同音字。”
“那不是無解了?”
“那倒未必,我找個高人問問看啊。”周磊說道。
“行,你先問,有結果了告訴我。這個事情太讓我頭痛了,不說了,客服的人又來告狀了。”
周磊開啟筆記本,遠端登入上了電信園區的伺服器叢集,做了一個日常的巡檢。他不放心讓自己的小網管在上面操作,怕搞出問題就麻煩了。
新機器執行的都比較穩定,只是執行過程中壞了幾塊硬碟,就叫負責售後的整合商去換掉了。
每次看美劇還是網文,發現那些高科技公司或者it系統是永遠不會壞硬體的。這麼搞法,你讓賣硬體的準備去死嗎?周磊關掉手機上的點娘app,上面有自己一直追看的幾本漏洞百出的高科技文,一邊吐槽著。
系統一直很穩定的執行,儲存空間也在不斷的增長,估計是用了裸裝置的儲存方式,在系統裡嘗試輸入一些inux命令都找不到ount點。
只是偶爾的一次,看到在編號第一臺的伺服器上,有一個output目錄。裡面是一些檔案,但檔名都是一些亂碼,下載下來後也打不開。
周磊退出了系統,開啟了自己的聊天軟體。
“請教大佬一個問題,有沒有辦法給同聲翻譯軟體增加小語種的功能?”