新用戶登錄后自動創建賬號
登錄近日,“2018全球人工智能產品應用博覽會”在蘇州國際博覽中心舉辦,來自10個國家200多家企業和人工智能機構展示1000多種全球最新的人工智能產品,100多位專家、學者主導25場關于人工智能細分應用的分論壇。
“上海交通大學蘇州人工智能研究院分論壇”上,分音塔科技CEO關磊現場分享了人工智能在翻譯機場景的應用。
清華大學團隊分音塔科技自主研發的準兒翻譯機,是全球首款帶屏的人工智能翻譯機,也是中國首款人工智能口語翻譯機,并且是中國首家攻克日語離線語音識別技術,目前同品類中支持語言和口音數量遙遙領先的翻譯機。
在分享中,關磊談到了分音塔團隊的研發歷程與細節,為人工智能同行提供了一份實戰性的借鑒。
不一樣的C端產品
分音塔科技專注于AI和C端結合的產品,是中國人工智能翻譯的創建者,2016年發明了中國第一款人工智能翻譯機,目前在行業占有主流位置。
翻譯機作為C端產品,其實和傳統C端產品的差別很大。比如機器人、智能音響這些傳統的C端產品,本質是人機交互,使用場景是家庭里面,場景比較單一。但是翻譯機的本質是人和人交互,它是翻譯溝通的媒介,用戶說的語言、使用的場景和人機交互的場景都不太一樣。
所以分音塔在做準兒翻譯機的時候,遇到的問題復雜得多。比如用戶使用不在中國,使用的場景在全世界,可能在美國、日本、塞班、馬爾代夫,也可能在餐廳、酒店、酒吧、街頭,用戶使用場景極其復雜。
去年準兒翻譯機上市以后,研發團隊就發現市場需求比想象的更廣泛,商旅用戶、旅行用戶甚至公安局出入境這些都是用戶。這就是做C端產品和B端產品不一樣的地方。
從旅游市場切入
當前AI比較熱門,但是技術只有解決用戶在實際場景的需求才更有價值,在應用上選擇什么領域非常重要。
分音塔當時做翻譯機,選定了出境游市場。第一,中國人出境去年達到了1.29億人次,而且還在快速的增長,市場很大;第二,中國經濟十幾年的發展,人們的消費隨之升級,出境游也從大眾化的跟團旅游發展到深度游,80、90后更愿意背著包自由行走,追求深度體驗。這些都會使人們出境游時,語言溝通不暢這一痛點,需求解決更為迫切。
聚焦出境游應用,也避免了通用型的翻譯語言在個性化的應用場景中“失真”,翻譯準確率也會更高。
譯得準,從語義識別著手
人工智能翻譯技術涉及的技術很多,主要技術有語音識別、語義識別、機器翻譯、語音合成等。語音識別解決聽得到、聽得清的問題,語義識別則是解決聽得懂的問題。
同一種語系中,語義識別相對容易,比如拉丁語系很多單詞都差不多,翻譯準確率就高。但不同的語系,由于文化習性差異大,語義識別難度就大。東方語系本來就語義復雜,比如漢語中的一句話,放不同的場景都能表達不同的意思。
分音塔做翻譯機,是中國人在外國使用,所以必須解決東西方語系下的語義識別問題。沒有現成的語言模型,自己從零開始做語料庫。國外很多地方都譯不準,很多專有名詞要根據國外的場景優化,只能建自己的語料庫。比如和日本人聊到料理,日本當地的地名、菜名都需要重新做語料。
人類的語言表達很復雜,比如口頭禪,還有表達時該停頓的時候沒有停頓,都要通過語義識別來斷句。
LBS(基于位置的服務)是輔助語義識別的有效途徑。比如檢測到用戶在日本,那么后臺會根據用戶所在的地方進行一些精準的匹配,比如日本的專業名詞,同音詞的理解和翻譯上。
當然,人工智能翻譯機最難的機器翻譯,也是分音塔科技最核心的技術優勢。
直面實際應用
語音識別其實在實地使用中面臨很大的挑戰。
某友商曾號稱自己的產品語音識別準確率達96.7%,但測后發現還不到91%。原來該友商的檢測條件有三個:第一密閉安靜的環境,第二國家普通話二級水平,第三常用的語言。如果在實際應用場景,這三個條件也許就變成了噪音、方言口音、非常用語。
分音塔研發團隊從降噪抓起。
在特別嘈雜的場景,差距30公分語音識別效率會大幅度下降。傳統音響考慮的是3到5米范圍內的降噪,最后分音塔團隊逼自己開發適合0.5米到1.5的降噪技術,使用起來效果非常好。
中國口音博大精深,外國也一樣。分音塔做出第一代翻譯機后,發現外國人也有口音,英語有美式、英式、加拿大、南非等很多口音,美式英語的口音識別很差。后來又改進,從最早上線支持四種語音,到目前支持39種語言、52種口音,成為支持語言、口音最多的翻譯機。它可以根據LBS場景來實時選擇當地所需要的口音,從而提升語音識別準確率。
配屏是準兒翻譯機的行業首創。人和人溝通,7%的信息傳遞是通過語言,38%是通過語調和語速,55%是通過表情和動作。為了增強人機交互,分音塔團隊堅定給準兒翻譯機加了一塊屏,由此通過視覺來彌補聽覺的不足。
用戶在使用中還會面臨網絡環境的問題,比如中國、韓國、日本有全世界最好的網絡,但到歐洲城郊幾乎就沒網,加拿大、澳大利亞玩也這樣。這逼著分音塔團隊開發一些離線語音識別技術。目前,分音塔團隊與清華大學語音和語言技術研究中心聯手攻克了中、日、英三種語言的離線語音識別技術,其中日語離線語音識別技術是國內零突破。