大數(shù)據(jù)分析網(wǎng)絡多語言探討

時間:2022-11-12 10:11:30

導語:大數(shù)據(jù)分析網(wǎng)絡多語言探討一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

大數(shù)據(jù)分析網(wǎng)絡多語言探討

摘要:由于網(wǎng)絡多語言及時翻譯系統(tǒng)受到字符串長度的影響,導致系統(tǒng)的翻譯速度變慢且匹配率也比較低。為了提高網(wǎng)絡多語言翻譯系統(tǒng)在翻譯速度和匹配率方面的性能,文中提出一種基于大數(shù)據(jù)分析網(wǎng)絡多語言及時翻譯系統(tǒng)設計。將大數(shù)據(jù)分析應用到網(wǎng)絡多語言及時翻譯系統(tǒng)設計中,在大數(shù)據(jù)分析的基礎上,通過網(wǎng)絡多語言及時翻譯服務器設計和網(wǎng)絡多語言詞法分析器設計,完成系統(tǒng)的硬件設計;采用特征提取算法實現(xiàn)網(wǎng)絡多語言的語義特征的提取,結合設計網(wǎng)絡多語言及時翻譯算法,完成系統(tǒng)的軟件設計。最終實現(xiàn)了網(wǎng)絡多語言的及時翻譯系統(tǒng)設計。進行仿真測試分析,測試結果表明,基于大數(shù)據(jù)分析的網(wǎng)絡多語言及時翻譯系統(tǒng)在翻譯速度和匹配率方面性能均具有較好的提升。

關鍵詞:網(wǎng)絡多語言;及時翻譯系統(tǒng);大數(shù)據(jù)分析;語義特征提取;系統(tǒng)設計;仿真測試

在人類社會交往日益國際化的今天,英漢之間的語言翻譯早已經(jīng)成為學術界研究的熱點,也引起了人們的關注,與此同時便產(chǎn)生了語言翻譯系統(tǒng)[1]。對于網(wǎng)絡上的多語言翻譯來講,提高其翻譯質(zhì)量,使得網(wǎng)絡多語言翻譯系統(tǒng)的使用頻率逐漸升高,已經(jīng)成為系統(tǒng)設計者和研發(fā)者需要思考的重點[2]。網(wǎng)絡多語言翻譯系統(tǒng)之所以能夠被大多數(shù)用戶認可,是因為很多研發(fā)者在設計過程中應用了機器翻譯算法,從而有效提高了語言翻譯的準確度。機器翻譯是利用計算機編程軟件將一種語言文本翻譯成另一種語言文本的方式,實現(xiàn)多種語言之間的相互轉(zhuǎn)換[3]。在大數(shù)據(jù)分析技術的背景下,語言翻譯系統(tǒng)已經(jīng)不僅僅局限于多種語音的在線識別,在語義、語境處理上也具有很好的應用效果。雷花等人對基于開源CMU⁃EBMT范例的機器翻譯系統(tǒng)特性進行了深入的描述[4],包括詞典歸納、單詞和短語對齊、語料庫索引和查找、語言模型、解碼器和參數(shù)調(diào)整組件。為了說明CMU⁃EBMT最近增加的內(nèi)容,給出的實驗表明,當使用一組新的細粒度對數(shù)線性特征值來表示語言模型匹配長度以及語言模型概率時,在交叉驗證的小數(shù)據(jù)英語⁃海地翻譯任務上提高了0.16個BLEU點(相對值為0.9%)。余倩針對傳統(tǒng)語言翻譯系統(tǒng)存在語義語境模糊、準確度低的問題,將特征提取算法應用到交互式英漢翻譯系統(tǒng)設計中,在引入特征提取算法的基礎上,選取英語語義的最優(yōu)翻譯解,通過構建英漢語義之間的映射模型,實現(xiàn)英漢之間的交互最優(yōu)翻譯[5]。仿真結果顯示,該系統(tǒng)可以在英漢翻譯過程中尋找到語義之間的最優(yōu)翻譯解。基于以上研究背景,本文將大數(shù)據(jù)分析應用到了網(wǎng)絡多語言及時翻譯系統(tǒng)設計中,從而提高網(wǎng)絡多語言翻譯系統(tǒng)在翻譯速度和匹配率方面的性能。

1網(wǎng)絡多語言及時翻譯系統(tǒng)硬件設計

1.1網(wǎng)絡多語言及時翻譯服務器設計

網(wǎng)絡多語言及時翻譯服務器由多個運行Moses程序的服務器和一個運行Apache程序的服務器組成,翻譯服務器的種類不同,所承擔的翻譯服務也不同[6]。網(wǎng)絡多語言及時翻譯服務器通常由運行Apache程序的服務器進行統(tǒng)一管理,可以為系統(tǒng)客戶端提供用戶訪問接口[7]。網(wǎng)絡多語言及時翻譯服務器結構如圖1所示。網(wǎng)絡多語言及時翻譯服務器的設計分為兩個步驟,先訓練再解碼,訓練就是在龐大的網(wǎng)絡多語言數(shù)據(jù)庫中統(tǒng)計出用于求解最大概率的網(wǎng)絡多語言數(shù)據(jù),解碼就是利用訓練結果尋找出概率最大的解[8]。在訓練過程中,通過對數(shù)據(jù)庫中網(wǎng)絡多語言數(shù)據(jù)的統(tǒng)計得到訓練數(shù)據(jù),解碼是將輸入的網(wǎng)絡多語言數(shù)據(jù)通過解碼算法找到最大概率的翻譯結果。網(wǎng)絡多語言及時翻譯服務器的工作原理如圖2所示。通過設計網(wǎng)絡多語言及時翻譯服務器結構,對網(wǎng)絡多語言及時翻譯服務器的工作原理進行詳細設計,完成網(wǎng)絡多語言及時翻譯服務器設計。

1.2網(wǎng)絡多語言詞法分析器設計

網(wǎng)絡多語言及時翻譯系統(tǒng)中互相聯(lián)動的功能模塊一共有8個,構成網(wǎng)絡多語言翻譯流程的結構[9],如圖3所示。在網(wǎng)絡多語言翻譯流程結構中,詞性標注模塊、詞法分析模塊以及淺層句法分析模塊都能夠分析網(wǎng)絡多語言的源語言,而實例模式匹配可以將實例模式作為基礎[10]。短語目標生成模塊可以將翻譯的譯文輸出。網(wǎng)絡多語言翻譯的知識源就是將真實網(wǎng)絡多語言文本轉(zhuǎn)變成詞性序列的一個過程,因此需要設計一個詞法分析器對網(wǎng)絡多語言文本進行處理[11]。詞法分析器的結構如圖4所示。在網(wǎng)絡多語言及時翻譯服務器設計的基礎上,設計了網(wǎng)絡多語言翻譯流程結構,利用詞法分析器結構完成了網(wǎng)絡多語言詞法分析器設計,實現(xiàn)了系統(tǒng)的硬件設計。

2網(wǎng)絡多語言及時翻譯系統(tǒng)軟件設計

2.1提取網(wǎng)絡多語言的語義特征

在提取網(wǎng)絡多語言的語義特征之前,先引入特征提取算法,將網(wǎng)絡多語言的最佳語境提取到翻譯過程中,實現(xiàn)網(wǎng)絡多語言語義特征的提取。假設翻譯過程中一共存在N種翻譯語境,包括K類語義,網(wǎng)絡多語言翻譯語境的數(shù)量表示為Ni(i=1,2,⋯,K),K類網(wǎng)絡多語言語義翻譯用概率為Xi={X}i1,Xi2,⋯,XiN,其中Xij={i}=1,2,⋯,K;j=1,2,⋯,Ni為一個定向的n維向量結果。通過特征提取過程[12],將網(wǎng)絡多語言翻譯的語境翻譯為:(1)式中αi表示能夠達到網(wǎng)絡多語言翻譯的語義翻譯語境。那么最佳翻譯語境的選定過程為:(2)在式(2)的前提下,計算網(wǎng)絡多語言非語義翻譯的語境矩陣Sw和網(wǎng)絡多語言語義翻譯的語境矩陣SB,將其表示為:在網(wǎng)絡多語言翻譯的輸出結果集中,求解網(wǎng)絡多語言翻譯輸出的優(yōu)化解向量R(X)。結合以下判決模型,來提取網(wǎng)絡多語言的語義特征,具體步驟如下:

2.2設計網(wǎng)絡多語言及時翻譯算法

在設計網(wǎng)絡多語言及時翻譯算法時,利用大數(shù)據(jù)分析技術抽取出網(wǎng)絡多語言文本,得到網(wǎng)絡多語言長字符X,Y在文本中的相似程度,表示為:根據(jù)網(wǎng)絡多語言詞匯在文本中的具體位置,并與上下文相匹配,得到網(wǎng)絡多語言翻譯的模糊概念集。從網(wǎng)絡多語言的語境出發(fā),得到網(wǎng)絡多語言文本語義和詞性之間的關聯(lián)性函數(shù)[15]。結合詞與詞之間的互信息特征,實現(xiàn)網(wǎng)絡多語言的及時翻譯,最后求解得到翻譯規(guī)則的計算結果為:

3測試分析

3.1設定測試參數(shù)

為了驗證基于大數(shù)據(jù)分析的網(wǎng)絡多語言及時翻譯系統(tǒng)的有效性,引入文獻[4]網(wǎng)絡多語言及時翻譯系統(tǒng)和文獻[5]網(wǎng)絡多語言及時翻譯系統(tǒng),設定了測試參數(shù),如表1所示。翻譯系統(tǒng)測試實驗需要注意測試對象選取的隨機性,為了確保整個實驗過程中的準確性,需要嚴格對實驗對象進行條件限定,結果如表2所示。

3.2網(wǎng)絡多語言翻譯速度測試

以網(wǎng)絡多語言句子數(shù)量為自變量,采用三種翻譯系統(tǒng)測試了網(wǎng)絡多語言翻譯的速度,結果如表3所示。從表3的測試結果可以看出,文獻[4]網(wǎng)絡多語言及時翻譯系統(tǒng)由于在硬件設計方面,沒有對數(shù)據(jù)庫中網(wǎng)絡多語言數(shù)據(jù)進行統(tǒng)計,無法得到訓練數(shù)據(jù),導致該系統(tǒng)在翻譯網(wǎng)絡多語言時的速度變慢,經(jīng)計算,網(wǎng)絡多語言測試過程中的平均翻譯速度為每秒4.275句子數(shù);而文獻[5]網(wǎng)絡多語言及時翻譯系統(tǒng)的性能相對要優(yōu)于文獻[4]網(wǎng)絡多語言及時翻譯系統(tǒng),但是由于無法提取出網(wǎng)絡多語言的語義特征,使網(wǎng)絡多語言的翻譯變得更加復雜,經(jīng)計算,網(wǎng)絡多語言測試過程中的平均翻譯速度為每秒5.566句子數(shù);而基于大數(shù)據(jù)分析的網(wǎng)絡多語言及時翻譯系統(tǒng)結合了以上兩個系統(tǒng)的軟硬件優(yōu)勢,加快了網(wǎng)絡多語言的翻譯速度,經(jīng)計算,網(wǎng)絡多語言測試過程中的平均翻譯速度為每秒8.34句子數(shù)。

3.3網(wǎng)絡多語言匹配率測試

網(wǎng)絡多語言匹配率可以反映出網(wǎng)絡多語言翻譯系統(tǒng)的翻譯準確性,分別采用文獻[4]網(wǎng)絡多語言及時翻譯系統(tǒng)、文獻[5]網(wǎng)絡多語言及時翻譯系統(tǒng)以及基于大數(shù)據(jù)分析的網(wǎng)絡多語言及時翻譯系統(tǒng),測試了網(wǎng)絡多語言的匹配率,結果如圖6所示。從圖6的測試結果可以看出,基于大數(shù)據(jù)分析的網(wǎng)絡多語言及時翻譯系統(tǒng)的匹配率是最高的,其次是文獻[5]網(wǎng)絡多語言及時翻譯系統(tǒng),而文獻[4]網(wǎng)絡多語言及時翻譯系統(tǒng)由于沒有計算網(wǎng)絡多語言長字符在文本中的相似程度,導致匹配率的測試結果偏低。

4結語

本文提出一種基于大數(shù)據(jù)分析的網(wǎng)絡多語言及時翻譯系統(tǒng)設計,通過網(wǎng)絡多語言翻譯系統(tǒng)的硬件設計和軟件設計,完成了系統(tǒng)的設計,實現(xiàn)了網(wǎng)絡多語言的及時翻譯。測試結果顯示,該系統(tǒng)的性能是最好的。

作者:祁偉 牛歡 肖蕾 單位:廣東技術師范大學 北京外國語大學