毕业设计类全套文件的下载平台

基于神经网络的吟诗作对技术研究与应用

  • 文档格式:.doc

文档分类: 临床医学

< / 38 >

还剩... 页未读,继续阅读

免费阅读已结束,点击付费阅读剩下 ...

阅读已结束,您可以下载文档离线阅读

关于本文

  • 本文标题:基于神经网络的吟诗作对技术研究与应用.doc
  • 链接地址:https://wk.sbvv.cn/view/21273.html
  • 内容摘要:基于神经网络的吟诗作对技术研究与应用 摘要 自古以来,国ropout机制,提高生成模型的效果。最后通过用静态页面的方法,输入上联经过模型自动生成下联。本文经过RNN的模型在实际应用中得到了很好的效果,自动生成的下联可以与上联的格式相同文字相对应。 关键词,循环神经网络,对联生成,dropout,注意力机制 ThemethodandapplicationofrecitingpoemsandcomposingpaibasedonNeuralNetwork abstract SinceancienttimestheChinesenationhasthetraditionalcustomofrecitingpoemsandcomposingrighteveryyearwhichisthetraditionalcultureofChina。Whenrecitingpoemsweshouldpayattentiontothecoordinationofthelevelandthetonethealignmentshouldbeneatandtherecitationshouldhaveastrongaestheticfeelingwhichislovedbymanypeople。Howtousemachinelanguagetorealizethisspeciallanguageformhasbeenwidelyconceed。Thereforethispaperisthetechnologyofnaturallanguageprocessing。OnthebasisofRNNtheresearchandapplicationofrecitingpoemsandmakingpaiiscarriedoutandamodelofgeneratingtargetsequencesaccordingtospecifiedsequencesisdesignedandimplemented。Thereforeaccordingtotheactualneedsisasequenceofautomaticgenerationwork。Theoutputsequenceisgeneratedbythegiveninputsequence。Inthiscaseacodinganddecodingmodelisproposed。Encodingistorepresentthetextwithvectoofequallengthaccordingtotheactualsituation。Decodingistotraformtheencodedsequenceagain。Inthispapertwowayrecurrentneuralnetworkisusedtocodeandrecurrentneuralnetworkisusedtodecode。Inthewordvectorprocessingthecontextrelatiohipshouldalsobetakenintoaccountandthewordcorrelationofthecorrespondingpositionoftheupperandlowerlinksshouldbecoidered。Thereforeattentionmechanismisusedtocompletethisruleinthedecodingstage。Atthesametimeinordertopreventtheneuralnetworkfromoverfittingthedropoutmechanismisaddedintheexperimentalprocesstoimprovetheeffectofmodelgeneration。Finallybyusingthemethodofstaticpagetheinputuplinkisautomaticallygeneratedbythemodel。InthispapertheRNNmodelhasbeenappliedinpracticeandgoodresultshavebeenachieved。Theautomaticallygeneratedlowerlinkcanbeinthesameformatastheupperlinkandcorrespondtothetext。 Keywords:cyclicneuralnetworkcoupletgenerationdropoutattentionmechanism 目录 第一章绪论 1 1。1选题背景目的及意义 1 1。2国内外研究现状 3 1。3本文工作 5 第二章任务描述与数据预处理 7 2。1 任务描述 7 2。2 数据预处理 8 第三章基于RNN的吟诗作对方法技术 9 3。1 基础知识介绍 9 3。1。1标准循环神经网络 9 3。1。2长短时记忆网络 11 3。1。3双向循环神经网络 12 3。2Dropout机制 13 3。3注意力机制 15 3。4序列到序列模型 16 3。4。1经典的序列到序列模型 16 3。4。2基于注意力机制的序列到序列模型 17 3。5基于序列到序列的对联自动生成实现 19 3。5。1输入处理 20 3。5。2编码阶段 21 3。5。3解码阶段 23 3。6模型训练与结果分析 24 3。6。1模型训练 24 3。6。2结果分析 25 第四章基于吟诗作对方法的应用 27 4。1系统设计 27 4。2系统实现 28 总结与展望 30 参考文献 31 致谢 33 第一章绪论 在大数据时代的来临,自然语言处理的应用到各个层面,而且它也正在尝试着学习人类的表达方式,同时也让人工智能领域的发展可以得到一个很大的提升。自然语言处理主要包括先认识语言然后再学习语言这两个部分。而在中国语言生成的最具有代表意义的就是诗歌和对联,并且是各位专业学者经常作为的研究对象。 1。1选题背景 在中国自古以来都有吟诗作对的传统文化习俗,特别是在每年的春节家家户户都会在家门口贴对联,在元宵节猜灯谜,吟诗作对一番。其中有严格的格式,要求上下联字数相等,对应位置词语关系紧密,同时在进行吟诗作对之时还需要讲究平仄协调,格式严谨,是中华民泽非常特色的艺术展现方法,很多人都喜欢。而且经过时间的熏陶,形成了比较成熟完整的体系,而且应用广泛,与人民的生活也有着十分紧密的联系,也作为社会形态的一份独特的存在。对联的最早开始于秦汉时期悬挂桃符的日常生活中,五代时又让在桃符上刻字,在后蜀的时候孟旭让辛寅逊在桃符板上写一些祝福的话语。在之后一段时间在明清时代得到了非常迅速的发展,到现在也已经有了一千多年的时间了。三千年前,中国早期时代的人们开始使用对偶句了。后来在商朝和周朝这两个方面用的对偶句和后来的诗词歌赋中所用的骈俪句,都为对联的产生做了一些铺垫。随着时间的推移,到后来的朝代经过人民智慧的结晶出现了越来越严密和精准的格式要求同时也保留着一些格律诗的一部分准则。因此在很久以前人们经常在娱乐之时常用来把吟诗作对当做是文人墨客会友的一种常见的娱乐项目,以文会友。而且对联从古至今都有很多的用处,从最早时候的悬挂桃符开始,来寻求平安等,后来人民就把对联的话写在了桃木板上,后来在五代朝代等以后,出现了一些对联,在每个时代来说都出现与之相对应的对联如下表11所示每个朝代所出现的对联形式。 表11每个朝代出现的对联 朝代 对联 后蜀 新年纳余庆,嘉节号长春 北宋 千门万户曈曈日,总把新桃换旧符 明朝 风格多样,种类 在上表中出现的对联都有其特殊的意义在后蜀代表着当时出现的一些事件,而在北宋年间的对联则是当时过年时候所出现过年的场景。在明朝的时候则不在用之前的桃木板子了,换成了红纸,也就出现了现在的对联。而在明朝的时候朱元璋微服出巡之时让每家每户门前都加上一副对联,来进行观赏取乐,这也就出现了过年贴对联的传统习俗。随着时间的推移,对联的形式和种类也多种多样,不论是在喜事还是在白事上都会出现,只不过在内容上差别很大。而且其中一种叫做楹联的不仅在国内广受关注,在国外也很受欢迎。 为了让对联这种特殊的文学形式,在社会发展时代如此之快的形式之下,也需要让每一个人都能重视起来。尤其是当今大数据人工智能时代,必须通过现代的技术来实现我们传统文化的继承,在自然语言处理领域关于对联的生成问题对于我们炎黄子孙来说必须要弘扬祖国的传统文化,而且传统文化的继承问题也应该随着科技的进步而进步,让所有人都知道传统文化也可以在不同的领域的到应用与发展,因此在本文当中采用神经网络来对对联这一形式进行应用处理。 因此让计算机在人们生活中越来越能理解人们的语言文化艺术方面得到更好应用,体现的越来越必要。而且对联这一特殊的文化形式如果让计算机能够识别,而且通过让对联的爱好者和初学者能够更加简单方便的学习其相关的知识的话,既方便了人们的学习相关的知识,同时也对中华民族的传统文化也让更多人学习。在本文就以对联为研究,通过计算机生成训练队模型来生成对联制作可视化界面进行运用。 1。2国内外研究现状 1。2。1基于词向量的生成方法 把自然语言的问题转化为机器所能识别的问题,就需要将语言转化为2进制,让计算机能够认识这种语言。在这里,需要将字典里的每个汉字表示成一个向量。在自然语言处理中,最先出现的方式是onehot方法,这种方法的向量维度是字典大小,每个字都有数据自己的向量,在它自己的向量里面只有一个数字为1,其余的数字全为0,这个1就是这个字在实际中设置的字典中的地方。举个例子,祖表示为[001000。。。],国表示为[000001。。。],这种方法表示的向量非常稀疏,如果采用稀疏方式记录会非常简洁,给每个字都有自己的编号。但在实际操作的时候,这样的表达形式会出现一些问题,主要有这两个问题,,1,如果在实验中所设计的字典很大的话,计算机的计算范围有限不能进行操作。,2,字与字之间的相似性关系不能表现出来,即有词汇鸿沟现象。 为了克服上述缺点,于是另一种词向量的表示方式产生了,即Distributedepresentation。DistributedRepresentation的想法是在1986年Hinton在发表的论文中有了的[1]。相比于onehot表示方式,Distributedrepresentation还能体现不同词之间的语义关联,因此在自然语言的处理上得到了广泛的应用。如果采用不同训练词向量的方法,那么所得到的结果也不同,当前来说人们常用的有word2vec和glove。 1。2。2基于统计机器翻译的生成方法 在自然语言生成中,诗歌和对联生成在微软研究院周明等人看成是统计机器翻译StatisticalMachineTralation,SMT,问题[2][3]。这种方法吧诗歌和对联的翻译过程,根据前一句翻译后一句,根据给出的上联翻译下联。在用户输入上一句的时候,接着根据用户输入第一句,接着根据统计机器翻译的模型来生成第二句。实验部分,通过人工和自动两个方面对实验结果进行评估。在人为评估的话按照一定的方式方法进行评估,对于机器评估的话人们常用BLEU[4]来评估。 因为机器进行解码的时候不仅只考虑当前的数据,而且还会与其有关的句子进行考虑,所以用这种方法在句子的意思方面会与比较好的结果,并且不依赖于人工设计评估函数,模型通过语料进行自动学习。但在实际的生活中,人们的目标往往只有开始的一句有关,并不会考虑其他的,生成的结果不能满足需求,也没有主题意思。除此之外,此系统对用户的输入也有严格的限制要求。 1。2。3基于深度学习的生成方法 随着深度学习技术的出现和发展,深度学习已经融入到很多方面,如语音识别图像处理机器翻译等等。同样在诗歌和对联的得到了很大的成功。后来人们根据现有的神经网络进行符合实际需求的改进来满足对联的自动生成问题。其中最多的是循环神经网络的生成方法RNNbasedPoemGenerator,RNNPG,[5]基于神经机器翻译的生成方法[6],AttentionbasedNeuralMachineTralationNetworkANMT,基于规划的生成方法[7],PlanningbasedPoetryGeneration,PPG,基于记忆网络的生成方法[8]等,这些方法对自然语言处理有很大的价值。 1。2。3。1基于循环神经网络的生成方法 在2014年Zhang等人提出的基于循环神经网络生成方法RNNPG,算是比较早的将机器学习的技术应用到古代诗歌的产生上去[9]。图11展示了RNNPG系统框图。RNNPG系统首先根据用户输入的关键词,得出第一句。RNNPG的大概生成过程是这样的当有人输入主要的词语来生成开头句,有一定的约束规范,其主要目的是确保格式是正确的,其余的则是根据已经生成的来生成后面的以此类推。 RNNPG模型由三个核心部分组成,CSMRCM和RGM。其中CSM是一个基于卷积神经网络,ConvolutionalNeuralNetworks,CNN,的模块,用于提出句子特征,并生成向量。RCM是一个基于循环神经网络(RecurrentNeuralNetwork,RNN)的模块,依照之前线索产生句子的语义向量。RGM也是神经网络的一部分,通过之前的信息和RCM的输出结果共同作用之下来产生下一个字。在实际的操作过程则需要进行加权处理来输出结果,重复生成完整的目标。 图11 与传统方法不同,RNNPG是一种基于深度学习的方法,它可以从训练数据中学习文本特征的动态学习不需要人工提取特征设计规则模板和评价函数,生成诗歌效果也比较高。RNNPG使诗歌的生成更加简单和灵活。RNNPG的不足在于只用重点的词语来生成的诗,主题的话只是与它相关,不受其他行的影响。在生成的过程中,主题容易漂移,诗的最终主题不明确与传统方法相比,RNNPG是一种基于深度学习的方法,它可以从训练数据中学习文本特征的动态学习不需要人工提取特征设计规则模板和评价函数,也不需要生成诗歌这首歌唱得更好。RNNPG使诗歌的生成更加简单和灵活 1。2。3。2基于规划的生成方法 Wang等人[10]提出一种基于规划的诗歌生成器,PPG,。该工作同样采用基于注意力机制的编码解码框架,方法创新地将写作时运用的提纲技巧引入到机器生成问题中,在模型生成时引入规划信息大大防止了主题漂移的问题。PPG方法由规划模型和生成模型组成。规划模型用于得到规划信息,过程为首先根据用户输入的文本信息获取多个关键词作为规划信息。生成模型用于生成诗歌,过程为将规划模型得到的规划信息融入到生成模型中,通过ANMT的生成方法来生成每一行诗句,直到整首诗生成完成。 如图12所示为PPG方法生成的诗歌示例。与前面的方法相比,PPG的方法创新地将人类创作的提纲技巧引入到机器写作问题中,大大防止了主题漂移的问题,开启了基于主题的诗歌生成新篇章。尽管PPG方法取得了相当不错的结果,甚至可以与人类作诗相媲美,但是PPG方法也存在着可以改进的地方。PPG方法生成的诗歌受规划信息导向,规划信息的好坏很大程度上决定诗歌生成的好坏,规划信息由多个关键词来组成,每个关键词导向着每行诗句的生成,关键词的获取大大影响着最终诗歌生成的效果,所以改进可从规划信息的获取角度考虑。其次,PPG方法亦可以从模型训练语料方面进行改进,联合其他任务对语料进行扩充,引入其他外界信息,如此可以增强模型的泛化能力,提高表现结果。 图12 1。3本文工作 1。3。1本文主要内容 在本文当中主要是针对神经网络自动生成对联训练的模型进行设计和实现。按照模型生成的相关工作在本文中需要做了很多相关的工作,首先我们在进行模型建立之前,需要获得大量的数据,因此在本文中通过在对联和诗歌的相关网站下载足够的数量,如果只严格按照对联的进行下载的话数据量不能满足本文的需求,而且诗歌的格式与内容上有很多的相似之处,因此可以下载一些作为训练的数据。然后通过采用序列到序列的模型进行模型的构建,在编码阶段采用的双向循环神经网络,因为对联这种特殊的格式下联的生成结果不仅与上下文相关,而且与上联相应位置的字相对应。而在解码阶段根据对联的实际要求采用的单向循环神经网络。通过生成的模型在本文中用HTML设计前台的界面,然后用FLASk框架设计后台,编写接口进行模型效果的展示。经过设计与验证之后,通过生成的对联与上联进行比对按照对联平仄押韵的格式进行评测,本文中的模型效果十分好。 1。3。1论文结构安排 在本文内容的安排上,一共分为五章。 第一章,绪论。首先介绍了对联从古至今对人们的重要意义以及现在人们关于自动生成对联的关注情况,然后介绍词向量的相关内容,然后根据当今神经网络的发展在对联生成的应用,最后介绍本文的论文组织结构。 第二章,任务描述与数据预处理。本章主要介绍的是在实现模型的所需的工作包括数据的选择,神经网络如何选择,以及模型的搭建以及模型检验。还有数据的预处理过程。 第三章,基于RNN吟诗作对的方法。本章介绍相关理论知识的详细介绍,以及模型实现的过程。 第四章,基于吟诗作对方法的应用。本章主要介绍的是演示系统的设计和功能的介绍,还有演示系统的实现自己测试的结果。 总结与展望,对实验中创建的模型进行概括,有一些不足的地方提出来,并且对今后的预想提出来。 第二章任务描述与数据预处理 本章节主要是对本文在实验过程中所需要完成的任务的详细介绍和本文建立的模型进行数据预处理的过程。 任务描述 对联作为中华民族的文化瑰宝,在很多中国的传统礼仪上都是不可缺少的一部分,而且在近年来在自然语言处理领域受到人们的关注。本文基于RNN的吟诗作对研究与应用的基础上设计并实现了通过用户输入上联通过模型自动生成下联的任务,主要是以下几个方面。 1,获取训练集的建立。本文所设计并实现的吟诗作对模型,根据上联生成与之对应的下联,那么首先的任务需要相应的数量的对联,来建立数据集。本文所需要的数据集来源于对联网站的数据,将这些数据下载下来保存到本地,然后其格是每一行代表着的是对联的上联或者是对联的下联。在下载的数据当中也有一些诗歌的一部分内容,诗歌的格式与对联的内容要求有很多的相似之处,这样的话可以获得大量的数据使得模型更加可靠。当数据集下载完成之后,我们根据实际的需求需要训练词向量,为了不使用分词的方法,直接进行词向量的训练,本文中将获取的9130个汉字每个字作为一行放入到文件里面。这样的话可以直接训练。 2,吟诗作对模型的建立。本文是在RNN的基础上,因为对联这种特殊的格式要求因此在本文中采用的是双向循环神经网络,框架的选择当然是当前比较热门的框架编码解码模型,EncodeDecode,来设计实现的。本文在编码解码的模型上进行进一步的设计使得更加符合实际需求,具体的网络选择在实际的模型生成上根据实际的情况进行选择,依次在编码阶段采用双向循环神经网络来进行编码使得对联这样特殊形式的关联性得到很好地体现,在解码阶...
  • 版权声明:知知范文网 本站所有内容的版权归相应内容作者或权利人所有,本站不对涉及的版权问题负法律责任。
  • 内容来源:本站所有内容均有网络公开等合法途径整理而来,该资料仅作为交流学习使用,并无任何商业目的,任何访问,浏览本站,购买或者未购买的人,就代表已阅读,理解本条声明
  • 免责声明:内容所标价格,是对本站搜集、整理资料以及本站运营必须费用支付的适当补偿,资料索取者尊重版权方的知识产权,谢谢!

关于我们 - 网站声明 - 网站地图 - 友情链接 - 网站客服客服 - 联系我们

copyright@长治毕知网络科技有限公司
ICP备案号:晋ICP备2022002585号