大数据人|大数据第一社区

 找回密码
 注册会员

扫一扫,访问微社区

查看: 1477|回复: 0
打印 上一主题 下一主题

NLPIR智能技术结合汉语特色运用语义识别进行挖掘

[复制链接]
  • TA的每日心情
    开心
    2018-8-22 11:45
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    87

    主题

    88

    帖子

    670

    积分

    高级会员

    Rank: 4

    积分
    670
    跳转到指定楼层
    楼主
    发表于 2019-5-14 11:35:18 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
      语言是由语音形式、语义内容、结构关系三个方面构成的统一体,三个方面缺一不可,互相作用,构成了语言。语音是语言的形式部分,词汇是语言的意义部分,语法是语言单位的关系部分,说的是符号与符号怎样组合的问题。三个部分在语言中的作用,我们可以这样简单来表述:没有语音形式,语言就无法存在,没有词汇的内容意义,语言就是一个 毫无作用的空壳,没有语法,语言就是一盘杂乱而毫无章法的散沙。
      中文信息处理分为汉字信息处理与汉语信息处理两部分,具体内容包括对字、词、句、篇章的输入、存储、传输、输出、识别、转换、压缩、检索、分析、理解和生成等方面的处理技术。用计算机来处理汉语信息,就是汉语信息处理,又称中文信息处理。
      中文信息处理的特点是与西文信息处理相比较而言的,特点和任务是相互联系的。下面从文字、词汇、语音、语法以及软硬件系统等方面介绍一下中文信息处理的特点:
      (一)大字符集
      英文等西方语言的书写符号使用的是字母表式文字符号系统,字母数量较少。一种文字,包括大小写、数字及各种标点符号等,总共不过几十个,属于“小字符集”。例如:拉丁字母符号有26个;斯拉夫字母有33个等等;汉字属于“大字符集”:常用汉字3500个,通用汉字7000个,历史累积汉字多达6万。
      (二)编码方案众多
      使用字母数字键盘输入汉字信息,必须通过汉字编码。 因为汉字是形音义的统一体,编码时所采用的信息类型不同,会有不同的编码规则和方案。因此,无论从编码的角度,还是从使用者的角度,都面临多样化的选择。
      (三)形体多样,结构复杂 :一个汉字就是一个独立的二维的拓扑图形。五种基本笔画“横”、“竖”、“撇”、“点”、“折”、,存在多种笔形变体。汉字结构层叠错落,笔画、字根、偏旁、部首、部件、字元,见仁见智,难以统一,这些汉字字库的研制以及字形的标准化都带来了相当打的困难。
      (四)汉字方言分歧严重:现代汉语有七大方言区,每个方言区内又有次方言区,次方言区下还有不同的方言点。普通话普及应用水平远未达到语音识别、人机对话所要求的规范化和标准化的程度。因此,方言语音分歧成为语音信息处理的瓶颈。
      (五)同音现象突出 :现代汉语共有4125个不标调音节,按《基本字符集》6763个汉字计算,每个音节约有16.4个同音字;如按《汉语大字典》54678字计算,每个音节的同音字平均达到132.7个。
      (六)书面含有没有分词标志:西方采用拼音文字,书面上词与词之间用空格加以分隔,因此很容易进行词汇的统计分析和认知处理。
      (七)汉语没有形态:汉语的词无论冲当什么成分,构成什么关系,词形本身没有任何变化,只有依靠虚词、语序进行语法分析,不利于计算机的处理。
      (八)词的兼类与活用复杂:词类划分不一,存在大量“兼类”。
      (九)语法规则多有例外:词语搭配缺乏规范化的约束,人们习惯于意会而不注重形式标志的规则。
      (十)歧义现象突出:词汇歧义本来是语言中的一个比较普遍的现象。
      北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。
      NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,Python,C,C#等各类开发语言使用。
      随着信息技术在我国社会生活各个领域应用的深入,中文信息处理正在成为人们工作和生活中不可或缺的手段,中文信息处理将具有更加广阔的市场。这将促使中文信息处理方面的高效中文搜索引擎、实时机器翻译、大规模中文文本处理、跨平台中西文自动识别转换、泛中文语义理解、中文电子商务等技术实现重大突破。中文信息处理已成为我国信息技术研究、发展、应用和产业的基础,在互联网日益成长的今天,中文信息处理技术将会更加成熟并创新。
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册会员

    本版积分规则

    关闭

    站长推荐上一条 /2 下一条


    id="mn_portal" >首页Portalid="mn_P18" onmouseover="navShow('P18')">应用id="mn_P15" onmouseover="navShow('P15')">技术id="mn_P37" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">前沿id="mn_P36" onmouseover="navShow('P36')">宝箱id="mn_P61" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">专栏id="mn_P65" >企业id="mn_Nd633" >导航 折叠导航 关注微信 关注微博 关注我们

    QQ|广告服务|关于我们|Archiver|手机版|小黑屋|大数据人 ( 鄂ICP备14012176号-2  

    GMT+8, 2024-5-19 06:01 , Processed in 0.241475 second(s), 29 queries .

    Powered by 小雄! X3.2

    © 2014-2020 bigdataer Inc.

    快速回复 返回顶部 返回列表