推广 热搜: 行业  机械  设备    经纪  教师  系统  参数    蒸汽 

【自然语言处理入门】02:Kenlm语料库的制作与模型的训练

   日期:2024-11-07     移动:http://yishengsujiao.xhstdz.com/quote/1679.html

本文是《从自然语言处理到机器学习入门》系列课程的第二次作业,由于我的作业环境没有配好(配了n次了还是不行T_T,但是为了保证这一系列作业的完整性,于是经罗曜强律师同意,人工智能A7论坛授权,转载他的作业笔记。

【自然语言处理入门】02:Kenlm语料库的制作与模型的训练

1 基本要求

通过自己训练的语言模型编程,判断每句话中是否存在a an用错的问题(所谓用错 指a an用反了 比如 i have a apple是错误的; i have an apple 是正确的)

2 准备工作

(1)实验的环境Ubuntu16.04,Python 版本 2.7

(2)使用kenlm训练一个语言模型,首先要准备kenlm所需要的语料,按照http://kheafield.com/code/kenlm/官方文档上使用说明,训练的文件会被训练成.arpa的格式。

(3)训练模型:例如:我有名为test.txt的文件需要训练成kenlm指定的.arpa格式文件,训练后的文件为text.arpa,我需要在Ubuntu的Teminal终端使用如下命令进行训练

-o Required. Order of the language model to estimate -o 5 代表使用5ngram

将arpa文件转换为binary文件,这样可以对arpa文件进行压缩,提高后续在python中加载的速度。

3 具体实验

做好上述前置准备工作后,接着就是在Python下运行text.arpa 主要分为以下几个步骤

4 常见错误

本文地址:http://nhjcxspj.xhstdz.com/quote/1679.html    物流园资讯网 http://nhjcxspj.xhstdz.com/ , 查看更多

特别提示:本信息由相关企业自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论
相关行业动态
推荐行业动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号