NLTK 基础教程用NLTK和Python库构建机器学习应用

 NLTK 基础教程用NLTK和Python库构建机器学习应用

PDF下载链接:https://pan.baidu.com/s/1k4Kz2ghlxNu73mSsGfC7AQ?pwd=6666 
提取码:6666

作者简介

Nitin Hardeniya 数据科学家,拥有 4 年以上从业经验,期间分别任职于 Fidelity、 Groupon 和[24]7 等公司,其业务横跨各个不同的领域。此外,他还拥有 IIIT-H 的计算语言 学硕士学位,并且是 5 项客户体验专利的作者。 他热衷于研究语言处理及大型非结构化数据,至少拥有 5 年日常使用 Python 的工作经 验。他相信,用 Python 可以构建出大部分与数据科学相关问题的单点解决方案。 他将自己写这本书的经历看成是自己职业生涯的众多荣誉之一,希望用一种非常简单 的形式为人们介绍与 NLP 和机器学习相关的、所有的这些复杂工具。在这本书中,他为读 者提供了一种变通方法,即使用一些相关特定能力的 Python 库,如 NLTK、scikit-learn、 panda 和 NumPy 等

审阅者简介

Afroz Hussain 数据科学家,目前在 PredictifyMe 公司从事与美国基础数据科学、机器 学习起步相关的研究。他在数据科学领域拥有丰富的项目经验、多年使用 Python、 scikit-learn,以及基于 NLTK 进行文本挖掘的工作经历。他拥有 10 年以上的编程经验以及 与数据分析和商业智能项目相关的软件开发经验。此外,他还通过在线课程以及参加 Kaggle 比赛等活动,获得了不少数据科学领域的新技能。 Sujit Pal 目前就职于 Elsevier 实验室,这是一个包含了 Reed-Elsevier PLC 工作组在内 的研发团队。他的兴趣主要集中在信息检索、分布式处理、本体开发、自然语言处理和机 器学习这几个领域。而且,他也很喜欢用 Python、Scala 和 Java 来编写自己的代码。他充 分整合了自己在这些方面的技能,帮助公司改进了不同产品的一些特性并构建了一些新特 性。他深信自己需要终身学习,并且也在博客:sujitpal.blogspot.com 中分享其经验。 Kumar Raj 第二代数据科学家,目前就职于惠普软件的研发部门,为其提供相关的 解决方案。在那里,他主要负责开发以惠普软件产品为核心的分析层。他毕业于印度理工 学院 Kharagpur 技术分校,并具有两年以上各种大数据分析领域的工作经验,涉及文本分 析、网页抓取及检索、人力资源分析、虚拟系统的性能优化,以及气候变化的预测等

PDF下载链接:https://pan.baidu.com/s/1k4Kz2ghlxNu73mSsGfC7AQ?pwd=6666 
提取码:6666


部分目录


第 1 章 自然语言处理简介.......................1

1.1 为什么要学习 NLP......................2

1.2 先从 Python 开始吧.....................5

1.2.1 列表.....................................5

1.2.2 自助功能.............................6

1.2.3 正则表达式.........................8

1.2.4 字典.....................................9

1.2.5 编写函数...........................10

1.3 向 NLTK 迈进............................11

1.4 练习............................................16

1.5 小结............................................17

第 2 章 文本的歧义及其清理.................18

2.1 何谓文本歧义............................18

2.2 文本清理....................................20

2.3 语句分离器................................21

2.4 标识化处理................................22

2.5 词干提取....................................23

2.6 词形还原....................................24

2.7 停用词移除................................25

2.8 罕见词移除................................26

2.9 拼写纠错....................................26

2.10 练习..........................................27

2.11 小结 ..........................................28

第 3 章 词性标注.....................................29

3.1 何谓词性标注 ............................29

3.1.1 Stanford 标注器.................32

3.1.2 深入了解标注器 ...............33

3.1.3 顺序性标注器 ...................35

3.1.4 Brill 标注器.......................37

3.1.5 基于机器学习的标注器.....37

3.2 命名实体识别(NER) ............38

3.3 练习............................................40

3.4 小结............................................41

image.png

 NLTK 基础教程用NLTK和Python库构建机器学习应用

PDF下载链接:https://pan.baidu.com/s/1k4Kz2ghlxNu73mSsGfC7AQ?pwd=6666 
提取码:6666

作者简介

Nitin Hardeniya 数据科学家,拥有 4 年以上从业经验,期间分别任职于 Fidelity、 Groupon 和[24]7 等公司,其业务横跨各个不同的领域。此外,他还拥有 IIIT-H 的计算语言 学硕士学位,并且是 5 项客户体验专利的作者。 他热衷于研究语言处理及大型非结构化数据,至少拥有 5 年日常使用 Python 的工作经 验。他相信,用 Python 可以构建出大部分与数据科学相关问题的单点解决方案。 他将自己写这本书的经历看成是自己职业生涯的众多荣誉之一,希望用一种非常简单 的形式为人们介绍与 NLP 和机器学习相关的、所有的这些复杂工具。在这本书中,他为读 者提供了一种变通方法,即使用一些相关特定能力的 Python 库,如 NLTK、scikit-learn、 panda 和 NumPy 等

审阅者简介

Afroz Hussain 数据科学家,目前在 PredictifyMe 公司从事与美国基础数据科学、机器 学习起步相关的研究。他在数据科学领域拥有丰富的项目经验、多年使用 Python、 scikit-learn,以及基于 NLTK 进行文本挖掘的工作经历。他拥有 10 年以上的编程经验以及 与数据分析和商业智能项目相关的软件开发经验。此外,他还通过在线课程以及参加 Kaggle 比赛等活动,获得了不少数据科学领域的新技能。 Sujit Pal 目前就职于 Elsevier 实验室,这是一个包含了 Reed-Elsevier PLC 工作组在内 的研发团队。他的兴趣主要集中在信息检索、分布式处理、本体开发、自然语言处理和机 器学习这几个领域。而且,他也很喜欢用 Python、Scala 和 Java 来编写自己的代码。他充 分整合了自己在这些方面的技能,帮助公司改进了不同产品的一些特性并构建了一些新特 性。他深信自己需要终身学习,并且也在博客:sujitpal.blogspot.com 中分享其经验。 Kumar Raj 第二代数据科学家,目前就职于惠普软件的研发部门,为其提供相关的 解决方案。在那里,他主要负责开发以惠普软件产品为核心的分析层。他毕业于印度理工 学院 Kharagpur 技术分校,并具有两年以上各种大数据分析领域的工作经验,涉及文本分 析、网页抓取及检索、人力资源分析、虚拟系统的性能优化,以及气候变化的预测等

PDF下载链接:https://pan.baidu.com/s/1k4Kz2ghlxNu73mSsGfC7AQ?pwd=6666 
提取码:6666


部分目录


第 1 章 自然语言处理简介.......................1

1.1 为什么要学习 NLP......................2

1.2 先从 Python 开始吧.....................5

1.2.1 列表.....................................5

1.2.2 自助功能.............................6

1.2.3 正则表达式.........................8

1.2.4 字典.....................................9

1.2.5 编写函数...........................10

1.3 向 NLTK 迈进............................11

1.4 练习............................................16

1.5 小结............................................17

第 2 章 文本的歧义及其清理.................18

2.1 何谓文本歧义............................18

2.2 文本清理....................................20

2.3 语句分离器................................21

2.4 标识化处理................................22

2.5 词干提取....................................23

2.6 词形还原....................................24

2.7 停用词移除................................25

2.8 罕见词移除................................26

2.9 拼写纠错....................................26

2.10 练习..........................................27

2.11 小结 ..........................................28

第 3 章 词性标注.....................................29

3.1 何谓词性标注 ............................29

3.1.1 Stanford 标注器.................32

3.1.2 深入了解标注器 ...............33

3.1.3 顺序性标注器 ...................35

3.1.4 Brill 标注器.......................37

3.1.5 基于机器学习的标注器.....37

3.2 命名实体识别(NER) ............38

3.3 练习............................................40

3.4 小结............................................41

image.png

打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,您说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

分享从这里开始,精彩与您同在