Tip:
Highlight text to annotate it
X
>> LUCAS FREITAS:嘿。
欢迎大家。
我的名字是卢卡斯塔斯。
我是一个大三学生[听不清]研究 计算机科学与重点
计算语言学。
所以,我的中学是在语言 和语言学理论。
我真的很兴奋,教你们 关于外地一点点。
这是一个非常激动人心的领域来研究。
也有很大的潜力 为将来。
所以,我真的很兴奋,你的家伙 正在考虑中的项目
计算语言学。
我会很乐意提供意见 任何的你,如果你决定
追求其中的一个。
>> 所以首先什么是计算的 语言学?
因此,计算语言学是 语言学和之间的交集
计算机科学。
那么,什么是语言学?
什么是计算机科学?
以及从语言学,是什么 我们采取的是语言。
因此,语言学实际上是研究 在一般的自然语言。
所以,自然语言 - 大家说说 我们实际使用的语言
相互通信。
因此,我们不正是在说 关于C或Java。
我们谈论更多关于英语和 中国和其他语言,我们
用于彼此进行通信。
>> 有关的具有挑战性的事情是, 现在我们有近7000
语言在世界上。
因此,有相当高的品种 的语言,我们可以研究。
然后你认为它可能是 很难做到,比如,
翻译从一种语言到 另外,考虑到你有
其中近7000人。
所以,如果你想这样做的翻译 从一种语言到另你
几乎超过一百万 不同的组合,你可以
必须从语言到语言。
所以它的真正挑战做了一些 类的实例翻译系统的
每一个语言。
>> 所以,对待语言学与语法, 语义,语用学。
你们不完全需要 要知道什么是他们的。
但非常有趣的是, 作为母语的人,当你学会
语言作为孩子,你居然学会 所有这些事情 - 语法语义
和语用 -
由你自己。
和任何人都没有教你语法 你明白的句子是如何
结构。
所以,这真的很有趣,因为 它的东西,来非常
直观。
>> 和你在服用 计算机科学?
好了,最重要的事情是我们 在计算机科学,首先是
总之,人工智能 和机器学习。
所以,我们正在努力做 计算语言学是教
您的计算机如何做 用的语言。
>> 因此,例如,在机 翻译。
我想教我的电脑怎么 知道如何从一个过渡
语言到另一边。
所以,基本上喜欢教学 一台电脑两种语言。
如果我这样做自然语言处理, 这是示例的情况下
Facebook的图搜索,你教 你的电脑怎么理解
查询好。
>> 所以,如果你说“的照片我的 朋友。“Facebook并没有把那
作为具有整个字符串 只是一堆话。
它实际上是理解的关系 “照片”和“我的朋友”之间
了解到,“照片”是 物业“我的朋友。”
>> 所以,这部分,例如 自然语言处理。
它试图了解什么 之间的关系是
词语的句子。
而最大的问题是,你可以 教电脑如何说话
在一般的语言?
这是一个非常有趣的问题 想想,好像,也许在未来,
你要能 谈谈您的手机。
有点像我们做什么用的Siri,但 更多的东西一样,你实际上可以
说任何你想要的手机 是要明白一切。
而且它可以有后续问题 并继续谈判。
这件事情真的很令人兴奋, 在我看来。
>> 因此,一些关于自然语言。
一些真正有趣 自然语言是说,这是
信用到我的语言学教授, 玛丽亚Polinsky。
她举了一个例子,我认为 这真的很有趣。
因为我们学语文时,从 我们出生,然后我们的母语
一种语言的生长在我们。
>> 基本上你学习语言 从最小的投入,对不对?
你刚刚从输入您的 您的语言听起来父母什么
喜欢和你只是学习它。
所以,这很有趣,因为如果你看一下 在这些句子,例如。
你看,“玛丽穿上大衣每 一次,她离开家。“
>> 在这种情况下,有可能有 单词“她”指的是玛丽,对不对?
你可以说“玛丽穿上大衣 每次玛丽离开
房子。“,这样很好。
但是如果你看一下这句话 “她每次穿上大衣玛丽
离开房子。“你知道这是 不可能说“她”是
提及玛丽。
>> 有没有办法说,“玛丽把 一件大衣,每次离开玛丽
房子,“所以这很有趣,因为 这是一种直觉
每一个母语了。
也没有人告诉我们,这是 该语法的工作方式。
而且,你只能拥有这件“她” 提及玛丽在第一种情况下,
实际上在这等 过,但不是在这一个。
但每个人都种得 以相同的答案。
每个人都同意这一点。
所以,这真的很有趣,虽然如何 你不知道所有的规则
那种在你的语言你懂 语言如何工作的。
>> 因此,关于自然的有趣的事情 语言是你不必
知道任何语法知道,如果一个句子 是语法或不合语法的
大多数情况下。
它让你觉得,也许什么 发生的情况是通过你的生活,你
只是不断变得越来越 句子告诉你。
然后你保持记忆 所有的句子。
然后当有人告诉你 什么,你听到这句话,并
你看看你的词汇量 的句子,看看是否
那句话是存在的。
如果是有你 说这是语法。
如果它不是你说这是 不合语法。
>> 所以,在这种情况下,你会说,哦, 让您拥有一个庞大的所有列表
可能的句子。
然后,当你听到一个句子, 你知道它的语法或
不基于这一点。
问题是,如果你看一下 一个句子,例如“该
五头CS50转录因子煮熟的盲 使用DAPA杯章鱼。“这是
绝对不是一句 你听说过。
但在同一时间,你知道这是 相当多的语法,对不对?
有没有语法错误 你可以说,
这是一个可能的句子。
>> 因此,它使我们觉得实际上是 这样,我们学习语言不仅是
由具有巨大的可能的数据库 词或句子,但更多的
理解的关系 也就是说在那些句子。
这是否有道理?
因此,接下来的问题是,能 电脑学习语言?
我们可以教语言的计算机?
>> 所以,让我们想到的差异 一种语言的母语之间
和一台计算机。
那么,究竟发生了扬声器?
那么,母语学习一 从接触到它的语言。
通常早期的童年岁月。
所以,基本上,你只要有一个孩子, 你一直说要它,它
刚刚学会如何说话 语言,对不对?
所以,你基本上放弃 输入到婴儿。
这样,那么你可以说,一台电脑 可以做同样的事情,对不对?
你可以只给语言 作为输入到计算机中。
>> 作为例子一堆文件 有英语书籍。
也许这是一种方式,你 也可能教
计算机英语,对不对?
而事实上,如果你仔细想想, 它需要你,也许一对夫妇
天读一本书。
对于一台电脑需要一秒钟 看着一本书的所有单词。
所以,你可以认为这或许正是这 从你周围的输入参数,
这还不够,说这是 东西,只有人类可以做到的。
你能想到的电脑 还可以得到输入。
>> 第二件事是,母语 也有大脑,有
语言学习能力。
但是,如果你仔细想想, 大脑是一个坚实的事情。
当你出生时,它已经被设置 -
这是你的大脑。
而当你长大了,你只会得到更多的 语言的输入,也许营养素
和其他的东西。
但几乎你的大脑 是一个坚实的事情。
>> 所以,你可以说,好吧,也许你可以 构建有一堆电脑
功能和刚模仿方法 语言学习能力。
所以在这个意义上,你可以说,好,我 能有一个具有所有电脑
事情我需要学习的语言。
而最后一件事情是,原生 扬声器学会从试验和错误。
在所以基本上另一个重要的事情 语言的学习是你那种
通过使学习的东西 你所听到的概括。
>> 所以当你在成长过程中你学到了 有些话更像是名词,
一些其他的都是形容词。
而且你不必有任何 语言学知识
要理解这一点。
但你只是知道有一些单词 被定位在的某些部分
句子和其他一些人在其他 部分的句子。
>> 并且,当你做的东西是 就像一个句子是不正确的 -
也许是因为过度泛化 例如。
也许当你长大了,你注意到 该复数通常是
通过把一个S在形成 字的结尾。
然后尝试做的复数 “鹿”为“鹿”或“牙”为
“tooths。”这样的话你的父母或 有人纠正你,说,不,
“鹿”的复数是“鹿”和 的“牙齿”复数是“牙齿”。进而
你学那些东西。
所以,如果你尝试和错误中学习。
>> 但你也可以做到这一点 用一台计算机。
你可以有一些所谓 强化学习。
这基本上就像给一个 计算机时,它做了奖励
正确的东西。
并给它奖励的对面 当它做错了事。
实际上,你可以看到,如果你走 到谷歌翻译,并试图
翻译一个句子,它 要求您提供反馈意见。
所以,如果你说,哦,还有更好的 翻译这句话。
您可以键入它,然后如果有很多 人们一直说这是一个更好的
翻译,它只是学习它 应使用的翻译,而不是
一个它是给。
>> 所以,这是一个非常哲学问题 看是否计算机都将是
谈得来与否的未来。
但我有很高的期望,他们可以 只是根据这些参数。
但它只是更多的是一种哲学 问题。
>> 因此,尽管电脑仍无法说话, 什么样的事情,我们可以做什么?
一些非常酷的东西是 数据分类。
因此,举例来说,你们知道 该电子邮件服务做的,为
例如,垃圾邮件过滤。
所以每当你收到垃圾邮件,它 试图筛选到另一个框。
那么它是怎样做到这一点?
它不象电脑才知道 什么电子邮件地址发送垃圾邮件。
因此,它更是以内容 消息,或者标题,或
也许你有一些图案。
>> 所以,基本上,你所能做的就是得到一个 大量的电子邮件是垃圾邮件的数据,
邮件是不是垃圾邮件,并了解 样的模式,你必须在
那些是垃圾邮件。
这是计算的一部分 语言学。
这就是所谓的数据分类。
而我们实际上将看到一个 例如,在接下来的幻灯片。
>> 第二件事是自然语言 处理这是事情的
图搜索是做又让 你写一个句子。
它相信你明白 的含义,并给出
你一个更好的结果。
其实,如果你去谷歌或Bing 你搜索的东西像Lady
Gaga的高度,你实际上会 得到5',而不是信息1“
从她的,因为它实际上理解 你在说什么。
所以这是自然的一部分, 语言处理。
>> 或者也当你使用Siri的,第一 你有一个算法,试图
翻译你在说什么 成文字,在文字。
然后它会尝试翻译 到那个意思。
所以这是所有自然的一部分 语言处理。
>> 那么你有机器翻译 -
这实际上是1 我的最爱 -
这是刚刚从翻译 一种语言到另一种。
所以,你可以认为,当你正在做的 机器翻译,你有
句子的无限可能性。
因此,有没有办法只存储 每一个翻译。
所以,你必须想出有趣 算法能够
翻译每一个 句子以某种方式。
>> 你们有什么问题这么远吗?
没有?
确定。
>> 那么,我们要看到今天?
首先,我要说说 分类问题。
这样一说我是 说关于垃圾邮件。
我什么都做的是,给定的歌词 一首歌,你可以揣摩
以高概率 谁是歌手?
比方说,我从夫人的歌 Gaga和Katy Perry的,如果我给你一个
新的歌曲,你可以计算出,如果 这是凯蒂·佩里还是Lady Gaga的?
>> 第二个,我只是要谈 关于分割问题。
所以,我不知道,如果你们知道,但 中国,日本,其他东亚
语言和其它语言 在一般情况下,不必
单词之间的空格。
然后,如果你想的方式, 你的电脑亲切的尝试,以
理解自然语言处理, 它着眼于单词和
试图了解关系 他们之间,对不对?
但是,如果你有中国人,你 具有零位,这真的很难
搞清楚什么是之间的关系 也就是说,因为它们不具有任何
也就是说在第一。
所以,你必须做一些所谓的 分割这只是意味着把
我们所说的空间 也就是说在这些语言。
有意义吗?
>> 然后我们要 说说语法。
关于自然的,因此只是一点点 语言处理。
这将只是一个概述。
所以今天,基本上是我想要做的 是给你们的一点点
什么是内部的可能性 你可以用做计算
语言学。
然后你就可以看到你的想法 凉爽的那些东西。
也许你能想到的一个项目 和来跟我说话。
我可以给你建议 关于如何实现它。
>> 所以语法将是一点点 关于图搜索和机器
翻译。
我只是想给怎样一个例子 你可以,例如,翻译
从东西到葡萄牙语英语。
听起来不错?
>> 因此,首先,在分类问题。
我会说,这部分研讨会 将是最具挑战性的
一个只因为那里是怎么回事 是一些编码。
但它的将是Python的。
我知道你们不知道的Python,所以 我只是要对高解释
平我在做什么。
而你没有真正在乎过 很多关于语法,因为这是
东西你们可以学习。
好不好?
听起来不错。
>> 那么什么是分类问题?
所以,你给一些歌词 一首歌曲,你要猜
谁在唱。
这可以是任何类型的 的其他问题。
所以可以,例如,你有一个 总统竞选和你有一个
讲话,你想找到 出,如果它是,例如,
奥巴马或罗姆尼。
或者你可以有一大堆的电子邮件和 你要搞清楚,如果他们是
垃圾邮件。
所以它只是一些分类 基于该字的数据
你有没有。
>> 因此,要做到这一点,你必须 做一些假设。
所以很多关于计算语言学 正在假设,
通常聪明的假设,从而使 你可以得到很好的效果。
试图建立一个模型了。
然后再尝试一下,看看它是否工作, 如果它给你很好的精度。
如果确实如此,那么你 尝试改善它。
如果没有,你肯定在想:好吧,也许我 应该做出不同的假设。
>> 让我们将假设 提出的是一个艺术家通常唱
的一个话题多次,也许 使用的话多次刚
因为他们已经习惯了它。
你可以认为你的朋友的。
我敢肯定,你们都有朋友 那说,他们的签名短语,
从字面上每一个句子 -
像一些特定的词或某些特定 短语,他们说的
每一个句子。
>> 什么可以说的是,如果你看 一个句子,有一个签名
词组,你可以猜测,大概 你的朋友是
有一句话说,对不对?
所以,你做这样的假设,然后 这就是你如何创建一个模型。
>> 那我要举的例子是 如何Lady Gaga的,例如,人
说,她使用“宝贝”的 她所有的头号歌曲。
而实际上,这是一个视频,显示 她说这个词“宝贝”的
不同的歌曲。
>> [视频回放]
>> - (唱)婴儿。
宝贝。
宝贝。
宝贝。
宝贝。
贝贝。
宝贝。
宝贝。
宝贝。
宝贝。
>> [完录像回放 -
>> LUCAS FREITAS:所以有,我认为, 40首歌曲在这里,她说,
词“宝贝”。所以,你基本上可以猜到 如果你看到一首歌,有
单词“宝宝”有一些高 概率,它是Lady Gaga的。
但是,让我们尝试开发这样 进一步更正式。
>> 所以这些都是歌词歌曲 Lady Gaga和Katy Perry的。
所以,你看Lady Gaga的,你看他们 有很多事件的“宝贝”,一
大量出现的“方式”。进而 凯蒂·佩里有很多事件的发生
“对,”很多事件的发生“火灾”。
>> 所以基本上我们想要 做的是,你会得到一首抒情诗。
比方说,你会得到一个抒情的 歌曲是“宝贝”,只是“宝贝”。如果
你刚刚得到了这个词“宝贝”,这 是你的所有,从数据
Lady Gaga和凯蒂·佩里,谁也 你猜是人
是谁唱这首歌?
Lady Gaga的还是凯蒂·佩里?
Lady Gaga的,对不对?
因为她是唯一一个说谁 “宝贝”。这听起来很愚蠢,对吧?
OK,这是很容易的。
我只是在看的两首歌曲,并 当然,她是谁的唯一
“宝贝”。
>> 但是,如果你有一堆话?
如果你有一个实际的歌词,东西 一样,“宝贝,我只是
去看了[? CFT?]
讲座“,或者类似的东西,和 那么你实际上必须弄清楚 -
基于所有这些话 -
谁是谁的艺术家可能 唱这首歌?
所以让我们尝试开发 这远一点。
>> 好了,根据刚刚的数据,我们 得到了,似乎加加可能是
歌手。
但如何才能写 这更正式?
并有将是一个小 统计位。
所以,如果你迷路了,只要尝试 要理解这个概念。
如果你理解不要紧, 方程非常清楚。
这是所有要上线了。
>> 所以基本上就是我计算的是 概率,这首歌是由
Lady Gaga的因为 -
所以这条表示因为 -
我看到这个词“宝贝”。 这是否有道理?
所以我试图计算 这种可能性。
>> 所以有这个定理称为 贝叶斯定理是说,
一个给定的B的概率,是 乙的概率给出A,倍
概率A的,超过的概率 B.这是一个长期的方程。
但是,你有什么从理解 这是,这是我想要的
计算,对不对?
让这首歌是由概率 Lady Gaga的因为我看到这个词
“宝贝”。
>> 现在有什么我得到的是 单词“宝贝”的概率给出
我有Lady Gaga的。
什么是基本?
这也就意味着,有什么 看到这个词“宝贝”的概率
在Gaga的歌词?
如果我想计算出在一个非常 简单的方法,它只是数
次我看到“宝贝”在总数 在加加歌词的话,对不对?
什么是我看到的频率 在Gaga的工作这个词?
有意义吗?
>> 第二项是 概率加加。
这是什么意思?
这基本上意味着,请问是什么 分类的概率
有些歌词加加?
那就是很怪,但 让我们想到的一个例子。
因此,让我们说的概率 在一首歌曲有“宝贝”是一样的
对于Gaga和布兰妮斯皮尔斯。
但布兰妮斯皮尔斯有两次 比Lady Gaga的多首歌曲。
因此,如果有人只是随机给你 “宝贝”的第一件事歌词你
看的是,什么是概率 在Gaga的歌曲有“宝贝”,“宝贝”
在布兰妮的歌?
它是同样的事情。
>> 所以,你会看到的第二件事情是, 那么,什么是概率
这歌词本身是一个Gaga的歌词, 是什么的概率
作为布兰妮的歌词?
所以自从布兰妮有那么多的歌词 比加加,你可能会
比方说,好了,这可能是 布兰妮的歌词。
所以这就是为什么我们有这个 该词在这里。
概率加加。
有道理?
不是吗?
确定。
>> 和最后一个是刚才的概率 “婴儿”的不
真正的问题那么多。
但它的概率 看到“宝贝”的英文。
我们通常不关心 很多关于这个词。
这是否有道理?
所以加加的概率是 称为先验概率
之类的加加。
因为它只是意味着,请问是什么 有那个类的概率 -
这是加加 -
只是在一般情况下,刚 没有条件。
>> 然后当我有概率 加加给“宝贝”,我们把它叫做加
流泪的概率,因为它是 具有的概率
加加给出了一些证据。
所以我给你证据 我看到这个词的婴儿和
这首歌有意义吗?
确定。
>> 所以,如果我计算过,每个 该歌曲的Lady Gaga,
是什么将是 -
显然,我不能动了。
加加的概率将是 类似,在2 24,次数的1/2,
在2比53。
如果你知道它什么都无所谓 这些数字的来源。
但它只是一个数字,是怎么回事 为大于0,对不对?
>> 然后当我做凯蒂·佩里,该 “宝宝”的概率给出卡提现
已经为0,对不对?
因为没有“宝贝” 在凯蒂·佩里。
是这样,那么这变成0,并且加加 胜,这意味着Gaga是
大概是歌手。
这是否有道理?
确定。
>> 所以,如果我想使这个更正式, 我其实可以做一个模型
多个单词。
因此,让我们说我有话 一样,“宝贝,我
着火了,“什么的。
因此,它具有多个单词。
在这种情况下,你可以看到 这“宝贝”是加加,
但它不是在凯蒂。
与“火”是凯蒂,但 它不是在Gaga的,对不对?
因此,它变得棘手,对吧?
因为它似乎,你几乎 有两者之间的领带。
>> 所以你要做的就是承担 独立性的话之一。
所以基本上这是什么意思是, 我只是计算是什么
看到的概率“宝贝”,什么是 看到的可能性“我”和
“是”和“上”和“火” 所有独立。
然后我乘他们。
而我看到的是概率 的看到整个句子。
有意义吗?
>> 所以基本上,如果我只有一个字, 我想要找的是阿根廷最大,
这意味着,那是什么是类 给我最高的概率是多少?
那么,什么是给类 我的最高概率
类的概率给定的单词。
因此,在这种情况下,给予加加“宝贝”。 或凯蒂给“宝贝”。有意义吗?
>> 而刚刚从贝叶斯,那 方程式我发现,
我们创建这个分数。
唯一的一点是,你看到 字中给出的概率
根据班级的变化 在类的吧?
的“宝贝”s表示我有多少 在Gaga是从凯蒂不同。
类的概率也 的变化,因为它只是数
歌曲他们每个人都有。
>> 但这个词本身的概率 将是相同的所有的
艺术家,对不对?
这样的单词的概率是 只是,什么是概率
看到在这个词 英语?
因此,它是相同的所有的人。
所以,因为这是不变的,我们可以只 下降的,根本没有在意它。
因此,这将是真正的 方程我们正在寻找。
>> 如果我有多个的话,我 仍然会有事先
概率在这里。
唯一的一点是,我乘 的概率
所有其他的话。
所以我乘他们。
有意义吗?
它看起来很奇怪,但基本上意味着, 计算前的类,并
然后由每个的概率相乘 在这个类是的话。
>> 而且你知道的概率 给定一类字将是对
你看到这个词次数 该类别,由数除以
也就是说你必须在这 类一般。
有意义吗?
这是在多么“宝贝”是2 字的数目是
我在歌词中。
因此,只要频率。
>> 但有一件事。
还记得我是怎么显示的 的“宝贝”是概率的歌词
从凯蒂·佩里为0,只是因为凯蒂 佩里并没有在所有有“宝贝”?
但它听起来有点刺耳,只是 简单地说,歌词不能从
只是因为它们没有一个艺术家 该单词在特定随时。
>> 所以你可以只说,好吧,如果你 没有这个字,我要去
给你一个较低的概率, 但我只是不打算
给你0的时候了。
因为也许是类似, “火,火,火,火,”这是
完全凯蒂·佩里。
然后“宝贝”,它只是去 0的时候了,因为有一个
“宝贝”。
>> 所以基本上我们做的是什么 所谓的拉普拉斯平滑。
这只是意味着我放弃 有些甚至可能的话
不存在的。
因此,我要做的是,当我 计算这个,我总是加1
分子中。
所以即使单词不存在,在 这种情况下,如果是0,我还是
计算此为1比 单词总数。
否则,我得到多少个字 我已经和我加1。
所以我就指望这两种情况。
有意义吗?
>> 所以,现在让我们做一些编码。
我将不得不这样做相当快, 但它只是重要的是你
人理解的概念。
所以,我们正在试图做的 也正是实施这一
的事情,我只是说 -
我希望你把歌词从 Lady Gaga和Katy Perry的。
和节目是要能够 说,如果这些新的歌词是从加加
或凯蒂·佩里。
有意义吗?
确定。
>> 所以,我有这个计划我要去 打电话classify.py。
所以这是Python的。
这是一种新的编程语言。
它是在某些非常相似 方式到C和PHP。
这是类似的,因为如果你想 明知℃之后学习Python,它的
真的没有那么多的挑战 只是因为Python是容易得多
比C,首先。
和很多东西都已经 实现你。
那么究竟像PHP有函数 排序的列表,或是添加一些东西
到一个数组,或者胡说,胡说,胡说。
Python有所有这些为好。
>> 所以我只是要迅速解释 我们如何能做到分类
问题在这里。
所以我们可以说,在这种情况下,我有 从Gaga和Katy Perry的歌词。
我有那些歌词的方式是, 歌词的第一个字是
艺术家的名字,以及 剩下的就是歌词。
所以我们可以说,我在这个名单 其中第一个是歌词由加加。
所以在这里,我在正确的轨道。
而下一个是凯蒂和 它也有歌词。
>> 所以,你这是怎么声明 在Python中的变量。
你不必给的数据类型。
你只写“的歌词,” 那种喜欢在PHP。
有意义吗?
>> 那么,什么是我的事 计算,以便能够计算出
概率?
我要计算“先验” 每一个不同的
类,我有。
我要计算“后验” 或相当多的概率
每一个不同的词 我可以为每个艺术家。
所以在加加,例如,我要去 到有多少次我看到一个列表
每个单词。
有意义吗?
>> 最后,我只是有一个 列表被称为“字”,也就是刚准备
有多少字我 为每个艺术家。
因此,对于加加,例如,当我看 的歌词,我,我想,24
字总。
所以这个列表只是将不得不 加加24,和Katy另一个号码。
有意义吗?
确定。
>> 所以,现在,居然,让我们 去编码。
所以在Python中,你实际上可以 返回一堆不同
活动从一个函数。
所以我打算创造这个功能 称为“有条件的”,这是打算
返回所有这些事情时, “先验”的“概率”,并
“字样。”因此,“有条件的”,它是 将要调入“的歌词。”
>> 所以,现在我要你真正 写这个函数。
所以,我可以写这个的方式 功能是我刚才定义这
功能与“高清”。所以我做了“高清 有条件的,“和它的服用
“的歌词。”以及这是要干什么 是,首先,我有我的先验
我想计算。
>> 这样我可以做到这一点的方法是创建 在Python中,字典的
几乎是同样的事情作为一个哈希 表,或者它就像一个迭代
数组在PHP。
这是我声明一个字典。
基本上这是什么意思是, 加加的先验概率是0.5,例如,如果
歌词50%是由 加加,50%是由凯蒂。
有意义吗?
所以,我必须弄清楚如何 计算先验。
>> 接下来的那些我必须做的,还可以, 是概率和单词。
所以加加的概率是列表 所有的概率,我
对每个单词为加加。
所以,如果我去加加的概率 “宝贝”为例,它会给我
像2比24在这种情况下。
有意义吗?
于是我去“概率”,进入 “加加”斗具有所有列表
加加的话,那我去“宝贝” 而我看到的概率。
>> 最后我有这个 “字”字典。
所以在这里,“概率”。进而 “字样。”所以,如果我这样做“的话,”“嘎嘎,”
什么将要发生的是它的 要给我24,说我
有内Gaga的歌词24个字。
有道理?
所以在这里,“话”等于DAH-DAH-DAH。
行
>> 所以,我什么都做的是我要去 遍历每个歌词,所以
每个串的那 我已经在列表中。
我要去计算那些事 每个候选人。
有道理?
所以,我必须做一个for循环。
>> 所以在Python中有什么我可以做的是“线路 在抒情诗。“同样的事,作为一个
“为每一个”在PHP语句。
记住我,如果它是PHP怎么可能 说“每个歌词
线。“有道理?
所以我每次走的线路,在这个 情况下,这个字符串和下一
字符串,以便为每个什么我是线 要做的是首先,我要
拆分此行成的名单 字以空格分隔。
>> 所以,关于Python的很酷的事情是, 你可能只是谷歌像“我怎么能
字符串分割成单词? “和它的 要告诉你如何做到这一点。
而做到这一点的方式,它只是“行 = line.split()“,它基本上是
将会给你一个列表 每个在这里的话。
有道理?
所以,现在我这样做,我想知道 谁是那首歌的歌手。
要做到这一点我必须得到 数组的第一个元素,对不对?
所以,我只能说我“歌手 =行(0)“有道理?
>> 然后我需要做的是,首先 所有,我要更新多少
也就是说我有下“加加”。所以我只是 要计算多少字我
在这个列表中,右键?
因为这是我多少字有 在歌词中,我只是要
将它添加到“加加”阵列。
这是否有道理?
太不注重语法。
多思考的概念。
这是最重要的部分。
确定。
>> 因此,我可以做到这一点的是,如果“加加”是 已经在该列表中,因此“如果歌手在
话“,这意味着我已经 由加加有话。
我只是想添加额外的 是这个意思。
所以,我要做的就是“字(歌手) + = LEN(线路) - 1“。
然后我可以做的 长行。
那么有多少个元素我 在阵列中。
而我所要做的零下1只是因为 该阵列的第一个元素是刚
一个歌手,这些都不是歌词。
有道理?
确定。
>> “否则,”这意味着我要实际 加加插入到列表中。
所以,我只是做“字(歌手) = LEN(线路) - 1,“对不起。
因此,两者之间的唯一区别 行的是,这一次,它不
还存在,所以我只是 初始化它。
这其中实际上,我加入。
确定。
因此,这是增加的话。
>> 现在我想添加到先验。
所以,我怎么计算先验?
先验概率可以计算 通过多少次。
你这么有多少次看到歌手 在所有的歌手,你的
有,对不对?
因此,对于Gaga和凯蒂·佩里, 在这种情况下,我看到加加
一次,Katy Perry的一次。
>> 所以基本上是先验的加加 和凯蒂·佩里会
仅仅是一个,对不对?
你有多少次 我看到了艺术家。
所以这是很容易计算。
我可以只是一些类似,像“如果 歌手先验,“我只是去
加入1〜他们的先验箱。
所以,“先验(唱)”+ = 1“,然后”其他“ 我该怎么办“先验(歌手)
= 1“。有道理?
>> 所以,如果它不存在,我只是把 为1,否则我只加1。
好了,现在所有的,我已经离开办 也是每个单词添加到
概率。
所以,我必须指望有多少次 我看到每个单词。
所以,我只是需要做的另一 for循环中的行。
>> 我要去这样做的第一件事就是 检查的歌手已经有
概率数组。
所以我检查,如果歌手不 有一个概率的数组,我只是
要初始化一个用于它们。
它甚至不是一个数组,对不起, 这是一本字典。
所以歌手的概率是怎么回事 是一个开放的字典,所以我
只是初始化字典吧。
好不好?
>> 现在我可以真正做一个for循环 计算每个单词'
概率。
确定。
因此,我所能做的就是一个for循环。
所以我只是去遍历 在阵列。
这样我可以做到这一点在Python的方式 是“因为我在范围内。”从1
因为我要开始第二 元件,因为第一个是
歌手名。
所以从1至 长行。
当我做它的范围实际上从去 喜欢这里从1到的LEN
行减1。
所以它已经这样做这样做的那件事 Ñ减1为数组,这是非常
方便。
有道理?
>> 因此,对于每一个这些,有什么我要去 做的是,就像在另外一个,
我要检查,如果在这个字 在该线的位置已在
概率。
然后我说在这里,概率 也就是说,在我把
“概率(歌手)”。
这样的歌手的名字。
所以,如果它已经在 “probabilit(歌手)”,这意味着我
要加1,所以我要去 做“的概率(歌手)”,以及
字被称为“线(一)”。
我要加1和“其他”我只是 将它初始化为1。
“行(一)”。
有道理?
>> 所以,我计算出的所有阵列。
所以,现在的一切,我所要做的 这个人是刚刚“回归先验,
概率和单词。“让我们 看看是否有任何好不好。
似乎一切工作至今。
所以,这是有道理的?
以某种方式?
确定。
所以,现在我把所有的可能性。
所以,现在我已经离开的唯一的事 只是有这种事情,
计算出的所有产品 当我拿到歌词的概率。
>> 因此,让我们说,我想现在打电话 这个功能“分类()”和
东西函数接受 只是一个说法。
比方说,“宝贝,我着火了”,它的 要弄清楚什么是
概率,这是加加?
这是概率 这是凯蒂?
听起来不错?
所以我只是将不得不创建一个 所谓的新功能“分类()”和
它会采取一些 歌词也是如此。
而除了歌词我也 有送先验的
概率和单词。
所以我打算送歌词,先验, 概率的话。
>> 因此,这是采取的歌词,先验, 概率的话。
那么,它有什么作用?
它基本上是要通过所有 可能的候选人,你
有作为一名歌手。
和那些人在那里候选人?
他们是在先验,对不对?
所以,我有所有这些存在的。
所以,我要准备一本字典 所有可能的候选人。
然后在每个候选 先验概率,因此它意味着它要
是加加,凯蒂如果我有 更会比较。
我要开始计算 这个概率。
正如我们在看到的概率 PowerPoint是事先倍
每一个的产品 其他可能性。
>> 所以,我在这里可以这样做。
我可以做的是概率 刚开始之前。
因此,先验的候选人。
对不对?
现在我不得不遍历所有的 我有在歌词是词
能够添加的概率 为他们每个人,好不好?
因此,“为字的歌词”我什么都 做的是,如果该字是在
“概率(候选人)”,这 也就是说,它是一个字的
候选人在他们的歌词 -
例如,“婴儿”的加加 -
我现在要做的是, 概率将被乘以
由加的概率1 候选人的那个词。
它被称为“字”。
这除以单词数 我对那个候选人。
字的总数,我有 对于我期待的歌手。
>> “否则”。这意味着它是一个新词 所以它会像例如
“火”的Lady Gaga的。
所以,我只想做超过1 “字(候选人)”。
所以,我不希望把这个词在这里。
>> 所以它的将是基本 复制并粘贴此。
但我要删除这部分。
所以它只是将是1比那。
听起来不错?
现在到了最后,我只是要 印上候选人的名字和
你有概率 在他们的歌词有标。
有道理?
我其实不连 需要这本词典。
有道理?
>> 所以,让我们看看这个实际工作。
所以,如果我运行这个,也没有工作。
等待一秒钟。
“言(候选人)”,“字(候选人)”, 这是
该数组的名称。
好了,所以,它说,有一些bug 候选的先验。
让我冷静下来一点点。
确定。
让我们试试。
确定。
>> 所以,它给了凯蒂·佩里有这个 在此乘以10的概率
减去7,和加加有这个 乘以10的负6。
所以你看它表明加加 具有更高的概率。
因此,“宝贝,我在火”是 可能是Gaga的歌。
有道理?
所以这就是我们所做的。
>> 此代码将被发布到网上, 所以你们可以检查出来。
也许用一些它,如果你想 做项目或类似的事情。
确定。
这只是为了显示 怎样计算
语言学的代码如下所示。
但是,现在让我们去更多 高层次的东西。
确定。
>> 因此,其他的问题我 说的是 -
分割问题 是第一人。
所以,你必须在这里的日本。
然后就看到了 有没有空格。
因此,这基本上意味着它 椅子的顶部,对不对?
你说日语吗?
这是椅子的顶部,对不对?
>> 学生:我不知道是什么 汉字那边。
>> LUCAS FREITAS:这是[操日语]
确定。
所以它基本上意味着顶部的椅子。
所以,如果你不得不把一个空间 这将是在这里。
然后你有[?上田山。 ?]
这基本上意味着上田先生。
而你看到的“田”和你有一个 空间,然后“圣”。所以你看到,
在这里你“UE”就像本身。
在这里,它有一个字符 在它旁边。
>> 所以它不像这些语言 字义的单词,这样你
刚刚投入了大量的空间。
字符之间的相互关系。
他们能在一起 像二,三,一。
所以,你实际上必须建立某种 的方式把这些空间。
>> 而这件事情是,每当你得到 从这些亚洲语言的数据,
一切都无节。
因为没有人谁写日本 还是中国写为空格。
当你在写中国, 日本你刚才写的一切
没有空格。
它甚至没有任何意义 把空间。
这样的话,当你从得到的数据,一些 东亚语言,如果你想
其实做一些与 你必须先分段。
>> 认为这样做的实例中的 不带空格的歌词。
所以,你拥有的唯一歌词 将句子,对不对?
用句点分隔。
但是刚走了句会 没有真正在给予信息帮助
是谁的歌词是由。
对不对?
所以,你应该首先将空间。
你那么如何才能做到这一点?
>> 所以后来谈到语言的想法 模型这是真的东西
用于计算重要 语言学。
所以一个语言模型基本上是一个 表概率的表演
首先什么是概率 具有一种语言的单词?
那么如何展示频繁的一句话就是。
然后还展示了关系 在一个句子中词与词之间。
>> 所以主要的想法是,如果一个陌生人来到 给你说了一句话
你,什么是概率,对于 例如,“这是我妹妹[?GTF”?]
是那句话的人说的吗?
所以,很显然有些句子 比其他人更常见。
例如,“早上好”或“好 晚上,“或”嘿,“得多
比最常见的句子 我们有一个英语。
那么,为什么那些句子 更频繁?
>> 首先,这是因为你有 话是更频繁。
因此,举例来说,如果你说,狗是 大,而狗是巨大的,你
通常可能听到狗是大 更多的时候,因为“大”更
频繁的英语不是“巨大”。 所以,1的
事情是这个词的频率。
>> 这是真正的第二件事 重要的仅仅是
顺序的话。
所以,经常会说“猫是 里面的箱子。“但你通常不
见“盒子里面是猫。”所以 你看,有一些重要
中的词的顺序。
你不能只是说,这两个 句子具有相同的概率
仅仅是因为他们具有相同的话。
实际上,你要关心 关于秩序良好。
有意义吗?
>> 那么,我们该怎么办?
所以我可能会尝试帮你吗?
我试图让你我们 调用的n-gram模型。
所以,一个n-gram模型的基本假设 对于每个字
你在一个句子里。
它具有的概率 字不仅有依赖于
频率在语言文字的, 同时也对词
都围绕着它。
>> 因此,举例来说,通常当你看到 像上或在你
可能会看到一个 名词之后,对不对?
因为当你有一个介词 通常它需要后一个名词。
或者如果你有一个动词是及物动词 你通常要
有一个名词短语。
因此,这将有一个名词 围绕它的地方。
>> 所以,基本上,它的作用在于,它 认为具有的概率
话彼此相邻,当 你的计算
概率句子。
而这正是一种语言 模型基本上是。
只是说有什么可能性 的具有特定
句子的语言?
那么,为什么是有用的,基本上是?
并首先什么是 一个n-gram模型,然后呢?
>> 所以,一个n-gram模型意味着, 每个字取决于
接下来的N减1的话。
所以,基本上,这意味着如果我看起来, 例如,在CS50 TF时
我计算的概率 这句话,你会像“
具有单词“the”的概率 具有次的概率“的
具有CS50“时间的概率 “该CS50 TF。”所以,基本上,我算
伸展它的所有可能的方式。
>> 然后通常当你这样做, 作为一个项目,你把电量为
一个低的值。
所以,通常有双字母组或卦。
所以,你只算两个词,一个 组两个词,或者三个字,
只为性能问题。
也因为也许如果你有 像“的CS50 TF。”当你
有“TF”,这是非常重要的, “CS50”是在它旁边,对不对?
这两件事通常是 彼此相邻。
>> 如果你觉得“TF”,它可能 将有哪些
类它TF'ing的。
也是“”真的很重要 为CS50 TF。
但是,如果你有一些像“CS50 TF去上课,并给了他们
学生们一些糖果。“”糖果“和”the“ 没有关系真的,对不对?
他们是彼此如此遥远的 它并不真正的问题是什么
也就是说你有。
>> 所以,做一个两字或卦,它 只是意味着你限制
自己的一些话 这是各地。
有意义吗?
所以,当你想要做的分割, 基本上,你想要做什么见
什么都是可能的方式, 你可以分段的句子。
>> 这样,你看到的是什么 每个句子的概率
现有的语言吗?
所以,你做什么就好了,好了,让 我试图把一个空间在这里。
所以,你把一个空间有 和你看到的是什么
那句话的概率是多少?
那么你是喜欢,好吧,也许 这不太好。
所以我把一个空间有一个空格 在那里,你的计算
概率现在,你看到 这是一个更高的概率。
>> 所以,这就是所谓的TANGO的算法 分割算法,这是
实际的东西,会是真的 凉爽的项目,该项目
基本上采取不分段全文 可能是日本人还是中国人也许
英语没有空格,并试图把 字和它之间的空间
通过使用一个语言模型,并 想看看是最高的
概率可以得到。
确定。
因此,这是分割。
>> 现在的语法。
这样,句法被用于 这么多东西现在。
因此,对于图搜索,对于Siri的供 几乎任何类型的自然
语言处理你。
那么什么是重要的 有关语法的东西呢?
因此,句子一般有 就是我们所说的成分。
这是一种像组词 有在句中的功能。
他们不能真正 彼此分开。
>> 所以,如果我说,例如,“劳伦爱 米洛。“我知道,”劳伦“是一个
成分,然后“爱 米洛“也是一个又一个。
因为你不能说像“劳伦米洛 喜欢“具有相同的含义。
它不会有 相同的含义。
或者,我不能说像“米洛·劳伦 爱。“不是任何事物都有相同的
这意味着这样做。
>> 因此,这两个更重要的事情 语法是词法类型是
基本的功能,你 自己有话。
所以,你要知道,“劳伦” 与“米洛”都是名词。
“爱”是一个动词。
第二重要的是 他们是短语的类型。
所以,你知道,“爱米洛” 实际上是一个口头短语。
所以,当我说“劳伦,”我知道, 劳伦是做什么的。
她在干什么?
她爱米洛。
所以这是一个整体的东西。
但它的成分是 一个名词和一个动词。
但同时,他们提出了一个动词短语。
>> 所以,我们可以真正做 计算语言学?
所以,如果我有东西,例如 “朋友佳佳的。”我认为如果我只是
没有一个语法树我想知道 “朋友”是一个名词短语是
“艾里逊的”名词,然后是 “的”介词短语在这
一个主张和“佳佳”是一个名词。
有什么我可以做的是教给我的电脑 当我有一个名词短语之一,
然后一个介词短语。
所以在这种情况下,“朋友”,然后“ 米洛“我知道这意味着
NP2,第二个,拥有NP1。
>> 所以,我可以创造某种关系, 某种功能吧。
所以每当我看到这个结构, 正好与“朋友的匹配
佳佳,“我知道佳佳 拥有朋友。
所以,朋友们的东西 佳佳了。
有道理?
因此,这基本上是什么 图搜索一样。
它只是创建规则 对于很多事情。
所以,“朋友阿利森的”,“我的朋友们 谁住在剑桥“,”我的朋友们
谁去哈佛。“它创造规则 对于所有这些事情。
>> 现在的机器翻译。
因此,机器翻译也 一些统计。
而实际上,如果你涉足 计算语言学,很多
你的东西将是统计数据。
所以当我在做的例子有 有很多可能性的,我是
计算,然后你到这个 极少数这是最后的
概率,这就是 给你答案。
机器翻译还使用 统计模型。
如果你要考虑机器的 翻译在最简单的可能
顺便问一下,你能想到的仅仅是 翻译一字一句,对不对?
>> 当你学习一门语言的 第一次,这通常是什么
你这样做,对不对?
如果你想你翻译一个句子 在你的语言的语言
你正在学习,通常首先,你 翻译的每个字
个别地,然后尝试 把单词到位。
>> 所以,如果我想翻译这个, [发言葡萄牙语]
这意味着“白猫跑掉了。” 如果我想从翻译
葡萄牙语到英语,我 可以做的是,第一,我只是
逐字翻译单词。
因此,“O”是“,”“加托”,“猫” “布兰科”,“白”,然后“fugio”是
“跑了。”
>> 于是我把所有的话在这里, 但他们不是为了。
这就像“猫白跑了” 这是不合语法。
这样的话,我可以有第二个步骤,即 将要寻找的理想
对于每个字的位置。
所以我知道,其实我是想有 “白猫”,而不是“猫白。”所以
有什么我可以做的是,最天真的方法 将创建所有
可能的排列 字位置。
然后看看哪一个具有 根据概率最高
我的语言模型。
然后当我找到一个有 概率最高的,这是
可能是“白猫跑了,” 这是我的翻译。
>> 这是说明一个简单的方法 怎么了很多机器翻译
算法工作。
这是否有道理?
这也是一些真正令人兴奋的 那你们也许可以探索一个
最后的项目,是吗?
>> 学生:嗯,你说这是 天真的方式,有啥
非幼稚的方式?
>> LUCAS FREITAS:非幼稚的方式?
确定。
所以这是坏的第一件事 这个方法是我刚翻译
也就是说,一个字一个字。
但有时你必须说的话 可以有多种译文。
我会尽量想 的东西。
例如,在葡萄牙可以“漫画” 要么是“裂伤”或“套筒”。所以
当你试图翻译单词 通过文字,它可能给你
东西是没有意义的。
>> 所以,你其实是要你在所有 的可能的翻译
单词和看,首先, 什么是顺序。
我们都在谈论permutating 事情?
要查看所有可能的订单, 选择一个具有最高
概率是多少?
您也可以选择所有可能的 翻译每个
单词,然后看 -
结合的排列 -
哪一个具有最高的概率。
>> 另外,你也可以看看不 只字,但短语。
这样你就可以分析之间的关系 这些词汇,然后得到一个
更好的翻译建议。
另外别的东西,所以这学期 实际上,我在做研究
中国英语机器翻译, 从这么翻译
中国成英文。
>> 而我们做的事情是,除了使用 一个统计模型,它只是
再看到的可能性 在一个句子中的某个位置,我
居然还加入一些语法来我 模型,说,哦,如果我看到这样的
建筑,这就是我想要的 改变它,当我翻译。
所以,你也可以添加某种 语法元素以使
翻译更高效 和更精确。
确定。
>> 所以你怎么能上手,如果你想 做一下计算
语言学?
>> 首先,你选择一个项目 涉及语言。
因此,有这么多的在那里。
有这么多的事情可以做。
然后可以把一个模型 您可以使用。
通常,这意味着思维 假设,因为喜欢,呵呵,当我
喜欢的歌词思维。
我当时想,好吧,如果我想弄清楚 出是谁写的,我可能要
看的话的人使用, 看看谁使用这个词非常频繁。
所以尽量作出假设及 再想想模型。
然后你也可以在网上搜索 什么样的问题,你有,
而且它要建议 你的模型,也许
仿照那个东西好。
>> ,你也可以随时给我发电子邮件。
me@lfreitas.com。
而且我可以回答你的问题。
我们甚至可能会碰见这样我就可以 给对方法的建议
实施项目。
我的意思是,如果你卷入到 计算语言学,这是怎么回事
是巨大的。
你会看到有 这么多的潜力。
和业界都希望雇佣 你是因为有那么糟糕。
所以,我希望你们喜欢这个。
如果你们有任何问题, 您可以在此之后问我。
但是谢谢你。