Computational Linguistics, by Lucas Freitas

>> LUCAS FREITAS：嘿。欢迎大家。我的名字是卢卡斯塔斯。我是一个大三学生[听不清]研究计算机科学与重点计算语言学。所以，我的中学是在语言和语言学理论。我真的很兴奋，教你们关于外地一点点。这是一个非常激动人心的领域来研究。也有很大的潜力为将来。所以，我真的很兴奋，你的家伙正在考虑中的项目计算语言学。我会很乐意提供意见任何的你，如果你决定追求其中的一个。 >> 所以首先什么是计算的语言学？因此，计算语言学是语言学和之间的交集计算机科学。那么，什么是语言学？什么是计算机科学？以及从语言学，是什么我们采取的是语言。因此，语言学实际上是研究在一般的自然语言。所以，自然语言 - 大家说说我们实际使用的语言相互通信。因此，我们不正是在说关于C或Java。我们谈论更多关于英语和中国和其他语言，我们用于彼此进行通信。 >> 有关的具有挑战性的事情是，现在我们有近7000 语言在世界上。因此，有相当高的品种的语言，我们可以研究。然后你认为它可能是很难做到，比如，翻译从一种语言到另外，考虑到你有其中近7000人。所以，如果你想这样做的翻译从一种语言到另你几乎超过一百万不同的组合，你可以必须从语言到语言。所以它的真正挑战做了一些类的实例翻译系统的每一个语言。 >> 所以，对待语言学与语法，语义，语用学。你们不完全需要要知道什么是他们的。但非常有趣的是，作为母语的人，当你学会语言作为孩子，你居然学会所有这些事情 - 语法语义和语用 - 由你自己。和任何人都没有教你语法你明白的句子是如何结构。所以，这真的很有趣，因为它的东西，来非常直观。 >> 和你在服用计算机科学？好了，最重要的事情是我们在计算机科学，首先是总之，人工智能和机器学习。所以，我们正在努力做计算语言学是教您的计算机如何做用的语言。 >> 因此，例如，在机翻译。我想教我的电脑怎么知道如何从一个过渡语言到另一边。所以，基本上喜欢教学一台电脑两种语言。如果我这样做自然语言处理，这是示例的情况下 Facebook的图搜索，你教你的电脑怎么理解查询好。 >> 所以，如果你说“的照片我的朋友。“Facebook并没有把那作为具有整个字符串只是一堆话。它实际上是理解的关系 “照片”和“我的朋友”之间了解到，“照片”是物业“我的朋友。” >> 所以，这部分，例如自然语言处理。它试图了解什么之间的关系是词语的句子。而最大的问题是，你可以教电脑如何说话在一般的语言？这是一个非常有趣的问题想想，好像，也许在未来，你要能谈谈您的手机。有点像我们做什么用的Siri，但更多的东西一样，你实际上可以说任何你想要的手机是要明白一切。而且它可以有后续问题并继续谈判。这件事情真的很令人兴奋，在我看来。 >> 因此，一些关于自然语言。一些真正有趣自然语言是说，这是信用到我的语言学教授，玛丽亚Polinsky。她举了一个例子，我认为这真的很有趣。因为我们学语文时，从我们出生，然后我们的母语一种语言的生长在我们。 >> 基本上你学习语言从最小的投入，对不对？你刚刚从输入您的您的语言听起来父母什么喜欢和你只是学习它。所以，这很有趣，因为如果你看一下在这些句子，例如。你看，“玛丽穿上大衣每一次，她离开家。“ >> 在这种情况下，有可能有单词“她”指的是玛丽，对不对？你可以说“玛丽穿上大衣每次玛丽离开房子。“，这样很好。但是如果你看一下这句话 “她每次穿上大衣玛丽离开房子。“你知道这是不可能说“她”是提及玛丽。 >> 有没有办法说，“玛丽把一件大衣，每次离开玛丽房子，“所以这很有趣，因为这是一种直觉每一个母语了。也没有人告诉我们，这是该语法的工作方式。而且，你只能拥有这件“她” 提及玛丽在第一种情况下，实际上在这等过，但不是在这一个。但每个人都种得以相同的答案。每个人都同意这一点。所以，这真的很有趣，虽然如何你不知道所有的规则那种在你的语言你懂语言如何工作的。 >> 因此，关于自然的有趣的事情语言是你不必知道任何语法知道，如果一个句子是语法或不合语法的大多数情况下。它让你觉得，也许什么发生的情况是通过你的生活，你只是不断变得越来越句子告诉你。然后你保持记忆所有的句子。然后当有人告诉你什么，你听到这句话，并你看看你的词汇量的句子，看看是否那句话是存在的。如果是有你说这是语法。如果它不是你说这是不合语法。 >> 所以，在这种情况下，你会说，哦，让您拥有一个庞大的所有列表可能的句子。然后，当你听到一个句子，你知道它的语法或不基于这一点。问题是，如果你看一下一个句子，例如“该五头CS50转录因子煮熟的盲使用DAPA杯章鱼。“这是绝对不是一句你听说过。但在同一时间，你知道这是相当多的语法，对不对？有没有语法错误你可以说，这是一个可能的句子。 >> 因此，它使我们觉得实际上是这样，我们学习语言不仅是由具有巨大的可能的数据库词或句子，但更多的理解的关系也就是说在那些句子。这是否有道理？因此，接下来的问题是，能电脑学习语言？我们可以教语言的计算机？ >> 所以，让我们想到的差异一种语言的母语之间和一台计算机。那么，究竟发生了扬声器？那么，母语学习一从接触到它的语言。通常早期的童年岁月。所以，基本上，你只要有一个孩子，你一直说要它，它刚刚学会如何说话语言，对不对？所以，你基本上放弃输入到婴儿。这样，那么你可以说，一台电脑可以做同样的事情，对不对？你可以只给语言作为输入到计算机中。 >> 作为例子一堆文件有英语书籍。也许这是一种方式，你也可能教计算机英语，对不对？而事实上，如果你仔细想想，它需要你，也许一对夫妇天读一本书。对于一台电脑需要一秒钟看着一本书的所有单词。所以，你可以认为这或许正是这从你周围的输入参数，这还不够，说这是东西，只有人类可以做到的。你能想到的电脑还可以得到输入。 >> 第二件事是，母语也有大脑，有语言学习能力。但是，如果你仔细想想，大脑是一个坚实的事情。当你出生时，它已经被设置 - 这是你的大脑。而当你长大了，你只会得到更多的语言的输入，也许营养素和其他的东西。但几乎你的大脑是一个坚实的事情。 >> 所以，你可以说，好吧，也许你可以构建有一堆电脑功能和刚模仿方法语言学习能力。所以在这个意义上，你可以说，好，我能有一个具有所有电脑事情我需要学习的语言。而最后一件事情是，原生扬声器学会从试验和错误。在所以基本上另一个重要的事情语言的学习是你那种通过使学习的东西你所听到的概括。 >> 所以当你在成长过程中你学到了有些话更像是名词，一些其他的都是形容词。而且你不必有任何语言学知识要理解这一点。但你只是知道有一些单词被定位在的某些部分句子和其他一些人在其他部分的句子。 >> 并且，当你做的东西是就像一个句子是不正确的 - 也许是因为过度泛化例如。也许当你长大了，你注意到该复数通常是通过把一个S在形成字的结尾。然后尝试做的复数 “鹿”为“鹿”或“牙”为 “tooths。”这样的话你的父母或有人纠正你，说，不， “鹿”的复数是“鹿”和的“牙齿”复数是“牙齿”。进而你学那些东西。所以，如果你尝试和错误中学习。 >> 但你也可以做到这一点用一台计算机。你可以有一些所谓强化学习。这基本上就像给一个计算机时，它做了奖励正确的东西。并给它奖励的对面当它做错了事。实际上，你可以看到，如果你走到谷歌翻译，并试图翻译一个句子，它要求您提供反馈意见。所以，如果你说，哦，还有更好的翻译这句话。您可以键入它，然后如果有很多人们一直说这是一个更好的翻译，它只是学习它应使用的翻译，而不是一个它是给。 >> 所以，这是一个非常哲学问题看是否计算机都将是谈得来与否的未来。但我有很高的期望，他们可以只是根据这些参数。但它只是更多的是一种哲学问题。 >> 因此，尽管电脑仍无法说话，什么样的事情，我们可以做什么？一些非常酷的东西是数据分类。因此，举例来说，你们知道该电子邮件服务做的，为例如，垃圾邮件过滤。所以每当你收到垃圾邮件，它试图筛选到另一个框。那么它是怎样做到这一点？它不象电脑才知道什么电子邮件地址发送垃圾邮件。因此，它更是以内容消息，或者标题，或也许你有一些图案。 >> 所以，基本上，你所能做的就是得到一个大量的电子邮件是垃圾邮件的数据，邮件是不是垃圾邮件，并了解样的模式，你必须在那些是垃圾邮件。这是计算的一部分语言学。这就是所谓的数据分类。而我们实际上将看到一个例如，在接下来的幻灯片。 >> 第二件事是自然语言处理这是事情的图搜索是做又让你写一个句子。它相信你明白的含义，并给出你一个更好的结果。其实，如果你去谷歌或Bing 你搜索的东西像Lady Gaga的高度，你实际上会得到5'，而不是信息1“ 从她的，因为它实际上理解你在说什么。所以这是自然的一部分，语言处理。 >> 或者也当你使用Siri的，第一你有一个算法，试图翻译你在说什么成文字，在文字。然后它会尝试翻译到那个意思。所以这是所有自然的一部分语言处理。 >> 那么你有机器翻译 - 这实际上是1 我的最爱 - 这是刚刚从翻译一种语言到另一种。所以，你可以认为，当你正在做的机器翻译，你有句子的无限可能性。因此，有没有办法只存储每一个翻译。所以，你必须想出有趣算法能够翻译每一个句子以某种方式。 >> 你们有什么问题这么远吗？没有？确定。 >> 那么，我们要看到今天？首先，我要说说分类问题。这样一说我是说关于垃圾邮件。我什么都做的是，给定的歌词一首歌，你可以揣摩以高概率谁是歌手？比方说，我从夫人的歌 Gaga和Katy Perry的，如果我给你一个新的歌曲，你可以计算出，如果这是凯蒂·佩里还是Lady Gaga的？ >> 第二个，我只是要谈关于分割问题。所以，我不知道，如果你们知道，但中国，日本，其他东亚语言和其它语言在一般情况下，不必单词之间的空格。然后，如果你想的方式，你的电脑亲切的尝试，以理解自然语言处理，它着眼于单词和试图了解关系他们之间，对不对？但是，如果你有中国人，你具有零位，这真的很难搞清楚什么是之间的关系也就是说，因为它们不具有任何也就是说在第一。所以，你必须做一些所谓的分割这只是意味着把我们所说的空间也就是说在这些语言。有意义吗？ >> 然后我们要说说语法。关于自然的，因此只是一点点语言处理。这将只是一个概述。所以今天，基本上是我想要做的是给你们的一点点什么是内部的可能性你可以用做计算语言学。然后你就可以看到你的想法凉爽的那些东西。也许你能想到的一个项目和来跟我说话。我可以给你建议关于如何实现它。 >> 所以语法将是一点点关于图搜索和机器翻译。我只是想给怎样一个例子你可以，例如，翻译从东西到葡萄牙语英语。听起来不错？ >> 因此，首先，在分类问题。我会说，这部分研讨会将是最具挑战性的一个只因为那里是怎么回事是一些编码。但它的将是Python的。我知道你们不知道的Python，所以我只是要对高解释平我在做什么。而你没有真正在乎过很多关于语法，因为这是东西你们可以学习。好不好？听起来不错。 >> 那么什么是分类问题？所以，你给一些歌词一首歌曲，你要猜谁在唱。这可以是任何类型的的其他问题。所以可以，例如，你有一个总统竞选和你有一个讲话，你想找到出，如果它是，例如，奥巴马或罗姆尼。或者你可以有一大堆的电子邮件和你要搞清楚，如果他们是垃圾邮件。所以它只是一些分类基于该字的数据你有没有。 >> 因此，要做到这一点，你必须做一些假设。所以很多关于计算语言学正在假设，通常聪明的假设，从而使你可以得到很好的效果。试图建立一个模型了。然后再尝试一下，看看它是否工作，如果它给你很好的精度。如果确实如此，那么你尝试改善它。如果没有，你肯定在想：好吧，也许我应该做出不同的假设。 >> 让我们将假设提出的是一个艺术家通常唱的一个话题多次，也许使用的话多次刚因为他们已经习惯了它。你可以认为你的朋友的。我敢肯定，你们都有朋友那说，他们的签名短语，从字面上每一个句子 - 像一些特定的词或某些特定短语，他们说的每一个句子。 >> 什么可以说的是，如果你看一个句子，有一个签名词组，你可以猜测，大概你的朋友是有一句话说，对不对？所以，你做这样的假设，然后这就是你如何创建一个模型。 >> 那我要举的例子是如何Lady Gaga的，例如，人说，她使用“宝贝”的她所有的头号歌曲。而实际上，这是一个视频，显示她说这个词“宝贝”的不同的歌曲。 >> [视频回放] >> - （唱）婴儿。宝贝。宝贝。宝贝。宝贝。贝贝。宝贝。宝贝。宝贝。宝贝。 >> [完录像回放 - >> LUCAS FREITAS：所以有，我认为， 40首歌曲在这里，她说，词“宝贝”。所以，你基本上可以猜到如果你看到一首歌，有单词“宝宝”有一些高概率，它是Lady Gaga的。但是，让我们尝试开发这样进一步更正式。 >> 所以这些都是歌词歌曲 Lady Gaga和Katy Perry的。所以，你看Lady Gaga的，你看他们有很多事件的“宝贝”，一大量出现的“方式”。进而凯蒂·佩里有很多事件的发生 “对，”很多事件的发生“火灾”。 >> 所以基本上我们想要做的是，你会得到一首抒情诗。比方说，你会得到一个抒情的歌曲是“宝贝”，只是“宝贝”。如果你刚刚得到了这个词“宝贝”，这是你的所有，从数据 Lady Gaga和凯蒂·佩里，谁也你猜是人是谁唱这首歌？ Lady Gaga的还是凯蒂·佩里？ Lady Gaga的，对不对？因为她是唯一一个说谁 “宝贝”。这听起来很愚蠢，对吧？ OK，这是很容易的。我只是在看的两首歌曲，并当然，她是谁的唯一 “宝贝”。 >> 但是，如果你有一堆话？如果你有一个实际的歌词，东西一样，“宝贝，我只是去看了[？ CFT？] 讲座“，或者类似的东西，和那么你实际上必须弄清楚 - 基于所有这些话 - 谁是谁的艺术家可能唱这首歌？所以让我们尝试开发这远一点。 >> 好了，根据刚刚的数据，我们得到了，似乎加加可能是歌手。但如何才能写这更正式？并有将是一个小统计位。所以，如果你迷路了，只要尝试要理解这个概念。如果你理解不要紧，方程非常清楚。这是所有要上线了。 >> 所以基本上就是我计算的是概率，这首歌是由 Lady Gaga的因为 - 所以这条表示因为 - 我看到这个词“宝贝”。这是否有道理？所以我试图计算这种可能性。 >> 所以有这个定理称为贝叶斯定理是说，一个给定的B的概率，是乙的概率给出A，倍概率A的，超过的概率 B.这是一个长期的方程。但是，你有什么从理解这是，这是我想要的计算，对不对？让这首歌是由概率 Lady Gaga的因为我看到这个词 “宝贝”。 >> 现在有什么我得到的是单词“宝贝”的概率给出我有Lady Gaga的。什么是基本？这也就意味着，有什么看到这个词“宝贝”的概率在Gaga的歌词？如果我想计算出在一个非常简单的方法，它只是数次我看到“宝贝”在总数在加加歌词的话，对不对？什么是我看到的频率在Gaga的工作这个词？有意义吗？ >> 第二项是概率加加。这是什么意思？这基本上意味着，请问是什么分类的概率有些歌词加加？那就是很怪，但让我们想到的一个例子。因此，让我们说的概率在一首歌曲有“宝贝”是一样的对于Gaga和布兰妮斯皮尔斯。但布兰妮斯皮尔斯有两次比Lady Gaga的多首歌曲。因此，如果有人只是随机给你 “宝贝”的第一件事歌词你看的是，什么是概率在Gaga的歌曲有“宝贝”，“宝贝” 在布兰妮的歌？它是同样的事情。 >> 所以，你会看到的第二件事情是，那么，什么是概率这歌词本身是一个Gaga的歌词，是什么的概率作为布兰妮的歌词？所以自从布兰妮有那么多的歌词比加加，你可能会比方说，好了，这可能是布兰妮的歌词。所以这就是为什么我们有这个该词在这里。概率加加。有道理？不是吗？确定。 >> 和最后一个是刚才的概率 “婴儿”的不真正的问题那么多。但它的概率看到“宝贝”的英文。我们通常不关心很多关于这个词。这是否有道理？所以加加的概率是称为先验概率之类的加加。因为它只是意味着，请问是什么有那个类的概率 - 这是加加 - 只是在一般情况下，刚没有条件。 >> 然后当我有概率加加给“宝贝”，我们把它叫做加流泪的概率，因为它是具有的概率加加给出了一些证据。所以我给你证据我看到这个词的婴儿和这首歌有意义吗？确定。 >> 所以，如果我计算过，每个该歌曲的Lady Gaga，是什么将是 - 显然，我不能动了。加加的概率将是类似，在2 24，次数的1/2，在2比53。如果你知道它什么都无所谓这些数字的来源。但它只是一个数字，是怎么回事为大于0，对不对？ >> 然后当我做凯蒂·佩里，该 “宝宝”的概率给出卡提现已经为0，对不对？因为没有“宝贝” 在凯蒂·佩里。是这样，那么这变成0，并且加加胜，这意味着Gaga是大概是歌手。这是否有道理？确定。 >> 所以，如果我想使这个更正式，我其实可以做一个模型多个单词。因此，让我们说我有话一样，“宝贝，我着火了，“什么的。因此，它具有多个单词。在这种情况下，你可以看到这“宝贝”是加加，但它不是在凯蒂。与“火”是凯蒂，但它不是在Gaga的，对不对？因此，它变得棘手，对吧？因为它似乎，你几乎有两者之间的领带。 >> 所以你要做的就是承担独立性的话之一。所以基本上这是什么意思是，我只是计算是什么看到的概率“宝贝”，什么是看到的可能性“我”和 “是”和“上”和“火” 所有独立。然后我乘他们。而我看到的是概率的看到整个句子。有意义吗？ >> 所以基本上，如果我只有一个字，我想要找的是阿根廷最大，这意味着，那是什么是类给我最高的概率是多少？那么，什么是给类我的最高概率类的概率给定的单词。因此，在这种情况下，给予加加“宝贝”。或凯蒂给“宝贝”。有意义吗？ >> 而刚刚从贝叶斯，那方程式我发现，我们创建这个分数。唯一的一点是，你看到字中给出的概率根据班级的变化在类的吧？的“宝贝”s表示我有多少在Gaga是从凯蒂不同。类的概率也的变化，因为它只是数歌曲他们每个人都有。 >> 但这个词本身的概率将是相同的所有的艺术家，对不对？这样的单词的概率是只是，什么是概率看到在这个词英语？因此，它是相同的所有的人。所以，因为这是不变的，我们可以只下降的，根本没有在意它。因此，这将是真正的方程我们正在寻找。 >> 如果我有多个的话，我仍然会有事先概率在这里。唯一的一点是，我乘的概率所有其他的话。所以我乘他们。有意义吗？它看起来很奇怪，但基本上意味着，计算前的类，并然后由每个的概率相乘在这个类是的话。 >> 而且你知道的概率给定一类字将是对你看到这个词次数该类别，由数除以也就是说你必须在这类一般。有意义吗？这是在多么“宝贝”是2 字的数目是我在歌词中。因此，只要频率。 >> 但有一件事。还记得我是怎么显示的的“宝贝”是概率的歌词从凯蒂·佩里为0，只是因为凯蒂佩里并没有在所有有“宝贝”？但它听起来有点刺耳，只是简单地说，歌词不能从只是因为它们没有一个艺术家该单词在特定随时。 >> 所以你可以只说，好吧，如果你没有这个字，我要去给你一个较低的概率，但我只是不打算给你0的时候了。因为也许是类似， “火，火，火，火，”这是完全凯蒂·佩里。然后“宝贝”，它只是去 0的时候了，因为有一个 “宝贝”。 >> 所以基本上我们做的是什么所谓的拉普拉斯平滑。这只是意味着我放弃有些甚至可能的话不存在的。因此，我要做的是，当我计算这个，我总是加1 分子中。所以即使单词不存在，在这种情况下，如果是0，我还是计算此为1比单词总数。否则，我得到多少个字我已经和我加1。所以我就指望这两种情况。有意义吗？ >> 所以，现在让我们做一些编码。我将不得不这样做相当快，但它只是重要的是你人理解的概念。所以，我们正在试图做的也正是实施这一的事情，我只是说 - 我希望你把歌词从 Lady Gaga和Katy Perry的。和节目是要能够说，如果这些新的歌词是从加加或凯蒂·佩里。有意义吗？确定。 >> 所以，我有这个计划我要去打电话classify.py。所以这是Python的。这是一种新的编程语言。它是在某些非常相似方式到C和PHP。这是类似的，因为如果你想明知℃之后学习Python，它的真的没有那么多的挑战只是因为Python是容易得多比C，首先。和很多东西都已经实现你。那么究竟像PHP有函数排序的列表，或是添加一些东西到一个数组，或者胡说，胡说，胡说。 Python有所有这些为好。 >> 所以我只是要迅速解释我们如何能做到分类问题在这里。所以我们可以说，在这种情况下，我有从Gaga和Katy Perry的歌词。我有那些歌词的方式是，歌词的第一个字是艺术家的名字，以及剩下的就是歌词。所以我们可以说，我在这个名单其中第一个是歌词由加加。所以在这里，我在正确的轨道。而下一个是凯蒂和它也有歌词。 >> 所以，你这是怎么声明在Python中的变量。你不必给的数据类型。你只写“的歌词，” 那种喜欢在PHP。有意义吗？ >> 那么，什么是我的事计算，以便能够计算出概率？我要计算“先验” 每一个不同的类，我有。我要计算“后验” 或相当多的概率每一个不同的词我可以为每个艺术家。所以在加加，例如，我要去到有多少次我看到一个列表每个单词。有意义吗？ >> 最后，我只是有一个列表被称为“字”，也就是刚准备有多少字我为每个艺术家。因此，对于加加，例如，当我看的歌词，我，我想，24 字总。所以这个列表只是将不得不加加24，和Katy另一个号码。有意义吗？确定。 >> 所以，现在，居然，让我们去编码。所以在Python中，你实际上可以返回一堆不同活动从一个函数。所以我打算创造这个功能称为“有条件的”，这是打算返回所有这些事情时， “先验”的“概率”，并 “字样。”因此，“有条件的”，它是将要调入“的歌词。” >> 所以，现在我要你真正写这个函数。所以，我可以写这个的方式功能是我刚才定义这功能与“高清”。所以我做了“高清有条件的，“和它的服用 “的歌词。”以及这是要干什么是，首先，我有我的先验我想计算。 >> 这样我可以做到这一点的方法是创建在Python中，字典的几乎是同样的事情作为一个哈希表，或者它就像一个迭代数组在PHP。这是我声明一个字典。基本上这是什么意思是，加加的先验概率是0.5，例如，如果歌词50％是由加加，50％是由凯蒂。有意义吗？所以，我必须弄清楚如何计算先验。 >> 接下来的那些我必须做的，还可以，是概率和单词。所以加加的概率是列表所有的概率，我对每个单词为加加。所以，如果我去加加的概率 “宝贝”为例，它会给我像2比24在这种情况下。有意义吗？于是我去“概率”，进入 “加加”斗具有所有列表加加的话，那我去“宝贝” 而我看到的概率。 >> 最后我有这个 “字”字典。所以在这里，“概率”。进而 “字样。”所以，如果我这样做“的话，”“嘎嘎，” 什么将要发生的是它的要给我24，说我有内Gaga的歌词24个字。有道理？所以在这里，“话”等于DAH-DAH-DAH。行 >> 所以，我什么都做的是我要去遍历每个歌词，所以每个串的那我已经在列表中。我要去计算那些事每个候选人。有道理？所以，我必须做一个for循环。 >> 所以在Python中有什么我可以做的是“线路在抒情诗。“同样的事，作为一个 “为每一个”在PHP语句。记住我，如果它是PHP怎么可能说“每个歌词线。“有道理？所以我每次走的线路，在这个情况下，这个字符串和下一字符串，以便为每个什么我是线要做的是首先，我要拆分此行成的名单字以空格分隔。 >> 所以，关于Python的很酷的事情是，你可能只是谷歌像“我怎么能字符串分割成单词？ “和它的要告诉你如何做到这一点。而做到这一点的方式，它只是“行 = line.split（）“，它基本上是将会给你一个列表每个在这里的话。有道理？所以，现在我这样做，我想知道谁是那首歌的歌手。要做到这一点我必须得到数组的第一个元素，对不对？所以，我只能说我“歌手 =行（0）“有道理？ >> 然后我需要做的是，首先所有，我要更新多少也就是说我有下“加加”。所以我只是要计算多少字我在这个列表中，右键？因为这是我多少字有在歌词中，我只是要将它添加到“加加”阵列。这是否有道理？太不注重语法。多思考的概念。这是最重要的部分。确定。 >> 因此，我可以做到这一点的是，如果“加加”是已经在该列表中，因此“如果歌手在话“，这意味着我已经由加加有话。我只是想添加额外的是这个意思。所以，我要做的就是“字（歌手） + = LEN（线路） - 1“。然后我可以做的长行。那么有多少个元素我在阵列中。而我所要做的零下1只是因为该阵列的第一个元素是刚一个歌手，这些都不是歌词。有道理？确定。 >> “否则，”这意味着我要实际加加插入到列表中。所以，我只是做“字（歌手） = LEN（线路） - 1，“对不起。因此，两者之间的唯一区别行的是，这一次，它不还存在，所以我只是初始化它。这其中实际上，我加入。确定。因此，这是增加的话。 >> 现在我想添加到先验。所以，我怎么计算先验？先验概率可以计算通过多少次。你这么有多少次看到歌手在所有的歌手，你的有，对不对？因此，对于Gaga和凯蒂·佩里，在这种情况下，我看到加加一次，Katy Perry的一次。 >> 所以基本上是先验的加加和凯蒂·佩里会仅仅是一个，对不对？你有多少次我看到了艺术家。所以这是很容易计算。我可以只是一些类似，像“如果歌手先验，“我只是去加入1〜他们的先验箱。所以，“先验（唱）”+ = 1“，然后”其他“ 我该怎么办“先验（歌手） = 1“。有道理？ >> 所以，如果它不存在，我只是把为1，否则我只加1。好了，现在所有的，我已经离开办也是每个单词添加到概率。所以，我必须指望有多少次我看到每个单词。所以，我只是需要做的另一 for循环中的行。 >> 我要去这样做的第一件事就是检查的歌手已经有概率数组。所以我检查，如果歌手不有一个概率的数组，我只是要初始化一个用于它们。它甚至不是一个数组，对不起，这是一本字典。所以歌手的概率是怎么回事是一个开放的字典，所以我只是初始化字典吧。好不好？ >> 现在我可以真正做一个for循环计算每个单词' 概率。确定。因此，我所能做的就是一个for循环。所以我只是去遍历在阵列。这样我可以做到这一点在Python的方式是“因为我在范围内。”从1 因为我要开始第二元件，因为第一个是歌手名。所以从1至长行。当我做它的范围实际上从去喜欢这里从1到的LEN 行减1。所以它已经这样做这样做的那件事 Ñ减1为数组，这是非常方便。有道理？ >> 因此，对于每一个这些，有什么我要去做的是，就像在另外一个，我要检查，如果在这个字在该线的位置已在概率。然后我说在这里，概率也就是说，在我把 “概率（歌手）”。这样的歌手的名字。所以，如果它已经在 “probabilit（歌手）”，这意味着我要加1，所以我要去做“的概率（歌手）”，以及字被称为“线（一）”。我要加1和“其他”我只是将它初始化为1。 “行（一）”。有道理？ >> 所以，我计算出的所有阵列。所以，现在的一切，我所要做的这个人是刚刚“回归先验，概率和单词。“让我们看看是否有任何好不好。似乎一切工作至今。所以，这是有道理的？以某种方式？确定。所以，现在我把所有的可能性。所以，现在我已经离开的唯一的事只是有这种事情，计算出的所有产品当我拿到歌词的概率。 >> 因此，让我们说，我想现在打电话这个功能“分类（）”和东西函数接受只是一个说法。比方说，“宝贝，我着火了”，它的要弄清楚什么是概率，这是加加？这是概率这是凯蒂？听起来不错？所以我只是将不得不创建一个所谓的新功能“分类（）”和它会采取一些歌词也是如此。而除了歌词我也有送先验的概率和单词。所以我打算送歌词，先验，概率的话。 >> 因此，这是采取的歌词，先验，概率的话。那么，它有什么作用？它基本上是要通过所有可能的候选人，你有作为一名歌手。和那些人在那里候选人？他们是在先验，对不对？所以，我有所有这些存在的。所以，我要准备一本字典所有可能的候选人。然后在每个候选先验概率，因此它意味着它要是加加，凯蒂如果我有更会比较。我要开始计算这个概率。正如我们在看到的概率 PowerPoint是事先倍每一个的产品其他可能性。 >> 所以，我在这里可以这样做。我可以做的是概率刚开始之前。因此，先验的候选人。对不对？现在我不得不遍历所有的我有在歌词是词能够添加的概率为他们每个人，好不好？因此，“为字的歌词”我什么都做的是，如果该字是在 “概率（候选人）”，这也就是说，它是一个字的候选人在他们的歌词 - 例如，“婴儿”的加加 - 我现在要做的是，概率将被乘以由加的概率1 候选人的那个词。它被称为“字”。这除以单词数我对那个候选人。字的总数，我有对于我期待的歌手。 >> “否则”。这意味着它是一个新词所以它会像例如 “火”的Lady Gaga的。所以，我只想做超过1 “字（候选人）”。所以，我不希望把这个词在这里。 >> 所以它的将是基本复制并粘贴此。但我要删除这部分。所以它只是将是1比那。听起来不错？现在到了最后，我只是要印上候选人的名字和你有概率在他们的歌词有标。有道理？我其实不连需要这本词典。有道理？ >> 所以，让我们看看这个实际工作。所以，如果我运行这个，也没有工作。等待一秒钟。 “言（候选人）”，“字（候选人）”，这是该数组的名称。好了，所以，它说，有一些bug 候选的先验。让我冷静下来一点点。确定。让我们试试。确定。 >> 所以，它给了凯蒂·佩里有这个在此乘以10的概率减去7，和加加有这个乘以10的负6。所以你看它表明加加具有更高的概率。因此，“宝贝，我在火”是可能是Gaga的歌。有道理？所以这就是我们所做的。 >> 此代码将被发布到网上，所以你们可以检查出来。也许用一些它，如果你想做项目或类似的事情。确定。这只是为了显示怎样计算语言学的代码如下所示。但是，现在让我们去更多高层次的东西。确定。 >> 因此，其他的问题我说的是 - 分割问题是第一人。所以，你必须在这里的日本。然后就看到了有没有空格。因此，这基本上意味着它椅子的顶部，对不对？你说日语吗？这是椅子的顶部，对不对？ >> 学生：我不知道是什么汉字那边。 >> LUCAS FREITAS：这是[操日语] 确定。所以它基本上意味着顶部的椅子。所以，如果你不得不把一个空间这将是在这里。然后你有[？上田山。？] 这基本上意味着上田先生。而你看到的“田”和你有一个空间，然后“圣”。所以你看到，在这里你“UE”就像本身。在这里，它有一个字符在它旁边。 >> 所以它不像这些语言字义的单词，这样你刚刚投入了大量的空间。字符之间的相互关系。他们能在一起像二，三，一。所以，你实际上必须建立某种的方式把这些空间。 >> 而这件事情是，每当你得到从这些亚洲语言的数据，一切都无节。因为没有人谁写日本还是中国写为空格。当你在写中国，日本你刚才写的一切没有空格。它甚至没有任何意义把空间。这样的话，当你从得到的数据，一些东亚语言，如果你想其实做一些与你必须先分段。 >> 认为这样做的实例中的不带空格的歌词。所以，你拥有的唯一歌词将句子，对不对？用句点分隔。但是刚走了句会没有真正在给予信息帮助是谁的歌词是由。对不对？所以，你应该首先将空间。你那么如何才能做到这一点？ >> 所以后来谈到语言的想法模型这是真的东西用于计算重要语言学。所以一个语言模型基本上是一个表概率的表演首先什么是概率具有一种语言的单词？那么如何展示频繁的一句话就是。然后还展示了关系在一个句子中词与词之间。 >> 所以主要的想法是，如果一个陌生人来到给你说了一句话你，什么是概率，对于例如，“这是我妹妹[？GTF”？] 是那句话的人说的吗？所以，很显然有些句子比其他人更常见。例如，“早上好”或“好晚上，“或”嘿，“得多比最常见的句子我们有一个英语。那么，为什么那些句子更频繁？ >> 首先，这是因为你有话是更频繁。因此，举例来说，如果你说，狗是大，而狗是巨大的，你通常可能听到狗是大更多的时候，因为“大”更频繁的英语不是“巨大”。所以，1的事情是这个词的频率。 >> 这是真正的第二件事重要的仅仅是顺序的话。所以，经常会说“猫是里面的箱子。“但你通常不见“盒子里面是猫。”所以你看，有一些重要中的词的顺序。你不能只是说，这两个句子具有相同的概率仅仅是因为他们具有相同的话。实际上，你要关心关于秩序良好。有意义吗？ >> 那么，我们该怎么办？所以我可能会尝试帮你吗？我试图让你我们调用的n-gram模型。所以，一个n-gram模型的基本假设对于每个字你在一个句子里。它具有的概率字不仅有依赖于频率在语言文字的，同时也对词都围绕着它。 >> 因此，举例来说，通常当你看到像上或在你可能会看到一个名词之后，对不对？因为当你有一个介词通常它需要后一个名词。或者如果你有一个动词是及物动词你通常要有一个名词短语。因此，这将有一个名词围绕它的地方。 >> 所以，基本上，它的作用在于，它认为具有的概率话彼此相邻，当你的计算概率句子。而这正是一种语言模型基本上是。只是说有什么可能性的具有特定句子的语言？那么，为什么是有用的，基本上是？并首先什么是一个n-gram模型，然后呢？ >> 所以，一个n-gram模型意味着，每个字取决于接下来的N减1的话。所以，基本上，这意味着如果我看起来，例如，在CS50 TF时我计算的概率这句话，你会像“ 具有单词“the”的概率具有次的概率“的具有CS50“时间的概率 “该CS50 TF。”所以，基本上，我算伸展它的所有可能的方式。 >> 然后通常当你这样做，作为一个项目，你把电量为一个低的值。所以，通常有双字母组或卦。所以，你只算两个词，一个组两个词，或者三个字，只为性能问题。也因为也许如果你有像“的CS50 TF。”当你有“TF”，这是非常重要的， “CS50”是在它旁边，对不对？这两件事通常是彼此相邻。 >> 如果你觉得“TF”，它可能将有哪些类它TF'ing的。也是“”真的很重要为CS50 TF。但是，如果你有一些像“CS50 TF去上课，并给了他们学生们一些糖果。“”糖果“和”the“ 没有关系真的，对不对？他们是彼此如此遥远的它并不真正的问题是什么也就是说你有。 >> 所以，做一个两字或卦，它只是意味着你限制自己的一些话这是各地。有意义吗？所以，当你想要做的分割，基本上，你想要做什么见什么都是可能的方式，你可以分段的句子。 >> 这样，你看到的是什么每个句子的概率现有的语言吗？所以，你做什么就好了，好了，让我试图把一个空间在这里。所以，你把一个空间有和你看到的是什么那句话的概率是多少？那么你是喜欢，好吧，也许这不太好。所以我把一个空间有一个空格在那里，你的计算概率现在，你看到这是一个更高的概率。 >> 所以，这就是所谓的TANGO的算法分割算法，这是实际的东西，会是真的凉爽的项目，该项目基本上采取不分段全文可能是日本人还是中国人也许英语没有空格，并试图把字和它之间的空间通过使用一个语言模型，并想看看是最高的概率可以得到。确定。因此，这是分割。 >> 现在的语法。这样，句法被用于这么多东西现在。因此，对于图搜索，对于Siri的供几乎任何类型的自然语言处理你。那么什么是重要的有关语法的东西呢？因此，句子一般有就是我们所说的成分。这是一种像组词有在句中的功能。他们不能真正彼此分开。 >> 所以，如果我说，例如，“劳伦爱米洛。“我知道，”劳伦“是一个成分，然后“爱米洛“也是一个又一个。因为你不能说像“劳伦米洛喜欢“具有相同的含义。它不会有相同的含义。或者，我不能说像“米洛·劳伦爱。“不是任何事物都有相同的这意味着这样做。 >> 因此，这两个更重要的事情语法是词法类型是基本的功能，你自己有话。所以，你要知道，“劳伦” 与“米洛”都是名词。 “爱”是一个动词。第二重要的是他们是短语的类型。所以，你知道，“爱米洛” 实际上是一个口头短语。所以，当我说“劳伦，”我知道，劳伦是做什么的。她在干什么？她爱米洛。所以这是一个整体的东西。但它的成分是一个名词和一个动词。但同时，他们提出了一个动词短语。 >> 所以，我们可以真正做计算语言学？所以，如果我有东西，例如 “朋友佳佳的。”我认为如果我只是没有一个语法树我想知道 “朋友”是一个名词短语是 “艾里逊的”名词，然后是 “的”介词短语在这一个主张和“佳佳”是一个名词。有什么我可以做的是教给我的电脑当我有一个名词短语之一，然后一个介词短语。所以在这种情况下，“朋友”，然后“ 米洛“我知道这意味着 NP2，第二个，拥有NP1。 >> 所以，我可以创造某种关系，某种功能吧。所以每当我看到这个结构，正好与“朋友的匹配佳佳，“我知道佳佳拥有朋友。所以，朋友们的东西佳佳了。有道理？因此，这基本上是什么图搜索一样。它只是创建规则对于很多事情。所以，“朋友阿利森的”，“我的朋友们谁住在剑桥“，”我的朋友们谁去哈佛。“它创造规则对于所有这些事情。 >> 现在的机器翻译。因此，机器翻译也一些统计。而实际上，如果你涉足计算语言学，很多你的东西将是统计数据。所以当我在做的例子有有很多可能性的，我是计算，然后你到这个极少数这是最后的概率，这就是给你答案。机器翻译还使用统计模型。如果你要考虑机器的翻译在最简单的可能顺便问一下，你能想到的仅仅是翻译一字一句，对不对？ >> 当你学习一门语言的第一次，这通常是什么你这样做，对不对？如果你想你翻译一个句子在你的语言的语言你正在学习，通常首先，你翻译的每个字个别地，然后尝试把单词到位。 >> 所以，如果我想翻译这个， [发言葡萄牙语] 这意味着“白猫跑掉了。” 如果我想从翻译葡萄牙语到英语，我可以做的是，第一，我只是逐字翻译单词。因此，“O”是“，”“加托”，“猫” “布兰科”，“白”，然后“fugio”是 “跑了。” >> 于是我把所有的话在这里，但他们不是为了。这就像“猫白跑了” 这是不合语法。这样的话，我可以有第二个步骤，即将要寻找的理想对于每个字的位置。所以我知道，其实我是想有 “白猫”，而不是“猫白。”所以有什么我可以做的是，最天真的方法将创建所有可能的排列字位置。然后看看哪一个具有根据概率最高我的语言模型。然后当我找到一个有概率最高的，这是可能是“白猫跑了，” 这是我的翻译。 >> 这是说明一个简单的方法怎么了很多机器翻译算法工作。这是否有道理？这也是一些真正令人兴奋的那你们也许可以探索一个最后的项目，是吗？ >> 学生：嗯，你说这是天真的方式，有啥非幼稚的方式？ >> LUCAS FREITAS：非幼稚的方式？确定。所以这是坏的第一件事这个方法是我刚翻译也就是说，一个字一个字。但有时你必须说的话可以有多种译文。我会尽量想的东西。例如，在葡萄牙可以“漫画” 要么是“裂伤”或“套筒”。所以当你试图翻译单词通过文字，它可能给你东西是没有意义的。 >> 所以，你其实是要你在所有的可能的翻译单词和看，首先，什么是顺序。我们都在谈论permutating 事情？要查看所有可能的订单，选择一个具有最高概率是多少？您也可以选择所有可能的翻译每个单词，然后看 - 结合的排列 - 哪一个具有最高的概率。 >> 另外，你也可以看看不只字，但短语。这样你就可以分析之间的关系这些词汇，然后得到一个更好的翻译建议。另外别的东西，所以这学期实际上，我在做研究中国英语机器翻译，从这么翻译中国成英文。 >> 而我们做的事情是，除了使用一个统计模型，它只是再看到的可能性在一个句子中的某个位置，我居然还加入一些语法来我模型，说，哦，如果我看到这样的建筑，这就是我想要的改变它，当我翻译。所以，你也可以添加某种语法元素以使翻译更高效和更精确。确定。 >> 所以你怎么能上手，如果你想做一下计算语言学？ >> 首先，你选择一个项目涉及语言。因此，有这么多的在那里。有这么多的事情可以做。然后可以把一个模型您可以使用。通常，这意味着思维假设，因为喜欢，呵呵，当我喜欢的歌词思维。我当时想，好吧，如果我想弄清楚出是谁写的，我可能要看的话的人使用，看看谁使用这个词非常频繁。所以尽量作出假设及再想想模型。然后你也可以在网上搜索什么样的问题，你有，而且它要建议你的模型，也许仿照那个东西好。 >> ，你也可以随时给我发电子邮件。 me@lfreitas.com。而且我可以回答你的问题。我们甚至可能会碰见这样我就可以给对方法的建议实施项目。我的意思是，如果你卷入到计算语言学，这是怎么回事是巨大的。你会看到有这么多的潜力。和业界都希望雇佣你是因为有那么糟糕。所以，我希望你们喜欢这个。如果你们有任何问题，您可以在此之后问我。但是谢谢你。