Computational Linguistics, by Lucas Freitas

>> LUCAS Freitas: Hey. მოგესალმებით ყველას. ჩემი სახელი არის Lucas Freitas. მე უმცროსი at [INAUDIBLE] სწავლობს კომპიუტერულ მეცნიერებათა ერთად აქცენტი კომპიუტერული ლინგვისტიკა. ასე რომ, ჩემი საშუალო არის ენა და ლინგვისტური თეორია. მე ნამდვილად აღფრთოვანებული გასწავლით ბიჭები ცოტა სფეროში. ეს არის ძალიან საინტერესო ნაკვეთი შესწავლა. ასევე დიდი პოტენციალი მომავალში. ასე რომ, მე ნამდვილად აღფრთოვანებული, რომ თქვენ ბიჭები გათვალისწინებით პროექტები კომპიუტერული ლინგვისტიკა. და მე ვიქნები გახარებული ვურჩევ ნებისმიერი, თუ თქვენ გადაწყვიტეთ განახორციელოს ერთ იმ. >> ასე რომ, პირველ რიგში, რა არის კომპიუტერული ენათმეცნიერების? ასე რომ, კომპიუტერული ლინგვისტიკის არის გადაკვეთაზე შორის ენათმეცნიერებისა და კომპიუტერულ მეცნიერებაში. ასე რომ, რა არის ენათმეცნიერების? რა არის კომპიუტერული მეცნიერების? კარგად ენათმეცნიერების, რა ჩვენ ვართ ენებზე. ასე რომ, ენათმეცნიერების რეალურად შესწავლა ბუნებრივი ენის კულტურას. ასე რომ, ბუნებრივი ენაზე - ჩვენ ვსაუბრობთ ენა, რომ ჩვენ რეალურად გამოიყენოთ ერთმანეთთან. ასე რომ ჩვენ ზუსტად არ ვსაუბრობთ შესახებ C ან Java. ჩვენ ვსაუბრობთ უფრო მეტი ინგლისური და ჩინურ და სხვა ენებზე, რომ ჩვენ გამოიყენოთ ერთმანეთთან. >> რთული რამ, რომ ის არის, რომ ახლა ჩვენ თითქმის 7,000 languages მსოფლიოში. ასე რომ, არსებობს საკმაოდ მაღალი სხვადასხვა ენებზე, რომ ჩვენ შეგვიძლია შესწავლა. და მაშინ ვფიქრობ, რომ ეს, ალბათ, ძალიან რთულია ამის გაკეთება, მაგალითად, თარგმანი ერთი ენიდან მეორე მხრივ, იმის გათვალისწინებით, რომ თქვენ გაქვთ თითქმის 7,000 მათგანი. ასე რომ, თუ თქვენ ფიქრობთ აკეთებს თარგმანი ერთი ენიდან მეორე თქვენ თითქმის მილიონზე მეტი სხვადასხვა კომბინაციები, რომ თქვენ შეგიძლიათ ჰქონდეს ენის ენაზე. ასე რომ, ეს მართლაც რთული დაკავდით სახის მაგალითი თარგმანი სისტემა ყოველი ენა. >> ასე რომ, ენათმეცნიერების ეპყრობა სინტაქსი, სემანტიკა, pragmatics. თქვენ ბიჭები ზუსტად არ უნდა იცოდეს, რა ისინი. მაგრამ ძალიან საინტერესო ის არის, რომ როგორც მშობლიური ენა, როდესაც თქვენ ისწავლით ენის, როგორც ბავშვი, თქვენ რეალურად სწავლობენ ყველა იმ რამ - სინტაქსი სემანტიკა და pragmatics - თავს. და არავის აქვს გასწავლით სინტაქსი თქვენ უნდა გვესმოდეს, თუ როგორ წინადადებების არის სტრუქტურა. ასე რომ, ეს მართლაც საინტერესოა, რადგან ეს რაღაც რომ მოდის ძალიან ინტუიციურად. >> და რას იღებდა დან კომპიუტერული მეცნიერების? ისე, ყველაზე მთავარია, რომ ჩვენ აქვს კომპიუტერულ მეცნიერებაში პირველ ყველა, ხელოვნური ინტელექტი და მანქანა სწავლის. ასე რომ, რასაც ჩვენ ვცდილობთ აკეთებს კომპიუტერული ლინგვისტიკის არის ასწავლიან თქვენს კომპიუტერში როგორ უნდა გავაკეთოთ რაღაც, ენის. >> ასე, მაგალითად, მანქანა თარგმანი. ვცდილობ ასწავლიან ჩემს კომპიუტერს როგორ თუ როგორ უნდა გადასვლას ერთი ენის სხვა. ასე რომ, ძირითადად მინდა სწავლება კომპიუტერი ორ ენაზე. თუ გავაკეთო ბუნებრივი ენის დამუშავება, რომელიც იმ შემთხვევაში, თუ, მაგალითად, Facebook-ის Graph ძებნა, თქვენ ასწავლიან თქვენს კომპიუტერში როგორ უნდა გვესმოდეს queries კარგად. >> ასე რომ, თუ ვთქვათ "ფოტო ჩემი მეგობარი. "Facebook არ მკურნალობა, რომ როგორც მთელი სიმებიანი რომ აქვს მხოლოდ bunch სიტყვა. რეალურად ესმის მიზეზი შორის "ფოტო" და "ჩემი მეგობარი" და ესმის, რომ "ფოტოები" არიან ქონების "ჩემი მეგობარი". >> ასე რომ, ნაწილი, მაგალითად, ბუნებრივი ენის გადამუშავება. ის ცდილობს გაიგოს, თუ რა არის შორის სიტყვა სასჯელს. და დიდი კითხვა არის, შეგიძლიათ ასწავლიან კომპიუტერის როგორ საუბრობენ ენა ზოგადად? რომელიც არის ძალიან საინტერესო კითხვა ვფიქრობ, რომ, თითქოს, შესაძლოა, მომავალში, თქვენ აპირებს შეძლებს გაიგო თქვენს მობილურ ტელეფონზე. სახის მოსწონს რას ვაკეთებთ Siri მაგრამ რაღაც უფრო, შეგიძლიათ რეალურად ამბობენ, რომ რაც გაგიხარდებათ და ტელეფონი აპირებს მესმის ყველაფერი. და მას შეუძლია თვალყური შეკითხვები და შეინახოს საუბარი. რომ რაღაც მართლაც საინტერესო, ჩემი აზრით. >> ასე რომ, რაღაც ბუნებრივი ენებზე. რაღაც ნამდვილად საინტერესო ბუნებრივი languages ის არის, რომ, და ეს არის საკრედიტო ჩემს ლინგვისტიკის პროფესორი, Maria Polinsky. იგი იძლევა მაგალითს და ვფიქრობ ეს მართლაც ძალიან საინტერესო. იმიტომ, რომ ჩვენ ვისწავლოთ ენა, როდესაც ჩვენ დაიბადა და მაშინ ჩვენი შექმნილი ენის სახის იზრდება us. >> და ძირითადად თქვენ ვისწავლოთ ენა ეხლა მინიმალური input, არა? თქვენ მხოლოდ მიღების შეიტანენ თქვენს მშობლები რა თქვენი ენა ხმები მინდა და უბრალოდ ვისწავლოთ იგი. ასე რომ, საინტერესოა, რადგან თუ გადავხედავთ იმ სასჯელს, მაგალითად. გადავხედავთ, "მერი აყენებს ქურთუკი ყველა ამჯერად იგი ტოვებს სახლს. " >> ამ შემთხვევაში, შესაძლებელია, რომ აქვს სიტყვა "მან" ეხება მერი, არა? თქვენ შეიძლება ითქვას, "მერი აყენებს ქურთუკი ყოველ ჯერზე Mary ტოვებს სახლი. "ასე რომ ჯარიმა. მაგრამ შემდეგ, თუ გადავხედავთ სასჯელი "მან აყენებს ქურთუკი ყოველ ჯერზე Mary ტოვებს სახლს. "თქვენ იცით, რომ ეს შეუძლებელია იმის თქმა, რომ "ის" არის მხედველობაში მერი. >> არ არსებობს გზა, რომ "მერი აყენებს on ქურთუკი ყოველ ჯერზე Mary ტოვებს სახლი. "ასე რომ საინტერესოა, რადგან ეს არის ერთგვარი ინტუიცია რომ ყოველ მშობლიური აქვს. და არავინ ასწავლიდა, რომ ეს არის ისე, რომ სინტაქსი მუშაობს. და რომ თქვენ შეგიძლიათ მხოლოდ ეს "ის" მხედველობაში Mary ამ პირველ შემთხვევაში, და რეალურად ამ სხვა ძალიან, მაგრამ არა ამ ერთი. მაგრამ ყველა სახის იღებს იგივე პასუხი. ყველა თანხმდება, რომ. ასე რომ, ეს მართლაც საინტერესოა, როგორ თუმცა თქვენ არ იცით ყველა წესები თქვენს ენაზე თქვენ სახის მესმის, როგორ ენაზე მუშაობს. >> ასე რომ საინტერესო რამ ბუნებრივი ენა არის ის, რომ თქვენ არ უნდა ვიცი არც სინტაქსი თუ სასჯელი არის გრამატიკული ან ungrammatical for ხშირ შემთხვევაში. რაც ფიქრობთ, რომ იქნებ რა ხდება, რომ თქვენს ცხოვრებაში, თქვენ უბრალოდ შეინახოს უფრო და უფრო წინადადებების უთხრა თქვენ. და მაშინ თქვენ გაქვთ იმახსოვრებდა ყველა სასჯელს. და მაშინ, როდესაც ვინმე გიჩვენებთ რაღაც, თქვენ გვესმის, რომ წინადადება და გადავხედავთ თქვენი ლექსიკა სასჯელს და თუ რომ განაჩენი არის. და თუ ეს იქ თქვენ ამბობენ, რომ ეს გრამატიკული. თუ ეს არ ამბობთ, რომ ეს ungrammatical. >> ასე რომ, ამ შემთხვევაში, თქვენ ვიტყოდი, oh, ასე რომ თქვენ გაქვთ უზარმაზარი ჩამონათვალი შესაძლებელია სასჯელს. და მაშინ, როდესაც გესმით წინადადება, თქვენ იცით, თუ ის გრამატიკული ან არ ეფუძნება, რომ. საქმე ისაა, რომ თუ გადავხედავთ წინადადება, მაგალითად, "The ხუთ ხელმძღვანელობდა CS50 TFs მოხარშული ბრმა octopus გამოყენებით DAPA mug. "ეს ნამდვილად არ არის სასჯელი რომ გამიგია. მაგრამ ამავე დროს, თქვენ იცით, რომ ეს საკმაოდ ბევრი გრამატიკული, არა? არ არსებობს გრამატიკული შეცდომები და შეიძლება ითქვას, რომ ეს შესაძლებელია სასჯელს. >> ასე რომ, ეს გვაფიქრებინებს, რომ, ფაქტობრივად, ისე, რომ ჩვენ ვისწავლოთ ენა არ არის მხოლოდ რომელსაც უზარმაზარი მონაცემთა ბაზა, შესაძლებელია სიტყვა ან სასჯელი, მაგრამ უფრო გაგება შორის სიტყვები იმ სასჯელს. ამჯამად რომ აზრი? ასეა, მაშინ კითხვა, სისტემაში კომპიუტერები ვისწავლოთ ენებზე? შეგვიძლია ვასწავლოთ ენის კომპიუტერი? >> ასე რომ, მოდით ვიფიქროთ, რა განსხვავებაა შორის მშობლიური ენა და კომპიუტერი. ასე რომ, რა ხდება სპიკერი? ისე, მშობლიური გაიგებს ენის ზემოქმედებისაგან იგი. როგორც წესი, მისი ადრეული ბავშვობის განმავლობაში. ასე რომ, ძირითადად, თქვენ უბრალოდ უნდა ბავშვი, და თქვენ გაქვთ საუბარი, და ეს უბრალოდ გაიგებს, როგორ საუბრობენ ენა, უფლება? ასე რომ, თქვენ ძირითადად აძლევდა შეყვანის ბავშვი. ასე რომ, მაშინ შეიძლება ითქვას, რომ კომპიუტერი შეგვიძლია გავაკეთოთ იგივე, არა? შეგიძლიათ უბრალოდ მისცეს ენა როგორც შეყვანის კომპიუტერს. >> მაგალითად bunch of ფაილი რომ აქვს წიგნი ინგლისურ ენაზე. შესაძლოა, რომ ერთი გზა, რომ თქვენ შეიძლება ასწავლიან კომპიუტერული English, არა? და რეალურად, თუ ფიქრობთ ამის შესახებ, იგი მოგაწვდით იქნებ რამდენიმე დღის წაიკითხეთ წიგნი. კომპიუტერი სჭირდება მეორე შევხედოთ ყველა სიტყვა წიგნი. ასე რომ თქვენ შეგიძლიათ ვფიქრობ, რომ შეიძლება მხოლოდ ამ არგუმენტი შეიტანენ თქვენს გარშემო, ეს არ არის საკმარისი იმისათვის, რომ ვთქვათ, რომ ეს არის ის, რაღაც, რომ მხოლოდ ადამიანს შეუძლია გააკეთოს. შეგიძლიათ წარმოიდგინოთ, კომპიუტერი ასევე შეგიძლიათ მიიღოთ შეყვანა. >> მეორე ის არის, რომ შექმნილი მშობლიურ ასევე აქვს ტვინის, რომ აქვს ენის შესწავლის შესაძლებლობა. მაგრამ თუ ფიქრობთ ამის შესახებ, ტვინის არის კარგი რამ. როცა დაიბადა, ის უკვე შექმნილია - ეს არის თქვენი ტვინის. და როგორც თქვენ იზრდებიან, თქვენ უბრალოდ მეტი შეყვანის ენაზე და იქნებ ნუტრიენტები და სხვა პერსონალი. მაგრამ საკმაოდ ბევრი თქვენი ტვინის არის კარგი რამ. >> ასე რომ, შეიძლება ითქვას, ასევე, შესაძლოა, თქვენ შეგიძლიათ აშენება კომპიუტერი, რომელსაც აქვს bunch of ფუნქციები და მეთოდები, რომ მხოლოდ mimic ენის შესწავლის შესაძლებლობა. ასე რომ, ამ თვალსაზრისით, თქვენ შეიძლება ითქვას, ასევე, მე შეიძლება ჰქონდეს კომპიუტერი, რომელსაც აქვს ყველა რამ უნდა ვისწავლოთ ენაზე. და ბოლო ისაა, რომ შექმნილი სპიკერი გაიგებს სასამართლო და შეცდომა. ასე რომ, ძირითადად ერთი მნიშვნელოვანი რამ ენის შემსწავლელი არის, რომ თქვენ ერთგვარი საქართველოს ვისწავლოთ რამ, რაც დისკუსია, თუ რა გესმით. >> ასე რომ, როგორც თქვენ იზრდება იცით, რომ ზოგიერთი სიტყვები უფრო არსებითი, ზოგიერთი სხვა პირობა ზედსართავები. და თქვენ არ უნდა ჰქონდეს რაიმე ცოდნა ლინგვისტიკის უნდა გვესმოდეს, რომ. მაგრამ უბრალოდ ვიცი, არსებობს გარკვეული სიტყვები პოზიციონირებული გარკვეული ნაწილი წინადადება და ზოგი სხვა ნაწილების სასჯელს. >> და რომ, როდესაც თქვენ, რომ რაღაც ისევე როგორც სასჯელი, რომ არ არის სწორი - იქნებ იმიტომ, რომ ზედმეტად განზოგადება მაგალითად. შესაძლოა, როდესაც თქვენ იზრდებიან, თქვენ შეამჩნევთ რომ მრავლობითი, როგორც წესი, ჩამოყალიბდა აყენებს S at ბოლოს სიტყვა. და მაშინ ცდილობენ გააკეთონ მრავლობითი "ირმის", როგორც "ირმები" ან "კბილი", როგორც "Tooths". ასე რომ თქვენი მშობლები ან ვინმე შეასწორებს თქვენ და ამბობს, არა, მრავლობითი "ირმის" არის "ირმის", და მრავლობითი "კბილის" არის "კბილი". და შემდეგ თქვენ ვისწავლოთ იმ რამ. ასე, რომ თქვენ ვისწავლოთ სასამართლო და შეცდომა. >> მაგრამ ასევე შეგიძლიათ გააკეთოთ, რომ კომპიუტერი. თქვენ შეგიძლიათ რაღაც მოუწოდა გამაგრება სწავლება. რომელიც ძირითადად მოსწონს მიცემა კომპიუტერული ჯილდო, როცა ეს ასეა, რაღაც სწორად. და ვაძლევთ მას საპირისპირო ჯილდო და როდესაც იგი აკეთებს რაღაც. თქვენ შეგიძლიათ რეალურად ვხედავთ, რომ თუ to Google Translate და თქვენ ცდილობენ თარგმნა წინადადება, რომ მოგთხოვთ კავშირი. ასე რომ, თუ თქვენ ამბობთ, oh, არსებობს უკეთესი თარგმანი ამ სასჯელს. შეგიძლიათ ჩაწეროთ ეს და შემდეგ თუ ბევრი ადამიანი შენარჩუნება და განაცხადა, რომ უკეთესი თარგმანი, უბრალოდ გაიგებს, რომ ის უნდა გამოვიყენოთ, რომ თარგმანი ნაცვლად ერთი ეს აძლევდა. >> ასე რომ, ეს ძალიან ფილოსოფიური კითხვა თუ კომპიუტერი იქნება შეუძლია გაიგო თუ არა მომავალში. მაგრამ მე დიდი იმედი, რომ მათ შეუძლიათ უბრალოდ ეფუძნება იმ არგუმენტები. მაგრამ ეს მხოლოდ უფრო ფილოსოფიური კითხვა. >> ასე რომ, ხოლო კომპიუტერები ჯერ კიდევ ვერ გაიგო, რა არის ის, რაც ჩვენ შეგვიძლია გავაკეთოთ? რამდენიმე მართლაც მაგარი რამ არის მონაცემთა კლასიფიკაცია. ასე, მაგალითად, თქვენ ბიჭები ვიცი რომ ელექტრონული ფოსტის მომსახურების გავაკეთოთ, რომ მაგალითად, spam ფილტრაცია. ასე რომ, როდესაც თქვენ მიიღებთ spam, ის ცდილობს, რათა გავფილტროთ სხვა ყუთში. ასე რომ, თუ იგი ამის გაკეთება? ეს იმას არ ნიშნავს რომ კომპიუტერი მხოლოდ იცის რა ელფოსტა გაგზავნის spam. ასე რომ, ეს უფრო საფუძველზე შინაარსი გაგზავნა, ან იქნებ სათაური ან შესაძლოა, რამდენიმე ნიმუში, რომ თქვენ გაქვთ. >> ასე რომ, ძირითადად, თუ რა შეგიძლიათ გააკეთოთ ბევრი მონაცემები წერილებს, რომლებიც spam, წერილებს, რომლებიც არ არიან spam, და გაიგოთ სახის ნიმუში გაქვთ პირობა, რომ spam. და ეს არის ნაწილი გამოთვლითი ლინგვისტიკა. ეს მოუწოდა მონაცემები კლასიფიკაცია. და ჩვენ რეალურად აპირებს ვხედავ მაგალითი, რომ მომდევნო სლაიდები. >> მეორე ის არის ბუნებრივი ენა დამუშავება, რომელიც არის ის, რომ Graph ძებნა აკეთებს გაქირავების წერთ სასჯელს. და ის ენდობა გესმით რა მნიშვნელობა და აძლევს თქვენ უკეთესი შედეგი. რეალურად, თუ Google ან Bing და თქვენ მოძებნოთ რაღაც Lady გაგა სიმაღლე, თქვენ რეალურად აპირებს მიიღოს 5 '1 "ნაცვლად ინფორმაცია მისი, რადგან იგი რეალურად ესმის რაც თქვენ ვსაუბრობთ. ასე რომ, ნაწილი ბუნებრივი ენის გადამუშავება. >> ან ასევე, როდესაც თქვენ იყენებთ Siri, პირველი თქვენ გაქვთ ალგორითმი, რომელიც ცდილობს თარგმნოს თუ რას ამბობდა შევიდა სიტყვა, ტექსტში. და მაშინ იგი ცდილობს თარგმნოს რომ შევიდა მნიშვნელობა. ისე, რომ ყველა ნაწილი ბუნებრივი ენის გადამუშავება. >> მაშინ თქვენ გაქვთ მანქანური თარგმანი - რომელიც რეალურად ერთი ჩემი რჩეულები - რომელიც მხოლოდ თარგმნიან დან ენიდან მეორეზე. ასე რომ თქვენ შეგიძლიათ ვფიქრობ, რომ როდესაც თქვენ აკეთებთ მანქანური თარგმანი, თქვენ უნდა უსასრულო შესაძლებლობები სასჯელს. ასე რომ არ არსებობს გზა უბრალოდ შენახვა ყოველი თარგმანი. ასე რომ თქვენ უნდა ამუშავება საინტერესო ალგორითმები შეძლებს თარგმნა ყველა ერთი განაჩენი რამდენიმე გზა. >> თქვენ ბიჭები გაქვთ რაიმე შეკითხვები აქამდე? არა? OK. >> ასე რომ, რასაც ჩვენ ვაპირებთ ვხედავ დღეს? პირველ რიგში, მე ვაპირებ ვისაუბრო კლასიფიკაციის პრობლემა. ასე რომ, ერთი, რომ მე ვიყავი ამბობს spam. რა მე ვაპირებ რომ გააკეთოთ, არის, თუ გავითვალისწინებთ სიმღერები სიმღერა, შეგიძლიათ ცდილობენ გაერკვნენ მაღალი ალბათობა ვინ არის მომღერალი? ვთქვათ, რომ მე სიმღერა Lady გაგა და Katy Perry, თუ მე მოგცემთ ახალი სიმღერა, შეგიძლიათ გაერკვნენ, თუ ეს Katy Perry და Lady Gaga? >> მეორე, მე უბრალოდ აპირებს გაიგო შესახებ სეგმენტაციის პრობლემა. ასე რომ, მე არ ვიცი, თუ ბიჭები ვიცი, მაგრამ ჩინური, იაპონური, სხვა აღმოსავლეთ აზიის ენებზე, და სხვა ენებზე ზოგადად, არ აქვს ფართები შორის სიტყვა. და თუ ფიქრობთ ამის შესახებ, ისე, რომ თქვენს კომპიუტერში სახის ცდილობს მესმის ბუნებრივი ენის დამუშავება, იგი უყურებს სიტყვა და ცდილობს მესმის ურთიერთობები მათ შორის, არა? მაგრამ შემდეგ, თუ თქვენ გაქვთ ჩინური, და თქვენ ნულოვანი ფართები, ეს მართლაც რთული გაირკვეს, თუ რა ურთიერთკავშირი არსებობს დღეს სიტყვები, რადგან მათ არ აქვთ სიტყვა პირველი. ასე, რომ თქვენ უნდა გავაკეთოთ რაღაც მოუწოდა სეგმენტაცია რომელიც მხოლოდ იმას ნიშნავს აყენებს ფართები შორის, რასაც ჩვენ მინდა მოვუწოდო სიტყვები იმ ენებზე. აზრი? >> და მაშინ ჩვენ ვაპირებთ ლაპარაკი სინტაქსი. ასე რომ, უბრალოდ ცოტა ბუნებრივი ენის გადამუშავება. ის აპირებს იყოს მხოლოდ მიმოხილვა. ასე რომ, დღეს, ძირითადად, რა მინდა არის მოგცემთ ბიჭებს ცოტა შიგნით რა შესაძლებლობები რომ შეგიძლიათ გააკეთოთ გამოთვლითი ლინგვისტიკა. და მაშინ დაინახავ, რა ფიქრობთ არის მაგარი შორის რამ. და იქნებ შეგიძლიათ წარმოიდგინოთ, რომ პროექტი და მოვიდა გაიგო ჩემთვის. მე და მოგცემთ რჩევებს როგორ უნდა განახორციელოს იგი. >> ასე რომ სინტაქსი იქნება ცოტა შესახებ Graph ძებნა და მანქანა თარგმანი. მე უბრალოდ აპირებს მაგალითია, თუ როგორ თქვენ შეიძლება, მაგალითად, თარგმნა რაღაც Portuguese ინგლისური. ხმები კარგი? >> ასე რომ, პირველი, კლასიფიკაციის პრობლემა. მე ვიტყვი, რომ ამ ნაწილში სემინარი იქნება ყველაზე რთული ერთი მხოლოდ იმიტომ, რომ იქ უნდა იყოს გარკვეული კოდირება. მაგრამ ეს იქნება Python. მე ვიცი, რომ თქვენ ბიჭები არ ვიცი, Python, ასე რომ, მე უბრალოდ აპირებს ასახსნელად მაღალი გახდება, რასაც მე ვაკეთებ. და თქვენ არ უნდა ნამდვილად აღელვებს ძალიან ბევრი შესახებ syntax იმიტომ, რომ რაღაც ბიჭები შეიძლება ვისწავლოთ. OK? ჟღერს კარგი. >> რა არის კლასიფიკაციის პრობლემა? ასე რომ თქვენ მოცემული ზოგიერთი სიმღერები სიმღერა, და გსურთ ვხვდები ვინც მღერის იგი. და ეს შეიძლება იყოს ნებისმიერი სახის სხვა პრობლემები. ასე რომ, ეს შეიძლება იყოს, მაგალითად, თქვენ გაქვთ საპრეზიდენტო კამპანია და თქვენ სიტყვის, და თქვენ გსურთ იპოვოთ იმ შემთხვევაში, თუ ეს იყო, მაგალითად, ობამას ან MITT Romney. ან თქვენ შეგიძლიათ აქვს bunch of წერილებს და გსურთ გაერკვნენ, თუ ისინი spam თუ არა. ასე რომ, ეს უბრალოდ კლასიფიკაციის ზოგიერთი მონაცემები ეფუძნება სიტყვები ის, რომ თქვენ იქ. >> ასე რომ ამის გაკეთება, თქვენ უნდა გარკვეული ვარაუდები. ასე რომ, ბევრი რამ კომპიუტერული ლინგვისტიკის მიღების ვარაუდები, როგორც წესი, smart ვარაუდები, რომ თქვენ შეგიძლიათ მიიღოს კარგი შედეგები. ცდილობს შექმნას მოდელი მას. და შემდეგ ცდილობენ გარეთ და თუ მუშაობს, თუ ეს გაძლევთ კარგი სიზუსტით. და თუ ეს ასეა, მაშინ თქვენ ცდილობენ გააუმჯობესოს ის. თუ ეს არ, თქვენ, როგორიცაა, OK, იქნებ მე უნდა მიიღოს სხვადასხვა ვარაუდი. >> ასე რომ ვარაუდი, რომ ჩვენ ვაპირებთ ის არის, რომ ხელოვანი, როგორც წესი, მღერის შესახებ თემა რამდენჯერმე, და იქნებ იყენებს სიტყვა რამდენჯერმე მხოლოდ რადგან ისინი გამოიყენება იგი. შეგიძლიათ უბრალოდ ფიქრობთ, თქვენი მეგობარი. დარწმუნებული ვარ, ბიჭები ყველა მეგობრები რომ ვთქვათ, მათი ხელმოწერის ფრაზა ფაქტიურად ყველა ერთი წინადადება - ისევე როგორც გარკვეული სიტყვა ან კონკრეტული ფრაზა, რომ ვთქვა, ყოველი სასჯელი. >> და რა შეიძლება ითქვას, ის არის, რომ თუ ხედავთ წინადადება, რომ აქვს ხელმოწერა ფრაზა, შეგიძლიათ ვფიქრობ, რომ, ალბათ, თქვენი მეგობარი არის ერთი, რომ ეს, არა? ასე, რომ თქვენ მიიღოს, რომ ვარაუდი და შემდეგ ეს არის ის, თუ როგორ შექმნათ მოდელი. >> მაგალითად, მე ვაპირებ მისთვის არის როგორ Lady Gaga, მაგალითად, ადამიანი ამბობენ, რომ იგი იყენებს "baby" ამისთვის ყველა მისი ნომერ სიმღერები. და რეალურად ეს არის ვიდეო, რომელიც გვიჩვენებს, მას განაცხადა, რომ სიტყვა "ბავშვი" და სხვადასხვა სიმღერები. >> [ვიდეო აღწარმოების] >> - (სიმღერა) Baby. Baby. Baby. Baby. Baby. Babe. Baby. Baby. Baby. Baby. >> [END ვიდეო აღწარმოების- >> LUCAS Freitas: ასე რომ, ვფიქრობ, 40 სიმღერები აქ, რომელშიც იგი ამბობს, რომ სიტყვა "ბავშვი". ასე რომ თქვენ შეგიძლიათ ძირითადად ვხვდები იმ შემთხვევაში, თუ ხედავთ სიმღერა რომ აქვს სიტყვა "ბავშვი," არსებობს გარკვეული მაღალი ალბათობა იმისა, რომ ეს ლედი გაგა. მაგრამ მოდით ცდილობენ განავითარონ კიდევ უფრო ფორმალურად. >> ასე რომ ეს არის სიმღერები სიმღერები ლედი გაგა და Katy Perry. ასე, რომ თქვენ შევხედოთ ლედი გაგა, ხედავთ, აქვს ბევრი შემთხვევები "baby" ბევრი შემთხვევები "გზა". და შემდეგ Katy Perry აქვს უამრავი შემთხვევები "" ბევრი შემთხვევები "ცეცხლი". >> ასე რომ, ძირითადად, რაც ჩვენ გვსურს გავაკეთოთ არის, თქვენ ლირიკული. ვთქვათ, რომ თქვენ ლირიკული აქვს სიმღერა რომ არის "baby", მხოლოდ "ბავშვი." იმ შემთხვევაში, თუ თქვენ უბრალოდ სიტყვა "ბავშვი" და ამ ყველა მონაცემები, რომ თქვენ გაქვთ ეხლა ლედი გაგა და Katy Perry, რომელიც თქვენ გამოიცანით არის ადამიანი რომელიც მღერის სიმღერას? Lady Gaga ან Katy Perry? ლედი გაგა, არა? იმიტომ, რომ ის ერთადერთია, ვინც ამბობს, რომ "ბავშვი". ეს ჟღერს სულელური, არა? OK, ეს ნამდვილად არ არის ადვილი. მე უბრალოდ ეძებს ორი სიმღერა და რა თქმა უნდა, ის ერთადერთი, რომელსაც აქვს "ბავშვი". >> მაგრამ რა, თუ თქვენ გაქვთ bunch of სიტყვები? თუ თქვენ გაქვთ ფაქტობრივი lyric, რაღაც როგორიცაა, "ბავშვი, მე, უბრალოდ, წავიდა ვხედავ [? CFT?] ლექცია "ან რამე მაგდაგვარს და მაშინ რეალურად უნდა გაერკვნენ, - საფუძველზე ყველა იმ სიტყვებით - ვინ არის მხატვარი, რომელმაც, ალბათ, მღეროდა ამ სიმღერას? მოდით ცდილობენ განავითარონ ეს ცოტა უფრო. >> OK, ასე რომ მხოლოდ მონაცემები, რომ ჩვენ მიიღო, როგორც ჩანს, გაგა, ალბათ, მომღერალი. მაგრამ როგორ შეიძლება ჩვენ წერენ ეს უფრო ფორმალურად? და იქ იქნება პატარა ცოტა სტატისტიკა. ასე რომ, თუ დაკარგა, უბრალოდ ცდილობენ მესმის კონცეფცია. არ აქვს მნიშვნელობა, თუ გესმით განტოლებათა კარგად. ეს ყველაფერი იქნება ონლაინ რეჟიმში. >> ასე რომ, ძირითადად, რაც მე გაანგარიშების არის ალბათობა იმისა, რომ ეს სიმღერა არის Lady Gaga იმის გათვალისწინებით, რომ - ასე რომ, ეს ბარი ნიშნავს რომ - ვნახე სიტყვა "ბავშვი". ამჯამად რომ აზრი? ასე რომ, მე ვცდილობ რომ გამოვთვალოთ რომ ალბათობა. >> ასე არ არის, ეს თეორემა ეწოდება Bayes თეორემა, რომელიც ამბობს, რომ ალბათობა მოცემული B არის ალბათობა B მოცემული, ჯერ ალბათობა, მეტი ალბათობა ბ ეს არის ხანგრძლივი განტოლება. მაგრამ ის, რაც თქვენ უნდა გვესმოდეს, ეხლა რომ არის, რომ ეს არის ის, რაც მე მინდა გამოთვლა, არა? ამიტომ ალბათობა იმისა, რომ ეს სიმღერა არის Lady Gaga რომ ვნახე სიტყვა "ბავშვი". >> და ახლა რა მე მისაღებად არის ალბათობა სიტყვა "ბავშვი" გადაეცა რომ მაქვს ლედი გაგა. და რა არის, რომ ძირითადად? რას ნიშნავს ეს, რა არის ალბათობა ხედავს სიტყვა "ბავშვი" in Gaga სიმღერები? თუ მინდა გამოთვლა, რომ ძალიან მარტივი გზა, უბრალოდ რაოდენობის ჯერ მე ვერ ვხედავ "baby" მეტი საერთო რაოდენობის სიტყვების Gaga სიმღერები, არა? რა არის სიხშირე, რომ მე ვერ ვხედავ რომ სიტყვა Gaga-ს მუშაობა? აზრი? >> მეორე ვადით არის ალბათობა გაგა. რას ნიშნავს ეს? ეს ნიშნავს იმას, თუ რა არის ალბათობის კლასიფიკაციის ზოგიერთი სიმღერები როგორც გაგა? და ეს არის სახის უცნაური, მაგრამ მოდით ვიფიქროთ მაგალითი. მოდით ვთქვათ, რომ ალბათობა რომელსაც "Baby" სიმღერა არის იგივე განთავსების გაგა და Britney Spears. მაგრამ Britney Spears ორჯერ სხვა სიმღერები, გარდა ლედი გაგა. ასე რომ, თუ ვინმე უბრალოდ შემთხვევით გაძლევთ სიმღერები "ბავშვი," პირველი, რაც თქვენ შევხედოთ, რა არის ალბათობა რომელსაც "baby" წელს Gaga სიმღერა "Baby" წელს Britney სიმღერა? და ეს იგივე. >> ასე რომ, მეორე ის, რომ თქვენ ნახავთ არის, კარგად, რა არის ალბათობა ამ ლირიკული თავისთავად მყოფი გაგა lyric, და რა არის ალბათობა მიმდინარეობს Britney ლირიკული? ასე რომ, რადგან Britney ამდენი მეტი ლექსები გარდა გაგა, თქვენ ალბათ ვთქვათ, ისე, ეს, ალბათ, Britney ლირიკული. ასე რომ, ამიტომ ჩვენ ამ ტერმინი უფლება აქ. ალბათობა გაგა. აზრი? აკეთებს? OK. >> და ბოლოს ერთი უბრალოდ ალბათობა of "ბავშვი", რომელიც არ ნამდვილად აქვს, რომ ბევრად. მაგრამ ალბათობა ხედავს "baby" ინგლისურ ენაზე. როგორც წესი, ჩვენ არ მაინტერესებს, რომ ბევრი რომ ვადით. ამჯამად რომ აზრი? ასე რომ, ალბათობა Gaga არის ე.წ. წინასწარი ალბათობა კლასი გაგა. იმის გამო, რომ ეს მხოლოდ იმას ნიშნავს, რომ, რა არის ალბათობის მქონე, რომ კლასი - რომელიც Gaga - უბრალოდ, ზოგადად, მხოლოდ ერთად არ პირობებით. >> და მაშინ, როდესაც მე მაქვს ალბათობის გაგა მიეცეს "baby", ჩვენ მას პლუს teary ალბათობა, რადგან ის ალბათობის მქონე გაგა მოცემული ზოგიერთი მტკიცებულება. ამიტომ მე გაძლევთ მტკიცებულება რომ ვნახე სიტყვა ბავშვი და სიმღერა აზრი? OK. >> ასე რომ, თუ მე გათვლილი, რომ თითოეული სიმღერები ლედი გაგა, რა, რომ იქნება - როგორც ჩანს, ვერ გადავა ეს. ალბათობა Gaga იქნება რაღაც, 2 ზე 24 ჯერ 1/2, დაახლოებით 2 ზე 53. არ აქვს მნიშვნელობა, თუ იცით რას ეს ციფრები მოდის. მაგრამ ეს მხოლოდ იმ ნომერზე, რომელიც აპირებს უნდა იყოს უფრო მეტი ვიდრე 0, არა? >> და მაშინ, როდესაც გავაკეთო Katy Perry, ალბათობა "ბავშვი" მოცემული Katy არის უკვე 0, არა? რადგან იქ არ არის "ბავშვი" in Katy Perry. ასე რომ მაშინ ეს ხდება 0, და გაგა მოგება, რაც იმას ნიშნავს, რომ გაგა არის ალბათ მომღერალი. ამჯამად რომ აზრი? OK. >> ასე რომ, თუ მინდა, რომ ეს უფრო ოფიციალური, შემიძლია რეალურად გავაკეთოთ მოდელი მრავალი სიტყვა. მოდით ვთქვათ, რომ მაქვს რაღაც როგორიცაა: "ბავშვი ვარ, ცეცხლი, "ან რამე. ასე რომ, ეს მრავლობითი სიტყვა. და ამ შემთხვევაში, თქვენ ხედავთ, რომ "ბავშვი" არის გაგა, მაგრამ ეს არ Katy. და "ცეცხლი" არის Katy, მაგრამ ეს არ არის გაგა, არა? ასე რომ, ის მიღების trickier, არა? იმის გამო, რომ, როგორც ჩანს, თქვენ თითქმის აქვს ჰალსტუხი შორის. >> ასე რომ, ის, რაც თქვენ უნდა გააკეთოთ ვივარაუდოთ, დამოუკიდებლობის შორის სიტყვა. ასე რომ, ძირითადად, რას ნიშნავს ის არის, რომ მე მხოლოდ გამოთვლის თუ რა არის ალბათობა ხედავს "ბავშვი," რა არის ალბათობა ხედავს "მე" და "ვარ", და "ი" და "ცეცხლი" ყველა ცალკე. მაშინ მე გამრავლებით ყველა მათგანი. და მე ხედავს, რა არის ალბათობა ხედავს მთელი სასჯელი. აზრი? >> ასე რომ, ძირითადად, თუ მაქვს მხოლოდ ერთი სიტყვა, რაც მე მინდა, რომ იპოვოთ არის Arg max, რაც იმას ნიშნავს, რა არის კლასი, რომელიც არის მაძლევს მაღალი ალბათობა? რა არის კლასი, რომელიც იძლევა ჩემთვის ყველაზე დიდი ალბათობა ალბათობა დონის მოცემული სიტყვა. ასე რომ, ამ შემთხვევაში, გაგა მოცემული "ბავშვი." ან Katy მოცემული "ბავშვი." აზრი? >> და მხოლოდ Bayes, რომელიც განტოლება, რომ მე აჩვენა, ჩვენ ვქმნით ამ ფრაქცია. მხოლოდ ის არის, რომ თქვენ ხედავთ, რომ ალბათობა სიტყვა ეძლევა დონის ცვლილებები დამოკიდებულია იმ დონის, არა? ნომერი "baby" s რომ მაქვს in Gaga განსხვავდება Katy. ალბათობა დონის ასევე ცვლილებები, რადგან ეს არის მხოლოდ ნომერი სიმღერები თითოეული მათგანი აქვს. >> მაგრამ ალბათობა სიტყვა თავად იქნება იგივე მხატვრები, არა? ასე რომ, ალბათობა სიტყვა უბრალოდ, რა არის ალბათობა ვხედავთ, რომ სიტყვა ინგლისური ენის? ასე რომ, ეს იგივე ყველა მათგანი. ასე რომ, რადგან ეს არის მუდმივი, ჩვენ შეგვიძლია მხოლოდ ჩამოაგდეს და არ აინტერესებს ეს. ასე რომ, ეს იქნება რეალურად განტოლება ჩვენ ვეძებთ. >> და თუ მე რამდენიმე სიტყვა, მე ვარ კვლავ აპირებს აქვს წინასწარი ალბათობა აქ. მხოლოდ ის არის, რომ მე გამრავლებით ალბათობა ყველა სხვა სიტყვა. ამიტომ მე გამრავლებით ყველა მათგანი. აზრი? ეს გამოიყურება უცნაური, მაგრამ, ძირითადად, ნიშნავს, გამოვთვალოთ წინასწარი კლასის და მაშინ გამრავლების მიერ ალბათობა თითოეული სიტყვა, რომ ამ კლასში. >> და თქვენ იცით, რომ ალბათობა სიტყვა ეძლევა კლასი იქნება რამდენჯერმე ხედავთ, რომ სიტყვა რომ კლასი იყოფა ნომერი სიტყვა თქვენ, რომ კლასი კულტურას. აზრი? ის, თუ რამდენად "Baby" 2 მეტი სიტყვების რაოდენობა, რომელიც მქონდა სიმღერები. ასე რომ მხოლოდ სიხშირე. >> მაგრამ არსებობს ერთი რამ. მახსოვს, როგორ მე აჩვენებს, რომ ალბათობა "baby" მიმდინარეობს სიმღერები ეხლა Katy Perry 0 მხოლოდ იმიტომ, რომ Katy Perry არ აქვს "ბავშვი" საერთოდ? მაგრამ ეს ჟღერს ცოტა უხეში მხოლოდ უბრალოდ ამბობენ, რომ ლექსები არ შეიძლება იყოს მხატვარი მხოლოდ იმიტომ, რომ მათ არ აქვთ რომ სიტყვა, კერძოდ, ნებისმიერ დროს. >> ასე რომ თქვენ შეიძლება უბრალოდ, ვამბობთ, ასევე, თუ თქვენ არ აქვს ამ სიტყვას, მე ვაპირებ მოგცემთ დაბალია ალბათობა, მაგრამ მე უბრალოდ არ აპირებს მოგცემთ 0 დაუყოვნებლივ. იმის გამო, რომ იქნებ ეს იყო რაღაც, "ცეცხლი, ცეცხლი, ცეცხლი, ცეცხლი", რომელიც სრულიად Katy Perry. და შემდეგ "ბავშვი," და ეს მხოლოდ მიდის 0 დაუყოვნებლივ, რადგან არ იყო ერთი "ბავშვი". >> ასე რომ, ძირითადად თუ რას ვაკეთებთ არის ის, ე.წ. Laplace დამარბილებელი. და ეს მხოლოდ იმას ნიშნავს, რომ მე ვაძლევთ ზოგიერთი ალბათობა კი სიტყვები რომ არ არსებობს. ასე რომ, რა გავაკეთო, რომ როდესაც მე ვარ გამოთვლის ამ, მე ყოველთვის დაამატოთ 1 მრიცხველი. ისე კი, თუ სიტყვა არ არსებობს, in ამ შემთხვევაში, თუ ეს არის 0, მე მაინც საანგარიშო ეს 1 მეტი საერთო რაოდენობის სიტყვები. წინააღმდეგ შემთხვევაში, მე კიდევ რამდენი სიტყვა მაქვს მე და დაამატეთ 1. ასე რომ, მე დათვლის ორივე შემთხვევაში. აზრი? >> ახლა მოდით დაკავდით კოდირების. მე ვაპირებ უნდა გავაკეთოთ საკმაოდ სწრაფად, მაგრამ ეს მხოლოდ მნიშვნელოვანია, რომ თქვენ ბიჭებს ესმით ცნებები. ასე რომ, რასაც ჩვენ ვცდილობთ გავაკეთოთ ზუსტად შევასრულებთ რამ, რომ მე უბრალოდ განაცხადა - მინდა დააყენოს სიმღერები საწყისი ლედი გაგა და Katy Perry. და პროგრამა აპირებს შეძლებს ამბობენ, რომ თუ ეს ახალი სიმღერები არის ეხლა გაგა ან Katy Perry. აზრი? OK. >> ასე რომ, მე ამ პროგრამის მე ვაპირებ მოვუწოდებთ classify.py. ასე რომ, ეს არის Python. ეს არის ახალი პროგრამირების ენა. ეს ძალიან ჰგავს ზოგიერთი გზები C და PHP. ეს მსგავსი რადგან თუ გსურთ ვისწავლოთ Python შემდეგ იცის C, ის ნამდვილად არ არის, რომ ბევრი გამოწვევა მხოლოდ იმიტომ, რომ Python ბევრად უფრო ადვილია, ვიდრე C, პირველ რიგში. და ბევრი რამ უკვე რეალიზებულია თქვენთვის. ასე რომ, თუ რამდენად მოსწონს PHP აქვს ფუნქციები, დასალაგებლად სიაში, ან დამატება, რაღაც მასივი, ან blah, blah, blah. Python აქვს ყველა იმ ასევე. >> ამიტომ მე უბრალოდ აპირებს ახსნას სწრაფად როგორ შეგვიძლია გავაკეთოთ კლასიფიკაცია პრობლემა აქ. მოდით ვთქვათ, რომ ამ შემთხვევაში, მე მაქვს სიმღერები საწყისი გაგა და Katy Perry. ისე, რომ მე არ მაქვს იმ ლექსები არის, რომ პირველი სიტყვა სიმღერები არის სახელი მხატვარი, და დანარჩენი სიმღერები. მოდით ვთქვათ, რომ მე ამ სიაში რომელიც პირველი ლექსები გაგა. ასე რომ აქ მე ვარ სწორ გზაზე. და შემდეგი ერთი Katy და მას აქვს აგრეთვე სიმღერები. >> ასე რომ, ეს არის, თუ როგორ აცხადებენ ცვლადი Python. თქვენ არ მისცეს მონაცემები ტიპის. თქვენ უბრალოდ დაწერეთ "ლექსები" სახის მოსწონს PHP. აზრი? >> რა არის რამ, რომ მე უნდა გამოვთვალოთ შეძლებს გამოვთვალოთ ალბათობა? მე უნდა გამოვთვალოთ "Priors" თითოეული სხვადასხვა კლასების, რომ მაქვს. მე უნდა გამოვთვალოთ "posteriors" ან საკმაოდ ბევრი ალბათობების თითოეული სხვადასხვა სიტყვა, რომ შემიძლია აქვს, თითოეული მხატვარი. ასე რომ, გაგა, მაგალითად, მე ვაპირებ აქვს სია, რამდენჯერ მე ვერ ვხედავ თითოეული სიტყვა. აზრი? >> და ბოლოს, მე უბრალოდ აპირებს სიაში სახელწოდებით "სიტყვა", რომელიც მხოლოდ აპირებს აქვს რამდენი სიტყვა I ყოველი მხატვარი. ასე რომ, გაგა, მაგალითად, როდესაც ვუყურებ რომ სიმღერები, მე ვფიქრობ, რომ 24 სიტყვა შეადგენს. ასე რომ, ამ სიაში მხოლოდ აპირებს აქვს Gaga 24 და Katy სხვა ნომერზე. აზრი? OK. >> ახლა, რეალურად, მოდით წასვლა კოდირების. ასე რომ, Python, შეგიძლიათ რეალურად დაბრუნებას bunch სხვადასხვა რამ ფუნქცია. ამიტომ მე ვაპირებ, რათა შეიქმნას ამ ფუნქციის ე.წ. "პირობითი", რომელიც აპირებს დაბრუნდეს ყველა იმ რამ, "Priors", "ალბათობა," და "სიტყვა". ასე რომ "პირობითი" და ეს იქნება მოუწოდებდა შევიდა "ლექსები". >> ასე რომ, ახლა მინდა, რომ რეალურად წერენ ამ ფუნქციას. ასე რომ, ისე, რომ მე შეგიძლიათ დაწეროთ ამ ფუნქცია მე უბრალოდ განისაზღვრება ამ ფუნქციონირებას "def". ასე რომ, მე "def პირობითი, "და ის აღება "ლექსები". და რას აპირებს არის, პირველ რიგში, მე მაქვს ჩემი Priors რომ მინდა გამოთვლა. >> ასე რომ, ისე, რომ შემიძლია ამის გაკეთება არის შექმნას ლექსიკონი Python, რომელიც არის საკმაოდ ბევრი იგივე, რაც hash მაგიდა, ან ეს როგორც iterative array in PHP. ეს არის, თუ როგორ ვაცხადებ ლექსიკონი. და ძირითადად რა ეს იმას ნიშნავს, რომ Priors გაგა 0.5, მაგალითად, თუ 50% ლექსები არიან გაგა, 50% არიან Katy. აზრი? ამიტომ უნდა გაერკვნენ, თუ როგორ გამოვთვალოთ Priors. >> შემდეგი პირობა, რომ მე უნდა გავაკეთოთ, ასევე, არის ალბათობა და სიტყვები. ასე რომ, ალბათობა გაგა სია ყველა ალბათობა, რომ მე აქვს თითოეული სიტყვა გაგა. ასე რომ, თუ მე წასვლა ალბათობა გაგა "ბავშვი", მაგალითად, რომ თქვენ მაძლევს რაღაც 2 ზე 24 ამ შემთხვევაში. აზრი? ასე რომ, მე წასვლა "ალბათობა" წასვლა "გაგა" bucket რომ აქვს ჩამონათვალი გაგა სიტყვა, მაშინ მე წასვლა "ბავშვი" და მე ვხედავ ალბათობა. >> და ბოლოს, მე ამ "სიტყვა" ლექსიკონი. ასე რომ, აქ, "ალბათობა". და შემდეგ "სიტყვა". ასე რომ, თუ "სიტყვა", "გაგა" რა მოხდება არის ის, რომ აპირებს მომეცი 24, რომ მე 24 სიტყვა ფარგლებში სიმღერები საწყისი გაგა. აზრი? ასე რომ აქ, "სიტყვა" შეადგენს dah-dah-dah. OK >> მერე რა მე ვაპირებ ამის გაკეთებას, მე ვაპირებ iterate მეტი თითოეულ ლექსები, ასე რომ, თითოეული სტრიქონები, მაქვს სიაში. და მე ვაპირებ გამოთვლა იმ რამ, თითოეული კანდიდატი. აზრი? ასე რომ, მე უნდა გავაკეთოთ ამისთვის loop. >> ასე რომ, Python, თუ რა შემიძლია არის "ხაზი ამ სიმღერები. "იგივე როგორც "თითოეული" განცხადება PHP. მახსოვს, როგორ იყო თუ არა PHP შემეძლო ამბობენ, რომ "თითოეული სიმღერები, როგორც ხაზი. "აზრი? ასე რომ, მე აღების თითოეული ხაზები, ამ შემთხვევაში, ეს სიმებიანი და მომავალი string ასე რომ თითოეული ხაზი რა ვარ ვაპირებთ გავაკეთოთ არის პირველი, მე ვაპირებ გაყოფილი ამ ხაზის შევიდა სიაში სიტყვა მაქს. >> ასე cool რამ Python ის არის, რომ შეგიძლიათ უბრალოდ Google როგორიცაა "როგორ შემიძლია გაყოფილი string შევიდა სიტყვა? "და ეს ვაპირებ გითხრათ, თუ როგორ უნდა გავაკეთოთ. და გზა ამის გაკეთება, უბრალოდ "ხაზი = Line.split () "და ეს, ძირითადად, აპირებს მოგცემთ სიაში თითოეული სიტყვა აქ. აზრი? ახლა რომ მე რომ მინდა ვიცოდე ვინ არის მომღერალი, რომ სიმღერა. და გავაკეთოთ, რომ მე უბრალოდ უნდა მიიღოს პირველი ელემენტია მასივი, არა? ასე რომ, მე შემიძლია მხოლოდ ვთქვა, რომ "მომღერალი = Line (0) "აზრი? >> და მერე რა უნდა გავაკეთოთ, პირველ ყველა, მე ვაპირებ განახლება რამდენი სიტყვა მაქვს ქვეშ "გაგა". ასე რომ მე უბრალოდ აპირებს გამოთვალოთ რამდენი სიტყვა I აქვს ამ სიაში, უფლება? რადგან ეს არის რამდენი სიტყვა მაქვს ამ სიმღერები და მე უბრალოდ აპირებს დაამატოთ ეს "გაგა" მასივი. ამჯამად რომ აზრი? არ ფოკუსირება ძალიან ბევრი სინტაქსი. ვფიქრობ, რომ უფრო მეტი ცნებები. ეს არის ყველაზე მნიშვნელოვანი ნაწილი. OK. >> ასე რომ, რაც შემიძლია, ის არის, თუ "გაგა" არის უკვე, რომ სიაში, ასე რომ, "თუ მომღერალი სიტყვა "რაც იმას ნიშნავს, რომ მე უკვე აქვს სიტყვა გაგა. მე უბრალოდ მინდა, რომ დაამატოთ დამატებითი სიტყვა რომ. ასე რომ, რა გავაკეთო არის "სიტყვა (მომღერალი) + = Len (ხაზი) - 1. " და მაშინ მე შემიძლია უბრალოდ სიგრძის ხაზი. ასე რომ, რამდენი ელემენტები I აქვს მასივი. და მე უნდა გავაკეთოთ მინუს 1 მხოლოდ იმიტომ, პირველი ელემენტია მასივი მხოლოდ მომღერალი და ის არ არის ტექსტი. აზრი? OK. >> "დანარჩენი", ეს ნიშნავს, რომ მინდა რეალურად ჩადეთ Gaga შეყვანილი. ასე რომ, მე მხოლოდ "სიტყვა (მომღერალი) = Len (line) - 1, "sorry. ასე რომ ერთადერთი განსხვავება ორ ხაზები არის ის, რომ ამ ერთი, ეს არ არსებობს ჯერ კიდევ, ასე რომ მე უბრალოდ ინიციალიზაციისას იგი. ეს ერთი მე რეალურად დასძინა. OK. ასე რომ, ეს იყო და დასძინა, რომ სიტყვა. >> ახლა მინდა დაამატოთ Priors. ასე რომ, როგორ შემიძლია გამოთვლა Priors? Priors შეიძლება გამოითვლება რამდენი ჯერ. ასე რამდენჯერ თქვენ ხედავთ, რომ მომღერალი შორის მომღერლები, რომ თქვენ აქვს, არა? ასე რომ გაგა და Katy Perry, ამ შემთხვევაში, მე ვერ ვხედავ Gaga ერთხელ, Katy Perry ერთხელ. >> ასე რომ, ძირითადად Priors განთავსების Gaga და Katy Perry იქნება მხოლოდ ერთი, არა? უბრალოდ რამდენჯერ მე ვხედავ, მხატვარი. ასე რომ, ეს ძალიან ადვილია გამოთვლა. შემიძლია უბრალოდ რაღაც მსგავსი, როგორიცაა "თუ მომღერალი Priors, "მე უბრალოდ აპირებს დაამატოთ 1 მათი Priors ყუთში. ასე რომ, "Priors (მღერიან)" + = 1 "და შემდეგ" სხვაგან " მე ვაპირებ ამის გაკეთებას "Priors (მომღერალი) = 1. "აზრი? >> ასე რომ, თუ არ არსებობს მე უბრალოდ დააყენა როგორც 1, წინააღმდეგ შემთხვევაში მე უბრალოდ დაამატოთ 1. OK, ასე რომ, ახლა ყველა, რომ მე არ დაუტოვებიათ გავაკეთოთ ასევე დაამატოთ თითოეულ სიტყვები ალბათობა. ამიტომ უნდა ითვლიან რამდენჯერ მე ვხედავ თითოეული სიტყვა. ასე რომ მე უბრალოდ უნდა გავაკეთოთ ერთი for loop in ხაზი. >> ასე რომ, პირველი, რაც მე ვაპირებ გავაკეთოთ არის შეამოწმეთ თუ მომღერალი უკვე აქვს ალბათობა მასივი. ამიტომ მე შემოწმების თუ მომღერალი არ აქვს ალბათობა მასივი, მე უბრალოდ აპირებს ინიციალიზაცია ერთი მათგანი. ეს კი არ მასივი, უკაცრავად, ეს ლექსიკონი. ასე რომ, ალბათობა მომღერალი აპირებს იყოს ღია ლექსიკონი, ამიტომ მე უბრალოდ ინიციალიზებისას ლექსიკონი იგი. OK? >> და ახლა შემიძლია რეალურად გავაკეთოთ ამისთვის მარყუჟის გამოვთვალოთ თითოეული სიტყვა " ალბათობა. OK. ასე რომ, რაც შემიძლია არის ამისთვის loop. ამიტომ მე უბრალოდ აპირებს iterate მეტი მასივი. ასე რომ, ისე, რომ შემიძლია, რომ Python არის "მე სპექტრს". 1 იმიტომ, რომ მინდა, რომ დაიწყოს მეორე ელემენტის რადგან პირველი არის მომღერალი სახელი. ასე რომ, ერთი მდე სიგრძის ხაზი. და როდესაც მე დიაპაზონი რეალურად წავიდეს ისევე როგორც აქ 1 len შესახებ ონლაინ მინუს 1. ასე რომ, უკვე აკეთებს, რომ რამ აკეთებს n მინუს 1 მასივები, რომელიც ძალიან მოსახერხებელია. აზრი? >> ასე რომ თითოეული ამ, რა მე ვაპირებ გავაკეთოთ, არის, ისევე, როგორც მეორე, მე ვაპირებ შეამოწმოს თუ სიტყვა ამ პოზიცია ხაზი უკვე ალბათობა. და შემდეგ, როგორც ვთქვი, აქ ალბათობა სიტყვა, როგორც I-მა "ალბათობა (მომღერალი)". ასე რომ, საქართველოს სახელით მომღერალი. ასე რომ, თუ ეს უკვე "Probabilit (მომღერალი)", ეს ნიშნავს, რომ მე გსურთ დაამატოთ 1, ასე რომ მე ვაპირებ გავაკეთოთ "ალბათობა (მომღერალი)", და სიტყვა ეწოდება "ხაზი (i)". მე ვაპირებ, რომ დაამატოთ 1 და "სხვას" მე უბრალოდ აპირებს ინიციალიზაცია იგი 1. "Line (i)". აზრი? >> ასე რომ, მე გამოითვლება ყველა მასივები. ასე რომ, ახლა ყველა, რომ მე უნდა გააკეთოს ამ ერთი უბრალოდ "დაბრუნდება Priors, ალბათობა და სიტყვები. "მოდით თუ არსებობს რაიმე, OK. როგორც ჩანს, ყველაფერი მუშაობს ჯერჯერობით. ასე რომ, აზრი? რამდენიმე გზა? OK. ასე რომ, ახლა მე ყველა ალბათობა. ახლა ერთადერთი, რაც მე არ დაუტოვებიათ მხოლოდ აქვს, რომ, რაც ითვლის პროდუქტის ყველა ალბათობა როდესაც მივიღებ სიმღერები. >> მოდით ვთქვათ, რომ მინდა ახლა მოვუწოდებთ ეს ფუნქცია "კლასიფიცირება ()" და რამ, რომ ფუნქცია იღებს უბრალოდ არგუმენტი. ვთქვათ "Baby, მე ვარ ცეცხლი" და ეს აპირებს გაერკვნენ, თუ რა არის ალბათობა იმისა, რომ ეს არის Gaga? რა არის ალბათობა რომ ეს არის ქეთი? ხმები კარგი? ასე რომ მე უბრალოდ აპირებს უნდა შეიქმნას ახალი ფუნქცია ე.წ. "კლასიფიცირება ()" და ის აპირებს ზოგიერთი სიმღერები ასევე. და გარდა ამისა, სიმღერები ასევე უნდა გააგზავნოთ Priors, ალბათობა და სიტყვები. ამიტომ მე ვაპირებ გაგზავნას ლექსები, Priors, ალბათობა, სიტყვა. >> ასე რომ, ეს ხდება სიმღერები, Priors, ალბათობა, სიტყვა. ასე, რას აკეთებთ? ეს ძირითადად ხდება გავლა ყველა შესაძლო კანდიდატები, რომ თქვენ აქვს, როგორც მომღერალი. და სად არიან კანდიდატები? ისინი იმ Priors, არა? ასე რომ მე ყველა იმ არსებობს. ამიტომ მე ვაპირებ აქვს ლექსიკონი ყველა შესაძლო კანდიდატი. და მაშინ თითოეული კანდიდატი Priors, ასე რომ, ეს ნიშნავს, რომ ის აპირებს იყოს გაგა, ქეთი თუ მქონდა უფრო, რომ ეს იქნება უფრო. მე ვაპირებ დაიწყება გაანგარიშების ეს ალბათობა. ალბათობა, როგორც დავინახეთ PowerPoint არის წინასწარი ჯერ პროდუქტის თითოეული სხვა ალბათობა. >> ასე, რომ შეიძლება იგივეს აქ. მე შემიძლია უბრალოდ ალბათობა არის თავდაპირველად უბრალოდ ადრე. ასე რომ, Priors კანდიდატი. უფლება? და ახლა მე უნდა iterate ყველა სიტყვა, რომელიც მაქვს სიმღერები უნდა იყოს შეუძლია დაამატოთ ალბათობა თითოეული მათგანი, OK? ასე რომ, "სიტყვა in ლექსები" რა მე ვაპირებ უნდა გავაკეთოთ არის ის, თუ სიტყვა არის "ალბათობა (კანდიდატი)", რომელიც იმას ნიშნავს, რომ ეს სიტყვა, რომელიც პრეტენდენტს მათი ლექსები - მაგალითად, "ბავშვის" ამისთვის Gaga - ის, რაც მე ვაპირებ ამის გაკეთებას ის არის, რომ ალბათობა უნდა გამრავლდეს 1 plus ალბათობა of კანდიდატის, რომ სიტყვა. და ეს ე.წ. "სიტყვა". ეს იყოფა სიტყვები რომ მაქვს, რომ კანდიდატი. საერთო რაოდენობის სიტყვები, რომ მაქვს მომღერალი რომ მე ეძებს. >> "დანარჩენი". ეს იმას ნიშნავს, რომ ეს არის ახალი სიტყვა ასე რომ მინდა იყოს მაგალითად "ცეცხლის" ლედი გაგა. ასე რომ მე უბრალოდ გსურთ 1 მეტი "სიტყვა (კანდიდატი)". ასე რომ, მე არ მინდა, რომ ეს ტერმინი აქ. >> ასე რომ, ეს იქნება, ძირითადად, გადაწერა და pasting ამ. მაგრამ მე ვაპირებ წაშლა ამ ნაწილში. ასე რომ, ეს უბრალოდ იქნება 1 მეტი რომ. ხმები კარგი? და ახლა დასასრულს, მე უბრალოდ აპირებს ამობეჭდოთ სახელით კანდიდატი და ალბათობა, რომ თქვენ გაქვთ მქონე S მათი სიმღერები. აზრი? და მე რეალურად კი არა გვჭირდება ეს ლექსიკონი. აზრი? >> ასე რომ, ვნახოთ, თუ ეს რეალურად მუშაობს. ასე რომ, თუ მე აწარმოებს, ეს არ იმუშავებს. დაველოდოთ ერთი მეორე. "Words (კანდიდატი)", "სიტყვა (კანდიდატი)", ეს არის ის, სახელი მასივი. OK ასე რომ, იგი აცხადებს, რომ არსებობს რამდენიმე bug განთავსების კანდიდატი Priors. ნება მომეცით უბრალოდ chill ცოტა. OK. მოდით ცდილობენ. OK. >> ასე რომ, ეს იძლევა Katy Perry აქვს ალბათობა ამ დროს 10 დან მინუს 7, და გაგა აქვს ჯერ 10 დან მინუს 6. ასე რომ, თქვენ ხედავთ, იგი გვიჩვენებს, რომ გაგა აქვს უმაღლესი ალბათობა. ასე რომ, "Baby, მე on Fire" არის ალბათ Gaga სიმღერა. აზრი? ასე რომ, ეს არის ის, რაც ჩვენ გავაკეთეთ. >> ეს კოდი უნდა posted შემოსული, ასე რომ თქვენ ბიჭები შეიძლება შეამოწმეთ იგი out. იქნებ გამოვიყენოთ ის, თუ გსურთ გავაკეთოთ პროექტის ან რაღაც მსგავსი. OK. ეს იყო მხოლოდ აჩვენოს რა გამოთვლითი ენათმეცნიერების კოდი ჰგავს. მაგრამ ახლა მოდით წავიდეთ მეტი მაღალი დონის პერსონალი. OK. >> ასე რომ, სხვა პრობლემები I იყო საუბარი - სეგმენტაციის პრობლემა პირველი მათგანი. ასე, რომ თქვენ აქ იაპონური. და მაშინ ნახავთ, რომ არ არსებობს ფართები. ასე რომ, ეს ნიშნავს იმას, რომ ყველაზე სკამის, არა? თქვენ საუბარი Japanese? ეს არის ყველაზე თავმჯდომარე, არა? >> სტუდენტი: მე არ ვიცი, რა kanji იქ არის. >> LUCAS Freitas: ეს [წარმოთქმული სიტყვის იაპონიის] OK. ასე რომ, ეს ნიშნავს იმას, თავმჯდომარე თავზე. ასე რომ, თუ თქვენ უნდა დააყენოს სივრცეში ეს იქნება აქ. და შემდეგ თქვენ უნდა [? Ueda-san. ?] რომელიც ძირითადად იმას ნიშნავს, ბატონი Ueda. და ხედავთ, რომ "Ueda" და თქვენ სივრცე და შემდეგ "san". ასე რომ, თქვენ ხედავთ, რომ აქ თქვენ "ue" ჰგავს თავისთავად. და აქ მას აქვს ხასიათი შემდეგი მას. >> ასე რომ, ეს იმას არ ნიშნავს, იმ ენებზე სიმბოლო რაც იმას ნიშნავს სიტყვა, ასე რომ თქვენ უბრალოდ დააყენა ბევრი ფართები. პერსონაჯები ეხება ერთმანეთს. და ისინი შეიძლება ერთად ისევე, როგორც ორი, სამი, ერთი. ასე, რომ თქვენ რეალურად უნდა შეიქმნას გარკვეული სახის გზა აყენებს იმ ფართები. >> და ეს ის არის, რომ როდესაც თქვენ მიიღებთ მონაცემები იმ აზიური ენები, ყველაფერი მოდის unsegmented. იმის გამო, რომ არავინ წერს Japanese ან ჩინელი წერს ფართები. როდესაც თქვენ წერა ჩინური, Japanese თქვენ უბრალოდ დაწერეთ ყველაფერი ერთად არ ფართები. ეს იმას კი არ აქვს აზრი დააყენოს ფართები. ასე რომ, როდესაც თქვენ მონაცემებს, ზოგიერთი აღმოსავლეთ აზიის ენაზე თუ გსურთ რეალურად რაღაც, რომ თქვენ უნდა სეგმენტის პირველი. >> ვფიქრობ, ამის მაგალითია სიმღერები გარეშე სივრცეებს. ასე რომ, მხოლოდ ლექსები, რომ თქვენ გაქვთ იქნება სასჯელი, არა? გამოყოფილი. მაგრამ შემდეგ, რომელსაც მხოლოდ განაჩენი იქნება ნამდვილად არ შეუწყობს მიცემის ინფორმაცია ვინც იმ ლექსები არიან. უფლება? ასე რომ თქვენ უნდა აყენებს ფართები პირველი. ასე როგორ შეიძლება ამის გაკეთება? >> ასე რომ, შემდეგ მოდის იდეა ენა მოდელი, რომელიც მართლაც რაღაც მნიშვნელოვანია გამოთვლითი ლინგვისტიკა. ასე რომ, ენა მოდელის ძირითადად მაგიდასთან ალბათობა, რომ შოუები უპირველეს ყოვლისა, რა არის ალბათობა მქონე სიტყვა ენაზე? ასე რომ, თუ როგორ ხშირად სიტყვა. და შემდეგ ასევე გვიჩვენებს მიზეზი შორის სიტყვა სასჯელს. >> ასე რომ, მთავარი იდეა არის, თუ უცხო მოვიდა თქვენ და განაცხადა, რომ წინადადება თქვენ, რა არის ალბათობა, რომ მაგალითად, "ეს არის ჩემი დის [? GTF"?] იყო წინადადება, რომ პირი განაცხადა? ასე რომ აშკარად რაღაც წინადადებების არის უფრო ხშირია, ვიდრე სხვები. მაგალითად, "დილა", ან "კარგი ღამით, "ან" hey იქ, "ბევრად უფრო საერთო, ვიდრე ყველაზე სასჯელს რომ ჩვენ ინგლისური. რატომ არიან იმ სასჯელს უფრო ხშირად? >> პირველ რიგში, ეს იმიტომ, რომ თქვენ გაქვთ სიტყვები, რომ უფრო ხშირი. ასე, მაგალითად, თუ ამბობენ, რომ ძაღლი არის დიდი და ძაღლი არის გიგანტური, თქვენ როგორც წესი, ალბათ მოვისმინოთ ძაღლი არის დიდი უფრო ხშირად იმიტომ, რომ "დიდი" უფრო ხშირია English, ვიდრე "გიგანტური". ასე რომ, ერთი რამ არის სიტყვა სიხშირე. >> მეორე რამ, რაც მართლაც მთავარია მხოლოდ ბრძანებით სიტყვა. ასე რომ, ეს საერთო აცხადებენ, რომ "კატა შიგნით ყუთში. "მაგრამ თქვენ არ ჩვეულებრივ ვხედავ "ყუთი შიგნით კატა". ასე რომ, ხედავთ, რომ არსებობს გარკვეული მნიშვნელობა ბრძანებით სიტყვა. თქვენ არ შეგიძლიათ უბრალოდ ვთქვა, რომ ეს ორი წინადადებების აქვს იგივე ალბათობა მხოლოდ იმიტომ, რომ მათ აქვთ იგივე სიტყვები. თქვენ ნამდვილად უნდა იზრუნოს შესახებ, რათა ასევე. აზრი? >> მერე რა ვქნათ? მერე რა მე შეიძლება ცდილობენ თქვენ? ვცდილობ მისაღებად თქვენ რაც ჩვენ მოვუწოდებთ n-gram მოდელები. ასე რომ, n-gram მოდელები ძირითადად ვივარაუდოთ, რომ თითოეული სიტყვა, რომელიც თქვენ გაქვთ თავისუფლების აღკვეთა მიუსაჯა. ეს ალბათობა მქონე, რომ სიტყვა არსებობს დამოკიდებულია არა მხოლოდ სიხშირის რომ სიტყვა ენა, არამედ სიტყვა, რომ რომლებიც მის ირგვლივ. >> ასე მაგალითად, როგორც წესი, როდესაც თქვენ ხედავთ, რაღაც ან at თქვენ ალბათ აპირებს ვხედავ noun მას შემდეგ, არა? იმის გამო, რომ, როდესაც თქვენ გაქვთ წინდებული როგორც წესი, ეს ხდება noun შემდეგ. თუ თქვენ გაქვთ ზმნა, რომ გარდამავალი თქვენ, როგორც წესი ვაპირებთ აქვს noun ფრაზა. ასე რომ, ის აპირებს აქვს noun სადღაც გარშემო. >> ასე რომ, ძირითადად, თუ რას აკეთებს არის ის, რომ მიიჩნევს ალბათობა მქონე სიტყვა ერთმანეთს, როდესაც თქვენ გაანგარიშების ალბათობა სასჯელს. და ეს რა ენა მოდელი არის ძირითადად. უბრალოდ ვამბობ, რა არის ალბათობა მქონე კონკრეტული სასჯელს ენა? რატომ არის, რომ სასარგებლო, ძირითადად? და, პირველ რიგში, რა არის n-gram მოდელი, მაშინ? >> ასე რომ, n-gram მოდელი ნიშნავს, რომ თითოეული სიტყვა დამოკიდებულია შემდეგი N მინუს 1 სიტყვა. ასე რომ, ძირითადად, ეს ნიშნავს, რომ, თუ გავითვალისწინებთ, მაგალითად, CS50 TF როდესაც მე გაანგარიშების ალბათობა წინადადება, თქვენ, როგორიცაა " ალბათობა, რომ სიტყვა "" ჯერ ალბათობა მქონე " CS50 "ჯერ ალბათობა მქონე "CS50 TF". ასე რომ, ძირითადად, მე იმედი ყველა შესაძლო გზები გაჭიმვა იგი. >> და შემდეგ, როგორც წესი, როდესაც თქვენ აკეთებთ ამ, როგორც პროექტი, თქვენ დააყენა N უნდა იყოს დაბალი ღირებულება. ასე რომ, როგორც წესი, აქვს bigrams ან Trigrams. ასე, რომ თქვენ მხოლოდ ითვლიან ორი სიტყვა, ჯგუფი ორი სიტყვა, ან სამი სიტყვა, მხოლოდ შესრულების საკითხები. და ასევე იმის გამო, შესაძლოა, თუ თქვენ გაქვთ რაღაც "CS50 TF". როდესაც თქვენ აქვს "TF," ეს ძალიან მნიშვნელოვანია, რომ "CS50" შემდეგ ეს, არა? ეს ორი რამ, როგორც წესი, შემდეგი ერთმანეთს. >> თუ ფიქრობთ, "TF", ეს, ალბათ, აპირებს თუ რა class ის TF'ing ამისთვის. ასევე "და" მართლაც მნიშვნელოვანი განთავსების CS50 TF. მაგრამ თუ თქვენ გაქვთ რაღაც "CS50 TF წავიდა კლასი და მისცა მათ სტუდენტები ზოგიერთი Candy "." Candy "და" " არ აქვთ ნამდვილად, არა? ისინი იმდენად დაშორებული ერთმანეთს, რომ ეს ნამდვილად არ აქვს მნიშვნელობა, რა სიტყვა გაქვთ. >> ასე რომ ამით bigram ან trigram, ეს მხოლოდ იმას ნიშნავს, რომ თქვენ ზღუდავს თავს ზოგიერთი სიტყვა რომ გარშემო. აზრი? ასე რომ, როდესაც გსურთ სეგმენტაცია, ძირითადად, რა გსურთ არის ვხედავ რა არის ყველა შესაძლო გზები, თქვენ შეგიძლიათ სეგმენტი სასჯელს. >> ისეთი, რომ ხედავთ რა არის ალბათობა თითოეული იმ სასჯელს არსებული ენაზე? ასე რომ, თუ რას აკეთებთ ჰგავს, კარგად, მოდით მე ვცდილობ სივრცეში აქ. ასე, რომ თქვენ დააყენა სივრცეში არსებობს და ხედავთ რა არის ალბათობა, რომ განაჩენი? მაშინ თქვენ, ისევე როგორც, OK, იქნებ რომ არ იყო, რომ კარგი. ამიტომ დააყენა სივრცეში არსებობს და სივრცეში იქ, და თქვენ გამოთვალოთ ალბათობა ახლა, და თქვენ ნახავთ, რომ ეს უფრო მაღალი ალბათობა. >> ასე რომ, ეს არის ალგორითმი მოუწოდა TANGO სეგმენტაცია ალგორითმი, რომელიც რეალურად, რომ რაღაც იქნება მართლა მაგარი პროექტი, რომელიც ძირითადად იღებს unsegmented ტექსტი, რომელიც შეიძლება იაპონური ან ჩინური ან იქნებ English გარეშე ფართები და ცდილობს დააყენა ფართები შორის სიტყვები და ეს იმას რომ გამოყენებით ენა მოდელი და ცდილობს დაინახოს, თუ რა არის ყველაზე მაღალი ალბათობა შეგიძლიათ მიიღოთ. OK. ასე რომ, ეს სეგმენტაცია. >> ახლა სინტაქსი. ასე რომ, სინტაქსი გამოიყენება ამდენი რამ ახლა. ასე Graph ძებნა, რადგან Siri for საკმაოდ ბევრი ნებისმიერი სახის ბუნებრივი ენის დამუშავება გაქვთ. რა არის მნიშვნელოვანი რამ სინტაქსი? ასე რომ, სასჯელს ზოგადად აქვს რაც ჩვენ მოვუწოდებთ შემადგენელს. რომელიც სახის მოსწონს ჯგუფების სიტყვები რომ აქვს ფუნქცია სასჯელს. და ისინი ნამდვილად ვერ იქნება გარდა ერთმანეთს. >> ასე რომ, თუ მე ვიტყვი, მაგალითად, "ლორენ უყვარს Milo. "მე ვიცი, რომ" Lauren "არის დამფუძნებელი და შემდეგ "უყვარს Milo "ასევე კიდევ ერთი. იმის გამო, რომ ვერ ვიტყვი, როგორიცაა "Lauren Milo უყვარს "აქვს იგივე მნიშვნელობა აქვს. ის არ აპირებს იგივე მნიშვნელობა. ან მე ვერ ვიტყვი, როგორიცაა "Milo Lauren უყვარს. "ყველაფერი აქვს იგივე რაც იმას ნიშნავს, აკეთებს, რომ. >> ასე რომ, კიდევ ორი მნიშვნელოვანი რამ სინტაქსი არის ლექსიკური ტიპი რომელიც ძირითადად ფუნქცია, რომ თქვენ აქვს სიტყვა თავად. ასე, რომ თქვენ უნდა იცოდეს, რომ "Lauren" და "Milo" არის არსებითი. "სიყვარული" არის ზმნა. და მეორე მნიშვნელოვანი ის არის, რომ ისინი phrasal ტიპის. ასე რომ თქვენ იცით, რომ "უყვარს Milo" ფაქტიურად სიტყვიერი ფრაზა. ასე რომ, როდესაც ვამბობ "Lauren," მე ვიცი, რომ Lauren აკეთებს რაღაც. რა არის ის აკეთებს? ის მოსიყვარულე Milo. ასე რომ მთელი რამ. მაგრამ მისი კომპონენტები noun და ზმნა. მაგრამ ერთად, ისინი ზმნის ფრაზა. >> ასე რომ, რა შეგვიძლია რეალურად ვუყოთ კომპიუტერული ლინგვისტიკის? ასე რომ, თუ მაქვს რამე მაგალითად "მეგობარი Allison". მე ვხედავ, თუ უბრალოდ არ სინტაქსური ხე მინდა იცოდეთ, რომ "მეგობრები" არის noun ფრაზა ეს არის noun და შემდეგ "საქართველოს Allison" არის prepositional ფრაზა რომელშიც "და" არის წინადადება და "Allison" არის არსებითი. რა შეიძლება გავაკეთოთ ასწავლიან ჩემს კომპიუტერში რომ, როდესაც მე მაქვს noun ფრაზა ერთი და მაშინ prepositional ფრაზა. ასე რომ, ამ შემთხვევაში, "მეგობრები" და შემდეგ "საქართველოს Milo "ვიცი, რომ ეს ნიშნავს, რომ NP2, მეორე, ფლობს NP1. >> ასე რომ, შეგიძლიათ შექმნათ რაიმე სახის ურთიერთობა, გარკვეული ფუნქცია მას. ასე რომ როდესაც მე ვხედავ ამ სტრუქტურა, რომელიც მატჩები სწორედ "მეგობრები Allison, "ვიცი, რომ Allison ფლობს მეგობარი. ასე რომ მეგობრები არიან რაღაც რომ Allison აქვს. აზრი? ასე რომ, ეს არის ძირითადად რა Graph ძებნა აკეთებს. უბრალოდ ქმნის წესები ბევრი რამ. ასე რომ "მეგობარი Allison", "ჩემი მეგობარი რომლებიც ცხოვრობენ Cambridge "," ჩემი მეგობარი რომლებიც დადიან Harvard. "ეს ქმნის წესები ყველა იმ რამ. >> ახლა მანქანით თარგმანი. ასე რომ, მანქანური თარგმანი, ასევე რაღაც სტატისტიკური. და რეალურად თუ ჩაერთოს კომპიუტერული ლინგვისტიკის, ბევრი თქვენი პერსონალი იქნება სტატისტიკა. ასე რომ, როგორც მე აკეთებდა მაგალითად ბევრი ალბათობა, რომ მე ვიყავი გაანგარიშების, და შემდეგ თქვენ მიიღებთ ამ ძალიან მცირე რაოდენობის, რომ საბოლოო ალბათობა, რომ ის, რაც გაძლევთ პასუხი. მანქანური თარგმანი იყენებს სტატისტიკური მოდელი. და თუ გვინდა ვიფიქროთ მანქანა თარგმანი მარტივი შესაძლო გზა, რა შეიძლება ვიფიქროთ მხოლოდ ვთარგმნით სიტყვა სიტყვით, არა? >> როდესაც თქვენ სწავლის ენა პირველად, რომელიც, როგორც წესი, რა თქვენ, არა? თუ გსურთ თარგმნოს სასჯელი თქვენს ენაზე ენა თქვენ სწავლის, როგორც წესი, პირველ რიგში, თქვენ თარგმნა თითოეული სიტყვა ინდივიდუალურად და შემდეგ თქვენ ცდილობენ დააყენა სიტყვა შევიდა ადგილი. >> ასე რომ, თუ მინდოდა თარგმნოს ეს, [წარმოთქმული სიტყვის პორტუგალიის] რაც ნიშნავს "თეთრი კატა გაიქცა." თუ მინდოდა თარგმნოს იგი პორტუგალური English, რაც მე შეიძლება გავაკეთოთ, არის ის, პირველ რიგში, მე უბრალოდ თარგმნის სიტყვასიტყვით. ასე რომ, "o" არის "", "gato", "კატა" "Branco", "თეთრი" და შემდეგ "fugio" არის "გაიქცა". >> ასე რომ მაშინ მე ყველა სიტყვა აქ, მაგრამ ისინი არ მიზნით. ეს იგივეა, "კატა თეთრი გაიქცა" რომელიც ungrammatical. ასეა, მაშინ მე შემიძლია აქვს მეორე ნაბიჯი, რომელიც უნდა იპოვო იდეალური პოზიცია თითოეული სიტყვა. ასე რომ, მე ვიცი, რომ მე რეალურად მინდა, რომ "თეთრი კატა" ნაცვლად "კატა თეთრი." ასე რომ, რა შემიძლია არის, ყველაზე გულუბრყვილო მეთოდი იქნება შექმნა ყველა შესაძლო permutations of ვთქვათ, თანამდებობაზე. და მერე ვნახოთ, რომელი ერთი აქვს მაღალი ალბათობა მიხედვით ჩემს ენაზე მოდელი. და მაშინ, როდესაც მე ერთი, რომ აქვს ყველაზე მაღალი ალბათობა, რაც არის ალბათ, "თეთრი კატა გაიქცა" რომ ჩემი თარგმანი. >> და ეს არის მარტივი გზა აეხსნა რამდენად ბევრი მანქანური თარგმანი ალგორითმები მუშაობა. ამჯამად რომ აზრი? ეს არის ასევე რაღაც ნამდვილად საინტერესო რომ თქვენ ბიჭები შეიძლება იქნებ შეისწავლონ საბოლოო პროექტი, yeah? >> სტუდენტი: კარგად, თქვენ განაცხადა, რომ ის გულუბრყვილო გზა, ასე, რა არის არასამთავრობო გულუბრყვილო გზა? >> LUCAS Freitas: არასამთავრობო გულუბრყვილო გზა? OK. ასე რომ, პირველი, რაც არის ცუდი ამ მეთოდით ის არის, რომ მე უბრალოდ თარგმნა სიტყვა, სიტყვა სიტყვას. მაგრამ ზოგჯერ თქვენ უნდა სიტყვა, რომ შეიძლება მქონდეს თარგმანი. მე ვაპირებ ცდილობენ ვფიქრობ რაღაც. მაგალითად, "მანგას" პორტუგალიის can იყოს "mangle" ან "ყდის". ასე რომ, როდესაც თქვენ ცდილობთ თარგმნოს სიტყვა სიტყვა, შეიძლება გაწვდით რაღაც, რომ აზრი არ აქვს. >> ასე, რომ თქვენ ნამდვილად გინდათ გადავხედავთ ყველა შესაძლო თარგმანი სიტყვა და ვხედავ, პირველ რიგში, რა არის მიზნით. ჩვენ ვსაუბრობთ permutating რამ? იმისათვის, რომ ნახოთ ყველა შესაძლო ბრძანებები და აირჩიოს ერთი უმაღლესი ალბათობა? თქვენ ასევე შეგიძლიათ ყველა შესაძლო მეხსიერება თითოეული სიტყვა და მერე ვნახოთ - ერთად permutations - რომელიც ერთი ყველაზე მაღალი ალბათობა. >> გარდა ამისა, ასევე შეგიძლიათ შევხედოთ არა მხოლოდ სიტყვები, არამედ ფრაზები. ასე რომ თქვენ შეგიძლიათ გაანალიზოს შორის ურთიერთობებში სიტყვა და შემდეგ მიიღოს უკეთესი თარგმანი. ასევე რაღაც, ასე რომ ამ სემესტრში მე რეალურად აკეთებს კვლევა ჩინური English მანქანური თარგმანი, ასე თარგმნიან დან Chinese ინგლისურად. >> და რაღაც გავაკეთოთ, არის ის, გარდა გამოყენებით სტატისტიკური მოდელი, რომელიც მხოლოდ ხედავს ალბათობა ხედავს ზოგიერთი პოზიცია წინადადება, მე ვარ რეალურად ასევე დასძინა ზოგიერთი სინტაქსური ჩემს მოდელი, ამბობს, oh, თუ მე ვერ ვხედავ ამ სახის სამშენებლო, ეს არის ის, რაც მე მინდა შეცვლის, როდესაც მე თარგმნა. ასე რომ თქვენ ასევე შეგიძლიათ დაამატოთ გარკვეული სახის ელემენტის სინტაქსი, რათა თარგმანი უფრო ეფექტური და უფრო ზუსტი. OK. >> ასე როგორ შეიძლება დავიწყოთ, თუ გსურთ რაღაც გამოთვლითი ენათმეცნიერების? >> პირველი, თქვენ პროექტი რომელიც მოიცავს ენებზე. ასე რომ, არსებობს ამდენი არსებობს. იქ ძალიან ბევრი რამ შეგიძლიათ გააკეთოთ. და შემდეგ შეიძლება ვიფიქროთ მოდელი რომ თქვენ შეგიძლიათ გამოიყენოთ. როგორც წესი, ეს ნიშნავს, რომ აზროვნება ვარაუდები, როგორც მოსწონს, oh, როდესაც მე ვიყავი ისევე როგორც აზროვნების სიმღერები. მე კი, როგორიცაა, ასევე, თუ მინდა გაერკვნენ გარეთ რომელმაც დაწერა ეს, მე ალბათ მინდა შევხედოთ სიტყვა პირი გამოყენებული და ვხედავ, ვინც იყენებს, რომ სიტყვა ძალიან ხშირად. ამიტომ ცდილობენ ვარაუდები და ცდილობენ ვფიქრობ მოდელები. და მაშინ ასევე შეგიძლიათ მოძებნოთ ონლაინ სახის პრობლემა, რომელიც თქვენ გაქვთ, და ის აპირებს ვარაუდობენ თქვენ მოდელები, შესაძლოა, მოდელირებული რომ რამ კარგად. >> ასევე თქვენ ყოველთვის შეგიძლიათ მომაწოდეთ. me@lfreitas.com. და მე შემიძლია მხოლოდ უპასუხოს თქვენს შეკითხვებს. ჩვენ კი შეიძლება შეხვდეს, ასე რომ მე არ შემიძლია მისცეს წინადადებები გზები ახორციელებს თქვენი პროექტი. და ვგულისხმობ, თუ თქვენ ჩართული კომპიუტერული ლინგვისტიკის, ის აპირებს უნდა იყოს დიდი. თქვენ ვაპირებთ ვხედავ არის იმდენად პოტენციალი. და ინდუსტრიის უნდა აიყვანოს თქვენ ისე ცუდი გამო. ასე რომ, იმედი მაქვს, რომ თქვენ ბიჭები სარგებლობდა ამ. თუ ბიჭები გაქვთ რაიმე შეკითხვები, თქვენ შეგიძლიათ მკითხავთ შემდეგ. მაგრამ მადლობა.