youtube-dl/youtube_dl/extractor/teachable.py

from __future__ import unicode_literals

import re

from .common import InfoExtractor
from .wistia import WistiaIE
from ..compat import compat_str
from ..utils import (
    clean_html,
    ExtractorError,
    get_element_by_class,
    urlencode_postdata,
    urljoin,
)


class TeachableBaseIE(InfoExtractor):
    _NETRC_MACHINE = 'teachable'
    _URL_PREFIX = 'teachable:'

    _SITES = {
        # Only notable ones here
        'upskillcourses.com': 'upskill',
        'academy.gns3.com': 'gns3',
        'academyhacker.com': 'academyhacker',
        'stackskills.com': 'stackskills',
        'market.saleshacker.com': 'saleshacker',
        'learnability.org': 'learnability',
        'edurila.com': 'edurila',
        'courses.workitdaily.com': 'workitdaily',
    }

    _VALID_URL_SUB_TUPLE = (_URL_PREFIX, '|'.join(re.escape(site) for site in _SITES.keys()))

    def _real_initialize(self):
        self._logged_in = False

    def _login(self, site):
        if self._logged_in:
            return

        username, password = self._get_login_info(
            netrc_machine=self._SITES.get(site, site))
        if username is None:
            return

        login_page, urlh = self._download_webpage_handle(
            'https://%s/sign_in' % site, None,
            'Downloading %s login page' % site)

        def is_logged(webpage):
            return any(re.search(p, webpage) for p in (
                r'class=["\']user-signout',
                r'<a[^>]+\bhref=["\']/sign_out',
                r'Log\s+[Oo]ut\s*<'))

        if is_logged(login_page):
            self._logged_in = True
            return

        login_url = compat_str(urlh.geturl())

        login_form = self._hidden_inputs(login_page)

        login_form.update({
            'user[email]': username,
            'user[password]': password,
        })

        post_url = self._search_regex(
            r'<form[^>]+action=(["\'])(?P<url>(?:(?!\1).)+)\1', login_page,
            'post url', default=login_url, group='url')

        if not post_url.startswith('http'):
            post_url = urljoin(login_url, post_url)

        response = self._download_webpage(
            post_url, None, 'Logging in to %s' % site,
            data=urlencode_postdata(login_form),
            headers={
                'Content-Type': 'application/x-www-form-urlencoded',
                'Referer': login_url,
            })

        if '>I accept the new Privacy Policy<' in response:
            raise ExtractorError(
                'Unable to login: %s asks you to accept new Privacy Policy. '
                'Go to https://%s/ and accept.' % (site, site), expected=True)

        # Successful login
        if is_logged(response):
            self._logged_in = True
            return

        message = get_element_by_class('alert', response)
        if message is not None:
            raise ExtractorError(
                'Unable to login: %s' % clean_html(message), expected=True)

        raise ExtractorError('Unable to log in')


class TeachableIE(TeachableBaseIE):
    _VALID_URL = r'''(?x)
                    (?:
                        %shttps?://(?P<site_t>[^/]+)|
                        https?://(?:www\.)?(?P<site>%s)
                    )
                    /courses/[^/]+/lectures/(?P<id>\d+)
                    ''' % TeachableBaseIE._VALID_URL_SUB_TUPLE

    _TESTS = [{
        'url': 'http://upskillcourses.com/courses/essential-web-developer-course/lectures/1747100',
        'info_dict': {
            'id': 'uzw6zw58or',
            'ext': 'mp4',
            'title': 'Welcome to the Course!',
            'description': 'md5:65edb0affa582974de4625b9cdea1107',
            'duration': 138.763,
            'timestamp': 1479846621,
            'upload_date': '20161122',
        },
        'params': {
            'skip_download': True,
        },
    }, {
        'url': 'http://upskillcourses.com/courses/119763/lectures/1747100',
        'only_matching': True,
    }, {
        'url': 'https://academy.gns3.com/courses/423415/lectures/6885939',
        'only_matching': True,
    }, {
        'url': 'teachable:https://upskillcourses.com/courses/essential-web-developer-course/lectures/1747100',
        'only_matching': True,
    }]

    @staticmethod
    def _is_teachable(webpage):
        return 'teachableTracker.linker:autoLink' in webpage and re.search(
            r'<link[^>]+href=["\']https?://process\.fs\.teachablecdn\.com',
            webpage)

    @staticmethod
    def _extract_url(webpage, source_url):
        if not TeachableIE._is_teachable(webpage):
            return
        if re.match(r'https?://[^/]+/(?:courses|p)', source_url):
            return '%s%s' % (TeachableBaseIE._URL_PREFIX, source_url)

    def _real_extract(self, url):
        mobj = re.match(self._VALID_URL, url)
        site = mobj.group('site') or mobj.group('site_t')
        video_id = mobj.group('id')

        self._login(site)

        prefixed = url.startswith(self._URL_PREFIX)
        if prefixed:
            url = url[len(self._URL_PREFIX):]

        webpage = self._download_webpage(url, video_id)

        wistia_urls = WistiaIE._extract_urls(webpage)
        if not wistia_urls:
            if any(re.search(p, webpage) for p in (
                    r'class=["\']lecture-contents-locked',
                    r'>\s*Lecture contents locked',
                    r'id=["\']lecture-locked',
                    # https://academy.tailoredtutors.co.uk/courses/108779/lectures/1955313
                    r'class=["\'](?:inner-)?lesson-locked',
                    r'>LESSON LOCKED<')):
                self.raise_login_required('Lecture contents locked')
            raise ExtractorError('Unable to find video URL')

        title = self._og_search_title(webpage, default=None)

        entries = [{
            '_type': 'url_transparent',
            'url': wistia_url,
            'ie_key': WistiaIE.ie_key(),
            'title': title,
        } for wistia_url in wistia_urls]

        return self.playlist_result(entries, video_id, title)


class TeachableCourseIE(TeachableBaseIE):
    _VALID_URL = r'''(?x)
                        (?:
                            %shttps?://(?P<site_t>[^/]+)|
                            https?://(?:www\.)?(?P<site>%s)
                        )
                        /(?:courses|p)/(?:enrolled/)?(?P<id>[^/?#&]+)
                    ''' % TeachableBaseIE._VALID_URL_SUB_TUPLE
    _TESTS = [{
        'url': 'http://upskillcourses.com/courses/essential-web-developer-course/',
        'info_dict': {
            'id': 'essential-web-developer-course',
            'title': 'The Essential Web Developer Course (Free)',
        },
        'playlist_count': 192,
    }, {
        'url': 'http://upskillcourses.com/courses/119763/',
        'only_matching': True,
    }, {
        'url': 'http://upskillcourses.com/courses/enrolled/119763',
        'only_matching': True,
    }, {
        'url': 'https://academy.gns3.com/courses/enrolled/423415',
        'only_matching': True,
    }, {
        'url': 'teachable:https://learn.vrdev.school/p/gear-vr-developer-mini',
        'only_matching': True,
    }, {
        'url': 'teachable:https://filmsimplified.com/p/davinci-resolve-15-crash-course',
        'only_matching': True,
    }]

    @classmethod
    def suitable(cls, url):
        return False if TeachableIE.suitable(url) else super(
            TeachableCourseIE, cls).suitable(url)

    def _real_extract(self, url):
        mobj = re.match(self._VALID_URL, url)
        site = mobj.group('site') or mobj.group('site_t')
        course_id = mobj.group('id')

        self._login(site)

        prefixed = url.startswith(self._URL_PREFIX)
        if prefixed:
            prefix = self._URL_PREFIX
            url = url[len(prefix):]

        webpage = self._download_webpage(url, course_id)

        url_base = 'https://%s/' % site

        entries = []

        for mobj in re.finditer(
                r'(?s)(?P<li><li[^>]+class=(["\'])(?:(?!\2).)*?section-item[^>]+>.+?</li>)',
                webpage):
            li = mobj.group('li')
            if 'fa-youtube-play' not in li:
                continue
            lecture_url = self._search_regex(
                r'<a[^>]+href=(["\'])(?P<url>(?:(?!\1).)+)\1', li,
                'lecture url', default=None, group='url')
            if not lecture_url:
                continue
            lecture_id = self._search_regex(
                r'/lectures/(\d+)', lecture_url, 'lecture id', default=None)
            title = self._html_search_regex(
                r'<span[^>]+class=["\']lecture-name[^>]+>([^<]+)', li,
                'title', default=None)
            entry_url = urljoin(url_base, lecture_url)
            if prefixed:
                entry_url = self._URL_PREFIX + entry_url
            entries.append(
                self.url_result(
                    entry_url,
                    ie=TeachableIE.ie_key(), video_id=lecture_id,
                    video_title=clean_html(title)))

        course_title = self._html_search_regex(
            (r'(?s)<img[^>]+class=["\']course-image[^>]+>\s*<h\d>(.+?)</h',
             r'(?s)<h\d[^>]+class=["\']course-title[^>]+>(.+?)</h'),
            webpage, 'course title', fatal=False)

        return self.playlist_result(entries, course_id, course_title)
[upskill] Add extractor (closes #13043) 2017-05-13 16:52:59 +02:00			`from __future__ import unicode_literals`

			`import re`

			`from .common import InfoExtractor`
			`from .wistia import WistiaIE`
			`from ..compat import compat_str`
			`from ..utils import (`
			`clean_html,`
			`ExtractorError,`
			`get_element_by_class,`
			`urlencode_postdata,`
			`urljoin,`
			`)`


[teachable] Add support for teachable based platform sites (closes #5451, closes #18150, closes #18272) 2018-12-09 16:28:24 +01:00			`class TeachableBaseIE(InfoExtractor):`
			`_NETRC_MACHINE = 'teachable'`
			`_URL_PREFIX = 'teachable:'`

			`_SITES = {`
			`# Only notable ones here`
			`'upskillcourses.com': 'upskill',`
			`'academy.gns3.com': 'gns3',`
			`'academyhacker.com': 'academyhacker',`
			`'stackskills.com': 'stackskills',`
			`'market.saleshacker.com': 'saleshacker',`
			`'learnability.org': 'learnability',`
			`'edurila.com': 'edurila',`
[teachable] add support for courses.workitdaily.com (closes #18871) 2019-02-03 09:10:09 +01:00			`'courses.workitdaily.com': 'workitdaily',`
[teachable] Add support for teachable based platform sites (closes #5451, closes #18150, closes #18272) 2018-12-09 16:28:24 +01:00			`}`

			`_VALID_URL_SUB_TUPLE = (_URL_PREFIX, '\|'.join(re.escape(site) for site in _SITES.keys()))`
[upskill] Add extractor (closes #13043) 2017-05-13 16:52:59 +02:00
			`def _real_initialize(self):`
[teachable] Add support for teachable based platform sites (closes #5451, closes #18150, closes #18272) 2018-12-09 16:28:24 +01:00			`self._logged_in = False`
[upskill] Add extractor (closes #13043) 2017-05-13 16:52:59 +02:00
[teachable] Add support for teachable based platform sites (closes #5451, closes #18150, closes #18272) 2018-12-09 16:28:24 +01:00			`def _login(self, site):`
			`if self._logged_in:`
			`return`

			`username, password = self._get_login_info(`
			`netrc_machine=self._SITES.get(site, site))`
[upskill] Add extractor (closes #13043) 2017-05-13 16:52:59 +02:00			`if username is None:`
			`return`

			`login_page, urlh = self._download_webpage_handle(`
[teachable] Add support for teachable based platform sites (closes #5451, closes #18150, closes #18272) 2018-12-09 16:28:24 +01:00			`'https://%s/sign_in' % site, None,`
			`'Downloading %s login page' % site)`
[upskill] Add extractor (closes #13043) 2017-05-13 16:52:59 +02:00
[teachable] Skip login when already logged in (closes #22572) 2019-10-01 21:03:22 +02:00			`def is_logged(webpage):`
			`return any(re.search(p, webpage) for p in (`
			`r'class=["\']user-signout',`
			`r'<a[^>]+\bhref=["\']/sign_out',`
			`r'Log\s+[Oo]ut\s*<'))`

			`if is_logged(login_page):`
			`self._logged_in = True`
			`return`

[upskill] Add extractor (closes #13043) 2017-05-13 16:52:59 +02:00			`login_url = compat_str(urlh.geturl())`

			`login_form = self._hidden_inputs(login_page)`

			`login_form.update({`
			`'user[email]': username,`
			`'user[password]': password,`
			`})`

			`post_url = self._search_regex(`
			`r'<form[^>]+action=(["\'])(?P<url>(?:(?!\1).)+)\1', login_page,`
			`'post url', default=login_url, group='url')`

			`if not post_url.startswith('http'):`
			`post_url = urljoin(login_url, post_url)`

			`response = self._download_webpage(`
[teachable] Add support for teachable based platform sites (closes #5451, closes #18150, closes #18272) 2018-12-09 16:28:24 +01:00			`post_url, None, 'Logging in to %s' % site,`
[upskill] Add extractor (closes #13043) 2017-05-13 16:52:59 +02:00			`data=urlencode_postdata(login_form),`
			`headers={`
			`'Content-Type': 'application/x-www-form-urlencoded',`
			`'Referer': login_url,`
			`})`

[teachable] Add support for teachable based platform sites (closes #5451, closes #18150, closes #18272) 2018-12-09 16:28:24 +01:00			`if '>I accept the new Privacy Policy<' in response:`
			`raise ExtractorError(`
			`'Unable to login: %s asks you to accept new Privacy Policy. '`
			`'Go to https://%s/ and accept.' % (site, site), expected=True)`

[upskill] Add extractor (closes #13043) 2017-05-13 16:52:59 +02:00			`# Successful login`
[teachable] Skip login when already logged in (closes #22572) 2019-10-01 21:03:22 +02:00			`if is_logged(response):`
[teachable] Add support for teachable based platform sites (closes #5451, closes #18150, closes #18272) 2018-12-09 16:28:24 +01:00			`self._logged_in = True`
[upskill] Add extractor (closes #13043) 2017-05-13 16:52:59 +02:00			`return`

			`message = get_element_by_class('alert', response)`
			`if message is not None:`
			`raise ExtractorError(`
			`'Unable to login: %s' % clean_html(message), expected=True)`

			`raise ExtractorError('Unable to log in')`


[teachable] Add support for teachable based platform sites (closes #5451, closes #18150, closes #18272) 2018-12-09 16:28:24 +01:00			`class TeachableIE(TeachableBaseIE):`
			`_VALID_URL = r'''(?x)`
			`(?:`
			`%shttps?://(?P<site_t>[^/]+)\|`
			`https?://(?:www\.)?(?P<site>%s)`
			`)`
			`/courses/[^/]+/lectures/(?P<id>\d+)`
			`''' % TeachableBaseIE._VALID_URL_SUB_TUPLE`
[upskill] Add extractor (closes #13043) 2017-05-13 16:52:59 +02:00
			`_TESTS = [{`
			`'url': 'http://upskillcourses.com/courses/essential-web-developer-course/lectures/1747100',`
			`'info_dict': {`
			`'id': 'uzw6zw58or',`
			`'ext': 'mp4',`
			`'title': 'Welcome to the Course!',`
[teachable] Add support for teachable based platform sites (closes #5451, closes #18150, closes #18272) 2018-12-09 16:28:24 +01:00			`'description': 'md5:65edb0affa582974de4625b9cdea1107',`
[upskill] Add extractor (closes #13043) 2017-05-13 16:52:59 +02:00			`'duration': 138.763,`
			`'timestamp': 1479846621,`
			`'upload_date': '20161122',`
			`},`
			`'params': {`
			`'skip_download': True,`
			`},`
			`}, {`
			`'url': 'http://upskillcourses.com/courses/119763/lectures/1747100',`
			`'only_matching': True,`
[teachable] Add support for teachable based platform sites (closes #5451, closes #18150, closes #18272) 2018-12-09 16:28:24 +01:00			`}, {`
			`'url': 'https://academy.gns3.com/courses/423415/lectures/6885939',`
			`'only_matching': True,`
			`}, {`
			`'url': 'teachable:https://upskillcourses.com/courses/essential-web-developer-course/lectures/1747100',`
			`'only_matching': True,`
[upskill] Add extractor (closes #13043) 2017-05-13 16:52:59 +02:00			`}]`

[teachable] Add support for teachable based platform sites (closes #5451, closes #18150, closes #18272) 2018-12-09 16:28:24 +01:00			`@staticmethod`
			`def _is_teachable(webpage):`
			`return 'teachableTracker.linker:autoLink' in webpage and re.search(`
			`r'<link[^>]+href=["\']https?://process\.fs\.teachablecdn\.com',`
			`webpage)`

			`@staticmethod`
			`def _extract_url(webpage, source_url):`
			`if not TeachableIE._is_teachable(webpage):`
			`return`
			`if re.match(r'https?://[^/]+/(?:courses\|p)', source_url):`
			`return '%s%s' % (TeachableBaseIE._URL_PREFIX, source_url)`

[upskill] Add extractor (closes #13043) 2017-05-13 16:52:59 +02:00			`def _real_extract(self, url):`
[teachable] Add support for teachable based platform sites (closes #5451, closes #18150, closes #18272) 2018-12-09 16:28:24 +01:00			`mobj = re.match(self._VALID_URL, url)`
			`site = mobj.group('site') or mobj.group('site_t')`
			`video_id = mobj.group('id')`

			`self._login(site)`

			`prefixed = url.startswith(self._URL_PREFIX)`
			`if prefixed:`
			`url = url[len(self._URL_PREFIX):]`
[upskill] Add extractor (closes #13043) 2017-05-13 16:52:59 +02:00
			`webpage = self._download_webpage(url, video_id)`

[teachable] Add support for multiple videos per lecture (closes #24101) 2020-02-23 00:49:45 +01:00			`wistia_urls = WistiaIE._extract_urls(webpage)`
			`if not wistia_urls:`
[upskill] Add extractor (closes #13043) 2017-05-13 16:52:59 +02:00			`if any(re.search(p, webpage) for p in (`
			`r'class=["\']lecture-contents-locked',`
			`r'>\s*Lecture contents locked',`
[teachable] Improve locked lessons detection (#23528) 2019-12-26 18:18:37 +01:00			`r'id=["\']lecture-locked',`
			`# https://academy.tailoredtutors.co.uk/courses/108779/lectures/1955313`
			`r'class=["\'](?:inner-)?lesson-locked',`
			`r'>LESSON LOCKED<')):`
[upskill] Add extractor (closes #13043) 2017-05-13 16:52:59 +02:00			`self.raise_login_required('Lecture contents locked')`
[teachable] Fail with error message if no video URL found 2019-12-26 18:26:12 +01:00			`raise ExtractorError('Unable to find video URL')`
[upskill] Add extractor (closes #13043) 2017-05-13 16:52:59 +02:00
			`title = self._og_search_title(webpage, default=None)`

[teachable] Add support for multiple videos per lecture (closes #24101) 2020-02-23 00:49:45 +01:00			`entries = [{`
[upskill] Add extractor (closes #13043) 2017-05-13 16:52:59 +02:00			`'_type': 'url_transparent',`
			`'url': wistia_url,`
			`'ie_key': WistiaIE.ie_key(),`
			`'title': title,`
[teachable] Add support for multiple videos per lecture (closes #24101) 2020-02-23 00:49:45 +01:00			`} for wistia_url in wistia_urls]`

			`return self.playlist_result(entries, video_id, title)`
[upskill] Add extractor (closes #13043) 2017-05-13 16:52:59 +02:00

[teachable] Add support for teachable based platform sites (closes #5451, closes #18150, closes #18272) 2018-12-09 16:28:24 +01:00			`class TeachableCourseIE(TeachableBaseIE):`
			`_VALID_URL = r'''(?x)`
			`(?:`
			`%shttps?://(?P<site_t>[^/]+)\|`
			`https?://(?:www\.)?(?P<site>%s)`
			`)`
			`/(?:courses\|p)/(?:enrolled/)?(?P<id>[^/?#&]+)`
			`''' % TeachableBaseIE._VALID_URL_SUB_TUPLE`
[upskill] Add extractor (closes #13043) 2017-05-13 16:52:59 +02:00			`_TESTS = [{`
			`'url': 'http://upskillcourses.com/courses/essential-web-developer-course/',`
			`'info_dict': {`
[teachable] Add support for teachable based platform sites (closes #5451, closes #18150, closes #18272) 2018-12-09 16:28:24 +01:00			`'id': 'essential-web-developer-course',`
[upskill] Add extractor (closes #13043) 2017-05-13 16:52:59 +02:00			`'title': 'The Essential Web Developer Course (Free)',`
			`},`
			`'playlist_count': 192,`
			`}, {`
			`'url': 'http://upskillcourses.com/courses/119763/',`
			`'only_matching': True,`
			`}, {`
			`'url': 'http://upskillcourses.com/courses/enrolled/119763',`
			`'only_matching': True,`
[teachable] Add support for teachable based platform sites (closes #5451, closes #18150, closes #18272) 2018-12-09 16:28:24 +01:00			`}, {`
			`'url': 'https://academy.gns3.com/courses/enrolled/423415',`
			`'only_matching': True,`
			`}, {`
			`'url': 'teachable:https://learn.vrdev.school/p/gear-vr-developer-mini',`
			`'only_matching': True,`
			`}, {`
			`'url': 'teachable:https://filmsimplified.com/p/davinci-resolve-15-crash-course',`
			`'only_matching': True,`
[upskill] Add extractor (closes #13043) 2017-05-13 16:52:59 +02:00			`}]`

			`@classmethod`
			`def suitable(cls, url):`
[teachable] Add support for teachable based platform sites (closes #5451, closes #18150, closes #18272) 2018-12-09 16:28:24 +01:00			`return False if TeachableIE.suitable(url) else super(`
			`TeachableCourseIE, cls).suitable(url)`
[upskill] Add extractor (closes #13043) 2017-05-13 16:52:59 +02:00
			`def _real_extract(self, url):`
[teachable] Add support for teachable based platform sites (closes #5451, closes #18150, closes #18272) 2018-12-09 16:28:24 +01:00			`mobj = re.match(self._VALID_URL, url)`
			`site = mobj.group('site') or mobj.group('site_t')`
			`course_id = mobj.group('id')`

			`self._login(site)`

			`prefixed = url.startswith(self._URL_PREFIX)`
			`if prefixed:`
			`prefix = self._URL_PREFIX`
			`url = url[len(prefix):]`
[upskill] Add extractor (closes #13043) 2017-05-13 16:52:59 +02:00
			`webpage = self._download_webpage(url, course_id)`

[teachable] Add support for teachable based platform sites (closes #5451, closes #18150, closes #18272) 2018-12-09 16:28:24 +01:00			`url_base = 'https://%s/' % site`
[upskill] Add extractor (closes #13043) 2017-05-13 16:52:59 +02:00
			`entries = []`

			`for mobj in re.finditer(`
			`r'(?s)(?P<li><li[^>]+class=(["\'])(?:(?!\2).)*?section-item[^>]+>.+?</li>)',`
			`webpage):`
			`li = mobj.group('li')`
			`if 'fa-youtube-play' not in li:`
			`continue`
			`lecture_url = self._search_regex(`
			`r'<a[^>]+href=(["\'])(?P<url>(?:(?!\1).)+)\1', li,`
			`'lecture url', default=None, group='url')`
			`if not lecture_url:`
			`continue`
			`lecture_id = self._search_regex(`
			`r'/lectures/(\d+)', lecture_url, 'lecture id', default=None)`
			`title = self._html_search_regex(`
			`r'<span[^>]+class=["\']lecture-name[^>]+>([^<]+)', li,`
			`'title', default=None)`
[teachable] Add support for teachable based platform sites (closes #5451, closes #18150, closes #18272) 2018-12-09 16:28:24 +01:00			`entry_url = urljoin(url_base, lecture_url)`
			`if prefixed:`
			`entry_url = self._URL_PREFIX + entry_url`
[upskill] Add extractor (closes #13043) 2017-05-13 16:52:59 +02:00			`entries.append(`
			`self.url_result(`
[teachable] Add support for teachable based platform sites (closes #5451, closes #18150, closes #18272) 2018-12-09 16:28:24 +01:00			`entry_url,`
			`ie=TeachableIE.ie_key(), video_id=lecture_id,`
[upskill] Add extractor (closes #13043) 2017-05-13 16:52:59 +02:00			`video_title=clean_html(title)))`

			`course_title = self._html_search_regex(`
			`(r'(?s)<img[^>]+class=["\']course-image[^>]+>\s*<h\d>(.+?)</h',`
			`r'(?s)<h\d[^>]+class=["\']course-title[^>]+>(.+?)</h'),`
			`webpage, 'course title', fatal=False)`

			`return self.playlist_result(entries, course_id, course_title)`