youtube-dl/youtube_dl/extractor/ceskatelevize.py

# coding: utf-8
from __future__ import unicode_literals

import re

from .common import InfoExtractor
from ..compat import (
    compat_urllib_parse_unquote,
    compat_urllib_parse_urlparse,
)
from ..utils import (
    ExtractorError,
    float_or_none,
    sanitized_Request,
    unescapeHTML,
    urlencode_postdata,
    USER_AGENTS,
)


class CeskaTelevizeIE(InfoExtractor):
    _VALID_URL = r'https?://(?:www\.)?ceskatelevize\.cz/ivysilani/(?:[^/?#&]+/)*(?P<id>[^/#?]+)'
    _TESTS = [{
        'url': 'http://www.ceskatelevize.cz/ivysilani/ivysilani/10441294653-hyde-park-civilizace/214411058091220',
        'info_dict': {
            'id': '61924494877246241',
            'ext': 'mp4',
            'title': 'Hyde Park Civilizace: Život v Grónsku',
            'description': 'md5:3fec8f6bb497be5cdb0c9e8781076626',
            'thumbnail': r're:^https?://.*\.jpg',
            'duration': 3350,
        },
        'params': {
            # m3u8 download
            'skip_download': True,
        },
    }, {
        'url': 'http://www.ceskatelevize.cz/ivysilani/10441294653-hyde-park-civilizace/215411058090502/bonus/20641-bonus-01-en',
        'info_dict': {
            'id': '61924494877028507',
            'ext': 'mp4',
            'title': 'Hyde Park Civilizace: Bonus 01 - En',
            'description': 'English Subtittles',
            'thumbnail': r're:^https?://.*\.jpg',
            'duration': 81.3,
        },
        'params': {
            # m3u8 download
            'skip_download': True,
        },
    }, {
        # live stream
        'url': 'http://www.ceskatelevize.cz/ivysilani/zive/ct4/',
        'info_dict': {
            'id': 402,
            'ext': 'mp4',
            'title': r're:^ČT Sport \d{4}-\d{2}-\d{2} \d{2}:\d{2}$',
            'is_live': True,
        },
        'params': {
            # m3u8 download
            'skip_download': True,
        },
        'skip': 'Georestricted to Czech Republic',
    }, {
        'url': 'http://www.ceskatelevize.cz/ivysilani/embed/iFramePlayer.php?hash=d6a3e1370d2e4fa76296b90bad4dfc19673b641e&IDEC=217 562 22150/0004&channelID=1&width=100%25',
        'only_matching': True,
    }]

    def _real_extract(self, url):
        playlist_id = self._match_id(url)

        webpage = self._download_webpage(url, playlist_id)

        NOT_AVAILABLE_STRING = 'This content is not available at your territory due to limited copyright.'
        if '%s</p>' % NOT_AVAILABLE_STRING in webpage:
            raise ExtractorError(NOT_AVAILABLE_STRING, expected=True)

        type_ = None
        episode_id = None

        playlist = self._parse_json(
            self._search_regex(
                r'getPlaylistUrl\(\[({.+?})\]', webpage, 'playlist',
                default='{}'), playlist_id)
        if playlist:
            type_ = playlist.get('type')
            episode_id = playlist.get('id')

        if not type_:
            type_ = self._html_search_regex(
                r'getPlaylistUrl\(\[\{"type":"(.+?)","id":".+?"\}\],',
                webpage, 'type')
        if not episode_id:
            episode_id = self._html_search_regex(
                r'getPlaylistUrl\(\[\{"type":".+?","id":"(.+?)"\}\],',
                webpage, 'episode_id')

        data = {
            'playlist[0][type]': type_,
            'playlist[0][id]': episode_id,
            'requestUrl': compat_urllib_parse_urlparse(url).path,
            'requestSource': 'iVysilani',
        }

        entries = []

        for user_agent in (None, USER_AGENTS['Safari']):
            req = sanitized_Request(
                'http://www.ceskatelevize.cz/ivysilani/ajax/get-client-playlist',
                data=urlencode_postdata(data))

            req.add_header('Content-type', 'application/x-www-form-urlencoded')
            req.add_header('x-addr', '127.0.0.1')
            req.add_header('X-Requested-With', 'XMLHttpRequest')
            if user_agent:
                req.add_header('User-Agent', user_agent)
            req.add_header('Referer', url)

            playlistpage = self._download_json(req, playlist_id, fatal=False)

            if not playlistpage:
                continue

            playlist_url = playlistpage['url']
            if playlist_url == 'error_region':
                raise ExtractorError(NOT_AVAILABLE_STRING, expected=True)

            req = sanitized_Request(compat_urllib_parse_unquote(playlist_url))
            req.add_header('Referer', url)

            playlist_title = self._og_search_title(webpage, default=None)
            playlist_description = self._og_search_description(webpage, default=None)

            playlist = self._download_json(req, playlist_id, fatal=False)
            if not playlist:
                continue

            playlist = playlist.get('playlist')
            if not isinstance(playlist, list):
                continue

            playlist_len = len(playlist)

            for num, item in enumerate(playlist):
                is_live = item.get('type') == 'LIVE'
                formats = []
                for format_id, stream_url in item.get('streamUrls', {}).items():
                    if 'playerType=flash' in stream_url:
                        stream_formats = self._extract_m3u8_formats(
                            stream_url, playlist_id, 'mp4', 'm3u8_native',
                            m3u8_id='hls-%s' % format_id, fatal=False)
                    else:
                        stream_formats = self._extract_mpd_formats(
                            stream_url, playlist_id,
                            mpd_id='dash-%s' % format_id, fatal=False)
                    # See https://github.com/rg3/youtube-dl/issues/12119#issuecomment-280037031
                    if format_id == 'audioDescription':
                        for f in stream_formats:
                            f['source_preference'] = -10
                    formats.extend(stream_formats)

                if user_agent and len(entries) == playlist_len:
                    entries[num]['formats'].extend(formats)
                    continue

                item_id = item.get('id') or item['assetId']
                title = item['title']

                duration = float_or_none(item.get('duration'))
                thumbnail = item.get('previewImageUrl')

                subtitles = {}
                if item.get('type') == 'VOD':
                    subs = item.get('subtitles')
                    if subs:
                        subtitles = self.extract_subtitles(episode_id, subs)

                if playlist_len == 1:
                    final_title = playlist_title or title
                    if is_live:
                        final_title = self._live_title(final_title)
                else:
                    final_title = '%s (%s)' % (playlist_title, title)

                entries.append({
                    'id': item_id,
                    'title': final_title,
                    'description': playlist_description if playlist_len == 1 else None,
                    'thumbnail': thumbnail,
                    'duration': duration,
                    'formats': formats,
                    'subtitles': subtitles,
                    'is_live': is_live,
                })

        for e in entries:
            self._sort_formats(e['formats'])

        return self.playlist_result(entries, playlist_id, playlist_title, playlist_description)

    def _get_subtitles(self, episode_id, subs):
        original_subtitles = self._download_webpage(
            subs[0]['url'], episode_id, 'Downloading subtitles')
        srt_subs = self._fix_subtitles(original_subtitles)
        return {
            'cs': [{
                'ext': 'srt',
                'data': srt_subs,
            }]
        }

    @staticmethod
    def _fix_subtitles(subtitles):
        """ Convert millisecond-based subtitles to SRT """

        def _msectotimecode(msec):
            """ Helper utility to convert milliseconds to timecode """
            components = []
            for divider in [1000, 60, 60, 100]:
                components.append(msec % divider)
                msec //= divider
            return '{3:02}:{2:02}:{1:02},{0:03}'.format(*components)

        def _fix_subtitle(subtitle):
            for line in subtitle.splitlines():
                m = re.match(r'^\s*([0-9]+);\s*([0-9]+)\s+([0-9]+)\s*$', line)
                if m:
                    yield m.group(1)
                    start, stop = (_msectotimecode(int(t)) for t in m.groups()[1:])
                    yield '{0} --> {1}'.format(start, stop)
                else:
                    yield line

        return '\r\n'.join(_fix_subtitle(subtitles))


class CeskaTelevizePoradyIE(InfoExtractor):
    _VALID_URL = r'https?://(?:www\.)?ceskatelevize\.cz/porady/(?:[^/?#&]+/)*(?P<id>[^/#?]+)'
    _TESTS = [{
        # video with 18+ caution trailer
        'url': 'http://www.ceskatelevize.cz/porady/10520528904-queer/215562210900007-bogotart/',
        'info_dict': {
            'id': '215562210900007-bogotart',
            'title': 'Queer: Bogotart',
            'description': 'Alternativní průvodce současným queer světem',
        },
        'playlist': [{
            'info_dict': {
                'id': '61924494876844842',
                'ext': 'mp4',
                'title': 'Queer: Bogotart (Varování 18+)',
                'duration': 10.2,
            },
        }, {
            'info_dict': {
                'id': '61924494877068022',
                'ext': 'mp4',
                'title': 'Queer: Bogotart (Queer)',
                'thumbnail': r're:^https?://.*\.jpg',
                'duration': 1558.3,
            },
        }],
        'params': {
            # m3u8 download
            'skip_download': True,
        },
    }]

    def _real_extract(self, url):
        video_id = self._match_id(url)

        webpage = self._download_webpage(url, video_id)

        data_url = unescapeHTML(self._search_regex(
            r'<span[^>]*\bdata-url=(["\'])(?P<url>(?:(?!\1).)+)\1',
            webpage, 'iframe player url', group='url'))

        return self.url_result(data_url, ie=CeskaTelevizeIE.ie_key())
Unify coding cookie 2016-10-02 13:39:18 +02:00			`# coding: utf-8`
[CeskaTelevize] Add initial support for ceskatelevize.cz 2014-03-01 11:47:52 +01:00			`from __future__ import unicode_literals`

			`import re`

[ceskatelevize] Convert to new subtitles system 2015-02-17 21:17:47 +01:00			`from .common import InfoExtractor`
Fix imports and general cleanup · Import from compat what comes from compat. Yes, some names are available in utils too, but that's an implementation detail. · Use _match_id consistently whenever possible · Fix some outdated tests · Use consistent valid URL (always match the whole protocol, no ^ at start required) · Use modern test definitions 2014-12-13 12:24:42 +01:00			`from ..compat import (`
[ceskatelevize] Use compat_urllib_parse_unquote 2015-07-17 19:36:11 +02:00			`compat_urllib_parse_unquote,`
[CeskaTelevize] raise ExtractorError if you are outside of CR 2014-03-01 16:17:29 +01:00			`compat_urllib_parse_urlparse,`
Fix imports and general cleanup · Import from compat what comes from compat. Yes, some names are available in utils too, but that's an implementation detail. · Use _match_id consistently whenever possible · Fix some outdated tests · Use consistent valid URL (always match the whole protocol, no ^ at start required) · Use modern test definitions 2014-12-13 12:24:42 +01:00			`)`
			`from ..utils import (`
[CeskaTelevize] raise ExtractorError if you are outside of CR 2014-03-01 16:17:29 +01:00			`ExtractorError,`
[ceskatelevize] Adapt to new API (Closes #4531) 2015-01-01 15:01:55 +01:00			`float_or_none,`
Switch codebase to use sanitized_Request instead of compat_urllib_request.Request [downloader/dash] Use sanitized_Request [downloader/http] Use sanitized_Request [atresplayer] Use sanitized_Request [bambuser] Use sanitized_Request [bliptv] Use sanitized_Request [brightcove] Use sanitized_Request [cbs] Use sanitized_Request [ceskatelevize] Use sanitized_Request [collegerama] Use sanitized_Request [extractor/common] Use sanitized_Request [crunchyroll] Use sanitized_Request [dailymotion] Use sanitized_Request [dcn] Use sanitized_Request [dramafever] Use sanitized_Request [dumpert] Use sanitized_Request [eitb] Use sanitized_Request [escapist] Use sanitized_Request [everyonesmixtape] Use sanitized_Request [extremetube] Use sanitized_Request [facebook] Use sanitized_Request [fc2] Use sanitized_Request [flickr] Use sanitized_Request [4tube] Use sanitized_Request [gdcvault] Use sanitized_Request [extractor/generic] Use sanitized_Request [hearthisat] Use sanitized_Request [hotnewhiphop] Use sanitized_Request [hypem] Use sanitized_Request [iprima] Use sanitized_Request [ivi] Use sanitized_Request [keezmovies] Use sanitized_Request [letv] Use sanitized_Request [lynda] Use sanitized_Request [metacafe] Use sanitized_Request [minhateca] Use sanitized_Request [miomio] Use sanitized_Request [meovideo] Use sanitized_Request [mofosex] Use sanitized_Request [moniker] Use sanitized_Request [mooshare] Use sanitized_Request [movieclips] Use sanitized_Request [mtv] Use sanitized_Request [myvideo] Use sanitized_Request [neteasemusic] Use sanitized_Request [nfb] Use sanitized_Request [niconico] Use sanitized_Request [noco] Use sanitized_Request [nosvideo] Use sanitized_Request [novamov] Use sanitized_Request [nowness] Use sanitized_Request [nuvid] Use sanitized_Request [played] Use sanitized_Request [pluralsight] Use sanitized_Request [pornhub] Use sanitized_Request [pornotube] Use sanitized_Request [primesharetv] Use sanitized_Request [promptfile] Use sanitized_Request [qqmusic] Use sanitized_Request [rtve] Use sanitized_Request [safari] Use sanitized_Request [sandia] Use sanitized_Request [shared] Use sanitized_Request [sharesix] Use sanitized_Request [sina] Use sanitized_Request [smotri] Use sanitized_Request [sohu] Use sanitized_Request [spankwire] Use sanitized_Request [sportdeutschland] Use sanitized_Request [streamcloud] Use sanitized_Request [streamcz] Use sanitized_Request [tapely] Use sanitized_Request [tube8] Use sanitized_Request [tubitv] Use sanitized_Request [twitch] Use sanitized_Request [twitter] Use sanitized_Request [udemy] Use sanitized_Request [vbox7] Use sanitized_Request [veoh] Use sanitized_Request [vessel] Use sanitized_Request [vevo] Use sanitized_Request [viddler] Use sanitized_Request [videomega] Use sanitized_Request [viewvster] Use sanitized_Request [viki] Use sanitized_Request [vk] Use sanitized_Request [vodlocker] Use sanitized_Request [voicerepublic] Use sanitized_Request [wistia] Use sanitized_Request [xfileshare] Use sanitized_Request [xtube] Use sanitized_Request [xvideos] Use sanitized_Request [yandexmusic] Use sanitized_Request [youku] Use sanitized_Request [youporn] Use sanitized_Request [youtube] Use sanitized_Request [patreon] Use sanitized_Request [extractor/common] Remove unused import [nfb] PEP 8 2015-11-21 17:18:17 +01:00			`sanitized_Request,`
[ceskateleveize:porady] Add extractor (closes #7411, closes #12645) 2017-04-08 14:42:09 +02:00			`unescapeHTML,`
Use urlencode_postdata across the codebase 2016-03-25 21:19:24 +01:00			`urlencode_postdata,`
[ceskatelevize] Extract DASH formats (closes #12119, closes #12133) 2017-02-14 16:56:39 +01:00			`USER_AGENTS,`
[CeskaTelevize] Add initial support for ceskatelevize.cz 2014-03-01 11:47:52 +01:00			`)`


[ceskatelevize] Convert to new subtitles system 2015-02-17 21:17:47 +01:00			`class CeskaTelevizeIE(InfoExtractor):`
[ceskateleveize] Improve extraction and remove URL replacement hacks 2017-04-08 14:41:14 +02:00			`_VALID_URL = r'https?://(?:www\.)?ceskatelevize\.cz/ivysilani/(?:[^/?#&]+/)*(?P<id>[^/#?]+)'`
[ceskatelevize] Extract playlists (Closes #6772) 2015-09-07 00:52:26 +02:00			`_TESTS = [{`
			`'url': 'http://www.ceskatelevize.cz/ivysilani/ivysilani/10441294653-hyde-park-civilizace/214411058091220',`
			`'info_dict': {`
[ceskatelevize] Quick fix to revert to using old HLS-based playlist This fixes recent changes in iVysilani. Proper patch should migrate to MPEG-DASH version, which is now the default. 2017-02-14 15:57:17 +01:00			`'id': '61924494877246241',`
[ceskatelevize] Extract playlists (Closes #6772) 2015-09-07 00:52:26 +02:00			`'ext': 'mp4',`
[ceskatelevize] Quick fix to revert to using old HLS-based playlist This fixes recent changes in iVysilani. Proper patch should migrate to MPEG-DASH version, which is now the default. 2017-02-14 15:57:17 +01:00			`'title': 'Hyde Park Civilizace: Život v Grónsku',`
			`'description': 'md5:3fec8f6bb497be5cdb0c9e8781076626',`
Fix "invalid escape sequences" error on Python 3.6 2017-01-02 13:08:07 +01:00			`'thumbnail': r're:^https?://.*\.jpg',`
[ceskatelevize] Extract playlists (Closes #6772) 2015-09-07 00:52:26 +02:00			`'duration': 3350,`
			`},`
			`'params': {`
			`# m3u8 download`
			`'skip_download': True,`
			`},`
[ceskatelevize] Simplify, restore bonus video test and skip georestricted test (Closes #9431) 2016-05-09 16:37:20 +02:00			`}, {`
			`'url': 'http://www.ceskatelevize.cz/ivysilani/10441294653-hyde-park-civilizace/215411058090502/bonus/20641-bonus-01-en',`
			`'info_dict': {`
			`'id': '61924494877028507',`
			`'ext': 'mp4',`
			`'title': 'Hyde Park Civilizace: Bonus 01 - En',`
			`'description': 'English Subtittles',`
Fix "invalid escape sequences" error on Python 3.6 2017-01-02 13:08:07 +01:00			`'thumbnail': r're:^https?://.*\.jpg',`
[ceskatelevize] Simplify, restore bonus video test and skip georestricted test (Closes #9431) 2016-05-09 16:37:20 +02:00			`'duration': 81.3,`
			`},`
			`'params': {`
			`# m3u8 download`
			`'skip_download': True,`
			`},`
[ceskatelevize] Extract playlists (Closes #6772) 2015-09-07 00:52:26 +02:00			`}, {`
[ceskatelevize] Add support for live streams Live streams has no playlist title, use title of the stream containing TV channel name. Internal m3u8 handler doesn't seem to handle well continuous streams. Add test for live stream. Remove no longer reachable test. 2016-05-07 20:15:49 +02:00			`# live stream`
			`'url': 'http://www.ceskatelevize.cz/ivysilani/zive/ct4/',`
[ceskatelevize] Extract playlists (Closes #6772) 2015-09-07 00:52:26 +02:00			`'info_dict': {`
[ceskatelevize] Add support for live streams Live streams has no playlist title, use title of the stream containing TV channel name. Internal m3u8 handler doesn't seem to handle well continuous streams. Add test for live stream. Remove no longer reachable test. 2016-05-07 20:15:49 +02:00			`'id': 402,`
[ceskatelevize] Extract playlists (Closes #6772) 2015-09-07 00:52:26 +02:00			`'ext': 'mp4',`
Fix "invalid escape sequences" error on Python 3.6 2017-01-02 13:08:07 +01:00			`'title': r're:^ČT Sport \d{4}-\d{2}-\d{2} \d{2}:\d{2}$',`
[ceskatelevize] Add support for live streams Live streams has no playlist title, use title of the stream containing TV channel name. Internal m3u8 handler doesn't seem to handle well continuous streams. Add test for live stream. Remove no longer reachable test. 2016-05-07 20:15:49 +02:00			`'is_live': True,`
[ceskatelevize] Extract playlists (Closes #6772) 2015-09-07 00:52:26 +02:00			`},`
			`'params': {`
			`# m3u8 download`
			`'skip_download': True,`
			`},`
[ceskatelevize] Simplify, restore bonus video test and skip georestricted test (Closes #9431) 2016-05-09 16:37:20 +02:00			`'skip': 'Georestricted to Czech Republic',`
[ceskatelevize] Extract playlists (Closes #6772) 2015-09-07 00:52:26 +02:00			`}, {`
[ceskateleveize] Improve extraction and remove URL replacement hacks 2017-04-08 14:41:14 +02:00			`'url': 'http://www.ceskatelevize.cz/ivysilani/embed/iFramePlayer.php?hash=d6a3e1370d2e4fa76296b90bad4dfc19673b641e&IDEC=217 562 22150/0004&channelID=1&width=100%25',`
			`'only_matching': True,`
[ceskatelevize] Extract playlists (Closes #6772) 2015-09-07 00:52:26 +02:00			`}]`
[CeskaTelevize] Add initial support for ceskatelevize.cz 2014-03-01 11:47:52 +01:00
			`def _real_extract(self, url):`
[ceskateleveize] Improve extraction and remove URL replacement hacks 2017-04-08 14:41:14 +02:00			`playlist_id = self._match_id(url)`
[CeskaTelevize] Add initial support for ceskatelevize.cz 2014-03-01 11:47:52 +01:00
[ceskatelevize] Extract playlists (Closes #6772) 2015-09-07 00:52:26 +02:00			`webpage = self._download_webpage(url, playlist_id)`
[CeskaTelevize] Add initial support for ceskatelevize.cz 2014-03-01 11:47:52 +01:00
[ceskatelevize] Fix video availability check and add geo unrestricted test 2014-03-01 16:54:37 +01:00			`NOT_AVAILABLE_STRING = 'This content is not available at your territory due to limited copyright.'`
			`if '%s</p>' % NOT_AVAILABLE_STRING in webpage:`
			`raise ExtractorError(NOT_AVAILABLE_STRING, expected=True)`
[CeskaTelevize] raise ExtractorError if you are outside of CR 2014-03-01 16:17:29 +01:00
[ceskateleveize] Improve extraction and remove URL replacement hacks 2017-04-08 14:41:14 +02:00			`type_ = None`
			`episode_id = None`

			`playlist = self._parse_json(`
			`self._search_regex(`
			`r'getPlaylistUrl\(\[({.+?})\]', webpage, 'playlist',`
			`default='{}'), playlist_id)`
			`if playlist:`
			`type_ = playlist.get('type')`
			`episode_id = playlist.get('id')`

			`if not type_:`
			`type_ = self._html_search_regex(`
			`r'getPlaylistUrl\(\[\{"type":"(.+?)","id":".+?"\}\],',`
			`webpage, 'type')`
			`if not episode_id:`
			`episode_id = self._html_search_regex(`
			`r'getPlaylistUrl\(\[\{"type":".+?","id":"(.+?)"\}\],',`
			`webpage, 'episode_id')`
[CeskaTelevize] Add initial support for ceskatelevize.cz 2014-03-01 11:47:52 +01:00
			`data = {`
[ceskateleveize] Improve extraction and remove URL replacement hacks 2017-04-08 14:41:14 +02:00			`'playlist[0][type]': type_,`
[CeskaTelevize] Add initial support for ceskatelevize.cz 2014-03-01 11:47:52 +01:00			`'playlist[0][id]': episode_id,`
			`'requestUrl': compat_urllib_parse_urlparse(url).path,`
			`'requestSource': 'iVysilani',`
			`}`

[ceskatelevize] Extract playlists (Closes #6772) 2015-09-07 00:52:26 +02:00			`entries = []`
[ceskatelevize] Extract DASH formats (closes #12119, closes #12133) 2017-02-14 16:56:39 +01:00
			`for user_agent in (None, USER_AGENTS['Safari']):`
			`req = sanitized_Request(`
			`'http://www.ceskatelevize.cz/ivysilani/ajax/get-client-playlist',`
			`data=urlencode_postdata(data))`

			`req.add_header('Content-type', 'application/x-www-form-urlencoded')`
			`req.add_header('x-addr', '127.0.0.1')`
			`req.add_header('X-Requested-With', 'XMLHttpRequest')`
			`if user_agent:`
			`req.add_header('User-Agent', user_agent)`
			`req.add_header('Referer', url)`

			`playlistpage = self._download_json(req, playlist_id, fatal=False)`

			`if not playlistpage:`
			`continue`

			`playlist_url = playlistpage['url']`
			`if playlist_url == 'error_region':`
			`raise ExtractorError(NOT_AVAILABLE_STRING, expected=True)`

			`req = sanitized_Request(compat_urllib_parse_unquote(playlist_url))`
			`req.add_header('Referer', url)`

			`playlist_title = self._og_search_title(webpage, default=None)`
			`playlist_description = self._og_search_description(webpage, default=None)`

			`playlist = self._download_json(req, playlist_id, fatal=False)`
			`if not playlist:`
			`continue`

			`playlist = playlist.get('playlist')`
			`if not isinstance(playlist, list):`
			`continue`

			`playlist_len = len(playlist)`

			`for num, item in enumerate(playlist):`
			`is_live = item.get('type') == 'LIVE'`
			`formats = []`
			`for format_id, stream_url in item.get('streamUrls', {}).items():`
			`if 'playerType=flash' in stream_url:`
[ceskatelevize] Lower priority for audio description sources (#12119) 2017-02-15 18:04:15 +01:00			`stream_formats = self._extract_m3u8_formats(`
[downloader/hls] immediately delegate downloading to ffmpeg in case live stream 2017-03-25 19:37:54 +01:00			`stream_url, playlist_id, 'mp4', 'm3u8_native',`
[ceskatelevize] Lower priority for audio description sources (#12119) 2017-02-15 18:04:15 +01:00			`m3u8_id='hls-%s' % format_id, fatal=False)`
[ceskatelevize] Extract DASH formats (closes #12119, closes #12133) 2017-02-14 16:56:39 +01:00			`else:`
[ceskatelevize] Lower priority for audio description sources (#12119) 2017-02-15 18:04:15 +01:00			`stream_formats = self._extract_mpd_formats(`
			`stream_url, playlist_id,`
			`mpd_id='dash-%s' % format_id, fatal=False)`
			`# See https://github.com/rg3/youtube-dl/issues/12119#issuecomment-280037031`
			`if format_id == 'audioDescription':`
			`for f in stream_formats:`
			`f['source_preference'] = -10`
			`formats.extend(stream_formats)`
[ceskatelevize] Extract DASH formats (closes #12119, closes #12133) 2017-02-14 16:56:39 +01:00
			`if user_agent and len(entries) == playlist_len:`
			`entries[num]['formats'].extend(formats)`
			`continue`

			`item_id = item.get('id') or item['assetId']`
			`title = item['title']`

			`duration = float_or_none(item.get('duration'))`
			`thumbnail = item.get('previewImageUrl')`

			`subtitles = {}`
			`if item.get('type') == 'VOD':`
			`subs = item.get('subtitles')`
			`if subs:`
			`subtitles = self.extract_subtitles(episode_id, subs)`

			`if playlist_len == 1:`
			`final_title = playlist_title or title`
			`if is_live:`
			`final_title = self._live_title(final_title)`
			`else:`
			`final_title = '%s (%s)' % (playlist_title, title)`

			`entries.append({`
			`'id': item_id,`
			`'title': final_title,`
			`'description': playlist_description if playlist_len == 1 else None,`
			`'thumbnail': thumbnail,`
			`'duration': duration,`
			`'formats': formats,`
			`'subtitles': subtitles,`
			`'is_live': is_live,`
			`})`

			`for e in entries:`
			`self._sort_formats(e['formats'])`
[ceskatelevize] Extract playlists (Closes #6772) 2015-09-07 00:52:26 +02:00
			`return self.playlist_result(entries, playlist_id, playlist_title, playlist_description)`
ceskatelevize: Closed captions support 2015-01-02 17:12:20 +01:00
[ceskatelevize] Convert to new subtitles system 2015-02-17 21:17:47 +01:00			`def _get_subtitles(self, episode_id, subs):`
			`original_subtitles = self._download_webpage(`
			`subs[0]['url'], episode_id, 'Downloading subtitles')`
			`srt_subs = self._fix_subtitles(original_subtitles)`
			`return {`
			`'cs': [{`
			`'ext': 'srt',`
			`'data': srt_subs,`
			`}]`
			`}`

[ceskatelevize] Simplify 2015-01-07 00:03:14 +01:00			`@staticmethod`
			`def _fix_subtitles(subtitles):`
			`""" Convert millisecond-based subtitles to SRT """`
ceskatelevize: Closed captions support 2015-01-02 17:12:20 +01:00
			`def _msectotimecode(msec):`
[ceskatelevize] Simplify 2015-01-07 00:03:14 +01:00			`""" Helper utility to convert milliseconds to timecode """`
ceskatelevize: Closed captions support 2015-01-02 17:12:20 +01:00			`components = []`
			`for divider in [1000, 60, 60, 100]:`
			`components.append(msec % divider)`
			`msec //= divider`
[refactor] Single quotes consistency 2016-02-14 10:37:17 +01:00			`return '{3:02}:{2:02}:{1:02},{0:03}'.format(*components)`
ceskatelevize: Closed captions support 2015-01-02 17:12:20 +01:00
			`def _fix_subtitle(subtitle):`
			`for line in subtitle.splitlines():`
[refactor] Single quotes consistency 2016-02-14 10:37:17 +01:00			`m = re.match(r'^\s([0-9]+);\s([0-9]+)\s+([0-9]+)\s*$', line)`
ceskatelevize: Closed captions support 2015-01-02 17:12:20 +01:00			`if m:`
			`yield m.group(1)`
			`start, stop = (_msectotimecode(int(t)) for t in m.groups()[1:])`
[refactor] Single quotes consistency 2016-02-14 10:37:17 +01:00			`yield '{0} --> {1}'.format(start, stop)`
ceskatelevize: Closed captions support 2015-01-02 17:12:20 +01:00			`else:`
			`yield line`

[refactor] Single quotes consistency 2016-02-14 10:37:17 +01:00			`return '\r\n'.join(_fix_subtitle(subtitles))`
[ceskateleveize:porady] Add extractor (closes #7411, closes #12645) 2017-04-08 14:42:09 +02:00

			`class CeskaTelevizePoradyIE(InfoExtractor):`
			`_VALID_URL = r'https?://(?:www\.)?ceskatelevize\.cz/porady/(?:[^/?#&]+/)*(?P<id>[^/#?]+)'`
			`_TESTS = [{`
			`# video with 18+ caution trailer`
			`'url': 'http://www.ceskatelevize.cz/porady/10520528904-queer/215562210900007-bogotart/',`
			`'info_dict': {`
			`'id': '215562210900007-bogotart',`
			`'title': 'Queer: Bogotart',`
			`'description': 'Alternativní průvodce současným queer světem',`
			`},`
			`'playlist': [{`
			`'info_dict': {`
			`'id': '61924494876844842',`
			`'ext': 'mp4',`
			`'title': 'Queer: Bogotart (Varování 18+)',`
			`'duration': 10.2,`
			`},`
			`}, {`
			`'info_dict': {`
			`'id': '61924494877068022',`
			`'ext': 'mp4',`
			`'title': 'Queer: Bogotart (Queer)',`
			`'thumbnail': r're:^https?://.*\.jpg',`
			`'duration': 1558.3,`
			`},`
			`}],`
			`'params': {`
			`# m3u8 download`
			`'skip_download': True,`
			`},`
			`}]`

			`def _real_extract(self, url):`
			`video_id = self._match_id(url)`

			`webpage = self._download_webpage(url, video_id)`

			`data_url = unescapeHTML(self._search_regex(`
			`r'<span[^>]*\bdata-url=(["\'])(?P<url>(?:(?!\1).)+)\1',`
			`webpage, 'iframe player url', group='url'))`

			`return self.url_result(data_url, ie=CeskaTelevizeIE.ie_key())`