Merge remote-tracking branch 'peugeot/drtuber'

2024-11-22 16:44:32 +01:00 · 2014-09-01 23:17:27 +02:00 · 2014-09-01 23:17:27 +02:00 · 94388f50b3
commit 94388f50b3
parent a444648202 d740f7e16f
2 changed files with 49 additions and 0 deletions
--- a/youtube_dl/extractor/init.py
+++ b/youtube_dl/extractor/init.py
@ -70,6 +70,7 @@ from .daum import DaumIE
 from .dfb import DFBIE
 from .dotsub import DotsubIE
 from .dreisat import DreiSatIE
 from .drtuber import DrTuberIE
 from .drtv import DRTVIE
 from .dump import DumpIE
 from .defense import DefenseGouvFrIE
--- a/youtube_dl/extractor/drtuber.py
+++ b/youtube_dl/extractor/drtuber.py
@ -0,0 +1,48 @@
 from __future__ import unicode_literals
 import re
 from .common import InfoExtractor
 class DrTuberIE(InfoExtractor):
    _VALID_URL = r'https?://(?:www\.)?drtuber\.com/video/(?P<id>\d+)/(?P<title_dash>[\w-]+)'
    _TEST = {
        'url': 'http://www.drtuber.com/video/1740434/hot-perky-blonde-naked-golf',
        'md5': '93e680cf2536ad0dfb7e74d94a89facd',
        'info_dict': {
            'id': '1740434',
            'ext': 'mp4',
            'title': 'Hot Perky Blonde Naked Golf',
            'categories': list,  # NSFW
            'thumbnail': 're:https?://.*\.jpg$',
        }
    }
    def _real_extract(self, url):
        mobj = re.match(self._VALID_URL, url)
        video_id = mobj.group('id')
        webpage = self._download_webpage(url, video_id)
        video_url = self._html_search_regex(
            r'<source src="([^"]+)"', webpage, 'video URL')
        title = self._html_search_regex(
            r'<title>([^<]+)\s*-\s*Free', webpage, 'title')
        thumbnail = self._html_search_regex(
            r'poster="([^"]+)"',
            webpage, 'thumbnail', fatal=False)
        categories_str = self._html_search_regex(
            r'<meta name="keywords" content="([^"]+)"', webpage, 'categories', fatal=False)
        categories = categories_str.split(' ')
        return {
            'id': video_id,
            'url': video_url,
            'title': title,
            'thumbnail': thumbnail,
            'categories': categories,
        }