[JioSaavn] Add extractor

2024-11-22 16:44:32 +01:00 · 2019-01-09 02:46:06 +05:30 · 2019-01-09 02:46:06 +05:30 · 6635b191fc
commit 6635b191fc
parent 45f6362464
2 changed files with 122 additions and 0 deletions
--- a/youtube_dl/extractor/extractors.py
+++ b/youtube_dl/extractor/extractors.py
@ -495,6 +495,10 @@ from .jamendo import (
    JamendoAlbumIE,
 )
 from .jeuxvideo import JeuxVideoIE
+from .jiosaavn import (
+    JioSaavnSongIE,
+    JioSaavnAlbumIE,
+)
 from .jove import JoveIE
 from .joj import JojIE
 from .jwplatform import JWPlatformIE
--- a/youtube_dl/extractor/jiosaavn.py
+++ b/youtube_dl/extractor/jiosaavn.py
@ -0,0 +1,118 @@
+# coding: utf-8
+from __future__ import unicode_literals
+
+import random
+import re
+import string
+import time
+
+from .common import InfoExtractor
+from ..utils import (
+    unescapeHTML,
+    urlencode_postdata,
+)
+
+
+class JioSaavnBaseInfoExtractor(InfoExtractor):
+    def extract_initial_data_as_json(self, url, id):
+        webpage = self._download_webpage(url, id)
+        init_data_re = r'window.__INITIAL_DATA__\s*=\s*(?P<json>.+?);*\s*\</script>'
+
+        def sanitize_init_data(init_data):
+            new_date_call_re = r'new Date\(.+?\)'
+            return re.sub(new_date_call_re, '"%s"' % time.ctime(), unescapeHTML(init_data))
+
+        init_data = self._parse_json(self._search_regex(init_data_re, webpage,
+                                                        'init-json'),
+                                     id, transform_source=sanitize_init_data)
+        return init_data
+
+
+class JioSaavnSongIE(JioSaavnBaseInfoExtractor):
+    _VALID_URL = r'''(?x)
+                    https?://(?:www\.)?
+                        (?:
+                            jiosaavn\.com/song/[^/]+/|
+                            saavn.com/s/song/(?:[^/]+/){3}
+                        )
+                        (?P<id>[\w\d]+)
+                   '''
+    _TESTS = [{
+        'url': 'https://www.jiosaavn.com/song/leja-re/OQsEfQFVUXk',
+        'md5': '7b1f70de088ede3a152ea34aece4df42',
+        'info_dict': {
+            'id': 'OQsEfQFVUXk',
+            'ext': 'mp3',
+            'title': 'Leja Re',
+            'album': 'Leja Re',
+        },
+    }, {
+        'url': 'https://www.saavn.com/s/song/hindi/Saathiya/O-Humdum-Suniyo-Re/KAMiazoCblU',
+        'only_matching': True,
+    }]
+
+    def _real_extract(self, url):
+        audio_id = self._match_id(url)
+        fp = ''.join([random.choice(string.hexdigits) for _ in range(32)])
+
+        # This is required, else server won't return the media_url (extracted below)
+        self._download_webpage('https://www.jiosaavn.com/stats.php', audio_id,
+                               query={
+                                   'ev': 'site:browser:fp',
+                                   'fp': fp,
+                                   '_t': int(time.time()),
+                                   'ct': '00000000',
+                               })
+
+        song_data = self.extract_initial_data_as_json(url, audio_id)['song']['song']
+
+        data = urlencode_postdata({'__call': 'song.generateAuthToken',
+                                   '_format': 'json',
+                                   'bitrate': '128',
+                                   'url': song_data['encrypted_media_url'],
+                                   })
+
+        def clean_api_json(resp):
+            return self._search_regex(r'(?P<json>\{.+?})', resp, 'api-json')
+
+        media_url = self._download_json('https://www.jiosaavn.com/api.php',
+                                        audio_id, data=data,
+                                        transform_source=clean_api_json,
+                                        )['auth_url']
+
+        return {
+            'id': audio_id,
+            'title': song_data['title']['text'],
+            'formats': [{
+                'url': media_url,
+                'ext': 'mp3',
+                'format_note': 'MPEG audio',
+                'format_id': '128',
+                'vcodec': 'none',
+            }],
+            'album': song_data.get('album', {}).get('text'),
+            'thumbnail': song_data.get('image', [None])[0],
+        }
+
+
+class JioSaavnAlbumIE(JioSaavnBaseInfoExtractor):
+    _VALID_URL = r'''(?x)
+                    https?://(?:www\.)?
+                        (?:(?:jio)?saavn\.com/album/[^/]+/)
+                        (?P<id>[\w\d]+)
+                   '''
+    _TESTS = [{
+        'url': 'https://www.jiosaavn.com/album/96/buIOjYZDrNA_',
+        'info_dict': {
+            'id': 'buIOjYZDrNA_',
+            'title': '96',
+        },
+        'playlist_count': 10,
+    }]
+
+    def _real_extract(self, url):
+        album_id = self._match_id(url)
+        album_data = self.extract_initial_data_as_json(url, album_id)['albumView']['album']
+        songs = [self.url_result(song['perma_url']) for song in album_data['songs']]
+
+        return self.playlist_result(songs, album_id, album_data.get('title', {}).get('text'))