Merge remote-tracking branch 'diffycat/thvideo'

2024-12-27 02:09:06 +00:00 · 2014-09-21 15:50:01 +02:00 · 2014-09-21 15:50:01 +02:00 · 3ef7d11acd
commit 3ef7d11acd
parent b28c8403b2 72e450c555
2 changed files with 56 additions and 0 deletions
--- a/youtube_dl/extractor/init.py
+++ b/youtube_dl/extractor/init.py
@ -362,6 +362,7 @@ from .thisav import ThisAVIE
 from .tinypic import TinyPicIE
 from .tlc import TlcIE, TlcDeIE
 from .tnaflix import TNAFlixIE
 from .thvideo import THVideoIE
 from .toutv import TouTvIE
 from .toypics import ToypicsUserIE, ToypicsIE
 from .traileraddict import TrailerAddictIE
--- a/youtube_dl/extractor/thvideo.py
+++ b/youtube_dl/extractor/thvideo.py
@ -0,0 +1,55 @@
 # coding: utf-8
 from __future__ import unicode_literals
 import re
 from .common import InfoExtractor
 from ..utils import (
    unified_strdate
 )
 class THVideoIE(InfoExtractor):
    _VALID_URL = r'https?://(?:www\.)?thvideo\.tv/v/th(?P<id>[0-9]+)'
    _TEST = {
        'url': 'http://thvideo.tv/v/th1987/',
        'md5': 'fa107b1f73817e325e9433505a70db50',
        'info_dict': {
            'id': '1987',
            'ext': 'mp4',
            'title': '【动画】秘封活动记录 ～ The Sealed Esoteric History.分镜稿预览',
            'display_id': 'th1987',
            'thumbnail': 'http://thvideo.tv/uploadfile/2014/0722/20140722013459856.jpg',
            'description': '社团京都幻想剧团的第一个东方二次同人动画作品「秘封活动记录 ～ The Sealed Esoteric History.」 本视频是该动画第一期的分镜草稿...',
            'upload_date': '20140722'
        }
    }
    def _real_extract(self, url):
        mobj = re.match(self._VALID_URL, url)
        video_id = mobj.group('id')
        # extract download link from mobile player page
        webpage_player = self._download_webpage('http://thvideo.tv/mobile.php?cid=%s-0' % video_id, video_id)
        video_url = self._html_search_regex(r'<source src="(.*?)" type', webpage_player, 'video url')
        # extract video info from main page
        webpage = self._download_webpage(url, video_id)
        title = self._og_search_title(webpage)
        display_id = 'th%s' % video_id
        thumbnail = self._og_search_thumbnail(webpage)
        description = self._og_search_description(webpage)
        upload_date_raw = self._html_search_regex(r'span itemprop="datePublished" content="(.*?)">', webpage,
                                                  'upload date', fatal=False)
        upload_date = unified_strdate(upload_date_raw)
        return {
            'id': video_id,
            'ext': 'mp4',
            'url': video_url,
            'title': title,
            'display_id': display_id,
            'thumbnail': thumbnail,
            'description': description,
            'upload_date': upload_date
        }