Поисковик кадров из аниме

Дата: 07 июля 2016 19:35 #1

Поисковик кадров из аниме

Делаю сайт по поиску кадров из аниме (наподобие iqdb.org для видео) с устойчивостью к некоторым изменениям (цвета, масштаб, фильтры).

Сейчас в базе около 200 видео (целиком Bakuman, Chihayafuru, Hyouka, Magic Kaito, Kyoukai no Kanata, Golden Time, Steins Gate; весь список).

Выглядит это так (кадры из Externalize):


Сам сайт: https://anivi.se

Можно загрузить одиночную картинку или zip-архив с ними. За раз можно запустить поиск максимум 10 кадров, но когда он закончен можно вернуться к выбору кадров из того же архива, нажав на 2. Select... и начать новый поиск других кадров.

В поиске есть ошибки - буду признателен за ссылки на них в связке с исходником, это очень поможет в доработке алгоритма. Пока что я в основном работал с Externalize и Coup de Grace.

Пока исходников в базе очень мало (202 штуки), но индексация занимает много времени и её нужно повторять при изменении алгоритма, так что хочу сначала его отточить, а потом добавить ещё пару тысяч исходников в базу.

Кто что думает?
Дата: 07 июля 2016 20:02 #2
Ну, не знаю, как вообще идея родилась?
Сама по себе задача такого поиска - из разряда редких и не столь нужных, как мне кажется. Очень редко человек заинтересован кадрами в клипе. Часто проще достучаться до самого атвора, чем исопльзовать громоздкий механизм.
Плюс на таких клипах, как у Умики например, где все отрисовано с нуля, или кроссоверы - это же не будет работать...

Обратная задача поиска нужных сцен, мне кажется была бы более востребованной. Но она и более сложная - переписать исходники посценово, но и при этом многие нюансы нужные для клипа могут ускользнуть...

Т.е. дело то, наверное, важное и нужное, но мне пока даже сложно представить для чего...
formspring
WA
Fantlab
Kinopoisk
Facebook



Car Salesman: Say. Are you fellows drinking?
Duke: Not me. We're responsible people.
Дата: 07 июля 2016 20:27 #3
Идея родилась потому, что занимался подобной задачей в другой области и это показалось интересным.

В комментах к AMV всегда спрашивают "а откуда взят этот кадр на 33 секунду" или "что это за парень". А тут не надо спрашивать - загрузил кадр на сайт и нашел, откуда он взят, если повезёт.

Часто проще достучаться до самого атвора, чем исопльзовать громоздкий механизм.

Громоздкий в каком смысле? Сложно сохранить кадр и загрузить на сайт?

Чтобы до автора достучаться надо пробиться к нему в ВК/Скайп/и т.п. и то не факт, что он ответит. У меня уже был такой опыт, см. мои старые сообщения.
Дата: 07 июля 2016 23:40 #4
1) По -поводу громоздкости, я имела в виду, что нужно там что-то писать, отлаживать, внедрять, работать оно будет в 70%, так как на кроссоверных кадрах такое точно пахать не будет и тд...

2) Обычно в комментах спрашивают, в большинстве своем, не с целью использовать это в клипе, а чтобы потешить любопытство. Но иногда и для мейкинга, да. Какой-то глобальной происзводственной необходимости задача , как мне кажется, не несет

3) А вот, действительно важная задача (кто-то тут о таком уже писал ранее) - отыскивать по базе отработанных моментов подходящие (но не из амв, а в принципе). Пример - я работаю с романтическими исходниками, у меня накопилась большая база кадров с красиво двигающимися девушками (танец и тп). Ила база кдаров, где появляются ювелирные украшения или талисманы. Я не буду это использовать, но готова поделится с коллегами. Вот это было бы действительно полезно в рамках сайта - создать такую базу данных по кадрам.


Я только один раз видела что-то подобное у Рассела Д. Джонса в его кроссарт-проекте. Но он слишком узконаправленный был. У него в базе были разные искусства - фотография. театр, книги.

Это только мое мнение.
И оно не означает, что Ваш проект не такой уж удачный. При определенных условиях он будет давать неплохой результат и возможно, кому-то реально поможет.
formspring
WA
Fantlab
Kinopoisk
Facebook



Car Salesman: Say. Are you fellows drinking?
Duke: Not me. We're responsible people.
Дата: 08 июля 2016 05:16 #5
Очень круто. Прям работает. Smile

А как это масштабируется с 200 исходников до, скажем, 20000? Сильно большой будет индекс? Долго в нём будет искать? Сильно долго его перестраивать? Почему всякие яндексы до сих пор не сделали поиск по фильмам и сериалам, какие-то проблемы с этим есть, наверное?

Что-то не то с сертификатом. https://yadi.sk/i/sLa7nHY8t72y7
Дата: 08 июля 2016 06:27 #6
У меня на сайт не заходит, пишет что там вирус и «Ваше соединение не защищено».
Дата: 08 июля 2016 10:29 #7
работать оно будет в 70%, так как на кроссоверных кадрах такое точно пахать не будет и тд...

Ну так задачи работать в 100% случаев не стоит. Даже из Externalize часть кросс-овера распознаётся (последний кадр на скрине).

Зато кадры с небольшими изменениями распознаются практически всегда.

Обычно в комментах спрашивают, в большинстве своем, не с целью использовать это в клипе, а чтобы потешить любопытство.

А при чём тут использование в клипе? Я думаю так: посмотрел ролик, заинтересовался персонажем (рисовкой и т.п.) - захотелось посмотреть весь сериал. Для этого и спрашивают. RenaSun, например, меня сподвигла посмотреть Chihayafuru Smile

[spoiler]Externalize в десять раз лучше всех своих исходников[/spoiler]

А вот, действительно важная задача (кто-то тут о таком уже писал ранее) - отыскивать по базе отработанных моментов подходящие (но не из амв, а в принципе).

Это может быть интересно, но из твоего описания я толком ничего не понял.

А как это масштабируется с 200 исходников до, скажем, 20000? Сильно большой будет индекс?

Насчёт 20000 не уверен, но до 10000 вполне реально сделать индекс на одном-двух обычных серверах по $100 каждый. Скорость поиска упадёт, но не сильно (думаю, что до полуминуты-минуты на кадр; сейчас 10-20 сек).

Самая большая проблема в перестройке индекса, т.к. он завязан на алгоритм и одна серия индексируется минут 20.

Почему всякие яндексы до сих пор не сделали поиск по фильмам и сериалам, какие-то проблемы с этим есть, наверное?

Я сам задавался этим вопросом, действительно странно, что даже у Google/YouTube нет поиска по видео. Там есть сложности, но нет таких, которые бы не могли преодолеть человек 20 разработчиков и мешок $$$.

Я сейчас хочу проиндексировать несколько тысяч серий после доработки алгоритма, но для этого мне нужны примеры сложных кадров из AMV и их источники в аниме.

У меня на сайт не заходит, пишет что там вирус и «Ваше соединение не защищено».

Вируса там нет, сертификат был временный. Поставил нормальный, попробуй ещё раз.
Дата: 08 июля 2016 15:19 #8
но для этого мне нужны примеры сложных кадров из AMV и их источники в аниме.


А в этом какая-то сложность?
Имеется в виду кадры, которые претерпели существенные изменения?
Пример - кроссовер Санлайта на последний Акросс, как минимум. Клипы Умики.

Просто миксов слегка подвергнутых цк и того больше на порядки.

И вообще - это вопрос был, или констатация плана?)

По своему вопросу - я так поняла, что это скорее к коллегам клипмейкерам, а не к разработчикам.

Имелась в виду база "Знаний" по кадрам. То есть существуют популярные кадры, которые часто требуются авторами для создания амв (часы, оружие, птицы, конкретные виды), которых нет в выбранном исходнике. И хорошо, если бы был какой-то перечень, созданный совместными усилиями и опытом. Ну неплохо было бы продумать формат хранения такой информации.
“No, this is not a good town for psychedelic drugs. Reality itself is too twisted.”
Дата: 08 июля 2016 19:32 #9
А в этом какая-то сложность?
Имеется в виду кадры, которые претерпели существенные изменения?
Пример - кроссовер Санлайта на последний Акросс, как минимум. Клипы Умики.

Сложность не в сложных кадрах из AMV, а в том, что кроме них нужны соответствующие исходники, из которых они созданы.

Просто миксов слегка подвергнутых цк и того больше на порядки.

Вот, поэтому я и думаю, что распознавание 100% кроссоверов и прочих сложных случаев не так важно.

И вообще - это вопрос был, или констатация плана?)

Просьба скорее Smile Как я написал в первом посте, мне нужны кадры из AMV в связке с их исходниками. Поиск таких связок занимает у меня самого кучу времени.

Имелась в виду база "Знаний" по кадрам. То есть существуют популярные кадры, которые часто требуются авторами для создания амв (часы, оружие, птицы, конкретные виды), которых нет в выбранном исходнике. И хорошо, если бы был какой-то перечень, созданный совместными усилиями и опытом. Ну неплохо было бы продумать формат хранения такой информации.

Это может быть интересно. Обсудим?
Дата: 08 июля 2016 21:39 #10
Просьба скорее Smile Как я написал в первом посте, мне нужны кадры из AMV в связке с их исходниками. Поиск таких связок занимает у меня самого кучу времени.


А) Теперь поняла, что для теста нужна полная информация от автора) Ок. С этим помогу, пока есть время, напомните в лс

Это может быть интересно. Обсудим?


в любое время)
formspring
WA
Fantlab
Kinopoisk
Facebook



Car Salesman: Say. Are you fellows drinking?
Duke: Not me. We're responsible people.
Дата: 10 июля 2016 17:28 #11
А) Теперь поняла, что для теста нужна полная информация от автора) Ок. С этим помогу, пока есть время, напомните в лс

О чём/когда?

Это может быть интересно. Обсудим?

в любое время)

Это вообще кому-то интересно? Форум живой, но в этой теме отписалось 3 человека, что как бы намекает на полезность сабжа (моего и Lion0608).
Дата: 10 июля 2016 18:54 #12
вообще очень полезная штука может быть, если довести до ума
помню Азза как то написал подобную прогу, но она весьма условно искала кадр, вееееесма условно...
gerator:
Это может быть интересно. Обсудим?

что то типа набора тегов, выбрал нужный > получил перечень исходников + набор кадров
но кто-то должен эти теги прописывать, может при поиске картинки давать возможность пользователю поставить его?
Дата: 10 июля 2016 19:50 #13
gerator:
Насчёт 20000 не уверен, но до 10000 вполне реально сделать индекс на одном-двух обычных серверах по $100 каждый. Скорость поиска упадёт, но не сильно (думаю, что до полуминуты-минуты на кадр; сейчас 10-20 сек).

Похоже, что поиск в видео сложная и недешёвая штука. Думаю, не имеет смысла делать её только на какой-то ограниченной выборке аниме, только на плюс-минус полной. Но полная выборка это N тысяч тайтлов, может быть даже NN тысяч. Сколько в среднем в тайтле серий по 20 минут? Хз, ну пусть примерно 10. То есть надо закладываться на 100к серий. Это что, 10 серверов, $1000 в месяц? Многовато для проекта по фану. Да даже если всё-таки ограничиться минимально разумной выборкой, $100-200 каждый месяц выкладывать может быть напряжно.

А также точно не имеет смысла делать подобный сервис, ориентируясь на такую узкую аудиторию, как амвшники. Возможно, имеет смысл делать её для анимешников вообще. Скорее даже для любителей кино.

gerator:
Самая большая проблема в перестройке индекса, т.к. он завязан на алгоритм и одна серия индексируется минут 20.

Наверное, надо как-то избавиться от этой завязки. Cool Какие-то фичи избыточные хранить. Или что там алгоритму нужно.
Дата: 10 июля 2016 21:09 #14
Цитата:
А) Теперь поняла, что для теста нужна полная информация от автора) Ок. С этим помогу, пока есть время, напомните в лс

О чём/когда?


Если я правильно поняла задачи, то автор называет исходники и тайминги точные, чтобы проверить работу на уровне теста. Я могу быть не права. Предположим, что у меня есть клип, который я хорошо знаю, там много относительно редких исходников.

Это вообще кому-то интересно? Форум живой, но в этой теме отписалось 3 человека, что как бы намекает на полезность сабжа (моего и Lion0608).


Да всем полезно, просто я в относительно длинном отпуске, есть возможность копошиться на форуме.
На самом деле, писать в теме, которая предназначена в большей степени для флуда такой тред быстро теряется. Можно, если админы не против, написать в тему по созданию амв (прочие вопросы), или в тему про аниме.
formspring
WA
Fantlab
Kinopoisk
Facebook



Car Salesman: Say. Are you fellows drinking?
Duke: Not me. We're responsible people.
Дата: 11 июля 2016 08:16 #15
Спасибо за ответы, minna.

Artofeel

вообще очень полезная штука может быть, если довести до ума
помню Азза как то написал подобную прогу, но она весьма условно искала кадр, вееееесма условно...

С поиском у меня нормально, больше проблема с малым объёмом базы, но эти две вещи связанные, уменьшая одно увеличиваешь другое. Надо определить золотую середину.

А что ты имеешь в виду под "довести до ума"?

что то типа набора тегов, выбрал нужный > получил перечень исходников + набор кадров
но кто-то должен эти теги прописывать, может при поиске картинки давать возможность пользователю поставить его?

Тут нужен отдельный интерфейс, т.к. загружаемые картинки могут быть вообще "левые". К тому же, надо фильтровать дубликаты этих загрузок, т.е. могут быть два кадра, которые неидентичны из-за пережатия или размера, но по сути дубликаты.

Я так понимаю, имеется набор серий, к каждой серии можно добавить теги "от Х:ХХ до Х:ХХ" (временной интервал) + поиск по этим тегам, который показывает интервалы и кадры из них.

Ничего сложного не вижу, если идея всплывала раньше, почему её не реализовали? Хоть на банальной вики, хоть какой-то тред на форуме особого формата, если ничего не программировать.

Lirinis

Думаю, не имеет смысла делать её только на какой-то ограниченной выборке аниме, только на плюс-минус полной. Но полная выборка это N тысяч тайтлов, может быть даже NN тысяч.

Не уверен насчёт NN. Обычное правило: для получения 100% результата нужно потратить в 4 раза больше усилий, чем для 80%. В нашем случае это только популярные сезоны vs все вообще.

1000 тайтлов по 20 эпизодов по ресурсам выглядит вполне реально даже с текущим тяжёлым (то есть устойчивым) поиском.

А также точно не имеет смысла делать подобный сервис, ориентируясь на такую узкую аудиторию, как амвшники. Возможно, имеет смысл делать её для анимешников вообще. Скорее даже для любителей кино.

Здесь согласен, аудитория AMV очень узкая, но на ней можно проверить идеи.

А для чего такой поиск может быть полезен любителям кино? На ум приходят только трейлеры, но они по определению сделаны для одного фильма, который заранее изсестен, и может какие-то любительские нарезки, которые с AMV рядом не стояли по сложности.

Наверное, надо как-то избавиться от этой завязки. :8 Какие-то фичи избыточные хранить. Или что там алгоритму нужно.

В поиске много переменных и я сейчас хочу понять, куда его развивать. Например, большая проблема в устойчивости ко всяким кропам и склейке разных кадров. Простой поиск по почти неизменённым кадрам может быть на порядок быстрее и меньше требовать ресурсов (такой поиск я сделал сразу, а потом несколько месяцев делал устойчивость к разным фильтрам). Но мне кажется это не перспективно, поэтому и начал эту тему.

Lion0608

Если я правильно поняла задачи, то автор называет исходники и тайминги точные, чтобы проверить работу на уровне теста. Я могу быть не права. Предположим, что у меня есть клип, который я хорошо знаю, там много относительно редких исходников.

Да, то есть мне нужна таблица - берём какое-то AMV (можно целиком, можно наиболее интересные куски), к нему пишем:

[code:1]время в amv | исходное аниме | № серии | время в серии[/code:1]
Интересны именно сложные моменты в плане отклонений от исходника. Имея большое число вариантов изменений я могу как-то облегчить поиск.

На самом деле, писать в теме, которая предназначена в большей степени для флуда такой тред быстро теряется. Можно, если админы не против, написать в тему по созданию амв (прочие вопросы), или в тему про аниме.

Тут раньше отписывался S.A. Robert - приём, приём, можно перенести тему куда-нибудь в более очевидное место?
Чтобы писать в форуме, нужно войти.
Вход