日本語入力にネイティブ対応したテキストからの動画生成のフルスクラッチ開発と公開

尾崎, 安範; 石原, 昌文; 富平, 準喜

doi:10.51094/jxiv.1248

##article.authors##

尾崎, 安範株式会社AIdeaLab本部 https://orcid.org/0000-0002-6290-9637 https://scholar.google.com/citations?user=rDEvbPQAAAAJ&hl=ja
石原, 昌文株式会社AIdeaLab本部 https://cir.nii.ac.jp/crid/1410001204446228480
富平, 準喜株式会社AIdeaLab本部

DOI:

https://doi.org/10.51094/jxiv.1248

キーワード:

生成AI、動画生成、人工知能

抄録

本技術報告では、日本語を入力できるテキストからの動画生成をフルスクラッチで開発し、公開したことを報告する。
我が国のコンテンツ産業は半導体産業に匹敵する輸出額に匹敵しており、その支援が急務となっている。
そこで、米中の知見を活かし、動画生成のフレームワークを利用しながら、日本語圏向けの新しい動画生成を提案する。
提案した動画生成は日本語に対し、他のモデルのFVD、アラインメントを上回る結果を得られた。
今後は計算量を拡充することで映像品質の向上が必要であることを示した。

利益相反に関する開示

本研究は、経済産業省および国立研究開発法人新エネルギー・産業技術総合開発機構（NEDO）が支援するGENIACの一環として実施されました。著者は、本研究に関連して開示すべき経済的利害関係はありません。

ダウンロード *前日までの集計結果を表示します

ダウンロード実績データは、公開の翌日以降に作成されます。

引用文献

Brooks, T., Peebles, B., Holmes, C., DePue, W., Guo, Y., Jing, L., Schnurr, D., Taylor, J., Luhman, T., Luhman, E., Ng, C., Wang, R. and Ramesh, A.: Video generation models as world simulators, 2024

Esser, P., Kulal, S., Blattmann, A., Entezari, R., M¨uller, J., Saini, H., Levi, Y., Lorenz, D., Sauer, A., Boesel, F., Podell, D., Dockhorn, T., English, Z. and Rombach, R.: Scaling rectified flow transformers for high-resolution image synthesis, Proceedings of the 41st International

Conference on Machine Learning, 2024

Farr´e, M., Marafioti, A., Tunstall, L., Von Werra, L. and Wolf, T.: FineVideo, 2024

Liu, X., Gong, C. and qiang liu: Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow, The Eleventh International Conference on Learning Representations, 2023

Peebles, W. and Xie, S.: Scalable Diffusion Models with Transformers, Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023

Wang, P., Bai, S., Tan, S., Wang, S., Fan, Z., Bai, J., Chen, K., Liu, X., Wang, J., Ge, W., Fan, Y., Dang, K., Du, M., Ren, X., Men, R., Liu, D., Zhou, C., Zhou, J. and Lin, J.: Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution, arXiv, 2024

Yang, Z., Teng, J., Zheng, W., Ding, M., Huang, S., Xu, J., Yang, Y., Hong, W., Zhang, X., Feng, G., Yin, D., Yuxuan.Zhang, Wang, W., Cheng, Y., Xu, B., Gu, X., Dong, Y. and Tang, J.: CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer, The Thirteenth International Conference on Learning Representations, 2025