日本語入力にネイティブ対応したテキストからの動画生成のフルスクラッチ開発と公開
DOI:
https://doi.org/10.51094/jxiv.1248キーワード:
生成AI、 動画生成、 人工知能抄録
本技術報告では、日本語を入力できるテキストからの動画生成をフルスクラッチで開発し、公開したことを報告する。
我が国のコンテンツ産業は半導体産業に匹敵する輸出額に匹敵しており、その支援が急務となっている。
そこで、米中の知見を活かし、動画生成のフレームワークを利用しながら、日本語圏向けの新しい動画生成を提案する。
提案した動画生成は日本語に対し、他のモデルのFVD、アラインメントを上回る結果を得られた。
今後は計算量を拡充することで映像品質の向上が必要であることを示した。
利益相反に関する開示
本研究は、経済産業省および国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)が支援するGENIACの一環として実施されました。著者は、本研究に関連して開示すべき経済的利害関係はありません。ダウンロード *前日までの集計結果を表示します
引用文献
Brooks, T., Peebles, B., Holmes, C., DePue, W., Guo, Y., Jing, L., Schnurr, D., Taylor, J., Luhman, T., Luhman, E., Ng, C., Wang, R. and Ramesh, A.: Video generation models as world simulators, 2024
Esser, P., Kulal, S., Blattmann, A., Entezari, R., M¨uller, J., Saini, H., Levi, Y., Lorenz, D., Sauer, A., Boesel, F., Podell, D., Dockhorn, T., English, Z. and Rombach, R.: Scaling rectified flow transformers for high-resolution image synthesis, Proceedings of the 41st International
Conference on Machine Learning, 2024
Farr´e, M., Marafioti, A., Tunstall, L., Von Werra, L. and Wolf, T.: FineVideo, 2024
Liu, X., Gong, C. and qiang liu: Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow, The Eleventh International Conference on Learning Representations, 2023
Peebles, W. and Xie, S.: Scalable Diffusion Models with Transformers, Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023
Wang, P., Bai, S., Tan, S., Wang, S., Fan, Z., Bai, J., Chen, K., Liu, X., Wang, J., Ge, W., Fan, Y., Dang, K., Du, M., Ren, X., Men, R., Liu, D., Zhou, C., Zhou, J. and Lin, J.: Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution, arXiv, 2024
Yang, Z., Teng, J., Zheng, W., Ding, M., Huang, S., Xu, J., Yang, Y., Hong, W., Zhang, X., Feng, G., Yin, D., Yuxuan.Zhang, Wang, W., Cheng, Y., Xu, B., Gu, X., Dong, Y. and Tang, J.: CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer, The Thirteenth International Conference on Learning Representations, 2025
ダウンロード
公開済
投稿日時: 2025-05-08 12:04:18 UTC
公開日時: 2025-05-13 23:55:00 UTC
ライセンス
Copyright(c)2025
尾崎, 安範
石原, 昌文
富平, 準喜

この作品は、Creative Commons Attribution 4.0 International Licenseの下でライセンスされています。