л��ߣ��ģ̬��ɴ�һͳ��˼·��GPT-4o��ƣ�

��Ԫ��

�༭��༭�� HXZ

��Ԫ��Meta��NYU��Ŷӣ��ո��һ��MetaQuery�·��ö�ģ̬ģ��˲��ģ̬��˾��ȵ��ǣ��ַ��Ȼ��˼򵥣��ʵ��Ϊ��ҪMLLM΢��ܾ߱��

��ڵĴ�ģ�Ͷ��һ��롹��Ǿ��ǽ��ģ̬��һͳ��һ��ģ�;��ġ��ͼ��Ƶ��Գ�֮Ϊ��ȫ��ģ�͡��

GPT-4o��Լ�ԭ��Ķ�ģ̬��ͼ��ʵ��һ�ѣ�OpenAI��ģ��һ��µ��֡�ȫ��ģ�͡��

ͳһ�Ķ�ģ̬ģ��ּ��⣨�ı��ɣ��ڵ��ܹ��У׼��Щ��ͬ��ģ̬ͨ��Ҫ��ӵ�ѵ��ϸ��ƽ�⡣

�ڸոշ��һ��о��У��Meta��ŦԼ��ѧ��о��Ա̽��һ�ּ򵥵��δ�õ��̽��ġ��ͳһ��ģ̬��ģ��

��ĵ�ַ��https://arxiv.org/pdf/2504.06256

��Ŀ��ҳ��https://xichenpan.com/metaquery/

�µķ��MetaQuery�Ž��˶��ģ�Frozen��ģ̬��ģ�ͣ�MLLM��Ǹɺ��ɢģ�ͣ�DiT��

ʵ��MetaQuerieʵ��Ϊ��ҪMLLM΢��ܾ߱��ͬʱ��ѵ��Ҳ��Ϊ��㡣

��֮��ǣ��߱��MLLM��ֱ�Ӻ͸��ͼƬ��DiT��SOTAˮƽ�Ķ�ģ̬��ɡ�

�ı��ͼ��

һ��޴��Σ��ɵ��ɫ�޻��Ƴɣ��ڵ��ϣ��ų��գ��տ��

һ��ſ��Ӻͼп˵��ɻ��ڳ��ﻬѩ��

һֻ��ɫ��ĵ��ë�ڵƹ��⣬��ʾ��ص��ë��޵�ɫ��

ָ��΢��

ͬһ��ˣ��ڡ��ҵ��硹

ͬ��һ�ֳ��ͣ��ŦԼ

ͬһ��ݮ��ͼ

��֪ʶ��ǿ��

��ߵĽ��Ϊ��֮�ǵĳ��е��

��֮ҹ��ҹ��

��ڴ��б��̵Ļ��˾��Դ��е�

�Ž�MLLM��DiT��ʵ�ִ�һͳ

ͨ��˵��һ��Ҫ��Ҫ��ģ�͡��Ҫ��Ƚ��Ķ�ģ̬��ͬʱ��Ҫǿ��ͼ��Щ��ѡ�

Ŀǰ��һЩ��ھ�ϸ΢��ģ̬��ģ�ͣ�MLLM��

��漰��ӵļܹ��ơ��/��ʧƽ�⡢��ѵ��׶��Լ��ӵ�ѵ��Щ��Ż�һ��ܻ��һ��º�«��ư��

��Ч�ؽ��Իع��ģ̬��ģ�ͣ�MLLM��е�Ǳ��֪ʶת�Ƶ�ͼ��У�

˵��Ҳ�򵥣��񽻸��ɢģ�ͣ��񽻸��ģ�͡��ÿ��Ĺ鿭��

��仰˵��跨��ͷ��ʼ��һ��ϵͳ��רע��ר��Բ�ͬ��ģ̬��Ƚ��Ԥѵ��ģ��֮��Ч��ת��

Ϊ��ʵ��һ�㣬�о��Ŷ��MLLM��ᣨFrozen��Ա��רע��ó��顪��⣬ͬʱ��ͼ��ί�и��ɢģ�͡�

��ʹ��ֶ��£�ֻҪ�к��ʵļܹ��MLLM��е��֪ʶ��ǿ��ѧϰ��ȷʵ��ת�Ƶ�ͼ��С�

��ϵͳ��Խ��Эͬ��Ϊ��ṩ��Ϣ��֮��Ȼ��

��ī��Ӣ��ëè

MetaQuery��һ��ѧϰ�Ĳ�ѯֱ��뵽��MLLM�У��ȡ��ڶ�ģ̬��ɵ��

ʵ��ʹû�н��΢��˫��ע��LLMҲ�ܳ䵱ǿ��ز��Ϊ��ģ̬��ɲ��

ʹ��MetaQueriesѵ��ͳһģ�ͽ��Ҫ��ͼ�Ķ��ݣ��ɽ��Щ��ʾ��ӵ��κ��ɢģ�͡�

��MLLM��ⷽ�汣�ֲ��䣬ѵ��Ŀ��Ȼ��ԭʼ��ȥ��Ŀ�ꡪ��΢��ɢģ��һ��Ч��ȶ��

˼·��GPT-4oԭ��ͼ��

��ѵ��Իع�Transformer�Ǹ��Ͻ�ģ��ͳһģ�ͣ�MetaQueryѡ��ʹ��token��Transformer��ɢ��صķ�ʽ��

��һ˼·��ͬ�ڵ�GPT-4oͼ��ϵͳ��ֵ��ơ�

ͨ��MLLM��Իع��ǿ��ɢ��ϣ�MetaQueryֱ��ö��MLLM�ڽ�ģѹ��ʾ��ǿ��Ӷ��ֱ��һ��ս�Ե��

ͳһ��ģ̬��ǰ��ֹ��ڲ��д��ģ̬��ı��ͼ��ɡ�

��ε�Эͬ��ֵ��ڴ��һ��ܹ��MLLM�ĸ߼��ڲ�֪ʶ��ģ̬��֪��ѧϰ��ǿ��ɵ��

��һ��͡�9��صĶ����ͨ��ó��Ǿ��è��

MetaQuery

��˵��ǣ�MetaQuery��ܹ��Ϊ��Ķ�ģ̬��ģ�ͣ�MLLM��ģ̬��ͬʱ��ԭʼ�ܹ��ƺͲ��䡣

�ܹ�

��嵽�ܹ��㣬�о��Ա��ʹ��ʼ��Ŀ�ѧϰ��ѯQ��R^(N��D)��ѯ��ȡ��ɵ��C��У�N�ǲ�ѯ��D�ǲ�ѯ��ά�ȣ��MLLM��ά��ͬ��

Ϊ��ּ��ԣ��ʹ��루causal masking��ר��Ϊ��ѯQ��ȫע��full attention��

Ȼ��C��һ��ѵ��trainable connector��Ӷ��ı��ͼ��ɢģ�͵��ռ��롣

��Щ��ɢģ�Ϳ��ͣ�ֻҪ��Ǿ��ӿڼ��ɡ��Ҫ��ģ��ֻ�ǽ�ģ�͵�ԭʼ��滻Ϊ��ɵ�C��

��Ȼģ��Ŀǰרע��ͼ��񣬵�Ҳ��չ��ģ̬��Ƶ��Ƶ��3D�ȡ�

��ѡ��

�ܹ��漰��ѡ��ʹ�ÿ�ѧϰ��ѯ��learnable queries��ͱ��MLLM�Ǹɶ��ᣨfrozen��

�� ѧϰ��ѯ

Ŀǰ��ܶ�ģ�ͻ�ʹ��(M)LLM��Token��һ��Ƕ�루last layer embedding��Ϊͼ��ͳһ��ģ�е��񲢲��ݣ��ѧϰ��ɶ�ģ̬��

��ң��ѯ��random queries��Ȼ�ܲ��FID��ʾ�ʵĶ��뷽��ֲ��ѡ�

��1��ʾ��ʹ��N=64��Token�Ŀ�ѧϰ��ѯ��ʵ��Щģ��൱��ͼ��N=512��Tokenʱ��ֱ�ӳ�Խ��һ��Ƕ�뷽��

�� MLLM

��е�ͳһģ��ͨ��ѵ��MLLM��Ͻ�ģp(�ı�, ��)��ѵ��̸��ӣ��ή��ģ�͵��ܡ�

��֮�£�MetaQuery��ԭʼMLLM�ܹ��Ͳ��£��SOTA��

��2��ʾ��Ȼ�ɵ��Ĳ��٣��MLLM�ܹ�ʵ��MLLMȫ��΢��൱��ܣ��ʾ�ʶ��Եͣ��Ӿ��ߡ�

ѵ��

��Ŷӽ�һ��о��MetaQuery��Ҫ��Ĺؼ�ѵ��ѡ���ѧϰ��ѯ��learnable queries��connectors��

�� Token��

��ͼ2��ʾ��ı��ͼ��Ӿ��64��Token��ʼ��Token�ܳ��õ��ʾ�ʶ��Ч��

��ڳ��ע��long captions��˵��һ��Ϊ��ԣ��Ϊ��Token��ӣ�ʹ��д��ʾ�ʣ�rewritten prompts��GenEval��ø��졣

��ͼ��ؽ��񣬸��Token��ܳ��ؽ�ͼ��

��

���Ŷ��о��ֲ�ͬ��ƣ��ǰͶӰ��Projection Before Encoder, Proj-Enc��ͱ��ͶӰ��Projection After Encoder, Enc-Proj��

Proj-Enc��Ƚ��ͶӰ��ɢ��ά�ȣ�Ȼ��ʹ��Transformer��

Enc-Proj��ʹ��Transformer��MLLM��״̬��ͬ��ά��϶��Ȼ��ͶӰ��ɢ��ά��

��3��ʾ��Enc-Proj��Proj-Encʵ��˸��õ��ܣ�ͬʱ��١�

ֵ��һ��ǣ��о��Աʹ�õ��Qwen2.5��ͬ�ļܹ��Ϊ��˫��ע��bi-directional attention��

ģ��ѵ��

MetaQuery��ѵ��׶Σ�Ԥѵ��ָ��΢��

��У�ÿ��ѵ��׶ζ��MLLM��ᣬ��΢��ѧϰ��ѯ��ɢģ�͡�

MLLM�Ǹ��ֲ�ͬ�Ĺ�ģ��Base��LLaVAOneVision 0.5B��Large��Qwen2.5-VL 3B��X-Large��Qwen2.5-VL 7B��

��ģ�͵�Token��ΪN=256��þ��Enc-Proj�ܹ��24��

�� Ԥѵ��

�о��Ա��2500��õ�ͼ�Ķ��϶��ǵ�ģ�ͽ��8��epoch��Ԥѵ��ѧϰ��Ϊ1e-4��ȫ��СΪ4096��ѧϰ��ѭ��˥��ԣ��4000��Ԥ��ڣ�֮��𽥽��1e-5��

�� ָ��΢��

��MagicLens��о��Աʹ��Ͽ��Ȼ��ֵ�ͼ��ָ��΢��ݡ�

��Щ��Ͽⲻ��ḻ�Ķ�ģ̬��ģ��е�ͼ��Ҳչ�ֳ��˸��Ĺ��ֱ�ӵ��Ӿ��Ե��΢��ϵ��Ӷ�Ϊָ��΢��ṩ�˼��Ҷ��ļල�źš�

��ţ��о��Ա��һ��ݹ��̣��ھ�ͼ��Բ��MLLM��ɿ��ʽָ��׽��ͼ��Ĺ�ϵ��

��ȣ��mmc4��ĵ��Ӽ��ռ��ͼ��ÿ��ͼ�񶼸��ͼ˵��

Ȼ��ʹ��SigLIP��ͼ˵��ͼ��ÿ��У��ͼ��ƽ��ƶ��͵�ͼ��ָ��ΪĿ��ͼ�񣬶��ͼ��ΪԴͼ��ܹ��240��ͼ��ԡ�

��ʹ��Qwen2.5-VL 3BΪÿ��ͼ��ָ���ν�Դͼ��任ΪĿ��ͼ��

ʵ��

ͼ��

��4��ʾ��ģ�ͼ��϶�չʾ��ǿ��

��SOTA��MLLM��ѵ��в�ͬ��ģ��ģ��׼�϶��൱��ı��֡�

��ͼ��ɷ��棬MetaQuery��MJHQ-30K��ʵ��SOTA�Ӿ��GenEval��DPG-Bench��SOTA��ʾ��ǳ��ӽ��

��MetaQueryʹ�ö��MLLM��Ϳ��Ȼ��ɢģ�͡�

��ڻ��Sana-1.6Bģ��Ѿ��ѧ��Ͻ��΢��о��Ա��Stable Diffusion v1.5��COCO FID��

��ڽ��䵽ǿ��MLLM�󣬿��Ի�øĽ��Ӿ��ҲΪ��л��Stable Diffusion v1.5��ͳһģ�ͣ��MetaMorph��Emu��µ�SOTA COCO FID��

��ʾ�ʶ��뷽�棬MetaQuery��GenEval��Ҳȡ��о��ܣ��л��ɢģ�͵ķ��Transfusion��JanusFlow��

��⣬�о��Ա��MetaQueryʵ��˱�Janus-Pro�õö��֪ʶ��

ͼ��ؽ�

��ͼ6��ʾ��MetaQuery��ڶ��MLLM��΢��ִ��ͼ��ؽ��

��У�΢��MetaQuery-B��ɵ��е��ѿ�Դģ��Emu2��൱��

ͼ��༭

��ͼ7��ʾ��MetaQuery��Ǩ��ͼ��ؽ��ִ��ͼ��༭��

��Ǳ��MLLM�Ǹɶ��ᣬ��ڹ��õ�ͼ��༭��Ͻ��Ԥѵ��Baseģ�ͽ��1000��΢��

��Խ��MetaQuery��Щͼ��༭��б��Ч��

ָ��΢��

��240��ݼ��Ͻ��ָ��΢��MetaQuery��ʵ��ӡ��̵��ѧϰ��ܣ��ʹ�ж��߶ȶ��ƻ��Ҳ��Ľ��ͼ8��һ�У��

ʹ�ø��ּල�źţ��ָ��΢��MetaQuery-Bģ�ͳ��ϵؽ��˳�Խ��ճ��ӱ��Ӿ��ͱ�־��ƣ�ͼ8�ڶ��У��

��磬�ڵ�һ��У�ģ��ʶ��ı�ʱ��911��ͼ��ľ��ͺţ�Ȼ��ȷ��Ϊ��ͺ��һ��ӱ��ͼ��

�ڵڶ��У�ģ��ʶ��˷��ĵ��ͼ�񣬲��˷��Ķ��ŦԼ�о��ۡ�

�о��Ա��ѭDreamBooth�ķ��DINO��CLIP-I��CLIP-T��DreamBench��ݼ��϶�ģ�ͽ��˶��

��5��ʾ��MetaQuery-BInstructģ�ʹﵽ��SOTA��ܣ��Kosmos-G��Ϊ��ɶ��ڹ��滻��ȷѵ��ģ�͡�

��֪ʶ��ǿ��

�о��Աչʾ�˿�ѧϰ��ѯ��Ч��ö��LLM��ʹ��ģ��ܹ��õ��ѭ��ʾ�ʣ��Щ��Ҫ��֪ʶ��ʾ�ʡ�

��ͼ9��ʾ��֪ʶ��ǿ��ɰ��MetaQuery-L��Զ��MLLM��֪ʶ��ͨ��ȷ�𰸡�

��CommonsenseT2I��Ҳೣʶ֪ʶ��LLM�ṩ�˸��õĳ�ʶ֪ʶ��ʹMetaQuery�ܹ��ʵһ�µ�ͼ��

Ϊ�˶��MetaQuery��֪ʶ��о��Ա��WISE��׼��û�׼��ͼ9��ʾ��֪ʶ��ǿ��ʾ��ƵĲ��԰��

��6��ʾ��MetaQuery�ﵽ��SOTA��ܣ��ͳһģ�͡�

ֵ��ע��ǣ����֮ǰ��е�ͳһģ��Ч��ǿ��MLLM��֪ʶ��ǿ��ɣ��ı��ͼ��ģ�͡�

MetaQuery�ǵ�һ��ɹ��MLLM��Ƚ��Ǩ�Ƶ�ͼ��ɣ��ԽSOTA�ı��ͼ��ģ��ܵ�ͳһģ�͡�

�о��Ա��ڱ�7�ж�CommonsenseT2I��׼�ϵ�MetaQuery�ĳ�ʶ��˶��

Ϊ��ѭ��ԭʼʵ�֣�ʹ��CLIP��Ϊ��ʾ��MetaQuery��˻��Sanaģ�͵��ܣ��ﵽ��SOTA��ܡ�

��8��ʾ��о��Ա��˲�ͬLLM�Ǹɶ�MetaQuery��Ӱ�죬��Ԥѵ��LLM��Qwen2.5-3B��ָ��΢��LLM��Qwen2.5-3B-Instruct��ָ��΢��MLLM��Qwen2.5-VL-3B-Instruct��

ʵ��ָ��΢��ʵ�ָ��õģ��ģ̬��ṩ��ģ̬��ʱ��Щ�Ľ��ͼ��ġ�

��һ��Ƕ�뷽��ǽ��LLM��Ϊ�ı��е��ѧϰ��

��֮�£�MetaQuery��LLMԭ��ɣ��Ȼ��ѧϰ��ʹģ��ܹ�ͨ��ʵ��ͼ��

��9��ʾ��MetaQuery��WiScore��CommonsenseT2I��׼�϶��һ��Ƕ�뷽��

��

MetaQueries��һ��MLLM��DiT�ļ򵥽ӿڣ��ʹ��MLLM��ʱ��Ȼ��Ч��

��ַ��ǳ��򵥣��ܺõ�ʵ��Ƚ��SOTA��

ͨ��ʵ��ģ̬֮��ת��MetaQueries�ɹ��ؽ�MLLM��֪ʶ��ģ̬ͼ��С�

��Ч��Ҫ�ֺ��ȵ�ר��ϵͳ֮��ʣ��Ĳ��Ȼ��Ҫ��һ��չ��

��գ�MetaQueries��Ϊδ��ͳһ��ģ̬ģ�Ϳ��ṩһ��ǿ��ڻ�ȡ�Ļ��ߡ�

��߽��

Xichen Pan

Xichen Pan��ŦԼ��ѧ��ѧԺ��ѧϵ�Ķ��꼶��ʿ��л��ָ��

��Meta GenAI Emu�Ŷӣ�΢��о�Ժ��Ͱͼ��ţ��Լ��ƽ��Horizon Robotics��ʵϰ��

��Ϻ��ͨ��ѧ��˼��ѧѧʿѧλ��Ľ��

Ji Hou (��)

��Meta GenAI��һ��о��ѧ�ң��ڻ��ģ�͡�

�ڴ�֮ǰ��Meta Reality Labs�е�XR Tech��һ��о��ѧ�ң�רע��3D��⡣

�ڼ��Meta֮ǰ��TUM �Ӿ��鹥��ʿѧλ��¼��Ӿ��3D��о��ڲ�ʿ�ڼ䣬��FAIRʵϰ��

��ͼ��/��Ƶ/3D��ģ�͵��о��Ӧ�ø��Ȥ��Լ�3D��Ӿ��3D�ؽ��VR/AR��˺��Զ��ʻ�ȡ�

Saining Xie��л��

л��ŦԼ��ѧ��ʼ��ѧϵ��ڣ�ͬʱҲ��CILVR�о��ĳ�Ա��⣬��ŦԼ��ѧ��ݿ�ѧ��ġ�

��Facebook AI Research��FAIR��о��о��ѧ�ҡ��ڼ��ݴ�ѧʥ��Ǹ��У��ѧ�빤��ϵ��˲�ʿ��˶ʿѧλ��ʦ��Zhuowen Tu��

��ʿ�ڼ䣬��NECʵ��ҡ�Adobe��Facebook��Google��DeepMindʵϰ��Ϻ��ͨ��ѧ��˱��ѧλ��Ҫ�о��Ǽ��Ӿ��ͻ��ѧϰ��

�ο��ϣ�

https://xichenpan.com/metaquery/

https://arxiv.org/abs/2504.06256

��美女被❌到爽🔞高潮蓝莓视频����y85ouztigy6ysf5y��

校草隔着裤子自慰h

��我被多男下药玩弄身体男女��

刘诗诗av无码一区二区

��

04��13��

��91PORNY丨首页❤在线��中国打破美国队40年垄断

��

七夕礼物大PK守护好中华民族文化瑰宝和自然珍宝��成都一餐馆员工收集地沟油官方通报

04��13�գ�年味“调料”：江西乐平制作“香烟糖”迎新春��把尿口扒开用筷子往里桶小说��韩漫未删在哪看��我的女儿小丹第2部分阅读小说��韩国韩宝贝自慰白浆vipbj

04��13�գ�南非大选登记选民超2700万��原神芙宁娜疯狂❌自慰网站��被c🐻❌视频��女仆扒开腿㊙️让人桶爽微博��成人看片❌❌❌果冻

04��13�գ�新疆阿合奇县紧急搭建帐篷保障民众生活��XXNX16👙日本视频免费��美女极品嫩苞无套内谢��做受❌❌❌高潮AAAA视频��🍒Порно4khd2023

04��13�գ�最高法审管办负责人解读审判质量管理指标体系��欧美人与禽ZZZOZZO性伦��星野鱼哥��国产女性无套✅免动漫16��PORNO💋WatHD

04��13�գ�2024腾冲科学家论坛将启诺奖得主与百余名院士出席��亚洲丝袜美穴��泳装美女��爆❌喷水❌洗澡❌动漫��cekc学生姝виДeo欧美

04��13�գ�广东梅大高速茶阳路段塌方灾害首位伤员出院系15岁男生��小黄片免费观看��国产精品🈲鲁鲁无码��免费看美女洗澡全身光子��稀缺㊙️精品资源国产在线观看

04��13�գ�王海良：大陆不会放任谋“独”挑衅 ECFA的未来按实际情况解决��扒开🍑让老师🍌进去漫画��性瘾+高H+浓肉+黄H视频��伽罗太华害羞表情��动漫蚑女得到巨乳吸视频

04��13�գ�尽享“21℃的夏天” 2024清凉宁陕旅游季在西安启动��长瀞同学18+黄本子��男人㊙️自愿裸体露蛋��斗破苍穹18🈲️美杜莎喷水��粉嫩AV一区二区老牛影视

��ƣ��˽�ľ

�߻��

�� ·��

�༭��ݼ��ʥ��

bc��

��APP

ȫ��

л��ߣ��ģ̬��ɴ�һͳ��˼·��GPT-4o��ƣ�

��Ƶ

bc��

����APP

ȫ��

л�������������ߣ���ģ̬�������ɴ�һͳ��˼·����GPT-4o���ƣ�

������Ƶ

��APP

л��ߣ��ģ̬��ɴ�һͳ��˼·��GPT-4o��ƣ�

��Ƶ