机器之心报道
机器之心编辑部
就在 DeepSeek V3「小版本更新」,阿里通义千问团队开源了新模型后,OpenAI 深夜也悄悄搞事情。
毫无预告地,OpenAI 推出 GPT-4o 原生图像生成。效果让人惊叹不已。更妙的是,即使免费用户也可使用。
先来体验一下:
在生成结果中可以看到,GPT-4o 在执行任务时首先会对我们的原始提示词进行优化,编写一个更加详细的英文版提示词:
在 OpenAI 看来,图像生成应该是语言模型的核心能力之一。因此他们将最先进的图像生成器 4o 集成到了 GPT-4o 中。
2024 年 5 月,OpenAI 发布其首个全能多模态模型 GPT-4o,与 ChatGPT 之前采用的生成式 AI 图像模型(OpenAI 的 DALL-E 3)不同 —— 这个经典的 diffusion transformer 通过去除像素噪声来根据文本提示重建图像 —— 新的图像生成器被整合到了同一个多模态模型中。OpenAI 对整个模型进行了统一训练,使其能够同时理解文本、代码和图像等多种形式。
GPT-4o 的图像生成能力具有以下突出优势:它能精准呈现文字内容,严格遵循指令要求,并充分调用 4o 内置知识库和对话上下文 —— 包括对上传图像进行转化处理或将其作为视觉灵感来源。这些特性让用户能更轻松地创造出与构想完全一致的图像,通过视觉表达实现更高效的沟通,从而将图像生成技术升级为兼具精确性与实用性的强大工具。
效果如何,我们接着往下看。
有用且美丽的图像生成
OpenAI 基于在线图像和文本对模型进行了训练,这不仅让模型学习了图像与语言之间的关系,还学习了图像之间的相互关系。结合后训练,最终的模型具有令人惊讶的视觉流畅性,能够生成有用、一致且具有上下文感知能力的图像。
文本渲染
一图胜千言,但有时在恰当位置生成几个字就能升华图像意境。4o 将精准符号与视觉元素完美融合的能力,使图像生成进阶为真正的视觉传达工具。
提示:「创建一张逼真的照片,内容是两名 20 多岁的女巫(一名是灰白色挑染发型,另一名是长卷的红褐色头发)正在阅读一个街标。
背景:纽约威廉斯堡一条普通的城市街道,一根电线杆上完全被许多详细的街标覆盖(例如,街道清扫时间、需要停车许可证、车辆分类、拖车规则),包括中间的几个荒谬的标志:Broom Parking for Witches Not Permitted in Zone C,Magic Carpet Loading and Unloading Only (15-Minute Limit) 等等。
人物:一名女巫拿着一把扫帚,另一名女巫拿着一个卷起的魔法地毯。她们在前景中,身体微微背向相机,头部微微倾斜,仔细查看标志。
从背景到前景的构图:街道 + 停放的汽车 + 建筑物 → 街标 → 女巫。人物必须是离拍摄相机最近的。」
这就是生成一张图片的部分提示词,提示词描述的可谓非常详细。GPT-4o 不但严格遵循指令,还将提示语中的文本字符也准确的表达出来了。
GPT-4o 生成的菜单,不知道的还以为这是一张真实菜单。
提示:「我在 Marin 开设了一家名为 Haein 的传统概念餐厅,主打采用有机农场新鲜食材烹制的韩式料理,并根据时令供应轮换菜单。请您设计一份菜单图片,需包含以下菜品 —— 整体风格要兼顾传统 / 乡村韵味与高端精致感。请为每道菜品配上优雅的彼得兔风格的插画,确保所有文字正确呈现,并使用白色背景。
顶部:大酱汤(发酵大豆炖菜) - 18 美元
大酱汤是用当地的蘑菇、豆腐和时令蔬菜做成的,配上米饭……
底部:时令米酒 —— 每杯 12 美元」
持续生成
由于图像生成功能现已深度集成于 GPT-4o 系统,用户可通过自然对话实现图像优化。GPT-4o 能基于聊天上下文中的图文内容持续创作,确保输出结果的一致性。例如在设计游戏角色时,当你反复调整和测试方案,该角色的外观特征将在多次迭代中保持高度协调。
举例来说,当你输入一张猫咪的图片,然后给出提示「给这只猫一顶侦探帽和一副单片眼镜」,GPT-4o 就能在保持原始图片的情况下,遵循指令重新生成一张。
你还可以继续修改图片,只要给点提示就可以了,例如给定提示「将这个场景制作成一款 AAA 级的 4K 游戏引擎打造的视频游戏,并添加一个神秘角色扮演游戏的用户界面作为覆盖层。在游戏中,我们可以在顶部看到生命值条和小地图,底部则显示法术图标,整体界面风格保持一致且具有标志性。」对话过程一张精美的图片就生成了。
除了图像作为输入,你也可以从提示入手,例如要求 GPT-4o 生成一张「奢华蛋壳纹理卡片上的诗歌」,然后把诗歌内容也附加上,就能出现如下的效果图,你也可以进一步修改,输入提示就可以了。
指令遵循
GPT-4o 的图像生成能够细致入微地遵循详细的提示,注重细节。其他系统在处理大约 5 到 8 个对象时可能会遇到困难,而 GPT-4o 能够处理多达 10 到 20 个不同的对象。对象与其特征和关系的更紧密绑定,使得控制更加精准。
提示:「一张正方形图片,包含一个 4 行 4 列的网格,共有 16 个物体,背景为白色。从左到右、从上到下依次排列如下:
一颗蓝色的星星
一个红色的三角形
一个绿色的正方形
一个粉色的圆形
一个橙色的沙漏
一个紫色的无穷大符号
一个黑白波点图案的领结
一个扎染风格的 42 字样
用草书写成的 OpenAI 字样
一道彩虹色的闪电」
空旷的城市,提示:下午的纽约时代广场,没有人,没有车辆,也没有发光的广告牌。
转化数学公式:
上下文学习
GPT-4o 能够分析并学习用户上传的图像,将图像的细节无缝整合到上下文中,以指导图像生成。
当你输入几张图像,然后给出提示:用这些图像作为参考,画一个三角形车轮的车辆设计。
标出前轮,后轮,并在图的下方给出文字(用小大写)
「TRIANGLE WHEELED VEHICLE. English Patent. 2025. OPENAI」
提示:蓝色电锯逼真图像。
然后再给出提示:为这个电锯做个广告,一个奶奶在感恩节餐桌上切火鸡。并添加标签行。
世界知识
原生图像生成使 4o 能够将文本和图像之间的知识联系起来,从而形成一个感觉更智能、更高效的模型。
提示:制作一个视觉信息图表,描述为什么旧金山如此多雾。
简单的一句提示,4o 就把影响环境质量的原因用图片的形式描述出来了。看来,4o 掌握的知识还是很丰富的。
要求 4o 制作一幅关于如何制作抹茶的彩色图解,也没有问题。
风格
在反映丰富多样图像风格的图像上进行训练,使模型能够令人信服地创建或转换图像。
提示:一只猫望着街上的水坑,但它的倒影是一只老虎,而且两种倒影都被水中的涟漪真实地扭曲了。
提示:创建一张超逼真的照片,内容是这四只动物在公园的野餐毯上玩扑克,画面拉远,呈现全景,照片风格逼真。一只长毛虎斑猫正拿着一手牌……
局限性
OpenAI 没有避讳自身模型的局限性。他们指出:「我们的模型并不完美。我们目前已经看到了其存在多种限制,我们将在首次发布后通过模型改进来解决这些限制。」具体来说,OpenAI 罗列出的限制包括:
裁剪:GPT-4o 有时会错误地裁剪较长的图像(如海报),尤其是靠近底部的部分。幻觉:与其他文本模型一样,图像生成模型也可以编造信息,尤其是在上下文提示较少时。高结合问题:当生成图像需要依赖于其知识库时,它可能难以同时准确地呈现 10-20 多个不同的概念,例如完整的元素周期表。精确绘图:模型可能在绘制涉及数据的图表时不准确。多语言文本渲染:模型有时难以渲染非拉丁语言,并且字符可能不准确或产生幻觉,尤其是在更复杂的情况下。编辑精度:当要求编辑图像生成的特定部分(例如拼写错误)时,结果并不总是有效,还可能出现在没有请求的情况下更改图像的其他部分或引入更多错误的情况。另一个错误是模型难以保持用户上传的人脸在编辑中的一致性,但 OpenAI 预计将在一周内修复该错误。小文本信息密集:众所周知,当被要求以非常小的尺寸呈现详细信息时,模型会遇到困难。
模型难以呈现完整的元素周期表
安全性
OpenAI 也强调了自己在模型安全方面所做的工作。
按照 OpenAI 之前发布的 Model Spec(模型规范),他们的目标是「通过支持游戏开发、历史探索和教育等有价值的用例来最大限度地提高创作自由 —— 同时保持严格的安全标准。与此同时,阻止违反这些标准的请求仍然和以往一样重要。」以下是对其它风险领域的评估:
通过 C2PA 和内部可逆搜索给出出处
所有生成的图像都将自带 C2PA 元数据,即会被标记成来自 GPT?4o 的图像。OpenAI 表示,这样做是为了提供透明性。并且他们宣布已经构建了一个内部搜索工具,可利用生成结果的技术属性来帮助验证某个内容是否出自他们的模型。
阻止不良内容
OpenAI 表示将继续阻止可能违反其内容政策的生成图像请求。他们表示,当真人图像处于上下文中时,会加强对可以创建的图像类型的限制。
「与任何发布一样,安全性永不止步,而是一个持续的投资领域。随着我们更多地了解该模型在现实世界中的使用情况,我们将相应地调整我们的政策。」
使用推理来增强安全性
与审议性对齐(deliberative alignment?)类似,OpenAI 表示已经训练了一个可以直接根据人工编写的可解释安全规范工作的推理 LLM。
「我们在开发过程中使用了这个推理 LLM 来帮助我们识别和解决我们政策中的歧义。结合我们为 ChatGPT 和 Sora 开发的多模态技术进步和现有的安全技术,这能让我们根据我们的政策来调节输入文本和输出图像。」
有关安全性的更多论述和研究结果请访问 OpenAI 同步发布的 GPT-4o 系统卡附录。
附录地址:https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf
哪些用户可以使用?
OpenAI 表示,从今天开始,4o 图像生成能力将向 Plus、Pro、Team 和免费用户推出,作为 ChatGPT 中的默认图像生成器,企业版和教育版用户还需等待一段时间。它也可以在 Sora 中使用。对于那些 DALL?E 在其心中占有特殊地位的人来说,仍然可以通过一个专门的 DALL?E GPT 访问它。
API 用户呢?OpenAI 表示也快了:访问权限将在未来几周内推出。
最后,OpenAI 表示:「使用 GPT-4o,创建和定制图像就像天一样简单 —— 只需描述你需要什么,包括任何细节,如宽高比、使用十六进制代码的精确颜色或透明背景。」不过,OpenAI 也指出,由于此模型能生成更详细的图像,因此图像渲染时间更长,通常长达一分钟。
参考链接:https://openai.com/index/introducing-4o-image-generation/
《20岁小伙Gary自慰》,《y85ouztigy6ysf5y》班长让我看她的🐻罩奶头
“纲手被扒开腿坐做❌小说”
红桃91精品㊙️入口内裤包裹
……
04月05日
“13小男生GAY自慰脱裤子网站”油价今晚要降了
↓↓↓
04月05日,【央视快评】奋力书写为中国式现代化挺膺担当的青春篇章,羽毛挠女同学乳尖到崩溃,3D美女裸体被❌动漫,女女同互慰吃奶互揉高潮在线观看,VK妆主大大的母狗
04月05日,兰州榆中2000余平方米多彩墙画绘美丽乡村,动漫美女被爆❌挤奶歪歪视频,男人的🍌伸到🍑里擼擼,动🍆🍑🔞❌❌神秘色2D,www.羞羞漫画
04月05日,海南多地强降雨引发内涝 消防紧急救援,女婬片A片AAA毛片玩弄青楼,MlAD一663波多野结衣,网禁🈲拗女稀缺1344,姬小满被❌娇喘流白色液体
04月05日|【光明时评】赛事经济助力中国外贸跑出“加速度”|开心老牛婷婷|欧美⭕⭕⭕⭕XXXX山理|爱爱网|东方铁心被弄到高潮下不了床
04月05日|轨道列车检修员的别样“五四”:登高护航乘客平安|两根茎一起挤进视频|小心🐤入🍑🍑视频日本漫画|公交车上婬乱BBXXHD|裸体自慰取外卖无敌露出
04月05日|Chinagoods云仓共享直播基地在浙江义乌启用|原神3D同人18video网站|美女隐私㊙️视频黄网站|郑爽一级婬片A片|3d动漫美女……
04月05日,医生化身“蜘蛛侠”徒手攀爬50米塔吊救人,美女裸体捆绑㊙️二次元,欧美JAPP,动漫双男主被❌羞羞,黑客偷拍40岁妇女偷拍
04月05日,台胞点赞东北夜市:干净、热闹、好吃,男男GayGayGay无套,FC2PPV完全初撮り♥制服生,少萝裸体🔞🔞🔞网站黑桃,国产China男男Gary网站
04月05日|马来西亚发布《吉隆坡20行动文件》 打造创业生态系统|男男GAYFUCK无套双龙|18🈲♋在线观看免费入口|鸣人❌辉夜18禁|16美女隐私㊙️视频下部
04月05日,消防救援队伍已营救转移被困群众1534人,男仆撑开🍑让人玩弄小说,免费看污黄网站❤在线观看,成人啪啪爽文小说推荐男男,正太之战下载
04月05日,关注巴以局势:缺乏干净水 加沙北部民众取水困难,FrXXeeXXx麻豆HD,亚洲视频一区二区二区欧美杨茜,二次元被❌脱脱内色情,雷电将军裸身被❌自慰喷水
04月05日,地图上的春运“进化史”,高清🈚码🔞❌♋网站欧美,斗破苍穹同人AV,男人的伸到里面的软件,久久久无码AV精品亚洲星娜美
04月05日|哈里斯确定明州州长沃尔兹为竞选搭档|女人裸体做爰视频|男jiji㊙️隐私全过程|白色丝袜美女被❌视频网站|虐乳➕电击➕虐菊小说
04月05日|新疆霍尔果斯铁路口岸通行中欧(中亚)班列突破4万列|成人扒开🍑伸进🍌❌动漫|我用🍆蹭同桌的🐻|亚洲精品㊙️一区二区巨|男生隐㊙️jiji视频
04月05日|五台山景区自有车辆5月1日起单双号限行 试行一年|雏田在办公室被❌出水|婷婷调教口舌奴ⅤK|国外女同性XXXXXJD|撕开她的乳罩慢慢揉捏韩国视频
哈里斯和特朗普民调结果不相上下,腾讯成库洛游戏控股股东|(新春走基层)探访重庆春运“守夜人”:守护“奋斗者”平安归家|免费看胸女㊙️视频|XXX♥Hentai卡通|美女➕光屁屁➕撞胸|黑人娇小亚洲硬
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺