不拘于时句式类型，不拘于时句式还原-橘子百科-橘子都知道

不拘于时句式类型，不拘于时句式还原 ChatGPT之后又一应用杀疯了，AIGC或进入可控期，将洗牌科技行业？

自聊天机(jī)器人ChatGPT火爆以来，微软公司创始(shǐ)人比尔·盖茨已多次公开(kāi)谈论(lùn)人工(gōng)智能话(huà)题(tí)。在最近的一次(cì)采访中，他(tā)再次表示：“AI可能会让科技行业迎来一次剧烈的(de)洗牌”。

这个结论是他在当地时间2月20日接受《In Good Company》节目专访时提出的(de)。

他预(yù)期，AI的发展可能(néng)会威胁(xié)到(dào)谷歌(gē)的市占(zhàn)率(lǜ)，因为微软在AI方面(miàn)的行动相当迅速。而最终科技巨头(tóu)将把(bǎ)AI整合(hé)成用户的“全能助手”，包揽一切应用，与(yǔ)人(rén)们进行沟(gōu)通并提供建议，可(kě)以(yǐ)取代亚(yà)马逊、Siri或Outlook等应用。

大佬口(kǒu)中全能助手的(de)到来(lái)可(kě)能尚(shàng)需(xū)时日，但由(yóu)ControlNet引发的又一次AI绘画浪潮，让(ràng)AIGC在ChatGPT的话题热点(diǎn)包围中(zhōng)杀(shā)出重(zhòng)围。

ChatGPT之后又(yòu)一应用(yòng)杀(shā)疯了，AIGC或进(jìn)入可控期(qī)，将洗牌科技(jì)行(xíng)业？_黑料正能(néng)量(liàng)

ControlNet颠覆(fù)AI绘画新玩法

AIGC向(xiàng)可控(kòng)靠近

以AI绘(huì)画(huà)为代表(biǎo)的AIGC上(shàng)一次(cì)爆火的时候，还是2022年8月，在美(měi)国科(kē)罗拉多州举办的新(xīn)兴数(shù)字艺术家竞(jìng)赛中，一幅名为(wèi)《太空歌(gē)剧院》的作品获奖。

随后各大厂(chǎng)商的AI绘画软件被(bèi)广大网友(yǒu)熟知并体验，Stable Diffusion便是其中代表。

用(yòng)户们可以在应用(yòng)中输(shū)入一组关键(jiàn)词或者一张照(zhào)片(piàn)，就能(néng)获(huò)得(dé)一幅AI创作的画作。

作画(huà)的关键就是(shì)所(suǒ)输入(rù)的文本(běn)。同一组关键词(cí)也可(kě)以创作出很多张风格不一(yī)样(yàng)的画作(zuò)，这(zhè)让创作的过(guò)程就像开盲盒(hé)。

很多用户(hù)很喜欢这(zhè)种不确定的(de)惊(jīng)喜，他(tā)们会将(jiāng)生成的美图当做头像。而(ér)另一(yī)部分喜欢翻看AI绘画(huà)的“翻车”作品(pǐn)。在(zài)社交媒体上，许多(duō)用(yòng)户分(fēn)享(xiǎng)AI“翻车现(xiàn)场”，例如，一位(wèi)网友的(de)小狗照(zhào)片被AI画成了“肌肉(ròu)男”，还有网友的(de)个人照片被AI识别(bié)成了建(jiàn)筑。

而如今随着ControlNet的出现与加持，以往AI绘(huì)画的填(tián)写关(guān)键(jiàn)词游戏可能(néng)要被颠覆(fù)了(le)。

ControlNet是(shì)一位正在斯坦福读博的(de)中国人张(zhāng)吕(lǚ)敏创(chuàng)作的一种基于控制点的图像变形算法，主要用于数字图像处理、计算机(jī)视觉(jué)和计算机图形学等(děng)领域。

其SD插件一(yī)经发布(bù)，在(zài)短短的(de)两天内便成为了AI绘画领(lǐng)域最新的热点。

在此之前，大家用了很(hěn)多方法想让AI生成的结果尽(jǐn)可能(néng)的符(fú)合要求，但是都不尽如人意(yì)，它的出现代表着AI生成开始(shǐ)进(jìn)入真正的可控(kòng)时(shí)期(qī)。

因为ControlNet可以直接(jiē)提取(qǔ)画面(miàn)的构图，人物的姿(zī)势和画面(miàn)的深度信息等。有了它的帮助，就不用频繁的用提示词来碰运气，抽盲盒式的创(chuàng)作了。

通俗的说ControlNet相当于给AI绘画加了“魔法”，不少(shǎo)博主的作品(pǐn)已经获得了大量(liàng)的浏(liú)览量，“viggo”就(jiù)是其中之一，他(tā)用(yòng)朋友的(de)照(zhào)片(piàn)直接(jiē)带她(tā)们走进动(dòng)漫世界。

viggo先用StableDiffusion图片(piàn)转文字。

再用Text2Prompt插件拓展找到对应的关键词(cí)；最后用ControlNet插(chā)件(jiàn)绑定骨骼(gé)开(kāi)始换关键(jiàn)词试效果。

通过图片就(jiù)可以看出来，效果(guǒ)十分惊艳。

更厉害的(de)是，除了(le)真(zhēn)实(shí)的照(zhào)片，草图(tú)也(yě)可以加上“魔(mó)法”，知乎大牛“DevPoint”和“逗砂”介(jiè)绍(shào)到ControlNet还能实现线稿转全彩图。大神(shén)张吕敏其本尊也亲自回应。

不得(dé)不说当下(xià)AIGC已(yǐ)经变得越(yuè)来(lái)越强大，甚至输出(chū)的作品都已经能(néng)以假(jiǎ)乱(luàn)真了。

难(nán)辨虚(xū)实(shí)，AIGC技术(shù)力爆发(fā)

警(jǐng)惕安全问题

近(jìn)日(rì)，“苏州金鸡湖有游艇party”的消息火遍网络，而经过警(jǐng)方辟谣这所谓的“party”可能(néng)是(shì)全(quán)国第一(yī)起(qǐ)AI绘图诈骗。

由于(yú)这(zhè)个活动(dòng)里面给出的(de)美女(nǚ)照片都是AI制(zhì)作的(de)真人照(zhào)片绘图，因为太(tài)逼真，被大(dà)家当成真事传(chuán)播(bō)了。

不过仔细观察可以发现，活动发起者提供的照片中有个(gè)很大(dà)的(de)漏(lòu)洞(dòng)可以发现并非真人，而是AI绘图(tú)，那(nà)便(biàn)是图片中女性的(de)手指部分有的存在异常。

ChatGPT之(zhī)后又一应用杀疯了，AIGC或进入可控(kòng)期(qī)，将洗牌科技行业？_黑料正(zhèng)能量

有行(xíng)业人事表示：“现(xiàn)在因为手指部分的绘(huì)画算法比较(jiào)复(fù)杂，AI还(hái)不太会画人(rén)的手，但最新(xīn)看到的图片已经有(yǒu)越来越完美的AI模型出现，以后可(kě)能(néng)就完全(quán)没有漏洞了(le)。”

类(lèi)似的AI作图诈(zhà)骗(piàn)在国(guó)外也已有发生(shēng)。据(jù)英国广(guǎng)播(bō)公司报(bào)道，土耳(ěr)其地(dì)震期间，有Tiktok用户使用AI合成(chéng)了儿童受灾的假照片(piàn)发布(bù)到网络，以(yǐ)此诱骗善(shàn)良的人打赏(shǎng)“捐助”从(cóng)而实施诈骗。

目前随着(zhe)技术发(fā)展(zhǎn)，AIGC已(yǐ)经能做出真人照片般的绘图效果，如(rú)果这样的图片被用来(lái)诈骗(piàn)，将非常可怕。

此外AIGC还引发了很(hěn)多担忧，一方(fāng)面，批判(pàn)者认为(wèi)AI在“学习”了大量前人(rén)的作品之后(hòu)，其创作没有任(rèn)何情绪和灵(líng)魂，难以和(hé)人类的艺(yì)术创作(zuò)相提并论。

另一方面，AIGC背后的(de)版权、目(mù)前(qián)都(dōu)并(bìng)没有得到有效的解决(jué)，还(hái)有AIGC会不会代替人(rén)类“至高无上(shàng)”的创意。

马斯克也强调，人工智(zhì)能的安(ān)全问题需要得到重视(shì)，太晚就来不及(jí)了。

AIGC下一站除了视频，还有远方

技术都是有两面性的，潜在的(de)危害并(bìng)不能掩盖其光辉的贡(gòng)献。现(xiàn)在看来，人(rén)工智能(néng)技术将是第(dì)四(sì)次工业革命的(de)核心驱动力量，将创造(zào)新(xīn)的增长奇迹。

过去一(yī)年，人工智能在技术和商业层面都(dōu)有了巨(jù)大进展(zhǎn)，AI绘(huì)画就是人(rén)工智(zhì)能技术发生(shēng)方(fāng)向(xiàng)性(xìng)改变(biàn)的一个代表。其下一(yī)站或(huò)许就是视频。

此前，Meta和(hé)谷歌先后发布了(le)几条(tiáo)引(yǐn)爆科技圈的短视频(pín)。这(zhè)些视频引(yǐn)发(fā)关(guān)注并非内容做得多优秀(xiù)，反而都非常简单，比(bǐ)如一不拘于时句式类型，不拘于时句式还原匹正在喝水的马(mǎ)，一只画画的玩(wán)具熊，或者一段骑摩托车的第一视(shì)角(jiǎo)录像，随便(biàn)一个有手机的人都可以随手录(lù)下一段。

但这些短(duǎn)视频(pín)的创作(zuò)方式非常(cháng)简单，创作者仅(jǐn)仅(jǐn)需要向(xiàng)AI输入一(yī)段话，甚至(zhì)只(zhǐ)是(shì)说一(yī)下要求，AI就可以根据(jù)需要(yào)生(shēng)成一(yī)段视频。

谷歌(gē)发布的两个AI生成视频分别来自于Imagen Video和(hé)Phenaki，前者主要突出的是高清，与Meta的Make-A-Video没有(yǒu)太多的(de)差别。

在Make-A-Video公布了AI生成的视频后(hòu)，AI圈就已经玩(wán)了(le)一波梗(gěng)，一个能(néng)够做出(chū)更高清(qīng)视(shì)频的AI还(hái)不(bù)足(zú)以在短时间内戳中(zhōng)兴(xīng)奋点(diǎn)。

Phenaki更加令人(rén)震惊的(de)地方在于，它可以制(zhì)作出超过2分钟的连贯的(de)也有确切(qiè)内(nèi)容的视频，这才是真正让(ràng)人们(men)感(gǎn)到惊喜的地方。因(yīn)为无论(lùn)AI生成的(de)视频多(duō)么高清(qīng)，也(yě)只能(néng)是为内容生(shēng)产者提供一个灵感(gǎn)，一个(gè)素材，一个过(guò)场(chǎng)动(dòng)画。

不过能够(gòu)制(zhì)作出有具(jù)体剧情内(nèi)容的视频就意味着，一(yī)些视频(pín)创作由AI代替人工完成(chéng)已经初(chū)步有(yǒu)了(le)可(kě)能。

当下(xià)AI的发展(zhǎn)速度已经超过大部分人的想象。内容产业的(de)本质是供给创(chuàng)造需(xū)求，AIGC作(zuò)为全新的内容(róng)生产方式，可以为内容产业(yè)带(dài)来(lái)更新的内容(róng)风格、更(gèng)快的生(shēng)产速度，更低的生产成本，这无疑会驱动内(nèi)容产业的大爆发。

除了(le)AI绘图、视频，AIGC技术还能应用于音乐、代码、机器人动作等(děng)多种内容形式(shì)的生成。不难发(fā)现该项技(jì)术不(bù)仅在游戏等行业能(néng)得到有效(xiào)应用，对于下一代(dài)互联网各种元素的构建亦有关键意义。

从商(shāng)业化的角度(dù)来(lái)看，文(wén)化(huà)娱(yú)乐、教育、传媒等诸多领域，本身就对基于AI的可(kě)视化内容有强(qiáng)烈需求。

因此(cǐ)，AI绘画及(jí)视频或不(bù)是(shì)结果，而只是AI进程中的一块重(zhòng)要拼图(tú)，有望在技术更新的加(jiā)持下实现(xiàn)更大的(de)应用价值。

AI从(cóng)理解内(nèi)容，走向了可(kě)以生成内容，甚至能够创造出独立(lì)价值和独立(lì)视角的内容。AIGC的(de)再次出圈，更代表着未来的先(xiān)进生产力即将到来。

紧抓大(dà)模型与算(suàn)力，牢固(gù)AIGC底座

从技术的发展也(yě)可(kě)以看出，在语言大模(mó)型、图像(xiàng)大模(mó)型之(zhī)后，多模态大模型已经成(chéng)为了新(xīn)的趋(qū)势。

大模型被誉为当前人工智能发(fā)展(zhǎn)的智能底座(zuò)，是(shì)全(quán)球竞(jìng)争最激(jī)烈的研(yán)究方向之一，包括谷歌(gē)、亚马逊、百度(dù)、阿里、腾(téng)讯等众(zhòng)多(duō)头部企业都(dōu)在竞(jìng)相发力。

不过训(xùn)练大(dà)模型(xíng)的确价(jià)格(gé)不菲(fēi)，以国(guó)盛证券发布(bù)的《ChatGPT需要(yào)多少算(suàn)力》报告估算(suàn)，GPT-3训练(liàn)一(yī)次的成本约(yuē)为140万美元。而对于一些更大的LLM(大型语言模(mó)型)，训练成本则(zé)介(jiè)于200万美元至1200万美元高价(jià)之间。

以(yǐ)ChatGPT在2023年1月的独立访客平均数1300万计(jì)算，其(qí)对应(yīng)芯片需求为3万多(duō)片英伟达(dá)A100 GPU，初始(shǐ)投入成本约为8亿美(měi)元，每日(rì)仅电费就在(zài)5万美元左右(yòu)。

此外不论是ChatGPT还是AIGC，都(dōu)离不开庞大(dà)算(suàn)力支持(chí)。在关注各(gè)类大模型的发展(zhǎn)同时，更应(yīng)该关注算力网络(luò)的(de)建设。

算力网络正驱动AI产业发展进入(rù)史诗级(jí)加(jiā)速进程(chéng)，让(ràng)AIGC及通用AI这一人工智能发展的终极目标离得更近。

因(yīn)为(wèi)算力可以对突破性技术创新提供大力的支持。这方面，多模(mó)态大模型是(shì)典型。作为面(miàn)向未来强人工(gōng)智能、通用人(rén)工(gōng)智能的重要(yào)技术(shù)创新(xīn)，多(duō)模态大模(mó)型已经在(zài)人工智能领(lǐng)域提(tí)出了(le)很(hěn)多年，业界也有(yǒu)不少技术(shù)突破，但是(shì)，多模态大模型(xíng)进(jìn)一步往下走，算力需(xū)求呈几何式上(shàng)升，一(yī)般(bān)的(de)算力(lì)基础(chǔ)设施(shī)很快将难以胜任。

从图(tú)像、文字、语(yǔ)音单(dān)独(dú)一(yī)项的训(xùn)练，到双模态、三模态的跃迁(qiān)，让人工智能可(kě)以灵活应对不同不拘于时句式类型，不拘于时句式还原模态的转化(huà)、像人与世界交互一样(yàng)自(zì)然，这方面(miàn)，由算力网络来驱(qū)动将有明显优势(shì)。