Yapay Zeka Teknolojisini Domine Eden Ülkeler ve Şirketler

Yapay Zeka Teknolojisini Domine Eden Ülkeler ve Şirketler (2025)

Giriş

Son yıllarda yapay zeka (YZ) alanında özellikle üretici yapay zeka (generative AI) teknolojilerinde büyük bir atılım yaşanmıştır. Metin tabanlı sohbet robotlarından gerçekçi görseller ve videolar oluşturan modellere kadar çeşitli alanlarda yeni AI sistemleri ortaya çıkmıştır. Bu gelişmelerde başı çekenler ise genellikle Amerika Birleşik Devletleri merkezli teknoloji şirketleri ve onlara rakip olarak hızla yükselen Çin merkezli şirketlerdir. Örneğin, OpenAI firmasının geliştirdiği ChatGPT sohbet robotunun 2022 sonunda piyasaya çıkması dünya çapında bir YZ çılgınlığı başlatarak sektörde adeta bir dönüm noktası oldu . Buna karşılık Çin’de de büyük şirketler ve girişimler kendi dil modellerini ve üretici YZ sistemlerini hızla geliştirmeye başladılar. Nitekim 2023 sonu itibariyle dünyadaki büyük dil modeli sayısının %50’si ABD kaynaklıyken %40’ı Çin kaynaklıydı . ABD ve Çin dışındaki diğer ülkeler ise kalan %10’luk dil modeli payına sahip olup geriden gelmektedir. Bu tablo, küresel YZ rekabetinin büyük ölçüde ABD ve Çin ekseninde şekillendiğini ortaya koymaktadır.

Şekil 1: 2023 itibariyle büyük dil modeli sayısının ülkelere göre dağılımı (ABD %50, Çin %40, diğer %10) .

Bu araştırma yazısında, metin tabanlı yapay zekalar, görsel üreten yapay zekalar ve video üreten yapay zekalarolmak üzere üç ana kategoride, bu teknolojileri domine eden başlıca şirketleri ve ülkeleri ele alıyoruz. Her bölümde, o alandaki önde gelen platformları, bunların arkasındaki firmaları ve ülkeleri inceleyecek; gerekiyorsa tablolarla önemli özelliklerini karşılaştıracağız.

Metin Tabanlı Yapay Zekâlar (Sohbet Robotları)

Metin tabanlı YZ sistemleri, insan dilini anlayıp üretebilen büyük dil modellerine (LLM) dayanır. Özellikle sohbet botuformunda karşımıza çıkan bu AI asistanları, genel bilgi soru-cevap, metin yazma, çeviri, kodlama gibi pek çok alanda kullanılmaktadır. 2022 sonlarında OpenAI’ın ChatGPT’sinin lansmanı ile popülerleşen sohbet robotları, kısa sürede milyonlarca kullanıcıya ulaştı ve Google gibi devleri kendi rakiplerini çıkarmaya zorladı . Aşağıdaki tabloda öne çıkan bazı metin tabanlı yapay zeka platformlarını ve bunların ait olduğu şirket/ülkeleri görüyoruz:

Platform (Model)	Şirket (Ülke)	Öne Çıkan Özellikler
ChatGPT (GPT serisi)	OpenAI (ABD)	Kasım 2022’de kullanıma sunuldu. GPT-3.5 ve GPT-4 tabanlı sohbet botu; genel bilgi, içerik üretimi ve kodlama dahil geniş yeteneklere sahip. Microsoft’un $10 milyar yatırımıyla gücünü artırdı; eklenti ve API destekleri mevcut.
Bing Chat	Microsoft (ABD) + OpenAI	Şubat 2023’te Bing arama motoruna entegre edildi. ChatGPT’nin gelişmiş bir versiyonunu (GPT-4 tabanlı) kullanarak web aramalarıyla destekli cevaplar sunuyor . Microsoft, OpenAI ile ortaklık sayesinde arama deneyimini sohbet ile birleştirdi.
Bard / Gemini	Google (ABD)	Bard, Mart 2023’te ChatGPT’ye yanıt olarak LaMDA modeline dayalı olarak çıktı . 2024’te Google, daha güçlü ve çok modlu Gemini LLM’ini tanıttı. Google Bard/Gemini, Google Arama ve diğer Google ürünleriyle entegre olup güncel web bilgisini sohbet formatında sunmayı hedefliyor.
Claude	Anthropic (ABD)	2023’te piyasaya sürülen ileri düzey sohbet modeli. Kurucuları eski OpenAI çalışanları. Claude 2 versiyonu 100 bin token’e kadar çok uzun bağlam penceresiyle dikkat çekiyor; güvenli ve istikrarlı yanıtlar için tasarlandı. Google ve Amazon gibi devlerden milyarlarca dolarlık yatırım aldı.
Meta AI (LLaMA 2)	Meta (ABD)	Meta’nın Eylül 2023’te duyurduğu yapay zeka asistanı. Temelinde Meta’nın açık kaynaklı büyük dil modeli LLaMA 2 bulunuyor. WhatsApp, Instagram, Messenger gibi platformlarda entegre çalışıyor; gerçek zamanlı Bing arama desteği ve metinden fotogerçekçi görsel üretme yeteneği de var . Meta, LLaMA modelini 2023’te açık lisansla sunarak ekosistemde farklı bir strateji izledi.
Grok	xAI / X Corp (ABD)	Elon Musk tarafından 2023 sonunda tanıtılan yeni sohbet botu. X (eski Twitter) platformunda çalışıyor. Mizahi ve “asi” kişiliğiyle dikkat çeken Grok, gerçek zamanlı trendlere ve X içeriğine erişimle kullanıcı sorularını yanıtlıyor. Musk’ın OpenAI’dan bağımsız kendi YZ girişimi xAI tarafından geliştirildi.
Ernie Bot (Wenxin)	Baidu (Çin)	Mart 2023’te Çin’de kullanıma sunulan ChatGPT benzeri sohbet botu . Ernie büyük dil modeli üzerine kurulu. Ekim 2023’te Baidu, Ernie 4.0 versiyonunu tanıttı ve bu modelin becerilerinin OpenAI GPT-4 ile eş düzeyde olduğunu iddia etti . Ernie Bot, arama motoru, haritalar, bulut servisleri gibi Baidu ürünlerine entegre edilerek Çin ekosisteminde yaygınlaştı. 2023 sonuna kadar Ernie Bot’un 45 milyon kullanıcıya ulaştığı bildirildi .
DeepSeek	Fire-Flyer/DeepSeek (Çin)	2023’te bir Çin girişimi olarak ortaya çıktı. Ocak 2025’te açık kaynaklı modeli DeepSeek-R1 yayınlayarak beklenmedik bir başarı elde etti . Kısıtlı donanım kaynaklarını verimli kullanan yeni mimarisi sayesinde bazı matematik ve mantık testlerinde OpenAI modellerini geride bıraktığı iddia edildi . Çin’de devlet desteği olmaksızın, bir hedge fonun Ar-Ge projesinden doğan DeepSeek, optimizasyon odaklı yaklaşımıyla dikkat çekiyor .

Yukarıdaki tabloya baktığımızda, metin tabanlı YZ alanında ABD’li OpenAI, Google, Microsoft, Meta, Anthropic gibi şirketlerin küresel ölçekte öncü olduğunu; ancak Çin’in de Baidu, Alibaba, Tencent, iFlytek gibi şirketler ve yeni girişimlerle güçlü bir ekosistem oluşturduğunu görüyoruz. Örneğin Alibaba, Nisan 2023’te kendi büyük dil modeli Tongyi Qianwen’i tanıtarak ofis uygulamalarından akıllı asistanlara kadar geniş bir yelpazede entegre etmeye başladı. Benzer şekilde Tencent, 2023 sonunda Hunyuan adını verdiği bir LLM tabanlı sohbet yapay zekâsını duyurdu ve WeChat gibi uygulamalarına entegre etmeye yöneldi. Çin hükûmetinin getirdiği düzenlemeler çerçevesinde Baidu, Alibaba, ByteDance, Tencent gibi firmalar 2023 ortasında generatif AI botlarını kamuya açma onayı aldılar . Bunun sonucunda, 2023 itibarıyla Çin’de 130’un üzerinde büyük dil modeli geliştirilmiş olup bu sayı dünya toplamının %40’ına denk gelmektedir . Kısacası, sohbet botu yarışında ABD merkezli modeller dünya çapında yaygınlaşırken, Çin de kendi diline ve kültürüne uygun rakip ürünler geliştirerek bu teknolojiyi domine eden ikinci büyük güç konumuna yükselmiştir.

Görsel Üreten Yapay Zekâlar (Metinden Görüntü)

Metin girdilerine dayanarak özgün resimler ve grafikler üreten yapay zekâlar, 2022’den itibaren hızla popülerlik kazanmıştır. Özellikle sanat, tasarım, reklamcılık ve eğlence sektörlerinde devrim yaratma potansiyeline sahip bu modeller, birkaç cümlelik betimlemelerden yüksek kalitede görseller oluşturabilmektedir. Bu alandaki atılım, OpenAI’ın DALL·E model ailesiyle başladı. 2021’de ilk versiyonu tanıtılan DALL·E, 2022’de DALL·E 2 ile büyük ilgi gördü ve “avokado şeklinde koltuk” gibi konseptleri başarıyla görselleştirerek yaratıcılığın sınırlarını gösterdi. 2023’te ise DALL·E 3 modeli kullanıma sunuldu ve Microsoft Bing’e entegre edilerek geniş kitlelere ulaştı. DALL·E 3, önceki nesillere kıyasla istenilen sahneyi daha doğru anlama ve metindeki ince detayları görselleştirmede önemli gelişmeler sağladı.

Bu alanda DALL·E’nin yanı sıra bağımsız bir araştırma laboratuvarının ürünü olan Midjourney platformu da ses getirdi. Midjourney, 2022’den itibaren beta sürümüyle kullanıcıların Discord üzerinden erişebildiği bir metinden görsel üretim hizmeti sunmaya başladı. Sanatsal ve gerçekçi stil seçenekleriyle kısa sürede geniş bir kullanıcı kitlesi edindi. 2023 sonu itibariyle Midjourney Discord sunucusunda kayıtlı kullanıcı sayısının 16–20 milyon aralığına ulaştığı tahmin ediliyor, günlük aktif kullanıcı sayısı ise 1–2 milyon civarındadır. Bu rakamlar, Midjourney’in özellikle dijital sanat ve tasarım meraklıları arasında ne kadar benimsendiğini göstermektedir.

Büyük teknoloji firmaları da görsel üretici YZ konusunda kendi çözümlerini geliştirdiler. Google Brain ekibi, 2022’de Imagen adlı yüksek çözünürlüklü bir difüzyon modeli tanıtarak metinden fotoğraf gerçekliğinde görüntü elde etmede üstün sonuçlar sunduğunu gösterdi . Ancak Imagen ve benzeri Google modelleri (Parti vb.), şimdilik yalnızca araştırma ortamında kalmış, genel kullanıma açılmamıştır. Meta AI ise aynı dönemde Make-A-Scene gibi araçlarla ve daha sonra Emu adını verdiği görsel üretim modeliyle bu yarışa katıldı. 2023 sonlarında Meta, Emu modelini kendi asistan hizmetine entegre ederek, kullanıcıların birkaç saniye içinde fotogerçekçi görseller oluşturup arkadaşlarıyla paylaşabilmesini sağladı . Örneğin Meta AI asistanına “@MetaAI /imagine: kırmızı ağaçlar arasında yürüyen bir gezgin” şeklinde komut yazan bir kullanıcıya, Emu modeli saniyeler içinde tarif edilen sahneyi görsel olarak sunabilmektedir.

Bununla birlikte, açık kaynak cephesinde de önemli gelişmeler oldu. Londra merkezli Stability AI şirketi, Stable Diffusion adlı difüzyon tabanlı görüntü üretim modelini 2022 Ağustos’unda açık kaynak olarak yayınlayarak bu teknolojiyi democratikleştirdi . Stable Diffusion, herhangi bir geliştiricinin veya kullanıcının kendi bilgisayarında veya uygulamasında görsel üretim özelliğini entegre edebilmesine olanak sağladı. Bu sayede 2023 boyunca yüzlerce farklı proje ve uygulama, Stable Diffusion’ın türevlerini kullanarak avatar oluşturma, taslak görsel üretme, fotoğraf düzenleme gibi alanlarda yaratıcı çözümler sundu. Örneğin Adobe, Firefly adını verdiği generatif model ailesini geliştirirken kısmen açık kaynak verilerden faydalandı ve modeli telif hakkı endişesi olmadan ticari görseller üretebilecek şekilde eğitti. Mart 2023’te beta sürümü tanıtılan Adobe Firefly, Eylül 2023’te Photoshop, Illustrator gibi Creative Cloud yazılımlarına entegre edilerek tasarımcıların kullanımına sunuldu. Firefly’ın en önemli yönü, Adobe Stock ve kamu malı görseller üzerinde eğitildiği için çıktıların telif güvenli olmasıydı.

Çin’de de görsel üretici YZ alanında önemli adımlar atıldı. Baidu, kendi büyük dil modelini görsel üretimle birleştirerek ERNIE-ViLG adlı bir modeli 2022’de tanıttı; bu model özellikle Çince açıklamalardan resim üretmeye odaklanmıştı. 2023’te Baidu, ERNIE-ViLG 2.0 ile çözünürlüğü ve görsel kaliteyi artırdı. Alibaba Cloud ise Tongyi Wanxiang adını verdiği metinden görsel üretim modelini 2023 ortasında duyurdu . Tongyi Wanxiang, hem Çince hem İngilizce istemleri işleyerek çeşitli sanat stillerinde görüntüler üretebiliyordu. Bu model, Alibaba’nın kurumsal müşterilerine test amaçlı sunuldu ve e-ticaret ürün görselleri, oyun tasarımları gibi uygulamalarda denenmeye başladı. Ayrıca SenseTime gibi şirketler de benzer biçimde görüntü üretiminde yetkin modeller (ör. SenseMirage) geliştirerek Çin pazarına sundular.

Özetle, görsel içerik üreten YZ alanında ABD’li bağımsız laboratuvarlar (OpenAI, Midjourney, Stability AI) yenilikçi modelleriyle öne çıkarken, büyük şirketler (Google, Meta, Adobe) bu modelleri kendi ekosistemlerine entegre edip geniş kitlelere ulaştırmıştır. Çin’de ise teknoloji devleri kendi modellerini çıkararak bu alanda ABD ile rekabet edebilecek bir konuma gelmeye çalışmaktadır. Aşağıdaki tabloda başlıca metinden görsel üreten YZ modelleri ve hangi şirket/ülkeye ait oldukları listelenmiştir:

Model/Platform	Şirket (Ülke)	Özellikler / Notlar
Midjourney	Midjourney (ABD)	Bağımsız bir araştırma laboratuvarının modeli. 2022’den beri Discord tabanlı hizmet veriyor. Yüksek kaliteli, sanatsal ve gerçekçi görseller üretebiliyor. Büyük bir topluluk tarafından kullanılıyor ve sürekli kullanıcı geri bildirimi ile gelişiyor.
DALL·E 3	OpenAI (ABD)	OpenAI’ın metinden resim üreten modeli (ilk versiyon 2021). DALL·E 2 (2022) ile popüler oldu; DALL·E 3 Ekim 2023’te Bing’e entegre şekilde sunuldu. Karmaşık sahnelerde bile metindeki detayları daha iyi yansıtıyor; görsel kalitesi ve doğru içerik üretimi gelişmiş durumda.
Stable Diffusion	Stability AI (BK)**	Londra merkezli girişimin 2022’de açık kaynak olarak yayınladığı difüzyon modeli. 1.5 ve 2.0 sürümleri, ardından Temmuz 2023’te SDXL (Stable Diffusion 2.1) çıktı. Birçok uygulama ve web aracında temel motor olarak kullanılıyor; ücretsiz ve özelleştirilebiliryapısıyla yaygınlaştı.
Imagen	Google Research (ABD)	Yalnızca araştırma amaçlı tanıtılan bir Google Brain modeli (2022). Difüzyon + büyük dil modeli birleşimiyle çok yüksek çözünürlüklü ve fotogerçekçi görüntüler üretebildiği gösterildi. Ancak halka açık bir aracı bulunmuyor, Google’ın iç Ar-Ge projesi olarak kaldı.
Firefly	Adobe (ABD)	Adobe’un Mart 2023’te duyurduğu generatif model ailesi. İlk odaklandığı alan görüntü ve metin efekti üretimiydi . Nativ olarak Photoshop, Illustrator ve Express gibi uygulamalara entegre edildi. Eğitimi Adobe’un stok görselleriyle yapıldığı için çıktıların telif hakkı açısından güvenli olması hedeflendi. Eylül 2023’te ticari sürümü kullanıma girdi.
Emu (Meta AI)	Meta (ABD)	Meta’nın 2023’te LLaMA 2 ile birlikte geliştirdiği görüntü üretim modeli. Meta AI asistanı içinde, kullanıcının metin istemlerinden birkaç saniye içinde orijinal görsel oluşturabiliyor . Özellikle Instagram gibi platformlarda yaratıcı görsel içerik oluşturmak için kullanılıyor.
ERNIE-ViLG	Baidu (Çin)	Baidu’nun generatif görsel modeli (ilk sürüm 2022). Özellikle Çin kültürüne uygun imgeler üretmek üzere eğitildi. Ernie-ViLG, Çince verilen tanımlar için oldukça tutarlı resimler çıkarabiliyor; Baidu’nun Wenxin modelleri ailesinin bir parçası.
Tongyi Wanxiang	Alibaba (Çin)	Alibaba Cloud tarafından 2023’te tanıtıldı . Metinden çeşitli stillerde görüntü üretebiliyor; Çin’de kurumsal müşterilere test için sunuldu. Alizila raporlarına göre suluboya, yağlı boya, 3D çizgi film gibi farklı üslup ve formatlarda sonuçlar verebiliyor. Alibaba’nın e-ticaret ve pazarlama hizmetlerine entegre edilmesi planlandı.

Yukarıdaki listede de görüldüğü gibi, görsel üreten yapay zekâlar alanında ABD’li girişimler (OpenAI, Midjourney, Stability AI) yaratıcı atılımlarıyla önde gitmiştir. Bu modellerin pek çoğu ABD menşeli bulut platformlarında çalışmakta ve küresel kullanıcılara ulaşmaktadır. Çin ise bu alanda biraz geriden gelse de, Baidu ve Alibaba’nın modelleriyle kendi pazarında ihtiyaçlara cevap vermeye başlamıştır. Özellikle dil ve kültürel farklılıklar nedeniyle Çin’de geliştirilen modeller, yerel içerik denetleme kurallarına uygun şekilde eğitilmekte ve Çinli tasarımcılara/şirketlere hizmet etmektedir. Sonuç olarak, görsel üretici YZ teknolojilerinin inovasyon merkezi büyük ölçüde Batı (ABD) olsa da, Çin de kendi alternatiflerini yaratarak bu yarışta yerini almaya çalışmaktadır.

Video Üreten Yapay Zekâlar (Metinden Video)

Generatif yapay zekânın en yeni ve en heyecan verici uygulamalarından biri de metinden video üretimi teknolojisidir. Bu sistemler, bir metin betimlemesini alıp birkaç saniyelik kısa video klipler oluşturabilir. Video üretimi, resim üretimine kıyasla çok daha zorlu bir görevdir; zira zaman boyutunu, hareketli sahneleri ve tutarlı görüntü akışını da hesaba katmak gerekir. 2023 itibariyle metinden video alanındaki modeller henüz emekleme aşamasında olsa da hızlı bir gelişim gösteriyorlar. Başlangıçta üretilen videolar birkaç saniye uzunluğunda, düşük çözünürlüklü ve çoğunlukla sessiz animasyonlar iken, 2024-2025 itibarıyla süreler uzamaya, çözünürlük ve kare hızları iyileşmeye ve hatta videolara senkronize ses eklenmeye başladı .

Bu alandaki ilk denemelerden biri, Meta AI’ın Eylül 2022’de tanıttığı Make-A-Video isimli araştırma prototipiydi. Make-A-Video, sadece 5 saniyelik videolar üretebiliyordu ve halka açık değildi, ancak bir sahnede nesnelerin hareketini öğrenebildiğini gösteren çarpıcı örnekler sunmuştu. Bunu takiben, yine 2022’de Google araştırmacıları Phenaki adlı bir çerçeve önererek uzun metin girdilerinden dakikalar süren videolar üretebilecek bir model konsepti ortaya attılar (her ne kadar görsel kalite düşük olsa da). Bu çalışmalar, tam anlamıyla kullanıma hazır ürünlere dönüşmemiş olsa da, 2023 ve sonrasında çıkacak video yapay zekâlarının temelini oluşturdu.

2023 yılında en çok ses getiren gelişmelerden biri, bir girişim olan Runway ML firmasının Gen-2 adını verdiği metinden video aracını duyurması oldu. Runway Gen-2, kullanıcılara web arayüzü üzerinden birkaç kelimelik açıklamalarla 4–5 saniyelik basit videolar üretme imkanı tanıdı. Örneğin “yağmur ormanında uçan kelebekler” yazdığınızda, birkaç saniye içinde düşük çözünürlüklü de olsa hareketli bir orman sahnesi klibi alabiliyorsunuz. Gen-2, özellikle reklam ajansları ve içerik üreticilerinin dikkatini çekti ve kısa sürede on binlerce deneme videosu üretildi. Bu alandaki bir diğer yenilikçi girişim de Luma AI firmasının Dream Machine projesiydi; gerçek video çekimlerini ve 3D sahneleri sentezleyebilen araçlar üzerinde çalıştılar.

Büyük teknoloji devleri ise 2023 sonu ve 2024 boyunca metinden video modellerini ardı ardına duyurmaya başladılar. OpenAI, Şubat 2024’te ilk kez “Videolar için GPT” diyebileceğimiz modelini tanıttı ve buna Sora adını verdi . Sora, OpenAI’ın video üretim modelidir ve birkaç aylık teknik önizleme sürecinin ardından Aralık 2024’te ChatGPT Plus kullanıcılarına sunulmaya başlandı . Sora Turbo adı verilen yeni versiyonuyla hızlandırılan bu sistem, kullanıcılara ayda belirli sayıda video oluşturma hakkı vermektedir. Sora’nın dikkat çekici özellikleri, yaklaşık 20 saniyeye kadar, 1080p çözünürlükte videolar üretebilmesi ve istenirse kullanıcıların kendi yükledikleri kısa videoları veya görüntüleri devam ettirebilmesidir . Ayrıca OpenAI, içerik güvenliği açısından Sora videolarına filigran ve meta veri ekleyerek yapay üretim olduğunu belli etmeye yönelik önlemler aldığını duyurmuştur . Sora’nın çıkışı, metinden video alanında rekabeti yeni bir düzeye taşımıştır.

Google cephesi de bu alanda büyük adımlar attı. 2023 sonlarında Google DeepMind ekibi, dahili olarak geliştirdiği video modeli “Veo”nun üçüncü neslini tanıttı. Google Veo 3, 2025 yılı başında ilk kez Canva gibi iş ortaklarının platformlarına entegre edilerek kullanıma sunuldu . Canva, 2025’te kendi tasarım aracına “Create a Video Clip” özelliğini eklerken Google’ın bu son teknoloji Veo 3 modelini kullandığını duyurdu. Bu model sayesinde Canva kullanıcıları basit bir metin komutuyla, 8 saniyelik, sesli ve sinematik kalitede klipler oluşturabilir hale geldiler . Veo 3’ün ürettiği videoların görsel bütünlüğü ve hareket tutarlılığı önceki nesillere kıyasla oldukça gelişmiştir; ayrıca video ile uyumlu ses efektlerini de otomatik oluşturabilmektedir. Google’ın bu hamlesi, video üretici YZ’yi genel kullanıcılara ulaştırmak adına önemli bir adımdır.

Google’ın Veo 3 yapay zeka modeli, Canva platformunda Create a Video Clip özelliğiyle entegre edildi. Kullanıcılar metinle komut vererek sinematik kalitede kısa videolar üretebiliyor .

Meta ise henüz video konusunda halkın kullanımına açık bir araç çıkarmadı, ancak Eylül 2023’teki Meta Connect etkinliğinde Mark Zuckerberg ileride metinden video konusunda da çalışmalar yaptıklarını ima etti. Meta’nın Make-A-Video prototipinden sonra, 2024 için LLaMA modelinin video türevleri üzerinde çalıştığı ve olası bir LLaMA 3 ile birlikte video üretim yeteneklerinin gelebileceği uzmanlarca dile getiriliyor. Ayrıca Meta’nın Emu modelini gelecekte kısa GIF’ler veya döngü videolar üretecek şekilde genişletme potansiyeli var.

Çin, video yapay zekâ yarışına 2024 yılında güçlü bir giriş yaptı. Çin’in popüler kısa video platformu Kuaishou, Haziran 2024’te Kling AI adını verdiği metinden video aracını piyasaya sürdü . Kling AI, özellikle sosyal medya içerik üreticilerini hedefleyen bir platform olarak öne çıktı. En çarpıcı özelliği, sadece metin kullanarak 1080p çözünürlükte, 30 FPS hızında ve yaklaşık 2 dakikaya kadar uzunlukta videolar üretebilmesidir . Bu değerler, o tarihe dek kamuya sunulmuş sistemler içinde en yüksek kapasite olarak dikkat çekti. Kling AI ayrıca sadece metin değil, bir adet giriş fotoğrafı alarak onu hareketlendirilmiş bir videoya dönüştürebiliyor . Örneğin bir manzara fotoğrafını yükleyip “nehir akıyormuş gibi canlandır” komutu verildiğinde, fotoğrafı dinamik bir nehir manzarasına çeviren klip oluşturabiliyor. Kuaishou’nun bu aracı, Çin’de büyük ilgi gördü ve kısa sürede on binlerce video üretildi . Uzmanlar, Kling AI’nin başarısını Çin hükûmetinin yapay zeka inovasyonlarını teşvik eden politikalarına ve Kuaishou’nun dev kullanıcı altyapısına bağlıyor.

Çin’deki bir diğer önemli oyuncu, arama motoru devi Baidu oldu. Temmuz 2025’te Baidu, MuseSteamer adını verdiği görüntüden videoya (image-to-video) yapay zeka modelini tanıttı . MuseSteamer, sabit bir görüntüyü alıp onu hareketlendirilmiş kısa bir videoya çevirebiliyor ve en fazla 10 saniye uzunluğunda klipler üretebiliyor . Bu model, Baidu’nun kurumsal müşterilerine yönelik bulut hizmetlerinin bir parçası olarak sunuldu; yani son kullanıcıdan ziyade şirketlerin kendi uygulamalarına entegre edebileceği bir araç niteliğinde. Baidu, MuseSteamer modelini üç farklı versiyonda (Turbo, Pro, Lite) sunarak farklı kalite ve hız ihtiyaçlarına göre seçenekler yarattı . Çin’de ByteDance (TikTok’un sahibi) ve Tencent gibi şirketler de benzer şekilde metinden veya görüntüden video üreten modellerini duyurdular ya da üzerinde çalışıyorlar . Örneğin sektör haberlerine göre ByteDance, TikTok uygulamasına entegre etmek üzere kullanıcıların basit metinlerle eğlenceli videolar oluşturabileceği bir özelliği test etmeye başlamıştır. Tencent ise oyun geliştirme ve metaverse projeleri kapsamında otomatik video ve animasyon üretimi araçlarına yatırım yapmaktadır .

Metinden video teknolojisi henüz yolun çok başında olsa da potansiyeli oldukça büyüktür. Reklam ajansları, film stüdyoları, eğitim içerik üreticileri ve sosyal medya fenomenleri, bu araçları kullanarak hızlı prototip videoları veya düşük maliyetli animasyonlar oluşturabilir hale geliyor. Ancak şu an için bu modellerin bazı kısıtları da mevcut: Örneğin genellikle çok uzun videolar üretemiyorlar (çoğu 20 saniye veya altı), karmaşık hareketli sahnelerde hatalar yapabiliyorlar (gerçekçi fizik ve tutarlı obje devamlılığı gibi konularda), ve yüksek çözünürlükte üretim oldukça yoğun hesaplama gerektirdiğinden her kullanıcıya sınırsız sunulamıyor . Yine de ilerleyen araştırmalarla bu kısıtların hızla aşılacağı öngörülüyor. Aşağıdaki tabloda önde gelen video üretici YZ platformlarını ve temel özelliklerini özetliyoruz:

Model/Platform	Şirket (Ülke)	Özellikler
Veo 3	Google DeepMind (ABD)	Google’ın son nesil video modeli. 2025’te tanıtıldı, ilk entegrasyon Canva’da yapıldı. Yaklaşık 8 saniyelik, ses senkronizasyonlu ve sinematik kaliteye yakın videolar üretebiliyor . Metin isteminden yüksek görsel doğrulukta klipler yaratmada güncel olarak en gelişmiş modellerden biri.
Sora	OpenAI (ABD)	OpenAI’ın metinden video modeli. Aralık 2024’te ChatGPT Plus kullanıcılarına sunuldu . 20 saniye uzunluğa kadar, 1080p çözünürlükte videolar oluşturabiliyor . Kullanıcılar metin komutlarının yanı sıra kendi yükledikleri kısa videoları genişleterekveya iki videoyu harmanlayarak da içerik üretebiliyor. Güvenlik amacıyla tüm çıktılara filigran ve dijital imza ekleniyor.
Gen-2	Runway ML (ABD)	New York merkezli startup Runway’ın 2023’te herkesin kullanımına açtığı model. Tarayıcı üzerinden metinden 4–5 saniyelik kısa video klipler oluşturabiliyor. Gen-2 çıktıları sınırlı çözünürlükte olsa da yaratıcı projeler için hızlı bir prototipleme sağladı. (Runway, 2024’te Gen-2’nin geliştirilmiş versiyonu Gen-3 üzerinde çalışmalara başladı.)
Make-A-Video	Meta (ABD)	Meta’nın 2022’de gösterimini yaptığı araştırma prototipi. Birkaç saniyelik videolar üretebiliyordu, halka açık değildi. Meta henüz video alanında tüketici ürünü sunmadı ancak gelecekte LLaMA tabanlı modellerle bu alana girmesi bekleniyor.
Kling AI	Kuaishou (Çin)	Çin’in kısa video platformu Kuaishou tarafından 2024’te piyasaya sürüldü . 1080p, 30 FPS ve 2 dakikaya kadar uzun videolar üretebilmesiyle çığır açtı . Metin istemlerinin yanı sıra tek bir görüntüyü hareketli videoya dönüştürebiliyor . Özellikle reklam ve sosyal medya içerikleri üretiminde Çin pazarında öncü konuma geldi.
MuseSteamer	Baidu (Çin)	Baidu’nun 2025’te tanıttığı model . Sabit bir görüntüyü alıp maksimum 10 saniyelik bir video klibe dönüştürebiliyor. 3 farklı kapasite versiyonu var (Turbo/Pro/Lite) ve öncelikli olarak işletmelere bulut servisi şeklinde sunuluyor. Henüz son kullanıcı uygulaması bulunmuyor. Baidu, bu modeli arama ve bulut servisleriyle birleştirerek kurumsal çözümler geliştirmekte.
Diğer (Çin)	ByteDance, Tencent…	ByteDance (TikTok) ve Tencent gibi firmalar da 2023-24’te generatif video modellerini duyurdular . Örneğin ByteDance, TikTok ekosisteminde basit metin komutlarıyla mini videolar oluşturma özelliğini test ediyor. Tencent ise oyun ve dijital içerik platformlarında yapay zeka ile otomatik video üretimi araçlarına yatırım yapıyor. Bu modeller genelde spesifik platformlara entegre şekilde gelişiyor.

Genel olarak bakıldığında, video üreten yapay zekâlar konusunda ABD merkezli şirketler (Google, OpenAI, Meta) araştırma ve inovasyonda liderliği elinde tutarken, Çin merkezli platformlar (özellikle Kuaishou ve Baidu) hızlı şekilde bu teknolojiyi uygulamaya dökme ve kendi dev kullanıcı tabanlarına yayma konusunda atak yapmaktadır. ABD’li modeller genellikle küresel pazara hitap edecek şekilde (İngilizce komutlar, çeşitli uluslararası işbirlikleriyle) geliştirilirken, Çin modelleri kendi dil ve kullanım alışkanlıklarına odaklanmış durumdadır. Bu alanda Avrupa ülkeleri ve diğer bölgelerden öne çıkan bir oyuncu henüz bulunmasa da, küresel araştırma camiası metinden video konusunda iş birliği içinde ilerlemektedir.

Sonuç

Yapay zeka teknolojisini domine eden şirketler ve ülkeler incelendiğinde, ABD ve Çin’in açık ara önde olduğu görülmektedir. ABD’li şirketler, hem köklü teknoloji devleri (Google, Microsoft, Meta) hem de nispeten yeni girişimler (OpenAI, Anthropic, Midjourney, Stability AI, Runway ML gibi) aracılığıyla inovasyonun merkezinde yer alıyor. ABD’nin güçlü akademik kurumları, sermaye yatırımları ve bulut altyapısı, bu şirketlerin büyük ölçekli yapay zeka modellerini geliştirip tüm dünyaya sunabilmesinde kritik rol oynuyor. Özellikle OpenAI’ın ChatGPT ile başlattığı dalga, Silikon Vadisi’nde adeta yeni bir rekabet çağını ateşledi.

Çin ise devlet destekli AR-GE programları, geniş veri kaynakları ve devasa yerel pazarının etkisiyle yapay zeka yarışında hızla yol alıyor. Baidu, Alibaba, Tencent, Huawei, iFlytek gibi şirketler bir yandan Batı’daki gelişmeleri yakalamaya çalışırken bir yandan da kendi özgün yaklaşımlarını geliştiriyorlar. Çinli araştırmacılar, ABD’nin uyguladığı yarı iletken ihracat kısıtlamaları nedeniyle daha az GPU ile daha verimli modeller tasarlamaya yöneliyor . DeepSeek örneğinde görüldüğü gibi, yazılım optimizasyonu ve açık kaynak topluluk işbirliğiyle Çin’den de dünya standartlarında modeller çıkabileceği kanıtlandı .

Üretici yapay zeka alanında metin, görsel ve video gibi farklı modalitelerdeki bu hızlı gelişmeler, önümüzdeki yıllarda teknoloji rekabetinin ana eksenlerinden biri olmayı sürdürecektir. ABD ve Çin dışındaki ülkeler de (Avrupa Birliği’nin düzenleyici hamleleri, Japonya ve Güney Kore’nin yatırımları gibi) yarışa dahil olmaya çalışsa da, şu an için liderlik bu iki süper gücün elindedir. Sonuç olarak, yapay zeka teknolojilerini domine eden firmalar da çoğunlukla bu ülkelerden çıkmaktadır. Bu rekabet ortamında ortaya konan yenilikler, hem endüstriyi dönüştürmeye devam edecek hem de küresel ölçekte teknolojik dengeleri belirleyecektir.