Cloud Core Router CCR-1036 a malé zamyšlení

zdeneksvarc

http://gregsowell.com/?p=3625 + info z blogu http://i4wifi.blog.cz/1203/zpravy-z-akce-mum-2012:

Zcela převratným produktem je profesionální Cloud Core Router CCR-1036. Router bude využívat novou generaci více-jádrových procesorů. Konkrétně 36-ti jádrový procesor optimalizovaný pro síťový provoz. Každé jádro bude taktováno na 1,2 GHz a 12 MB cache na chipu. Jeho obrovský výkon demonstruje 8 mil zpracovaných paketů za sekundu. V režimu "fastpath" slibuje až 15 milionů zpracovaných paketů za sekundu. Celková propustnost zařízení je 16 Gbit/s. Zařízení by podle odhadů mělo být k dispozici již toto léto a cenou by mělo být níže pod konkurenčními produkty. Router má velikost 1U a je montovatelný do racku. Má 12x Gbit port, 4x SPF slot pro vložení miniGbic modulů. Navíc bude zcela netypicky vybaven barevným dotykovým LCD displejem.

O procesoru se zatím oficiálně mlčí, ale pravděpodobně v tom šlape RISC/VLIW TILE-Gx36. TILE lze jinak škálovat až do 100 jader, a mají aktuálně dost velký náskok před ARM Holdings.

zdeneksvarc

No chlapi, nutí mě to přemýšlet. Místo abych jásal, tak spíš čekám adekvátní reakci ohrožených.

Připomínají se mi akvizice Cisca a Broadcomu, které už pohřbily podobně nadějné projekty. Na druhou stranu. O osud případně akvírovaného Mikrotik RouterOS bychom snad mít strach nemuseli, protože z velké části je to open source, takže by nemělo být nemožné navázat nějaký fork. Případně akcelerovat vývoj OpenWRT a pfSense operátorským směrem. A pokud jde o Tileru, tam už bohužel Broadcom na majetkové účasti zaháčkovaný je, přičemž Tilera vykazuje markery startupu určeného k prodeji. A Broadcom, jak je známo, patří mezi dvorní dodavatele Cisca. Pevně však věřím, že byznys multijádrových RISC procesorů je tak mainstreamový, že zájmy jedné velké síťové korporace v utlumení jeho rozvoje, narazí na konsolidované zájmy IT průmyslu, který nízkoenergetické multijádra potřebuje pro datové centra. A Intel nevykazuje potenci poptávku uspokojit.

hapi

sundej ty růžový brýle prosim tě. Tohle nebude nijak moc výkonný než RB1100AHx2. Propustnost paketů je lepší díky lepšímu paměťovýmu systemu. DDR3 a navíc v dualu. O těhle procesorech se píše dlouho. Například to, že se používaji pro specifický výpočty který zvládaji dobře asi tak jako kalkulačka 1+1. Nicméně když se podíváš, tak to zvládne dekodovat pouze 2x 720p video streamy a to se tam radši nepíše o bitrate a hlavně už nikdo nekouká na to že to dneska zvládne i chipset NM10 k novýmu atomu. Proč to asi ten 36core procák zvládne tak blbě? no, proč by to měl zvládnout dobře když to jsou primitivní jadýrka bez možnosti zpracovávat instrukce mimo pořadí, dál se tam nic nepsalo o prediktivních jednotkách a už vůbec ne o FPU části jádra a neni to out-of-order. Tohle všechno to jedno jadýrko pošle do kolen čímkoliv. Nemohl jsem si nevšimnout že se ani nikde neuvádí jak dlouho trvá zpracování instrukce natož jak dlouho mu bude trvat zpracovat nějakou složitější instrukci. Pak totiž budeme mít jenom hodně slabích jader k ničemu. Pak se taky koukni že na každym switchy uvnitř cpu se zvyšuje latence. Poslední jadýrko v řadě tim bude trpět. Navíc ukočírovat tohle kernelem spotřebuje taky hodně výkonu.

Já to fakt nevidim dobře. Ty procesory nikde nevystavujou jako super bombu na trhu. Párkrát se o nich něco napsalo protože maji hodně jader ale tak vem si, plocha cpu malá, hodně cache a hodně jadírek, 5 a víc let stará výrobní technologie... a to má soupeřit s čim? s x86? ha ha ha... už se těšim na to zklamání. To je asi tak jako ARM v telefonu taktovanej na 1.6GHz a bogomips má čtvrtinový proti jádru atomu.

Až se tam nahrnou nějaký mangle, filtry a qtčka... pujde to do kolen jako x2ka.

ludvik

Dvě poznámky:

říkat VLIW procesoru RISC je docela ujeté :-)

říkat RouterOSu opensource je docela ujeté :-) Už jste někdo zdrojáky viděl? Na os části vám dají odkaz na kernel.org a sourceforge, na zbytek se vám vykašlou se slovy, že je to closedsource. A jen tyhle části dělají ROS ROSem (winbox, shell, hotspot, pcq, pravděpodobně wifi drivery).

Moc nevěřím, že jim na tom poběží jejich ROS. O schopnostech jejich programátorů mám oprávněné pochyby.

V hardware ovšem potenciál je. Hapiho názor rozhodně nesdílím.

ludvik

V datasheetech píšou o encodingu, což je trošku náročnější operace.

Latencemi myslíš co? To jsi někde vyčetl? Ty jádra mají mesh architekturu. Neexistuje pojem první a poslední v řadě. Jediný, co by ti mohlo vadit je údaj "1 cycle per hop". Jakou latenci má intel při přístupu do L3 cache?

Prediktivní jednotky? K čemu? Je to VLIW procák. Kromě toho pokud se o tom nepíše, neznamená, že to tam není.

Porovnávat dvě dost odlišné architektury (atom - tilera) rozdílného zaměření je poměrně dost ošidné. Zavrhnout jednu jenom proto, že má nízkou frekvenci a nemá FPU, to je docela tvrdé. Nemluvě o tom, že FPU se dost přeceňuje. Pokud potřebuješ šoupat bajty sem tam, tak nevím, proč bych potřeboval násobičku a děličku v reálných číslech.

Naopak je tady obrovská výhoda integrace síťových věcí, dokonce včetně jakési podpory shapingu.

Pokud je něco multicore, musíš mít software který to umí využít. Budeš-li porovnávat výkon prográmkem superpi, nic nezjistíš.

Nicméně když se podíváš, tak to zvládne dekodovat pouze 2x 720p video streamy a to se tam radši nepíše o bitrate a hlavně už nikdo nekouká na to že to dneska zvládne i chipset NM10 k novýmu atomu. Proč to asi ten 36core procák zvládne tak blbě? no, proč by to měl zvládnout dobře když to jsou primitivní jadýrka bez možnosti zpracovávat instrukce mimo pořadí, dál se tam nic nepsalo o prediktivních jednotkách a už vůbec ne o FPU části jádra a neni to out-of-order. Tohle všechno to jedno jadýrko pošle do kolen čímkoliv. Nemohl jsem si nevšimnout že se ani nikde neuvádí jak dlouho trvá zpracování instrukce natož jak dlouho mu bude trvat zpracovat nějakou složitější instrukci. Pak totiž budeme mít jenom hodně slabích jader k ničemu. Pak se taky koukni že na každym switchy uvnitř cpu se zvyšuje latence. Poslední jadýrko v řadě tim bude trpět. Navíc ukočírovat tohle kernelem spotřebuje taky hodně výkonu.

zdeneksvarc

říkat VLIW procesoru RISC je docela ujeté

Mám být ujetý já nebo Tilera? Ale budiž, upravil jsem to na RISC/VLIW.

říkat RouterOSu opensource je docela ujeté

Nemanipulujte má slova a nemarněme čas diskuzí nad nevyřčeným. Psal jsem: "z velké části je to open source".

na zbytek se vám vykašlou se slovy, že je to closedsource. A jen tyhle části dělají ROS ROSem (winbox, shell, hotspot, pcq, pravděpodobně wifi drivery).

1) gpl-violations.org (http://lists.gpl-violations.org/pipermail/legal/2009-December/001756.html)

2) Reverzní inženýring pro části, které prokazatelně jsou open source. A těch bude většina. Vyjma UI, licenčního systému a proprietárních ovladačů pro Atheros (Nstreme, NV2).

Ačkoliv nejsem odborník na právní problematiku otevřeného software, něco mi říká, že pakliže výrobce postaví svůj produkt na open source základě a nabízí jej za úplatu, pak je povinnen zveřejnit i zdrojové kódy vlastní přidané hodnoty. Proto by případný argument o uzavřeném kódu měl být irelevantní. To by mělo legalizovat úplný reverzní inženýring. Rád se nechám upřesnit.

zdeneksvarc

sundej ty růžový brýle prosim tě. Tohle nebude nijak moc výkonný než RB1100AHx2.

Věř tomu, že kernel optimalizovaný pro TILE-Gx bude výkonově úplně jinde, než kernel pro P2020.

Nicméně když se podíváš, tak to zvládne dekodovat pouze 2x 720p video streamy

A to ses dočetl kde? :-)

5 a víc let stará výrobní technologie

To myslíš 40 nm? A kritizoval bys stejně tak Intel i7, který se dělá v 32 a 45 nm?

A tak bych mohl pokračovat. Fabulace.

hapi

Latencemi myslíš co? To jsi někde vyčetl? Ty jádra mají mesh architekturu. Neexistuje pojem první a poslední v řadě. Jediný, co by ti mohlo vadit je údaj "1 cycle per hop". Jakou latenci má intel při přístupu do L3 cache?

Porovnávat dvě dost odlišné architektury (atom - tilera) rozdílného zaměření je poměrně dost ošidné. Zavrhnout jednu jenom proto, že má nízkou frekvenci a nemá FPU, to je docela tvrdé. Nemluvě o tom, že FPU se dost přeceňuje. Pokud potřebuješ šoupat bajty sem tam, tak nevím, proč bych potřeboval násobičku a děličku v reálných číslech.

Naopak je tady obrovská výhoda integrace síťových věcí, dokonce včetně jakési podpory shapingu.

Pokud je něco multicore, musíš mít software který to umí využít. Budeš-li porovnávat výkon prográmkem superpi, nic nezjistíš.

co myslim latencemi? ty jádra jsou v mřížce. Jedno komunikuje přes druhý nebo spíš přes switchovanou zběrnici. Pokud chce prostřední jádro komunikovat s ramkou, musí skrz několik switchů než se tam dostane. Jedno to sice má k ramce blízko ale jiný na druhá straně mřížky to má hrozně daleko ale má to blíž k ethernetu :-D a naopak. Každej ten switch má 1 cykl zpoždění. To neni zpoždění L3 cache ale samotný zběrnice a k tomu se ještě počítá latence L3. Jo ok, je to prd nicméně přes to teče uplně vše protože jiný zběrnice ty jádra nemají.

jo hele, FPU je důležitá, vždycky byla. U RB333 byla jako externí část procesoru nebo co protože to důležitý je. Bohužel běžela na pomalejšim taktu než ALU část procesoru. RB333 byl propadák. V dnešní době se i defakto APU instrukce počítaji v FPU části protože je natolik složitá, že jich zvládne za takt víc než samotná ALU.

Prediktivní jednotka je to co vyzvyhuje intela a jeho core2 architekturu případně sandy bridge atd.. mimo jiná vylepšení. Ona předpokládá co se bude dít a načítá si předem data z ramky a podobně. Všimni si že při nástupu code2duo intel výrazně máknul na prediktivní jednotce. Tuším že byla vymakaná takovym způsobem že dokázala předpokládat a připravovat data o pěknou řádku instrukcí dopředu takže výpočetní jednotky nečekaly na nic. Tušim dokoce že 4x víc než tehdy konkurenční amd a proto je tak masivně rozdrtily. Jasně, vylepšený APU, FPU atd. kolem taky byly to je jasný. No ale tady neni nic takže se na všechno bude čekat.

Ano, šoupat bitama je ok, ale co shaping? hmm?

jo a mimochodem, tyhle sítový věci maji i RB1xxx a nikdy kromě chybný implementace šifrování mikrotik nepoužil. Nakonec to šifrování musely vypnout a nevim jestli ho někdy rozchodily ale dělávalo to bordel.

No schválně, spoj si tisíc procesorů 486 a uvidíme jak na tom budeš s výkonem. Myslim že tě dnešní xeony rozdrtí na polovičním taktu :-) in-order byla vždycky chyba viz atom. dnešní mipsi v rbčkách máš out-of-order což je podstaně výkonově lepší.

Jo ano, když budu počítat nějaký poligony, vemu si multicore ale ne miliony core kde každý je o výkonu kalkulačky. Některý operace se multicorově dělit nedaji a na tomhle to vyhnije. Jo ten procesor je pro hostingový cloudy kdy člověk po tom chce poslat nějakej soubor, obrázek nebo tak, tak tam chápu že malej výkon per core stačí kde se webserver dokáže posadit na jednotlivá core a obsluhovat víc klientů na jednou. Ale rozdělovat práci pro zpracování paketů mezi 36 slabích jader kde jenom na to rozdělení bude potřeba využít tak 5 jader, nějaký zpracování shapingu který určitě nebude tak efektivní jak by jsme si přáli a jakmile dojde k přetížení jednoho z těch jader, celí to pude k zemi tak jak se to děje teď.

Já říkám že to je špatná cesta ale nechme se překvapit. Určení toho procesoru je jiný než použít ho do routeru i když sítový operace by měl zvládat výborně. Nicméně neni navržen na to aby shapoval tisíc lidí na 500Mbit. Toho chce MKčko docílit silou ale nějak nevim kde jí chtěji vzít když zpracování paketu pro naše účeli je více méně seriová záležitost a jestli si myslíte že tam bude 36 jader a každý o výkonu jednoho jádra xeonu, tak budete asi sklamáni.

zdeneksvarc

Stando, ty mě přinutíš tu karmu na fóru opravdu zprovoznit, to není možné :-D

hapi

Stando, ty mě přinutíš tu karmu na fóru opravdu zprovoznit, to není možné :-D

jo to klidně můžeš ale víš jak. Vždycky je tu plno nadšenců jak to bude super. Je to asi tak rok co ubntu oznámilo ten jejich core router a pokud se nepletu, mělo tam bejt dvoujádro co je v RB1100AHx2. jooo to bude super, to utahne celou naší sít + shaping jooo. RB1100AHx2 přišla a je to krám. Dneska se toho všichni zbavujou a to tomu je teprve pár měsíců.

Tohle buď bude taky podobnej šrot a nebo tomu nasaději takovou cenu že si to koupí jenom pár nadšenců. Protože jestli by to bylo fakt tak ultra super výkonný, proč by to mělo bejt levný?

Jo a víte že mikrotik má slabost pro via a realteky takže můžete hádat co tam bude za ethernetový chipy :-)

a ještě drobnost na konec. Určitě víte že mobilní dvoujádra od samsungu porážeji 4 jádrový tergy od nvidie :-D no takže asi tak :-)

zdeneksvarc

Jojo, to by se ti líbilo. Abych se pak při každém upgradu phpbb mrskal se zbytečnýma MODama.

Bohužel musím souhlasit, že "high-end" routerboardy RB1xxx jsou po stránce hardwarového dizajnu zmršené. A jediná solidní tisícovka (*) byla první RB1000. Takže riziko, že Mikrotik zmrší Tileru, stejně jako zmršil Freescale,je vážně vysoké.

Ovšem poznámka o cortexech od Samsungu a Nvidie přesně sedí to rčení, že když se dva hádají, tak Apple se směje. Nejlepší implementaci cortexu do mobilu má bezkonkurenčně Apple(**) a tím se dostáváme k dříve vyřčenému. Tedy kernel faktoru. Pokud bude linuxový kernel pro Tile pohříchu optimalizovaný, tak to bude koncert.

(*) Když si na ní člověk přepájel tišťák, aby po výpadku proudu netuhla.

(**) http://www.inspiredgeek.com/2011/10/12/iphone4s-faster-than-galaxys2-iphone4-performance-benchmarks-show

tomasbrincil

Stando, ty mě přinutíš tu karmu na fóru opravdu zprovoznit, to není možné :-D

Spíš něco, co z toho průjmu udělá něco čitelnějšího. Takový hrubky, kde jsme si myslel, že ani nejdou udělat...

hapi

no apple se směje. Pokud vim tak se směje jenom proto, že má například jinou grafiku a to většinou tu nejnovější a nejrychlejší. Procesorově je na tom se samsungem stejně pokud vidim což je celkem logický když je to stejenj cortex jako má samsung. Tam se ve výsledku ani OS neprojevuje. Navíc ty dva OS jdou uplně opačnou cestou. iOS je pokud vim tak trochu single task a android plně multi task tak jak mu to linuxovej kernel dovoluje. Nicméně ano, android podle mě jde špatnou cestou. Takhle zprasenej linux jsem totiž dlouho neviděl. Rozhraní aby běželo na javě... to by mě samotnýho nanapadlo... použít jedno z hardwarově nejnáročnějších prostředí hmm... system aby zabíral při spuštění 250MB v ramce což je taky na hlavu postavený když Windows XP stačily pro běh 64MB. To stojí k zamyšlení "proč musíme mít tak výkonej hardware pro to aby jsme si zavolaly když celí WinXP by si na takovym hardware docela dobře šmakovaly"

tomasbrincil

no apple se směje. Pokud vim tak se směje jenom proto, že má například jinou grafiku a to většinou tu nejnovější a nejrychlejší. Procesorově je na tom se samsungem stejně pokud vidim což je celkem logický když je to stejenj cortex jako má samsung. Tam se ve výsledku ani OS neprojevuje. Navíc ty dva OS jdou uplně opačnou cestou. iOS je pokud vim tak trochu single task a android plně multi task tak jak mu to linuxovej kernel dovoluje. Nicméně ano, android podle mě jde špatnou cestou. Takhle zprasenej linux jsem totiž dlouho neviděl. Rozhraní aby běželo na javě... to by mě samotnýho nanapadlo... použít jedno z hardwarově nejnáročnějších prostředí hmm... system aby zabíral při spuštění 250MB v ramce což je taky na hlavu postavený když Windows XP stačily pro běh 64MB. To stojí k zamyšlení "proč musíme mít tak výkonej hardware pro to aby jsme si zavolaly když celí WinXP by si na takovym hardware docela dobře šmakovaly"

Zkoušel jsi někdy něco vyvíjet pro Android? Tohle všechno co jmenuješ je daň za pokrok.

Napíšeš aplikaci na dva řádky, která funguje na milionu zařízení. Kdo psal v Objective-C pro iPhone nebo iPad, tak ví co to je za peklíčko. Tak se potom nediv, že v tom je takový rozdíl. Rozdíl není ve výkonu.

zdeneksvarc

Sice za to to můžu i já, ale pojďme se vrátit k věci.

hapi

ok... co si od toho slibujete? co slíbil mikrotik? a kdy se to dostane na pulty v ČR.

zdeneksvarc

To by nám mohli říct kluci, až se vrátí z varšavského MUMu.

viktornovotny

Tak treba Mato Krug ( na MUMu byl ) me vcera psal, ze by to melo byt za neco kolem 700 eur a dostupne v lete ... vic zatim nevime

david2006

Hm a na to napájení se asi ani neptali, co?

ludvik

UBNT si v tom svém routeru může dovolit relativně cokoliv za CPU, když tam má být ASIC čip pro HW routing.

Je to asi tak rok co ubntu oznámilo ten jejich core router a pokud se nepletu, mělo tam bejt dvoujádro co je v RB1100AHx2. jooo to bude super, to utahne celou naší sít + shaping jooo. RB1100AHx2 přišla a je to krám.

Další stránka »