듀얼 코어를 채용하는 이유는 ,최대 2 배까지 성능이 증가된다는 계산이 나오기 때문인데 ,그렇경우 예를 들면 동작 주파수를 25 % 떨어뜨리고도 결과적으로는 최대 성능이 1.5 배 올라가는 구성이 가능 해진다.
당연하게 아직 Single Threaded 용 어플리케이션이 많기 때문에 ,듀얼 코어에서 상대적으로 큰 효과를 얻을 수 있는 경우가 흔하지는 않지만 ,그래도 인코딩 등과 같이 이미 Multi Thread "" Ready "" 상태인 어플리케이션에서는 당연히 메리트가 있고 ,무엇 보다도 이후로도 계속 성능 향상이 되는(참고 싱글 코어 대비로 ) 제품을 출시 할수 있다는 점도 얻을 수 있다.
당연히 이 처럼 AMD 가 듀얼 코어 제품을 내놓는 것에 대항하여 ,Intel 역시 적극적으로 듀얼 코어를 메인 스트림 에 투입해 하기위한 방책을 구사하는 것은 당연한 것이다.
이런 제품군에 대해 사용자에게 어떤 반응을 보이며 받아 들이던 간에 일단 상대회사가 싱글 코어와 듀얼 코어를 한꺼번에 라인업 하고 있는 상황에서 한쪽은 싱글 코어 뿐인 제품 라인업을 갖는다면 이는 뒤쳐지는 것은 명백하고,그 때문에 인텔 역시 듀얼 코어 제품군을 준비할 필요성을 꼭 느꼈을 것이다.
또한,Intel 이 듀얼 코어을 저가로 판매할 필요가 있는지 없는지에 대해서도 ..,각사의 가격 체계를 바탕으로 본다면 아주 멋지게 상반된 포지션을 취하고 있다는 것을 알수 있다 .
실제,Athlon 64 X2 는 기존의 Athlon 64의 상위 제품이라고 기준으로 평가 하고 있으며, 이것은 원가로 생각하여도 적당한 포지셔닝 이라고 말할 수 있다 (이에 대한 설명은 후술한다).
또 다른 ㅇ.. ,Intel 이 듀얼 코어를 향하지 않을 수 없었던 이유 한가지를 하나 설명 하겠다 .
이것은 이미 상당히 알려진 사실이기도 하다 .
이미 몇 번에 걸쳐 이야기 한대로,Prescott 코어의 동작 주파수는 3.8GHz를 한계로 하게 되었으며 그 이상 더 클럭을 끌어올리는 것이 무리라는 상황이 되어 버렸다.
또한 FSB 1066 MHz 의 경우에 대해서도,실제로는 좀더 안정적으로 동작 할수 있는 상황 (=6층 이상의 기판을 사용한 머더 보드) 이 필요하다는 결론이 나오고 있다,
그렇다면 메인스트림용 으로 1066 mhz 의 FSB 사용이 어렵다는 결론이 나오게 되고 그래서 ,현재 그런 이유1066 의 FSB의 메인보드 사용하는 시피유는 고작 두개의 2 제품(Pentium 4 XE 3.46GHz와 Pentium 4 XE 3.73GHz) 으로 한정 되고 말았다.
그 대신에 투입된 L2 캐시 2MB 로 확장된 Pentium 4 600 시리즈도 ,실제는 대부분의 경우는 성능적인 어드밴티지가 별로 없다고 말할수 있으며 이는 인텔에게는,막다른 골목에 몰린것 같은 상황이다.
실제로, 클럭을 4GHz 이상으로 증가시키는 것이 전혀 불가능 한 것은 아니지만 ,이미 높은 소비 전력 (= 발열) 을 가지고 있는 상황에서 ,현재 상태 이상으로 소비 전력을 늘린다면 이것은 현재 판매되는 머더 보드에서 지원이 되지 않을것 이 라는 상황도 생길 수 있다 .
이러한 상황에서 ,소비 전력을 늘리지 않는 한도에서 성능을 올리기 위해서는,듀얼 코어 밖에는 선택의 여지가 없었다는 것이 정직한 설명일것 같다.
물론 그 듀얼 코어가 ,AMD 처럼 풀 스피드 ( 고 클럭 )로 동작 하게 된다면 소비 전력이 높아지게 되서 별로 소용 없는 물건이 되고 만다.
그런 결과로 2.8GHz∼3.2GHz 정도의 낮은 주파수로의 동작을 하게 되었고,이렇 상황에서 멀티 스레드 대응 어플리케이션은 성능 향상이 있지만 ,싱글 스레드 어플리케이션 에서는 성능이 전혀 향상 되지 않는다는 문제도 생기게 되었다.
이처럼 당초 부터 Intel 이 듀얼 코어 란걸 전혀 생각하고 있지 않았던것 같다.
이것은 ,코어의 구성을 보면 명확히 알수 있다.
그림 1은 Athlon 64 X2, 그림 2 는 Yonah 으로 ,양쪽의의 구성에 인터페이스가 2개의 코어를 공유하는 구조로 되어 있다.
그림 1과 그림 2,처럼 L2 캐시를 공유한다 /하지 않는다 것으로 어느쪽이 더 좋다라는 이야기는 각각의 프로세서를 어떻게 사용하는가하는 방법에 따라 차이가 날수 있기 때문에 한 마디로 어느쪽이 더 좋다고는 말하기 힘들다 .
여러의 스레드로 된 1개의 어플리케이션을 실행하는 경우는 ,L2 캐시 공유 하는 쪽이 효과적이고 ,역으로 복수의 어플리케이션을 부드럽게 움직이기 위한 경우는 L2 캐시가 비 공유 되는 쪽이 효과적일 것이다.
따라서 서버칩 (Opteron ) 으로서 사용을 고려한 필요가 있는 Athlon 64 X2 의 경우 비 공유,모바일이나 데스크톱을 전제로 한 Yonah 의 경우 공유 캐쉬 라는 것은,서로 그 나름대로 이유가 있는 선택 이라고 생각된다.
이것과 비교하여,Pentium D/Pentium XE 의 Smithfield 는,그림 3 과 같은 구조이다.
왠지 Intel 은 Smithfield의 다이 사진을 공개하지 않기( 이쪽에 작게 게재되고 있다 )[참고로 추가하는데 인텔 페이지에 고해상도의 사진 이미 공개 했습니다 아마도 저자가 아직 사진에 대해 모르는듯 하네요 ] 때문에 정확한 내용은 이해 할수가 없지만 ,요컨대 Pentium 4 두개가 둘이 줄지어 서 있는 모양 있다.
비록 동일한 Intel 의 듀얼 코어라도 ,Montecito 의 경우 2개의 코어의 내부가 뒤얽히고 구성되고 있는 것 (Photo02) 을 볼수 있는데 비하여 ,이러한 구조는 상당이 기묘하다 .
듀얼 코어 Opteron 의 Die Plot (Photo03) 을 참고 해보면,상하 비대칭 (하측의 코어 쪽에 Northbridge 부분이 없다) 의 모양인 것을 보면 ,이것은 듀얼 코어 프로세서 에서는 보통 정상적인것은 아닌것 같다 .
Intel은 자세한 내용한 구성도을 공표하고 있지만 (Photo04),2개의 코어가 각각의 인터페이스를 갖고,이것이 외부에서 연결되는 구성으로 되어 있는 것을 알수 있다.

|

|
1:Athlon X2 의 구성 |
?2:Yonah 의 구성 | |

|
?3 Smithfield 의 구성 | |

|

|
Photo02: IDF Spring 2005의 자료 |
Photo03: Fall Processor Forum 2004에 있어서 Kevin McGrath씨(AMD Fellow, Manager, AMD Opteron Processor Architecture and RTL)의 발표 자료. |

|
Photo04: IDF Spring 2005 의" 듀얼 코어 Architecture " 세션 자료. | |
어떤 사항을 가지고 「 고려된 듀얼 코어가 아닌가 」 에 대한 증거로 말할수 있는가하면 ,이러한 스미스 필드 시스템에서 다이 그 자체에 대해 실펴볼 필요도 없을것 같다.
그림 4 는 ,보통의 경우에 CPU 의 후처리 공정을 간단하게 정리한것이다 .
먼저 웨이퍼의 위에 작성된 CPU 코어를 ,회전 톱 같은것을 사용하고 잘라낸 다음(Dicing 다이싱 과정 ) 후,한개 씩 한개의 패케이 위에 놓고 ,배선하고 ( bonding 번딩) , 히트 스프레더를 얻은 과정후 (packaging 팩키이징),완료 된다.
그러면 Smithfield 시스템의 경우는 어떤지 본다면,웨이퍼를 만들는 데까지는 완전히 동일한다.
그러나 다이싱 과정중,2개의 코어가 합쳐진 형태로 자르게 되고, 계속하여 배선 과정에서 2개의 다이에 대하여 각각 배선을 행하고, 그후에 페케이징을 하여 끝나게 된다.
이런식으로 전 공정 과정을 동일 하게 하여서 ,수정 과정에서 시간이 걸리게 CPU 다이 그 자체에는 일체 손을 대지 않고 듀얼 코어 Processor을 수월하게 만들수 있었다 (*2).
후처리 공정이 물론 좀 복잡 하게 되지만 ,전 공정을 변경하기 보다는 훨씬 수월하다.
그 반면,분명히 성능 부분은 희생이 되었다.
만약 당신이 2개의 캐시의 코히렌시 를 가지게 한다면,그림 1 의 경우라면 (CPU 코어와 동일한 스피드로 움직인다) 버스 인터페이스 경유로만 처리를 할 수 있지만 ,그림 3의 구성이라고 FSB 를 거처가게 되기 때문에 , 800MHz 의 속도로 동작하게 된다.
게다가 버스 인터페이스( 그림의 하늘색 부분) 를 2 회 나 통과 하기때문에 ,레이턴시 역시 증가 하여 않좋게 된다.
추가해서 더하면,버스의 제어는 칩 세트가 행하여지기 때문 되기 ,동일한 코어의 속의 2 개의 캐시의 코히렌시 프로세싱을 위해 칩 세트까지 리퀘스트를 내지 않으면 안되게 되었다.
이런점을 생각하면 이런 구성은 듀얼 코어라고 말하기에는 무리가 있다.
이것을 통해 명백히 이해할 수 있는 것은 듀얼 코어로써의 받아들여지게끔 하기 위하여 , Prescott 코어의 설계 단계에서 버스 인터페이스 부분만을 손질한 다음 , 후처리 공정의 모든 과정을 똑같이 복사 하여서의 듀얼 코어라고 한것이라는 사실이다.

|
도4 :Single Core의 후처리 공정 |

|
도5 :Smithfield의 후처리 공정 |
(*2) 일련의 순서로 보면 테스트 공정을 줄이고 드는것 같아서 간단하게 보이지만 ,먼저 dicing 전에 테스트을 하고 ,또 dicing 후에도 테스트가 있고 , bonding 후에도 테스트 과정이 있는데 이는 실제로는 매우 복잡한 과정이다,
「후처리 공정 」을 놓고 볼때,결코 간단한 것이 아니다.
듀얼 코어 의 경우 단순하게만 생각해도 테스트에 걸리는 시간이 2 배가 되기 때문이다 |
Intel 과는 별도로 ,이런 듀얼 코어의 구성이 좋다고 생각할수는 없을것 같다.
그 증거에 ,65nm 세대의 Presler 의 경우 그림 6 처럼,계속하고 2개의 Bus I/F (스미스필드와 동일 )의 구성이지만 ,Xeon MP용 의 Paxville 에 대해서는 재 설계를 하였고 , 그림 7 에 보이는 것 같은 구조로 되어있다 .
또 Presler 의 경우 왜 2 개의 코어를 나누었는가에 대해 말하자면,이것은 아마 득률 향상 때문일것이다 .
Smithfield 는 다이 사이즈가 200 평방 mm 가깝기 때문에 ,결코 득률이 좋지 않다.
득률을 올리기 위해서는,2개로 나누는 쪽이 더 효과적이다.
이론적으로 ,다이싱 과정앞의 테스트에서 ,예를 들면 한 쪽의 코어가 재대로 움직이지 않는다면 그것을 제거하고 싱글 코어로서 사용하게되고 ,또는 다이싱 후라도 한 쪽은 제거하는 말한 작업을 행하게 되는데 ,이런 과정을 거쳐 듀얼 코어로서는 작동 하지 않더라도 싱글 코어 제품으로서 출하가 가능한다.
그러나 이런 경우 ,처음 부터 완전하게 2개의 다이( 코어) 로 나누어 버리고,본딩의 단계에서 합하는 쪽이 보다 효과적 인것은 당연 하다.
득률도 올리기 쉽고 ,제조 공정도 어떤 의미에서는 더 심플하게 된다.
「여기서 당신은 Smithfield 역시 동일한 방법으로 하면 더 좋을것 같은데 」라고 생각수 있는데 , Intel 도 할 수만 있었다면 그렇게 하고 싶었을지 모르지만 ,그렇게 하면 다른 문제에 봉착하게 된다 .
그림 5 에 보면 ,2개의 다이( 코어)를 배선으로 결합할 것 같은 이미지로 나타냈지만 ,실제는 패드(다이를 부착한 기판)로 배선을 행하고 있다고 생각되고,또 배선 (회로 )의 길이를 최소에 하는 것이 신호의 혼선을 막을수 있는것으로 생각된다.
그러나 그림 6의 공정이라고 ,배선의 길이가 길어지는 일은 피할 수 있지 않는다.
따라서, 단순히 배선 (일번적 ) 으로 만으로는 아마 불충분하고,무엇인가 다른 배선 기술을 생각 하지 않는다면 어려울 것 같다.
아마도 이 기술의 개발이나 검증에서 , 기간이 걸리는 것이 ,Smithfield 가 2개에 다이로 나뉘일수 없었던 이유라고 생각된다 (*3).

|

|
도6 :Presler의 구성 |
도7 :Paxville의 구성 |
(*3) Intel은 과거에도 ,CPU 다이와 L2 캐시를 따로 만들은후 ,이것을 후처리 공정에서 연결하는 구조로 Pentium Pro 를 릴리스 한후 ,제조상의 고충으로 상당히 고생한 경험이 있다.
나쁘게 말하면「 돌다리도 두들겨 보고 건너는 」 Inte l의 회사 기풍에서 본다면,이러한 MCM(Multi Chip Module) 을 또 다시 사용하게 될것이라고 생각하지 않았을 것이라고 말한 것이 정직한 점이지만 ,그렇기 때문에 이런 급작스런 채용 보다는 충분한 테스트 과정을 둔듯 하다. |
그러면 왜 Paxville 의 경우는 동일한 일을 하지 않았던 것인가? 라면 묻는다면 ,이경우는 이제 단순하게「작동을 제대로 하지 않는다 」라는 이유로 말할수 있다고 생각된다.
원래 Intel 은 ,아직까지도 FSB 를 전부 Shared Bus 로 구성하고 있다.
이것은 과거의 제품과 상호 교환성도 있고 ,Single→Dual 의 이전에도 손쉬웠다.
원래 이번의 Smithfield와 같은 확장은 ,Shared Bus이기 때문에 가능했었던 것으로 ,이런 과정이 Athlon XP 같은 Point to Point 의 Bus 였다면 원천적으로 불가능하였을 것이다.
이 점은 확실한 메리트이지만 ,이러한 Shared Bus 의 경우 버스의 속도를 올려 가면 갈수록 , 신호의 혼란이 극도로 심해지게 된다.
이것은 Smithfield 나 Presler 의 경우 라도 예외가 아니다.원래 데이터 레이트가 800MHz 인 Shared Bus 라고 말한 시점에서 꽤 무리가 있는 것이고,이것이 메모리 장착의 예를 들면 DDR2 800은 1 Rank 밖에 확장이 않되서 사용할 수 없게 된다는 이야기도 나오게 된 것이다 ,
이러한 듀얼 코어의 구성은 그 CPU 를 복수의 갯수로 장착 하게 되는 Xeon MP 에는 무리가 있는 것 같았다.
그래도 Xeon DP에 관하고 말하면,이것을 서포트 하는 Blackford 가 FSB 를 2개로 나누어 내고,각각에 듀얼 코어 CPU에 한개씩 접속 된다고 말하는 조잡한 방법( rough method) 으로 2 프로세서 (2 way) 구성을 지원 하지만 (Photo05),4P (4 way)구성 을 위한 Xeon MP 에서 4개의 FSB를 만드는것은 무리이다,이 결과 Paxville는 I/F 를 1개에 정리한 일로 ,E8500과의 조합시키서 4 P 구성을 실현한것이라고 말할수 있다
(Photo06).

|

|
Photo05: 위와 같이.이렇게 까지 해야 할 정도라면,처음으로부터 Point to Point 의 FSB 를 적용 하면 좋을 텐데 라고 생각된다. |
Photo06: 위의 경우 FSB의 속도를 증가 시키면서 1 개의 FSB 로 4P ( 4 way) 구성을 하는것이 FSB 를 2개 로 나오게 하는것과 비교 하여 ,더 불합리 하다는것을 말한 것일까 ? . |
이 결과,Paxville는 Bus I/F 를 완전히 새로 만들지 않을 수 없는 것이다.
그러면 「이러면 Paxville 의 방법를 데스크톱 이나 Xeon DP 에 갖고 주면 좋은 것이 아닌가 ?」라고 생각할수 있지만 ,Paxville는 90nm 프로세스로 제조하기 때문에 ,이미 65nm 세대에 돌입한 Pentium D나 Xeon DP 에는 타이밍이 맞지 않는다고 볼수 있다.
이같이 비정상적인 상황은 ,이미 사실상 Paxville 을 제외 하고는 다른것은 전혀 듀얼 코어로 생각하고 있지 않았다는 반증이 된다고 생각한다.
그러면,이를 기반으로 계속 차 세대가 나온다면 더 충실한 듀얼 코어가 될 것인가 라고 물을수 있고 ,적어도 차세대가 나온다면 그렇다고 할수 있지만 지금의 Pentium D 의 경우는 아닌것 같다.
모바일 용으로 디자인된 Yonah 이 후에 ,EM64T등을 탑재한 Merom 라고 불리는 코어가 계속된다는 이야기는 이전 여러번 말했지만 ,이 Merom 에서 데스크톱 용으로 Conroe 가 서버용 으로 Woodcrest 라고 불리는 파생형 ( 서로 다른 버전이라는 말도 있다 ) 이 있다는 이야기는 여러 가지로 화제가 되어 있다.
모두 Pentium M 의 아키텍처를 베이스로 한 듀얼 코어 제품이지만 ,데스크톱 용의 경우 CPU 는 내년 후반을 목표에 전적으로 Conroe 로 이동 되어 갈것이 확실한 전망이 있다.
이것이 사실이라면,확실히 새삼스럽게 Smithfield 나 Presler을 좀더 충실한 듀얼 코어로 재 설계하는 수고를 할필요가 없을것 같다.
그런 작업을 행할수 있는 엔지니어가 남고 있는다면 ,오히려 Conroe 나 Woodcrest 의 설계에 투입하고 일각이라도 빨리 제품을 출시 하는 쪽이 더 현명하다.
결국,Smifhfield 나 Presler 는,어디 까지나 한번 반짝 하기 위한것 (one point relief ) 에 불과하다는 것이다