suyeongpark

지성을 추구하는 디자이너/ suyeongpark@abyne.com

C# 6.0 완벽 가이드/ Roslyn 컴파일러

  • C# 6.0에는 완전히 C#으로 작성된 새로운 컴파일러가 있다. 새 컴파일러는 모듈식으로 구성되어 있어서, 소스 코드를 실행 파일이나 라이브러리로 컴파일하는 것 말고도 그 기능들을 다양한 방식으로 활용할 수 있다. Roslyn(로즐린)이라는 이름의 컴파일러 덕분에 정적 코드 분석 도구나 리팩터링 도구, 구문 강조 기능과 코드 완성 기능을 갖춘 편집기, 그리고 C# 코드를 이해하는 Visual Studio 플러그인을 만들기가 좀 더 쉬워졌다.
    • Roslyn 라이브러리들은 NuGet에서 내려받을 수 있다. C#용 패키지뿐만 아니라 VB용 패키지도 있다. 두 언어는 일부 구조를 공유하므로, 의존하는 라이브러리들도 일부 겹친다. C# 컴파일러 라이브러리들의 NuGet 패키지 ID는 Microfost.CodeAnalysis.CSharp이다.
    • Roslyn의 소스 코드는 Apache 2 오픈소스 사용권 하에 공개되어 있다. 이 소스 코드는 또 다른 가능성을 열어주는데, 예컨대 C#을 커스텀 언어 또는 영역 국한 언어(domain-specific language)로 바꾸는 것도 가능하다. 소스코드는 GitHub의 Roslyn 페이지(https://github.com/dotnet/roslyn)에서 내려받을 수 있다.
    • GitHub의 Roslyn 페이지에는 문서화와 예제들 그리고 코드 분석과 리팩터링 방법을 보여주는 단계별 튜토리얼들이 있다.
  • Roslyn C# 컴파일러 라이브러리를 구성하는 어셈블리들은 다음과 같다.
    • Microsoft.CodeAnalysis.dll
    • Microsoft.CodeAnalysis.CSharp.dll
    • System.Collections.Immutable.dll
    • System.Reflection.Metadata.dll

Roslyn의 구조

  • Roslyn은 컴파일 과정은 다음 세 단계로 나누어서 진행한다.
    1. 코드를 구문 트리로 파싱한다. 이 단계는 구문층(syntatic layer)에 해당한다.
    2. 식별자들을 기호(symbol)들에 묶는다(바인딩). 이 단계는 의미층(semantic layer)에 해당한다.
    3. IL 코드를 산출한다.
  • 첫 단계에서 파서는 C# 코드를 읽어서 구문 트리(syntax tree)를 출력한다. 구문 트리는 소스 코드의 구조와 내용을 트리 형태로 구성한 DOM(Document Object Model; 문서 객체 모형)이다.
  • 둘째 단계에서는 C#의 정적 바인딩(static binding)이 일어난다. 이 단계에서 컴파일러는 어셈블리 참조 정보를 마련해서, 이를테면 ‘Console’ 이라는 식별자가 mscorlib.dll의 System.Console을 지칭한다는 사실을 파악한다. 중복적재 해소와 형식 추론도 이 단계에서 일어난다.
  • 셋째 단계는 출력 어셈블리를 만들어 낸다. 독자가 코드 분석이나 리팩터링을 위해 Roslyn을 사용할 계획이라면 이 셋째 단계는 필요하지 않을 것이다.

Continue reading

C# 6.0 완벽 가이드/ 정규 표현식

  • 정규 표현식(regular expression) 줄여서 정규식(regex)은 문자 패턴을 식별하는 수단이다.
    • 정규식을 지원하는 .NET 형식들은 Perl 5의 정규 표현식 문법을 따르며, 패턴을 찾는 기능뿐만 아니라 찾아 바꾸는 기능도 지원한다.
  • 정규 표현식은 이를테면 다음과 같은 과제에 쓰인다.
    • 패스워드나 전화번호 같은 텍스트 입력의 유효성 점검(ASP.NET은 이 용도만을 위해 ReularExpressionValidator라는 컨트롤을 제공한다)
    • 텍스트 자료를 좀 더 구조화된 형태로 파싱(이를테면 HTML 페이지에서 자료를 추출해서 데이터베이스에 저장하는 등)
    • 문서에 있는 특정 패턴의 텍스트를 치환

정규 표현식의 기초

  • 정규 표현식에는 여러 연산자가 있는데, 그중 한정사(quantifier; 양화사)라고 부르는 연산자들이 특히나 많이 쓰인다.
    • 한정사 중 하나인 ?는 그 앞의 항목이 0회 또는 1회 나와야 한다는 뜻이다. 다른 말로 하면 ?는 그 앞의 항목이 선택적(optional)임을 뜻한다.
    • 예컨대 “colou?r”라는 정규 표현식은 color와도 부합하고 colour와도 부합하지만, colouur와는 부합하지 않는다.
Console.WriteLine(Regex.Match("color", @"colou?r").Success);  // True
Console.WriteLine(Regex.Match("colour", @"colou?r").Success);  // True
Console.WriteLine(Regex.Match("colouur", @"colou?r").Success);  // False
  • Regex.Match는 주어진 문자열에서 주어진 패턴과 부합하는 부분 문자열을 찾는다.
    • 이 메서드가 돌려주는 객체에는 패턴과 부합하는 부분 문자열의 시작 색인을 담은 Index 속성과 길이를 담은 Length 속성, 그리고 부함 문자열 자체를 담은 Value 속성이 있다.
Match m = Regex.Match("any colour you like", @"colou?r");

Console.WriteLine(m.Success);  // True
Console.WriteLine(m.Index);  // 4
Console.WriteLine(m.Length);  // 6
Console.WriteLine(m.Value);  // colour
Console.WriteLine(m.ToString());  // colour
  • Regex.Match를 string의 IndexOf 메서드의 좀 더 강력한 버전이라고 생각해도 될 것이다. 차이점은 Regex.Match는 주어진 문자열을 곧이곧대로 검색하는 것이 아니라 패턴을 검색한다는 것이다.
  • IsMatch 메서드는 Match 호출 후 Success 속성을 판정하는 과정을 하나로 엮은 단축 메서드이다.
  • 정규 표현식 엔진은 기본적으로 왼쪽에서 오른쪽으로 패턴을 점검하므로, Match는 가장 왼쪽의 부함만을 돌려준다. 더 많은 부합을 얻으려면 NextMatch 메서드를 사용해야 한다.
Match m1 = Regex.Match("One color? Threre are two colours in my head!", @"colou?rs?");
Match m2 = n1.NextMatch();
Console.WriteLine(m1);  // color
Console.WriteLine(m2);  // colour
  • Matches 메서드는 모든 부합을 배열에 담아 돌려준다.
foreach (Match m in Regex.Match("One color? Threre are two colours in my head!", @"colou?rs?"))
  Console.WriteLine(m);
  • 흔히 쓰이는 또 다른 정규 표현식 연산자로 대안 선택자(alternator)가 있다. 대안 선택자는 수직선 기호 |로 표시한다. 대안 선택자는 말 그대로 선택할 수 있는 대안들을 표현한다.
    • 예컨대 다음은 “Jen”이나 “Jenny”, “Jennifer”와 부합한다.
Console.WriteLine(Regex.IsMatch("Jenny", "Jen(ny|nifer)?"));  // True
  • 대안 선택자를 감싸는 괄호는 대안들을 정규식의 나머지 부분과 구분하는 역할을 한다.
  • .NET Framework 4.5 부터는 정규 표현식 부합 메서드 호출 시 만료 시간을 지정할 수 있다.
    • TimeSpan 객체로 주어진 시간이 다 지나도 부합 연산이 완료되지 않으면 RegexMatchTimeoutException 예외가 발생한다.
    • 임의의 정규 표현식(이를테면 고급 검색 대화상자에 사용자가 입력한 정규식)을 처리하는 프로그램이라면 잘못된 또는 악의적인 정규 표현식 때문에 프로그램이 무한히 멈추는 일을 방지하기 위해 이러한 시간 만료 기능을 활용하는 것이 바람직하다.

Continue reading

C# 6.0 완벽 가이드/ 상호운용성

네이티브 DLL 호출

  • Platform Invocation Services(플랫폼 호출 서비스)를 줄인 P/Invoke는 .NET 응용 프로그램에서 비관리(unmanaged; .NET이 관리하지 않는) DLL에 있는 함수나 구조체, 콜백에 접근하는데 사용하는 기술이다.
  • 예컨대 Windows DLL user32.dll에 있는 MessageBox 함수를 생각해 보자. 이 C함수는 다음과 같이 선언되어 있다.
int MessageBox(HWND hWnd, LPCTSTR lpText, LPCTStr lpCaption, UINT uType);
  • .NET 응용 프로그램에서 이 함수를 직접 호출하는 것은 생각보다 쉽다. 같은 이름의 정적 메서드를 선언하되 extern 키워드를 적용하고 DllImport 특성을 부여하면 된다.
using System;
using System.Runtime.IneropServices;

class MsgBoxTest
{
  [DllImport("user32.dll")]
  static extern int MessageBox(IntPtr hWnd, string text, string caption, int type);

  public static void Main()
  {
    MessageBox(IntPtr.Zero, "Please do not press this again.", "Attention", 0);
  }
}
  • 실제로 System.Windows 이름공간과 System.Windows.Forms 이름공간에 있는 MessageBox 클래스들이 이와 비슷한 비관리 메서드들을 이런 식으로 호출한다.
  • CLR에는 .NET 형식들과 비관리 형식들 사이에서 매개변수들과 반환 값들을 변환하는 방법을 아는 인도기(marshaler)가 있다.
    • 지금 예에서는 int 매개변수는 함수가 기대하는 4바이트 정수로 직접 대응되며, 문자열 매개변수는 2바이트 유니코드 문자들의 널 종료(null-terminated) 배열로 변환된다.
    • IntPtr은 비관리 핸들을 캡슐화 하도록 만들어진 하나의 구조체로, 그 너비는 32비트 플랫폼에서는 32비트이고 64비트 플랫폼에서는 64비트이다.

Continue reading

컴퓨터 과학 로드맵

교양 컴퓨터 과학 책. 제목만 보고 예상했던 것과 달리 알고리즘과 데이터에 대한 내용이 대부분이라서 기대와는 좀 달랐음. 하드웨어나 프로그래밍 언어론 같은 부분이 좀 다뤄질 줄 알았는데 그런 내용은 후반부에 조금 나온다.

그나저나 책에서도 인용 되는 내용이지만, 소프트웨어에 왜 과학(science)이나 공학(engineering)이라는 단어가 쓰이는지 궁금하다.

애초에 컴퓨터를 설계한 사람도 수학자이고, 소프트웨어는 논리를 기반으로 동작하기 때문에, 과학이나 공학보다는 수학과 좀 더 관계가 깊을 것 같은데, 왜 그런 용어가 붙었는지 궁금함. –비슷한 맥락에서 programmer를 software engineer라고 부르는 것도 적절하지 못하다고 생각함

물론 컴퓨터 하드웨어는 과학/공학이라는 말에 맞는 것 같긴 하지만.

C# 6.0 완벽 가이드/ 응용 프로그램 도메인

  • 응용 프로그램 도메인(appication domain)은 .NET 프로그램이 실행되는 하나의 실행 시점 격리 단위(unit of isolation)이다.
  • 응용 프로그램 도메인은 관리되는 메모리 경계로 작용하며, 적재된 어셈블리들과 응용 프로그램 구성 설정들을 담는 컨테이너이기도 하다. 또한 분산 응용 프로그램의 경우 통신의 경계를 나타내기도 한다.
  • 일반적으로 하나의 .NET 프로세스는 하나의 응용 프로그램 도메인을 수용한다. 프로세스 시동시 CLR이 자동으로 생성한 기본(default) 도메인이 바로 그것이다.
    • 그러나 한 프로세스가 응용 프로그램 도메인들을 더 생성하는 것이 가능하며, 종종 유용하다.
    • 응용 프로그램 도메인을 추가로 생성하면 개별 프로세스들을 둘 때 발생하는 통신상의 복잡한 문제를 피하면서도 코드 실행 단위들을 서로 격리할 수 있다.
    • 이러한 접근방식은 부하 검사나 응용 프로그램 부분 갱신(patching) 같은 시나리오에 유용하며 안정적인 오류 복구 메너티즘을 구현할 때에도 유용하다.
  • 이번 장은 Windows 스토어 앱이나 CoreCLR 앱과는 무관하다. 그런 앱에서는 오직 하나의 응용 프로그램 도메인만 사용할 수 있다.

응용 프로그램 도메인의 구조

  • 아래 그림은 단일 도메인, 다중 도메인, 그리고 전형적인 분산 클라이언트/서버 응용 프로그램 도메인 구조를 나타낸 것이다. 대부분의 경우, 응용 프로그램 도메인을 수용하는 프로세스들은 운영체제가 암묵적으로 생성한다. (예컨대 사용자가 .NET 실행 파일을 더블클릭하거나 Windows 서비스가 시작될 때)
    • 그러나 IIS 같은 다른 프로세스가 응용 프로그램 도메인을 가지거나 SQL Server가 CLR 통합을 통해서 응용 프로그램 도메인을 가지기도 한다.
  • 단순한 실행 파일에서 비롯된 프로세스는 기본 응용 프로그램 도메인의 실행이 끝나면 함께 끝난다. 그러나 IIS나 SQL Server 같은 호스트에서는 프로세스가 그 수명을 제어한다.
    • 즉 필요에 따라 .NET 응용 프로그램 도메인을 생성하고 파괴한다.

Continue reading

C# 6.0 완벽 가이드/ 병렬 프로그래밍

  • 이번 장에서는 다중 코어 프로세서의 활용을 목적으로 하는 다음과 같은 다중 스레드 API 들과 구축 요소들을 살펴본다.
    • PLINQ(Parallel LINQ; 병렬 LINQ)
    • Parallel 클래스
    • 작업 병렬성 구축 요소
    • 동시적 컬렉션(concurrent collection)
  • 이들은 모두 .NET Framework 4.0에서 도입되었다. 이들을 통틀어 PFX(Parallel Framework; 병렬 프레임워크)라고 부르기도한다.
    • 그리고 Parallel 클래스와 작업 병렬성 요소들을 합해서 TPL(Task Parallel Library; 작업 병렬 라이브러리)이라고 부른다.
  • 이번 장을 이해하려면 14장에서 말한 기본 개념들에 익숙해야 한다. 특히 잠근, 스레드 안전성, Task 클래스를 숙지할 필요가 있다.

PFX가 왜 필요한가?

  • 지난 10여년 사이에 CPU 제조사들은 단일 코어 프로세서에서 다중 코어 프로세서로 초점을 옮겼다. 이떄문에 예전처럼 그냥 CPU만 빠랄지면 단일 스레드 코드도 저절로 빨라지는 현상은 더는 기대할 수 없게 되었다. 이제 성능 향상을 위해서는 여러 개의 코어(core)를 제대로 활용해야 한다.
  • 서버 응용 프로그램들은 대부분 각 클라이언트 요청을 개별 스레드에서 처리하는 형태이므로 여러 코어를 활용하는 것이 어렵지 않다. 그러나 데스크톱 응용 프로그램은 그렇지 않다. 데스크톱 응용 프로그램에서 다중 코어를 활용하려면 프로그램 중 처리량이 많은 코드의 구조를 다음과 같은 형태로 개선해야 한다.
    1. 처리할 일거리를 더 작은 덩어리들로 분할(partitioning)한다.
    2. 각 덩어리를 다중 스레드 기법을 이용해서 병렬로 처리한다.
    3. 처리가 끝난 스레드들의 결과를 스레드에 안전한, 그리고 성능 효율적인 방식으로 취합(collating) 한다.
  • 이러한 개선을 고전적인 다중 스레드 적용 수단들을 이용해서 독자가 직접 수행할 수도 있지만, 그리 쉬운 일은 아니다. 특히 분할과 취합 단계가 까다롭다.
    • 게다가 다수의 스레드가 같은 자료를 동시에 다루는 경우 스레드 안전성 확보에 흔히 쓰이는 잠금 전략들을 그대로 적용하면 경합이 심해져서 성능이 떨어진다.
    • PFX 라이브러리들은 바로 이런 상황에 도움이 되도록 설계되었다.
  • 다중 코어 또는 다중 프로세서를 활용하는 프로그래밍을 병렬 프로그래밍(parallel programming)이라고 부른다. 병렬 프로그래밍은 그보다 더 넓은 개념인 다중 스레드 적용(multithreading)의 일부이다.

Continue reading

개발자도 궁금한 IT 인프라

제목 그대로 IT 인프라에 대한 이야기. 팟캐스트의 내용을 책으로 엮었다고 한다.

개인적으로는 DevOps 라는 분야에 대한 흥미와 하드웨어 관리에 대해 관심이 있어서 읽어봤는데, 읽기 전과 후의 지식 차이가 별로 없었다. 하드웨어에 대한 깊은 얘기는 아예 못 알아 듣고, 내가 알고 싶었던 부분에 대해서는 자세히 다뤄지지가 않았기 때문인 듯.

아는 만큼 이해할 수 있는 책이기 때문에 IT 인프라에 대한 지식이 갖춰진 사람은 가볍게 읽을 수 있을 듯.

C# 6.0 완벽 가이드/ 고급 스레드 기법

동기화 개요

  • 동기화(synchronization)란 동시에 실행되는 작업들이 예측 가능한 최종 결과를 내도록 그 작동을 조율하는 것을 말한다. 동기화는 여러 스레드가 같은 자료에 접근할 때 특히나 중요하다. 그런 코드를 작성할 때는 뭔가를 빼먹거나 잘못 구현하기가 놀랄만큼 쉽다
  • 가장 간단하고 유용한 동기화 도구는 14장에서 설명한 연속(continuation) 기능과 작업 조합기(task combinator)일 것이다. 동시적 프로그램을 다수의 비동기 연산들이 연속 작업 객체들과 조합기들로 연결된 구조로 만들면 잠금과 신호 전달의 필요성이 줄어든다.
    • 그렇지만 저수준 수단들을 동원해야 하는 경우도 여전히 존재한다.
  • 동기화 수단들은 크게 다음 세 부류로 나뉜다.
    • 독점 잠금
        • 독점 잠금(exclusive locking)은 한 번에 단 하나의 스레드만 어떠한 활동을 수행하거나 코드의 한 부분을 실행하게 만드는 수단이다. 독점 잠금은 여러 스레드가 서로 간섭하지 않고 공유 상태에 접근해서 상태를 변경할 수 있게 하는데 주로 쓰인다.
      • C#의 독점 잠금 수단으로는 lock과 Mutex, SpinLock이 있다.
    • 비독점 잠금
      • 비독점 잠금(nonexclusive locking)은 동시성을 제한하는 수단이다. 비독점 잠금 수단으로는 Semaphore(Slim)과 ReaderWriterLock(Slim)이 있다.
    • 신호 전달
      • 신호 전달(signaling)은 다른 스레드로부터 하나 또는 여러 개의 통지를 받을 때까지 한 스레드의 실행을 차단하는 수단이다.
      • 신호 전달 수단으로는 ManualResetEvents(Slim), AutoResetEvent, CountdownEvent, Barrier가 있다. 처음 셋을 이벤트 대기 핸들(event wait handles)이라고 부른다.
  • 비차단 동기화(nonblocking synchronization) 수단들을 이용해서 잠금 없이 공유 상태에 대한 동시적 연산을 수행하는 것도 가능하다.(까다롭긴 하지만)
    • 비차단 동기화 수단으로는 THread.MemoryBarrier, Thread.VolatileRead, Thread.VolatileWrite.volatile 키워드, Interlocked 클래스가 있다.

Continue reading

백종원의 장사 이야기

현재 가장 잘 나가는 요식업계의 큰 손 백종원씨의 장사 이야기. 그간의 컨설팅 경험을 엮어냈다고 한다.

성공한 사업가의 성공한 후 이야기이긴 하지만, 성공과 실패의 사이클을 두루 경험한 사람의 이야기인지라 새겨 들을만한 내용도 많고, 경험자만이 아는 이야기도 담겨 있어서 좋다. –나는 음식 장사를 할 생각은 없어서 나에게는 큰 도움은 안 되겠지만

흥미로운 점은 역시나 어느 분야든 성공한 사람에게는 통하는 부분이 있다는 것 –안나 카레니나의 법칙은 유효하다– 인내심을 강조하는 것이 참 마음에 닿았다. –다만 백종원씨처럼 몇년간 발생하는 적자를 감당할 수 있는 사람이 얼마나 있을지는 모르겠다.

스케일

개인적으로 좋아하는 복잡성을 주제로 한 책. 제목에서 짐작할 수 있듯이, 그중에서도 크기와 관련된 복잡성에 대한 이야기를 담고 있다.

생명체, 도시, 기업 등의 크기에 따른 대사율 변화와 망의 유사성에 대해 물리적인 수준에서 이해하고 그 규칙성을 — 1/4, 3/4 스케일링– 논하고 있는데, 기존에 접했던 복잡성 관련 책들에서는 다뤄지지 않았던 내용들이라 흥미롭게 읽었다. 차후에 별도로 공부를 해둬야겠다는 생각을 했음.  –복잡계에 나타나는 자기조직화, 자기유사성-프랙탈 구조 등은 결국 엔트로피-에너지와 물리적 제약을 이해하면 자연스럽게 따라오는 내용인 것 같다.

다만 도시와 기업의 차이에 대한 부분은 견해가 다른데, 도시가 초선형 스케일링이 가능하고 기업이 저선형 스케일링하는 것은 저자가 이야기하는 혁신의 문제가 아니라 대사 방식 –에너지를 흡수하고 엔트로피를 배출하는– 의 차이라고 생각 함. 도시는 구성원들의 세금을 통해 내부적으로 에너지를 확보할 수 있는 반면, 기업은 외부에서 에너지를 확보해서 내부 구성원들에 나눠줘야 하는 대사 방식의 차이로 도시는 대게 오래가는 반면, 기업은 대개 오래 못가는 것이라 생각 함. 도시도 인구가 줄면 망하는 도시는 얼마든지 나오게 마련인데, 저자가 미국에 살아서 일본과 같은 고령화 사회에서 나타나는 현상을 몰랐던게 아닐까 싶다.

개인적으로 배운게 많았고, 복잡성/복잡계는 우리가 실제적으로 부딪히는 현실 세계를 –소립자의 세계는 현실적으로 느끼기 어려운 영역이니– 잘 설명해 주는 분야이기 때문에 내용적으로는 추천할 만하지만, 복잡계 관련한 내용을 좀 접한 나도 따라가지 못한 부분들 –복잡계 자체보다는 물리학이나 생물학에 대한 내용– 좀 있어서 쉬운 책은 아니니 그것만 고려하면 될 듯.