Upstream and downstream in Requirement DevelopmentKent Ishizawa
オープンコミュニティ「要求開発アライアンス(http://www.openthology.org)」2008年4月度定例会の発表資料です。
Open Community "Requirement Development Alliance" 2008 April regular meeting of the presentation materials.
オープンコミュニティ「要求開発アライアンス」(http://www.openthology.org)の2008年10月定例会発表資料です。
Open Community "Requirement Development Alliance" 2008 October regular meeting of the presentation materials.
- The document summarizes an upcoming MogileFS Summit, including an overview of MogileFS, new features in version 2.0, and future plans. Key new features include code cleanup, a more robust replication process, and configurable replication policies. Future plans include improvements to the storage nodes, database partitioning, and parallel metadata files.
El documento habla sobre el Sistema Universitario UNIMINUTO, el cual agrupa instituciones universitarias que comparten un modelo educativo innovador con el objetivo de ofrecer educación superior de calidad y fácil acceso. Busca formar profesionales competentes y líderes de transformación social para construir un país justo. También menciona algunas metas del sistema para el año 2012.
Upstream and downstream in Requirement DevelopmentKent Ishizawa
オープンコミュニティ「要求開発アライアンス(http://www.openthology.org)」2008年4月度定例会の発表資料です。
Open Community "Requirement Development Alliance" 2008 April regular meeting of the presentation materials.
オープンコミュニティ「要求開発アライアンス」(http://www.openthology.org)の2008年10月定例会発表資料です。
Open Community "Requirement Development Alliance" 2008 October regular meeting of the presentation materials.
- The document summarizes an upcoming MogileFS Summit, including an overview of MogileFS, new features in version 2.0, and future plans. Key new features include code cleanup, a more robust replication process, and configurable replication policies. Future plans include improvements to the storage nodes, database partitioning, and parallel metadata files.
El documento habla sobre el Sistema Universitario UNIMINUTO, el cual agrupa instituciones universitarias que comparten un modelo educativo innovador con el objetivo de ofrecer educación superior de calidad y fácil acceso. Busca formar profesionales competentes y líderes de transformación social para construir un país justo. También menciona algunas metas del sistema para el año 2012.
This column discusses modern Python modules that can help alleviate issues caused by the Global Interpreter Lock (GIL) and enable scaling of Python applications across multiple CPU cores or machines. It notes that while the GIL simplifies the CPython implementation, it prevents true multi-threading. The column explores using multiple processes instead of threads to achieve parallelism. It highlights the subprocess module for basic cross-platform process management and Parallel Python for a more complete distributed processing solution. However, it also mentions that Parallel Python is not the only option and there are alternative solutions.
This document summarizes an article that discusses the financial crisis and proposed bailout. It provides background on how the housing bubble and subsequent bust led to losses for banks. Mortgage-backed securities spread risk but also enabled excessive leverage. Potential losses total hundreds of billions of dollars. While actual losses so far are smaller, future losses could be larger if housing prices decline further. The bailout aims to prevent cascading bank failures but risks moral hazard by rewarding past poor decisions.
A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categor...Hiroshi Ono
This document presents a probabilistic analysis of the Rocchio algorithm, a popular text categorization method, and compares it to a naive Bayes classifier. The analysis provides theoretical insight into Rocchio's heuristics, especially its TFIDF word weighting scheme. It suggests improvements that lead to a probabilistic variant of Rocchio called PrTFIDF. An empirical comparison on six text categorization tasks shows that PrTFIDF and the naive Bayes classifier perform better than the heuristic Rocchio classifier in terms of classification accuracy.
Este documento contiene una serie de preguntas cortas sobre colores de frutas, el sol, animales domésticos y los colores de la bandera sin proporcionar respuestas. También incluye algunas palabras sueltas como "buien" y "bien".
The document discusses text mining and natural language processing technologies and their applications in areas like customer relationship management (CRM), knowledge discovery from large text collections, web mining, text summarization and information retrieval. It provides an overview of text mining techniques and how they relate to fields such as data mining, machine learning, computational linguistics and information retrieval. The document also outlines challenges and opportunities in the area of text mining.
This document discusses event driven architecture (EDA) and domain driven design. It begins with an introduction to the speaker and an overview of EDA basics. It then describes problems with traditional SOA implementations, where domain logic gets split across many systems. The document proposes that exposing domain events on a shared event bus allows isolating cross-cutting functions to separate systems while keeping domain logic together. It provides examples of how this approach improves scalability and decouples systems. Finally, it outlines potential business benefits of using EDA like enabling complex event processing, business process management, and business activity monitoring on top of the domain events.
The document discusses trends and challenges facing information technology, including building a civic semantic web and waiving rights over linked data. It also discusses whether semantic technologies could permit meaningful brand relationships. The document contains a chart showing government department spending in the UK, with the Department of Health spending £105.7 billion, followed by local and regional government spending £34.3 billion, and the NHS spending £90.7 billion.
genpaxospublic-090703114743-phpapp01.pdfHiroshi Ono
This document summarizes an Erlang meeting held on July 3, 2009 in Tokyo. It discusses the gen_paxos Erlang module, which implements the Paxos consensus algorithm. Paxos is needed to solve problems like split-brains where data could become inconsistent without coordination between nodes. The document explains the key aspects of Paxos like its phases, data model in gen_paxos, and how nodes communicate through message passing in Erlang. It also provides references to related works and papers about Paxos.
pragmaticrealworldscalajfokus2009-1233251076441384-2.pdfHiroshi Ono
The document discusses Scala and functional programming concepts. It provides examples of building a chat application in 30 lines of code using Lift, defining case classes and actors for messages. It summarizes that Scala is a pragmatically oriented, statically typed language that runs on the JVM and has a unique blend of object-oriented and functional programming. Functional programming concepts like immutable data structures, functions as first-class values, and for-comprehensions are demonstrated with examples in Scala.
This document is the introduction to "The Little Book of Semaphores" by Allen B. Downey. It provides an overview of the book, which uses examples and puzzles to teach synchronization concepts and patterns. The book aims to give students more practice with these challenging concepts than a typical operating systems course allows. It also discusses the book's licensing as free and open source documentation.
This document provides style guidelines for Scala developers at Twitter. It outlines recommendations for imports, implicit usage, reflection, comments, whitespace, logging, project layout, variable naming conventions, and ends by thanking people for attending.
This document introduces developing a Scala DSL for Apache Camel. It discusses using Scala features like implicit conversions, passing functions as parameters, and by-name parameters to build a DSL. It provides examples of simple routes in the Scala DSL and compares them to Java. It also covers tooling for Scala in Maven and Eclipse and caveats like interacting with Java generics. The goal is to learn basic Scala concepts and syntax for building a Scala DSL, using Camel as an example.
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdfHiroshi Ono
The document discusses alternative concurrency paradigms to shared-state concurrency for the JVM, including software transactional memory which allows transactions over shared memory, message passing concurrency using the actor model where actors communicate asynchronously via message passing, and dataflow concurrency where variables can only be assigned once. It provides examples of how these paradigms can be used to implement solutions like transferring funds between bank accounts more elegantly than with shared-state concurrency and locks.
This document discusses using TCP/IP for high performance computing (HPC) applications. It finds that while TCP/IP can achieve bandwidth of 1 Gbps over short distances with low latency, the bandwidth degrades significantly over wide area networks with higher latency. It investigates tuning TCP parameters like socket buffer sizes to improve performance over high latency networks.
Martin Odersky outlines the growth and adoption of Scala over the past 6 years and discusses Scala's future direction over the next 5 years. Key points include:
- Scala has grown from its first classroom use in 2003 to filling a full day of talks at JavaOne in 2009 and developing a large user community.
- Scala 2.8 will include new collections, package objects, named/default parameters, and improved tool support.
- Over the next 5 years, Scala will focus on concurrency and parallelism features at all levels from primitives to tools.
- Other areas of focus include extended libraries, performance improvements, and standardized compiler plugin architecture.
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdfHiroshi Ono
This document discusses alternative concurrency paradigms for the Java Virtual Machine (JVM). It begins with an agenda and discusses how Moore's Law no longer solves concurrency problems as processors are becoming multi-core. It then discusses the problems with shared-state concurrency and how separating identity and value can help. The document introduces software transactional memory, message passing concurrency using actors, and dataflow concurrency as alternative paradigms. It uses examples of bank account transfers to demonstrate how these paradigms can be implemented and discusses their advantages over shared-state concurrency.
This document contains the schedule for a conference with sessions on various topics in natural language processing and computational linguistics. The conference will take place from September 14-16. Each day consists of morning and afternoon sessions split into parallel tracks (1a and 1b). Sessions cover areas like semantics, parsing, sentiment analysis, and more. Keynote speakers include Ricardo Baeza-Yates, Kevin Bretonnel Cohen, Mirella Lapata, Shalom Lappin, and Massimo Poesio. Presentations are 20 minutes each with coffee breaks in the mornings and poster sessions in the afternoons.
The article discusses the Guardian's Datastore project, which makes data of public interest freely available online for reuse. Some key points:
- The Datastore contains datasets on topics like MPs' expenses, carbon emissions, and public opinion polls. This data was previously hard to access but the web now allows easy access to billions of statistics.
- Making this data open and machine-readable supports the Guardian's tradition of fact-checking and transparency. It also encourages others to analyze and build upon the data in new ways.
- An early example involved crowdsourcing the review of 500,000 pages of MPs' expenses, revealing new insights. Other Guardian datasets like music recommendations and university rankings are now available for others
genpaxospublic-090703114743-phpapp01.pdfHiroshi Ono
This document summarizes a presentation on Paxos and gen_paxos. It introduces Paxos as a distributed consensus algorithm that is robust to network failures and allows data replication across multiple nodes. It then describes the gen_paxos Erlang implementation of Paxos, including its data model, state machine approach, and messaging between nodes. Key aspects of Paxos like the prepare and propose phases are explained through examples. The document also provides context on applications of Paxos and references for further reading.
1. 第 1 号 5 月 1 日発行
データ工学研究専門委員会ニュースレター 創刊
データ工学研究専門委員会 専門委員長からのご挨拶
データ工学研究専門委員会 専門委員長 川越恭二
立命館大学 情報理工学部
2008 年度より国内データベース組織が一体となって DB 関連の行事を企画し実行していくことにな
りました。同時に、本研究専門委員会(DE 研)もこれまでの研究会中心の活動からより広く DB の方々
にとって親しみやすい組織となるようにリニューアルを開始いたしました。今回のニュースレターはそ
の大きな一歩になるものと期待します。第一号の内容は DE 研が変化したことを示すようなコンテンツ
になったと感じます。今後も継続性を第一に考え DE 研の現状を踏まえて定期的にニュースレターを発
行していきたいと考えております。皆様からのご意見を頂戴できれば幸いです。最後に、第一号の鬼塚
編集委員長にはゼロからの立ち上げでご苦労がかなりあったと推察します。ここに厚くお礼申し上げま
す。
Index
ニュースレター創刊にあたり ............................................................................. 2
喜連川先生インタビュー..................................................................................... 4
斉藤先生インタビュー:本当に「使える」XML を目指して .......................... 16
SIGMOD2008 の Program Committee の経験を通して 小杉 尚子. 23
データ工学研究専門委員会からのお知らせ ..................................................... 27
-1-
データ工学専門委員会ニュースレター
2. ニュースレター創刊にあたり
DE 研ニュースレター第一号 編集委員長 鬼塚 真
NTT サイバースペース研究所
1. ニュースレター発行までの経緯について
2008 年度よりデータベース学会、情報処理学会の DBS 研、そして電子情報通信学会の DE 研の一体
運営が始まり、これを機に「DE 研の会員に対してよりよいサービスを提供できないか」ということを、
DE 研の専門委員長である川越先生を中心に DE 研幹事団で検討する機会がありました。そこで
「SIGMOD record のように一線の研究者のインタビューができないか」という旨を提案したところ、
快く採用していただき、この第一回の DE 研ニュースレター発行の運びとなりました。
自分はかねてから SIGOMD record の distinguished database researcher の記事を愛読していて、
そこには、経験のある研究者の研究や教育に関する体験談、その研究者の研究に対する取り組み姿勢、
そして時には人生に対する考え方があり、非常に学ぶことが多い貴重な記事だと感じています。記憶に
残っている言葉をいくつか引用してみます。
Jeffrey D. Ullman の若手に対するアドバイス。
You have to decide what game you are playing. What are you going for? Are you going for
reputation, are you going for dollars, are you going for happiness?
http://www.sigmod.org/sigmod/record/issues/0109/ullman2.pdf
Jennifer Widom の若手に対する国際会議に通らなかったときのアドバイス(斉藤先生のインタビュー
にも出てきます)
My advice is to get that fire going, hit the job with a passion, and don't get discouraged.
http://www.sigmod.org/sigmod/record/issues/0609/p57-column-winslett.pdf
ひるがえって日本を見ますと、いろいろな学会誌もあり、またこれまでの DBWS、DEWS のように
コミュニティは非常に活発ですが、SIGMOD record のインタビューのように内容が濃くて、人に影響
を与えるような記事がなかったと思います。そこで日本での著名な研究者の方の体験談をインタビュー
してDBコミュニティで共有したいと考えました。
-2-
データ工学専門委員会ニュースレター 第 1 号
2008/05/01
8. みましたら、「あなたの感想が聞きたいから」というのです。そうやって、分野の近い色々な人のとこ
ろで議論をふっかけて、どういう問題意識を自分のトピクスに対して持つのかということを事前に調査
しているわけで、しっかりした論文を書いている人は実は多くの努力をしておられます。
さて、もう一つ大切なことは、研究者の仕事はスポーツと同じでいかに速くやるかでしか評価されな
いということです。アメリカのテニュアは、5 年か 6 年かで何本論文が書けるかが勝負です。この期間
でどれくらい集中できるかで決まります。イタレーションのスピードが重要です。
しかし、一方で、国際会議に最適化した論文を書くことだけではむなしくもなりますので ほどほど
にしましょう。
CIDER はそういう背景から作られた会議です。又、Top conference の TOT(test of ten years, 10 年
チェック論文選定委員会、10年後に振り返ってみて、インパクトのある論文を選択するもの)の仕事を
したことがありますが、今はやりの citation で調べると驚くほどに多くの論文は引用されていません。
つまり、良い国際会議に採択されても、それ自体大変なことなのですが、インパクトという意味では、
まだまだ、距離があることがわかりましたし、google scholar、cite seer、 citation index で全然スコ
アが異なることも明確になり、唖然としたことがあります。やはり、
(言うのは簡単で、現実にはとて
も大変ですが)本質を見据えた研究が望まれるところです。
3. これまでのご自身の論文の中で好きな論文を選ぶとすればどの論文でしょうか?
思い出の大きな論文はたくさんあります。VLDB, ICDE, SIGMOD で約20本の論文を書きましたが、
なんといいますか、思い出が深いものも多く、多様な感情があります。
Application of Hash to Data Base Machine and Its Architecture
M Kitsuregawa, H Tanaka, T Moto-Oka - New Generation Computing, 1983
(ハッシュジョインの可能性を探る)
Hash-Partitioned Join Method Using Dynamic Destaging Strategy
M Nakayama, M Kitsuregawa, M Takagi VLDB 1988
(動的GRACEハッシュジョイン:ソフトウエアによる最適なハッシュジョイン実装法、東大基盤セ
ンター中山先生の力作です。ベンダは、なかなか明示はしてくれませんし、真相は定かではありません
が、米国の研究者の sigmod の論文に記載されている表現では、この手法は現在の DB ベンダーのハッ
シュジョインの実装のコアになっているとされています。)
Design and Implementation of High Speed Pipeline Merge Sorter with Run Length Tuning
Mechanism
M Kitsuregawa, W Yang, T Suzuki, M Takagi IWDM 1988
(ラン長動的最適化機構を組み込んだ超高速18段ハードウエアソータの実装、後にLSI化により商
用化。精華大学楊先生と東京高専の鈴木先生が猛烈なエネルギーと長期徹夜で作りこまれました。ある
-8-
データ工学専門委員会ニュースレター 第 1 号
2008/05/01
9. 時期、かなり多くの場所でご利用頂きましたが、プロセッサそのものが高速化され、最近は出番がなく
なり残念です。100MB の Datamation Sort benchmark で世界で始めて1秒を切りました。相当マ
ニアックなので、ご存知の方はほとんどおられないでしょう。)
Query execution for large relations on functional disk system
M Kitsuregawa, M Nakano, M Takagi - ICDE 1989
(機能ディスクシステム:ディスク一個とマイクロプロセッサ4つでハッシュジョインを実現し、ウィ
スコンシンベンチマークで桁違いの高速性を実証。中野美由紀さんが Ingres を移植し、徹夜でソフト
デバッグしました。DeWitt が日本に来た時にデモを見せたのを覚えています。)
Bucket spreading parallel hash: a new, robust, parallel hash join method for data skew in the super
database computer(SDC)
M Kitsuregawa, Y Ogawa - VLDB, 1990
(バケット平坦化ジョインの論文ですが、リコーの小川さんが頑張ってくださいました。後にSDCで
はこのネットワークをハードウエアで実装しました。所謂多段スイッチングネットワークにおいて、ス
イッチに工夫を凝らしたものです。京都大学の富田先生から、アーキテクチャの講義の題材としてご利
用頂いていると伺いました。)
Hot mirroring: a method of hiding parity update penalty and degradation during rebuilds for
RAID5
K Mogi, M Kitsuregawa - SIGMOD 1996
(ホットミラー型ディスクアレイ、日立の茂木さんが巨大なシミュレータソフトを作られました。博士
課程までで、vldb と sigmod にそれぞれ1本、計2つ論文を書いたのは茂木さんだけです。
)
Parallel Database Processing on a 100 Node PC Cluster: Cases for Decision Support Query
Processing and Data Mining
Tamura, T.; Oguchi, M.; Kitsuregawa, M. - Proc. of SuperComputing, ACM/IEEE 1997
(100ノードPCクラスタによる 超並列データベース、データマイニング処理系。相関ルールマイ
ニングの超並列化に試みた論文。SC:suprecomputing はHPC分野では top conference ですが、三菱
の田村さんとお茶の水大学の小口先生が当時はまだ筺体の大きい100個のパソコンを部屋一杯に並
べ悪戦苦闘されました。100 ノードの PC クラスタの構築と意味のあるアプリを96年の段階で稼働さ
せていたのは、我々のグループが最も早いチームの一つであったと思います。)
Parallel mining algorithms for generalized association rules with classification hierarchy
T Shintani, M Kitsuregawa - SIGMOD 1998
-9-
データ工学専門委員会ニュースレター 第 1 号
2008/05/01
27. データ工学研究専門委員会からのお知らせ
今後の行事予定など
DE 研ホームページ(リニューアルしました): http://www.ieice.org/iss/de/jpn/
DE 研スタッフ連絡先: de-staff@mail.ieice.org
研究会
6 月 D E 研 究 会 ( P R M U 共 催 , J DB フ ォ ー ラ ム と 併 設 )
日 時 :2008 年 6 月 19 日 (木 ),20 日 (金 )
場 所 :小 樽 市 民 会 館 (北 海 道 小 樽 市 )
U R L : h t tp : / / w w w . i e i c e . o r g / i s s / d e / j p n / j d b 2 0 0 8 . h t m l
国際会議
ACM SIGMOD/PODS
日 時 :2008 年 6 月 9 日 (月 )~12 日 (木 )
場 所 :カナダ バンクーバー
U R L : h t tp : / / w w w . s i g m o d 0 8 . o r g /
VLDB
日 時 :2008 年 8 月 24 日 (月 )~30 日 (木 )
場 所 :ニュージーランド オークランド
U R L : h t tp s : / / w w w . c s . a u c kl a n d . a c . n z / r e s e a r c h / co n f e re n ce s / v l d b 0 8
DE 研の登録について
データ工学研究専門委員会(DE 研)の登録(技術研究報告の予約購読)をよろしくお願いします。
◎技術研究報告予約の案内ページ: http://www.ieice.org/jpn/books/kenkyuuhoukoku.html
◎登録(予約購読)の申込書: http://www.ieice.org/jpn/books/gihoumoushikomisho.html
◎Web での申し込み: http://www.ieice.org/jpn/books/gkenkyuform.html
-27-
データ工学専門委員会ニュースレター 第 1 号
2008/05/01